Ejercicio 3a-c

Para estos ejercicios, realizará verificaciones técnicas y controles de validación de consistencia, mejorará los datos con diferentes herramientas y aprenderá a usar OpenRefine.

Leer USE CASE I (si no lo has hecho ya).

Su institución es parte de la “Asociación Global de Poales (GPA)”. Esta asociación ha obtenido fondos para publicar una flora actualizada sobre el grupo y ha solicitado a su herbario que participe y proporcione los registros de alta calidad que pueda tener sobre este orden de plantas. El pedido está bien representado en su colección, por lo que cree que podría contribuir sustancialmente a este esfuerzo.

Ejercicio 3a

Controles de validación

En este ejercicio nos centraremos en errores técnicos y realizaremos una comprobación básica de validación para identificar errores técnicos. Consulte Comprobaciones de validación para obtener información sobre los tipos de errores.

  1. Descargue UC1-3ab-data-cleaning.csv. (207.5 KB)

  2. Importe el archivo CSV en Excel usando el asistente de Excel. Consulte este Excel-tips-EN.pdf (PDF, 7 MB) para obtener instrucciones de importación para su sistema operativo (Windows, Mac, Linux).

  3. Encuentre y corrija los errores manualmente.

  4. Utilice la hoja de ejercicios, previamente descargada, para proporcionar sus respuestas.

Ejercicio 3b

Otras herramientas de gestión de datos

La asociación GPA le ha proporcionado una lista de elementos de calidad de datos que debe verificar:

  • Todos los nombres de las plantas (nombre completo) están escritos correctamente

  • Todos los nombres de las plantas pertenecen al pedido

  • Todos los registros tienen coordenadas

  • Todas las coordenadas están dentro del país indicado y convertidas a formato decimal

  • Todas las fechas están en la columna correspondiente y en el formato AAAA-MM-DD

Las tres categorías de errores son:

  • Errores de nomenclatura

  • Errores de formato

  • Errores geográficos / valores atípicos

    1. Consulte Herramientas útiles para completar el ejercicio. No está limitado a estas herramientas, puede utilizar cualquier herramienta que desee.

    2. Utilice el mismo archivo del ejercicio anterior.

    3. Haga la corrección SOLO para la familia Eriocaulaceae (por lo que puede querer filtrar los datos)

    4. Corrija los errores encontrados en el conjunto de datos usado en el ejercicio 3a (ejercicio anterior), usando las herramientas de su elección, y documente los cambios que realiza en la hoja de ejercicio.

    5. Corrija todo el archivo si tiene tiempo.

    6. Utilice la hoja de ejercicios, previamente descargada, para proporcionar sus respuestas.

Ejercicio 3c

En este vídeo (03:27) aprenderá sobre OpenRefine. Puede utilizar OpenRefine para estandarizar y mejorar la calidad de sus datos. Si no puede ver el vídeo incrustado, puede descargalo localmente. (MP4 - 3.8 MB)

OpenRefine

En este ejercicio utilizamos OpenRefine para mejorar la calidad de un conjunto de datos utilizando las funcionalidades predeterminadas, los servicios web existentes y las expresiones regulares.

  1. Descargue UC1-3c-open-refine.csv. (207.5 KB)

  2. Descargue y complete los ejercicios disponibles en OpenRefine-Exercise3c-EN.pdf. (PDF, 1.1 MB) También disponibles en Frances y Español.

  3. Utilice la hoja de ejercicios, previamente descargada, para proporcionar sus respuestas.