Consejos para el ejercicio
Comprobaciones de validación
Errores técnicos Relativamente sencillos, a menudo automatizables, comprobación de la integridad de los datos. Pueden indicar exportaciones incorrectas, mapeo de datos, desplazamientos de campos (p. ej., desplazamiento de una columna a la derecha) o falta de datos en la fuente.
-
Completitud: Si todos los datos y metadatos están disponibles: ¿están presentes todos los campos?, ¿están completos todos los campos?
-
Límites: Por ejemplo, son días dados en el rango 1-31 (dependiendo del mes)
-
Tipo de datos: Por ejemplo, ¿el campo Fecha contiene una fecha o un número?
-
Formato de datos: Por ejemplo, ¿las fechas se proporcionan como 01/01/2010 o 01/ene/10?
Errores de consistencia
Aplicación de reglas del mundo real a los datos. Pueden indicar la entrada incorrecta de datos a partir de registros antiguos, errores de transcripción o procesamiento posterior. Algunas son complejas de implementar y requieren conjuntos de datos de referencia para su comprobación. Por ejemplo, una lista de colectores conocidos y hábitos de colecta. Estas reglas se pueden recopilar de los usuarios y analistas de datos.
-
Taxonómico: Por ejemplo, si se ha identificado a nivel de especie, ¿se ha proporcionado un nombre científico binomial y entradas en los campos de género y especie?
-
Aceptación general: ¿Son coherentes las fechas de recopilación, identificación, actualización y digitalización?
-
Valores atípicos: Detecte los valores atípicos, pero recuerde que no todos los valores atípicos son necesariamente errores. Por ejemplo, compárelos con un rango de especies conocido, o con un rango ambiental conocido (pero recuerde que los valores atípicos pueden ser identificaciones incorrectas, en lugar de coordenadas incorrectas).
-
Geográfico: ¿Están las coordenadas dentro de la localidad o región identificada? Por ejemplo, ¿hay registros terrestres en el mar o registros marinos en tierra?
-
Patrones de colecta: ¿El detalle del registro coincide con los patrones de colecta conocidos de la organización o el colector? ¿Parece que se han creado registros después de la muerte de un colector (¿podría ser un colector diferente con un nombre similar)? Por ejemplo, ¿se atribuyen registros de mamíferos a un grupo de observación de aves?
-
Exactitud y precisión: Por ejemplo, ¿hay algún registro georreferenciado que indique una precisión o exactitud muy alta en un período de colecta anterior al GPS (o previo a los GPS exactos)?
-
Métodos de coleta: Los diferentes métodos de muestreo (por ejemplo, transectos y levantamientos de área) tienen características particulares. ¿Los registros son consistentes con el método proporcionado?
Herramientas útiles
-
GBIF Name Parser: https://www.gbif.org/tools/name-parser
-
Global Names Resolver: http://resolver.globalnames.org
-
Catalogue of Life name match: https://data.catalogueoflife.org/tools/name-match
-
Calculadora de georreferenciación: http://georeferencing.org/georefcalculator/gc.html
-
Convertidor de coordenadas Canadensys: http://data.canadensys.net/tools/coordinates
-
Análisis de fechas de Canadensys: http://data.canadensys.net/tools/dates
-
Google Maps: https://maps.google.com/