Soluciones de la revisión de gestión de datos

¿Por qué es mejor limpiar sus datos?

  • para hacerlos tan aptos para el uso ("fit for use") como sea posible

  • para lograr sus objetivos de calidad de datos

Siempre debe aspirar a administrar y publicar datos con la mayor calidad posible. Esto mejorará su trabajo diario (es más fácil trabajar con datos organizados y limpios), así como el trabajo de los potenciales reutilizadores de sus datos, que necesitan comprenderlos y confiar en su fuente antes de usarlos.

¿Cómo debe organizar su flujo de trabajo de limpieza de datos?

  • pregunta a sus colegas experimentados

  • trabajar a nivel institucional para armonizar los flujos de trabajo de calidad de datos

No se espera que alguien sepa todo sobre datos de biodiversidad; debe buscar ayuda y consejo de sus colegas u otras personas con conocimientos y asegurarse de que está aplicando las buenas prácticas recomendadas por su institución a medida que limpia sus datos.

Qué es mejor:

  • evitar que se generen errores

  • corregir los errores tan pronto como los encuentre en su base de datos o hoja de cálculo

La mejor manera de evitar la propagación de errores en sus datos es evitar que ocurran al inicio del proceso de colecta/registro de datos.

Por supuesto, los errores son inevitables, así que debería limpiarlos tan pronto como los encuentre, y documentar el proceso de limpieza.

Si no tiene tiempo o recursos para limpiar adecuadamente sus datos, es mejor esperar a poder hacerlo en lugar de publicar datos erróneos que puedan confundir a la gente.

¿Quién es responsable por la calidad de los datos?

  • Todos los involucrados en la gestión de datos

Cada persona involucrada en la gestión del flujo de trabajo de datos es, al menos parcialmente, responsable por su calidad, desde los técnicos de campo hasta los administradores de bases de datos.

Las personas que puedan usar sus datos más adelante, pueden informarle de cualquier error restante en sus datos y deben usarlos de manera responsable para su propia investigación, pero la calidad de los datos iniciales no es su responsabilidad.

GBIF puede realizar comprobaciones automáticas de sus datos (p. ej., detección de valores perdidos, valores geográficos atípicos, nombres científicos desconocidos), pero no debe responsabilizarse de los errores que hayan ocurrido anteriormente en el proceso de gestión de datos.

¿Qué herramientas se pueden utilizar para limpiar sus datos?

  • Excel y otras herramientas de gestión de hojas de cálculo

  • OpenRefine

  • Su software de base de datos

  • Herramientas online como el Scientific Names Resolver o Google Maps

Se pueden usar todo tipo de herramientas para limpiar sus datos, pero debe identificar cuáles responderán a sus necesidades en términos de resolución taxonómica, georreferenciación, eliminación de duplicados, etc. Puede encontrar herramientas útiles enumeradas en la sección de gestión de datos.