Calidad de los datos

En este vídeo (12:26), se repasa la terminología utilizada en este curso. Si no puede ver el vídeo incrustado, puede descargalo localmente. (MP4 - 38,5 MB)
A continuación encontrará una lectura seleccionada de la guía de Arthur Chapman “Principles of data quality”. Puede encontrar el documento completo, las referencias y traducciones en GBIF.org.

Antes de que pueda tener lugar una discusión detallada sobre calidad de los datos y su aplicación a datos de presencia de especies, hay una serie de conceptos que necesitan ser definidos y descritos. Estos incluyen el término calidad de los datos en sí, los términos exactitud y precisión que a menudo son mal aplicados, y lo que entendemos por datos primarios de especies y datos de presencia de especies.

Datos de presencia de especies

El término datos de presencia de especies se utiliza aquí para incluir los datos de las etiquetas de los especímenes o los lotes que se encuentran en los museos y herbarios, los datos de observaciones y de estudios ambientales. En general, los datos son lo que denominamos "basados en puntos", aunque también se incluyen los datos lineales (datos de transectos de estudios ambientales, colectas a lo largo de un río), poligonales (observaciones dentro de un área definida, como un parque nacional) y cuadriculados (observaciones o registros de encuestas de una cuadrícula regular). En general, se trata de datos georreferenciados, es decir, registros con referencias geográficas que los vinculan a un lugar concreto en el espacio, ya sea con una coordenada georreferenciada (por ejemplo, latitud y longitud, UTM) o no (descripción textual de una localidad, altitud, profundidad), y tiempo (fecha, hora del día).

En general, los datos también están vinculados a un nombre taxonómico, pero las colectas no identificadas también pueden ser incluidas. De vez en cuando, el término se ha utilizado de forma intercambiable con el término “datos primarios de especies”.

Datos primarios de especies

El término "datos primarios de especies" se utiliza para describir los datos crudos de colecta y los datos sin atributos espaciales. Incluye datos taxonómicos y de nomenclatura sin atributos espaciales, como nombres, taxones y conceptos taxonómicos sin referencias geográficas asociadas.

Exactitud y precisión

La exactitud y la precisión se confunden a menudo y generalmente las diferencias no se entienden.

Exactitud se refiere a la cercanía de los valores medidos, de las observaciones o de las estimaciones al valor real o verdadero (o con un valor que se acepta como verdadero, por ejemplo, las coordenadas de un punto de control).

La precisión (o resolución) se puede dividir en dos tipos principales. La precisión estadística es la cercanía con la que las observaciones repetidas se ajustan a sí mismas. No tienen nada que ver con su relación con el valor real y pueden tener alta precisión, pero poca exactitud. La precisión numérica es la cantidad de dígitos significativos en los que se registra una observación y se ha vuelto mucho más obvia con la llegada de las computadoras. Por ejemplo, una base de datos puede mostrar un registro de latitud/longitud con 10 decimales, es decir, unos 0.01 mm, cuando en realidad el registro tiene una resolución no superior a 10-100 m (3-4 decimales). Esto a menudo conduce a una falsa impresión tanto de la resolución como de la precisión.

Estos términos (exactitud y precisión) pueden aplicarse tanto a los datos no espaciales como a los espaciales. Por ejemplo, una colecta puede tener una identificación a nivel de subespecie (es decir, tener alta precisión), pero ser del taxón incorrecto (es decir, tener baja exactitud) o estar identificada solo a nivel de Familia (alta exactitud, pero baja precisión).

Calidad de los datos

La calidad de los datos es multidimensional e implica la gestión, el modelado y el análisis de los datos, así como el control de calidad y de seguridad, el almacenamiento y la presentación. Como se indica de forma independiente por Chrisman (1991) y Strong et al. (1997), la calidad de los datos está relacionada con el uso y no puede evaluarse independientemente del usuario. En una base de datos, los datos no tienen calidad ni valor real (Dalcin 2004); sólo tienen un valor potencial que se realiza sólo cuando alguien utiliza los datos para hacer algo útil. La calidad de la información está relacionada con su capacidad de satisfacer a sus clientes y de responder a sus necesidades (English 1999).

Redman (2001), sugiere que para que los datos sean aptos para el uso deben ser accesibles, precisos, oportunos, completos, coherentes con otras fuentes, pertinentes, exhaustivos, proporcionar un nivel de detalle adecuado, ser fáciles de leer y fáciles de interpretar.

Un tema que un custodio de datos necesita considerar es lo que puede ser necesario hacer con la base de datos para aumentar su usabilidad a un público más amplio (es decir, aumentar su potencial uso o relevancia) y, por lo tanto, hacerla apta para una gama más amplia de propósitos. En este caso, habrá un equilibrio entre el aumento de la usabilidad y la cantidad de esfuerzo necesario para añadir funcionalidad y usabilidad adicionales. Esto puede requerir cosas como segmentar los campos de datos, añadir información de georreferenciación, etc.

Garantía de calidad/Control de calidad

La diferencia entre control de calidad y garantía de calidad no siempre es clara. Taulbee (1996) hace la distinción entre "control de calidad" y "garantía de calidad" y enfatiza que uno no puede existir sin el otro si se quieren alcanzar los objetivos de calidad. Ella define el "control de calidad" como un juicio sobre la calidad basado en estándares, procesos y procedimientos internos establecidos para controlar y monitorear la calidad; y "garantía de calidad" como un juicio sobre la calidad basado en estándares externos al proceso y es la revisión de las actividades y los procesos de control de calidad para asegurar que los productos finales cumplan con los estándares de calidad predeterminados.

En un enfoque más orientado a los negocios, Redman (2001) define la garantía de calidad como “aquellas actividades que están diseñadas para producir productos de información libres de defectos para satisfacer las necesidades más importantes de los clientes más importantes, al menor costo posible”.

No está claro cómo deben aplicarse estos términos en la práctica y, en la mayoría de los casos, parecen utilizarse como sinónimos para describir la práctica general de la gestión de la calidad de los datos.

Incertidumbre

La incertidumbre puede considerarse como una "medida del grado de incompletitud del conocimiento o de la información sobre una cantidad desconocida cuyo valor real podría establecerse si se dispusiera de un dispositivo de medición perfecto" (Cullen y Frey 1999). La incertidumbre es una propiedad de la comprensión de los datos por parte del observador, y se trata más del observador que de los datos en sí. Siempre hay incertidumbre en los datos; la dificultad está en registrar, comprender y visualizar esa incertidumbre para que otros también puedan comprenderla. La incertidumbre es un término clave para comprender el riesgo y la evaluación del riesgo.

Error

El error abarca tanto la imprecisión de los datos como su inexactitud. Hay muchos factores que contribuyen al error. En general, se considera que el error es aleatorio o sistemático. El error aleatorio suele referirse a la desviación del estado real de manera aleatoria. El error o sesgo sistemático surge de un cambio uniforme en los valores y a veces se describe como de "exactitud relativa" en el mundo cartográfico (Chrisman 1991). Al determinar la "aptitud para el uso", el error sistemático puede ser aceptable para algunas aplicaciones y no apto para otras.

Un ejemplo puede ser el uso de un datum geodésico diferente, que, si se utiliza en todo el análisis, puede no causar ningún problema importante. Sin embargo, los problemas surgirán cuando un análisis utilice datos de diferentes fuentes y con diferentes sesgos, por ejemplo, fuentes de datos que utilicen diferentes datums geodésicos, o cuando las identificaciones se hayan realizado utilizando una versión anterior de un código de nomenclatura.

"Dado que el error es ineludible, debe reconocerse como una dimensión fundamental de los datos" (Chrisman 1991). Sólo cuando el error se incluye en una representación de los datos es posible responder a preguntas sobre las limitaciones de los datos e incluso sobre las limitaciones del conocimiento actual. Los errores conocidos en las tres dimensiones de espacio, atributo y tiempo deben medirse, calcularse, registrarse y documentarse.

Validación y limpieza

La validación es un proceso que se utiliza para determinar si los datos son inexactos, incompletos o irrazonables. El proceso puede incluir verificaciones de formato, verificaciones de integridad, verificaciones de razonabilidad, verificaciones de límites, revisión de los datos para identificar valores atípicos (geográficos, estadísticos, temporales o ambientales) u otros errores, y evaluación de datos por expertos en el área temática (por ejemplo, especialistas en taxonomía). Estos procesos suelen dar lugar a la señalización, documentación y posterior comprobación de los registros sospechosos. Los controles de validación también pueden implicar la comprobación del cumplimiento de los estándares, reglas y convenciones aplicables. Una etapa clave en la validación y limpieza de datos es identificar las causas fundamentales de los errores detectados y centrarse en evitar que esos errores vuelvan a producirse (Redman 2001).

La limpieza de datos se refiere al proceso de "corregir" errores en los datos que se han identificado durante el proceso de validación. El término es sinónimo de "limpieza de datos", aunque algunos utilizan la limpieza de datos para abarcar tanto la validación como la limpieza de datos. Es importante que en el proceso de limpieza de datos no se pierdan datos por descuido y que los cambios en la información existente se realicen con mucho cuidado. A menudo es mejor conservar tanto los datos antiguos (datos originales) como los nuevos (datos corregidos) uno al lado del otro en la base de datos para que, si se cometen errores en el proceso de limpieza, se pueda recuperar la información original.