Qualité des données

Dans cette vidéo (12:26), vous passerez en revue la terminologie utilisée dans ce cours. Si vous ne parvenez pas à regarder la vidéo intégrée, vous pouvez la télécharger localement. (MP4 - 44,5 Mo)
Vous trouverez ci-dessous une sélection de recommandation de lecture du guide d’Arthur Chapman “Principles of data quality”. Le document complet, des références et des traductions peuvent être trouvées sur GBIF.org.

Avant qu’une discussion détaillée sur la qualité des données et son application aux données d’occurrence des espèces puisse avoir lieu, il y a un certain nombre de concepts qui doivent être définis et décrits. Ceux-ci incluent le terme de qualité des données lui-même, les termes exactitude et précision qui sont souvent mal appliqués, et ce que nous entendons par données primaires sur les espèces et données d’occurrence des espèces.

Données d’occurrence d’espèces

Les données d’occurrence d’espèces sont utilisées ici pour inclure des données d’étiquettes de spécimens attachées à des spécimens ou des lots hébergés dans des musées et des herbiers, des données d’observation et des données d’enquêtes environnementales. En général, les données sont ce que nous appelons «basées sur des points», bien que des lignes (données de transect provenant d’enquêtes environnementales, des collectes le long d’une rivière), des polygones (observations à l’intérieur d’une zone définie comme un parc national) et des données de grille (observations ou les enregistrements d’enquête d’une grille régulière) sont également inclus. En général, nous parlons de données géoréférencées - c’est-à-dire d’enregistrements avec des références géographiques qui les lient à un endroit particulier dans l’espace - que ce soit avec une coordonnée géoréférencée (ex: latitude et longitude, UTM) ou non (description textuelle d’une localité, altitude, profondeur) - et l’heure (date, heure du jour).

En général, les données sont également liées à un nom taxonomique, mais des collections non identifiées peuvent également être incluses. Le terme a parfois été utilisé de manière interchangeable avec le terme “primary species data”.

Données primaires sur les espèces

«Les données primaires sur les espèces» sont utilisées pour décrire les données brutes des collections et les données sans aucun attribut spatial. Cela comprend des données taxonomiques et nomenclaturales sans attributs spatiaux, tels que des noms, des taxons et des concepts taxonomiques sans références géographiques associées.

Exactitude et Précision

L’exactitude et la précision sont régulièrement confondues et les différences ne sont généralement pas comprises.

La précision fait référence à la proximité des valeurs mesurées, des observations ou des estimations par rapport à la valeur réelle ou vraie (ou à une valeur acceptée comme vraie - par exemple, les coordonnées d’un point de contrôle de topographie).

La précision (ou résolution) peut être divisée en deux types principaux : la précision statistique est la proximité avec laquelle les observations répétées sont conformes à elles-mêmes. Ils n’ont rien à voir avec leur relation avec la valeur réelle et peuvent avoir une grande précision, mais une faible exactitude. La précision numérique est le nombre de chiffres significatifs dans lesquels une observation est enregistrée et est devenue beaucoup plus évidente avec l’avènement des ordinateurs. Par exemple, une base de données peut afficher un enregistrement de latitude/longitude décimale à 10 décimales, c’est-à-dire ca . 1 mm quand en réalité l’enregistrement a une résolution de moins de 10-100 m (3-4 décimales). Cela donne souvent une fausse impression à la fois de la résolution et de la précision.

Ces termes – exactitude et précision – peuvent être appliqués tant aux données non spatiales que spatiales. Par exemple, une collection peut avoir une identification au niveau des sous-espèces (i.e. avoir une grande précision), mais être le mauvais taxon (c’est-à-dire avoir une faible exactitude), ou être identifié uniquement au niveau de la famille (haute exactitude, mais faible précision).

Qualité des données

La qualité des données est multidimensionnelle et implique la gestion des données, l’analyse et la modélisation, l’assurance de la qualité et le contrôle, le stockage et la présentation. Comme l’ont déclaré Chrisman (1991) et Strong et al. (1997), la qualité des données est liée à l’utilisation et ne peut être évaluée indépendamment de l’utilisateur. Dans une base de données, les données n’ont pas de qualité ni de valeur réelle (Dalcin 2004) ; ils n’ont que de la valeur potentielle, qui est aperçu que lorsque quelqu’un utilise ces données pour faire quelque chose d’utile. La qualité de l’information se rapporte à sa capacité à satisfaire ses clients et à répondre aux besoins de ceux-ci (English 1999).

Redman (2001), a suggéré que pour que des données soient aptes à être utilisées, elles doivent être accessibles, exactes, opportunes, complètes, cohérentes avec d’autres sources, pertinentes, compréhensives, fournir un niveau de détail approprié, et être faciles à lire et à interpréter.

Un problème que le dépositaire des données pourrait devoir examiner est ce qu’il pourrait être nécessaire de faire avec la base de données pour augmenter sa convivialité pour un public plus large (i.e . - augmenter son utilisation potentielle ou sa pertinence) et la rendre donc plus adaptée à un large éventail de finalités. Il y aura un compromis entre une facilité d’utilisation accrue et la quantité d’efforts nécessaires pour ajouter des fonctionnalités supplémentaires et accroître cette facilité d’utilisation. Cela peut nécessiter des éléments tels que l’atomisation des champs de données, l’ajout d’informations de géo-référencement, etc.

Assurance Qualité/Contrôle de la Qualité

La différence entre le contrôle de la qualité et l’assurance de la qualité n’est pas toujours claire. Taulbee (1996) fait la distinction entre le contrôle de la qualité et l’assurance de la qualité et souligne que l’un ne peut exister sans l’autre si l’on veut atteindre les objectifs de qualité. Elle définit le contrôle de qualité comme un jugement de qualité basé sur des normes, des processus et des procédures internes établis pour contrôler et surveiller la qualité ; et l’Assurance de la qualité comme un jugement de qualité basé sur des normes externes au processus et est l’examen des activités et des processus de contrôle de la qualité pour s’assurer que les produits finis répondent à des normes de qualité prédéterminées.

Dans une approche plus orientée vers l’entreprise, Redman (2001) définit l’assurance de la qualité comme étant « les activités qui sont conçues pour produire des produits d’information sans défaut pour répondre aux besoins les plus importants des clients les plus importants au prix le plus bas possible».

La manière dont ces conditions doivent être appliquées dans la pratique n’est pas claire, et dans la plupart des cas, les termes semblent être largement utilisés de manière synonymique pour décrire la pratique générale de la gestion de la qualité des données.

Incertitude

L’incertitude peut être considérée comme une « mesure de l’incomplétude des connaissances ou des informations sur une quantité inconnue dont la valeur réelle pourrait être établie si un dispositif de mesure parfait était disponible » (Cullen and Frey 1999). L’incertitude est une propriété de la compréhension des données par l’observateur, et elle concerne davantage l’observateur que les données en soi. Il y a toujours une incertitude dans les données; la difficulté est d’enregistrer, de comprendre et de visualiser cette incertitude afin que d’autres puissent la comprendre. L’incertitude est un terme clé pour comprendre les risques et l’évaluation des risques.

Erreur

L’erreur englobe à la fois l’imprécision des données et leurs inexactitudes, et de nombreux facteurs contribuent à l’erreur. L’erreur est généralement perçue comme étant aléatoire ou systématique. L’erreur aléatoire tend à faire référence à une déviation de l’état réel de manière aléatoire. Une erreur systématique ou un biais résulte d’un changement uniforme des valeurs et est parfois décrit comme ayant une « exactitude relative » dans le monde cartographique (Chrisman, 1991). Dans la détermination de l’« adéquation à l’usage », une erreur systématique peut être acceptable pour certaines applications et ne pas convenir pour d’autres.

Un exemple peut être l’utilisation d’un datum géodésique1 différent - quand il est utilisé tout au long de l’analyse, il ne peut pas causer de problèmes majeurs. Des problèmes se poseront toutefois lorsqu’une analyse utilise des données de différentes sources et avec différents biais – par exemple des sources de données qui utilisent des données géodésiques différentes, ou lorsque des identifications peuvent avoir été effectuées en utilisant une version antérieure d’un code nomenclatural.

« Parce que l’erreur est inévitable, elle devrait être reconnue comme une dimension fondamentale des données » (Chrisman, 1991). Il est seulement possible de répondre aux questions sur les limitations des données, et même sur les limites des connaissance actuelles lorsque l’erreur est incluse dans la représentation des données. Les erreurs connues dans les trois dimensions de l’espace, de l’attribut et du temps doivent être mesurées, calculées, enregistrées et documentées.

Validation et nettoyage

La validation est un processus utilisé pour déterminer si les données sont inexactes, incomplètes ou déraisonnables. Le processus peut inclure des vérifications de format, des vérifications de complétude, des vérifications du caractère raisonnable, des vérifications de limite, un examen des données pour identifier les aspects aberrants (géographiques, statistiques, temporels ou environnementaux) ou autres erreurs, et l’évaluation des données par des experts du domaine (I.e. spécialistes taxinomiques). Ces processus se traduisent généralement par le signalement, la documentation et la vérification ultérieure des enregistrements suspects. Les contrôles de validation peuvent également impliquer la vérification de la conformité aux standards, aux règles et aux conventions applicables. Une étape clé de la validation et du nettoyage des données est d’identifier les causes profondes des erreurs détectées et de se concentrer sur la prévention de la réapparition de ces erreurs (Redman 2001).

Le nettoyage des données (appelé « data cleaning » en anglais) désigne le processus de « correction » des erreurs dans les données qui ont été identifiées au cours du processus de validation. Le terme est synonyme de « purification des données » (« data cleansing » en anglais), bien que certains utilisent le terme purification des données pour englober à la fois la validation et le nettoyage des données. Dans le processus de nettoyage des données, il est important que les données ne soient pas perdues par inadvertance et que les changements apportés aux informations existantes soient effectués avec le plus grand soin. Il est souvent préférable de conserver à la fois les anciennes (données originales) et les nouvelles (données corrigées) côte à côte dans la base de données de sorte que si des erreurs sont commises dans le processus de nettoyage, les informations originales peuvent être récupérées.