Gérer la qualité des données

Déterminer la précision et l’exactitude des données à utiliser est une étape clé pour déterminer l’utilité des données pour tout objectif prévu. Bien que le GBIF puisse contribuer à l’identification de certains problèmes de qualité qui surviennent dans le cadre du flux de publication des données, le traitement de certains problèmes de qualité nécessite des connaissances spécialisées supplémentaires. Les deux problèmes les plus courants pour lesquels elles peuvent être nécessaires sont les suivants :

  • Carences en données - l’échantillonnage entre les groupes taxonomiques et les régions géographiques n’est pas égal et les utilisateurs peuvent avoir besoin de prendre en compte le biais d’échantillonnage dans leurs analyses avant que les données puissent être utilisées efficacement.

  • Mauvaise identification taxonomique - certains groupes taxonomiques peuvent nécessiter des informations supplémentaires pour s’assurer que les taxons ont été correctement identifiés tels que les images, vidéos et enregistrements audio qui accompagnent les données ou les informations sur le collecteur.

Les signaux GBIF pour les problèmes de qualité des données

Pendant le processus d’indexation, le GBIF assigne des problèmes et des signaux aux données pour les problèmes courants de qualité des données. Ceux-ci se produisent le plus souvent à partir d’erreurs de saisie de données ou de champs de données manquants dont l’interprétation peut être automatisée centralement par GBIF. Ces interprétations sont classées comme

  • Exclues - lorsque les données originales n’ont pas pu être interprétées, elles sont donc exclues des champs interprétés.

  • Modifiées - lorsque les données originales sont modifiées dans le processus d’interprétation pour les indexer sur GBIF.org.

  • Inférées - lorsqu’un champ vide est déduit en utilisant d’autres informations de l’enregistrement.

Sachez que si vous filtrez pour des problèmes de qualité des données, vous devriez inverser le filtre pour exclure les données qui ont été signalées avec ce problème. Vous pouvez également voir les données verbatim c’est-à-dire les données non interprétées dans une Archive Darwin Core si vous souhaitez valider le processus d’interprétation.

Comment puis-je améliorer la qualité des données ?

Les fournisseurs de données ont la responsabilité d’améliorer la qualité des données, et en tant qu’utilisateur, vous jouez un rôle clé dans l’identification des erreurs. Si vous trouvez une erreur dans les données, vous devez contacter directement l’éditeur en utilisant les coordonnées fournies par GBIF sur la page de l’éditeur. Le GBIF permet également aux utilisateurs d’enregistrer les problèmes de qualité des données en utilisant le bouton "Commentaires et questions" sur la barre du menu de GBIF.org.