Solutions des révisions sur la gestion des données
Pourquoi est-il préférable de nettoyer vos données ?
-
pour les rendre aussi utilisables que possible
-
pour atteindre vos objectifs de qualité des données
Vous devriez toujours vous efforcer de gérer et de publier des données de la meilleure qualité possible. Cela améliorera votre travail quotidien (il est plus facile de travailler avec des données organisées et bien nettoyées), ainsi que le travail des réutilisateurs potentiels de vos données, qui ont besoin de les comprendre et de faire confiance à leur source avant de les utiliser.
Comment devriez-vous organiser votre processus de nettoyage des données ?
-
sollicitez vos collègues pour obtenir l’expertise qui vous manque
-
travaillez au niveau institutionnel pour harmoniser les processus concernant la qualité des données
Personne n’est censé tout savoir sur les données sur la biodiversité ; vous pouvez demander de l’aide et des conseils à vos collègues ou à d’autres personnes expertes dans leur domaine, et vous assurez que vous appliquez les bonnes pratiques recommandées par votre institution lorsque vous nettoyez vos données.
Qu’est-ce qui est le mieux :
-
empêcher les erreurs de se produire
-
corriger les erreurs dès que vous les trouvez dans votre base de données ou dans votre feuille de calcul
La meilleure façon d’éviter de propager des erreurs dans vos données est de les empêcher de se produire au début du processus de collecte/enregistrement des données.
Bien sûr, les erreurs sont inévitables. Vous devriez donc les nettoyer dès que vous les trouvez et documenter le processus de nettoyage.
Si vous n’avez pas le temps ou les ressources pour nettoyer correctement vos données, Il est préférable d’attendre de pouvoir le faire au lieu de publier des données erronées, qui pourraient perturber le travail des personnes souhaitant les réutiliser.
Qui est responsable de la qualité des données ?
-
Toutes les personnes impliquées dans la gestion des données
Chaque personne impliquée dans votre processus de gestion des données est au moins en partie responsable de leur qualité, des techniciens de terrain au(x) gestionnaire(s) de la base de données.
Les personnes qui pourraient ultérieurement utiliser vos données peuvent vous informer de toute erreur restante dans vos données, et devraient les utiliser de manière appropriée pour leurs propres recherches, mais la qualité initiale des données n’est pas leur responsabilité.
Le GBIF peut effectuer des vérifications automatiques sur vos données (par ex. la détection des valeurs manquantes, des aberrations géographiques, des noms scientifiques inconnus) mais ne peut pas être tenu responsable des erreurs qui se sont produites plus tôt dans le processus de gestion des données.
Quels outils peuvent être utilisés pour nettoyer vos données ?
-
Excel et autres outils de gestion des feuilles de calcul
-
OpenRefine
-
Votre logiciel de base de données
-
Des outils en ligne tels que le Scientific Names Resolver ou Google Maps
Tous types d’outils peuvent être utilisés pour nettoyer vos données, mais vous devez identifier ceux qui répondront à vos besoins en termes de réconciliation taxonomique, de géo-référencement, de suppression des doublons, etc. Vous pouvez trouver la liste des outils utiles dans la section dédiée à la gestion des données.