Conseils pour l’exercice
Contrôles de validation
Erreurs techniques Relativement simples, il est souvent possible d’automatiser les vérifications liées à l’intégrité des données. Celles-ci peuvent indiquer des problèmes d’exportations de fichier, de cartographie de données, de glissement de champ (par exemple le déplacement involontaire d’une colonne vers la droite) ou des données manquantes à la source.
-
Complétude : Vérifiez si toutes les données et métadonnées sont disponibles – tous les champs sont-ils présents, tous les champs sont-ils remplis ?
-
Limites : Par exemple, les jours sont-ils renseignés entre les bornes 1 et 31 (selon le mois)
-
Type de données : Par exemple, le champ Date contient-il une date ou un nombre ?
-
Format des données : Par exemple, les Dates sont-elles fournies sous la forme 01/01/2010 ou 01/Jan/10 ?
Erreurs de cohérence
Application de règles réelles aux données. Ces règles peuvent indiquer une saisie incorrecte de données provenant d’anciens enregistrements, d’erreurs de transcription ou de post-traitement. Certaines sont complexes à implémenter et requièrent que les jeux de données de référence soient vérifiés, par exemple une liste des collectionneurs connus et des habitudes de collecte. Ces règles peuvent être recueillies auprès des utilisateurs de données et des analystes.
-
Erreurs taxonomiques : Par exemple, si une occurrence est identifiée au niveau de l’espèce, un nom scientifique et des entrées dans les champs du genre et de l’espèce ont-ils été fournis ?
-
Erreurs de dates : Les dates de collecte, d’identification, de mise à jour et de numérisation sont-elles cohérentes ?
-
Valeurs aberrantes : Détectez les valeurs aberrantes, mais n’oubliez pas que toutes les aberrations ne sont pas nécessairement des erreurs. Par exemple, comparez avec une répartition d’espèce connue, ou une aire environnementale connue (mais n’oubliez pas que les valeurs aberrantes peuvent être de fausses identifications, plutôt que des coordonnées incorrectes).
-
Erreurs géographiques : Les coordonnées sont-elles dans la localité ou la région identifiée ? Par exemple, y a-t-il des occurrences terrestres dans la mer ou les occurrences marines sur terre ?
-
Protocoles de collecte : Est-ce que le détail de l’occurrence correspond aux protocoles connus de collecte de l’organisation ou du collecteur ? Des enregistrements semblent-ils avoir été créés après la mort d’un collecteur (cela pourrait-il être un collecteur différent avec un nom similaire) ? Par exemple, des enregistrements de mammifères sont-ils attribués à une association d’observation d’oiseaux ?
-
Exactitude et précision : Par exemple, y a-til des des enregistrements géoréférencés indiquant une très grande exactitude ou précision alors qu’ils ont été recueillis avant l’utilisation des GPS ? (ou des GPS très précis)
-
Méthodes de collecte : Les différentes méthodes d’arpentage (ex: transects et exploration de parcelles) ont des caractéristiques particulières. Les enregistrements sont-ils cohérents avec la méthode fournie ?
Outils utiles
-
Outil GBIF de séquençage des noms scientifiques : https://www.gbif.org/tools/name-parser
-
Global Names Resolver : http://resolver.globalnames.org
-
Correspondance de nom de Catalogue of Life : https://data.catalogueoflife.org/tools/name-match
-
TNRS : https://tnrs.biendata.org/
-
Calculateur de coordonnées géographiques : http://georeferencing.org/georefcalculator/gc.html
-
Outil Canadensys de conversion des coordonnées : https://data.canadensys.net/tools/coordinates?lang=fr
-
Outil Canadensys de séquençage des dates : https://data.canadensys.net/tools/dates?lang=fr
-
Google Maps : https://maps.google.com/