Améliorer la qualité des données publiées

Dans cette section, vous apprendrez comment utiliser le validateur de données GBIF.

Le validateur de données du GBIF est un service qui permet à toute personne ayant un jeu de données GBIF de recevoir un rapport sur la justesse syntaxique et la validité du contenu de le jeu de données. En soumettant un jeu de données au validateur, vous pouvez passer par les procédures de validation et d’interprétation généralement associées à la publication sur GBIF et déterminer rapidement les éventuels problèmes dans les données - sans avoir à les publier.

datavalidator
Cliquez sur le menu Outils sur le site du GBIF pour accéder à la page Validateur de données

Comment ça fonctionne ?

Vous commencez en important le fichier de données dans le validateur, soit 1) en cliquant sur SÉLECTIONNER UN FICHIER et en le sélectionnant sur votre ordinateur, soit 2) en faisant glisser le fichier depuis un dossier local et en le déposant sur l’icône DÉPOSER ICI. Vous pouvez également saisir l’URL d’un fichier de données accessible depuis internet. Cette option est particulièrement utile pour les grands ensembles de données. Une fois que vous avez cliqué sur le bouton SOUMETTRE, le validateur commence à traiter votre fichier de données. Vous serez directement dirigé vers une page indiquant se statut de la validation.

quality11

Selon la taille de votre ensemble de données, le traitement peut prendre un certain temps. Il n’est pas nécessaire de garder la fenêtre du navigateur ouverte, car un ID de travail unique est émis chaque fois qu’un nouveau processus de validation est lancé. Si le traitement de votre ensemble de données prend trop de temps, il vous suffit d’enregistrer l’ID (sauvegarde de l’URL) et de l’utiliser pour revenir ultérieurement consulter le rapport. Nous conservons le rapport pendant un mois, au cours duquel vous pouvez revenir quand vous le souhaitez.

Quels types de fichiers sont acceptés ?

  • Archives Darwin Core (DwC-A) compressées en ZIP (contenant des cœurs d’occurrences, de taxons ou d’événements)

  • Modèles Excel du Kit de publication intégré (IPT) contenant les données de liste d’espèces, d’occurrences ou d’événements d’échantillonnage

  • Des fichiers CSV simples contenant les termes Darwin Core dans la première ligne

Quelles informations sont fournies à partir du rapport de validation ?

Une fois le traitement effectué, vous pourrez voir le rapport de validation contenant les informations suivantes :

  • un résumé du type de jeu de données et un indicateur simple pour savoir s’il peut être indexé par le GBIF ou non

  • un résumé des problèmes rencontrés lors de l’interprétation du jeu de données par GBIF

  • une description détaillée des problèmes trouvés dans les métadonnées, le cœur du jeux de données et dans les extensions (s’il y en a), respectivement

  • le nombre d’enregistrements interprétés avec succès

  • la fréquence des termes utilisés dans le jeu de données

Vous pourrez également consulter les métadonnées en tant que version préliminaire de la page du jeu de données telle qu’elle apparaîtra lorsque le jeu de données sera publié et enregistré auprès du GBIF.

quality12

J’ai le rapport de validation - et après ?

Si le validateur constate que votre jeu de données ne peut pas être indexé par GBIF, vous devez résoudre les problèmes relevés par le rapport de validation avant d’envisager de le publier sur le GBIF. En revanche, si vous obtenez le feu vert et que votre jeu de données est indexable par GBIF, vous devez tout de même examiner attentivement toutes les erreurs qui peuvent être renvoyées, comme par exemple des erreurs de conversion, etc. qui pourraient affecter la qualité des données. Si vous trouvez et corrigez une erreur, qu’il s’agisse d’une simple coquille ou de problèmes systématiques importants, n’hésitez pas à soumettre à nouveau votre jeu de données autant de fois que vous le souhaitez.