Exercice 3a-c

Pour ces exercices, vous effectuerez des vérifications techniques et cohérentes, améliorerez les données avec différents outils et apprendrez à utiliser OpenRefine.

Lire le Cas Pratique I (si vous ne l’avez pas déjà fait).

Votre institution fait partie de la « Global Poales Association (GPA) ». Cette association a obtenu un financement pour publier une flore à jour sur le groupe et a demandé à votre herbier de participer et de fournir des enregistrements de haute qualité que vous pourriez avoir sur cet ordre de plantes. Cet ordre est bien représenté dans votre collection et vous pensez pouvoir contribuer de manière substantielle à cet effort.

Exercice 3a

Contrôles de validation

Dans cet exercice, nous nous concentrerons sur les erreurs techniques et effectuerons un contrôle de validation de base pour identifier les erreurs techniques. Reportez-vous à Contrôles de validation pour plus d’informations sur les types d’erreurs.

  1. Télécharger UC1-3ab-data-cleaning.csv. (207,5 ko)

  2. Importez le fichier CSV dans Excel en utilisant l’assistant Excel. Voir Excel-tips-EN.pdf (PDF, 7 Mo) pour les instructions d’importation de votre système d’exploitation (Windows, Mac, Linux).

  3. Trouvez et corrigez les erreurs manuellement.

  4. Utilisez la feuille d’exercice téléchargée précédemment pour donner vos réponses.

Exercice 3b

Autres outils de gestion des données

L’association GPA vous a donné une liste d’éléments de contrôle de qualité des données à vérifier :

  • Tous les noms de plantes (nom complet) sont correctement orthographiés

  • Tous les noms de plantes appartiennent à cet ordre

  • Tous les enregistrements ont des coordonnées

  • Toutes les coordonnées sont à l’intérieur du pays indiqué et converties au format décimal

  • Toutes les dates sont dans la colonne appropriée et au format AAAA-MM-JJ

Les trois catégories d’erreurs sont :

  • Erreurs de nomenclature

  • Erreurs de format

  • Erreurs géographiques/coordonnées aberrantes

    1. Reportez-vous à Outils utiles pour terminer l’exercice. Vous n’êtes pas limité à ces outils, vous pouvez utiliser les outils que vous voulez.

    2. Utilisez le même fichier que pour l’exercice précédent.

    3. Effectuez la correction SEULEMENT pour la famille Eriocaulaceae (vous devrez sans doute filtrer les données)

    4. Corrigez les erreurs trouvées dans le jeu de données utilisé dans l’exercice 3a (exercice précédent), en utilisant les outils de votre choix et documentez les changements que vous effectuez dans la feuille d’exercice.

    5. Corrigez le fichier entier si vous avez le temps.

    6. Utilisez la feuille d’exercice téléchargée précédemment pour donner vos réponses.

Exercice 3c

Dans cette vidéo (03:27), vous en apprendrez plus sur OpenRefine. Vous pouvez utiliser OpenRefine pour standardiser et améliorer la qualité de vos données. Si vous ne pouvez pas regarder la vidéo intégrée, vous pouvez la télécharger localement. (MP4 - 37,1 Mo)

OpenRefine

Dans cet exercice, nous utilisons OpenRefine pour améliorer la qualité d’un jeu de données grâce aux fonctionnalités par défaut du logiciel, des services web existants et des expressions régulières.

  1. Lien de téléchargement UC1-3c-open-refine.csv. (207,5 ko)

  2. Téléchargez et complétez les exercices suivants OpenRefine-Exercise3c-EN.pdf. (PDF, 1,1 Mo) Aussi disponibles en Français et Espagnol.

  3. Utilisez la feuille d’exercice téléchargée précédemment pour donner vos réponses.