Scénario

Projet de mobilisation de données de littérature « Oiseaux découverts dans les phares danois, 1883-1939 »

use case 3 scanner
Scanner haute résolution pour le projet de numérisation de livres par Heiko Hornig (sous licence CC BY-SA 2.5)

Ce scénario a été élaboré comme base pour les exercices pratiques du cours de mobilisation des données de biodiversité. Le concept et le contenu de l’exercice ont été développés par Alberto González-Talaván, sur la base des travaux antérieurs d’Alberto González-Talaván, Danny Vélez, Larissa Smirnova, Laura Russell, Mélianie Raymond et Nicolas Noé. Il s’agit d’un scénario fictif qui n’est destiné qu’à des fins pédagogiques.

Il s’agit d’un scénario fictif basé sur un projet et un jeu de données véritables et qui est destiné uniquement à des fins d’instruction. Le projet original et le jeu de données original sont attribués au nœud GBIF danois, DanBIF.

Description

Le Musée d’Histoire Naturelle du Danemark (NHM-DK) est un centre de recherche associé à l’Université de Copenhague. Leur bibliothèque est membre de l’association nationale des bibliothèques qui a récemment reçu des fonds de l’État pour mettre en ligne les ressources détenues par ses membres. Le NHM-DK aimerait commencer à numériser les cahiers de terrain, des publications et des livres contenus dans leur bibliothèque, dont certaines ont une valeur historique significative.

Après une courte consultation avec leurs partenaires réguliers, NHM-DK a reçu une suggestion du chef du bureau de gestion du Parc national du Nordjylland. Ils aimeraient que le contenu d’une compilation littéraire classique particulière soit numérisé pour un projet qu’ils exécutent : "Oiseaux aux phares danois, 1883-1939 (En danois, « Fuglene ved de danske Fyr, 1883-1939 »). Ils veulent utiliser toutes les données d’occurrence enregistrées dans ces livres à partir de deux phares (Lodbjerg Fyr et Hanstholm Fyr) pour un projet d’exposition sur place.

Le NHM-DK a entamé des discussions avec leur nœud national GBIF, DanBIF, au sujet de la mobilisation des informations contenues dans ces volumes, à savoir préserver leur contenu pour le futur et fournir un accès en ligne à tout le monde. Avec la participation de DanBIF, il y a l’intention de publier et d’enregistrer les données extraites avec le GBIF. Comme le GBIF nécessite une licence pour toutes les données publiées, le musée a décidé de publier les données avec une licence Creative Commons permettant l’utilisation des données avec attribution (CC-BY).

Les services informatiques requis sont fournis par l’Unité Technologique de l’Université de Copenhague, comme pour tous les projets numériques de musées.

Le directeur adjoint de HHM-DK, qui coordonne ce travail a développé un plan général pour le travail :

  1. Le musée effectuera la numérisation de la littérature à l’aide de deux membres du personnel de la bibliothèque formés à l’utilisation du scanner de bibliothèque pour scanner des volumes délicats. Ils extraient également du texte des scans à l’aide d’un logiciel OCR (Optical Character Recognition).

  2. Trois bénévoles de la Société Ornithologique de Copenhague (COS) qui collaborent régulièrement avec le musée et connaissent les oiseaux de la région ont été engagés pour aider et compléteront le transfert des données des PDF scannés au format tableur. Ils devront se rendre au musée et utiliser les ordinateurs disponibles dans la bibliothèque pour accéder aux fichiers stockés dans l’intranet du musée (réseau privé).

  3. Le curateur Ornithologique dans le Département des Oiseaux du NHM-DK dirigera l’équipe responsable de la vérification taxonomique, de la conservation des données, du nettoyage, formatage et de la transformation. Il supervisera également l’entrée des métadonnées pour le jeu de données publié. L’équipe comprend un chercheur collaborateur originaire de Suède et deux étudiants postdoctoraux. Ils ont été sélectionnés pour cette tâche parce qu’ils sont habitués à travailler avec des données numériques sur la biodiversité. Ils utiliseront tous leurs propres ordinateurs de travail.

  4. Le gestionnaire du Nœud DanBIF s’assurera que l’institution est correctement enregistrée dans GBIF en tant que fournisseur de données et que le directeur adjoint et le conservateur de la collection ornithologique disposent des références appropriées et d’un accès à l’instance IPT de DanBIF pour télécharger et publier les données.

Collection de données originale

Dans la période 1883-1939, 45 phares et bateaux-phares étaient actifs au Danemark. Ces phares ont été utilisés par plusieurs espèces d’oiseaux durant la période de migration des oiseaux entre 1886 et 1939. La présence et les activités de ces oiseaux ont été enregistrées, surtout par les gardiens de ces phares qui ont aussi recueilli des spécimens qui ont été envoyés au musée à Copenhague. Ces oiseaux ont été soigneusement préservés et catalogués par les responsables de collections du musée et les spécimens y sont encore présents aujourd’hui. Des observations sur les conditions météorologiques durant les nuits où les oiseaux ont été observés par les gardiens ont également été documentées.

Description des données analogiques

Ceci est un exemple de description d’une série d’observations d’espèces provenant d’un livre (en allemand, à l’exception du nom commun de l’espèce qui est fournie en danois).

use case 3 analogue

Description des données analysées et traduites

Ceci est un exemple de la sortie numérisée et traduite à partir de l’exemple analogique ci-dessus.

use case 3 scanned

Description des données numériques

En étudiant l’extrait du livre, les volontaires de la Société d’Ornithologie de Copenhague suggèrent d’extraire les données suivantes du texte numérisé et traduit :

  • Nom scientifique tel qu’il apparaît dans le livre

  • Nom(s) commun(s) en danois comme apparaissant dans le livre

  • Localité

  • Année/mois/jour

  • Nombre d’individus observés

  • Sexe

  • Etape du cycle de vie

  • Remarques

  • URL de la page numérisée du livre dont l’occurrence provient