Principes des données relayées par GBIF

Dans cette section, vous apprendrez les principes que le GBIF suit en ce qui concerne les données et en quoi les données du portail GBIF sont FAIR.

Identifiants d’objet Digital

Un Identificateur d’Objet Digital, ou DOI, est un identifiant permanent standard qui fournit un lien fonctionnel, interopérable et persistant vers n’importe quelle entité. Le concept est que le DOI diffère des références couramment utilisées comme les liens web d’URL car il identifie un objet lui-même comme une entité de première classe, pas seulement l’endroit où l’objet est actuellement situé.

Dans le contexte de GBIF.org, les DOI servent d’identifiants stables pour quatre types d’éléments différents :

  1. jeux de données du réseau GBIF

  2. téléchargements de données depuis GBIF.org

  3. articles et rapports de recherche publiés par des revues, des agences et des ONG scientifiques

  4. les documents déposés dans un dépôt à usage général

Le GBIF assigne des DOI à tous les jeux de données et téléchargements d’occurrences. Lorsque des données sont utilisées, suivre les règles de citation DOI offre une façon facile et cohérente de créditer les détenteurs de jeux de données tout en permettant la reproductibilité. Les DOI se rapporteront toujours au jeu de données ou aux pages de téléchargement, même si les données sous-jacentes ne sont plus disponibles.

Le GBIF a commencé à utiliser les DOI le 3 février 2015. Les téléchargements obtenus avant cette date n’ont pas de DOIs, cependant, si vous souhaitez citer des téléchargements plus anciens, vous pouvez contacter helpdesk@gbif.org et nous assignerons les DOI en fonction.

Standards

Les données disponibles sur GBIF.org et ses services associés sont le résultat de l’application, par le réseau de participants et de fournisseurs GBIF, de règles et de conventions communes pour décrire, enregistrer et structurer des milliers d’ensembles de données différents provenant de centaines d’institutions à travers le monde entier. Les standards communs sont le principal moyen de rassembler les centaines de millions de données primaires sur la biodiversité dans l’index du GBIF.

Dans le domaine de la biodiversité, le groupe qui est le plus souvent responsable du développement et de la maintenance des standards de données est Biodiversity Information Standards. Cette association scientifique et éducative à but non lucratif se concentre sur le développement de standards pour l’échange de données biologiques et de biodiversité. Les membres de la communauté de la biodiversité se réfèrent généralement à ce groupe sous le nom de TDWG (prononcé tad-wig) - un rappel de son ancienne appellation, le Taxonomic Databases Working Group.

Les standards utilisés fréquemment comprennent :

  • Darwin Core : Le Standard Darwin Core (DwC) offre un cadre stable, simple et flexible pour compiler des données sur la biodiversité à partir de sources variées et variables. La majorité des jeux de données partagés via GBIF.org sont publiés au format Darwin Core Archive (DwC-A).

  • Langage de Métadonnées Écologiques (EML) : Le Langage de Métadonnées Écologiques est un standard de métadonnées qui enregistre des informations sur les ensembles de données écologiques dans une série de types de documents XML modulaires et extensibles. Toutes les descriptions des jeux de données sur GBIF.org s’appuient sur les 'métadonnées'—c’est-à-dire les informations sur les données—en utilisant le standard open-source EML, qui est administré et maintenu par Le Knowledge Network for Biocomplexity. Chaque archive Darwin Core inclut un fichier EML (écrit au format XML) comme un de ses composants.

  • BioCASe/ABCD : Le Biological Collection Access Service, communément appelé BioCASe, est un réseau international reliant les données des collections biologiques des musées d’histoire naturelle, des jardins botaniques et zoologiques et des institutions de recherche. Le Protocole BioCASe repose sur le standard d’échange de données Access to Biological Collections Data (ABCD) que TDWG administre également.

Les données ouvertes

Conformément à une décision du conseil d’administration du GBIF de 2014, les fournisseurs de données doivent attribuer l’une des trois options Creative Commons à tout jeu de données d’occurrences. Le conseil d’administration a reconnu la nécessité d’une plus grande clarté, tant pour les éditeurs de données que pour les utilisateurs, sur la manière dont les données peuvent être utilisées lorsqu’elles sont partagées via GBIF.org. Creative Commons est une organisation à but non lucratif qui aide à surmonter les obstacles juridiques au partage des connaissances et soutient la créativité pour relever les défis les plus urgents du monde.

  • CC0 - pas de conditions d’utilisation

  • CC-BY - utilisation avec attribution

  • CC-BY-NC - utilisation non commerciale avec attribution

Notez que la licence CC-BY-NC a un effet significatif sur la possibilité de réutiliser les données. Le GBIF encourage les fournisseurs de données à choisir l’option la plus ouverte possible. Il est important de noter que les images ne sont pas soumises à la même licence qui est appliquée au jeu de données et peuvent avoir des conditions d’utilisation plus restreintes. Enfin, l’attribution/citation est une norme communautaire, donc même si les éditeurs ont renoncé à des conditions d’utilisation, l’attribution est attendue.

Données FAIR

De nombreux articles de 2011 à 2016 ont documenté une crise de la reproductibilité scientifique (voir ci-dessous). En 2016, les Principes de conduite FAIR pour la gestion et l’intendance des données scientifiques ont été publiés dans Nature Scientific Data. Ces principes ont été conçus pour améliorer la trouvabilité, l’accessibilité, l’interopérabilité et la réutilisabilité des ensembles de données et répondent à "un besoin urgent d’améliorer l’infrastructure soutenant la réutilisation des données scientifiques." La mise en œuvre de ces principes a débuté en 2018. Vous pouvez en savoir plus sur Comment agir FAIR sur GO-FAIR.org.

gofairlogo
FairPrinciples2

Les données trouvées sur GBIF.org sont FAIR.

FACILES À TROUVER

Le GBIF a des exigences pour les métadonnées et les jeux de données. Tous les jeux de données sont identifiés par des Identifiants d’Objets Digitaux (DOI).

ACCESSIBLES

L' API du portail GBIF fournit une interface lisible par machine (REST + JSON) et utilise le Kit de Publication Intégré (IPT) comme référentiel de données de confiance.

INTEROPÉRABLES

Le GBIF recommande d’utiliser le Langage des Métadonnées Ecologiques (EML) pour les jeux de données et le Darwin Core pour les données d’occurrences.

RÉUTILISABLES

Le GBIF utilise des licences de données Creative Commons (CC0, CC BY, ou CC BY-NC). La documentation est disponible sur le portail GBIF.

Références littéraires

Baker (2016) 1,500 scientists lift the lid on reproducibility. Nature 533: 452-454 (26 May 2016) doi:10.1038/533452a

Baker (2016) Reproducibility: Seek out stronger science. Nature 537: 703-704 (29 September 2016) doi:10.1038/nj7622-703a

Nature editorial (2016) Reality check on reproducibility. Nature 533: 437 (26 May 2016) doi:10.1038/533437a

Baker (2016) Statisticians issue warning over misuse of P values. Nature 531: 151 (10 March 2016) doi:10.1038/nature.2016.19503

Nosek et al. (2015) Promoting an open research culture. Science 348(6242): 1422-1425. DOI:10.1126/science.aab2374

Leek and Peng (2015) Statistics: P values are just the tip of the iceberg. Nature 520: 612 (30 April 2015) doi:10.1038/520612°

Nuzzo (2015) How scientists fool themselves – and how they can stop. Nature 526: 182–185 (08 October 2015) doi:10.1038/526182a

Hayden (2013) Weak statistical standards implicated in scientific irreproducibility. Nature doi:10.1038/nature.2013.14131

Young (2012) Replication studies: Bad copy. Nature 485, 298–300 (17 May 2012) doi:10.1038/485298a

Callaway (2011) Reports finds massive fraud at Dutch universities. Nature 479, 15 (1 November 2011) doi:10.1038/479015a