Principios de los datos mediados por GBIF

En esta sección aprenderá sobre los principios que sigue GBIF respecto a los datos y cómo los datos en el portal de GBIF son FAIR.

Identificadores de objeto digital

Un "identificador de objetos digitales" o DOI, es un identificador permanente estándar que proporciona un enlace persistente a cualquier entidad. El DOI difiere de referencias comúnmente utilizadas como enlaces web de URL porque identifica a un objeto en sí mismo como una entidad de primera clase y no simplemente el lugar donde el objeto está ubicado actualmente.

En el contexto de GBIF.org, los DOIs sirven como identificadores estables para cuatro cosas diferentes:

  1. conjuntos de datos de la red de GBIF

  2. descargas de datos de GBIF.org

  3. artículos de investigación e informes publicados por las revistas científicas, agencias y ONG

  4. materiales depositados en un repositorio de uso general

GBIF asigna DOIs a todos los conjuntos de datos y descargas de registros biológicos. Cuando se utilizan datos siguiendo las practicas de citación del DOI se asegura una forma fácil y consistente de dar crédito a los titulares de los conjuntos de datos al mismo tiempo que permite la reproducibilidad. Los DOIs siempre resolverán las páginas del conjunto de datos o de descarga, incluso si los datos subyacentes ya no están disponibles.

GBIF comenzó a emitir DOI el 3 de febrero de 2015. Las descargas solicitadas antes de esta fecha no tienen DOI, sin embargo, si desea citar descargas antiguas, puede ponerse en contacto con helpdesk@gbif.org y asignaremos DOI según corresponda.

Estándares

Los datos disponibles a través de GBIF.org y sus servicios asociados son el resultado de la red de participantes y publicadores de GBIF que aplican normas y convenciones compartidas para describir, registrar y estructurar miles de conjuntos de datos procedentes de cientos de instituciones de todo el mundo. Los estándares comunes son la principal herramienta para reunir los cientos de millones de datos primarios sobre biodiversidad en el índice GBIF.

Dentro del dominio de la biodiversidad, el grupo más a menudo responsable del desarrollo y mantenimiento de estándares de datos es Biodiversity Information Standards. Esta asociación científica y educativa sin fines de lucro se centra en el desarrollo de normas para el intercambio de datos biológicos y de biodiversidad. Los miembros de la comunidad de biodiversidad generalmente se refieren a este grupo como TDWG —un recordatorio vestigio de su anterior manifestación como Grupo de Trabajo de bases de datos taxonómicas.

Los estándares usados comúnmente incluyen:

  • Darwin Core: El Estándar Darwin Core (DwC) ofrece un marco estable, sencillo y flexible para compilar datos de biodiversidad de fuentes variadas y variables. La mayoría de los conjuntos de datos compartidos a través de GBIF.org se publican utilizando el formato de Archivo Darwin Core (DwC-A).

  • Ecological Metadata Language (EML): Ecological Metadata Language es un estándar de metadatos que registra información sobre conjuntos de datos ecológicos en una serie de documentos XML modulares y extensibles. Todas las descripciones de los conjuntos de datos en GBIF.org se basan en ‘metadatos’ —es decir, la información sobre los datos— utilizando el estándar de código abierto EML, que es administrado y mantenido por The Knowledge Network for Biocomplexity. Cada Archivo Darwin Core incluye como uno de sus componentes un archivo EML (escrito en formato XML).

  • BioCASe/ABCD: Biological Collection Access Service, comúnmente conocido como BioCASe, es una red internacional que conecta datos de las colecciones biológicas de los museos de historia natural, de jardines botánicos y zoológicos y de instituciones de investigación. El protocolo BioCAse se basa en Access to Biological Collections Data (ABCD), un estándar de intercambio de datos que también administra TDWG.

Datos abiertos

De acuerdo con una https://www.gbif de 2014.org/news/82363/new-approaches-to-data-licensing-and-endorsement[decisión de la junta de gobierno de GBIF^] de 2014, los publicadores de datos deben asignar una de las tres opciones Creative Commons a cada conjunto de datos. La junta de gobierno reconoció la necesidad de una mayor claridad tanto para los publicadores de datos como para los usuarios sobre cómo se pueden utilizar los datos cuando se comparten a través de GBIF.org. Creative Commons es una organización sin fines de lucro que ayuda a superar los obstáculos legales para compartir el conocimiento y la creatividad a fin de abordar los desafíos apremiantes del mundo.

  • CC0: sin condiciones de uso

  • CC-BY: uso con atribución

  • CC-BY-NC: uso no comercial con atribución

Tenga en cuenta que la licencia CC-BY-NC tiene un efecto significativo en la reutilización de los datos. GBIF anima a los publicadores de datos a elegir la opción más abierta posible. Es importante señalar que las imágenes no están sujetas a la misma licencia que se aplica al conjunto de datos y pueden tener términos de uso más restringidos. Por último, la atribución/citación es una norma de comunidad, así que incluso si los publicadores han renunciado a las condiciones de uso, se espera que tengan atribución.

Datos FAIR

Muchos artículos publicados en el periodo 2011-2016 evidencian una crisis en la reproducibilidad científica (ver abajo). En 2016, los Principios orientadores FAIR para la gestión y administración de datos científicos fueron publicados en Scientific Data. Los principios fueron diseñados para conseguir que los datos sean fáciles de encontrar, accesibles, interoperables y reutilizables, y para abordar "una necesidad urgente de mejorar la infraestructura que soporta la reutilización de los datos académicos". La implementación de estos principios comenzó en 2018. Puede leer más sobre Cómo ser FAIR en GO-FAIR.org.

gofairlogo
FairPrinciples2

Los datos que se encuentran en GBIF.org son FAIR.

FÁCIL DE ENCONTRAR

GBIF tiene requerimientos para metadatos y conjuntos de datos. Todos los conjuntos de datos son identificados por Identificadores de objetos digitales (DOIs).

ACCESIBLE

La API del Portal de GBIF proporciona una interfaz legible por computadoras (REST + JSON) y utiliza el Integrated Publishing Toolkit (IPT) como repositorio de datos de confianza.

INTEROPERABLE

GBIF recomienda utilizar Ecological Metadata Language (EML) para conjuntos de datos y Darwin Core para los datos de registros biológicos.

REUTILIZABLE

GBIF requiere licencias de datos Creative Commons (CC0, CC BY, o CC BY-NC). Procedencia disponible en el portal de GBIF.

Referencias bibliográficas

Baker (2016) 1,500 scientists lift the lid on reproducibility. Nature 533: 452-454 (26 May 2016) doi:10.1038/533452a

Baker (2016) Reproducibility: Seek out stronger science. Nature 537: 703-704 (29 September 2016) doi:10.1038/nj7622-703a

Nature editorial (2016) Reality check on reproducibility. Nature 533: 437 (26 May 2016) doi:10.1038/533437a

Baker (2016) Statisticians issue warning over misuse of P values. Nature 531: 151 (10 March 2016) doi:10.1038/nature.2016.19503

Nosek et al. (2015) Promoting an open research culture. Science 348(6242): 1422-1425. DOI:10.1126/science.aab2374

Leek and Peng (2015) Statistics: P values are just the tip of the iceberg. Nature 520: 612 (30 April 2015) doi:10.1038/520612

Nuzzo (2015) How scientists fool themselves – and how they can stop. Nature 526: 182–185 (08 October 2015) doi:10.1038/526182a

Hayden (2013) Weak statistical standards implicated in scientific irreproducibility. Nature doi:10.1038/nature.2013.14131

Young (2012) Replication studies: Bad copy. Nature 485, 298–300 (17 May 2012) doi:10.1038/485298a

Callaway (2011) Reports finds massive fraud at Dutch universities. Nature 479, 15 (1 November 2011) doi:10.1038/479015a