photo

Colophon

Citation suggérée

Andersson AF, Bissett A, Finstad AG, Fossøy F, Grosjean M, Hope M, Jeppesen TS, Kõljalg U, Lundin D, Nilsson RN, Prager M, Svenningsen C & Schigel D (2021) Publishing DNA-derived data through biodiversity data platforms. v1.0 Copenhagen: GBIF Secretariat. https://doi.org/10.35035/doc-vf1a-nr22.

Auteurs

Contributeurs

De précieuses discussions avec les membres des réseaux ELIXIR, iBOL, GGBN, GLOMICON, et OBIS ont contribué à la compilation de ce projet. Nous sommes particulièrement reconnaissants pour les contributions et les encouragements de Kessy Abarenkov, Andrew Bentley, Matt Blissett, Pier Luigi Buttigieg, Kyle Copas, Camila A. Plata Corredor, Gabriele Dröge, Torbjørn Ekrem, Tobias Guldberg Frøslev, Birgit Gemeinholzer, Quentin Groom, Tim Hirsch, Donald Hobern, Hamish Holewa, Corinne Martin, Raissa Meyer, Chris Mungall, Daniel Noesgaard, Corinna Paeper, Pieter Provoost, Tim Robertson, Saara Suominen, Maxime Sweetlove, Andrew Young, John Waller, Ramona Walls, John Wieczorek, Lucie Zinger qui ont contribué au processus de relecture par la communauté GBIF.

Licence

Le document Publier des données dérivées de l’ADN sur les plateformes de données sur la biodiversité est sous licence Creative Commons Attribution-ShareAlike 4.0 Unported License.

Contrôle du document

Version 1.0.1 libérée le 27 mars 2022.

Résumé

Lorsque des informations génétiques sont utilisées pour décrire ou classer un taxon, la plupart des utilisateurs prévoient son utilisation dans le contexte de l’écologie moléculaire ou de la recherche phylogénétique. Il est important de se rendre compte qu’une séquence avec des coordonnées et une date/heure est une occurrence de biodiversité précieuse, qui est utile dans un contexte beaucoup plus large que son objectif initial. Pour réaliser ce potentiel, les données dérivées de l’ADN doivent être visibles sur les plateformes de données sur la biodiversité. Ce guide vous enseignera les principes et les approches afin d’exposer les « séquences avec dates et coordonnées » dans le contexte plus large des données sur la biodiversité. Le guide couvre les choix de schémas et de termes particuliers, les pièges communs et les bonnes pratiques, sans toutefois entrer dans les détails spécifiques à une plateforme. Il aidera toute personne intéressée par une meilleure exposition des données dérivées de l’ADN sur des plateformes générales de données sur la biodiversité, y compris les portails nationaux sur la biodiversité.

Image de couverture

Collybie à pied velouté (Flammulina velutipes), Kursk, Russian Federation. Photo 2020 Oleg Ryzhkov via iNaturalist research-grade observations, sous licence CC BY-NC 4.0.

Préface

1. Introduction

1.1. Justification

Ces 20 dernières années ont permis de mieux comprendre l’immense pouvoir des méthodes moléculaires pour documenter la diversité de la vie sur terre. Des substrats apparamment inertes et banaux, tels que le sol et l’eau de mer, se révèlent regorger de vie, mais peut-être pas d’une manière que l’observateur occasionnel peut immédiatement apprécier. Des études basées sur l’ADN ont montré que des groupes d’organismes tels que les champignons, les insectes, les oomycètes, les bactéries et les archées sont partout, bien que souvent nous ne puissions pas les observer physiquement (Debroas et al. 2017). Les bienfaits des méthodes moléculaires ne se limitent pas au monde microscopique : il existe beaucoup d’organismes, tels que certaines espèces de poissons, qui peuvent au moins théoriquement être observés physiquement mais pour lequels il est très coûteux, laborieux, et peut-être invasif de chercher à le faire (Boussarie et al. 2018). Dans de telles situations, les données ADN nous permettent d’enregistrer la présence (et la présence passée) de ces organismes de manière non-invasive et avec un effort minimal. Ces développements signifient que nous n’avons pas toujours besoin de manifestations physiques et tangibles de tous les organismes présents sur un site pour les enregistrer. Tous les organismes, qu’ils soient physiquement observables ou non, peuvent être importants lorsqu’il s’agit de comprendre la biodiversité, l’écologie et la conservation biologique.

Les données dérivées de l’ADN nous permettent d’enregistrer des taxons non visibles ou non observables qui passent sous le radar des protocoles approuvés pour le travail sur le terrain, des listes de contrôle, des dépôts dans des collections de sciences naturelles, etc. La maturité actuelle des méthodologies de l’ADN nous permet d’enregistrer la présence de ces organismes à un niveau de détail qui dépasse celui des observations macroscopiques des organismes en général. Cependant, en gardant à l’esprit que ces méthodologies sont accompagnées de leurs propres problèmes et biais, il est important d’utiliser ce moment pour définir et s’accorder sur comment enregistrer et rapporter un organisme présent dans un substrat ou une localité au moyen de données moléculaires. Cela aidera à éviter les inefficacités significatives qui ont été signalées dans d’autres domaines, où le manque de normes et de guidance a conduit à des ensembles de données très hétérogènes et largement incomparables (Leebens-Mack et al. 2006; Yilmaz et al. 2011; Nilsson et al. 2012). De plus, une documentation claire de la transformation informatique à partir des lectures de séquences brutes jusqu’à l’observation des espèces déduites, permettra une réanalyse lorsque des méthodes améliorées apparaîtront.

Les données d’occurrence des espèces dérivées de l’ADN devraient être aussi normalisées et reproductibles que possible, que les espèces détectées aient ou non des noms scientifiques formels. Dans certains cas, ces relevés d’occurrences indiqueront des propriétés géographiques et écologiques des espèces décrites précédemment inconnues, enrichissant ainsi notre corpus de connaissances sur ces taxons. Dans d’autres cas, les données peuvent nous permettre de fusionner et de visualiser des informations sur les espèces actuellement non décrites, ce qui peut éventuellement accélérer leur description formelle. La capacité de collecter des données utilisables, même pour les espèces sans nom, ajoute de manière significative aux nombreuses façons dont le GBIF et d’autres plateformes de données sur la biodiversité indexent le monde vivant et rendent ces connaissances disponibles à tous et à des fins diverses, y compris la conservation de la biodiversité. Selon des estimations récentes, au moins 85 % de toutes les espèces existantes ne sont pas décrites (Mora et al. 2011; Tedesco et al. 2014). Les standards de données existants ont été conçus pour la minorité de taxons décrits. Les bonnes pratiques pour traiter les données dérivées de l’ADN aideront à caractériser les occurrences de tous les organismes, qu’ils soient décrits ou non.

Ce guide explique comment les données d’occurrence dérivées de l’ADN doivent être rapportées pour être intégrées dans GBIF et à d’autres plateformes de données sur la biodiversité. Il n’exprime aucune opinion sur la question de l’accès et du partage des bénéfices pour l’information sur les séquences numériques, qui a fait l’objet de discussions approfondies dans le cadre de Convention sur la diversité biologique (CBD). Toutefois, il convient de noter que les codes-barres génétiques et les métacodes-barres sont généralement des gènes ou des fragments d’ADN non codant, qui ne se prêtent pas à l’exploitation commerciale. Comme l’archivage des séquences via Collaboration internationale de base de données sur la séquence des nucléotides (INDSC) est une norme répandue dans la recherche basée sur le séquençage de l’ADN, la publication de données d’occurrence issues de séquences n’implique pas la publication de nouvelles séquences. Dans la plupart des cas, celles-ci ont déjà été placées dans un répositoire génétique public. Ce guide aborde donc la valeur ajoutée possible de la dérivation des données spatio-temporelles d’occurrence et des noms basés sur l’ADN plutôt que la valeur de l’information génétique elle-même. En plus de traiter les données dérivées des séquences ADN, ce guide contient également des suggestions pour la publication de données sur les occurrences d’espèces dérivées d’analyses qPCR ou dPCR.

Signaler les occurrences dérivées de l’ADN de manière ouverte et reproductible apporte de nombreux avantages : notamment, cela accroit la citabilité, met en évidence les taxons concernés dans le contexte de la conservation biologique et contribue aux connaissances taxonomiques et écologiques. De plus, ça fournit également un mécanisme pour stocker les occurrences d’espèces non décrites. Quand ce taxon, qui n’est pas encore décrit, est enfin lié à un nouveau nom linnéen, tous les enregistrements d’occurrences qui lui sont liés seront immédiatement disponibles. Chacun de ces avantages justifie fortement l’adoption par les professionnels des pratiques décrites dans ce guide, qui les aideront à mettre en évidence une part importante de la biodiversité existante, à accélérer sa découverte et à l’intégrer dans la conservation biologique et l’élaboration des politiques.

1.2. Public cible

Ce guide a été élaboré à l’intention de plusieurs publics cibles : les étudiants qui planifient une première étude basée sur l’ADN, les chercheurs qui possèdent d’anciennes séquences et d’anciens tableaux d’abondance qu’ils souhaitent faire revivre ou préserver, les spécialistes des données sur la biodiversité qui s’initient aux occurrences dérivées de l’ADN, et les bioinformaticiens qui sont familiers avec les séquences ADN, mais qui ne connaissent pas les plateformes de données sur la biodiversité. Le guide ne s’adresse pas directement aux utilisateurs des données moléculaires dans les plateformes de données sur la biodiversité, mais ces utilisateurs pourront trouver un intérêt particulier à la section 1.7 en Résultats sur la sortie des données. L’intention des auteurs est de conseiller et d’instruire sur la publication des données et des attributs associés aux séquences génétiques par le biais de plateformes générales de données sur la biodiversité.

Le diagramme décrit les étapes de traitement nécessaires à la publication de données de biodiversité moléculaire dans des référentiels tels que le GBIF et les plateformes nationales de données sur la biodiversité, y compris celles construites sur la plateforme ALA. Ce guide se concentre principalement sur les étapes qui suivent l’acquisition des séquences brutes FASTQ issues de l’étape de séquençage. En se familiarisant avec le diagramme — et en notant toute étape qui semble familière ou peu claire — les utilisateurs seront en mesure de voguer dans les contenus de ce guide.

sequence publishing guide.fr
Figure 1. Flux de travail global pour les données sur la biodiversité dérivées de séquences ADN, tel que décrit dans ce guide.

Les auteurs se sont efforcés de rendre les informations de ce guide utiles à chacun des publics décrits ci-dessus, mais des lectures plus approfondies (par exemple GBIF quick guide to data publishing) peuvent être nécessaires dans certains cas.

1.3. Introduction aux données d’occurrence dérivées de l’ADN

Les données d’occurrence biologique dérivées de l’ADN comprennent les informations issues de l’ADN d’organismes individuels, mais aussi de l’ADN environnemental (eDNA, c’est-à-dire l’ADN extrait à partir d’échantillons environnementaux, Thomsen & Willerslev 2015) et à partir d’échantillons mixtes comprenant de nombreux individus (par exemple, des échantillons de plancton ou des échantillons de pièges malaise composés de plusieurs individus de nombreuses espèces). Actuellement, le plus grand volume de données d’occurrence dérivées de l’ADN provient de l’eDNA. Étant donnée la similitude des méthodes d’analyse et des produits finaux pour toutes les sources d’échantillons, la discussion ci-dessous se concentrera sur l’eDNA (§2.1.1 et §2.1.2), tout en notant que les grandes lignes sont aussi applicables aux autres sources de données. Les études ont souvent recours au séquençage ciblé de marqueurs génétiques informatifs sur le plan taxonomique et phylogénétique, mais peuvent également utiliser des approches basées sur la PCR qui n’aboutissent pas directement à des données de séquences ADN (§2.1.3 et [mapping des données qPCR / (d)dPCR]). Ce guide peut paraitre chargé en termes liés à l’ADN ; si c’est le cas, consultez le Glossaire avant de poursuivre la lecture.

1.3.1. L’ADN environnemental comme source de données d’occurrence

Le terme ADN environnemental est utilisé depuis 1987, date à laquelle il a été employé pour la première fois pour décrire l’ADN de microbes dans des échantillons de sédiments (Ogram et al. 1987). L' eDNA est désormais utilisé de manière plus large pour décrire un mélange d’ADN provenant de différents organismes (Taberlet et al. 2018 and 2012). Ainsi, l’eDNA comprend la totalité de l’ADN extrait d’un échantillon environnemental spécifique, indépendamment du substrat et des espèces qu’il contient. Il peut être extrait à partir d’un large éventail de sources, y compris des cellules de la peau et des cheveux, de la salive, du sol, des fèces, et d’organismes vivants ou récemment morts (Pietramellara et al. 2009). Les organismes présents dans un échantillon environnemental donné sont souvent suffisamment représentés dans l’eDNA. En pratique, toutefois, la présence d’ADN et la représentativité des organismes présents dans un échantillon environnemental dépend du type d’habitat sélectionné, de la taille des organismes, de leur morphologie et leur niveau d’activité, ainsi que des méthodes d’échantillonnage utilisées pour le capturer (Taberlet et al. 2018) et du stade de dégradation de l’ADN.

sampling processes.fr
Figure 2. Représentation simplifiée des processus d’échantillonnage comparant la récolte de données par A) les méthodes traditionnelles d’échantillonnage utilisées en écologie/biodiversité, et B) les études basées sur l’eDNA, illustrées ici par le métabarcoding. Pour l’eDNA, la plupart des étapes jusqu’au séquençage impliquent des réplications techniques ou biologiques, qui permettent d’identifier les contaminations et les faux positifs ainsi que les faux négatifs, résultant en une structure hiérarchique des données et des métadonnées. Cependant, les études comprendront souvent les deux types d’échantillonnage. Par exemple, si la "Bibliothèque de référence" utilisée en B) ne contient pas toutes les espèces pertinentes d’un groupe donné d’organismes, il sera nécessaire de revenir à A). Il se peut également que la "résolution par rapport à la bibliothèque de référence" produise des résultats inattendus ou improbables, auquel cas d’autres études utilisant la méthodologie traditionnelle seront nécessaires pour déterminer si les espèces identifiées par l’analyse bioinformatique peuvent être vérifiées.

L’eDNA est donc un type d’échantillon, et non une méthode, qui inclut l’ADN dérivé de tout échantillon environnemental plutôt que de la capture et séquençage d’un individu ciblé. Ces types d’échantillons comprennent l’eau, le sol, les sédiments et l’air, mais aussi les échantillons de contenu intestinal et les tissus (végétaux/animaux) où l’ADN de l’hôte n’est pas la cible (Taberlet et al. 2018). Un certain nombre de méthodes analytiques existent pour étudier l’eDNA. Elles peuvent être divisées en deux grandes catégories : 1) celles qui visent à détecter un organisme spécifique et 2) celles qui décrivent un assemblage ou une communauté de nombreux organismes. Les différentes méthodes d’analyse génèrent différents types et volumes de données. Le plus souvent, les concentrations d’ADN sont faibles et des réplications techniques et biologiques doivent être utilisées afin de valider la présence/absence des espèces.

Plusieurs études montrent que, pour les échantillons d’eau, les analyses basées sur l’eDNA peuvent avoir une meilleure probabilité de trouver des espèces rares et difficiles à étudier que les méthodes conventionnelles (Thomsen et al. 2012; Biggs et al. 2015; Valentini et al. 2016; Bessey et al. 2020). Il peut en être de même pour d’autres environnements, où des traces d’ADN peuvent encore être détectées, bien que l’organisme réel n’y soit plus présent. Par conséquent, l’eDNA peut convenir à la surveillance des espèces rares figurant sur les listes rouges, ainsi que des espèces exotiques indésirables, qui sont souvent présentes en faibles densités, rendant la détection avec les méthodes conventionnelles particulièrement difficile. Les méthodes d’analyse de l’eDNA permettent de détecter des organismes cryptiques, notamment ceux de petite taille, qui ne peuvent pas être détectés à l’œil nu (bactéries et champignons, par exemple). En outre, l’eDNA peut également être utilisé pour l’observation de nombreuses espèces simultanément, et peut décrire des communautés biologiques entières ou des composants majeurs de celles-ci (Ekrem & Majaneva 2019).

Certaines études montrent une relation entre la quantité d’ADN d’une espèce donnée dans un échantillon environnemental et la biomasse de cette même espèce dans l’environnement. On peut donc potentiellement envisager que l’eDNA puisse permettre une estimation semi-quantitative (cible indirecte) de la biomasse des organismes, tant à partir d’échantillons environnementaux que d’échantillons mixtes (Takahara et al. 2012; Thomsen et al. 2012; Andersen et al. 2012; Ovaskainen et al. 2013; Lacoursière-Roussel et al. 2016; Thomsen et al. 2016; Valentini et al. 2016; Fossøy et al. 2019; Yates et al. 2019; Doi et al. 2017). Cependant, d’autres études montrent une faible corrélation entre la quantité d’eDNA et la densité estimée des populations (Knudsen et al. 2019). Les différents biais, comme ceux de la PCR, la quantification, ou le mélange sont fréquemment discutés. Par exemple, la mue, la reproduction et la mort massive peuvent contribuer à augmenter les niveaux d’eDNA de crustacés dans l’eau, tandis que la turbidité et la mauvaise qualité de l’eau réduisent la quantité d’eDNA détectable (Strand et al. 2019). Par conséquent, nous encourageons à renseigner à la fois le nombre de reads par ASV, ainsi que le nombre total de reads dans les échantillons, car il s’agit d’informations nécessaires aux utilisateurs pour tirer leurs propres conclusions sur la présence/absence et l’abondance.

1.3.2. Métabarcoding : données dérivées de séquences

La génération de données dérivées de séquences augmente actuellement rapidement grâce au développement du métabarcoding. Cette méthode utilise des amorces générales pour générer des milliers ou des millions de courtes séquences ADN pour un groupe donné d’organismes à l’aide du séquençage à haut débit (HTS, ou séquençage de nouvelle génération (NGS)). En comparant chaque séquence ADN à une base de données de référence telle que GenBank (Benson et al. 2006 ), BOLD (Ratnasingham et al. 2007) ou UNITE (Nilsson et al. 2009), chaque séquence peut être assignée à une espèce ou à un taxon de rang supérieur. Le métabarcoding est utilisé pour des échantillons provenant d’environnements terrestres et aquatiques, y compris l’eau, le sol, les sédiments, les biofilms, le plancton, les échantillons mixtes et les fèces, identifiant simultanément des centaines d’espèces (Ruppert et al. 2019).

L’identification et la classification d’organismes à partir de données de séquences et d’études basées sur des marqueurs ADN dépendent de l’accès à une bibliothèque de référence de séquences ADN provenant de spécimens identifiés morphologiquement, qui sont comparées aux séquences nouvellement générées. L’efficacité de la classification dépend de l’exhaustivité (couverture) et de la fiabilité des bibliothèques de référence, ainsi que des outils utilisés pour effectuer la comparaison. Ce sont des paramètres en constante évolution, ce qui rend indispensable d’appliquer une expertise taxonomique et une certaine prudence dans l’interprétation des résultats (§1.6). La disponibilité de touts les variants de séquences d’amplicon vérifiés (Сallahan et al. 2017) permet une réinterprétation précise des données, des analyses génétiques intra-spécifiques des populations (Sigsgaard et al. 2019) et est susceptible d’augmenter la précision de l’assignation.

1.3.3. Métagénomique : données dérivées de séquences ADN

Les données de biodiversité dérivées de séquences ADN peuvent également être générées en utilisant des méthodes métagénomiques sans amplification, par lesquelles tout l’ADN d’un échantillon est ciblé pour le séquençage (Tyson & Hugenholtz 2005), plutôt que des amplicons ou des codes-barres spécifiques, comme décrit ci-dessus. Les données de biodiversité dérivées de séquences ADN obtenues à partir du séquençage métagénomique peuvent se présenter sous la forme de correspondances de séquences avec des bases de données de gènes annotés (comme ci-dessus) ou en tant que génomes assemblés (MAGs) (presque) complets. Alors que les méthodes de métabarcoding dominent toujours en termes d’informations sur la biodiversité dérivée de séquences ADN, les données métagénomiques prennent de plus en plus d’importance, comme en témoigne le nombre croissant de MAGS et leur utilité pour améliorer la phylogénie et la taxonomie (Parks et al. 2020); la discussion sur les méthodes associées à l’analyse du métagénome, qui évoluent actuellement de manière très rapide, dépasse le cadre du présent document. Ce document utilise le métabarcoding comme modèle de discussion autour des concepts et des méthodes de publication des données sur la biodiversité dérivées de séquences ADN, et bien que les voies bioinformatiques soient différentes pour les données métagénomiques, le résultat final (une séquence, souvent sous la forme d’un contig/assemblage) est conforme aux concepts suggérés pour les données de métabarcoding (c’est-à-dire que les métadonnées du flux de travail spécifiques à l’échantillon, à la récolte de l’échantillon, à la génération de données et au traitement doivent être saisies).

1.3.4. qPCR / (d)dPCR : données d’occurrence

Pour la détection ciblée d’espèces dans les échantillons d’eDNA, la plupart des analyses utilisent des amorces spécifiques aux espèces, et la qPCR (amplification en chaîne quantitative par polymérase) ou la dPCR (amplification en chaîne numérique par polymérase). Ces méthodes ne génèrent pas de séquences ADN, et les données d’occurrence dépendent entièrement de la spécificité des amorces/essais. Par conséquent, il y a des recommandations strictes pour valider ces tests et des exigences pour la publication des données (Bustin et al. 2009, Huggett et al. 2013), ainsi que pour la préparation de ces tests pour la surveillance de routine (Thalinger et al. 2020). L’analyse d’échantillons d’eDNA utilisant la qPCR nécessite peu de ressources et peut être réalisée dans la plupart des laboratoires d’analyse de l’ADN. Le premier exemple d’utilisation d’échantillons d’eau contenant de l’eDNA a utilisé la qPCR pour détecter la grenouille américaine envahissante (Rana catesbeiana) (Ficetola et al. 2008), et les analyses par qPCR de l’eDNA d’échantillons d’eau sont régulièrement utilisées pour détecter des espèces ciblées de poissons, d’amphibiens, de mollusques, de crustacés et autres, ainsi que leurs parasites (Hernandez et al. 2020, Wacker et al. 2019, Fossøy et al. 2019, Wittwer et al. 2019). Les détections d’eDNA à l’aide de la qPCR génèrent donc d’importantes données isolées d’occurrence des espèces.

1.4. Introduction à la publication de données sur la biodiversité

La publication des données sur la biodiversité consiste en grande partie à rendre les données d’occurrence des espèces identifiables, accessibles, interopérables et réutilisables, conformément aux principes FAIR (Wilkinson et al. 2016). Les plateformes de données sur la biodiversité aident à exposer et à découvrir les données de séquences ADN, en tant que registres d’occurrence de la biodiversité en parallèle avec d’autres types de données sur la biodiversité, tels que les spécimens de collections de musées, les observations issues de la science citoyenne et les études classiques de terrain. La structure, la gestion et le stockage de chaque source originale de données varient en fonction des besoins de chaque communauté. Les plateformes de données sur la biodiversité favorisent la découverte, l’accès et la réutilisation des données en rendant ces ensembles de données compatibles entre eux, et en palliant aux incohérences taxonomiques, spatiales et autres dans les données disponibles sur la biodiversité. Les points d’accès uniques qui mettent les données à disposition favorisent la recherche, la gestion et la politique à grande échelle. La compatibilité entre les ensembles de données est obtenue grâce au processus de normalisation.

Un certain nombre de standards sont utilisés pour les données générales sur la biodiversité (https://www.gbif.org/standards), et un ensemble distinct de standards est utilisé pour les données de séquences génétiques (voir MIxS et GGBN). Ce guide reflète les efforts en cours pour augmenter la compatibilité entre ces deux types de standards. Les standards mettent souvent en évidence les informations les plus importantes ou les plus fréquemment applicables. Ces groupes d’informations peuvent être désignés comme des "cores". Le format actuellement privilégié pour la publication de données dans les réseaux GBIF et ALA est l’Archive Darwin Core (DwC-A), en utilisant les standards de données Darwin Core (DwC). En pratique, il s’agit d’un dossier compressé (un fichier zip) contenant des fichiers de données, au format texte standard délimité par des virgules ou des tabulations, un fichier de métadonnées (eml.xml) qui décrit la source des données, et un métafichier (meta.xml) qui spécifie la structure des fichiers et les informations inclues dans l’archive. Un conditionnement normalisé garantit que les données puissent circuler entre systèmes en utilisant des protocoles spécifiques d’échange de données. La Section 2 de ce guide donne des recommandations pour le mapping des fichiers de données, tandis que les directives et les outils pour construire les fichiers xml se trouvent ici : TDWG, GBIF, and ALA.

Un élément central du processus de normalisation est le mapping des informations, qui est nécessaire pour transformer la structure originale des informations (colonnes) d’un export de données source en une structure standardisée des informations. La normalisation peut également affecter les informations contenues dans chaque enregistrement, par exemple en recalculant les coordonnées selon un système commun, en réorganisant les éléments de date ou en faisant correspondre le contenu des champs à un ensemble standard de valeurs, souvent appelé vocabulaire. Le processus de normalisation offre également la possibilité d’améliorer la qualité des données, par exemple en comblant les omissions, en corrigeant les fautes de frappe et les espaces inutiles et en gérant l’utilisation incohérente des informations. De telles améliorations rehaussent la qualité des données et augmentent leur aptitude à la réutilisation, mais quoi qu’il en soit, des données publiées dans n’importe quel état sont meilleures que des données qui restent non publiées et inaccessibles. La normalisation est généralement appliquée à une copie ou à un export des données source, laissant l’original intact.

outline of a platform.fr
Figure 3. Esquisse d’une plateforme pour le signalement et la publication de séquences ADN et des métadonnées associées (boîte verte) basée sur les systèmes existants et les normes de données (boîtes grises). Un système envisagé pour la mise à jour régulière (basé sur la lecture automatique des données) des résultats (boîte blanche) peut lire et mettre à jour les informations soit de l’Archive Darwin Core, soit de divers systèmes d’administration. Le transfert de données entre les différents éléments (flèches noires) nécessite différents degrés de transformation et d’harmonisation des informations et peut inclure une évaluation automatique ou humaine de la qualité.

Une fois qu’un jeu de données a été soumis aux processus de normalisation et d’amélioration de la qualité des données, il doit être placé à un endroit accessible en ligne et associé à des métadonnées pertinentes. Les métadonnées – données ou informations sur le jeu de données – comprennent des paramètres clés qui décrivent le jeu de données et améliorent encore son accessibilité et sa réutilisation. Les métadonnées devraient inclure d’autres éléments importants tels que les auteurs, les identifiants d’objets numériques (DOI), les affiliations institutionnelles et d’autres informations sur la provenance des données, ainsi que des informations sur les procédures et méthodes liés au traitement du jeu de données. Nous encourageons à ce qu’une description des détails et des versions du flux de travail, y compris des contrôles de qualité, soit fournie dans le section méthodes du fichier EML.

Les jeux de données et les métadonnées associées sont indexés par chaque portail de données : ce processus permet aux utilisateurs d’interroger, de filtrer et de traiter les données à travers les API et les portails web. Contrairement aux publications scientifiques, les jeux de données peuvent être des produits dynamiques qui passent par de multiples versions, avec un nombre évolutif d’enregistrements et de métadonnées remplaçables sous le même titre et le même DOI.

Il convient de noter que les détenteurs de données de séquences génétiques sont censés les soumettre et les déposer dans des archives de données de séquences brutes tels que le SRA, EMBL’s ENA ou le DDBJ. Le sujet à propos de l’archivage des séquences n’est pas abordé ici, mais à titre d’exemple, Penev et al. (2017) donnent un aperçu général de l’importance de la soumission des données et des directives en lien avec la publication scientifique. Les plateformes de données sur la biodiversité telles que l’ALA, le GBIF et la plupart des portails nationaux sur la biodiversité ne sont pas des archives pour les reads de séquences brutes et les fichiers associés. Nous soulignons toutefois l’importance de maintenir des liens entre ces données primaires et les occurrences dérivées dans la Section 2.

1.5. Flux de travail : de l’échantillon aux données indexables

Les données de métabarcoding peuvent être produites à partir de différentes plateformes de séquençage (Illumina, PacBio, Oxford Nanopore, Ion Torrent, etc.), qui s’appuient sur différents principes pour la lecture et la génération de données qui se distinguent en ce qui concerne la longueur des séquences et le profil d’erreur, que les séquences soient simples ou à double-sens, etc. Actuellement, la plateforme Illumina à lecture courte est la plus largement adoptée et, en tant que telle, est à la base des descriptions ici. Cependant, le traitement bioinformatique des données suit les mêmes principes généraux (contrôle de la qualité, suppression du bruit - denoising, classification) indépendamment de la technologie de séquençage utilisée (Hugerth et al. 2017, Figure 2).

outline of bioinformatic processing.fr
Figure 4. Aperçu du traitement bioinformatique des données de métabarcoding.

Généralement, les séquences ADN sont d’abord prétraitées en supprimant les séquences des amorces (triming) et, en fonction de la méthode de séquençage utilisée, les bases de faible qualité, généralement vers les extrémités 5' et 3' de la séquence. Les séquences qui ne satisfont pas aux exigences de longueur, de qualité globale, de présence d’amorces, d’étiquettes, etc. sont enlevées.

Les séquences prétraitées peuvent ensuite être assignées à un taxon en les comparant aux bases de données de référence. Lorsque les bases de données de référence sont incomplètes, la classification des séquences peut être effectuée sans identification taxonomique, soit en regroupant des séquences en unités taxonomiques opérationnelles basées sur leur similitude (OTU ; Blaxter et al. 2005) ou en supprimant le bruit (denoising) dans les données, c.-à-d. en détectant et excluant explicitement les erreurs introduites dans les séquences lors des PCRs ou du séquençage afin de produire des variants de séquence d’amplicon (ASV; aussi appelé zéro rayon OTU (zOTU)). Le denoising tente de corriger les erreurs introduites pendant la PCR et/ou les étapes de séquençage, de sorte que les séquences nettoyées sont l’ensemble de séquences biologiques uniques présentes dans le mélange original de séquences. Dans le cas de séquences double-brins, les séquences sens et anti-sens peuvent être nettoyées séparément avant d’être combinées ou bien être combinées avant le nettoyage. Les ASVs dans les ensembles de résultats peuvent différer d’aussi peu qu’une seule base, ce qui est indicatif de variations inter- ou intra-spécifiques. Sur le plan pratique, les ASVs peuvent être considérés comme des OTUs sans rayon défini et bien que les algorithmes de nettoyage soient généralement très efficaces, ils ne suppriment pas entièrement les problèmes de fractionnement ou de regroupement de séquences.

La PCR utilisée pour générer la librairie de séquençage peut entraîner la génération de séquences artéfactuelles sous la forme de chimères ; une séquence unique qui provient de plusieurs séquences parentales. De telles séquences peuvent être détectées à l’aide d’outils bioinformatiques, et cela se fait généralement après le regroupement ou le denoising des OTUs.

Enfin, les séquences prétraitées, OTUs ou ASVs, sont classées taxonomiquement en les comparant à une base de données de séquences annotées (souvent appelées bibliothèques de références, voir §1.6). Comme pour les étapes précédentes, plusieurs méthodes alternatives sont disponibles. La plupart d’entre elles sont basés soit sur l’alignement des séquences de métabarcoding sur les séquences de référence, soit sur le nombre de k-mers partagées (séquences courtes exactes).

Plusieurs outils et algorithmes de libre accès existent pour le traitement bioinformatique des données de métabarcoding (QIIME2 (Bolyen et al. 2019), DADA2 (Callahan et al. 2016), SWARM (Mahé et al. 2014), USEARCH (Edgar 2010), Mothur (Schloss et al. 2009), LULU (Frøslev et al. 2017), PROTAX (Somervuo et al. 2016)). Étant donnée l’existence de nombreux flux de travail populaires et bien utilisés, nous faisons quelques recommandations ci-dessous sur l’analyse des données en vue d’une soumission sur les plateformes de données sur la biodiversité. Cela ne veut pas dire que ce sont les meilleures méthodes ou les plus appropriées pour tous les objectifs, mais c’est une tentative d’encourager la soumission de données relativement normalisées pouvant être facilement comparées entre les plateformes. Si possible, un flux de travail bien documenté et maintenu devrait être utilisé (par exemple nf-core/ampliseq pipeline). Les métadonnées devraient inclure les détails et les versions du flux de travail, soit dans les étapes décrivant la méthode, soit comme une référence dans le champ SOP de l’extension appelée Données dérivées de l’ADN (voir le mapping dans la Table 4). Les données de séquence devraient être déposées dans une plateforme d’archivage de nucléotides appropriée (NCBI SRA: Leinonen et al. 2011) ou l’ENA d’EMBL (Amid et al. 2020)) et les données soumises à la plateforme de biodiversité devraient inclure l’identifiant du bioéchantillon obtenu à partir de l’archive (voir le mapping des données dans §2.2). L’utilisation de ces identifiants d’échantillons réduira les chances de duplication et permettra d’obtenir facilement des données de séquences en cas de ré-analyse, lors de l’amélioration des bibliothèques de référence et des outils bioinformatiques. Le produit final de base de ces pipelines est généralement un fichier de dénombrement des OTUs ou ASVs individuels de chaque échantillon et de la taxonomie qui leur sont attribués. Ce fichier est généré soit au format tabulaire, soit au format BIOM (McDonald et.al 2012). Les séquences OTU ou ASV sont aussi généralement fournies au format FASTA (Pearson & Lipman 1988).

1.6. Taxonomie des séquences

L’annotation taxonomique des séquences est une étape critique dans le traitement des ensembles de données de biodiversité moléculaire, car les noms scientifiques sont essentiels pour accéder et communiquer des informations sur les organismes observés. La précision et l’exactitude de cette annotation de séquence dépendront de la disponibilité de bases de données de référence et de bibliothèques fiables à travers toutes les branches de l’arbre de vie, qui, à son tour, nécessitera des efforts conjoints des taxonomistes et des écologistes moléculaires. Les bases de données de séquences publiques devraient toujours être utilisées en prenant conscience du fait qu’elles souffrent de diverses lacunes, par ex. la fiabilité taxonomique et le manque de vocabulaires normalisés de métadonnées (Hofstetter et al. 2019; Durkin et al. 2020).

Les espèces, telles que décrites par les taxonomistes, sont primordiales en biologie et les tentatives de caractérisation de la biodiversité peuvent donc utiliser les résultats de la recherche taxonomique. Cependant, contrairement aux données de séquences ADN, les résultats taxonomiques ne sont pas toujours exploitables par des algorithmes directs ou des interprétations informatiques : la taxonomie classique est un processus dirigé par l’homme qui comprend les étapes manuelles de la délimitation des taxons, de description et de désignation, aboutissant à une publication formelle conforme aux Codes internationaux de Nomenclature. Comme discuté dans les chapitres précédents, les analyses basées sur les séquences ADN sont très efficaces pour détecter les espèces difficiles à observer et identifieront souvent la présence d’organismes actuellement en dehors des connaissances taxonomiques linnéennes traditionnelles. Bien que ces lignes directrices n’abordent pas la publication de listes d’espèces alternatives dérivées de données de séquences, la déconnexion entre la taxonomie traditionnelle et les efforts basés sur le eDNA n’est pas souhaitable. En conséquence, nous proposons aux lecteurs de ce guide les recommandations suivantes.

La taxonomie étant au cœur de la découverte de données sur la biodiversité, il est fortement recommandé que les efforts de séquençage eDNA cherchent à inclure l’expertise taxonomique pertinente pour l’étude en question. Il serait également bénéfique que les projets de séquençage d’eDNA puissent allouer une partie de leur budget à la génération et à la publication de séquences de référence à partir de spécimens types non séquencés ou d’autres éléments de référence importants à partir des herbiers, musées ou collections biologiques locales. Les taxonomistes peuvent également contribuer à cet objectif en incluant toujours des séquences ADN pertinentes avec chaque nouvelle description d’espèce (Miralles et al. 2020) et en ciblant les nombreuses entités biologiques découvertes par les efforts d’eDNA (par exemple Tedersoo et al. 2017).

La plupart des plateformes actuelles de données sur la biodiversité sont organisées autour de listes de noms et d’index taxonomiques traditionnels. Étant donné que les occurrences dérivées de séquences ADN deviennent rapidement une source importante de données sur la biodiversité, et comme la taxonomie et la nomenclature officielles pour ce type de données manquent, il est recommandé que les fournisseurs et les plateformes de données continuent d’explorer et d’inclure des représentations plus souples de la taxonomie dans leur squelette taxonomique. Ces nouvelles représentations comprennent des bases de référence de données moléculaires (par exemple, GTDB, BOLD, UNITE) qui reconnaissent les données de séquences comme matériel de référence pour les organismes non classifiés précédemment. En outre, nous suggérons que d’autres bases de données moléculaires couramment utilisées (par ex. PR2, RDP, SILVA) développent des identifiants stables pour les taxa et rendent disponibles les séquences de référence pour ces taxa, afin de permettre leur utilisation comme références taxonomiques.

Contrairement à la taxonomie classique, qui est un processus essentiellement manuel, regrouper des séquences ADN dans des concepts taxonomiques repose sur l’analyse algorithmique de similarité et d’autres signaux (comme la phylogénie et la probabilité), ainsi que sur quelques modifications humaines. Les OTUs qui en résultent varient en stabilité, présence de séquences de référence et de matériel physique, alignements et valeurs de coupure et en identifiants OTU tels que les DOI (Nilsson et al. 2019). Plus important encore, elles varient en échelle, allant de bibliothèques spécifiques à l’étude ou au projet local, aux bases de données globales qui permettent une comparaison plus large entre les études. Contrairement à la centralisation et à la codification des taxons Linnéens qui sont formellement décrits dans les publications de recherche, les OTUs sont répartis dans de nombreuses bibliothèques de référence numériques en constante évolution, qui diffèrent en fonction du focus taxonomique, des gènes codes-barres et d’autres facteurs. En associant des séquences standards à des spécimens de référence identifiés, BOLD et UNITE établissent une couche de mapping essentielle pour relier les ASVs et OTUs aux fondations de la structure taxonomique Linnéenne. La taxonomie de base du GBIF inclut des identifiants pour les Hypothèses d’espèces UNITE ainsi que des numéros d’index codes-barres qui permettent l’indexation des données d’occurrence d’espèces annotées taxonomiquement au niveau de l’OTU pour les champignons et les animaux (secrétariat du GBIF 2018, Grosjean 2019).

Les algorithmes d’annotation taxonomique de l’eDNA assigneront généralement chaque séquence unique au groupe taxonomique le plus proche dans un ensemble de références, sur la base de certains critères de parenté et de confiance. Pour les groupes d’organismes mal connus, tels que les prokaryotes, les insectes et les champignons, l’annotation peut être un nom réservé non Linnéen pour un taxon (basé sur le cluster), et ce taxon peut représenter une espèce ou même une unité taxonomique au-dessus du niveau de l’espèce. Aucune base de données de référence ne contient toutes les espèces d’un groupe donné en raison des nombreuses espèces inconnues, non identifiées et encore non décrites sur Terre. L’omission fréquente de ce fait a été source de nombreuses erreurs taxonomiques au cours des 30 dernières années.

Lors de l’importation dans la plateforme de données de biodiversité, la résolution taxonomique pour ces occurrences pourrait être réduite encore davantage, car le jeu de référence utilisé pour l’annotation peut ne pas être inclus dans l’index taxonomique de cette plateforme. Les enregistrements assignés à un groupe bien défini dans un genre sont susceptibles d’être traités comme des enregistrements indéterminés de ce genre. L’inclusion de la séquence sous-jacente à l’intérieur ou en référence à chaque enregistrement permettra potentiellement aux futurs utilisateurs d’identifier l’organisme à un plus grand niveau de granularité, puisque les bibliothèques de référence s’améliorent au fil du temps. Dans les cas où la séquence sous-jacente ne peut pas être incluse dans les données soumises, nous préconisons le dépôt d’un nom (scientifique ou nom fictif) du taxon plus une somme de contrôle MD5 de la séquence en tant qu’identifiant unique de taxon (voir [data-mapping]). Les sommes de contrôle MD5 sont des algorithmes de hachage unidirectionnel couramment utilisés pour vérifier l’intégrité du fichier (ref). Dans ce cas, elles fourniraient une représentation unique et répétable de la séquence originale qui ne permettrait toutefois pas de récupérer la séquence elle-même. Cela pourrait-être nécessaire dans les cas où l’accès à ces données est sensible. Les sommes de contrôle MD5 permettent une recherche efficace pour déterminer si la même exacte séquence a été récupérée dans d’autres efforts d’eDNA, mais ce n’est pas un remplacement complet de la séquence car les MD5 ne permettent pas de nouvelles analyses. Deux séquences ne différant que par une seule base auront deux sommes de contrôle MD5 complètement différentes, de sorte que les recherches de similitude de séquence de type BLAST ne fonctionneront pas.

1.7. Résultats

L’objectif d’exposer des données dérivées de l’ADN par le biais de plateformes sur la biodiversité est de permettre la réutilisation de ces données parallèlement aux autres types de données sur la biodiversité. Il est très important de garder cette réutilisation à l’esprit lors de la préparation de vos données pour publication. Idéalement, les métadonnées et les données devraient raconter une histoire complète de telle manière que des utilisateurs nouveaux, non informés pourront utiliser ces preuves sans consultations ni correspondances additionnelles. Les plateformes de données sur la biodiversité fournissent des fonctionnalités de recherche, filtrage, navigation, visualisations, accès aux données et citation des données. Pour les données de métabarcoding, nous encourageons les utilisateurs à configurer des filtres pour organismQuantity, organismQuantityType, sampleSizeValue, sampleSizeUnit. Ces filtres peuvent être utilisées pour exclure les exemplaires uniques (singletons) et/ou fixer des seuils pour le nombre relatif de lectures de séquence dans un échantillon (§2.2.1). Les utilisateurs peuvent souvent choisir le format de sortie de données (par exemple DwC-A, CSV) et ensuite traiter, nettoyer et transformer les données dans la configuration et le format nécessaires aux analyses.

Sur GBIF.org ou via l’API GBIF, les utilisateurs enregistrés peuvent chercher, filtrer et télécharger des données sur la biodiversité dans les trois formats suivants :

  • Simple : un format simple, délimité par des tabulations qui n’inclut que la version interprétée par GBIF des données, à la suite du processus d’indexation. Ceci est approprié pour les tests rapides et l’importation directe dans les feuilles de calcul.

  • Archive Darwin Core : format plus riche qui inclut à la fois les données interprétées et la version originale verbatim fournie par l’éditeur (avant l’indexation et l’interprétation par GBIF). Puisqu’il inclut toutes les métadonnées et les indicateurs de problème, ce format fournit une vue plus riche du jeu de données téléchargé.

  • Liste d’espèces : un format de table simple qui ne comprend qu’une liste interprétée de noms d’espèces uniques à partir d’un jeu de données ou d’un résultat de requête.

Quel que soit le format sélectionné, chaque téléchargement d’utilisateur du GBIF reçoit un lien réutilisable vers la requête et une citation des données incluant un DOI. Ce système de référence basé sur le DOI fournit un moyen permettant de reconnaître et de créditer les utilisations des jeux de données et des fournisseurs de données, améliorant à la fois la crédibilité et la transparence des résultats basés sur ces données. Il est essentiel de suivre les recommandations de citation de données et d’utiliser les DOIs, une bonne culture de citation de données n’étant pas seulement la norme académique, mais aussi un mécanisme puissant pour créditer, reconnaitre et, par conséquent, encourager les éditeurs de données.

2. Préparation et mapping des données

Ce chapitre se concentre sur les détails pratiques pour transformer votre export de données en un jeu de données indexé par une plateforme de données sur la biodiversité. §2.1 vous aidera à décider quel est le schéma de mapping optimal pour les données à votre disposition. §2.2 décrit ces mappings en détail.

Ce guide combine les standards pour la publication de données générales sur la biodiversité avec les données génétiques sur la biodiversité dérivées de l’ADN (Figure 5). Cette section "comment faire" fournit des recommandations de mapping pour différents types de données dérivées de l’ADN.

Les modes de préparation et de publication des données varient d’une plateforme à l’autre et sont décrits dans la documentation générale. Actuellement, une des manières les plus répandues de préparer les fichiers de données est DwC-A, où les tableaux de données sont disposés selon un schéma en étoile, et les enregistrements (lignes) des fichiers d’extension périphériques pointent vers un seul enregistrement du fichier central (Figure 5). Les différents types de fichiers centraux (par exemple, occurrence et événement d’échantillonnage) correspondent à différentes classes de jeux de données. Bien que les jeux de données dérivées de l’ADN soient souvent de nature événementielle, c’est-à-dire que des centaines, voire des milliers d’occurrences de séquences ADN peuvent provenir d’un même événement d’échantillonnage et donc partager la plupart des attributs des métadonnées, la recommandation actuelle est de publier les données en tant qu’Occurrences (catégorie I ou II) avec l’extension pour les données dérivées de l’ADN. Cette approche compense les limites du schéma en étoile du DwC, qui ne permet pas aux données relatives aux occurrences dans les fichiers d’extension (telles que les séquences de codes-barres traitées) de pointer vers les enregistrements d’un fichier événement. Nous recommandons cependant d’inclure un eventID pour chaque enregistrement central, afin d’indiquer l’association entre les occurrences dérivées du même événement d’échantillonnage.

dwca structure.fr
Figure 5. Zoom sur le DwC-A / IPT de la figure 3 du chapitre 1.2. Le choix de l’entité centrale est principalement une question d’adaptation des données au mécanisme d’importation de données (ingestion) des plateformes de données sur la biodiversité. La plupart des données pourraient être formulées en tant qu’Occurrence, Evénement ou de Taxon, mais comme seul le core peut avoir des extensions, cela affectera forcément le choix. Par exemple, ce n’est pas possible d’ajouter des séquences ADN aux occurrences si les données sont présentées sous forme d’événements.

2.1. Catégorisation des données

Pour la finalité de ce guide, nous classons les données en cinq catégories, reliées par un champ d’identification clé (eventID), qui correspondent aux standards applicables aux données générales sur la biodiversité, en incluant des champs pertinents pour les données dérivées de l’ADN (voir §2.2, “Mapping des données”). Ces cinq catégories représentent les approches moléculaires les plus couramment utilisées pour la caractérisation de la biodiversité et sont les suivantes : I) occurrences dérivées de l’ADN, II) occurrences enrichies, III) détection ciblée d’espèces, IV) références de noms et V) métadonnées. Examinez l’arbre de décision ci-dessous et allez directement à la section qui correspond à vos données.

Tableau 1. Arbre de décision pour la catégorisation des données dérivées de l’ADN.

Est-ce que vos données sont basées sur le (méta)barcoding ou sur la qPCR ?

(Méta)barcoding

qPCR

Est-ce que vos données consistent de matériel génétique numérisé ou de séquences ADN, associés à un endroit et à une date ?

Catégorie III
Détection ciblée d’espèces

Oui

Non

Est-ce que le matériel génétique est la seule évidence d’un organisme ou d’une communauté ?

Est-ce que le jeu de données consiste en une liste de noms basés sur l’ADN ?

Oui

Non

Oui

Non

Catégorie I
Occurrences dérivées de l’ADN

Catégorie II
Occurrences enrichies

Catégorie IV
Références de noms

Catégorie V
Métadonnées

eDNA categories.fr
Figure 6. Représentation visuelle des catégories I-V.

2.1.1. Catégorie I : occurrences dérivées de l’ADN

Cette catégorie concerne les données pour lesquelles une séquence ADN est la seule preuve de la présence d’un organisme ou d’une communauté donnée. En d’autres termes, les données ne peuvent pas être rattachées à un spécimen observable. C’est le cas de nombreuses études de métagénomique, de métabarcoding et d’eDNA.

Exemples de jeux de données d’occurrences dérivées de l’ADN
  • MGnify (2019) Impact of rainforest transformation on phylogenetic and functional diversity of soil prokaryotic communities in Sumatra (Indonésie). Jeu de données d’événements d’échantillonnage https://doi.org/10.15468/osp7hi accédé sur GBIF.org le 2020-04-16.

  • MGnify (2020) Métagénomes marins du projet bioGEOTRACES. Jeu de données sur les événements d’échantillonnage https://doi.org/10.15468/oifcho accessible via GBIF.org le 2020-04-16.

  • Bessey C, Jarman SN, Berry O et al. (2020) Maximizing fish detection with eDNA metabarcoding. Environmental DNA: 1–12. https://doi. rg/10.1002/edn3.74 (site internet Atlas of Living Australia sur https://collections.ala.org.au/public/show/dr14581. Accessible le 24 juin 2020)

Pour des conseils sur la façon de formater et de partager les jeux de données, voir §2.2.1. Les directives générales pour les jeux de données d’occurrence Darwin Core sont également disponibles via DwC-A template for occurrence datasets et Data quality requirements for occurrences.

2.1.2. Catégorie II: Occurrences enrichies

Si du matériel génétique est, ou peut être, associé à une observation ou à un spécimen, nous qualifierons ce type de données d'"occurrences enrichies". Dans ce contexte, les séquences ne sont pas la seule preuve d’occurrences. On peut toujours remonter l’information jusqu’à un spécimen ou un organisme observé. Cette catégorie comprend les jeux de données de codes-barres ADN et certains jeux de données de métabarcoding de l’ADN avec du matériel de référence, par exemple. Pour plus de conseils sur les codes-barres ADN, suivez le Centre for Biodiversity Genomics, University of Guelph (2021).

Exemples de jeux de données d’occurrences enrichies
  • The International Barcode of Life Consortium (2016) International Barcode of Life project (iBOL). Jeu de données sur les occurrences https://doi.org/10.15468/inygc6 accessible via GBIF.org le 2020-04-16.

  • Takamura K (2019) Chironomid Specimen records in the Chironomid DNA Barcode Database. Version 1.9. National Institute of Genetics, ROIS. Jeu de données sur les occurrences https://doi.org/10.15468/hxhow5 accessible via GBIF.org le 2020-04-16.

  • Bessey C, Jarman SN, Stat M, Rohner CA, Bunce M, Koziol A, Power M, Rambahiniarison JM, Ponzo A, Richardson AJ & Berry O (2019) DNA metabarcoding assays reveal a diverse prey assemblage for Mobula rays in the Bohol sea, Philippines. Ecology and Evolution 9 (5) 2459-2474. https://doi.org/10.1002/ece3.4858, (Site internet de l’Atlas of Living Australia à https://collections.ala.org.au/public/show/dr11663. Accessible le 24 juin 2020).

Pour des conseils sur la façon de formater et de partager les jeux de données, voir §2.2.1. Les directives générales pour les jeux de données d’occurrence Darwin Core sont également disponibles via DwC-A template for occurrence datasets et Data quality requirements for occurrences.

2.1.3. Catégorie III: Détection ciblée d’espèces (qPCR / (d)dPCR)

Cette catégorie concerne les données pour lesquelles un test spécifique (qPCR / (d)dPCR) est utilisé pour détecter la présence (ou l’absence) d’une séquence ADN spécifique à l’organisme cible dans un échantillon environnemental. Dans ce cas, l’enregistrement de l’occurrence peut même ne pas contenir de données de séquence, car c’est le processus lui-même qui détermine l’occurrence. Avec les analyses qPCR / (d)dPCR pour la détection ciblée d’espèces, de nombreuses études rapportent également l’absence de l’espèce spécifique pour un échantillon donné. Les données d’absence dépendent fortement de la limite de détection de l’analyse spécifique, ainsi que des protocoles de terrain et de laboratoire. Comme pour les données de métabarcoding, il existe un problème de faux négatifs et de faux positifs, et il est important que des informations suffisantes soient rapportées pour évaluer les enregistrements.

Exemples de jeux de données d’occurrences d’espèces ciblées
  • Strzelecki, Joanna ; Feng, Ming; Berry, Olly; Zhong, Liejun; Keesing, John; Fairclough, David; Pearce, Alan; Slawinski, Dirk; Mortimer, Nick. Location and transport of early life stages of Western Australian Dhufish Glaucosoma hebraicum. Floreat, WA: Fisheries Research and Development Corporation; 2013. http://hdl.handle.net/102.100.100/97533 (Atlas of Living Australia site at https://collections.ala.org.au/public/show/dr8131. Accessible le 22 juillet 2020).

Pour des conseils sur la manière de formater et de partager ces jeux de données, voir [mapping-des-données-ddpcr-qpcr]. Les directives générales pour les jeux de données sur les occurrences Darwin Core sont également disponibles via DwC-A template for occurrence datasets and Data quality requirements for occurrences.

2.1.4. Catégorie IV: Références de noms

Cette catégorie correspond aux noms dérivés de l’ADN, issus du clustering ou du denoising (modèles basés sur la correction d’erreurs), tels que les unités taxonomiques opérationnelles (OTU) stables non linnéennes, les variants de séquences d’amplicon (ASV) et les numéros d’index de code-barres (BIN) - en d’autres termes, toute référence à des taxons ou à des noms provisoires définis en dehors de la taxonomie linnéenne. De nombreux projets produisent des bibliothèques locales d’OTUs spécifiques à un projet ou à une étude, et bien qu’il soit techniquement possible de les publier sous forme de checklists, elles n’ont qu’une valeur limitée, voire nulle, pour la mise en relation ou l’interprétation des données ; par conséquent, nous n’encourageons pas leur publication par le biais de plateformes de données sur la biodiversité. Cependant, l’inclusion des OTUs largement adoptées, stables, globales et numériquement référençables dans les bases taxonomiques linnéennes est d’une importance critique pour l’indexation de la biodiversité "sombre" sans nom. Le GBIF a accumulé de l’expérience dans l’intégration de ces grandes bibliothèques mondiales de référence d’OTUs dans la colonne vertébrale taxonomique du GBIF, qui permet l’affichage des OTUs sous le taxon parent le plus proche qui a un nom latin (Figure 7).

otus from unite.en
Figure 7. Les OTUs de UNITE (champignons, en haut) et de BOLD (arthropodes, en bas) sont affichés dans la taxonomie principale du GBIF sous leurs taxons parents correspondants qui ont des noms latins. De multiples occurrences de biodiversité cryptique observées individuellement peuvent être découvertes avec des preuves non génétiques via un point d’accès unique.
Exemples de checklists de références de noms
  • The International Barcode of Life Consortium (2016) International Barcode of Life project (iBOL). Jeu de données sur les occurrences https://doi.org/10.15468/wvfqoi accessible via GBIF.org le 2020-04-16.

  • PlutoF (2019) - Système unifié pour les espèces fongiques basées sur l’ADN liées à la classification. Version 1.2. Jeu de données de la checklist https://doi.org/10.15468/mkpcy3 accédé via GBIF.org le 2020-04-16.

Ce guide ne fournit pas de recommandations de mapping pour les checklists globales d’OTUs / bibliothèques de référence (Catégorie IV), et il est déconseillé de publier des bibliothèques OTU référençables (spécifiques à un projet ou à une étude) sous forme de checklists. Pour obtenir des conseils sur la façon de formater et de partager les checklists d’OTUs, consultez les directives de Darwin Core suivantes sur DwC-A template for checklists, Data quality requirements for checklists et General guidelines for MIxS checklists. Pour obtenir des conseils sur la façon de mapper les bibliothèques de référence mondiales d’OTUs pour les inclure dans la colonne vertébrale taxonomique du GBIF, contactez le GBIF help desk.

2.1.5. Catégorie V : jeux de métadonnées uniquement

Les métadonnées sont des données sur les données et consistent en une description du jeu de données en termes généraux, tels que les auteurs, les affiliations des auteurs, l’objectif original de la recherche liée au jeu de données, les DOI, la portée taxonomique, la portée temporelle, et la portée géographique. Les informations concernant les méthodes de laboratoire et les méthodes générales de séquençage sont incluses dans cette catégorie. Cette catégorie comprend des jeux de données ou des collections qui ne peuvent pas être mis en ligne pour le moment, comme par exemple les travaux non numérisés.

Exemples de jeux de métadonnées uniquement
  • Collins E, Sweetlove M (2019). Arctic Ocean microbial metagenomes sampled aboard CGC Healy during the 2015 GEOTRACES Arctic research cruise. SCAR - Microbial Antarctic Resource System. Jeu de métadonnées https://doi.org/10.15468/iljmun accessible via GBIF.org on 2020-04-16.

  • Cary S C (2015). New Zealand Terrestrial Biocomplexity Survey. SCAR - Microbial Antarctic Resource System. Jeu de métadonnées https://doi.org/10.15468/xnzrhq accessible via GBIF.org on 2020-04-16.

Les recommandations de mapping pour les jeux de données dérivées de l’ADN (Catégorie V) ne comportant que des métadonnées sont les mêmes que pour tous les autres jeux de données qui incluent que des métadonnées, et ce guide ne fournit pas de recommandations de mapping plus spécifiques. Veuillez suivre les recommandations générales des portails de données sur la biodiversité, en prêtant attention à required and recommended metadata. Les descriptions des étapes de terrain, de laboratoire et de bioinformatique doivent être aussi détaillées que possible. La description de vos méthodes en tant qu’étapes de méthode dans les métadonnées EML permet de les afficher sur la page d’accueil du GBIF (https://www.gbif.org/dataset/3b8c5ed8-b6c2-4264-ac52-a9d772d69e9f#methodology Frøslev T, Ejrnæs R (2018). BIOWIDE eDNA Fungi dataset. Danish Biodiversity Information Facility. Occurrence dataset https://doi.org/10.15468/nesbvx accessed via GBIF.org on 2021-07-06). Cependant, si une description structurée et éventuellement plus détaillée de la méthode est déjà publiée quelque part (par exemple, sur protocols.io ou dans NEON protocols collection), c’est facile de fournir un lien via le champ MIxS SOP (voir [mapping du métabarcoding eDNA et des données de codes-barres ADN]).

2.2. Mapping des données

Alors que les fichiers de base stockent des données omniprésentes sur le "quoi, où et quand" d’un enregistrement, les fichiers d’extension sont utilisés pour décrire les spécificités d’un certain type d’observation. Nous proposons d’utiliser DNA derived data extension pour compléter les données d’occurrence dérivées soit du barcoding, du métabarcoding (eDNA) ou de la qPCR / (d)dPCR. L’extension des données dérivées de l’ADN s’appuie sur Minimum information standards développés par le Genomic Standards Consortium (GSC) et appliqués par ENA pour submission of eDNA sample metadata, par exemple. Nous suivons et avons contribué aux directives proposées par Sustainable DwC-MIxS interoperability task group under TDWG. Afin d’améliorer l’indexation et la recherche, nous avons choisi de séparer certains termes MIxS, par exemple en partageant les séquences et les noms des amorces forward et reverse. De plus, afin de rendre le système applicable à un large éventail de données, nous avons inclus certains champs des standards GGBN, et des champs de MIQE (informations minimales pour la publication de la PCR quantitative en temps réel) pour les données qPCR et (d)dPCR.

La première étape de la préparation de vos données pour la publication consiste à vous assurer que les noms de vos champs et les en-têtes de vos colonnes respectent les Darwin Core data standard. Dans de nombreux cas c’est assez simple, comme par exemple de renommer votre champ lat ou latitude en decimalLatitude. Toutefois, le standard Darwin Core est assez souple et certains termes sont utilisés de différentes manières, selon le type de données. Par exemple, les champs organismQuantity et organismQuantityType peuvent être utilisés pour décrire le nombre d’individus, le pourcentage de biomasse ou un score sur l’échelle de Braun-Blanquet, ainsi que le nombre de lectures d’un ASV dans un échantillon. Par conséquent, nous fournissons ici des tableaux avec les champs obligatoires et recommandés avec des descriptions et des exemples (Table 1, Table 2, Table 3 et Table 4). Des champs supplémentaires et des extensions (comme extended Measurement or Fact (eMoF)) sont applicables. Lorsqu’une séquence est issue d’un organisme hôte (par exemple un parasite, le contenu intestinal, un épibion, etc.), l’observation peut être liée à l’observation de l’organisme hôte. Ça peut être réalisé en utilisant (Resource Relation extension) de Darwin Core (par exemple https://www.gbif.org/species/143610775/verbatim). La recommandation la plus importante est probablement celle d’utiliser des identifiants uniques au niveau mondial (lorsqu’ils sont disponibles) et d’autres identifiants permanents pour autant de champs de données et de paramètres que possible (dans tous les champs d’identification des tableaux ci-dessous).

2.2.1. Mapping du métabarcoding (eDNA) et des données de codes-barres ADN

Cette section fournit des recommandations de mapping pour les catégories I et II.

Tableau 2. Champs recommandés pour Occurrence core pour les données de métabarcoding
Nom du champ Exemples Description Requis

basisOfRecord

MaterialSample

La nature spécifique de l’enregistrement des données - une sous-catégorie de dcterms:type. Pour les occurrences dérivées de l’ADN, (voir Catégorie I etCatégorie III) utiliser MaterialSample. Pour les occurrences enrichies utiliser PreservedSpecimen ou LivingSpecimen, selon le cas.

Requis

occurrenceID

urn:catalog:UWBM:Bird:89776

Identifiant unique pour l’occurrence, permettant de reconnaître la même occurrence dans toutes les versions du jeu de données ainsi que lors des téléchargements et de l’utilisation des données. Il peut s’agir d’un identifiant unique au niveau mondial ou d’un identifiant spécifique au jeu de données.

Requis

eventID

urn:uuid:a964765b-22c4-439a-jkgt-2

Identifiant pour l’ensemble des informations associées à un événement (quelque chose qui se produit à un endroit et à un moment donnés). Il peut s’agir d’un identifiant unique au niveau mondial ou d’un identifiant spécifique au jeu de données.

Fortement recommandé

eventDate

2020-01-05

Date à laquelle l’événement a été enregistré. La meilleure pratique recommandée est d’utiliser une date conforme à la norme ISO 8601-1:2019. Pour plus d’informations, consultez le site https://dwc.tdwg.org/terms/#dwc:eventDate.

Requis

recordedBy

"Oliver P. Pearson | Anita K. Pearson"

Liste (concaténée et séparée) des noms des personnes, groupes ou organisations responsables pour l’enregistrement de l’Occurrence originale. La meilleure pratique recommandée est de séparer les valeurs par une barre verticale (' | '). L’inclusion d’informations sur l’observateur améliore la reproductibilité scientifique. (Groom et al. 2020).

Fortement recommandé

organismQuantity

33

Nombre de lectures de ce variant de séquence dans l’échantillon

Fortement recommandé

organismQuantityType

DNA sequence reads

Devrait toujours être “DNA sequence reads”

Fortement recommandé

sampleSizeValue

1233890

Nombre total de lectures dans l’échantillon. Ce chiffre est important car il permet de calculer l’abondance relative du variant de séquence dans l’échantillon.

Fortement recommandé

sampleSizeUnit

DNA sequence reads

Devrait toujours être “DNA sequence reads”

Fortement recommandé

materialSampleID

https://www.ncbi.nlm.nih.gov/biosample/15224856

https://www.ebi.ac.uk/ena/browser/view/SAMEA3724543

urn:uuid:a964805b-33c2-439a-beaa-6379ebbfcd03

Identifiant pour le MaterialSample (par opposition à un enregistrement numérique particulier de l’échantillon). Utilisez l’ID biosample s’il a été obtenu à partir d’un archive moléculaire. En l’absence d’un identifiant unique mondial persistant, en construire un à partir d’une combinaison d’identifiants dans l’enregistrement qui rendra l’identifiant materialSampleID mondialement unique.

Fortement recommandé

samplingProtocol

UV light trap

Nom, référence ou description de la méthode ou du protocole utilisé lors d’un événement d’échantillonnage. https://dwc.tdwg.org/terms/#dwc:samplingProtocol

Recommandé

associatedSequences

https://www.ncbi.nlm.nih.gov/nuccore/MK405371

Liste (concaténée et séparée) d’identifiants (publication, identifiant unique mondial, URI) des informations sur la séquence génétique associée à l’Occurrence. Cette liste peut être utilisée pour établir un lien avec des séquences brutes archivées de codes-barres et/ou des séquences génomiques associées, par exemple dans une plateforme publique.

Recommandé

identificationRemarks

RDP annotation confidence (at lowest specified taxon): 0.96, against reference database: GTDB

Spécification du processus d’identification taxonomique, comprenant idéalement des données sur l’algorithme appliqué et la base de données de référence, ainsi que sur le niveau de confiance dans l’identification résultante.

Recommandé

identificationReferences

https://www.ebi.ac.uk/metagenomics/pipelines/4.1

https://github.com/terrimporter/CO1Classifier

Liste (concaténée et séparée) des références (publication, identifiant unique mondial, URI) utilisées dans l’identification. La meilleure pratique recommandée est de séparer les valeurs dans une liste par un espace barre verticale ( | ).

Recommandé

decimalLatitude

60.545207

Latitude géographique (en degrés décimaux, selon le système de référence spatiale indiqué dans geodeticDatum) du centre géographique d’un lieu. Les valeurs positives correspondent au nord de l’équateur, les valeurs négatives au sud. Les valeurs légales sont comprises entre -90 et 90, y compris.

Fortement recommandé

decimalLongitude

24.174556

Longitude géographique (en degrés décimaux, selon le système de référence spatiale indiqué dans geodeticDatum) du centre géographique d’un lieu. Les valeurs positives sont à l’est du méridien de Greenwich, les valeurs négatives sont à l’ouest de celui-ci. Les valeurs légales sont comprises entre -180 et 180, y compris.

Fortement recommandé

taxonID

ASV:7bdb57487bee022ba30c03c3e7ca50e1

Pour les données d’eDNA, il est recommandé d’utiliser un hachage MD5 de la séquence et de le faire précéder de "ASV :". Voir aussi [taxonomy-of-sequences].

Fortement recommandé, si la séquence ADN (DNA_sequence) n’est pas fournie

scientificName

Gadus morhua L. 1758, BOLD:ACF1143

Nom latin du taxon connu le plus proche (espèce ou supérieur) ou un identifiant OTU de BOLD ou UNITE.

Requis

kingdom

Animalia

Taxonomie supérieure

Fortement recommandé

phylum

Chordata

Taxonomie supérieure

Recommandé

class

Actinopterygii

Taxonomie supérieure

Recommandé

order

Gadiformes

Taxonomie supérieure

Recommandé

family

Gadidae

Taxonomie supérieure

Recommandé

genus

Gadus

Taxonomie supérieure

Recommandé

Tableau 3. Champs recommandés de l’extension de données dérivées de l’ADN (une sélection) pour les données de métabarcoding
Nom de champ Exemples Description Obligation

DNA_sequence

TCTATCCTCAATTATAGGTCATAATTCACCATCAGTAGATTTAGGAATTTTCTCTATTCATATTGCAGGTGTATCATCAATTATAGGATCAATTAATTTTATTGTAACAATTTTAAATATACATACAAAAACTCATTCATTAAACTTTTTACCATTATTTTCATGATCAGTTCTAGTTACAGCAATTCTCCTTTTATTATCATTA

La séquence ADN (ASV). L’interprétation taxonomique de la séquence dépend de la technologie et de la bibliothèque de référence disponible au moment de la publication. Par conséquent, l’identifiant taxonomique le plus objectif est la séquence, qui pourra être réinterprété dans le futur.

Fortement recommandé

sop

https://www.protocols.io/view/emp-its-illumina-amplicon-protocol-pa7dihn

Protocole opérationnel standard utilisé lors de l’assemblage et/ou l’annotation de génomes, métagénomes et séquences environnementales.

Référence vers un protocole bien documenté, e.g. en utilisant protocols.io

Recommandé

target_gene

16S rRNA, 18S rRNA, nif, amoA, rpo

Gène ciblé ou nom du marqueur pour les études basées sur les marqueurs.

Fortement recommandé

target_subfragment

V6, V9, ITS

Nom du sous-fragment d’un gène ou d’un marqueur. Important pour e.g. identifier des régions spécifiques sur des marqueurs de gènes tel que la région hypervariable V6 du gène 16S rARN.

Fortement recommandé

pcr_primer_forward

GGACTACHVGGGTWTCTAAT

Amorce PCR sens ayant été utilisée lors de l’amplification de la séquence du gène cible, du locus ou du sous-fragment.

Fortement recommandé

pcr_primer_reverse

GGACTACHVGGGTWTCTAAT

Amorce PCR anti-sens ayant été utilisée lors de l’amplification de la séquence du gène cible, du locus ou du sous-fragment.

Fortement recommandé

pcr_primer_name_forward

jgLCO1490

Nom de l’amorce PCR sens.

Fortement recommandé

pcr_primer_name_reverse

jgHCO2198

Nom de l’amorce PCR anti-sens.

Fortement recommandé

pcr_primer_reference

https://doi.org/10.1186/1742-9994-10-34

Référence des amorces.

Fortement recommandé

env_broad_scale

forest biome [ENVO:01000174]

Équivalent de env_biome dans MIxS v4
Dans ce champ, indiquez de quel système environnemental majeur provient votre échantillon ou votre spécimen. Les systèmes identifiés devraient avoir une granularité spatiale grossière, afin de fournir un contexte environnemental général par rapport au lieu d’échantillonnage (e.g. étiez-vous dans un désert ou une forêt tropicale ?). Nous recommandons l’utilisation des sous-classes des classes de biomes de ENVO :
http://purl.obolibrary.org/obo/ENVO_00000428

Recommandé

env_local_scale

litter layer [ENVO:01000338]

Équivalent de env_feature dans MIxS v4
Dans ce champs, mentionner la ou les entité(s) présente(s) dans le voisinage proche de votre échantillon ou spécimen et qui pourrai(en)t avoir une importante influence causale sur ceux-ci. Veuillez utiliser les termes présents dans ENVO ayant une granularité spatial plus fine que ceux utilisés pour env_broad_scale.

Recommandé

env_medium

soil[ENVO:00001998]

Équivalent de env_material dans MIxS v4
Dans ce champ, mentionner tout le matériel environnemental (séparer les valeurs dans une liste par un espace barre verticale ( | ) ) entourant directement votre échantillon ou votre spécimen avant l’échantillonnage, en utilisant une ou plusieurs sous-classes des classes ENVO pour le matériel environnemental :
http://purl.obolibrary.org/obo/ENVO_00010483

Recommandé

lib_layout

Paired

Équivalent à lib_const_meth dans MIxS v4
Spécifiez si nous devons nous attendre à des séquences uniques, en paires ou tout autre configuration.

Recommandé

seq_meth

Illumina HiSeq 1500

Méthode de séquençage utilisée ; e.g. Sanger, pyrosequencing, ABI-solid

Fortement recommandé

otu_class_appr

"95% ANI;85% AF; greedy incremental clustering"

Seuils et approche utilisés lors du groupement de nouveaux UViGs pour les OTUs au niveau de l’espèce. Notez que les résultats des groupements 95% ANI / 85% AF standards devraient être fournit avec les OTUs définis avec d’autres seuils, même si ces derniers sont ceux utilisés en priorité lors des analyses.

Fortement recommandé

otu_seq_comp_appr

"blastn;2.6.0+;e-value cutoff: 0.001"

Outil et seuils utilisés pour comparer des séquences lors du calcul des OTUs au niveau de l’espèce.

Fortement recommandé

otu_db

"NCBI Viral RefSeq;83", "UNITE;8.2"

Base de données de référence (i.e. séquences non générées dans le cadre de l’analyse) utilisée pour grouper les nouveaux génomes dans les OTUs au niveau de l’espèce.

Fortement recommandé

2.2.2. Mapping des données qPCR / (d)dPCR

Cette section fournit des recommandations de mapping pour la Category III.

Tableau 4. Champs recommandés pour l’Occurrence core pour les données qPCR / (d)dPCR
Nom de champ Exemples Description Recommandation

basisOfRecord

MaterialSample

La nature spécifique d’un enregistrement - un sous-type de dcterms:type. Pour des occurrences dérivées de l’ADN (voir Catégorie I et Catégorie III), utilisez MaterialSample.

Requis

occurrenceStatus

Present, Absent

Une affirmation à propos de la présence ou de l’absence d’un taxon à un endroit donné.

Requis

eventID

urn:uuid:a964765b-22c4-439a-jkgt-2

Un identifiant pour un ensemble d’informations associé à un événement (quelque chose quelque part à un moment donné). Peut être un identifiant unique global ou un identifiant spécifique au jeu de données.

Fortement recommandé

eventDate

2020-01-05

Date à laquelle l’événement a été enregistré. La meilleure pratique recommandée est d’utiliser une date conforme au standard ISO 8601-1:2019. Pour de plus amples informations, visitez https://dwc.tdwg.org/terms/#dwc:eventDate

Requis

recordedBy

"Oliver P. Pearson | Anita K. Pearson"

Une liste (concatenée et separée) de noms de personnes, groupes ou organisations responsables de l’enregistrement de l’Occurrence originale. La meilleure pratique recommandée est de séparer les valeurs par une barre verticale (' | '). Inclure des informations à propos de l’observateur améliore la reproductibilié scientifique (Groom et al. 2020).

Fortement recommandé

organismQuantity

50

Nombre de gouttes/compartiments positifs dans l’échantillon.

Fortement recommandé pour ddPCR, dPCR

organismQuantityType

ddPCR droplets
dPCR chambers

Le type de partition

Fortement recommandé pour ddPCR, dPCR

sampleSizeValue

20000

Le nombre de partitions acceptées (n), e.g. signifie les gouttes acceptées pour les ddPCR ou de compartiments pour les dPCR.

Fortement recommandé pour ddPCR, dPCR

sampleSizeUnit

ddPCR droplets
dPCR chambers

Le type de partition, devrait être égal à la valeur dans organismQuantityType.

Fortement recommandé pour ddPCR, dPCR

materialSampleID

https://www.ncbi.nlm.nih.gov/biosample/15224856

urn:uuid:a964805b-33c2-439a-beaa-6379ebbfcd03

Un identifiant pour MaterialSample (et non pas un enregistrement digital particulier du matériel échantillonné). Utilisez l’ID du bio-échantillon si un tel identifiant a été obtenu d’une archive de nucléotides. En absence d’un identifiant unique global persistant, construisez en un à partir de la combinaison d’identifiants dans l’enregistrement permettant d’obtenir un materialSampleID le plus mondialement unique possible.

Fortement recommandé

samplingProtocol

UV light trap

Le nom de, la référence à, ou la description de la méthode ou du protocole utilisé lors de l’événement d’échantillonnage. https://dwc.tdwg.org/terms/#dwc:samplingProtocol

Recommandé

decimalLatitude

60.545207

La latitude géographique (en degrés décimaux, utilisant le système de référence spatial fourni dans le champ geodeticDatum) du centre géographique de la localisation. Les valeurs positives se situent au Nord de l’Équateur, les valeurs négatives au Sud de celui-ci. Les valeurs légales se situent entre -90 et 90, inclusivement.

Fortement recommandé

decimalLongitude

24.174556

La longitude géographique (en degrés décimaux, utilisant le système de référence spatial fourni dans le champ geodeticDatum) du centre géographique de la localisation. Les valeurs positives se situent à l’Est du méridien de Greenwich, les valeurs négatives à l’Ouest de celui-ci. Les valeurs légales se situent entre -180 et 180, inclusivement.

Fortement recommandé

scientificName

Gadus morhua L. 1758, BOLD:ACF1143

Nom latin du plus proche taxon connu (espèce ou supérieur) ou un identifiant d’OTU provenant de BOLD ou UNITE.

Requis

kingdom

Animalia

Taxonomie supérieure (Royaume)

Fortement recommandé

phylum

Chordata

Taxonomie supérieure (Phylum)

Recommandé

class

Actinopterygii

Taxonomie supérieure (Classe)

Recommandé

order

Gadiformes

Taxonomie supérieure (Ordre)

Recommandé

family

Gadidae

Taxonomie supérieure (Famille)

Recommandé

genus

Gadus

Taxonomie supérieure (Genre)

Recommandé

Tableau 5. Champs recommandés de l’extension de données dérivées de l’ADN DNA derived data extension (une sélection) pour les données qPCR / (d)dPCR
Nom de champ Exemples Description Recommandation

sop

https://www.protocols.io/view/protocol-for-dna-extraction-and-quantitative-pcr-d-vwie7ce

https://doi.org/10.17504/protocols.io.vwie7ce

Protocole opérationnel standard utilisé lors de l’assemblage et/ou l’annotation de génomes, métagénomes et séquences environnementales.

Référence vers un protocole bien documenté, e.g. en utilisant protocols.io

Fortement recommandé

annealingTemp

60

La température de réaction pendant la phase d’hybridation de la PCR.

Requis si annealingTemp a été spécifié

annealingTempUnit

Degrees Celsius

Fortement recommandé

pcr_cond

initial denaturation:94_3;annealing:50_1;elongation:72_1.5;final elongation:72_10;35

Description des conditions de réactions et des composantes de la PCR, sous la forme de "dénaturation initiale :94degC_1.5min; hybridation=…​"

Fortement recommandé

probeReporter

FAM

Type de fluorophore (rapporteur) utilisé. La sonde s’hybride avec l’ADN cible amplifié. L’activité de la polymérase dégrade la sonde s’étant hybridée au modèle, et la sonde relâche le fluorophore et brise la proximité avec le "quencher", permettant la fluorescence du fluorophore.

Fortement recommandé

probeQuencher

NFQ-MGB

Type de "quencher" utilisé. La molécule "quencher" absorbe la fluorescence émise par le fluorophore lorsque excité par la source lumineuse du thermocycleur tant que le fluorophore et le quencher sont à proximité l’un de l’autre, l’absorption inhibe tout signal de fluorescence.

Fortement recommandé

ampliconSize

83

La longueur de l’amplicon en paires de bases.

Fortement recommandé

thresholdQuantificationCycle

0.3

Seuil pour le changement de signal de fluorescence entre les cycles.

qPCR : Fortement recommandé

baselineValue

15

Le nombre de cycles pendant lesquels le signal de fluorescence est inférieur à la fluorescence de fond ne provenant pas de la véritable cible d’amplification.

qPCR : Fortement recommandé

quantificationCycle

37.9450950622558

Le nombre de cycles nécessaires pour que le signal de fluorescence dépasse une valeur seuil supérieure à la valeur de base. Le cycle de quantification (Cq), le cycle seuil (Ct), le point de franchissement (Cp) et le point de décollage (TOP) font référence à la même valeur provenant de l’instrument en temps-réel. L’utilisation du cycle de quantification (Cq) est préférable selon le standard de données RDML (language Markup PCR en temps-réel)

automaticThresholdQuantificationCycle

no

Information indiquant si le seuil a été fixé par l’instrument ou manuellement.

automaticBaselineValue

no

Information indiquant si la valeur de base a été fixée par l’instrument ou manuellement.

contaminationAssessment

no

Information indiquant si l’évaluation de la contamination ADN ou ARN a été faite ou non.

estimatedNumberOfCopies

10300

Nombre de molécules cibles par µl. La moyenne des copies par partition (?) peut être calculée en utilisant le nombre de partitions (n) et le nombre estimé de copies dans le volume total de toutes les partitions (m) à l’aide de la formule ?=m/n.

amplificationReactionVolume

22

Volume de la réaction PCR.

amplificationReactionVolumeUnit

µl

Unité utilisée pour le volume de la réaction PCR. De nombreux instruments nécessitent la préparation d’un volume initial d’échantillon plus grand que ce qui sera réellement analysé.

pcr_analysis_software

BIO-RAD QuantaSoft

Le programme utilisé pour analyser les runs de d(d)PCR.

experimentalVariance

Il est encouragé d’obtenir de multiples réplicats biologiques afin d’évaluer la variation expérimentale totale. Lorsqu’un seul essai de dPCR est réalisé, une estimation minimale de la variance due au dénombrement des erreurs seulement doit être calculée à partir de la distribution binomiale (ou un équivalent valable).

target_gene

16S rRNA, 18S rRNA, nif, amoA, rpo

Gène ciblé ou nom du marqueur pour les études basées sur les marqueurs.

Fortement recommandé

target_subfragment

V6, V9, ITS

Nom du sous-fragment d’un gène ou d’un marqueur. Important pour e.g. identifier des régions spécifiques sur des marqueurs de gènes tel que la région hypervariable V6 du gène 16S rARN.

Fortement recommandé

pcr_primer_forward

GGACTACHVGGGTWTCTAAT

Amorce PCR sens ayant été utilisée lors de l’amplification de la séquence du gène cible, du locus ou du sous-fragment.

Fortement recommandé

pcr_primer_reverse

GGACTACHVGGGTWTCTAAT

Amorce PCR anti-sens ayant été utilisée lors de l’amplification de la séquence du gène cible, du locus ou du sous-fragment.

Fortement recommandé

pcr_primer_name_forward

jgLCO1490

Nom de l’amorce PCR sens.

Fortement recommandé

pcr_primer_name_reverse

jgHCO2198

Nom de l’amorce PCR anti-sens.

Fortement recommandé

pcr_primer_reference

https://doi.org/10.1186/1742-9994-10-34

Références des amorces.

Fortement recommandé

env_broad_scale

forest biome [ENVO:01000174]

Équivalent de env_biome dans MIxS v4
Dans ce champ, indiquez de quel système environnemental majeur provient votre échantillon ou votre spécimen. Les systèmes identifiés devraient avoir une granularité spatiale grossière, afin de fournir un contexte environnemental général par rapport au lieu d’échantillonnage (e.g. étiez-vous dans un désert ou une forêt tropicale ?). Nour recommandons l’utilisation des sous-classes des classes de biomes de ENVO :
http://purl.obolibrary.org/obo/ENVO_00000428

Recommandé

env_local_scale

litter layer [ENVO:01000338]

Équivalent de env_feature dans MIxS v4
Dans ce champs, mentionner la ou les entité(s) présente(s) dans le voisinage proche de votre échantillon ou spécimen et qui pourrai(en)t avoir une importante influence causale sur ceux-ci. Veuillez utiliser les termes présents dans ENVO ayant une granularité spatial plus fine que ceux utilisés pour env_broad_scale.

Recommandé

env_medium

soil [ENVO:00001998]

Équivalent de env_material dans MIxS v4
Dans ce champ, mentionner tout le matériel environnemental (séparer les valeurs dans une liste par un espace barre verticale ( | ) ) entourant directement votre échantillon ou votre spécimen avant l’échantillonnage, en utilisant une ou plusieurs sous-classes des classes ENVO pour le matériel environnemental :
http://purl.obolibrary.org/obo/ENVO_00010483

Recommandé

concentration

67.5

Concentration d’ADN (poids ng/volume µl). Voir aussi : http://terms.tdwg.org/wiki/ggbn:concentration

Recommandé

concentrationUnit

ng/µl

Unité utilisée pour mesurer la concentration. Voir aussi : http://terms.tdwg.org/wiki/ggbn:concentrationUnit

Recommandé

methodDeterminationConcentrationAndRatios

Nanodrop, Qubit

Description de la méthode utilisée pour mesurer la concentration. Voir aussi : http://terms.tdwg.org/wiki/ggbn:methodDeterminationConcentrationAndRatios

Recommandé

ratioOfAbsorbance260_230

1.89

Ratio de l’absorbance à 260 nm et 230 nm évaluant la pureté de l’ADN (mesure secondaire principalement, indiquant surtout l’EDTA, les carbohydrates et phenol), (échantillons d’ADN seulement). Voir aussi : http://terms.tdwg.org/wiki/ggbn:ratioOfAbsorbance260_230

Recommandé

ratioOfAbsorbance260_280

1.91

Ratio de l’absorbance à 280 nm et 230 nm évaluant la pureté de l’ADN (mesure secondaire principalement, indiquant surtout l’EDTA, les carbohydrates et phenol), (échantillons d’ADN seulement). Voir aussi : http://terms.tdwg.org/wiki/ggbn:ratioOfAbsorbance260_280

Recommandé

samp_collect_device

biopsy, niskin bottle, push core

La méthode ou l’appareil utilisé pour récolter l’échantillon.

Recommandé

samp_mat_process

filtering of seawater, storing samples in ethanol

Tout traitement appliqué à l’échantillon pendant ou après la collecte de celui-ci dans l’environnement. Ce champ accepte OBI. Pour parcourir les termes OBI (v 2018-02-12) veuillez consulter : http://purl.bioontology.org/ontology/OBI

Recommandé

samp_size

5 litre

Quantité ou taille de l’échantillon (volume, masse ou aire) qui a été collecté.

Recommandé

size_frac

0-0.22 micrometer

Taille des pores de filtrations utilisés lors de la préparation des échantillons.

Recommandé

pcr_primer_lod

51

La capacité du test PCR à détecter la cible avec de faibles niveaux.

Fortement recommandé

pcr_primer_loq

184

La capacité du test PCR à quantifier le nombre de copies à de faibles niveaux.

Fortement recommandé

3. Perspectives futures

L’intérêt actuel à exposer les données dérivées de l’ADN par le biais des plateformes de données sur la biodiversité est énorme, et probablement la demande va encore augmenter. Notre objectif est que les recommandations de mapping fournies ici restent valables et évoluent lentement, même si la préparation et l’indexation par les plateformes de données sur la biodiversité se développent plus rapidement. Les auteurs ont connaissance de BOLD Handbook, BIOM format et http://edamontology.org/page, mais ne les ont pas encore consultés.

Nous proposons que les plateformes de données telles que l’ALA et le GBIF s’efforcent d’adopter des formats de données qui prennent en compte des données relationnelles et hiérarchiques plus complexes. Des exemples pourraient être le Frictionless Data Format et le format plus spécifique au domaine Biological Observation Matrix (BIOM) format. Ce dernier est utilisé par plusieurs outils bioinformatiques (QIIME2, Mothur, USEARCH etc.) et pourrait donc aider les éditeurs à sauter une étape dans la conversion des données au format DwC-A. Un format de données plus flexible que le schéma actuel DwC en étoile est essentiel pour permettre des événements d’échantillonnage hiérarchiques et des échantillons de matériaux, ainsi que pour lier des données de séquence ADN à des occurrences individuelles dans un même événement d’échantillonnage.

Les plateformes de données sur la biodiversité devront également permettre aux utilisateurs d’inclure ou d’exclure facilement les données d’occurrence dérivées de l’ADN dans les résultats de leurs recherches. Les formats de données suggérés ci-dessus pourraient ouvrir la voie à une classification plus riche des types d’évidence sur lesquelles repose un enregistrement d’occurrence spécifique. Toutefois, pour l’instant, il manque une valeur appropriée dans le vocabulaire BasisOfRecord pour ces types de données. Nous suggérons, à titre de solution pragmatique immédiate, d’ajouter à la base de données BasisOfRecord une valeur telle que "ADN", "dérivé de l’ADN" ou similaire. Comme décrit ci-dessus, les données dérivées de l’ADN peuvent provenir d’un échantillonnage bien documenté ou d’organismes individuels, peuvent être soutenues par du matériel physique préservé ou non, ou peuvent résulter d’un séquençage génétique ou d’autres méthodes de détection de l’ADN, comme la qPCR. Les plateformes de données sur la biodiversité et le TDWG devraient fournir les moyens de différencier ces types de données et leurs origines.

Nous recommandons également que les plateformes de données indexent les vraies séquences ADN, ou au moins un checksum MD5 de celles-ci, afin de faciliter les recherches d’ASVs dans les jeux de données. Si les ASVs sont fournis, les MD5 devraient être générés par les plateformes de données sur la biodiversité ; si les ASVs ne sont pas fournis, les MD5 doivent être obligatoires.

Comme mentionné dans §1.6 et §2.1.4, nous encourageons les plateformes de données sur la biodiversité à poursuivre leur travail d’adoption de bases de données de référence en taxonomie moléculaire dans leurs structures taxonomiques centrales.

L’application plus large d’autres méthodes et technologies, telles que Oxford Nanopore, PacBio et le séquençage shotgun, rendra probablement nécessaire l’adaptation du présent guide à de nouveaux champs de données et de métadonnées spécifiques.

Glossaire

Atlas du Vivant d’Australie (ALA)

ALA est une plateforme web qui rassemble des données sur la biodiversité australienne provenant de sources multiples, ce qui la rend accessible et réutilisable pour tout le monde (voir https://www.ala.org.au/about-ala/). La plateforme d’infrastructure ouverte développée par ALA est également utilisée par plusieurs autres pays pour leur propre plateforme nationale de données sur la biodiversité (voir https://living-atlases.gbif.org/).

Variant de Séquences d’Amplicon (ASV)

Séquence ADN individuelle produite par séquençage à haut débit d’amplicons ou par denoising, et supposée représenter une variante de séquence biologiquement réelle. Voir également <otu,Operational Taxonomic Unit (OTU)> et (Callahan et al. 2017).

Interface d’Applications de Programmation (API)

Ensemble de protocoles et d’outils pour l’interaction et la transmission de données entre différentes applications informatiques.

Numéros d’Index de Codes-barres (BINs)

Unité taxonomique opérationnelle au niveau de l’espèce Operational Taxonomic Units (OTUs) dérivée du clustering de séquences du gène cytochrome c oxydase I (COI) chez les animaux. Chaque BIN se voit assigner un identifiant unique au niveau mondial et est disponible dans la base de données consultable Barcode of Life Data System (BOLD).

Système Barcode of Life Data (BOLD)

BOLD est la base de données de référence maintenue par le Centre for Biodiversity Genomics à Guelph au nom du Consortium international Barcode of Life (IBOL). Elle héberge des données sur les spécimens et les séquences de référence des codes-barres ADN pour les espèces d’eukaryotes, en particulier le COI pour les animaux, et maintient le système des numéros d’index de codes-barres (BIN; Ratnasingham & Hebert 2013), identifiants pour les OTUs des rangs approximatifs d’espèces, basés sur des groupes de séquences étroitement similaires.

Plateforme de données sur la biodiversité

Ressource générale en ligne permettant de découvrir et d’accéder aux données sur la biodiversité provenant de diverses sources, comme les collections d’histoire naturelle, les projets de science citoyenne, d’écologie et de surveillance, et de séquençage génétique. Peut être mondial (GBIF) ou national (ALA).

Clustering

Dans la classification taxonomique, le processus de regroupement des séquences ADN selon certains critères de similarité. Voir Operational Taxonomic Unit.

ADN de la communauté (échantillons mixtes)

ADN provenant d’échantillons mixtes (par exemple, des échantillons de plancton ou des échantillons de pièges de Malaise composés de plusieurs individus provenant de nombreuses espèces). Dans le but de ce guide, des échantillons d’ADN mixte sont inclus dans le concept d’eDNA.

Archive Darwin Core (DwC-A)

Format de fichier compressé (ZIP) pour l’échange de données sur la biodiversité compilées conformément au standard Darwin Core (DwC) standard. Essentiellement un ensemble autonome de fichiers CSV interconnectés et un document XML décrivant les fichiers et les colonnes de données, ainsi que leurs relations mutuelles.

Standard Darwin Core (DwC)

Norme de partage et de publication des données sur la biodiversité, provenant de la communauté des Normes d’Information sur la Biodiversité (Biodiversity Information Standards, TDWG). En principe, un ensemble de termes utilisés pour décrire les différentes entités d’observations de la biodiversité, telles que les événements d’échantillonnage, les occurrences et les taxa. Les termes actuels du Darwin Core sont décrits dans le Guide de référence rapide.

Vocabulaire des données

Ensemble privilégié de termes ou de concepts avec des significations et des relations spécifiques et bien définies, facilitant l’échange et la réutilisation des données.

(d)dPCR (Polymerase Chain Reaction numérique par goutelette)

Droplet digital PCR. Méthode permettant de mesurer la quantité absolue d’ADN (nombre de copies) d’un marqueur dans un échantillon. Voir également qPCR.

Suppression du bruit - Denoising

En métabarcoding, méthode de séparation des véritables séquences biologiques (voir ASVs) des variantes de séquences parasites causées par l’amplification par PCR et l’erreur de séquençage.

Identifiant d’Objet Numérique (DOI)

Référence pérenne utilisée pour identifier (et localiser) de façon unique des objets d’information numérique, comme un jeu de données sur la biodiversité ou une publication scientifique.

Barcoding ADN et métabarcoding (séquence amplicon)

Utilisation de fragments d’ADN courts et standardisés pour identifier des organismes individuels par séquençage. Le métabarcoding combine l’utilisation des codes-barres ADN avec le séquençage à haut débit, en utilisant des amorces universelles pour amplifier et séquencer de grands groupes d’organismes dans des échantillons d’ADN environnemental.

Marqueur ADN

Fragment d’ADN utilisé pour différentier certaines propriétés (par exemple, l’affiliation taxonomique). Peut être un gène ou une partie d’un gène, mais ce n’est pas obligatoire.

Base de données de métabarcoding ADN

Base de données contenant des séquences ADN (codes-barres ADN) d’organismes précédemment récupérés ou étudiés. Les séquences de référence ont été idéalement générées à partir d’individus d’espèces décrites et bien étudiées - le spécimen type servant de référence idéale - ou d’un niveau taxonomique supérieur (par exemple, le genre, la famille), mais elles peuvent également provenir d’efforts de séquençage d’eDNA. Il est recommandé de ne pas se fier aveuglément aux « séquences de référence ».

Sonde ADN

Fragment d’ADN court, simple brin synthétisé avec un marquage fluorescent qui se lie à une région sélectionnée de l’ADN cible (marqueur) pendant la PCR. Augmente la spécificité et peut être utilisée en plus des amorces dans qPCR et ddPCR pour détecter et quantifier un marqueur génétique.

Institut de Bioinformatique Européen (EMBL-EBI)

Organisation intergouvernementale pour la recherche et les services en bioinformatique, faisant partie du Laboratoire Européen de biologie moléculaire (EMBL), fournissant par exemple des séquences (brutes) et des données d’assemblage via Archives européennes de nucléotides (ENA).

ADN environnemental (eDNA)

ADN provenant d’un échantillon environnemental, par exemple le sol, l’eau, l’air ou l’organisme hôte. Une définition souvent utilisée est que l’ADN environnemental est le matériel génétique (ADN) obtenu à partir d’échantillons environnementaux sans preuve évidente de matériel biologique source.

Archives Européennes de Nucléotides (ENA)

Dépôt européen de séquences de nucléotides, couvrant les données de séquençage brutes, les informations d’assemblage de séquences et les annotations fonctionnelles. Inclut le Sequence Read Archive (SRA), et est maintenu par l’Institut Européen de Bioinformatique (EMBL-EBI), dans le cadre de la International Nucleotide Sequence Database Collaboration (INSDC).

FASTQ

Standard textuel pour le stockage des séquences moléculaires et des mesures de qualité associées dérivant de High-throughput sequencing (HTS). Pour chaque position de séquence, des caractères ASCII uniques sont utilisés pour représenter l’appel de base (nucléotide identifié) et le score, respectivement.

Système Mondial d’Information sur la Biodiversité (GBIF)

Réseau international et infrastructure de recherche, principalement axé sur la mobilisation et la publication en accès libre de données mondiales sur la biodiversité.

Réseau Mondial sur la Biodiversité Génomique (GGBN)

Réseau international d’institutions soucieuses du partage et de l’utilisation efficaces d’échantillons génomiques sur la biodiversité et des métadonnées associées, faisant par exemple la promotion du standard de données GGBN compatible avec Darwin Core.

Système de Positionnement Global (GPS)

Système de navigation par satellite exploité par la Force spatiale américaine.

Séquençage à Haut Débit (HTS)

Différentes technologies pour le séquençage massivement parallèle, produisant des millions de séquences ADN à partir de la préparation de la librairie de matériel génétique, plutôt que de cibler des amplicons simples comme dans le séquençage Sanger traditionnel. Également appelé séquençage nouvelle génération (NGS).

Ingestion

Processus d’importation de données à partir de sources hétérogènes, telles que des bases de données locales, des fichiers texte ou des feuilles de calcul, vers un système de destination commun, tel qu’une plateforme de données de biodiversité en ligne, pour stockage et analyse ultérieure. Inclut généralement les étapes d’extraction, de transformation (nettoyage) et de chargement (ETL).

Indexation

Organisation des informations selon un schéma ou une structure spécifique, facilitant l’accès et la présentation des données.

Système International Collaboratif des Séquences de Nucléotides (INSDC)

Effort conjoint de la base de données d’ADN du Japon (DDBJ), EMBL et NCBI pour fournir un accès public global aux données de séquences de nucléotides et aux informations associées.

Métagénomique

Séquençage sans PCR de fragments génomiques aléatoires dans un échantillon mixte.

Standard de l’Information Minimale sur toute (x) Séquence (MIxS)

Famille de normes (listes de contrôle) pour les métadonnées de séquence, élaborées par le Consortium des Normes Généomiques (GSC).

Unité Taxonomique Opérationnelle moléculaire (mOTU)

Voir Operational Taxonomic Unit (OTU).

Centre National d’Information sur la Biotechnologie (NCBI)

Division de la Bibliothèque Nationale de Médecine des États-Unis (NLM) hébergeant d’importantes ressources bioinformatiques, comme la base de données GenBank des séquences ADN, et le Sequence Read Archive (SRA) des données de séquences à haut débit.

Séquençage Nouvelle Génération (NGS)

Voir High-throughput sequencing (HTS).

Occurrence

Une existence d’un organisme (sensu http://rs.tdwg.org/dwc/terms/Organism) à un endroit particulier à un moment donné.

Unité Taxonomique Opérationnelle (OTU)

Regroupement d’organismes basé sur la similarité d’une ou de plusieurs séquences de marqueurs d’ADN spécifiques, utilisé pour la classification taxonomique. Comprend, par exemple, Species Hypothesis dans UNITE, et Barcode Index Numbers dans le Barcode of Life Data System (BOLD). Amplicon Sequence Variants (ASVs) peuvent être considérés comme analogues à zero radius OTUs (zOTUs).

Amplification en Chaîne par Polymérase (PCR)

Technique pour l’amplification rapide et la détection de fragments spécifiques de séquences ADN (ou ARN). Les régions amplifiées sont déterminées par la paire de PCR primers utilisée dans la réaction.

Pipeline

En bioinformatique, ensemble d’algorithmes ou d’outils appliqués dans un flux de travail prédéfini pour traiter, par exemple, des données High-throughput sequencing (HTS).

Amorces (PCR primers)

Fragments d’ADN courts, simple brin qui se lient à une région sélectionnée de l’ADN cible (marqueur) pour initier la réplication pendant PCR. Une paire d’amorces est généralement utilisée pour que l’enzyme polymérase amplifie le marqueur sélectionné.

qPCR (Amplification quantitative en Chaîne par Polymérase)

PCR quantitative. Méthode qui mesure la quantité relative d’ADN d’un marqueur dans un échantillon. Voir aussi ddPCR.

Échantillon

Matériel (eau, sol, contenu intestinal, etc.) obtenu pour analyse.

Alignement des séquences

Processus bioinformatique de comparaison et de disposition de deux ou plusieurs séquences moléculaires (ADN, ARN ou protéine) pour détecter les similitudes causées par exemple par une parenté évolutionnaire.

Hypothèse d’Espèce (SH)

Niveau d’espèce Operational Taxonomic Unit (OTU) tel que défini dans la base de données UNITE et l’environnement de gestion des séquences, pour les champignons.

Spécimen

Un animal, plante, champignon, etc utilisé comme exemple de son espèce ou de son type pour l’étude ou exposition scientifique.

Archive de Reads de Séquences (SRA)

Dépôt public de données de séquençage à haut débit (NGS) avec des instances opérées par the National Center for Biotechnology Information (NCBI), the European Bioinformatics Institute (EMBL-EBI), et la banque de données ADN du Japon (DDBJ). Inclut à la fois les séquences brutes (sans application du denoising) et sequence alignments. L’une des trois composantes de the European Nucleotide Archive (ENA), et précédemment connue sous le nom d’archive de lectures courtes.

Séquençage de cibles capturées

Séquençage de fragments d’ADN isolés par des sondes d’hybridation.

UNITE

UNITE est un environnement basé sur le web de gestion des séquences, centré sur la région nucléaire ITS du ribosome eucaryote. Toutes les séquences publiques sont regroupées en hypothèses d’espèces (SH), auxquelles sont attribuées des DOI uniques. Un service de mise en correspondance des SH produit divers éléments d’information, notamment les espèces présentes dans les échantillons d’eDNA, si ces espèces sont potentiellement de nouvelles espèces non décrites, les autres études dans lesquelles elles ont été récupérées, si les espèces sont étrangères à une région et si elles sont menacées. Les DOI sont connectés au backbone taxonomique de la plateforme PlutoF et de GBIF, de sorte qu’ils sont accompagnés d’un nom de taxon lorsqu’il est disponible. Les données utilisées dans UNITE sont hébergées et gérées dans PlutoF. Les données sont représentées par une série de standards, principalement Darwin Core, MIxS, et DMP Common Standard ; un support partiel est disponible pour EML, MCL, et GGBN. PlutoF exporte les données principalement via les formats CSV et FASTA. PlutoF peut également être utilisé pour publier des données dans GBIF (en utilisant le format DwC) et pour préparer des fichiers de soumission GenBank. Il est en outre possible de télécharger des listes d’espèces à partir de vos données et de télécharger votre projet sous forme de document JSON avec les données du projet dans une structure hiérarchique.

OTU Zero rayon (zOTU)

Voir ASV.

Références

  • Amid C, Alako BT, Balavenkataraman Kadhirvelu V, Burdett T, Burgin J, Fan J, Harrison PW, Holt S, Hussein A, Ivanov E & Jayathilaka S (2020) The European Nucleotide Archive in 2019. Nucleic acids research 48(D1): D70-D76. https://doi.org/10.1093/nar/gkz1063

  • Andersen K, Bird KL, Rasmussen M, Haile J, Breuning-Madsen H, Kjaer KH, Orlando L, Gilbert MTP and Willerslev E (2012) Meta-Barcoding of ‘Dirt’ DNA from Soil Reflects Vertebrate Biodiversity. Molecular Ecology 21(8): 1966–79. https://doi.org/10.1111/j.1365-294X.2011.05261.x

  • Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (2006) GenBank, Nucleic Acids Research, 34(1): D16–D20, https://doi.org/10.1093/nar/gkj157

  • Bessey C, Jarman SN, Berry O et al. (2020) Maximizing fish detection with eDNA metabarcoding. Environmental DNA: 1–12. https://doi.org/10.1002/edn3.74

  • Biggs J, Ewald N, Valentini A, Gaboriaud C, Dejean T, Griffiths RA, Foster J, et al. (2015) Using eDNA to Develop a National Citizen Science-Based Monitoring Programme for the Great Crested Newt (Triturus cristatus). Biological Conservation 183: 19–28. https://doi.org/10.1016/j.biocon.2014.11.029

  • Blaxter M, Mann J, Chapman T, Thomas F, Whitton C, Floyd R & Abebe E (2005) Defining operational taxonomic units using DNA barcode data. Philosophical Transactions of the Royal Society B: Biological Sciences 360(1462): 1935-1943. https://doi.org/10.1098/rstb.2005.1725

  • Bolyen E, Rideout JR, Dillon MR et al. (2019) Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nat Biotechnol 37: 852–857. https://doi.org/10.1038/s41587-019-0209-9

  • Boussarie G, Bakker J, Wangensteen OS, Mariani S, Bonnin L, Juhel JB, Kiszka JJ, Kulbicki M, Manel S, Robbins WD & Vigliola L (2018) Environmental DNA illuminates the dark diversity of sharks. Science Advances 4(5): eaap9661. https://doi.org/10.1126/sciadv.aap9661

  • Bustin SA, Benes V, Garson JA, Hellemans J, Huggett J, Kubista M, …​ & Wittwer CT (2009). The MIQE Guidelines: M inimum I nformation for Publication of Q uantitative Real-Time PCR E xperiments. https://doi.org/10.1373/clinchem.2008.112797

  • Callahan B, McMurdie P & Holmes S (2017) Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. The ISME Journal 11: 2639–2643. https://doi.org/10.1038/ismej.2017.119

  • Callahan B, McMurdie P, Rosen M et al. (2016) DADA2: High-resolution sample inference from Illumina amplicon data. Nat Methods 13, 581–583. https://doi.org/10.1038/nmeth.3869

  • Centre for Biodiversity Genomics, University of Guelph (2021) The Global Taxonomy Initiative 2020: A Step-by-Step Guide for DNA Barcoding. Technical Series No. 94. Secretariat of the Convention on Biological Diversity, Montreal, 66 pp. https://www.cbd.int/doc/publications/cbd-ts-94-en.pdf

  • Convention on Biological Diversity (2020) Report of the ad hoc Technical Expert Group on Digital Sequence Information On Genetic Resources, 17-20 March 2020. Montreal, Canada. https://www.cbd.int/doc/c/ba60/7272/3260b5e396821d42bc21035a/dsi-ahteg-2020-01-07-en.pdf

  • Debroas D, Domaizon I, Humbert JF, Jardillier L, Lepère C, Oudart A & Taïb N (2017) Overview of freshwater microbial eukaryotes diversity: a first analysis of publicly available metabarcoding data. FEMS Microbiology Ecology 93(4): fix023. https://doi.org/10.1093/femsec/fix023

  • Doi H, Fukaya K, Oka SI, Sato K, Kondoh M & Miya M (2019) Evaluation of Detection Probabilities at the Water-Filtering and Initial PCR Steps in Environmental DNA Metabarcoding Using a Multispecies Site Occupancy Model. Scientific Reports 9(1): 3581. https://doi.org/10.1038/s41598-019-40233-1

  • Durkin L, Jansson T, Sanchez M, Khomich M, Ryberg M, Kristiansson E, Nilsson RH (2020) When mycologists describe new species, not all relevant information is provided (clearly enough). MycoKeys 72: 109-128. https://doi.org/10.3897/mycokeys.72.56691

  • Edgar RC (2010) Search and clustering orders of magnitude faster than BLAST, Bioinformatics 26(19): 2460–2461, https://doi.org/10.1093/bioinformatics/btq461

  • Ekrem T & Majaneva M (2019) DNA-Metastrekkoding Til Undersøkelser Av Invertebrater I Ferskvann. NTNU Vitenskapsmuseet Naturhistorisk Notat. https://ntnuopen.ntnu.no/ntnu-xmlui/handle/11250/2612638.

  • Elbrecht V & Leese F (2015) Can DNA-based ecosystem assessments quantify species abundance? Testing primer bias and biomass—sequence relationships with an innovative metabarcoding protocol. PLoS ONE 10(7): e0130324. https://doi.org/10.1371/journal.pone.0130324

  • Ficetola GF, Miaud C, Pompanon F, & Taberlet P (2008). Species detection using environmental DNA from water samples. Biology letters, 4(4), 423-425. https://doi.org/10.1098/rsbl.2008.0118

  • Fossøy F, Brandsegg H, Sivertsgård R, Pettersen O, Sandercock BK, Solem Ø, Hindar K & Tor AM (2019) Monitoring Presence and Abundance of Two Gyrodactylid Ectoparasites and Their Salmonid Hosts Using Environmental DNA. Environmental DNA. https://doi.org/10.1002/edn3.45.

  • Frøslev TG, Kjøller R, Bruun HH et al. (2017) Algorithm for post-clustering curation of DNA amplicon data yields reliable biodiversity estimates. Nat Commun 8, 1188 . https://doi.org/10.1038/s41467-017-01312-x

  • Groom Q, Güntsch A, Huybrechts P, Kearney N, Leachman S, Nicolson N, Page RDM, Shorthouse DP, Thessen, AE, Haston E. People are essential to linking biodiversity data. 2020. Database 2020:baaa072 https://doi.org/10.1093/database/baaa072.

  • Hernandez C, Bougas B, Perreault‐Payette A, Simard A, Côté G, & Bernatchez L (2020). 60 specific eDNA qPCR assays to detect invasive, threatened, and exploited freshwater vertebrates and invertebrates in Eastern Canada. Environmental DNA, 2(3): 373-386. https://doi.org/10.1002/edn3.89

  • Hofstetter, V, Buyck, B, Eyssartier, G, Schnee S, Gindro K (2019) The unbearable lightness of sequenced-based identification. Fungal Diversity 96, 243–284. https://doi.org/10.1007/s13225-019-00428-3

  • Huggett JF, Foy CA, Benes V, Emslie K, Garson JA, Haynes R, …​ & Bustin SA (2013). The Digital MIQE Guidelines: M inimum I nformation for Publication of Q uantitative Digital PCR E xperiments. Clinical chemistry, 59(6), 892-902. https://doi.org/10.1373/clinchem.2013.206375

  • Hugerth LW, Andersson AF (2017) Analysing Microbial Community Composition through Amplicon Sequencing: From Sampling to Hypothesis Testing. Frontiers in Microbiology 8: 1561. https://doi.org/10.3389/fmicb.2017.01561

  • Knudsen SW, Ebert RB, Hesselsøe M, Kuntke F, Hassingboe J, Mortensen PB, Thomsen PF et al (2019) Species-Specific Detection and Quantification of Environmental DNA from Marine Fishes in the Baltic Sea. Journal of Experimental Marine Biology and Ecology 510: 31–45. https://doi.org/10.1016/j.jembe.2018.09.004

  • Lacoursière-Roussel A, Rosabal M & Bernatchez L (2016) Estimating Fish Abundance and Biomass from eDNA Concentrations: Variability among Capture Methods and Environmental Conditions. Molecular Ecology Resources 16(6): 1401–14. https://doi.org/10.1111/1755-0998.12522

  • Leebens-Mack J, Vision T, Brenner E, Bowers JE, Cannon S, Clement MJ, Cunningham CW, DePamphilis C, DeSalle R, Doyle JJ & Eisen JA (2006) Taking the first steps towards a standard for reporting on phylogenies: Minimum Information About a Phylogenetic Analysis (MIAPA). Omics: a journal of integrative biology 10(2): 231-237. https://doi.org/10.1089/omi.2006.10.231

  • Leinonen R, Sugawara H, Shumway M & International Nucleotide Sequence Database Collaboration (2011) The sequence read archive. Nucleic Acids Research 39(suppl_1): D19-D21. https://doi.org/10.1093/nar/gkq1019

  • Mahé F, Rognes T, Quince C, de Vargas C, Dunthorn M. (2014) Swarm: robust and fast clustering method for amplicon-based studies. PeerJ 2:e593 https://doi.org/10.7717/peerj.593

  • McDonald D, Clemente JC, Kuczynski J, Rideout JR, Stombaugh J, Wendel D, …​ & Caporaso JG (2012). The Biological Observation Matrix (BIOM) format or: how I learned to stop worrying and love the ome-ome. Gigascience, 1(1), 2047-217X. https://doi.org/10.1186/2047-217X-1-7

  • Miralles A, Bruy T, Wolcott K, Scherz MD, Begerow D, Beszteri B, Bonkowski M, Felden J, Gemeinholzer B, Glaw F & Glöckner FO (2020) Repositories for Taxonomic Data: Where We Are and What is Missing. Systematic Biology: syaa026. https://doi.org/10.1093/sysbio/syaa026

  • Mora C, Tittensor DP, Adl S, Simpson AG & Worm B (2011) How many species are there on Earth and in the ocean? PLoS Biology 9(8): e1001127. https://doi.org/10.1371/journal.pbio.1001127

  • Nilsson RH, Tedersoo L, Abarenkov K, Ryberg M, Kristiansson E, Hartmann M, Schoch CL, Nylander JA, Bergsten J, Porter TM & Jumpponen A (2012) Five simple guidelines for establishing basic authenticity and reliability of newly generated fungal ITS sequences. MycoKeys 4: 37-63. https://doi.org/10.3897/mycokeys.4.3606

  • Nilsson RH, Larsson KH, Taylor AFS, Bengtsson-Palme J, Jeppesen TS, Schigel D, Kennedy P, Picard K, Glöckner FO, Tedersoo L, Saar I, Kõljalg U, Abarenkov K (2019) The UNITE database for molecular identification of fungi: handling dark taxa and parallel taxonomic classifications. Nucleic Acids Research, Volume 47, Issue D1, D259–D264. https://doi.org/10.1093/nar/gky1022

  • Ogram A, Sayler GS, Barkay T (1987) The Extraction and Purification of Microbial DNA from Sediments. Journal of Microbiological Methods. https://doi.org/10.1016/0167-7012(87)90025-x.

  • Ovaskainen O, Schigel D, Ali-Kovero H et al. (2013) Combining high-throughput sequencing with fruit body surveys reveals contrasting life-history strategies in fungi. The ISME Journal 7: 1696–1709. https://doi.org/10.1038/ismej.2013.61

  • Parks, DH, Chuvochina, M, Chaumeil, P, Rinke C, Mussig AJ, Hugenholtz P (2020) A complete domain-to-species taxonomy for Bacteria and Archaea. Nat Biotechnol 38, 1079–1086. https://doi.org/10.1038/s41587-020-0501-8

  • Pearson, WR & Lipman DJ (1988) Improved tools for biological sequence comparison. Proceedings of the National Academy of Sciences 85(8): 2444-2448. https://dx.doi.org/10.1073%2Fpnas.85.8.2444

  • Penev P, Mietchen D, Chavan VS, Hagedorn G, Smith VS, Shotton D, Tuama ÉÓ, Senderov V, Georgiev T, Stoev P, Groom QJ, Remsen D, Edmunds SC (2017) Strategies and guidelines for scholarly publishing of biodiversity data. Research ideas and outcomes 3: e12431, https://doi.org/10.3897/rio.3.e12431

  • Pietramellara G, Ascher J, Borgogni F, Ceccherini MT, Guerri G & Nannipieri P (2009) Extracellular DNA in Soil and Sediment: Fate and Ecological Relevance. Biology and Fertility of Soils 45: 219-235. https://doi.org/10.1007/s00374-008-0345-8.

  • Ratnasingham S, Hebert PDN (2007) BOLD: The Barcode of Life Data System. Molecular Ecology Notes, 7: 355-364. https://doi.org/10.1111/j.1471-8286.2007.01678.x

  • Ratnasingham S, Hebert PDN (2013). A DNA-based registry for all animal species: the Barcode Index Number (BIN) system. PloS one, 8(7), e66213. https://doi.org/10.1371/journal.pone.0066213

  • Ruppert KM, Kline RJ, Rahman MS (2019). Past, present, and future perspectives of environmental DNA (eDNA) metabarcoding: A systematic review in methods, monitoring, and applications of global eDNA. Global Ecology and Conservation, 17, e00547. https://doi.org/10.1016/j.gecco.2019.e00547

  • Schloss PD, Westcott SL, Ryabin T, Hall JR, Hartmann M, Hollister EB, …​ & Weber CF (2009). Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities. Applied and environmental microbiology, 75(23), 7537-7541. https://doi.org/10.1128/AEM.01541-09

  • Sigsgaard EE, Jensen MR, Winkelmann IE, Møller PR, Hansen MM, Thomsen PF (2020). Population‐level inferences from environmental DNA—Current status and future perspectives. Evolutionary Applications, 13(2), 245-262. https://doi.org/10.1111/eva.12882

  • Somervuo P, Koskela S, Pennanen J, Nilsson RH, Ovaskainen O (2016) Unbiased probabilistic taxonomic classification for DNA barcoding. Bioinformatics 32(19):2920–2927, https://doi.org/10.1093/bioinformatics/btw346

  • Strand DA, Johnsen SI, Rusch JC, Agersnap S, Larsen WB, Knudsen SW, Møller PR & Vrålstad T (2019) Monitoring a Norwegian Freshwater Crayfish Tragedy: eDNA Snapshots of Invasion, Infection and Extinction. Journal of Applied Ecology 56(7): 1661-1673. https://doi.org/10.1111/1365-2664.13404.

  • Taberlet P, Bonin A, Coissac E & Zinger L (2018) Environmental DNA: For Biodiversity Research and Monitoring. Oxford, UK: Oxford University Press. https://doi.org/10.1093/oso/9780198767220.001.0001

  • Taberlet P, Coissac E, Hajibabaei M & Rieseberg LH (2012) Environmental DNA. Molecular Ecology 21(8): 1789–93. https://doi.org/10.1111/j.1365-294X.2012.05542.x

  • Takahara T, Minamoto T, Yamanaka H, Doi H & Kawabata Z (2012) Estimation of Fish Biomass Using Environmental DNA. PLoS ONE 7(4): e35868. https://doi.org/10.1371/journal.pone.0035868

  • Tedersoo, L, Bahram M, Puusepp R, Nilsson RH & James TY (2017) Novel soil-inhabiting clades fill gaps in the fungal tree of life. Microbiome 5: 42. https://doi.org/10.1186/s40168-017-0259-5

  • Tedesco PA, Bigorne R, Bogan AE, Giam X, Jézéquel C & Hugueny B (2014) Estimating how many undescribed species have gone extinct. Conservation Biology 28(5): 1360-1370. https://doi.org/10.1111/cobi.12285

  • Thalinger B, Deiner K, Harper LR, Rees HC, Blackman RC, Sint D, …​ & Bruce K (2021). A validation scale to determine the readiness of environmental DNA assays for routine species monitoring. Environmental DNA. https://doi.org/10.1101/2020.04.27.063990

  • Thomsen PF, Kielgast JOS, Iversen LL, Wiuf C, Rasmussen M, Gilbert MTP Orlando L & Willerslev E (2012) Monitoring Endangered Freshwater Biodiversity Using Environmental DNA. Molecular Ecology 21(11): 2565–73. https://doi.org/10.1111/j.1365-294X.2011.05418.x

  • Thomsen PF, Møller PR, Sigsgaard EE, Knudsen SW, Jørgensen OA & Willerslev E (2016) Environmental DNA from Seawater Samples Correlate with Trawl Catches of Subarctic, Deepwater Fishes. PLoS ONE 11(11): e0165252. https://doi.org/10.1371/journal.pone.0165252

  • Thomsen PF & Willerslev E (2015) Environmental DNA – An Emerging Tool in Conservation for Monitoring Past and Present Biodiversity. Biological Conservation 183: 4–18. https://doi.org/10.1016/j.biocon.2014.11.019

  • Tyson, GW & Hugenholtz, P (2005). Environmental shotgun sequencing. Encyclopedia of genetics, genomics, proteomics, and bioinformatics. Edited by Lynn B. Jorde. West Sussex, UK: John Wiley & Sons.1386-1391. https://doi.org/10.1002/047001153X.g205313

  • Valentini A, Taberlet P, Miaud C, Civade R, Herder J, Thomsen PF, Bellemain E et al. (2016) Next-Generation Monitoring of Aquatic Biodiversity Using Environmental DNA Metabarcoding. Molecular Ecology 25(4): 929–42. https://doi.org/10.1111/mec.13428

  • Wacker S, Fossøy F, Larsen BM, Brandsegg H, Sivertsgård R, & Karlsson S (2019). Downstream transport and seasonal variation in freshwater pearl mussel (Margaritifera margaritifera) eDNA concentration. Environmental DNA, 1(1), 64-73. https://doi.org/10.1002/edn3.10

  • Wilkinson M, Dumontier M, Aalbersberg I et al. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3: 160018. https://doi.org/10.1038/sdata.2016.18

  • Wittwer C, Stoll S, Strand D, Vrålstad T, Nowak C, & Thines M (2018). eDNA-based crayfish plague monitoring is superior to conventional trap-based assessments in year-round detection probability. Hydrobiologia, 807(1), 87-97. https://doi.org/10.1007/s10750-017-3408-8

  • Yates MC, Fraser DJ & Derry AM (2019) Meta‐analysis Supports Further Refinement of eDNA for Monitoring Aquatic Species‐specific Abundance in Nature. Environmental DNA. https://doi.org/10.1002/edn3.7.

  • Yilmaz P, Kottmann R, Field D, Knight R, Cole JR, Amaral-Zettler L, Gilbert JA, Karsch-Mizrachi I, Johnston A, Cochrane G & Vaughan R (2011) Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications. Nature Biotechnology 29(5): 415. https://doi.org/10.1038/nbt.1823