30
Formation sur la publication des données de biodiversité dans le réseau GBIF et leur aptitude à être utilisées Comment le DwC-A a changé la manière de publier les données de biodiversité Michael Akbaraly([email protected]) IT Engineer GBIF France Paris Octobre 2012

GBIF France - Comment le DwC-A a changé la manière de ......2011/09/28  · • GBIF Darwin Core Archive Spreadsheet Templates: • Les données sont déja sous forme de tableur

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • Formation sur la publication des données de biodiversité dans le réseau

    GBIF et leur aptitude à être utilisées

    Comment le DwC-A a changé la manière de

    publier les données de biodiversité

    Michael Akbaraly([email protected]) IT Engineer

    GBIF France

    Paris

    Octobre 2012

  • Rappel : Standards d'échange

    ABCD (TDWG Standard) • > 1200 concepts • XML • Utilisé par BioCase, Tapir

    Darwin Core (pre-standard v. 1.2, 47 versions)

    • 48 concepts, specimens • XML • Utilisé par DiGIR

    Darwin Core (pre-standard v. 1.4) • 46 concepts (plus extensions), specimens • XML • Utilisé par Tapir

    Darwin Core (TDWG Standard) • 172 concepts (156 dans Simple Darwin Core), données de

    biodiversité • CSV, XML, RDF, JSON, … • Utilisé par Tapir, Darwin Core Archive ou fichier texte

  • Darwin Core Archive

    Données Primaires Données Taxonomiques Métadonnées

    http://www.quelquepart.org/data.zip

  • Darwin Core Archive Contenu de l'archive

    • Une archive correspond à un jeu de données

    • Fichiers formatés par le standard Darwin Core

    • Données d’occurrences ou taxonomiques

    • Métadonnées sous format EML

  • • Format simple (fichiers texte) • Processus de récolte efficace (fichier unique) • Stockage efficace (archive compressée) • Facilité d'accès (ne nécessite pas de logiciel

    spécifique) • Extensible (fichiers liées dans une archive unique)

    Darwin Core Archive: Avantages

    Format d'échange préferé pour la publication

    des données sur le réseau GBIF

  • Darwin Core Archive: Anatomie

    Les archives ont toujours un fichier de métadonnées EML

  • Ecological Metadata Language (EML)

    • Titre et Description

    • Citation and Attribution

    • Contacts et Auteurs

    • Couverture Géographique

    • Méthode d'échantillonage

    • Bibliographie

    • Et plus...

    Décrit les jeux de données

    – même ceux qui ne sont pas publiés

  • Darwin Core Archive: Anatomie

    Les archives ont toujours un fichier de données principal (Core Data File)

  • Types de fichier de données principal (Core data file)

    Données taxonomiques – une espèce par ligne

    Données d'occurrences – une occurrence par ligne

    OU

  • Darwin Core Archive: Anatomie

    Les archives ont toujours un fichier de données principal (Core Data File)

  • Le fichier principal a une colonne “ID_Principal”

    unique pour chaque enregistrement du fichier

    Darwin Core Archive: Anatomie

  • Les colonnes sont mises en correspondance avec

    les concepts DarwinCore

    Darwin Core Archive: Anatomie

  • Les colonnes ne correspondant pas à un concept

    DarwinCore peuvent être rajoutées, mais seront

    ignorées

    “Wingspan” n'est pas un concept

    Darwin Core

    Darwin Core Archive: Anatomie

  • 1) Renommer les colonnes dans le fichier

    Il y a deux manières de mettre en correspondance les

    colonnes avec les concepts DarwinCore

    Darwin Core Archive: Anatomie

  • 2) Faire la correspondance des champs dans le fichier meta.xml

    Il y a deux manières de mettre en correspondance les

    colonnes avec les concepts DarwinCore

    Darwin Core Archive: Anatomie

  • meta.xml décrit les colonnes du fichier de

    données principal (species.txt)

    Plus d'informations sur le meta.xml plus tard...

    Darwin Core Archive: Anatomie

  • Les archives peuvent inclure des extensions

    Species.txt

    Common_names.txt

    Les extensions permettent de relier plusieurs enregistrements

    à un enregistrement principal

    Les extensions sont reliées au fichier principal par l'ID_Principal

    Darwin Core Archive: Anatomie

  • GBIF héberge les définitions des

    extensions

    http://rs.gbif.org/extension/

  • Plusieurs extensions peuvent être reliées au

    fichier principal

    Darwin Core Archive: Anatomie

  • Tous les fichiers sont stockées

    dans un seul dossier

    Darwin Core Archive: Anatomie

  • Le dossier est zippé

    Ceci est une archive DarwinCore • Fichiers de données

    • Fichier de correspondance des colonnes (meta.xml)

    • Fichier de métadonnées (eml.xml)

    Darwin Core Archive: Anatomie

  • http://www.organisation.org /my_data.zip

    Les archives sur un serveur web peuvent être accessible par

    une URL.

    Partagez cette URL pour publier vos données!

    Darwin Core Archive: Publication

  • Darwin Core Archive: Options de Publication

  • GBIF Spreadsheet Templates

  • Integrated Publishing Toolkit

  • Data Hosting Centers

  • Darwin Core Mapping Assistant

    Metafile

    http://tools.gbif.org/dwca-assistant/

  • Darwin Core Mapping Assistant

  • • GBIF Darwin Core Archive Spreadsheet Templates: • Les données sont déja sous forme de tableur • Création d'une simple archive

    • IPT:

    • Créer/gérer plusieurs archives venant de plusieurs jeux de données

    • Gérer les archives provenant de plusieurs organisations • Édition des métadonnées sous le GBIF Metadata Profile

    • Création manuelle:

    • Automatisation de la creation des archives • Customisation

    • Centre d'hébergement: • Économie d'échelle • Infrastructure et assistance

    • Un peu de tout ça...

    Darwin Core Archive: Options de publication

  • GB18 Training Session - Jour 1

    Comment le DwC-A a changé la manière de

    publier les données de biodiversité

    Michael Akbaraly / Anne-Sophie Archambeau / Nicolas Noé

    GBIF France - BeBIF

    Global Biodiversity Information Facility (GBIF)

    28/09/11