Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Formation sur la publication des données de biodiversité dans le réseau
GBIF et leur aptitude à être utilisées
Comment le DwC-A a changé la manière de
publier les données de biodiversité
Michael Akbaraly([email protected]) IT Engineer
GBIF France
Paris
Octobre 2012
Rappel : Standards d'échange
ABCD (TDWG Standard) • > 1200 concepts • XML • Utilisé par BioCase, Tapir
Darwin Core (pre-standard v. 1.2, 47 versions)
• 48 concepts, specimens • XML • Utilisé par DiGIR
Darwin Core (pre-standard v. 1.4) • 46 concepts (plus extensions), specimens • XML • Utilisé par Tapir
Darwin Core (TDWG Standard) • 172 concepts (156 dans Simple Darwin Core), données de
biodiversité • CSV, XML, RDF, JSON, … • Utilisé par Tapir, Darwin Core Archive ou fichier texte
Darwin Core Archive
Données Primaires Données Taxonomiques Métadonnées
http://www.quelquepart.org/data.zip
Darwin Core Archive Contenu de l'archive
• Une archive correspond à un jeu de données
• Fichiers formatés par le standard Darwin Core
• Données d’occurrences ou taxonomiques
• Métadonnées sous format EML
• Format simple (fichiers texte) • Processus de récolte efficace (fichier unique) • Stockage efficace (archive compressée) • Facilité d'accès (ne nécessite pas de logiciel
spécifique) • Extensible (fichiers liées dans une archive unique)
Darwin Core Archive: Avantages
Format d'échange préferé pour la publication
des données sur le réseau GBIF
Darwin Core Archive: Anatomie
Les archives ont toujours un fichier de métadonnées EML
Ecological Metadata Language (EML)
• Titre et Description
• Citation and Attribution
• Contacts et Auteurs
• Couverture Géographique
• Méthode d'échantillonage
• Bibliographie
• Et plus...
Décrit les jeux de données
– même ceux qui ne sont pas publiés
Darwin Core Archive: Anatomie
Les archives ont toujours un fichier de données principal (Core Data File)
Types de fichier de données principal (Core data file)
Données taxonomiques – une espèce par ligne
Données d'occurrences – une occurrence par ligne
OU
Darwin Core Archive: Anatomie
Les archives ont toujours un fichier de données principal (Core Data File)
Le fichier principal a une colonne “ID_Principal”
unique pour chaque enregistrement du fichier
Darwin Core Archive: Anatomie
Les colonnes sont mises en correspondance avec
les concepts DarwinCore
Darwin Core Archive: Anatomie
Les colonnes ne correspondant pas à un concept
DarwinCore peuvent être rajoutées, mais seront
ignorées
“Wingspan” n'est pas un concept
Darwin Core
Darwin Core Archive: Anatomie
1) Renommer les colonnes dans le fichier
Il y a deux manières de mettre en correspondance les
colonnes avec les concepts DarwinCore
Darwin Core Archive: Anatomie
2) Faire la correspondance des champs dans le fichier meta.xml
Il y a deux manières de mettre en correspondance les
colonnes avec les concepts DarwinCore
Darwin Core Archive: Anatomie
meta.xml décrit les colonnes du fichier de
données principal (species.txt)
Plus d'informations sur le meta.xml plus tard...
Darwin Core Archive: Anatomie
Les archives peuvent inclure des extensions
Species.txt
Common_names.txt
Les extensions permettent de relier plusieurs enregistrements
à un enregistrement principal
Les extensions sont reliées au fichier principal par l'ID_Principal
Darwin Core Archive: Anatomie
GBIF héberge les définitions des
extensions
http://rs.gbif.org/extension/
Plusieurs extensions peuvent être reliées au
fichier principal
Darwin Core Archive: Anatomie
Tous les fichiers sont stockées
dans un seul dossier
Darwin Core Archive: Anatomie
Le dossier est zippé
Ceci est une archive DarwinCore • Fichiers de données
• Fichier de correspondance des colonnes (meta.xml)
• Fichier de métadonnées (eml.xml)
Darwin Core Archive: Anatomie
http://www.organisation.org /my_data.zip
Les archives sur un serveur web peuvent être accessible par
une URL.
Partagez cette URL pour publier vos données!
Darwin Core Archive: Publication
Darwin Core Archive: Options de Publication
GBIF Spreadsheet Templates
Integrated Publishing Toolkit
Data Hosting Centers
Darwin Core Mapping Assistant
Metafile
http://tools.gbif.org/dwca-assistant/
Darwin Core Mapping Assistant
• GBIF Darwin Core Archive Spreadsheet Templates: • Les données sont déja sous forme de tableur • Création d'une simple archive
• IPT:
• Créer/gérer plusieurs archives venant de plusieurs jeux de données
• Gérer les archives provenant de plusieurs organisations • Édition des métadonnées sous le GBIF Metadata Profile
• Création manuelle:
• Automatisation de la creation des archives • Customisation
• Centre d'hébergement: • Économie d'échelle • Infrastructure et assistance
• Un peu de tout ça...
Darwin Core Archive: Options de publication
GB18 Training Session - Jour 1
Comment le DwC-A a changé la manière de
publier les données de biodiversité
Michael Akbaraly / Anne-Sophie Archambeau / Nicolas Noé
GBIF France - BeBIF
Global Biodiversity Information Facility (GBIF)
28/09/11