57
Les standards en biodiversité Partie 2 1 er juillet 2010 Natural Solutions

Geo web standards for biodiversity

Embed Size (px)

DESCRIPTION

Web Mapping, GeoRSS, Biodiversity Informatics

Citation preview

Page 1: Geo web standards for biodiversity

Les standards en biodiversitéPartie 2

1er juillet 2010Natural Solutions

Page 2: Geo web standards for biodiversity

Ma donnéeUn gobe-mouche gris à Natural Solutions, Donnée : Elément d'information décrivant de

façon élémentaire un objet, une transaction, un événement, etc. Une donnée sert de base à une recherche, un raisonnement, etc.

Identifié par Amandine avec des jumelles Métadonnée : Donnée décrivant des caractéristiques

d'une donnée, e.g. propriété, contenu, qualité (conditions, précision, etc.), date de saisie, etc.

Page 3: Geo web standards for biodiversity

Partager ma donnée (1)Taxon scientificName : Muscicapa striata class : Aves order : Passeriformes genus : Muscicapa

Location country : France countryCode : FR locality : Marseilles decimalLatitude : 43.17203 decimalLongitude : 5.22445

Standard : format reconnu par une autorité ou majoritairement utilisé. Un standard permet la compatibilité des systèmes.

Standard de données

- Vocabulaire commun- Reconnu par la communauté Comprendre et utiliser la donnée

Page 4: Geo web standards for biodiversity

Partager ma donnée (2)

<dwc:Taxon> <dwc:scientificName>Muscicapa striata</dwc:scientificName><dwc:class>Aves</dwc:class>

<dwc:order> Passeriformes </dwc:order><dwc:genus>Muscicapa</dwc:genus>

</dwc:Taxon>< dcterms:Location > < dwc:country > France < dwc:country >

< dwc:countryCode > FR < dwc:countryCode > < dwc:locality > Marseille < dwc:locality >

< dwc:decimalLatitude > 43.17203 < dwc:decimalLatitude > < dwc:decimalLongitude > 5.22445 < dwc:decimalLongitude > </dcterms:Location >

Implémentation XML

Utiliser la donnée au sein au sein d’un programme / système informatique

Page 5: Geo web standards for biodiversity

Partager ma donnée (3)< protocol id = NSprotocol.1 > < title> Identification in a corridor </ title >

< creator > < individualName > < surName > Sahl </ surName >

</ individualName > </ creator >

< proceduralStep > < description > < para>Bird identification on a working place</ para > </ description > < instrumentation > binocular</ instrumentation > </ proceduralStep ></ protocol > Standard de metadonnées

Page 6: Geo web standards for biodiversity

Partager ma donnée (4) Protocole d’échange : les méthodes d'échange de données numériques entre plusieurs postes informatiques

Page 7: Geo web standards for biodiversity

3 groupes de standards• Les standards de métadonnées

Comment sont mes données?• Dublin Core • EML

• Les standard de données Quelles sont les données à partager?

• DwC • ABCD • TCS

• Les protocoles d’échangeComment je partage les données ?

• TAPIR • LSID • IPT• …

Page 8: Geo web standards for biodiversity

Les standards de métadonnées• Problématique– Différents types de données de biodiversité– Stockages variés– Echelles différentes– Données dispersées

• Objectif– Accéder aux jeux de données de biodiversité sur le Web

• Quelles sont les données disponibles?• Comment accéder à ces données ?

Page 9: Geo web standards for biodiversity

Définitions• Les métadonnées décrivent les ressources et leur accessibilité– identification– qualité– contexte spatial– distribution des jeux de données

• Utiliser un standard de métadonnées– une terminologie commune– un ensemble de définition

Eviter une perte du sens original des données

Page 10: Geo web standards for biodiversity

Dublin Core

• Standard de metadonnées le mieux connu actuellement• Initié en 1995• Objectif : découvrir les ressources documentaires du Web• 15 descripteurs minimums• Implémentation XML

http://dublincore.org/

Page 11: Geo web standards for biodiversity

Exemple

Page 12: Geo web standards for biodiversity

Ecological Metadata Language• Standard de metadonnées développé par la communauté

écologique

• Initié en 1997 par « Ecological Society of America »

• Objectif : fournir suffisament d’information pour être capable de réutiliser les données d’une manière scientifique

très bien structuré avec de nombreux descripteurs

• Implémentation XML

• 1500 projets, 65 milliards d’observations de tout types (i.e. organismes, climat, etc.)

http://knb.ecoinformatics.org/

Page 13: Geo web standards for biodiversity

Organisation EML

• Descripteurs organisés en classes décrivant : – le jeu de données (dataset) – l’origine des données (citation)– la structure des données (software)– les méthodes de création du jeu de données

(protocol)– l’accessibilité des données (access)

Page 14: Geo web standards for biodiversity
Page 15: Geo web standards for biodiversity

Exemple

http://harvardforest.fas.harvard.edu

Page 16: Geo web standards for biodiversity

Standard de données de biodiversité

• Standard de données ≈ Format de données ≈ Schéma de données

• Echange de données d’occurrence d’espèces – Spécimens dans les collections d’histoire naturelle et herbiers

(collections vivantes incluses)– Observations des organismes vivants sur le terrain

• 2 standards– Darwin Core– ABCD schema

Page 17: Geo web standards for biodiversity

TDWGTaxonomic Database Working

Group

Biodiversity Information Standards

• Une organisation internationale à but non lucratif

• Développe des standards et des protocoles pour partager les données de biodiversité

www.tdwg.org

Page 18: Geo web standards for biodiversity

Historique2000

TDWG/CODATA (Committee on Data for Science and Technology)Sous groupe « Access to Biological Collections Data »

Protocole de recherche des données de

biodiversité

Spécification des données des collections

biologiques

DwC + protocole

DIGIR

ABCD Schema

Projet BioCase

GBIFProtocole BioCase

Page 19: Geo web standards for biodiversity

Darwin Core• Définition d’un ensemble d’éléments de données (data

element) – Unité d’information de base : sens unique + valeurs distinctes – Norme ISO ISO/IEC 11179 : lisibilité et l’interchangeabilité des

données– Attributs/champs de base de données

• Objectif : partage et intégration des données d’observation primaires

• Initialement : organisation des collections de specimens • Extensible (ajout d’éléments de données) : fct des besoins

spécifiqueshttp://rs.tdwg.org/dwc/

Page 20: Geo web standards for biodiversity

Les catégories

• 172 éléments de données • Organisés en 8 catégories/classes

Dublin Core

taxonIDscientificNameIDtaxonConceptIDscientificNamekingdomphylumclassorderfamilygenussubgenustaxonRankscientificNameAuthorshipvernacularNamenomenclaturalCodetaxonomicStatusnomenclaturalStatustaxonRemarks…

Page 21: Geo web standards for biodiversity

Des metadonnées?

• Un ensemble complémentaire de termes - Record-level Terms – pour caractériser le jeu de données

institutionIDcollectionIDdatasetIDinstitutionCodecollectionCodedatasetNameownerInstitutionCodebasisOfRecord informationWithhelddataGeneralizationsdynamicProperties

Occurrence EventLocation TaxonPreservedSpecimenFossilSpecimen LivingSpecimenHumanObservation MachineObservation NomenclaturalChecklist

Nat

ure

des

donn

ées

Darwin Core Type Vocabulary Valeur de l’élément de données

Page 22: Geo web standards for biodiversity

Le partage

• Tous les termes sont assignés à une URIoccurenceID : http://rs.tdwg.org/dwc/terms/occurrenceID

• implementation XML + XML/RDF

Page 23: Geo web standards for biodiversity

Extensions

• Information spécifique à une discipline – Geospatial DecimalLatitude - DecimalLongitude – VerbatimCoordinates - …

– PaleontologieEarliestEonOrLowestEonothem – LatestEonOrHighestEonothem -

EarliestEraOrLowestErathem - …

– Nettoyage ( Curation )IdentifiedBy - DateIdentified - FieldNotes - …

Page 24: Geo web standards for biodiversity

Simple Darwin Core

• Sous ensemble de 46 éléments de données– Attributs des tableurs et bases de données– Pas les termes représentant les différentes

catégories (liste plate)– Partage simple des données taxonomiques et de

leurs occurrences

Page 25: Geo web standards for biodiversity

Exemple<dwc:Taxon>

<dwc:scientificName>Anthus correndera</dwc:scientificName><dwc:class>Aves</dwc:class>

<dwc:genus>Anthus</dwc:genus><dwc:specificEpithet>correndera</dwc:specificEpithet> <dwc:occurrenceID>urn:catalog:AUDCLO:EBIRD:OBS64515286</dwc:occurrenceID>

</dwc:Taxon>

Page 26: Geo web standards for biodiversity

Utilisation• Largement utilisé– GBIF (Global Biodiversity information facility)

www.gbif.org– OBIS (Ocean Biogeographic Information System)

www.iobis.org– ALA (Atlas of Living Australia)

www.ala.org.au– Inventaires : ATBI (All Taxa Biodiversity Inventories

and Monitoring) Mercantour– …

Page 27: Geo web standards for biodiversity

ABCD schema• Schéma hierarchique de spécification de données• Echange des données de collections

– Specimens– Observations

• Complet donc complexe 1200 éléments de données

• Capable d’intégrer des données détaillées, de sources très differentes et de domaines très spécifiques

• Suffisamment d’éléments de données pour être compatible avec beaucoup de standards

• Implémentation XMLwww.tdwg.org/activities/abcd/

Page 28: Geo web standards for biodiversity

Extrait

Metadonnées?

Page 29: Geo web standards for biodiversity

Exemple

Page 30: Geo web standards for biodiversity

Visualiser ABCD schema

http://www.bgbm.org/scripts/ASP/TDWG/frame.asp?config=0&configurl=http://www.bgbm.org/TDWG/CODATA/Schema/schemaviewer_configs/conf_abcd_206.xml

Page 31: Geo web standards for biodiversity

Extensions

• Extension pour les Geosciences (EFG) http://www.geocase.eu/

• Extension pour les données moléculaires (ADN) http://www.dnabank-network.org/

• Extension pour les herbiers http://hiscom.chah.org.au/wiki/HISPID_5

Page 32: Geo web standards for biodiversity

Mapping DwC – ABCD schemaDwC ABCD Schema

GlobalUniqueIdentifier DataSets/DataSet/Units/Unit/UnitGUID

DateLastModified DataSets/DataSet/Units/Unit/DateLastEdited

BasisOfRecord DataSets/DataSet/Units/Unit/RecordBasis

InstitutionCode DataSets/DataSet/Units/Unit/SourceInstitutionID

CollectionCode DataSets/DataSet/Units/Unit/SourceID

CatalogNumber DataSets/DataSet/Units/Unit/UnitID

InformationWithheld DataSets/DataSet/Units/Unit/InformationWithheld

Remarks DataSets/DataSet/Units/Unit/Notes

ScientificName DataSets/DataSet/Units/Unit/Identifications/Identification/TaxonIdentified/ScientificName/FullScientificNameString

HigherTaxon DataSets/DataSet/Units/Unit/Identifications/Identification/TaxonIdentified/HigherTaxa/HigherTaxon/HigherTaxonName

… …/…/…

Page 33: Geo web standards for biodiversity

Utilisation

• Largement utilisé aussi (par les mêmes?)• GBIF• ALA• …

Page 34: Geo web standards for biodiversity

Taxon Concept schema(Taxonomic taxon transfert schema)

• Problématique– Données de biodiversité des fournisseurs basées

généralement sur un seul référentiel taxonomique– Partager les données nécessitent d’utiliser la

même taxonomie

www.tdwg.org/standards/117/

Page 35: Geo web standards for biodiversity

Objectifs

• Développer un modèle abstrait de concepts taxonomiques

• Etablir des relations entre les concepts taxonomiques des fournisseurs de données

• Standard XML pour faciliter l’échange de données entre les différents fournisseurs

• faciliter l’interrogation des données

Page 36: Geo web standards for biodiversity

Définitions • TCS est un format d’échange de données

un moyen d’annoter les données taxonomiques communiquées

• 2 éléments clés – <TaxonConcept> : monde réel, exprime une opinion sur le

taxon et ses relations avec d’autres taxons– <TaxonName> : nomenclature abstraite, encapsule les

règles des différentes nomenclatures

Page 37: Geo web standards for biodiversity

Extrait

Page 38: Geo web standards for biodiversity

Exemple (1)<TaxonNames>

<TaxonName id="123" nomenclaturalCode="Botanical"> <Simple>Dianthus</Simple> <Rank code="gen">genus</Rank>

</TaxonName> <TaxonName id="124" nomenclaturalCode="Botanical">

<Simple>Dianthus gratianopolitanus Vill.</Simple> <Rank code="sp">species</Rank> <CanonicalName>

<Simple>Dianthus gratianopolitanus</Simple> <Genus ref="123">Dianthus</Genus>

</CanonicalName> </TaxonName>

<TaxonName id="125" nomenclaturalCode="Botanical"> <Simple>Dianthus caesius Sm.</Simple> <Rank code="sp">species</Rank> <CanonicalName>

<Simple>Dianthus caesius</Simple> <Genus ref="123">Dianthus</Genus> <SpecificEpithet>caesius</SpecificEpithet>

</CanonicalName> </TaxonName>

Page 39: Geo web standards for biodiversity

Exemple (2)<TaxonConcepts> <TaxonConcept id="988"> <Name scientific="true" ref="124">Dianthus gratianopolitanus Vill.</Name> <AccordingTo> <AccordingToSimple> Clapham, Tutin &amp; Moore (1987) </AccordingToSimple> </AccordingTo>

<TaxonRelationships> <TaxonRelationship type="has synonym"> <ToTaxonConcept ref="989"/> </TaxonRelationship> </TaxonRelationships>

</TaxonConcept>

<TaxonConcept type="nominal" id="989"> < Name scientific="true" ref="125">Dianthus caesius</Name> </TaxonConcept>

Page 40: Geo web standards for biodiversity

Utilisation• GBIF dans son projet de « Global Names

Architecture »• TCS est utilisé pour faciliter l’échange des

données taxonomiques.

Page 41: Geo web standards for biodiversity

Conclusion sur les standards de données

• DwC, ABCD schema et TSC spécifiques aux collections• Moins appropriés (pour l’instant) aux observations

– Protocoles ?– Données manquantes ?– Regroupement autre que taxonomique ?– Attributs spatiaux ?

En cours d’évolutionUtilisation conjointe avec les standards de métadonnées

Page 42: Geo web standards for biodiversity

Et après?• Modèles de données ≠ standards de données• Besoin de transformation des modèles ou de

mise en relation (mapping) avec les standards– espèce = SpecificEpithet– alt m = MinimumElevationInMeters

• Manipulation des données peut être nécessaires– Concatenation– Parsing– Changement de granularité

Protocoles d’échange de données

Page 43: Geo web standards for biodiversity

Les protocoles• Protocole = comment lier ou échanger les

données• Protocoles existants

– TAPIR– LSID & RDF– DwC-A– IPT

Page 44: Geo web standards for biodiversity

TAPIR• Protocole pour interroger les bases de données

existantes• Remplace :– DiGIR (utilisant DwC comme standard)– BioCASe (utilisant ABCD schema comme standard)

• Indépendant du standard, mais un standard de données est nécessaire

• Utilisé principalement par GBIFwww.tdwg.org/activities/tapir

Page 45: Geo web standards for biodiversity

TAPIR

Page 46: Geo web standards for biodiversity

TAPIR

Page 47: Geo web standards for biodiversity

TAPIR

Page 48: Geo web standards for biodiversity

TAPIR

Page 49: Geo web standards for biodiversity

TAPIR

Page 50: Geo web standards for biodiversity

LSID & RDF• LSID = Life Science Identifier– Type de GUID = Global Unique Identifier– LSID = chaîne de caractères + format

http://lsids.sourceforge.net/

urn:lsid:ubio.org:namebank:11815

Page 51: Geo web standards for biodiversity

LSID & RDF• Utilisation :– Identification d’un objet– Retrouver les metadonnées associées (standard)

• RDF = Resource Description Framework• RDF = Format de réponse des requêtes sur le

LSID• Nombreux outils pour résoudre et échanger les

LSID http://lsid.tdwg.org/

Page 52: Geo web standards for biodiversity

LSID & RDF

http://lsid.tdwg.org/urn:lsid:ubio.org:namebank:11815

Page 53: Geo web standards for biodiversity

Darwin Core archive• Pas vraiment un protocole• Moyen de publier les données au sein du GBIF• DwC-A contient un jeu de données entier basé

sur des fichiers textes• Le format DwC-A fournit un moyen simple de

publier ses données au format DwC + extensions

• Une archive = un ensemble de fichier textes zippés

Page 54: Geo web standards for biodiversity

Dwc-A

Page 55: Geo web standards for biodiversity

Integrated Publishing Toolkit• IPT = Une application web• Publier 3 types de données de biodiversité – Données primaires– Information sur les espèces– Métadonnées sur les ressources

• À partir d’une source de données – Fichier plat– Base de données

• Pour rendre ces données visibles sur le réseau distribué du GBIF

Page 56: Geo web standards for biodiversity

IPT

-Transport rapide des données-Création d’index

-Clients GIS-GeoPortals

-Portails de données-Réseaux distribués-Accès aux enregistrements individuels

Catalogues de Métadonnées

Page 57: Geo web standards for biodiversity

Conclusion

• Partager les données de biodiversité :– Utiliser un standard de données– Utiliser un standard de metadonnées– Utiliser un protocole d’échange

Applications