Geo web standards for biodiversity

Preview:

DESCRIPTION

Web Mapping, GeoRSS, Biodiversity Informatics

Citation preview

Les standards en biodiversitéPartie 2

1er juillet 2010Natural Solutions

Ma donnéeUn gobe-mouche gris à Natural Solutions, Donnée : Elément d'information décrivant de

façon élémentaire un objet, une transaction, un événement, etc. Une donnée sert de base à une recherche, un raisonnement, etc.

Identifié par Amandine avec des jumelles Métadonnée : Donnée décrivant des caractéristiques

d'une donnée, e.g. propriété, contenu, qualité (conditions, précision, etc.), date de saisie, etc.

Partager ma donnée (1)Taxon scientificName : Muscicapa striata class : Aves order : Passeriformes genus : Muscicapa

Location country : France countryCode : FR locality : Marseilles decimalLatitude : 43.17203 decimalLongitude : 5.22445

Standard : format reconnu par une autorité ou majoritairement utilisé. Un standard permet la compatibilité des systèmes.

Standard de données

- Vocabulaire commun- Reconnu par la communauté Comprendre et utiliser la donnée

Partager ma donnée (2)

<dwc:Taxon> <dwc:scientificName>Muscicapa striata</dwc:scientificName><dwc:class>Aves</dwc:class>

<dwc:order> Passeriformes </dwc:order><dwc:genus>Muscicapa</dwc:genus>

</dwc:Taxon>< dcterms:Location > < dwc:country > France < dwc:country >

< dwc:countryCode > FR < dwc:countryCode > < dwc:locality > Marseille < dwc:locality >

< dwc:decimalLatitude > 43.17203 < dwc:decimalLatitude > < dwc:decimalLongitude > 5.22445 < dwc:decimalLongitude > </dcterms:Location >

Implémentation XML

Utiliser la donnée au sein au sein d’un programme / système informatique

Partager ma donnée (3)< protocol id = NSprotocol.1 > < title> Identification in a corridor </ title >

< creator > < individualName > < surName > Sahl </ surName >

</ individualName > </ creator >

< proceduralStep > < description > < para>Bird identification on a working place</ para > </ description > < instrumentation > binocular</ instrumentation > </ proceduralStep ></ protocol > Standard de metadonnées

Partager ma donnée (4) Protocole d’échange : les méthodes d'échange de données numériques entre plusieurs postes informatiques

3 groupes de standards• Les standards de métadonnées

Comment sont mes données?• Dublin Core • EML

• Les standard de données Quelles sont les données à partager?

• DwC • ABCD • TCS

• Les protocoles d’échangeComment je partage les données ?

• TAPIR • LSID • IPT• …

Les standards de métadonnées• Problématique– Différents types de données de biodiversité– Stockages variés– Echelles différentes– Données dispersées

• Objectif– Accéder aux jeux de données de biodiversité sur le Web

• Quelles sont les données disponibles?• Comment accéder à ces données ?

Définitions• Les métadonnées décrivent les ressources et leur accessibilité– identification– qualité– contexte spatial– distribution des jeux de données

• Utiliser un standard de métadonnées– une terminologie commune– un ensemble de définition

Eviter une perte du sens original des données

Dublin Core

• Standard de metadonnées le mieux connu actuellement• Initié en 1995• Objectif : découvrir les ressources documentaires du Web• 15 descripteurs minimums• Implémentation XML

http://dublincore.org/

Exemple

Ecological Metadata Language• Standard de metadonnées développé par la communauté

écologique

• Initié en 1997 par « Ecological Society of America »

• Objectif : fournir suffisament d’information pour être capable de réutiliser les données d’une manière scientifique

très bien structuré avec de nombreux descripteurs

• Implémentation XML

• 1500 projets, 65 milliards d’observations de tout types (i.e. organismes, climat, etc.)

http://knb.ecoinformatics.org/

Organisation EML

• Descripteurs organisés en classes décrivant : – le jeu de données (dataset) – l’origine des données (citation)– la structure des données (software)– les méthodes de création du jeu de données

(protocol)– l’accessibilité des données (access)

Exemple

http://harvardforest.fas.harvard.edu

Standard de données de biodiversité

• Standard de données ≈ Format de données ≈ Schéma de données

• Echange de données d’occurrence d’espèces – Spécimens dans les collections d’histoire naturelle et herbiers

(collections vivantes incluses)– Observations des organismes vivants sur le terrain

• 2 standards– Darwin Core– ABCD schema

TDWGTaxonomic Database Working

Group

Biodiversity Information Standards

• Une organisation internationale à but non lucratif

• Développe des standards et des protocoles pour partager les données de biodiversité

www.tdwg.org

Historique2000

TDWG/CODATA (Committee on Data for Science and Technology)Sous groupe « Access to Biological Collections Data »

Protocole de recherche des données de

biodiversité

Spécification des données des collections

biologiques

DwC + protocole

DIGIR

ABCD Schema

Projet BioCase

GBIFProtocole BioCase

Darwin Core• Définition d’un ensemble d’éléments de données (data

element) – Unité d’information de base : sens unique + valeurs distinctes – Norme ISO ISO/IEC 11179 : lisibilité et l’interchangeabilité des

données– Attributs/champs de base de données

• Objectif : partage et intégration des données d’observation primaires

• Initialement : organisation des collections de specimens • Extensible (ajout d’éléments de données) : fct des besoins

spécifiqueshttp://rs.tdwg.org/dwc/

Les catégories

• 172 éléments de données • Organisés en 8 catégories/classes

Dublin Core

taxonIDscientificNameIDtaxonConceptIDscientificNamekingdomphylumclassorderfamilygenussubgenustaxonRankscientificNameAuthorshipvernacularNamenomenclaturalCodetaxonomicStatusnomenclaturalStatustaxonRemarks…

Des metadonnées?

• Un ensemble complémentaire de termes - Record-level Terms – pour caractériser le jeu de données

institutionIDcollectionIDdatasetIDinstitutionCodecollectionCodedatasetNameownerInstitutionCodebasisOfRecord informationWithhelddataGeneralizationsdynamicProperties

Occurrence EventLocation TaxonPreservedSpecimenFossilSpecimen LivingSpecimenHumanObservation MachineObservation NomenclaturalChecklist

Nat

ure

des

donn

ées

Darwin Core Type Vocabulary Valeur de l’élément de données

Le partage

• Tous les termes sont assignés à une URIoccurenceID : http://rs.tdwg.org/dwc/terms/occurrenceID

• implementation XML + XML/RDF

Extensions

• Information spécifique à une discipline – Geospatial DecimalLatitude - DecimalLongitude – VerbatimCoordinates - …

– PaleontologieEarliestEonOrLowestEonothem – LatestEonOrHighestEonothem -

EarliestEraOrLowestErathem - …

– Nettoyage ( Curation )IdentifiedBy - DateIdentified - FieldNotes - …

Simple Darwin Core

• Sous ensemble de 46 éléments de données– Attributs des tableurs et bases de données– Pas les termes représentant les différentes

catégories (liste plate)– Partage simple des données taxonomiques et de

leurs occurrences

Exemple<dwc:Taxon>

<dwc:scientificName>Anthus correndera</dwc:scientificName><dwc:class>Aves</dwc:class>

<dwc:genus>Anthus</dwc:genus><dwc:specificEpithet>correndera</dwc:specificEpithet> <dwc:occurrenceID>urn:catalog:AUDCLO:EBIRD:OBS64515286</dwc:occurrenceID>

</dwc:Taxon>

Utilisation• Largement utilisé– GBIF (Global Biodiversity information facility)

www.gbif.org– OBIS (Ocean Biogeographic Information System)

www.iobis.org– ALA (Atlas of Living Australia)

www.ala.org.au– Inventaires : ATBI (All Taxa Biodiversity Inventories

and Monitoring) Mercantour– …

ABCD schema• Schéma hierarchique de spécification de données• Echange des données de collections

– Specimens– Observations

• Complet donc complexe 1200 éléments de données

• Capable d’intégrer des données détaillées, de sources très differentes et de domaines très spécifiques

• Suffisamment d’éléments de données pour être compatible avec beaucoup de standards

• Implémentation XMLwww.tdwg.org/activities/abcd/

Extrait

Metadonnées?

Exemple

Visualiser ABCD schema

http://www.bgbm.org/scripts/ASP/TDWG/frame.asp?config=0&configurl=http://www.bgbm.org/TDWG/CODATA/Schema/schemaviewer_configs/conf_abcd_206.xml

Extensions

• Extension pour les Geosciences (EFG) http://www.geocase.eu/

• Extension pour les données moléculaires (ADN) http://www.dnabank-network.org/

• Extension pour les herbiers http://hiscom.chah.org.au/wiki/HISPID_5

Mapping DwC – ABCD schemaDwC ABCD Schema

GlobalUniqueIdentifier DataSets/DataSet/Units/Unit/UnitGUID

DateLastModified DataSets/DataSet/Units/Unit/DateLastEdited

BasisOfRecord DataSets/DataSet/Units/Unit/RecordBasis

InstitutionCode DataSets/DataSet/Units/Unit/SourceInstitutionID

CollectionCode DataSets/DataSet/Units/Unit/SourceID

CatalogNumber DataSets/DataSet/Units/Unit/UnitID

InformationWithheld DataSets/DataSet/Units/Unit/InformationWithheld

Remarks DataSets/DataSet/Units/Unit/Notes

ScientificName DataSets/DataSet/Units/Unit/Identifications/Identification/TaxonIdentified/ScientificName/FullScientificNameString

HigherTaxon DataSets/DataSet/Units/Unit/Identifications/Identification/TaxonIdentified/HigherTaxa/HigherTaxon/HigherTaxonName

… …/…/…

Utilisation

• Largement utilisé aussi (par les mêmes?)• GBIF• ALA• …

Taxon Concept schema(Taxonomic taxon transfert schema)

• Problématique– Données de biodiversité des fournisseurs basées

généralement sur un seul référentiel taxonomique– Partager les données nécessitent d’utiliser la

même taxonomie

www.tdwg.org/standards/117/

Objectifs

• Développer un modèle abstrait de concepts taxonomiques

• Etablir des relations entre les concepts taxonomiques des fournisseurs de données

• Standard XML pour faciliter l’échange de données entre les différents fournisseurs

• faciliter l’interrogation des données

Définitions • TCS est un format d’échange de données

un moyen d’annoter les données taxonomiques communiquées

• 2 éléments clés – <TaxonConcept> : monde réel, exprime une opinion sur le

taxon et ses relations avec d’autres taxons– <TaxonName> : nomenclature abstraite, encapsule les

règles des différentes nomenclatures

Extrait

Exemple (1)<TaxonNames>

<TaxonName id="123" nomenclaturalCode="Botanical"> <Simple>Dianthus</Simple> <Rank code="gen">genus</Rank>

</TaxonName> <TaxonName id="124" nomenclaturalCode="Botanical">

<Simple>Dianthus gratianopolitanus Vill.</Simple> <Rank code="sp">species</Rank> <CanonicalName>

<Simple>Dianthus gratianopolitanus</Simple> <Genus ref="123">Dianthus</Genus>

</CanonicalName> </TaxonName>

<TaxonName id="125" nomenclaturalCode="Botanical"> <Simple>Dianthus caesius Sm.</Simple> <Rank code="sp">species</Rank> <CanonicalName>

<Simple>Dianthus caesius</Simple> <Genus ref="123">Dianthus</Genus> <SpecificEpithet>caesius</SpecificEpithet>

</CanonicalName> </TaxonName>

Exemple (2)<TaxonConcepts> <TaxonConcept id="988"> <Name scientific="true" ref="124">Dianthus gratianopolitanus Vill.</Name> <AccordingTo> <AccordingToSimple> Clapham, Tutin &amp; Moore (1987) </AccordingToSimple> </AccordingTo>

<TaxonRelationships> <TaxonRelationship type="has synonym"> <ToTaxonConcept ref="989"/> </TaxonRelationship> </TaxonRelationships>

</TaxonConcept>

<TaxonConcept type="nominal" id="989"> < Name scientific="true" ref="125">Dianthus caesius</Name> </TaxonConcept>

Utilisation• GBIF dans son projet de « Global Names

Architecture »• TCS est utilisé pour faciliter l’échange des

données taxonomiques.

Conclusion sur les standards de données

• DwC, ABCD schema et TSC spécifiques aux collections• Moins appropriés (pour l’instant) aux observations

– Protocoles ?– Données manquantes ?– Regroupement autre que taxonomique ?– Attributs spatiaux ?

En cours d’évolutionUtilisation conjointe avec les standards de métadonnées

Et après?• Modèles de données ≠ standards de données• Besoin de transformation des modèles ou de

mise en relation (mapping) avec les standards– espèce = SpecificEpithet– alt m = MinimumElevationInMeters

• Manipulation des données peut être nécessaires– Concatenation– Parsing– Changement de granularité

Protocoles d’échange de données

Les protocoles• Protocole = comment lier ou échanger les

données• Protocoles existants

– TAPIR– LSID & RDF– DwC-A– IPT

TAPIR• Protocole pour interroger les bases de données

existantes• Remplace :– DiGIR (utilisant DwC comme standard)– BioCASe (utilisant ABCD schema comme standard)

• Indépendant du standard, mais un standard de données est nécessaire

• Utilisé principalement par GBIFwww.tdwg.org/activities/tapir

TAPIR

TAPIR

TAPIR

TAPIR

TAPIR

LSID & RDF• LSID = Life Science Identifier– Type de GUID = Global Unique Identifier– LSID = chaîne de caractères + format

http://lsids.sourceforge.net/

urn:lsid:ubio.org:namebank:11815

LSID & RDF• Utilisation :– Identification d’un objet– Retrouver les metadonnées associées (standard)

• RDF = Resource Description Framework• RDF = Format de réponse des requêtes sur le

LSID• Nombreux outils pour résoudre et échanger les

LSID http://lsid.tdwg.org/

LSID & RDF

http://lsid.tdwg.org/urn:lsid:ubio.org:namebank:11815

Darwin Core archive• Pas vraiment un protocole• Moyen de publier les données au sein du GBIF• DwC-A contient un jeu de données entier basé

sur des fichiers textes• Le format DwC-A fournit un moyen simple de

publier ses données au format DwC + extensions

• Une archive = un ensemble de fichier textes zippés

Dwc-A

Integrated Publishing Toolkit• IPT = Une application web• Publier 3 types de données de biodiversité – Données primaires– Information sur les espèces– Métadonnées sur les ressources

• À partir d’une source de données – Fichier plat– Base de données

• Pour rendre ces données visibles sur le réseau distribué du GBIF

IPT

-Transport rapide des données-Création d’index

-Clients GIS-GeoPortals

-Portails de données-Réseaux distribués-Accès aux enregistrements individuels

Catalogues de Métadonnées

Conclusion

• Partager les données de biodiversité :– Utiliser un standard de données– Utiliser un standard de metadonnées– Utiliser un protocole d’échange

Applications

Recommended