1
www.irstea.fr
Pour mieux
affirmer
ses missions,
le Cemagref
devient Irstea
Catherine ROUSSEY
TSCF équipe COPAIN
Échange de données sur le
web
Merci à
Fabien AMARGER
Fabien GANDON
Stephan BERNARD
2
Plan
•Échange des données
• les problèmes liés à l'interopérabilité des systèmes d’information
• les bonnes pratiques à mettre en place
• exemple à l’Irstea : BDOH site web des données de capteur hydro
•L’ouverture des données et le web de données liées
•Les technologies web sémantique
•Exemple à l’Irstea: publication de données capteurs météo
3
Définitions: Données, Informations
Donnée: un élément d’information,
percevable,
manipulable
Information: donnée +
sens + contexte
type structure de données
Guide pratique pour la gestion des données de la recherche irstea
Une donnée est une information qui peut être enregistrée, traitée,
analysée ou communiquée, quelle que soit sa nature. Lorsque la donnée
n’a pas encore été traitée ou contextualisée, on parle de donnée brute.
4
Problème de l’interopérabilité lexicale
Le même terme est utilisé pour représenter différents objets
Le même objet est référencé par des termes différents
Credit Fabien GANDON
5
Normaliser le vocabulaire
5
rivière
fleuve
river
rio
A relatively large
natural stream of
water
Water course
Una corriente
relativamente larga
corriente de agua natural
Cours d’eau naturel de moyenne
ou de faible importance, qui en
principe n’aboutit pas directement
à la mer
Cours d’eau naturel
généralement important
(plus spécialement lorsque
ce cours d’eau se jette
dans la mer)
6
Thesaurus: exemple de vocabulaire normalisé
7
Problème de l’interopérabilité des structures de
données
8
Global Sensor Network
L’organisation des
données (schéma,
structure) est différente
Credit JP Calbimonte
9
Standard d’échange de données Le dictionnaire agricole GIEEA en UML
10
Echange de données : les bonnes pratiques
• Normaliser le vocabulaire
• Choisir un format non propriétaire (XML, txt, html, csv)
• Définir un schéma de données commun
• Documenter le schéma
• Choisir une licence d’usage de ces données
• Rendre accessible les fichiers de données sur le web
Exemple à l’Irstea Base de Données des Observatoires en Hydrologie
BDOH https://bdoh.irstea.fr/
11
Ouverture des données (publiques)
Open data is data that can be freely used, reused and redistributed by
anyone - subject only, at most, to the requirement to attribute and
sharealike.
The most important aspects to consider: –Availability and Access: the data must be available as a whole and at no
more than a reasonable reproduction cost, preferably by downloading over
the internet. The data must also be available in a convenient and modifiable
form.
–Reuse and Redistribution: the data must be provided under terms that
permit reuse and redistribution including the intermixing with other datasets.
–Universal Participation: everyone must be able to use, reuse and
redistribute - there should be no discrimination against fields of endeavour or
against persons or groups. For example, ‘non-commercial’ restrictions that
would prevent ‘commercial’ use, or restrictions of use for certain purposes
(e.g. only in education), are not allowed.
Source http://opendatahandbook.org/en/what-is-open-data/
12
Modèle 5 étoiles Web de Données liées ouvertes
source: Tim Berners-Lee, http://5stardata.info/
13
Exemple de site open data
Auvergne http://opendata.auvergne.fr/
France https://www.data.gouv.fr/fr/
Europe http://ec.europa.eu/eurostat/fr
Regards citoyens http://www.regardscitoyens.org/
Data Publica le tableau de bord des communes
14
Le web de données liées (Linked Open Data)
An extension of the
current Web…
… where data are given
well-defined and explicitly
represented meaning, …
… so that it can be
shared and used by
humans and machines,
...
... better enabling them to
work in cooperation
And clear principles on
how to publish data
Video europeana qu’est ce que le web des données
https://vimeo.com/49231111
15
Les technologies Web Sémantique
World Wide Web Consortium
(W3C)
Credit Benjamin Nowak
16
Syntaxe de base du web sémantique RDF: Resource Description Framework
is a triple model i.e. every piece of
knowledge is broken down into
( subject , predicate , object )
RDF
Credit Fabien GANDON
17
http://inria.fr/~fabien#me
http://inria.fr/schema#author
http://inria.fr/rr/doc.html
http://inria.fr/schema#theme
"Music"
17
Credit Fabien GANDON
18 <rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-
rdf-syntax-ns#"
xmlns:inria="http://inria.fr/schema#" >
<rdf:Description
rdf:about="http://inria.fr/rr/doc.html">
<inria:author rdf:resource=
"http://inria.fr/~fabien#me" />
<inria:theme>Music</inria:theme>
</rdf:Description>
</rdf:RDF>
18
Credit Fabien GANDON
19
Les ontologies dans le web de données
Une ontologie contient un vocabulaire et un schéma de données:
• consensuels,
• publiés sur le web et documentés
• formalisés avec des standards du web (RDF, OWL, SPARQL)
• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)
= un schéma de données pour le web de données
20
www.irstea.fr
Pour mieux
affirmer
ses missions,
le Cemagref
devient Irstea
Publication de données
météo de l'Irstea sur le web
de données
21
Semantic Sensor Network Ontology Une partie du schema de données
22
Description d'une "Observation" Exemple d'un Anémomètre
23
Publication des données de la station météo
Données publiées sous la licence open data etalab
SPARQL endpoint visible sur datahub
http://ontology.irstea.fr/weather/snorql/
24
Ou trouver des ontologies ?
SWOOGLE
http://swoogle.umbc.edu/
Watson
http://watson.kmi.open.ac.uk/WatsonWUI/
LOV Linked Open Vocabulary http://lov.okfn.org/dataset/lov/
W3C groups
http://www.w3.org/Consortium/activities
Credit Fabien Gandon
25
Autres exemples de jeux de données
Dbpedia
http://dbpedia.org/snorql/
http://dbpedia.org/fct/
Agrovoc en skos http://aims.fao.org/aos/agrovoc/c_16047.html
IGN http://data.ign.fr/endpoint.html
Open Data cloud diagram, by Richard Cyganiak and Anja
Jentzsch. http://lod-cloud.net/
Datahub.io http://datahub.io/
Une liste de sparql end point disponible
http://www.w3.org/wiki/SparqlEndpoints
26
Conclusion et Perspectives
Publication des données de la station météo (2014 à jour)
pas si simple au début…
Publication d’autres données capteurs
Proposer une interface d’interrogation en français plus intuitive qu’une
requête SPARQL
Lier nos données aux données de l’IGN pour une interrogation
spatialisée
Tester différents serveurs RDF (requête avec agrégats)
Découverte et utilisation de ces données ?
Utiliser ces données dans des modèles météorologiques
Conversion au format netcdf?