2015 ed spi

Preview:

Citation preview

1

www.irstea.fr

Pour mieux

affirmer

ses missions,

le Cemagref

devient Irstea

Catherine ROUSSEY

TSCF équipe COPAIN

Échange de données sur le

web

Merci à

Fabien AMARGER

Fabien GANDON

Stephan BERNARD

2

Plan

•Échange des données

• les problèmes liés à l'interopérabilité des systèmes d’information

• les bonnes pratiques à mettre en place

• exemple à l’Irstea : BDOH site web des données de capteur hydro

•L’ouverture des données et le web de données liées

•Les technologies web sémantique

•Exemple à l’Irstea: publication de données capteurs météo

3

Définitions: Données, Informations

Donnée: un élément d’information,

percevable,

manipulable

Information: donnée +

sens + contexte

type structure de données

Guide pratique pour la gestion des données de la recherche irstea

Une donnée est une information qui peut être enregistrée, traitée,

analysée ou communiquée, quelle que soit sa nature. Lorsque la donnée

n’a pas encore été traitée ou contextualisée, on parle de donnée brute.

4

Problème de l’interopérabilité lexicale

Le même terme est utilisé pour représenter différents objets

Le même objet est référencé par des termes différents

Credit Fabien GANDON

5

Normaliser le vocabulaire

5

rivière

fleuve

river

rio

A relatively large

natural stream of

water

Water course

Una corriente

relativamente larga

corriente de agua natural

Cours d’eau naturel de moyenne

ou de faible importance, qui en

principe n’aboutit pas directement

à la mer

Cours d’eau naturel

généralement important

(plus spécialement lorsque

ce cours d’eau se jette

dans la mer)

6

Thesaurus: exemple de vocabulaire normalisé

7

Problème de l’interopérabilité des structures de

données

8

Global Sensor Network

L’organisation des

données (schéma,

structure) est différente

Credit JP Calbimonte

9

Standard d’échange de données Le dictionnaire agricole GIEEA en UML

10

Echange de données : les bonnes pratiques

• Normaliser le vocabulaire

• Choisir un format non propriétaire (XML, txt, html, csv)

• Définir un schéma de données commun

• Documenter le schéma

• Choisir une licence d’usage de ces données

• Rendre accessible les fichiers de données sur le web

Exemple à l’Irstea Base de Données des Observatoires en Hydrologie

BDOH https://bdoh.irstea.fr/

11

Ouverture des données (publiques)

Open data is data that can be freely used, reused and redistributed by

anyone - subject only, at most, to the requirement to attribute and

sharealike.

The most important aspects to consider: –Availability and Access: the data must be available as a whole and at no

more than a reasonable reproduction cost, preferably by downloading over

the internet. The data must also be available in a convenient and modifiable

form.

–Reuse and Redistribution: the data must be provided under terms that

permit reuse and redistribution including the intermixing with other datasets.

–Universal Participation: everyone must be able to use, reuse and

redistribute - there should be no discrimination against fields of endeavour or

against persons or groups. For example, ‘non-commercial’ restrictions that

would prevent ‘commercial’ use, or restrictions of use for certain purposes

(e.g. only in education), are not allowed.

Source http://opendatahandbook.org/en/what-is-open-data/

12

Modèle 5 étoiles Web de Données liées ouvertes

source: Tim Berners-Lee, http://5stardata.info/

13

Exemple de site open data

Auvergne http://opendata.auvergne.fr/

France https://www.data.gouv.fr/fr/

Europe http://ec.europa.eu/eurostat/fr

Regards citoyens http://www.regardscitoyens.org/

Data Publica le tableau de bord des communes

14

Le web de données liées (Linked Open Data)

An extension of the

current Web…

… where data are given

well-defined and explicitly

represented meaning, …

… so that it can be

shared and used by

humans and machines,

...

... better enabling them to

work in cooperation

And clear principles on

how to publish data

Video europeana qu’est ce que le web des données

https://vimeo.com/49231111

15

Les technologies Web Sémantique

World Wide Web Consortium

(W3C)

Credit Benjamin Nowak

16

Syntaxe de base du web sémantique RDF: Resource Description Framework

is a triple model i.e. every piece of

knowledge is broken down into

( subject , predicate , object )

RDF

Credit Fabien GANDON

17

http://inria.fr/~fabien#me

http://inria.fr/schema#author

http://inria.fr/rr/doc.html

http://inria.fr/schema#theme

"Music"

17

Credit Fabien GANDON

18 <rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-

rdf-syntax-ns#"

xmlns:inria="http://inria.fr/schema#" >

<rdf:Description

rdf:about="http://inria.fr/rr/doc.html">

<inria:author rdf:resource=

"http://inria.fr/~fabien#me" />

<inria:theme>Music</inria:theme>

</rdf:Description>

</rdf:RDF>

18

Credit Fabien GANDON

19

Les ontologies dans le web de données

Une ontologie contient un vocabulaire et un schéma de données:

• consensuels,

• publiés sur le web et documentés

• formalisés avec des standards du web (RDF, OWL, SPARQL)

• Avec des contraintes en DL (conditions nécessaires et/ou suffisantes)

= un schéma de données pour le web de données

20

www.irstea.fr

Pour mieux

affirmer

ses missions,

le Cemagref

devient Irstea

Publication de données

météo de l'Irstea sur le web

de données

21

Semantic Sensor Network Ontology Une partie du schema de données

22

Description d'une "Observation" Exemple d'un Anémomètre

23

Publication des données de la station météo

Données publiées sous la licence open data etalab

SPARQL endpoint visible sur datahub

http://ontology.irstea.fr/weather/snorql/

24

Ou trouver des ontologies ?

SWOOGLE

http://swoogle.umbc.edu/

Watson

http://watson.kmi.open.ac.uk/WatsonWUI/

LOV Linked Open Vocabulary http://lov.okfn.org/dataset/lov/

W3C groups

http://www.w3.org/Consortium/activities

Credit Fabien Gandon

25

Autres exemples de jeux de données

Dbpedia

http://dbpedia.org/snorql/

http://dbpedia.org/fct/

Agrovoc en skos http://aims.fao.org/aos/agrovoc/c_16047.html

IGN http://data.ign.fr/endpoint.html

Open Data cloud diagram, by Richard Cyganiak and Anja

Jentzsch. http://lod-cloud.net/

Datahub.io http://datahub.io/

Une liste de sparql end point disponible

http://www.w3.org/wiki/SparqlEndpoints

26

Conclusion et Perspectives

Publication des données de la station météo (2014 à jour)

pas si simple au début…

Publication d’autres données capteurs

Proposer une interface d’interrogation en français plus intuitive qu’une

requête SPARQL

Lier nos données aux données de l’IGN pour une interrogation

spatialisée

Tester différents serveurs RDF (requête avec agrégats)

Découverte et utilisation de ces données ?

Utiliser ces données dans des modèles météorologiques

Conversion au format netcdf?

Recommended