Linked open data pour la consommation des informations

Preview:

DESCRIPTION

Dans un contexte où le volume de données produit est de plus en plus grand, et les données sont peu utilisés, pourtant pouvant être mise en valeur, un nouveau vent souflle: Le linked open data

Citation preview

L INKED OPEN DATA POUR LA CONSOMMATION

DES INFORMATIONS ISSUES DE LA

COLLECTE DE DONNÉES ÉPIDÉMIOLOGIQUES

1

Colloque en l’honneur de Gauthier SALLET Atelier sur la gestion de données épidémiologiques

UGB, 6 et 7 décembre 2012

CANEVAS DE LA PRÉSENTATION

1. Cycle des données dans les systèmes de collectes de données,

2. Enjeux de la publication des données,

3. C’est quoi l’open data,

4. Cas d’utilisation de l’open data pour le médical,

5. 5 étapes pour publier les données liées

2

SYSTÈME DE COLLECTE DE

DONNÉES ÉPIDÉMIOLOGIQUES

Volume énorme de données collectées,

Données analysées pour détection d’épidémies,

Actions entreprises par des décideurs,

Données archivées,

3

CYCLE DE LA DONNÉE

Collecte de données

Analyse de données

Réactions et actions

Rapport sur les données

4

ENJEUX DE PUBLICATION DE DONNÉES

Enjeu démocratique:

La transparence,

Enjeu socio-économique:

Susciter la création de nouveaux secteurs économiques

Enjeu universitaire:

Amélioration de la détection des épidémies

5

L’OPEN DATA: UN OBJECTIF DOUBLE

Rendre les données accessibles, exploitables et rentables par la majorité,

Offrir la possibilité de croiser, traiter et analyser des données de sources différentes.

6

WEB DES DOCUMENTS 7

WEB DES DOCUMENTS: CHALLENGES

Accès:

Liens non typés,

Données faiblement structurées,

Données déconnectées,

Intégration

Présenter les symptômes des maladies ayant fait l’objet d’une épidémie l’année dernière.

Interrogation

Quelles sont les régions ayant été victimes des mêmes épidémies l’années dernière?

8

APIS WEB ET MASHUPS

Limites:

APIs fournissent des interfaces propriétaires,

Les mashups sont basées sur un ensemble de données fixes,

Impossible de mettre des liens entre les données,

API WEB

A

Mashup Up

API Web

B

API Web

C

API Web

D

9

WEB DE DONNÉES LIÉES

Utiliser les technologies du web sémantique :

Publier les données structurées sur le WEB,

Lier les données d’une source de données à une autre

B C

RDF

Lien RDF

A D E

Liens RDF Liens RDF Liens RDF

RDF

RDF

RDF

RDF

RDF RDF

RDF

RDF

RDF

10

LINKED DATA C’EST...

...Un moyen de publier des données sur le Web qui:

Encourage la réutilisation,

Réduit la redondance,

Maximise la connectivité des données,

Permet d’ajouter la valeur aux données par le réseau de connexion,

11

INGRÉDIENTS CLÉS DU LINKED

DATA

RDF (Resource description Framework) pour:

Identifier les objets (URIs),

Connecter les informations (relations),

Ontologies (Vocabulaire) pour:

Fournir une compréhension partagée du domaine,

Organiser la connaissance de manière compréhensible par la machine,

Fournir une compréhension exploitable des données,

12

EXEMPLE 1 : BANQUE MONDIALE 13

EXEMPLE 2 : OMS 14

EXEMPLE 3: PNUD 15

EXEMPLE 4 : CDC (CENTERS FOR

D ISEASE CONTROL AND PREVENTION) 16

EXEMPLE UTILISATION OPEN

DATA: GOOGLE 17

EXEMPLE UTILISATION OPEN

DATA: GOOGLE 18

5 ÉTAPES POUR PUBLIER LES

DONNÉES LIÉES

1. Comprendre les principes,

2. Comprendre vos données,

3. Choisir les URIs pour vos éléments de donnée,

4. Lier aux autres sources de données,

5. Publier vos données

19

1- COMPRENDRE LES

PRINCIPES

Utiliser les URIs pour identifier vos éléments:

Tout élément, pas seulement les documents,

Utiliser les URIs HTTP:

Noms globallement uniques,

Permet l’accès par ces noms,

Fournir une information utile en RDF

Lorsque quelque accède à une URI,

Inclure des liens RDF à d’autres URIs

Pour permettre la découverte de l’information,

20

2- COMPRENDRE VOS

DONNÉES

Quelles sont les informations clés présentes dans vos données:

Maladies,

Médicaments,

Symptômes,

Villes, …

Quelles ontologies peuvent être réutilisées?

Geo,

FOAF,

21

3- CHOISIR LES URIS POUR

VOS ÉLÉMENTS DE DONNÉE

Utiliser les espaces de nommage disjoints de ceux existant,

Abstraire des détails d’implémentation

http://dbpedia.org/resource/Berlin

http://www4.wiwiss.fu-berlin.de:2020/demos/dbpedia/cgibin/resources.php?id=Berlin

22

3- CHOISIR LES URIS POUR

VOS ÉLÉMENTS DE DONNÉE

Utiliser les slash

http://mydomain.com/foaf.rdf#me

http://mydomain.com/id/me

Utiliser des patterns

http://dbpedia.org/resource/New_York_City

http://dbpedia.org/data/New_York_City

http://dbpedia.org/page/New_York_City

23

4- LIER AUX AUTRES

SOURCES DE DONNÉES 24

4- LIER AUX AUTRES

SOURCES DE DONNÉES

Utiliser des prédicats de liaison:

owl:sameAs

foaf:homepage, foaf:topic, foaf:based_near

rdfs:seeAlso

25

5- PUBLIER VOS DONNÉES

Mettre en place votre infrastructure,

Tester la négotiation de contenu,

26

5- PUBLIER VOS DONNÉES

Utiliser des outils:

Joseki est un moteur HTTP qui supporte SPARQL,

Virtuoso Universal Server fournit un serveur SPARQL et un stockage RDF,

METAmorphoses est un outil de publication écrit en PHP

http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools

27

CONCLUSION

Volume énorme de données produit par les systèmes de collecte de données,

Plusieurs enjeux de publication de données,

Émergence dans l’utilisation de l’open data,

Processus de publication de données.

28

Recommended