Upload
datalift
View
404
Download
1
Embed Size (px)
Citation preview
Datalift Camp, 09 et 10 octobre 2012, Paris 1
DATALIFT CAMP09 et 10 octobre 2012
Paris
Gazouillez #datalift
Datalift Camp, 09 et 10 octobre 2012, Paris 2
Plan
● Problématiques● Objectifs du projet● Etapes et jalons● Réalisations● La plateforme Datalift● Difficultés rencontrées● Travaux futurs
Datalift Camp, 09 et 10 octobre 2012, Paris 3
Partons en voyage...
Datalift Camp, 09 et 10 octobre 2012, Paris 4
Problème de planning
Datalift Camp, 09 et 10 octobre 2012, Paris 5
Problème de planning
Datalift Camp, 09 et 10 octobre 2012, Paris 6
Une situation insuffisament satisfaisante pour la valorisation de vos données
Oblige les développeurs à :
Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce que veut dire ce champ “nom” ? signifie-t-il la même chose que dans cet autre jeu de données ?
Ø Découvrir par eux-mêmes les relations entre vos données et d'autres données
Ø Gérer des formats hétérogènes pour croiser des données : CSV pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier
Ø Gérer des méthodes d'accès hétérogènes pour accéder aux données : APIs propriétaires différentes
De votre côté :
Ø Temps passé à développer des APIs
Ø Difficulté à faire adapter des applications existantes à vos données
Datalift Camp, 09 et 10 octobre 2012, Paris 7
Ø Un système d'identifiants global : les URIs
● chaque donnée ou métadonnée est identifiée de manière non ambigue : http://dbpedia.org/resource/Paris est la ville de Paris en France ; pas de risque de confusion avec Paris au Texas ou avec les paris sportifs
Ø Un format unique, RDF : un modèle de données simple pour décrire vos données, extensif à l'infini
Ø La standardisation de la sémantique de vos données, à travers des propriétés et des “vocabulaires” réutilisables : par ex. vous n'avez pas à réinventer pas la propriété “auteur” qui est déjà définie ailleurs
Ø Un protocole d'acccès uniforme : HTTP, SPARQL
● SPARQL est l'API unique, normalisée, du web sémantique (ressemble à SQL)
Le Web sémantique comme solution
Datalift Camp, 09 et 10 octobre 2012, Paris 8
but de datalif
De données brutes ouvertesà des données sémantques
interconnectées
Datalift Camp, 09 et 10 octobre 2012, Paris 9
Datalift
Plateforme logicielle pour assister la publication de données
Publication de jeux de données
R&D pour automatiser le processus de publication
Formations, tutoriels, camps de publication de données
Datalift Camp, 09 et 10 octobre 2012, Paris 10
Le processus d'élévation
Datalift Camp, 09 et 10 octobre 2012, Paris 11
Le processus de publicationDBPedia IGN
Ontologie du service public
Accès HTTP Interrogation en SPARQL
INSEE
Conversion XML → RDF
Conversion RDF → RDFOntologie
géographique
Datalift Camp, 09 et 10 octobre 2012, Paris 12
Ø Qu’est-ce qu’un (bon) vocabulaire pour des données liées?
§ Critères d’utilisabilité
§ Simplicité, visibilité, pérennité, intégration, cohérence …
Ø Différents types de vocabulaires
§ De métadonnées, de référence, de domaine, généraliste …
§ Les piliers du Linked Data : Dublin Core, FOAF, SKOS
Ø Bonnes et moins bonnes pratiques
§ Ex : Programmes BBC vs legislation.gov.uk
§ Vocabulary of a Friend : les vocabulaires en réseau
Ø Problèmes linguistiques
§ Les vocabulaires existants sont en anglais à 99%
§ Approche terminologique : quels vocabulaires pour « Evénement » « Organisation »
sélection
Datalift Camp, 09 et 10 octobre 2012, Paris 13
conversionØGuide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056 ● Le document: http://www.insee.fr/geo/commune/75056● Les données: http://rdf.insee.fr/geo/commune/75056
Datalift Camp, 09 et 10 octobre 2012, Paris 14
conversionØGuide des bonnes pratiques pour les données liées:
§ La ressource: http://id.insee.fr/geo/commune/75056 ● Le document: http://www.insee.fr/geo/commune/75056● Les données: http://rdf.insee.fr/geo/commune/75056
SemWebPro 18/01/2011 15Tim Berners Lee,
http://www.w3.org/DesignIssues/LinkedData.html
publication§ Utliser le format RDF§ Utliser des URI pour nommer les choses§ Utliser des URI HTTP (URL) pour pouvoir leur demander des informatons§ Donner des informatons (HTML, RDF) quand les liens sont dé-référencés§ Inclure dans ces infos les URIs pointant vers d'autres données pour
permettre la découverte
SemWebPro 18/01/2011 16
Interconnexion
§ Comment identfier les jeux de données à lier ?
§ Comment trouver les resourceséquivalentes ?
Dépasser l'hétérogénéité des données
Datalift Camp, 09 et 10 octobre 2012, Paris 17
Et plus ...
● Gestion des droits d'accès aux données à échelle variable
● Gestion des licences, licences composites● Une API web de données pour Androïd● Des patrons configuration pour visualiser les
données● ...
Datalift Camp, 09 et 10 octobre 2012, Paris 18
La plateforme Datalift
● Architecture modulaire● Supporte le processus de publication● Documentée : installation, utilisation,
développement● Sécurisée● Open-source● Exécutables pour Windows, MacOS, Linux
Datalift Camp, 09 et 10 octobre 2012, Paris 19
La plateforme Datalift
Datalift Camp, 09 et 10 octobre 2012, Paris 20
DAT
ALIF
T
En route vers le web de données