Web 3.0 Hosting & Factory
Karima Rafes, BorderCloud
30/11/2015
Le Web des données
L’introduction aux ontologies et au Web sémantique
2
Sommaire
1. Historique du mouvement
2. Définition
3. Qui en a besoin ?
4. En avez-vous besoin ?
5. Le Web des données était utopique.
6. Le Web sémantique est-il encore utopique ?
1. Historique du mouvement
4
Si on reliait tous les documents sur Internet !?
Et le Web fut ?
1989
Le concept
"informations liées"
apparaît dès les
origines.{
Dès ses origines, le Web n’avait pas la finalité de relier
seulement des documents mais de relier les informations.
En 1999, le concept de Web sémantique est créé/structuré
pour décrire la finalité du Web mais le concept fut mal
compris et souvent détourné.
7
Objectif du
Web sémantique
Pouvoir créer de nouvelles connaissances
avec l’aide de machines.
Iron Man
8
Le Web des données… en route vers le Web sémantique
2000
2015
Web des données
Linked Data
En 2025-30, le Web sémantique ?
Travaux de
recommandations
en cours
En 2006, on crée un point d’étape au Web sémantique que l’on
nomme le Web des données ou Linked Data. Ce concept offre un
objectif plus simple à comprendre/expliquer et moins utopique car il
est de + en + facile de faire des démonstrations.
9
Objectif du
Web des données
Pouvoir accéder aux informations disponibles
avec l’aide de machines.
Cortana
2.Définition
Du chaos naîtra l’ordre…
11
Définition : le Web de données
ou Linked DataInitiative visant à favoriser la publication de données :
Interopérables à l’aide d’un modèle commun pour représenter une information
Structurées à l’aide d’ontologies
Accessibles à travers le Web
Reliées entre elles pour constituer un réseau global d'informations
12
Historique
Le lancement de l'initiative, en 2006, avait pour objectifs de :
• promouvoir une vision du Web comme
une base de données globale
• naviguer à travers les données sur le Web
de la même façon que l'hypertexte permet de relier des
pages Web
Le Consortium World Wide Web (W3C) à travers cette
initiative, poursuit sa mission qui est d’assurer au Web une
croissance à long terme
3. Qui en a besoin ?
1 Prise de
conscienceIl est impossible de
traiter humainement
l’information
disponible sur le Web.
2 BesoinsLes donneurs d’ordres
demandent des solutions pour
prendre de meilleurs décisions
sans manipulations
extérieures.
3 DiffusionLe Linked Data permet l’accès aux données sans
intermédiaires et de manières décentralisées. La
technologie se diffuse dans les laboratoires et les
institutions gouvernementales.
4 Disponibilité (en cours)Les données sont de plus en plus
accessibles, de plus en plus liées et
mises à jour en temps réel.
5 RéutilisationLes données sont maintenant
réutilisables à travers toutes
les machines sans
intermédiaires.
Le Web des données permettra… la réutilisation de toutes les données
WoTRDF
Sciences CityOpen
Data
Web
Agent
datadata
Faciliter
l’intégration de
Web Agent
pour aider les
humains dans
cet océan de
données
Le Web des données permettra… l’émergence des Web agents
4. En avez-vous besoin ?
L’équivalent de SQL dans le Linked Data est SPARQL
17
Approche classique
ou Linked Data ?1. Est-ce que vous maîtrisez le modèle des
données dont vous avez besoin ?
2. Est-ce que vous connaissez à l’avance les
questions que les utilisateurs souhaitent
poser aux données ?
3. Est-ce que vous êtes habilités à
héberger/traiter toutes les données
nécessaires pour répondre aux questions ?
Données en temps réel par exemple...
18
Approche classique
ou Linked Data ?Si vous répondez non à une seule de ces
questions une BDD SQL n’est pas adapté. Il
faut commencer à mettre œuvre une
solution de type Linked Data.
Si la QoS des solutions Linked Data est insuffisante,
il faudra mettre en œuvre une solution hybride (avec
des BDD SQL ou NoSQL).
Hors démo dans 95% des cas les solutions sont hybrides
19
Approche
SQL ou NoSQL?
Si vous répondez oui à toutes ces
questions, vous pouvez centraliser les
données et travailler de manière classique.
Cependant, si la quantité des données
entraîne une QoS insuffisante, il faut
envisager de faire du NoSQL (Big Data).
20
SQL/NoSQL nécessitent
de centraliser les données
NoSQL = une BDD pour tous
(exemple: Google, Facebook, etc...)
DataData
DataData
DataData
DataData
DataData
DataData
DataData
DataData
Organisation 1
Organisation 2
Organisation 3
21
SPARQL
Le Linked Data supporte
les données décentralisées
avec plusieurs structures
SPARQL
DataData
DataData
DataData
DataData
DataData
DataData
DataData
DataData
Organisation 1
Organisation 2Organisation 3
SPARQL
httpLa décentralisation des données avec des structures différentes
à travers le Web permet aussi de garder le contrôle des données
par leurs propriétaires.
Le croisement des données peut se faire du côté du client
(respect des données privées) ou des serveurs.
Comment interroger une BDD
sans structure préalable ?
Web des
données
Linked Data
2 à 5 ans
> 5 ans
23
IRI (Internationalized Resource Identifier)
Chaque chose doit être représentée par un IRI.
Un IRI doit être :
• Unique sur le Web
• Valide : un IRI dans un navigateur doit afficher un document
• Lisible : (si possible) dans la langue de l'être humain qui l’a créé
• Lié : si vous décrivez une chose qui est déjà décrite sur le web
avec un IRI, il faut lier les IRIs.
Un IRI pointe sur un document qui doit également être lisible pour
les humains et les machines. Un IRI affiche
• une page HTML pour un être humain,
• un document RDF pour une machine.
24
RDF (Resource Description Framework)
Triplets
Modèle de graphe destiné à décrire de façon formelle les
ressources Web et leurs métadonnées, de façon à permettre
le traitement automatique (par des machines) de telles
descriptions.
Un document structuré en RDF est constitué d'un
ensemble de triplets.
Objet
Valeur
Ou
Objet
Prédicat/Propriété
https://en.wikipedia.org/wiki/Voyager_1
https://www.wikidata.org/wiki/Property:P18 (Image)
https://commons.wikimedia.org/wiki/File:Voyager.jpg
25
Les structures de
représentation des faits
avec des ontologies
A travers RDF :
Les données peuvent prendre
n’importe quelle structure. On
parle aussi d’ontologie.
Plusieurs structures/ontologies
peuvent exister simultanément
dans la même BDD
26
OntologieUn peu d’histoire
L’ontologie est une branche de la philosophie
concernant l'étude de l'être, de ses modalités
et de ses propriétés. (Remonte à Platon)
Comment décrire une entité ?
Qu’est ce qui est semblable ?
Qu’est ce qui est différent ?
Peut on classifier ce qui est différent ?
27
OntologieUn peu d’histoire
Le concept d’ontologie rentre dans les
entreprises comme le résultat de ce
questionnement dés lors que des questions
d'organisations de connaissances se posent.
Exemple : j’ai terminé de faire l’ontologie de votre
domaine.
On peut le traduire par :
j’ai effectué un processus intellectuel afin de pouvoir
rendre explicite les connaissances de votre domaine en
utilisant un modèle de représentation.
28
OntologieDéfinition pour le W3C
Une ontologie est un modèle formel qui permet de
représenter les connaissances d'un domaine spécifique.
Une ontologie décrit
• les types de choses qui existent (classes),
• les relations entre eux (propriétés ou attributs) et
• les raisonnements logiques qui portent sur ces types et ces
propriétés (axiomes).
Exemple : si A est ami de B donc B est aussi ami de A.
Attention pour un chercheur : l’ontologie contient également les faits…
c’est-à-dire toutes les données. C’est une source de confusion…
http://www.w3.org/TR/ld-glossary/#ontology
29
OntologiesSimple ou complexe ?
Plus les connaissances dans un domaine
seront complexes plus l’ontologie sera
complexe.
W3C propose 2 boîtes à outils pour décrire
son ontologie :
– RDFS opérationnel ds les BDD
– OWL Lite, DL, Full, OWL 2… expérimentales
W3C propose plusieurs syntaxes :
XML et Turtle
30
OntologiesConceptions ?
Connaissances
Services
Développeurs
Web
Ontologistes
Archives
Développeurs
Web
31
Ontologies
…le chaos ?
Le plus grand avantage de RDF est de pouvoir
supporter toutes les structures simultanément
facilite l’archivage et les migrations
On pensait que c’était en même temps son
plus gros problème infinité de structures
= temps de développement infini
32
SPARQL
prononcer « sparkle »
SPARQL deviendra au Web ce que le SQL est à une base de données.
SELECT ?image
WHERE {
<http://www.wikidata.org/entity/Q48469>
<http://www.wikidata.org/prop/direct/P18>
?image .
}
image
<http://commons.wikimedia.org/wiki/Special:FilePath/Voyager.jpg>
<http://commons.wikimedia.org/wiki/Special:FilePath/Voyager%20probe.jpg>
5. Le Web des données
est était utopique
34
Il était une fois…
Le LOD (Linked Open Data)
Le GGG (Geant Global Graph)
Et si le Web devenait une base de données ?
http://lod-cloud.net/versions/2007-11-10/lod-cloud.png
35
SPARQL, l’étincelle du LOD
(Linked Open Data)
Première recommandation du W3C en
2008 mais des BDD seulement en lecture
« sparkle », en anglais « étincelle »…
36
DBPedia, Yago, etc…
Extraction automatique des pages de
Wikipédia.
En 2008, seulement des démos… mais surtout
des IRI uniques.
37
2009, les sciences
s’emparent du LOD
Dbpedia permet d’offrir des identifiants
uniques de manière transversale aux
différents domaines scientifiques.
http://lod-cloud.net/versions/2009-03-05/lod-cloud_colored.png
38
2010, L’Open Data
bascule dans le LOD
L’Open Data au UK bascule à son tour. On commence à
parler de Web Science.
En France, le buzzword de l’Open Data commence mais
la question du format des données est clairement
éludée.
http://lod-cloud.net/versions/2010-09-22/lod-cloud_colored.png
39
Exemple :
Data.gov.uk Education
40
HackathonStabilité des technos + des données
= développeurs
Les widgets et applications
pour mobile se multiplient.
Le SPARQL occulte
complétement le RDF pour les
consommateurs de données.
RDF devient un format
"Dump" de BDD.
Buzzword des Hackathons
dans le monde.
En France, on parle licences
de données…
41
2007 2008 2009
No
mb
re d
e p
oin
ts d
’accès i
nte
rop
éra
ble
s
Augmentation exponentielle
des silos accessibles à travers
le protocole SPARQL
2010
Augmentation
exponentielle
SPARQL 1.0 W3C Recommendation 15 January 2008
SPARQL 1.1
W3C Working Draft
26 January 2010
http://lod-cloud.net/versions/2014-08-30/lod-cloud_colored.png
2014, 570 Endpoints SPARQL déclarés dans le
Linked Open Data mais la QoS est encore faible
Le Web sémantique
est-il encore utopique ?
6.
25/05/2015
Alors une infinité de structures ?
45
Ontologies
dynamiques et partagées
Demo 1/3 : Wikipedia affichera les données de Wikidata
Demo 2/3 : Wikidata agrègera
toutes les données structurées disponibles
Demo 3/3 : Wikidata remet déjà à disposition
les données dans le Linked Open Data
49
Conclusion en 2015
Le Web des données fonctionne avec un volume de données
stables
– QoS des technologies/données s’améliorent mais elles sont encore
insuffisantes pour pouvoir utiliser toutes les données du Web sans
intermédiaires
– Les ontologies doivent converger pour permettre la réutilisation des
données
Une question de temps pour que les ontologies convergent…
Et c’est déjà en cours.
Et ensuite, le Web sémantique ?
– Les chercheurs en IA commencent à utiliser le Linked Data pour pouvoir
accéder aux données du Web... La Data Science
Web 3.0 Hosting & Factory
Karima Rafes, BorderCloud
Services de BorderCloud
TP OnLine
11/09/2015
Service pour donner
des formations interactivesCatalogue sur http://bordercloud.com
TPO sur http://tpo.bordercloud.com
Auto-complétion de Wikidata, prefixes, etc.
11/09/2015
11/09/2015
Service pour partager vos découvertes
Demo http://tpo.bordercloud.com/K.php?i=1abdb0c0e9df986a715e76bb5ea0977f
LinkedWiki PlateformeUn logiciel pour la découverte
des données privées ou ouvertes
au sein d’une structure.
http://io.datascience-paris-saclay.fr/
11/09/2015
LinkedWiki PlateformeUn logiciel pour exposer vos données.
https://io.datascience-paris-saclay.fr/query/Population_in_Europe_after_1960
LinkedWiki PlateformeUn logiciel pour réutiliser vos données.
https://io.datascience-paris-saclay.fr/query/Population_in_Europe_after_1960
LinkedWiki extension pour afficher vos données dans votre Wiki
11/09/2015