Upload
juliencojan
View
1.072
Download
0
Embed Size (px)
DESCRIPTION
DBpédia en français est un projet d'extraction de données de Wikipédia en français. Les données sont publiées au format RDF sur le Web de données (Linked Data) afin d'être librement réutilisées par des applications. Présentation pour la journée de lancement de Sémanticpédia, le 19 Novembre 2012.
Citation preview
Julien CojanInria – équipe Wimmics
● Extraction de données depuis Wikipédia en français
● Membre du comité d'internationalisation(12 chapitres)http://dbpedia.org/Internationalization
Données
Données extraites de Wikipédia
Données extraites de Wikipédia
Musée du Louvre
villepays
Catégorie:Musée_égyptologique
catégorie
10/08/1793Date
ouverture
99, rue de Rivoli75001 Paris
adresse
48.861073 2.335784
latitudelongitude
France
Paris
InfoboxMusée
modèle
Données extraites de Wikipédia
Musée du Louvre
villepays
pays
Catégorie:Musée_égyptologique
catégorie
75056
code insee
Île-de-France
région
10/08/1793Date
ouverture
99, rue de Rivoli75001 Paris
adresse
48.861073 2.335784
latitudelongitude
France
Paris
InfoboxMusée
modèle
Données extraites de Wikipédia
Musée du Louvre
villepays
pays
Catégorie:Musée_égyptologique
catégorie
75056
code insee
Île-de-France
région
10/08/1793Date
ouverture
99, rue de Rivoli75001 Paris
adresse
48.861073 2.335784
latitudelongitude
France
pays
Paris
InfoboxMusée
modèle
Nommage des ressources
Sujet des articles de DBpedia : http://fr.dbpedia.org/resource/[Nom_Page]
Propriétés extraites textuellement :http://fr.dbpedia.org/property/[propriété]
Musée du Louvre
pays
dbFr:
dbFr-prop:
Représentation RDF
● RDF : Resource Description Formatstandard du W3C pour la représentation de données
structurées
● Triplet : arrête du graphe
Musée du Louvre ville Paris
dbpedia-fr:Musée_du_Louvre
(Sujet)
dbpediaFr-prop:ville dbpedia-fr:Paris
(predicat) (objet)
Mais aussi :
● Vocabulaire normalisé (Ontologie DBpedia)
● URI stables
Vocabulaire normalisé
Problèmes soulevés par l'extraction textuelle
● Mêmes termes, plusieurs sens
● Différents termes avec le même sens
Musée du Louvre pays France
RaymondPoulidor
pays France
Emmanuel Kant naissance22/04/1724
Le Corbusier date de naissance06/10/1887
Vocabulaire normalisé
Vocabulaire défini collaborativement sur http://mappings.dbpedia.org
Ontologie :● Hiérarchie de classes
http://dbpedia.org/ontology/Museum● Propriétés
http://dbpedia.org/ontology/city
Mappings :
dbo:
Musée duLouvre
InfoboxMusée
Paris
infobox
ville
Musée duLouvre
dbo :Museum
Paris
rdf:type
dbo:city
URI stables
● Lorsqu'une page est renommée« Le Louvre » « Palais du Louvre »
● Introduction d'URI ne indépendante du titrehttp://fr.dbpedia.org/resourceById/469958
dbFr :Le_Louvre dbFr :Palais_du_Louvre
dbFrId:
dbFrId :469958
dbFr :Le_Louvre
owl:sameAs
dbFrId :469958
dbFr :Palais_du_Louvre
owl:sameAs
Volume des données
En total 130 millions de triplets. (soit le second chapitre en taille).
fichier nbr de triplets
correspondance avecles pages wikipédia
7574361
id page wikipédia 2863425
titre des pages 2524787
extraction d'infoboxtextuelle
16579168
extraction d'infoboxnormalisée
2092711
types des instances 2118305
fichier nbr de triplets
liens interlangues 1876807
liens entre pages 60849851
redirections 1214339
homonymie 298634
liens vers catégories
3779203
categories 201230
liens externes 2140229
images 1649470
Interroger les données
Accès aux données
● Téléchargement de l'ensemble des données http://fr.dbpedia.org/download/(licence: CC – BY – SA)
● Par déréférencement
● SPARQLhttp://fr.dbpedia.org/sparql
SPARQL
http
Déréférencement
http://fr.dbpedia.org/resource/Musée_du_Louvre
SPARQL
● Langage de requête sur des données RDF
● Standard du W3C
● Accessible à http://fr.dbpedia.org/sparql
Exemple SPARQL 1
?m
ville
Paris
Musée
type
Musées à ParisSELECT DISTINCT ?m WHERE { ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city dbpedia-fr:Paris .}
Exemple SPARQL 2
?m
ville
Île-de-France
région
?ville
Musée
type
Musées dans une ville d'Île de FranceSELECT DISTINCT ?m?ville WHERE { ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city ?ville . ?ville dbpedia-owl:region dbpedia-fr:Île-de-France}
Exemple SPARQL 3
?m
ville
Catégorie:Musée_égyptologique
sujet
?ville
Musée
type
Dans quelles villes y a-t-il des musées égyptologiques ? Combien ?
select ?ville count(distinct ?m) as ?nb where { ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city ?ville . ?m dcterms:subject <http://fr.dbpedia.org/resource/Catégorie:Musée_égyptologique>} group by ?ville order by desc(?nb)
À venir
● Outils ● Lookup en français
Recherche de termes par mot clés● Spotlight en français
Reconnaissance d'entités nommées dans un texte
● Historisation des données
Merci
Musées, DBpedia en
Musées, DBpedia fr