25
Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009) DBpedia Un hub de liens dans le web des données Christian Becker Freie Universität Berlin Paris. Mars 31, 2009

DBpedia - Un hub de liens dans le web des données

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

DBpedia

Un hub de liens dans le web des données

Christian Becker

Freie Universität Berlin

Paris. Mars 31, 2009

Page 2: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Bonjour

Nom Christian Becker

Profession Associé chez MES (conseil en streaming media)

Doctorant à la Freie Universität Berlin

Projets du web sémantique DBpedia et DBpedia Mobile

Marbles Browser

flickr™ wrappr

Préparation des liens entre BBC et DBpedia

D2RQ et D2R Server

Page 3: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Aperçu

1. Le projet DBpedia

2. Linked Data: DBpedia et le Web des données

3. Quelle suite pour DBpedia?

Page 4: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

DBpedia

DBpedia.org est un effort de communauté pour extraire des informations structurées à partir de Wikipedia

publier ces informations dans le Web sous une license ouverte

lier le dataset DBpedia avec d’autres datasets du Web

Coopérateurs Freie Universität Berlin (Allemagne)

Universität Leipzig (Allemagne)

OpenLink Software (Royaume-Uni)

Linking Open Data Community (W3C SWEO)

Page 5: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

L’extraction des données structurées de Wikipedia

Wikipedia est composé de 12 millions d’articles (2,77 millions en anglais)

en 253 languages

taux de croissance par mois: 4%

Les articles de Wikipedia contiennent des informations structurées Infoboxes qui utilise un mécanisme de gabarit

Catégorisation de l’article

Des images qui présentant le sujet de l’article

Des liens vers des pages web externes

Des liens intra-wiki vers des autres articles

Des liens inter-languages vers des articles concernant le même sujet dans des languages différents

Page 6: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

L’extraction des données infobox

<http://dbpedia.org/resource/Calgary>

dbpedia:native_name “Calgary” ;

dbpedia:altitude “1048” ;

dbpedia:population_city “988193” ;

dbpedia:population_metro “1079310” ;

mayor_name

dbpedia:Dave_Bronconnier ;

governing_body

dbpedia:Calgary_City_Council ;

...

En utilisant un moteur d’extraction PHP

http://en.wikipedia.org/wiki/Calgary

Page 7: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

La collecte des données DBpedia

Des identifiants à l’échelle du Web pour 2.6 millions de “choses” dont au moins 213,000 personnes 328,000 endroits 57,000 albums de musique 36,000 films

En somme 274 millions d’éléments d’information (triplets RDF) 29 millions de triplets d’après des données d’infobox 609,000 liens vers des images 3,150,000 liens vers des pages web externes pertinentes

Catégorisations L’ontologie DBpedia avec 170 classes et 940 propriétés, basée sur des

classes plus riches 415,000 catégories Wikipedia 75,000 catégories YAGO

Page 8: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Accéder aux données de DBpedia

1. Point d’accès SPARQL

2. Interface Linked Data (cf: suite)

3. Des dumps RDF à télécharger

4. Datasets publiques d’Amazonhttp://aws.amazon.com/publicdatasets/

Page 9: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Le point d’accès SPARQL

SPARQL = SQL pour le Web sémantique

Peut répondre aux requêtes SPARQL telles que: Donne-moi tous les sitcoms basés à New York City

Donne-moi tous les joueurs de tennis de Moscou

Donne-moi tous les films de Quentin Tarentino

Donne-moi tous musiciens Allemands nés à Berlin au 19àme siècle

Donne-moi tous les joueurs de football avec le maillot numéro 11, qui joue dans un club ayant un stade contenant plus de 40,000 places et qui est nédans un pays de plus de 10 millions d’habitants

Adresse: http://dbpedia.org/sparql

Page 10: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

2. Linked Data: DBpedia et le Web des données

Page 11: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Le Web des documents

Le Web est un espace d’information global fondé sur des standards ouverts et des liens hypertextes

Web browsers

Moteursde recherche

A B C D

HTML HTML HTML

Liens hypertext

es

HTML

Liens hypertext

es

Liens hypertext

es

Page 12: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Linked Data

B C

Chose

lien entre

données

A D E

Chose

Chose

Chose

Chose

Chose Chose

Chose

Chose

Chose

Utiliser RDF et HTTP pour1. publier des données structurées sur le Web,2. créer des liens entre données d’une donnée source

et de données provenant d’autres sources.

lien entre

données

lien entre

données

Lien entre

données

Page 13: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Qu’est-ce que je peut faire avec ça?

Moteurs deRecherche

Browsers deLinked Data

B C

Chose

lien entre

données

A D E

Chose

Chose

Chose

Chose

Chose Chose

Chose

Chose

Chose

lien entre

données

lien entre

données

Lien entre

données

Mashups avec Linked Data

Page 14: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Page 15: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Tabulator

Page 16: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

DBpedia Mobile

Point d’entrée géospatial dans le Web des données

Page 17: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Falcons

Page 18: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

DBtune Slashfacet

visualiser Linked Data (lié à la musique) Utiliser last.fm, MySpace et données de BBC

Page 19: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

W3C Linking Open Data Project

Effort communauté pour publier des datasets de données déjà existentes comme Linked

Data sur le Web

Relier entre elles des informations provenant de sources de données différentes

Page 20: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Datasets LOD: Mai 2007

Plus de 500 millions de triplets RDF

Page 21: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Datasets LOD: Avril 2008

Plus de 2 milliards de triplets RDF

Page 22: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Datasets LOD: Mars 2009

4,5 milliards de triplets

180 millions de liens entre données

Page 23: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Datasets LOD: Mars 2009

Science de la vie

Publications

Activités en ligneMusique

Géographie

Interdomaine

4,5 milliards de triplets

180 millions de liens entre données

Page 24: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

3. Quelle suite pour DBpedia?

Mise à jour en temps réel En phase de test

De meilleures interfaces Recherche plein texte, navigation en mode facette

Page 25: DBpedia - Un hub de liens dans le web des données

Christian Becker: DBpedia - un hub de liens dans le web des données (31/03/2009)

Merci!Références

DBpedia http://dbpedia.org/About

W3C Linking Open Data Project http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

LinkedData.Org

Tim Berners-Lee’s TED Talkhttp://www.ted.com/index.php/talks/tim_berners_lee_on_the_next_web.html

Tutorial: How to Publish Linked Data on the Webhttp://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/