38
Vers le web de données toriel #30’ #jabes2012

Jabes2012 : tutoriel web de données

Embed Size (px)

DESCRIPTION

Tutoriel de 30' à l'aube, le second jour des journées ABES 2012. Je vous rassure : la laideur de la page de titre est intentionnelle, à vocation pédagogique (trop long à vous expliquer).

Citation preview

Page 1: Jabes2012 : tutoriel web de données

Vers le web de données

#tutoriel #30’ #jabes2012

Page 2: Jabes2012 : tutoriel web de données

Le web de données,c’est pas quoi ?

Base Web

Documents GED Le Web =Web de documents

Données Base de données Web de données

Page 3: Jabes2012 : tutoriel web de données

Le Web, web de documents

Base de données

Données Documents

Base de données

Hyperlien

Page 4: Jabes2012 : tutoriel web de données

http://fyeah-icebergs.tumblr.com/post/1063474140

Page 5: Jabes2012 : tutoriel web de données

Un archipel d’icebergs

• Les données sont cachées sous les pages HTML (deep web)

• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des

données• et des données liées

– car elles se complètent les unes les autres– car les liens permettent de naviguer et de découvrir

• Et des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens

Page 6: Jabes2012 : tutoriel web de données

Le web de données liées

Base de données

Données Documents

Base de données

HyperlienLiens entre les bases de données

Page 7: Jabes2012 : tutoriel web de données

Le web de données liées

Base de données

Données Documents

Base de données

HyperlienLiens entre les bases de données

Page 8: Jabes2012 : tutoriel web de données

Une base de données

DOCUMENTS

id auteur titredoi :10.3406/mefr.1959.7458 auteur_mefr_1904 Retractatio

AUTEURSid nomauteur_mefr_1904 Paul Veyne

Persée

Lien interne à la base

Page 9: Jabes2012 : tutoriel web de données

Une autre base de données

LIVRES

id z7XX titrepropre editeur068391307 027182800 Le Pain et le cirque Le Seuil

PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0

Sudoc + IdRef

Lien interne à la base

Page 10: Jabes2012 : tutoriel web de données

DOCUMENTSid auteur titredoi :10.3406/mefr.1959.7458

auteur_mefr_1904 Retractatio

AUTEURSid nomauteur_mefr_1904 Paul Veyne

LIVRESid z7XX titrepropre editeur068391307 027182800 Le Pain et le

cirqueLe Seuil

PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0

#1 Comment lierla donnée d’une baseà la donnée de l’autre base ?

#2 Comment lier deux bases qui n’ont pas le même schéma

#3 Comment qualifierla nature de ce lien ?

#4 Comment faire tout ça sur le Web, en surface ?

est la même entité que

Page 11: Jabes2012 : tutoriel web de données

COMMENT ARRIVER À ÇA ?

Page 12: Jabes2012 : tutoriel web de données

Le nuage du web de données liées

Page 13: Jabes2012 : tutoriel web de données

Le nuage du web de données liées

Page 14: Jabes2012 : tutoriel web de données

Les données ABES sur le web de données, avec IdRef pour pivot

Page 15: Jabes2012 : tutoriel web de données

UN MODÈLE GÉNÉRAL POUR DÉCRIRE … N’IMPORTE QUOI

RDF

Page 16: Jabes2012 : tutoriel web de données

doi:10.3406/mefr.1959.7458

auteur_mefr_1904

« Retractatio »

a pour auteur

a pour titre

En RDF,• une ressource (qch) est en relation avec

• soit une autre ressource

• soit un mot

« Paul Veyne »

a pour nomRDF = Graphes

qcha telle relation avec

qch

qcha telle relation avec

« mot »

Page 17: Jabes2012 : tutoriel web de données

doi:10.3406/mefr.1959.7458

auteur_mefr_1904

« Retractatio »

dcterms:creator

dc:title

Les relations (prédicats) ont un nom précis.Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title

rda:title | abes:title | isbd:title

« Paul Veyne »

foaf:nameNommer les relations

Page 18: Jabes2012 : tutoriel web de données

Les entités (ressources) ont un nom précis.Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458

ex : http://www.sudoc.fr/092673007/id

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:nameNommer les ressources

Page 19: Jabes2012 : tutoriel web de données

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.

< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne »

« Paul Veyne »

foaf:name

Ecrire ce graphe

Des graphes aux triplets

Triplets RDF

Page 20: Jabes2012 : tutoriel web de données

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject skos:prefLabel

Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name2 bases séparées

Page 21: Jabes2012 : tutoriel web de données

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »dcterm

s:creator

dc:title

« Paul Veyne »

foaf:name

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »

truc:subjectskos:prefLabel

L’agrégation des données est immédiateDeux sites en RDF peuvent parler de la même chose.Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)

On agrège les 2 bases

Page 22: Jabes2012 : tutoriel web de données

Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !) Problème pour les agréger

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject skos:prefLabel

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name2 bases séparées

Page 23: Jabes2012 : tutoriel web de données

Dire explicitement qu’il s’agit de la même entité avec owl:sameAs

http://dx.doi.org/doi:10.3406/mefr.1959.7458

owl:sameAs

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject skos:prefLabel

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name2 bases séparées

Page 24: Jabes2012 : tutoriel web de données

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject

skos:prefLabel

Grâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre

owl:sam

eAs

On agrège les 2 bases

owl:sameAs

owl:sameAs

truc:subjectdc:ti

tle

dcte

rms:c

reat

or

Page 25: Jabes2012 : tutoriel web de données

Paul Veyne dans le RDF de VIAFhttp://viaf.org/viaf/108250528/rdf.xml

Le Veyne de VIAF et le Veyne d’IdRef ne font qu’un

http://viaf.org/viaf/108250528

owl:s

ameA

s

http://www.idref.fr/027182800/id

Page 26: Jabes2012 : tutoriel web de données

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »

truc:subject skos:prefLabel

Le schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés et des classes)Ce qui permet de faire du raisonnement

On ajoute un peu de sémantique

truc:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF

Ontologies

Page 27: Jabes2012 : tutoriel web de données

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »

truc:subject skos:prefLabel

Le raisonnement permet d’ajouter des informations (triplets).En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisait un vocabulaire truc non standard

On en déduit que…

truc:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF

Ontologies

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

dcterms:subjectTriplets déduits

Page 28: Jabes2012 : tutoriel web de données

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Aujourd’hui

owl:sameAs

owl:sameAs

Page 29: Jabes2012 : tutoriel web de données

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Demain

owl:sameAs

Page 30: Jabes2012 : tutoriel web de données

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Après-demain peut-être ?

owl:sameAs

owl:sameAs

AuteurHAL CCSD

ArticleHAL CCSD

LivreWorldcat

cite

a pourdérivé

owl:sameAs

Donnéesbrutes

+ brevets, projets ANR, etc.

+ CrossRef, revues, indicateurs d’usage, etc.

+ articles, éditions scientifiques, numérisation, etc.

Page 31: Jabes2012 : tutoriel web de données

http://www.flickr.com/photos/danbri/6233467501/

Page 32: Jabes2012 : tutoriel web de données

http://www.circuitdomain.com/PCB%20Prototyping/PCB.htm

Page 33: Jabes2012 : tutoriel web de données

ABES, charte graphique (circa 2000)

Page 34: Jabes2012 : tutoriel web de données

Vertu

RDF offre un modèle universel qui permet d’exprimer toute donnée, quelle que soit la norme de description.

Cela rend bien plus facile l’agrégation de données diverses

Effet

Inutile de chercher le format miracle qui marchera pour le MARC du Sudoc et d’IdRef, le TEF de STAR, l’EAD de Calames, l’ONIX de tel éditeur, le A++ de Springer (Lic. Nat.), le Bloubiboulga de tel autre, etc.

#abes #hubdedonnées #istex

Page 35: Jabes2012 : tutoriel web de données

RDF rend les données extensibles.

La notice d’autorité n’a pas besoin de tout stocker sur une personne.

Il vaut mieux en dire le strict nécessaire et faire des liens vers d’autres sources (ex : dictionnaires biographiques … en RDF)

Idem pour les données bibliographiques (prix, recensions, influences, etc.)

#idref #ist #wikipedia #webofdata

Vertu Effet

Page 36: Jabes2012 : tutoriel web de données

RDF n’impose pas de schéma unique. On peut mixer les vocabulaires

Devons-nous utiliser RDA, Dublin Core ou un vocabulaire bibliographique à nous ?

On peut faire les trois.On peut aussi utiliser un

vocabulaire dont le schéma explicite ses relations avec un vocabulaire standard

(cf. truc:subject et dcterms:subject)

#ouverturedesdonnées #hubdedonnées #istex

Vertu Effet

Page 37: Jabes2012 : tutoriel web de données

RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence

Dans le projet SudocAD, on a essayé de déduire quelle est la bonne autorité à lier à une notice bibliographique

#hubdedonnées #sudocad #qualinca

Vertu Effet

Page 38: Jabes2012 : tutoriel web de données

En savoir plus

• Infos : http://punktokomo.abes.fr/tag/semantique-web/

• Outil : inspector.sindice.com

• Tutos : http://web-semantique.developpez.com/tutoriels/