49
Le web de données enssib :: 12 octobre 2012

web de données / bib

Embed Size (px)

DESCRIPTION

Intervention de 90' dans le cadre d'un stage enssib sur l'avenir des catalogues de bibliothèque

Citation preview

Le web de données

enssib :: 12 octobre 2012

Plan

• Partir de ce qu’on connaît :– Base de données + Web = web de données

• Vertus de RDF• Champs de bataille– Syntaxes– Vocabulaires– Workflows– Agrégateurs

Le web de données,c’est pas quoi ?

Base Web

Documents GED Le Web =Web de documents

Données Base de données Web de données

Le Web, web de documents

Base de données

Données Documents

Base de données

Hyperlien

http://fyeah-icebergs.tumblr.com/post/1063474140

Un archipel d’icebergs

• Les données sont cachées sous les pages HTML (deep web)

• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des

données• et des données liées

– car elles se complètent les unes les autres– car les liens permettent de naviguer et de découvrir

• Et des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens

Le web de données liées

Base de données

Données Documents

Base de données

HyperlienLiens entre les bases de données

Le web de données liées

Base de données

Données Documents

Base de données

HyperlienLiens entre les bases de données

Une base de données

DOCUMENTS

id auteur titredoi :10.3406/mefr.1959.7458 auteur_mefr_1904 Retractatio

AUTEURSid nomauteur_mefr_1904 Paul Veyne

Persée

Lien interne à la base

Une autre base de données

LIVRES

id z7XX titrepropre editeur068391307 027182800 Le Pain et le cirque Le Seuil

PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0

Sudoc + IdRef

Lien interne à la base

DOCUMENTSid auteur titredoi :10.3406/mefr.1959.7458

auteur_mefr_1904 Retractatio

AUTEURSid nomauteur_mefr_1904 Paul Veyne

LIVRESid z7XX titrepropre editeur068391307 027182800 Le Pain et le

cirqueLe Seuil

PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0

#1 Comment lierla donnée d’une baseà la donnée de l’autre base ?

#2 Comment lier deux bases qui n’ont pas le même schéma

#3 Comment qualifierla nature de ce lien ?

#4 Comment faire tout ça sur le Web, en surface ?

est la même entité que

COMMENT ARRIVER À ÇA ?

Le nuage du web de données liées

Le nuage du web de données liées

Les données ABES sur le web de données, avec IdRef pour pivot

UN MODÈLE GÉNÉRAL POUR DÉCRIRE … N’IMPORTE QUOI

RDF

doi:10.3406/mefr.1959.7458

auteur_mefr_1904

« Retractatio »

a pour auteur

a pour titre

En RDF,• une ressource (qch) est en relation avec

• soit une autre ressource

• soit un mot

« Paul Veyne »

a pour nomRDF = Graphes

qcha telle relation avec

qch

qcha telle relation avec

« mot »

doi:10.3406/mefr.1959.7458

auteur_mefr_1904

« Retractatio »

dcterms:creator

dc:title

Les relations (prédicats) ont un nom précis.Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title

rda:title | abes:title | isbd:title

« Paul Veyne »

foaf:nameNommer les relations

Les entités (ressources) ont un nom précis.Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458

ex : http://www.sudoc.fr/092673007/id

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:nameNommer les ressources

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.

< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne ».

« Paul Veyne »

foaf:name

Ecrire ce graphe

Des graphes aux triplets

Triplets RDF

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject skos:prefLabel

Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name2 bases séparées

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »dcterm

s:creator

dc:title

« Paul Veyne »

foaf:name

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »

truc:subjectskos:prefLabel

L’agrégation des données est immédiateDeux sites en RDF peuvent parler de la même chose.Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)

On agrège les 2 bases

Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !) Problème pour les agréger

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject skos:prefLabel

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name2 bases séparées

Dire explicitement qu’il s’agit de la même entité avec owl:sameAs

http://dx.doi.org/doi:10.3406/mefr.1959.7458

owl:sameAs

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject skos:prefLabel

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name2 bases séparées

http://dx.doi.org/doi:10.3406/

mefr.1959.7458

http://www.persee.fr/auteur_mefr_1904/id

« Retractatio »

dcterms:creator

dc:title

« Paul Veyne »

foaf:name

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »truc:subject

skos:prefLabel

Grâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre

owl:sam

eAs

On agrège les 2 bases

owl:sameAs

owl:sameAs

truc:subjectdc:ti

tle

dcte

rms:c

reat

or

Paul Veyne dans le RDF de VIAFhttp://viaf.org/viaf/108250528/rdf.xml

Le Veyne de VIAF et le Veyne d’IdRef ne font qu’un

http://viaf.org/viaf/108250528

owl:s

ameA

s

http://www.idref.fr/027182800/id

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »

rda:subject skos:prefLabel

Le schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés et des classes)Ce qui permet de faire du raisonnement

On ajoute un peu de sémantique

rda:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF

Ontologies

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

« Credit »

rda:subject skos:prefLabel

Le raisonnement permet d’ajouter des informations (triplets).En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisait un vocabulaire truc non standard

On en déduit que…

rda:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF

Ontologies

http://www.truc.co.nz/wyz123

http://id.loc.gov/authorities/subjects/sh85033856

dcterms:subjectTriplets déduits

Résout miraculeusement le dilemme

de l’interopérabilité (sic).

Babel des formats

ou

Format pivot réducteur ?

Ni l’un ni l’autre (en théorie)

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Aujourd’hui

owl:sameAs

owl:sameAs

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Demain

owl:sameAs

FondsCalames

Auteur IdRef

LivreSudoc

Thèsetheses.fr

AuteurVIAF

AuteurBnF

AuteurWikipedia

AuteurISNI

Après-demain peut-être ?

owl:sameAs

owl:sameAs

AuteurHAL CCSD

ArticleHAL CCSD

LivreWorldcat

cite

a pourdérivé

owl:sameAs

Donnéesbrutes

+ brevets, projets ANR, etc.

+ CrossRef, revues, indicateurs d’usage, etc.

+ articles, éditions scientifiques, numérisation, etc.

VERTUS

Vertu

RDF offre un modèle universel qui permet d’exprimer toute donnée, quelle que soit la norme de description.

Cela rend bien plus facile l’agrégation de données diverses

Effet

Inutile de chercher le format miracle qui marchera pour le MARC du Sudoc et d’IdRef, le TEF de STAR, l’EAD de Calames, l’ONIX de tel éditeur, le A++ de Springer (Lic. Nat.), le Bloubiboulga de tel autre, etc.

#abes #hubdedonnées

Les données RDF

coexistent

automatiquement

RDF n’impose pas de schéma unique. On peut mixer les vocabulaires

Devons-nous utiliser RDA, Dublin Core ou un vocabulaire bibliographique à nous ?

On peut faire les trois.On peut aussi utiliser un

vocabulaire dont le schéma explicite ses relations avec un vocabulaire standard

(cf. truc:subject et dcterms:subject)

#ouverturedesdonnées #hubdedonnées

Vertu Effet

RDF rend les données extensibles.

La notice d’autorité n’a pas besoin de tout stocker sur une personne.

Il vaut mieux en dire le strict nécessaire et faire des liens vers d’autres sources (ex : dictionnaires biographiques … en RDF)

Idem pour les données bibliographiques (prix, recensions, influences, etc.)

#idref #ist #wikipedia #webofdata

Vertu Effet

DOCUMENTSid auteur titredoi :10.3406/mefr.1959.7458

auteur_mefr_1904 Retractatio

AUTEURSid nomauteur_mefr_1904 Paul Veyne

LIVRESid z7XX titrepropre editeur068391307 027182800 Le Pain et le

cirqueLe Seuil

PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0

est la même entité que

id auteur typedoi :10.3406/mefr.1959.7458

auteur_mefr_1904 Document

id nom typeauteur_mefr_1904 Paul Veyne Personne

id type068391307 Livre

id nom027182800 Veyne, Paul (1930-….

id titre typedoi :10.3406/mefr.1959.7458

Retractatio Document

id z7XX068391307 027182800

id editeur068391307 Le Seuil

id titrepropre068391307 Le Pain et le

cirque

id sameAs

auteur_mefr_1904 027182800

Tel ID désigne la même entitéque tel autre ID

id S’applique à

z7XX Personne

La relation z7XX porte toujours sur des entités de type Personne.

Donc, on peut en conclure que 027182800 est de type Personne.

[Pas la peine de le dire, on le déduit (Raisonnement)]

2 2

2

1

1

1 1

1

11

On éclate nos bases !A la limite, 1 base = 1 triplet

068391307 titrepropre «Le Pain et le cirque»

RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence

Dans le projet SudocAD, on a essayé de déduire quelle est la bonne autorité à lier à une notice bibliographique.

#hubdedonnées #sudocad #qualinca

Vertu Effet

données

vs

connaissances

RDF a son propre langage d’interrogation des données : SPARQL

SPARQL permet d’interroger les données telles qu’on les a modélisées – et non l’inverse : modéliser de telle manière pour pouvoir interroger ceci ou cela

#marché #niche #ouvrezlesfenêtres

Vertu Effet

Les données<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur904/id>.< http://www.persee.fr/auteur904/id > foaf:name « Paul Veyne ».

La requêteSELECT ?truc {?truc dc:title « Retractatio ».?truc dcterms:creator ?bidule.? bidule foaf:name « Paul Veyne ».}

La réponse<http://dx.doi.org/doi:10.3406/mefr.1959.7458>

RDF, c’est pas réservé aux bibliothécaires

Les bibliothèques peuvent accéder à un marché générique :– Logiciels– Services– Ressources humaines– Formations– Consultants

#marché #niche #ouvrezlesfenêtres

Vertu Effet

CHAMPS DE BATAILLE

Quelle(s) syntaxe(s) RDF ?

Différentes syntaxes possibles• RDF en XML• RDF Ntriples• RDF N3• RDF Turtle• RDFa• Microdata

• Excel-RDF ;)

Ce qui compte• C’est le modèle (spo) et le

contenu (tel vocabulaire…)

• RDF dans la page web ou dans une autre page ?

• Ou dans les deux ?– Et alors, même contenu ou

variantes ?

#rdf #syntaxe #rdf #rdfa #microdata

Quel(s) vocabulaire(s) RDF ?Différentes manières de dire la même chose

• dc:title• rda:title

– rda:titleProper

• schema:name• og:title• Etc.

Questions ?• Utiliser un vocabulaire pro

spécialisé (RDA, FRBRoo) ou un vocabulaire « grand public (schema.org, Facebook Open Graph) ?

• Les deux (redondance, un peu, bcp…)

• En principe, un outil de raisonnement peut passer d’un vocabulaire à l’autre, mais dans les faits…

#rdf #vocabulaires

De fait, plusieurs

versions RDF du Sudoc

selon nos besoins

Quel(s) vocabulaire(s) RDF dans quelle syntaxe ? Un compromis possible

Côté cour

• Utiliser un vocabulaire grand public dans le RDF des pages HTML (RDFa)– Notamment pour les moteurs

de recherche comme Google ou Yahoo

Côté jardin

• Utiliser les vocabulaires pro dans des pages dédiées aux métadonnées (RDF/XML, NTriples…)

#rdf #vocabulaires

Workflows.Du RDF à tous les étages ?

RDF pas partout• Ouverture des données OK• Stockage des données ?• Manipulation des données ?• Edition des données par un

utilisateur professionnel ?

Questions• RDF juste pour l’extérieur ?• Technologies assez mures et

performantes pour stockage, manipulation et recherche à grande échelle ?

• L’utilisateur professionnel doit-il comprendre RDF ? Jusqu’où ?

#rdf #technologies #formation

Les grossistes du RDF

Acteurs• Moteurs de recherche généralistes

– Google (dont Freebase)– Yahoo

• Moteurs de recherche RDF généralistes– Sindice– FactForge

• Moteur de recherche RDF spécialisé– Isidore

• Hébergeur de données et de services– Kasabi– Sindice– Freebase– Et autre data marketplaces cf

• La publication des métadonnées RDF peut et doit être décentralisée (sources de référence)

• Mais il faut bien agréger pour – Recherche intégrée– Enrichissement

• Garder les données ouvertes– Quelles conditions juridiques ?– Métadonnées de provenance

• Gérer les doublons de triplets– Provenance, confiance…

#rdf #opendata #centralisation #web

En savoir plus

• Infos : http://punktokomo.abes.fr/tag/semantique-web/

• Outil : inspector.sindice.com

• Tutos : http://web-semantique.developpez.com/tutoriels/