Les catalogues au défi du Web : sensibilisation à FRBR...

Preview:

Citation preview

Les catalogues au défi du Web :

sensibilisation à FRBR, RDA , Web

sémantique et Web de données

Bibliest

12 février 2013 : Dijon

13 février : Besançon Thierry Clavel

Version adaptée des supports développés

par le groupe technique AFNOR « RDA en France »

Programme

1. Les enjeux

Evolution des pratiques des utilisateurs

Enjeux liés au Web

2. Participer au Web de données

Architecture du Web

Web sémantique

3. Modèles FRBR et FRAD

Notion de modèle conceptuel

FRBR : entités, attributs et relations

FRAD : notions sur le modèle

4. Présentation de RDA

Objectifs et Organisation générale

Cataloguer avec RDA

Scénarios d'implémentation

Limites de RDA

Autour de RDA

RDA en France

I. - Les enjeux

ou

Pourquoi vouloir tout changer

quand tout allait si bien ?...

Les catalogues de bibliothèques, monde

merveilleux ?

On a déjà des normes de catalogage (ISBD, AFNOR…)

des formats MARC pour saisir et récupérer des

notices…

Des SIGB qui fonctionnent…

Des OPAC et des catalogues

collectifs accessibles sur le Web…

Alors, pourquoi vouloir changer ?

Mais d’abord, est ce que nos

catalogues conviennent aux

usagers?

1 – changer pour l’usager

1 - changer pour L’usager

L’usager est avant tout un internaute :

Il veut tout et tout de suite

Il veut des contenus précis (un article, une chanson, etc.)

Il recherche en priorité sur le Web (et pas spécialement dans des

catalogues)

Il consulte les catalogues en recherche simple à la « google »

Il faut donc :

Faire évoluer nos catalogues pour les adapter à l’usager

Ils ramènent trop de réponses (bruit) sans les classer

Il faut structurer les résultats de recherche pour afficher des

réponses pertinentes

Aller vers l’usager

Pousser les contenus et les données des bibliothèques vers les

usagers/internautes donc sur le Web

Exemple extrait de Data.bnf

Autre exemple

catalogue collectif ciné-ressources

http://www.cineressources.net/recherche_t.php

« Super » Notice

d'autorité

« nom de personne »

C'est pas merveilleux,

Cette page de résultats ?!

Pourquoi Les catalogues de bibliothèques ne sont

ils pas visibles sur le Web ?

Le Web ne parle pas MARC

Le Web a ses propres normes

Et surtout …

2 – changer pour être sur le

Web

http://www.flickr.com/photos/markhillary/377

4707075/

http://www.flickr.com/photos/7590540

4@N00/5088208539/

Les catalogues sont dans

le Web profond

Les catalogues de bibliothèques sont

dans des bases de données (silos) qui ne

sont pas indexées par les moteurs de

recherche

2 - Changer pour être sur le Web

Pourquoi adopter les standards du Web sémantique ?

pour sortir du Web profond et de notre « niche » technologique

des formats MARC

pour évoluer avec le Web

pour que la maintenance

de nos catalogues coûte moins cher

3 - Changer pour rationaliser et enrichir le travail

de catalogage

Récupérer des données produites ailleurs

Par exemple les biographies de Wikipedia

pour les auteurs

Ne pas avoir à répéter les mêmes informations

Réutiliser les données du catalogue

Par exemple : l’indexation matière

Indexation matière

dans le SUDOC :

Une indexation-matière

recréée pour chaque notice

4- Changer pour que nos données soient

réutilisées

créer des « Données liées ouvertes »

Eclater nos notices en données réutilisables

pour que n’importe qui puisse réutiliser

n’importe lesquelles de nos données

de n’importe quelle manière

Quels outils pour le changement ?

Un code de catalogage

Des modèles conceptuels pour

Structurer l’information

bibliographique

Des Technologies et

normes garantissant

l’Interopérabilité du Web

de données

Un espace global d’information, ouvert, qui

permet de lier, exploiter, mettre à disposition,

réutiliser les données sur le Web

Web de données

II. Participer

au Web de données

… en utilisant les technologies du Web

sémantique

Architecture du Web

World Wide Web : toile d’araignée de serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)

Architecture du Web : infrastructure technologique définie par des standards

Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium)

Accessibilité aux contenus et aux machines

Comment fonctionne le Web ?

Un espace global

d’information :

réseau de

machines reliées

entre elles

Un protocole qui

permet le dialogue

entre machines :

Un langage

universel

http

Le principe de

l’hypertexte

pour relier les

ressources

Des identifiants Web, les URI

(Uniform resource identifier)

Les URL sont des URI qui

identifient les ressources et les

localisent sur Internet

URI

Évolutions du web

Web 1.0 web de documents

Navigation d’un document à un autre en utilisant des

liens hypertexte

une page HTML = la représentation d’un document

Le navigateur n’interprète pas le contenu du

document

Web 2.0 web collaboratif

Le Web de documents

Base de

données

Données Documents

Base de

données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

Limites du Web de documents

Les données structurées des BDD sont

soit cachées (« web profond »)

Soit présentes mais non interprétables par

des machines

Seules les pages HTML sont liées entre elles

Les données de différentes BDD ne sont pas

liées entre elles

« Il faut sortir les données des Bases de

données pour les mettre dans l’espace

global du Web » Tim Berners-Lee

Métadonnées et données structurées

Méta-données : Données « sur » d’autres données

Par exemple une notice en Unimarc : un ensemble de

métadonnées

Les métadonnées sont des données structurées

(interprétables par des machines)

Par exemple une notice en Unimarc est un ensemble

de données structurées

Métadonnées Définition : informations structurées qui

décrivent, expliquent, localisent, facilitent la gestion

d’une ressource d’information

Le Web de données ?

Un Web constitué de données accessibles, structurées,

dans un format non-propriétaire, identifiées et liées entre

elles sémantiquement

(Définition de Tim Berners-Lee dès 1999)

Web sémantique

Ensemble de standards et de technologies visant à faire entrer les

données structurées dans l’environnement du Web en adoptant les

principes, l’architecture et les techniques qui ont permis la

construction de cet espace d’interopérabilité globale qu’est la toile

aujourd’hui (E Bermès et G Poupeau, 2012)

Web de données

extension du Web, construite selon les technologies du Web

sémantique, permettant de relier non pas des documents (pages

HTML) mais les données elles-mêmes et de les rendre interprétables

par les machines

Le Web de données liées

Base de

données

Données Documents

Base de

données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

Liens entre les

bases de

données

BNF

SUDOC

Ce qu’on veut

Technologies du Web sémantique

des

identifiants

URI

Une grammaire

RDF

Des Vocabulaires

(ontologies)

Exprimés en

RDFS ou OWL

Un langage de

requête dédié

pour

communiquer

SPARQL Des

systèmes

d’écriture

RDF/XML

N3, Turtle, N-

triples

RDFa

RDF

Resource Description Framework

Objectif : assurer

l’interopérabilité des

données sur le Web

Objectif : permettre

aux machines

d’interpréter la nature

des relations entre

deux ressources du

Web

Triplet RDF

En RDF, toute information

doit être exprimée sous la

forme d’une phrase simple

:

sujet – prédicat – objet

Qu’on appelle triplet

prédicat sujet objet

Ressource

(entité)

URI

Ressource

Nature de la

relation

URI

Littéral :

Chiffre, date,

mot …

Ressource

(entité)

URI

Charles Darwin A écrit On the origins of

species

RDF

Resource Description Framework

prédicat sujet objet

Appartient

à une

classe

Est un type de

relation appelé

propriété

Classes et propriétés sont

déclarées dans des vocabulaires

(ontologies) et sont identifiées par

des URI

Charles Darwin A écrit On the origins of species

Charles Darwin est une instance de la classe

« personne »

L’objet « On the origins of species » peut être un

littéral ou une entité, instance de la classe

« œuvres » identifiée par son URI

prédicat

sujet objet

Charles Darwin Est né à

Une même ressource peut être

sujet, prédicat ou objet dans

plusieurs triplets. L’ensemble de

ces triplets reliés les uns aux

autres par les URI qu’ils ont en

commun constitue un graphe

Le graphe RDF

Shrewsbury

Fait partie de

Angleterre

Le grand voyage de C.

Darwin (film)

Hannes Schuler

A pour sujet

A

réalisé

Le Web de données aujourd’hui (linking open

data cloud)

Espace global et ouvert d’information, sans cesse grossissant, dans

lequel les bases et données sont liées entre elles en RDF

Principe:

Utilisation d’URI

accessibles via HTTP

Donner accès aux

données utiles via RDF et

Sparql

Construction du Web de données

Partage d’un référentiel

commun

Modèle « hub and spoke »

SUDO

C BnF

LC

Modèles d’interopérabilité du Web de données

Modèle « follow your nose”

Interopérabilité basée sur les

liens

Quand les géants du Web utilisent les

technologies du Web de données …

Open graph protocol

knowledge graph

Google : knowledge graph

Facebook : Open graph protocol

Open graph protocol

Que peut apporter le Web de données

aux bibliothèques?

Interopérabilité :

Le Web devient

une gigantesque

base de données

liées et ouvertes

Ouverture à

d’autres

communautés

d’utilisateurs

Réutiliser les

données des autres :

enrichir les

catalogues, pousser

des contenus

Visibilité par les

moteurs de

recherche

Mettre nos données

à disposition des

autres

Comment y arriver ?

Des données structurées Des vocabulaires normalisés

Des identifiants pérennes : URI

pour désigner les ressources

pour exprimer les relations

entre les données

Une syntaxe normalisée :

RDF

Des données structurées

000 cam 22 3 450

001FRBNF42226398000000X

003http://catalogue.bnf.fr/ark:/12148/cb42226398b

010 $a978-2-603-01444-8$brel.

100 $a20100624d2005 m y0frey50 ba

1011 $afre

102 $aFR

105 $a||||z 00|||

106 $ar

2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de

500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves

210 $aParis$cDelachaux et Niestlé$dDL 2005

215 $a1 vol. (311 p.)$cill.$d20 cm

2252 $aˆLes ‰guides du naturaliste

300 $aBibliogr. p. 301-303

410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005

454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe

606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques

et mémentos$2rameau

676 $a595.781 39$v22

700 1$312013664$aCarter$bDavid$f1943-....$4070

702 1$312367696$aHargreaves$bBrian$4440

801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc http://catalogue.bnf.fr/ark:/12148/cb12367696d

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

Des URI pour désigner les ressources

http://catalogue.bnf.fr/ark:/12148/cb42226398b

Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves

. - Paris : Delachaux et Niestlé, DL 2005

Carter, David (1943-....)

http://catalogue.bnf.fr/ark:/12148/cb120136648

http://catalogue.bnf.fr/ark:/12148/cb34235813n

Les Guides du naturaliste

Hargreaves, Brian

http://catalogue.bnf.fr/ark:/12148/cb12367696d

Des vocabulaires normalisés

Pour exprimer les relations entre les données

2001 $aGuide des chenilles d'Europe

700 1$312013664$aCarter$bDavid$f1943-.... $4070

200 $a Titre propre

700 $4070 Auteur du texte DC : Creator RDA : Creator

DC : Title ISBD : Title proper RDA : Title proper

RDA : Author

Des URI pour exprimer les relations (1)

Des URI pour exprimer les relations (2)

ISBD : has title proper

DC : Creator

DC : Title

RDA : Author http://rdvocab.info/roles/author

http://purl.org/dc/elements/1.1/title

http://purl.org/dc/elements/1.1/creator

http://iflastandards.info/ns/isbd/elements/P1004

RDA : Title proper http://rdvocab.info/Elements/titleProper

Une syntaxe normalisée

Cette ressource

"Guide des chenilles d'Europe"

a pour titre propre

sujet

verbe

complément d’objet

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://iflastandards.info/ns/isbd/elements/P1004

prédicat

objet

sujet

Le sujet est

toujours une URI

Le prédicat est

toujours une URI

L’objet peut être

un texte (« littéral »)

ou une URI

200 $aGuide des chenilles d'Europe

Sujet

Prédicat

objet

Des exemples

Isidore : http://www.rechercheisidore.fr

Plateforme de recherche permettant l’accès

aux données numériques en sciences

humaines et sociales

Données en accès libre (open access)

Moissonnage ciblé des métadonnées

Conversion et enrichissement des

métadonnées en RDF

Des exemples

Data.bnf.fr : http://data.bnf.fr

Application en RDF

200 000 Pages auteurs et oeuvres

« mash up » de différents contenus BnF et

extérieurs

Recommended