1 Comprendre lévolution des catalogues et des règles de catalogage : enjeux, Web de données,...

Preview:

Citation preview

1

Comprendre l’évolution des catalogues et des règles de catalogage : enjeux, Web de

données, FRBR, RDAJournée d’information

Médiadix – 6 mars 2014

Marie-Line GUILLAUMEE (BIU Sorbonne) mguilla@bis-sorbonne.fr Marie-Thérèse NISHIOKA (BSG) marie-therese.nishioka@bsg.univ-paris3.fr

Support élaboré à partir des travaux du groupe national de formateurs RDA

2

ProgrammeI. Les enjeux

– Enjeux liés aux pratiques des utilisateurs– Enjeux liés au Web– Rappel historique

II. Participer au Web de données– Architecture du Web– Standards du Web de données : RDF, URI

III. Modèles FRBR et FRAD– Notion de modèle conceptuel– FRBR : entités, attributs et relations– FRAD : entités, attributs et relations

IV. Présentation de RDA– Objectifs et Organisation générale– Cataloguer avec RDA– Scénarios d'implémentation– Limites de RDA

V. Autour de RDAVI. RDA en France

3

I. Les enjeux

ou

Pourquoi vouloir tout changerquand tout allait si bien ?...

4

Tableau

• On avait notre ISBD…

• … nos normes AFNOR…

• … nos formats MARC…

• … notre SIGB…

• Où était le problème ?

5

Enjeux liés aux pratiques des utilisateurs

• Catalogues dans le « Web profond » il faut y aller exprès

• « Dis, Madame, comment on cherche dans ton catalogue ? »

• L’utilisateur : « Je veux tout, tout de suite, sans effort. »

Le catalogue SU : « Votre requête [charles darwin] ramène 614 réponses »  

6

Recherche dans le SU « charles darwin »

8

Le « syndrome Google »

• On n’a plus l’habitude de chercher par index

• Les recherches par mots dans nos catalogues– ramènent trop de réponses– classées de manière plus ou moins anarchique

• Nos catalogues doivent évoluer pour mieux cibler

9

Enjeux liés au confort des utilisateurs

• Adopter les standards du Web de données– pour sortir nos catalogues du « Web invisible »,

« Web profond »

• Adopter les standards du Web de données et créer des « Données liées ouvertes »– pour que n’importe qui puisse réutiliser n’importe

lesquelles de nos données

• Modifier la structure de l’information bibliographique– pour adapter nos catalogues aux besoins des

utilisateurs et à leurs nouvelles pratiques de recherche

– pour mieux structurer les résultats d’une recherche simple

10

Enjeux liés au confort des bibliothécaires

• Adopter les standards du Web de données– pour récupérer des données produites ailleurs

• Modifier la structure de l’information bibliographique– pour ne pas avoir à répéter indéfiniment les

mêmes informations quand une œuvre est souvent éditée

– pour harmoniser l’information fournie• exemple : l’indexation matière

11

à la BnF :…

12

… et dans le SUDOC :

A priori, le même contenu

13

En fait, une indexation-matière a été recréée pour chaque notice

14 14

Et si on harmonisait tout cela à un niveau supérieur ?

15

En bref• Répondre aux attentes des utilisateurs

d’aujourd’hui– permettre à des utilisateurs extérieurs de récupérer

les infos qui les intéressent, et seulement celles-là

• Aller vers une granularité plus fine de l’information bibliographique : des « notices » aux « données »– permettre à chacun de récupérer et d’exploiter

le niveau d’information qui l’intéresse

• Mettre les données à disposition des utilisateurs…… là où sont les utilisateurs

• Participer au Web de données

16

Zoom arrière : rappel historiqueLes standards actuels sont fondés sur des principes datant des années 60 (norme

Afnor Z 44-050…) : prédominance des catalogues sur fiches et de l’imprimé. Règles caduques aujourd’hui car elles ne permettent pas d’être visible sur le Web et ne prennent pas en compte les nouvelles pratiques des utilisateurs.• Dans les années 90-2000, de nouveaux modèles émergent : FRBR (Functional requirements for bibliographic records = Fonctionnalités requises des

notices bibliographiques) : 1990-1998 FRAD (Functional requirements for authority data) : 1999-2009 PIC (Principes internationaux de catalogage) : publiés en 2009

• De nouveaux codes de catalogage aussi : REICAT (règles de catalogage italiennes) : 2009 ISBD consolidé (fusion de tous les ISBD) : 2010 RDA (Resource description and access : code de catalogage) : juin 2010

• Les bibliothèques françaises vont devoir choisir entre : retenir l’ISBD consolidé comme règle de description (publié en 2011) adopter REICAT adopter RDA qui se veut un code international et est articulé sur les FRBR

17

18

En bref

• Il faut changer…– notre manière de structurer l’information

bibliographique : FRBR, FRAD– nos règles de catalogage : RDA ??– notre format de catalogage : [là,

c’est l’inconnu]• … pour aller sur le Web de données !

– [au fait, c’est quoi, le Web de données ?...]

19http://www.flickr.com/photos/40308183@N05/5553709149/

Journées ABES -- 18 mai2011

19Philippe Le Pape -- ABES

Aujourd’hui les catalogues de bibliothèques se trouvent dans le web invisible ou web profond

Les solutions pour sortir les catalogues de bibliothèques des oubliettes :

un modèle conceptuel : FRBR (Fonctionnalités requises des notices bibliographiques)

des nouvelles règles de catalogage : RDA (Resource Description and Access ) une syntaxe : RDF (Resource Description Framework ) et l’entrée des

catalogues dans le web de données

20

II. Participer au Web de données

… en utilisant les technologies du Web sémantique

21

Architecture du Web (1)• World Wide Web : toile d’araignée de

serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)

• Architecture du Web : infrastructure technologique définie par des standards

• Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium) : accessibilité pour les logiciels et machines et accessibilité universelle aux contenus

22

Architecture du Web (2)Repose sur 3 technologies :• Un protocole : HTTP (Hypertext Transfer

Protocol)• Un langage : HTML (Hypertext Markup

Language)– Standard défini par le W3C pour la diffusion de documents sur le Web pour

pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur

• Des identifiants Web : URI (Uniform Resource Identifier)– Une ressource : tout objet– Ressource identifiée de manière univoque par un URI : chaîne de

caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)

23

Les URI

• 2 déclinaisons :– URN (Uniform Resource Name)

• URI d’identification d’une ressource par son nom unique• Utilisé pour identifier une ressource sans s’occuper de son

emplacement ou de la manière de la référencer

Exemple : urn : isbn:978-2-10-057294-6= URI de référence à une publication

– URL (Uniform Resource Locator)• URI spécifiant l'adresse physique de localisation d'une

ressource sur Internet et la méthode permettant d'y accéder = URI donnant accès à la ressource

24

Évolutions du web• Web 1.0 Web de documents

– permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertextes

• une page = un document– format : HTML (HyperText Markup Language)

• ne permet que la mise en forme

• Web 2.0 Web collaboratif– évolution du Web du point de vue des technologies employées et

des usages– Internet n’est plus simplement un media mais une plate-forme de

services et d'applications en ligne– Permet aux internautes d'interagir sur le contenu des pages et de

dialoguer entre eux • Web 3.0 Web de données ou Web

sémantique : permet aux machines de trouver et d’exploiter les données contenues dans les documents : format RDF (Resource Description Framework) qui permet de décrire et de relier des ressources

25

La recette du Web

26

Le Web de documents

Base de données

Données Documents

Base de données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

27

Limites du Web de documents• HTML : langage textuel d’échange de

documents semi-structurés• Les données sont cachées sous les pages

HTML (« web profond »)• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines :

• des données structurées = utilisable directement par un ordinateur pour effectuer un calcul

– car elles se complètent les unes les autres– car les liens permettent de naviguer et de découvrir

• avec des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens

28

Le Web de données Un Web constitué de données accessibles, structurées, dans un format

non-propriétaire, identifiées et liées entre elles sémantiquement (Définition de Tim Berners-Lee dès 1999)

Extension du Web permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes, et de les rendre exploitables par des machines

Repose sur les mêmes technologies de base– HTTP : transfert des données– URI : nommage des ressources

Utilisation d’un autre langage : il ne s’agit plus d’échanger des documents destinés à être immédiatement visualisés, mais des données structurées : XML (eXtensible Markup Language) :– RDF = langage du Web de données liées

29

Le Web de données liées

Base de données

Données Documents

Base de données

Hyperlien

Yann Nicolas, Le Web de données, enssib, 11 octobre 2012

Liens entre les bases de données

30

Le web de données ?• Web de données ou Linked Data ou Web of Data• Mise sur le Web de données :

– Mouvement de l’Open Data– Mise à disposition de données publiques ouvertes

librement accessibles sans restriction de copyright, licence payante, brevet, …

– Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/)

• Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web

31

Le Web de données aujourd’hui• Liens entre les données et transformation du Web en une

gigantesque base de connaissances distribuée

32

Le Web de données aujourd’hui

33

Pile des standards du Web sémantique

34

RDF = Resource Description Framework Nouveau modèle généraliste et standardisé pour

encoder, échanger et réutiliser des métadonnées structurées

• Proposé en 1999 par le W3C• Permet de décrire, représenter et relier

simplement toute ressource (= donnée) du Web :– page Web, image, vidéo, personne, objet, évènement,

produit, service, …– tout ce qui peut être identifié par un URI peut être

considéré comme une ressource• Objectif : partager les métadonnées pour des

ressources identiques par l’utilisation d’une syntaxe commune (RDF/XML)

35

RDF : un modèle conceptuel• Principe de base : toute chose peut être

décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément déclaration RDF

Exemple :Charles Darwin a écrit « L’origine des espèces »

Sujet : Charles DarwinVerbe : a écritComplément : L’origine des espèces

36

RDF : la notion de triplet• Un document RDF est un ensemble de triplets• Un triplet est composé de 3 éléments• L’ensemble forme une déclaration

Triplet {sujet , prédicat , objet}– sujet : représente la ressource à décrire, c’est toujours un URI– prédicat : représente un type de propriété applicable à la ressource,

c’est toujours un URI– objet : représente une ressource liée (URI) ou une caractéristique exprimée

par une chaîne de caractères (= littéral) : c’est la valeur de la propriétéExemple :Sujet (Ressource) : Charles DarwinPrédicat (Propriété) : a écritObjet (Valeur) : L’origine des espèces

37

RDF : la représentation par graphe

• La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien

SUJET OBJETPREDICAT

Sujet :Charles Darwin

Objet :L’origine des espèces

Prédicat :A écrit

38

RDF : modèle de graphe (2)• L’objet d’un triplet peut être :

– Soit une ressource qui peut être le sujet ou l’objet d’autres déclarations– Soit un littéral = chaîne de caractères, nombre, date

Prédicat :A écrit

Prédicat :Comprend

«1809»«1809»

Prédicat :Est né

Sujet : Charles Darwin

Sujet : Charles Darwin

Objet : The origin of species

Sujet : The origin of species

Objet : An introduction on

the origin of species

39

Formalisme RDF

• Modèle permettant d’encoder toute donnée ou métadonnée

• Permet de décrire les relations entre les ressources

• Utilise le mécanisme des URI pour identifier les ressources décrites et représenter explicitement toute relation entre 2 ressources

• Permet de réaliser le Web de données :– Éclatement de l’information– Des données et pas des « documents »– Plus de souplesse pour manipuler, sélectionner…

40

RDF : souplesse• Cadre conceptuel de description des ressources

applicable à n’importe quel domaine• Permet de mélanger les vocabulaires• Un modèle abstrait à représenter avec un

langage concret• Peut être exprimé en utilisant diverses syntaxes

– RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C

– RDFa : syntaxe pour injecter du RDF dans une page Web…

• RDF rend les données extensibles :– Plus besoin de tout dire sur une ressource, une personne, etc.– Possibilité d’ajouter une nouvelle déclaration sur une ressource déjà

publiée pour compléter l’information

41

Un Web de données …• Modèle de données : RDF

– Modèle universel de représentation, d’échanges et d’interconnexion de métadonnées

• Langage d’interrogation : SPARQL – Simple Protocol And RDF Query Language– Langage de requête sur les graphes RDF

permettant de spécifier le type de données recherchées

– Format XML pour représenter les résultats d’une requête

– SPARQL permet d’interroger les données telles qu’on les a modélisées

• Première phase du déploiement du web sémantique

42

… et un Web sémantique• Objectif : s’assurer de l’interprétation et de

l’utilisation des données• Publier avec les données leurs schémas ou

vocabulaires• Schéma (ou ontologie)

– Document formel expliquant les catégories de ressources, leurs relations, avec leur sens, la structure et les contraintes associées

– Exemples :• Foaf pour la description d’un profil utilisateur• Dublin Core pour la description (simple) d’une ressource• ISBD pour la description bibliographique

• RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence

43

Web de données et Web sémantique

• Web de données : possibilité de relier et d’échanger des données au moyen d’URI

• Web sémantique : possibilité d’échanger les schémas de données et la sémantique associée– Objectif : permettre aux machines de

comprendre la sémantique, la signification de l’information sur le Web

44

Et pour les bibliothèques :Que peut apporter le Web de

données ?• Relier les catalogues des bibliothèques avec d’autres données existantes

• Ouverture à d’autres communautés (libraires, éditeurs, …)

• Plus de visibilité par les moteurs de recherche • Navigation par les utilisateurs sans avoir à connaître

les formats des bases de données et les langages de requête spécifiques

• Tirer parti des données structurées des catalogues et des référentiels

• Interopérabilité Souplesse pour la réutilisation des données

45

• Des données structurées

• Des vocabulaires normalisés– éléments de métadonnées (title, creator…)– listes de valeurs (codes pays, langues…)

• Des identifiants pérennes : URI– pour désigner les ressources– pour exprimer les relations entre les données

• Une syntaxe normalisée : RDF (Resource Description Framework)

Web de données et bibliothèques : Comment y arriver ?

46

003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm2252 $aˆLes ‰guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc

http://catalogue.bnf.fr/ark:/12148/cb12367696d

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

Des données structurées

47

Des vocabulaires normalisés

Pour exprimer les relations entre les données

200 1#$aGuide des chenilles d'Europe

700 #1$312013664$aCarter$bDavid$f1943-.... $4070

200 $a Titre propre

700 $4070 Auteur du texteDC : Creator RDA : Creator

DC : Title ISBD : Title properRDA : Title proper

RDA : Author

48

Des URI pour désigner les ressources

http://catalogue.bnf.fr/ark:/12148/cb42226398b Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves. - Paris : Delachaux et Niestlé, DL 2005

Carter, David (1943-....)

http://catalogue.bnf.fr/ark:/12148/cb120136648

http://catalogue.bnf.fr/ark:/12148/cb34235813nLes Guides du naturaliste

Hargreaves, Brian

http://catalogue.bnf.fr/ark:/12148/cb12367696d

49

Des URI pour exprimer les relations (1)

ISBD : has title proper

DC : Creator

DC : Title

RDA : Authorhttp://rdvocab.info/roles/author

http://purl.org/dc/elements/1.1/title

http://purl.org/dc/elements/1.1/creator

http://iflastandards.info/ns/isbd/elements/P1004

RDA : Title proper http://rdvocab.info/Elements/titleProper

50

Des URI pour exprimer les relations (2)

51

52

Une syntaxe normalisée

Cet ouvrage

"Guide des chenilles d'Europe"a pour titre propre

Cet ouvrage

a pour titre propre

sujetverbecomplément d’objet

"Guide des chenilles d’Europe"

prédicatobjet

sujet

Le sujet est toujours un URI

Le prédicat est toujours un URI

L’objet peut êtreun texte (« littéral »)ou un URI

2001 $aGuide des chenilles d'Europe

URI pour désigner la ressourceIdentifiant de la notice + caractère de contrôle

URI pour exprimer les relations

53

Un réseau de relations entre des données

http://catalogue.bnf.fr/ark:/12148/cb42226398b

"Guide des chenilles d’Europe"

http://catalogue.bnf.fr/ark:/12148/cb34235813n

http://catalogue.bnf.fr/ark:/12148/cb120136648

"Carter"

"David"

1943

"Les Guides du naturaliste"

http://data.bnf.fr/what-happened/date-1943

http://iflastandards.info/ns/isbd/elements/P1004

A pour titre propre

http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation

Appartient à

http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé

http://xmlns.com/foaf/0.1/familyName A pour patronyme

http://xmlns.com/foaf/0.1/givenName

A pour prénomhttp://rdvocab.info/ElementsGr2/dateOfBirth

A pour date de naissance

http://rdvocab.info/roles/author

A pour auteur

5454

Les bibliothèques dans le Web de données aujourd’hui

55

Y aller … avec les bons outils

• Pour utiliser la boîte à outils du Web sémantique, il faut

– Identifier les données

– Construire un réseau de relations entre ces données

• De quel outil disposons-nous pour analyser les relations entre les données au sein des catalogues de bibliothèques ?

Recommended