View
295
Download
0
Category
Preview:
Citation preview
BiblioML Elaboré par Tarek Hamdi
[M2 GIDN : Bibliothèques Numériques]
2012/2013
République Tunisienne Ministère de l’enseignement supérieur
Université de la manouba Institut supérieur de la Documentation
Table des matières I. Introduction .......................................................................................................................................... 2
II. UNIMARC ............................................................................................................................................. 2
III. XML ..................................................................................................................................................... 3
IV. BiblioML.............................................................................................................................................. 4
V. Avantages de BiblioML ..................................................................................................................... 7
VI. Utilisations et projets en BiblioML ..................................................................................................... 7
VII. Conclusion ......................................................................................................................................... 8
VIII. Exemple d’enregistrement BiblioML ................................................................................................ 9
IX. Webographie ................................................................................................................................... 15
I. Introduction
BiblioML est une représentation en XML (DTD puis schéma) des notices
bibliographiques basée sur le format d’échange UNIMARC qui respect la norme ISO 2709.
La norme ISO 2709 est une norme internationale qui définit la structure des notices contenant
des données bibliographiques.
Pour entamer le sujet de BiblioML, il parait indispensable d’éclaircir la notion d’UNIMARC
et de présenter la technologie XML et les intersections possibles entre eux.
II. UNIMARC
UNIMARC est un standard d'échange de données bibliographiques et est aussi définit
comme un format informatique international des données bibliographiques permettant les
échanges entre logiciels documentaires ou bases de données bibliographiques. Principalement
défini par l'IFLA (International Federation of Library and Institutions), l’UNIMARC est
conforme à la norme ISO 2709. Le format UNIMARC est complété, en France, par la
recommandation 995 qui complète l’UNIMARC en prenant en compte le codage des
informations concernant les exemplaires (nombre et numéros d'exemplaires, par exemple).
UNIMARC est un format "champs" (champ-valeur répétable), adaptable à de
nombreux objets (bibliographie, autorités, classification, archivistique ...).
Une notice UNIMARC est constituée de différents blocs numérotés qui correspondent
à des types d'informations. Chacun de ces blocs est constitué de champs et de sous-champs.
Les champs sont numérotés, les sous-champs sont introduits par le symbole $ suivi d'une
lettre.
Voici un exemple de fichier UNIMARC correspondant à un exemplaire de code barre
5777008954 de :
Les Champignons / Jean C. Keller. - Paris : le Livre de poche,
1983 - 127 p. : ill. ; 17 cm. - (Le Livre de poche; 7847).
Les rubriques d’UNIMARC Significations *****cam**22002411**450* [Données codées]
010 ** $a 2-253-03268-9 $b Br. $d 24 F [ISBN, reliure, prix]
100 ** $a 19840104d1983****m**y0frey0103****ba [Données codées]
101 ** $a fre [Code de langue]
102 ** $a FR [Code de pays]
Les rubriques d’UNIMARC Significations 105 ** $a aay**zz**00|z| [Données codées]
106 ** $a r [Données codées]
200 1* $a Les Champignons $f Jean C. Keller [Titre, auteur]
210 *0 $a Paris $c le Livre de poche $d 1983 [Edition]
215 ** $a 127 p. $c ill. $d 17 cm [Collation]
225 2* $a Le Livre de poche $v 7847 [Collection]
606 ** $3 $a Champignons [Vedette matiére]
676 ** $a 589.2 [Indice Dewey]
700 1* $a Keller $b Jean [Vedette auteur]
995 ** $f 5777008954 $k 589.2 KEL
RQ : les * désignent des espaces = des blancs ou à des positions non renseignées
Les jeux de caractères ISO sont utilisés pour les échanges de données en format
UNIMARC. Le label de notice, le répertoire, les indicateurs, les codes de sous-zones et les
autres codes spécifiés dans ce manuel doivent être enregistrés en utilisant les caractères de
commande et les caractères graphiques du jeu de caractères ISO 646 (IRV), ou alphabet
international de référence, qui est considéré par défaut comme le jeu de caractères de la
notice. Les techniques d’extension spécifiées dans le jeu de caractères ISO/IEC 2022 sont
utilisées quand plusieurs jeux de caractères sont nécessaires dans une même notice.
III. XML
XML (Extensible markup language) est un langage de balisage générique dont le but
est de permettre la fonctionnalité et l’interopérabilité du Web en permettant à plusieurs
systèmes d’information hétérogènes de communiquer et d’échanger. Autrement dit il repose
sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le
W3C; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non
pas la présentation graphique; le contenu, la structure et la présentation sont nettement
dissociés ; la structure des informations est arborescente.
Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert;
il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il
est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il
facilite l’interopérabilité.
En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web
(BiblioML, MarcXML, MODS…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y
éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…).
Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le
format Marc. Marc se matérialise sous la forme d’un format de saisie constitué de zones
prédéfinies et immuables, certaines de ces zones permettent de communiquer avec d’autres
systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des
notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne
concernent pas les usagers de quelques bibliothèques qui sont dans l’impossibilité d’accéder
aux notices via le Web (pour cela ils doivent préalablement passer par le site de la
Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques
deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de
recherche qui le sillonnent. En d’autres termes les OPAC sont mis en surface et accessibles,
en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le
changement de formats de notices de MARC à XML qui se fait sans perte de données,
permettant ainsi une retro-conversion « fidèle » de ces dernières… Ce souci de pallier
l’incapacité du Marc à permettre les échanges sur le WEB, sera à l’origine de la création du
MarcXML par la Bibliothèque du Congrès en juin 2002.
IV. BiblioML
BiblioML, ou Bibliographic Markup Language, est une DTD XML (XML Schéma
depuis la version 0.6 ) créée en 1999 sous l’égide de la Mission de la recherche et de la
technologie du Ministère de la Culture français qui souhaitait mettre en place un outil
commun de gestion des références bibliographiques de ses applications XML (dossiers
d'inventaire, dossiers d'artistes, rapports de fouilles, etc.). Cette DTD a été développé par
Martin Sévigny de la société AJLSM pour représenter toutes les informations que l'on trouve
dans une notice UNIMARC (bibliographique et autorités) en format XML.
Tableau de synthèse des correspondances
UNIMARC : Bloc et champ BiblioML : Elément-père, élément-fils Bloc des informations descriptives 2XX,
champ 200
<Description>
<Title and Responsibility>
Bloc des informations descriptives 2XX,
champ 205
<Description>
<EditionGroup>
Bloc des informations descriptives 2XX,
champ 210
<Description>
<PublicationGroup>
Bloc des informations descriptives 2XX,
champ 215
<Description>
<PhysicalDescription>
Bloc des informations descriptives 2XX,
champ 225
Bloc des notes 3XX <Notes>
Bloc des notes 3XXBloc 0XX, champ 012
<Description>
<IdentificationNumbers>
<FingerprintID>
Bloc des informations codées 1XX
<CodedValues>, mais
aussi <Meta> et
<Description>
Bloc des titres associés 5XX
Bloc de l'indexation-matière 6XX
Bloc de la responsabilité intellectuelle 7XX
<RelatedTitles>
<Subjects>
<Description>
<IntellectualResponsibility>
Bloc 8XX des données
Internationales <Meta>
BiblioML permet la conversion au format XML de notices bibliographiques ou
d'autorité saisies en format UNIMARC. D'ailleurs, le Manuel UNIMARC a servi de document
de référence lors de la création de la DTD et les champs et sous-champs de BiblioML
correspondent à ceux d'UNIMARC. BiblioML comporte 224 éléments (BiblioRecord étant
celui de plus haut niveau), 2 entités (BooleanAttribute et DataContent) mais aucune notation.
L'element BiblioRecord est composé de:
Meta : métadonnées liées à l'enregistrement (date et lieu de création, etc...).
Ces informations ont pour origine différents champs Unimarc, principalement
les champs 0xx.
Description : description de l'oeuvre : titre, auteurs, dates, éditeur, droits...
(champs 2xx et 5xx d'Unimarc)
Notes : notes concernant l'oeuvre, destinées au public (champs 3xx)
CodedValues : informations codées relatives à la description de l'oeuvre
(principalement, les champs 1xx d'Unimarc)
Subjects : sujets traités par l'oeuvre, et mots-clés correspondant (champs 6xx)
Relationships : liens vers d'autres oeuvres (champs 4xx)
IntellectualResponsability : indications de responsabilité intellectuelle telles
qu'elles figurent dans l'ISBD (champs 7xx)
LocalData : données locales propres à l'établissement créateur de la notice
(champs 9xx)
Tables : table des matières et Index
Text : texte de présentation de l'ouvrage
<BiblioRecord Language="fre" id="B590092101_00073.173_001"> <Meta>...</Meta>
<Description>...</Description>
<CodedValues>...</CodedValues>
<Notes>...</Notes>
<Subjects>...</Subjects>
<LocalData>...</LocalData>
<TableOfContents>...</TableOfContents>
<Index>...</Index>
</BiblioRecord>
L'expressivité d'XML peut être menée plus loin. On peut ainsi tirer parti de
l'imbrication des éléments pour regrouper des informations et les nommer plus explicitement.
Si le champ 200 est le titre, et qu'il y a un sous-champ pour les sous-titres ($e), il n'est pas
désagréable de pouvoir l'indiquer expressément, exemple en "pseudo-code"
La souplesse du format BiblioML permet d'ajouter bien d'autres informations, comme
des index, des tables des matières, des illustrations, et surtout, ce qui est très particulier à
XML, du texte riche. La DTD BiblioML prévoit ainsi des noms permettant qu'une notice
devienne un document avec plus de contenu.
BiblioML et La Compatibilités : Dans une conversion UNIMARC vers BiblioML, la
plupart des champs documentés trouve une place en XML. Pour des usages spécifiques à une
organisation, les outils livrés peuvent être édités (XSL) pour rendre raison à des besoins qui
n'auraient pas été prévus. Par contre, une fois passés en BiblioML, surtout si les contenus ont
été enrichis, un retour en MARC pourrait perdre une partie de l'information.
Outils BiblioML. Autour de BiblioML, on trouvera des outils libres habituels : conversion
depuis l'UNIMARC, transformation de restitution. On mentionne particulièrement BiB-X, une
application libre qui administre, cherche et produit des notices. On notera la possibilité de
pouvoir définir ses propres formulaires de saisie (selon le type de documents), dans un
standard XML (XForm).
BiblioML apporte des extensions au format UNIMARC, dont voici les plus
significatives :
- Il est possible d'encoder le texte du document en question, inclus dans l'élément <Text>.
- Il est également envisageable d'intégrer des tables et des index, au moyen de la balise
<Tables>, puis <TableOfContent> ou <Index>. Il s'agit d'une nette progression par rapport à
la possibilité de référencer une table des matières au moyen du champ 359 puisqu'il n'y a
plus de limitation de niveaux d'arborescence.
- En ce qui concerne les liens entre notices, indiqués par les éléments <Relationships> puis
<LinkedItem>, plusieurs solutions sont possibles. Comme le propose MARC, un simple lien
entre les notices peut être créé. L'élément <LinkedItem> est alors vide et l'attribut RecordID
indique le numéro de la notice concernée. On peut également envisager d'inclure la seconde
notice dans la première, en utilisant l'élément <BiblioRecord>.
Dans tous les cas, l'attribut « Relation » permet d'indiquer le type de relation entre les deux
ouvrages décrits. BiblioML apporte ainsi davantage de souplesse et de lisibilité que
l'utilisation éventuelle des champs 4XX proposés par UNIMARC.
- L'information concernant les exemplaires locaux peut être donnée directement, alors qu'une
notice d'exemplaire devait être liée à la notice bibliographique dans UNIMARC. Pour cela il
suffit d'utiliser l'élément <Copies> et ses éléments-fils. Cette expérience de traitement avec
BiblioML montre que si toute information de type bibliographique aurait pu être saisie en
MARC, BiblioML apporte davantage de clarté. Les extensions proposées par BiblioML ne
sont donc pas si significatives pour la description bibliographique du livre en tant que telle. Le
véritable enrichissement, c'est de rendre possible l'intégration de tout ou partie du document
primaire.
D’autre part, BiblioML permet une description bibliographique fine et complète, mais
les possibilités de renseigner les métadonnées de gestion techniques et administratives sont
bien moins riches que celles que proposent le Dublin Core ou l’en-tête de la TEI. En effet,
l'encodage dans BiblioML de ces métadonnées se limite à l'élément <Meta>, et elles
correspondent ni plus ni moins à celles qui figurent dans une notice MARC. Cela doit être
perçu comme une limitation, car dans un contexte de numérisation et d'édition sur le
Web, le contexte du document ainsi que les conditions d'accès doivent être précisées.
V. Avantages de BiblioML
Brièvement, l’utilisation du format BiblioML nous engendre plusieurs avantages dont les
plus importants sont les suivants :
Format moderne : basée sur XML, adaptée à Internet
Format ouvert : mises dans le domaine public, les spécifications de BiblioML sont
disponibles sur le site officiel du ministère de la culture.
Modèle de caractères Unicode : toutes les écritures, basées sur ce système de codage
universel, sont représentables sans ambiguïté.
Hiérarchie complète : tous les documents sont décrits exactement, quelle que soit la
complexité de leur structure
Taille illimitée : la taille des documents ou des zones n'est pas limitée.
Toutes les extensions sont possibles : texte intégral, table des matières, index,
illustrations graphiques ou sonores...
Facilités de compréhension : les balises BiblioML permettent de décrire lisiblement
la structure et la sémantique de chaque élément
VI. Utilisations et projets en BiblioML
Utilisant ou S'appuyant sur BiblioML, plusieurs projets ont vu le jour. Voici quelques
applications utilisant BiblioML :
La bibliographie nationale française (en ligne depuis juillet 2001). Les notices
bibliographiques sont d'abord cataloguées en Intermarc puis extraites en UNIMARC,
et ensuite converties en XML selon la DTD BiblioML. Un serveur de transformation
produit enfin des pages HTML pour publication sur le Web.
La bibliographie nationale française : le Dépôt légal utilise BiblioML pour générer
les pages HTML statiques des différents numéros de la Bibliographie
(http://bibliographienationale.bnf.fr).
Base de documents SANGIS (Réseau du sud-est asiatique pour un systéme
d'informations géologiques SANGIS) du CIFEG (centre international pour la
formation et les échanges en géosciences) : base de données BiblioML pour la
diffusion d'un catalogue collectif de références bibliographiques dans le domaine des
sciences de la terre.
Bilans scientifiques régionaux : projet de base bibliographique BiblioML dans le
domaine archéologique
Bibliographie Dossiers d'artistes : projet du Ministère de la culture et de la
communication, ayant pour but de mettre en place une infrastructure permettant de
gérer et diffuser des dossiers d'artistes complets et riches, incluant des références
bibliographiques.
Article Repository System : un projet du College of Business of Public
Administration (BPA) de l'université de l'Arizona utilise une base de données
d'articles et des références en BiblioML
Open Citation System : un autre projet du BPA de l'université de l'Arizona utilise
BiblioML "as an architecture-neutral middle layer to store large bibliographic citation
databases for scientific sharing". Des convertisseurs seront développés de BiblioML
vers divers formats comme BibTeX et EndNote.
VII. Conclusion
La bibliographie est un domaine très "balisé" dans l'informatique documentaire.
Comparativement à d'autres milieux, les bibliothèques ont rapidement implanté des formats et
des systèmes informatiques de catalogage. Les normes "MARC" ont permis de répondre à des
besoins que d'autres formats ne représentaient pas aussi bien. XML permet de représenter
correctement des informations codées en MARC, ainsi que d'autres.
BiblioML devient un format source susceptible d'être inclus ou transformé à destination
d'autres documents XML.
Cependant, pour d'autres contextes, la totalité des informations du format d'archivage ne sont
pas toujours indispensables (exemples : date d'enregistrement, référence à une notice
d'autorité spécifique à un système). Il est alors plus important que la source soit conforme à
l'espace de noms de destination. Ceci permettra une courte revue d'autres standards XML de
la bibliographie, permettant de mieux définir la spécificité d'un format complet de catalogage.
Lorsqu'un système bibliographique est utilisé par des auteurs (en XML), on comprend dès lors
le gros intérêt d'ajouter cette sorte d'exports. Un chercheur pourra par exemple composer sa
bibliographie sur le catalogue d'une bibliothèque, et obtenir son panier dans le format qui lui
est directement utile.
En fin, on peut distinguer les trois points suivants :
La technologie MARC a donné les moyens de formuler très précisément les besoins
bibliographiques. Cependant, le format impose des raideurs qui ne sont plus
nécessaires et qui cantonnent son utilisation à des applications spécifiques et
généralement commerciales. XML permet un décalque sans perte des informations et
aussi de profiter des outils propres à cette technologie.
Une DTD ou Schéma comme BiblioML permet de garder la richesse des catalogues,
en pouvant y ajouter facilement d'autres informations, comme la table des matières, un
résumé, un index, une illustration. Fonder un système bibliographique sur ce type de
format peut par exemple agrémenter les catalogues pour donner un accès plus agréable
au public.
Enfin, l'adoption d'un format XML expressif apporte une souplesse à l'information, qui
lui permet plus facilement d'être servie à des machines (DC, OAI) ou d'être utilisée par
des auteurs.
VIII. Exemple d’enregistrement BiblioML
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE BiblioRecord PUBLIC "-//MCC-FR//DTD BiblioML V03//EN" "biblioml_030.dtd">
<BiblioRecord Language="fre" id="B20"> <Meta>
…………………………. </Meta> <Description> …………………………. </Description>
<CodedValues> ………………………….
</CodedValues> <Notes> …………………………. </Notes>
<Subjects> …………………………. </Subjects>
</BiblioRecord>
On considère la notice bibliographique écrit sous format BiblioML
Métadonnées
Description
Valeurs codées
Notes
Subjects
LocalData
Table Of Contents
Index
IX. Webographie
RESSOURCES EN LIGNE
Bottin, Michel. BiblioML : Une application XML pour les données bibliographiques et
d'autorités, compatible avec (UNI)MARC. [en ligne]. Disponible sur : < http://www.paris-lavillette.archi.fr/docu/biblioml/fr/index.html>. (consulté le 20/12/2012).
Bibliothèque nationale de France. Manuel UNIMARC : format bibliographique. [en
ligne]. Disponible sur :
<http://www.bnf.fr/fr/professionnels/anx_formats/a.unimarc_manuel_format_bibliographi
que.html#SHDC__Attribute_BlocArticle3BnF>. (consulté le 20/12/2012).
PMB sevices. PMB : Guide de l'administrateur. [en ligne]. Disponible sur :
<http://www.sigb.net/doc/fr_FR/html-admin/>. (consulté le 24/12/2012).
Club BCDI. Unimarc ISO 2709. [en ligne]. Disponible sur : < http://club-bcdi.crdp-
poitiers.cndp.fr/docbcdi3ecole/unimarc.html#def>. (consulté le 24/12/2012).
L'école nationale supérieure d'architecture de Paris La Villette. (Notice
bibliographique). [en ligne]. Disponible sur : < http://www.paris-
lavillette.archi.fr/docu/biblioml/fr/B590092101_00073.173_001.xml>. (consulté le
20/12/2012).
Groupe de Recherche en Apprentissage Automatique Lille 3. BIBLIOML. [en ligne].
Disponible sur : < http://www.grappa.univ-
lille3.fr/~tommasi/InfoDoc/Formats2006/biblioML//bib-elt.html>. (consulté le
20/12/2012).
Blogokat, saga des DTD. Les DTD : 5. BiblioML. [en ligne]. Disponible sur : < http://blogokat.canalblog.com/archives/2005/01/16/240301.html>. (consulté le
20/12/2012).
SENBIBDOC. Archives du mot-clef BiblioML : N° 10 – XML et bibliothèques. [en
ligne]. Disponible sur : http://antoninbenoitdiouf.com/tag/biblioml/>. (consulté le
20/12/2012).
coverpages. BiblioML - XML for UNIMARC Bibliographic Records. [en ligne].
Disponible sur : < http://xml.coverpages.org/biblioML.html>. (consulté le 20/12/2012).
Glorieux, Frédéric. Bibliographie et XML. [en ligne]. Disponible sur :
<http://projets.ajlsm.com/sdapa/sdapa/infos/standards/bibliographie.html>. (consulté le
20/12/2012).
MOREL-PAIR, Catherine. Métadonnées et XML Des standards efficients de
l’environnement numérique. Villeurbanne : ENSSIB, 2007, 32 p.
Olivier, Mabille. Enrichir le catalogage des documents audiovisuels : étude de faisabilité
au département de l'Audiovisuel. Villeurbanne : ENSSIB, 2006, 82 p.
Bernaudin, Anne-Claire. Mise en ligne d’un guide bibliographique en sciences
religieuses : difficultés, enjeux, perspectives. ENSSIB, 2005, 68 p.
Recommended