36
ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ- lemans.fr Focus sur quelques formats bibliographiques : TEI, EAD, METS

ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Embed Size (px)

Citation preview

Page 1: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

ENS-LYON17-19 juin 2013

Evolution des catalogues :Métadonnées, Interopérabilité, web sémantique, FRBR et RDA

Philippe.Bourdenet @univ-lemans.fr

Focus sur quelques formats bibliographiques :TEI, EAD, METS

Page 2: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

XML et les bases de données

http://peccatte.karefil.com/software/RBourret/xmlBD.htm

« ABC Airways propose trois vols quotidiens sans escales depuis Dallas à destination d’Austin. Les heures de départ sont 09:15, 11:15 et 13:15. Les arrivées sont prévues une heure plus tard. »

<Vols>      <Compagnie>ABC Airways</Compagnie>      <Depart>Dallas</Depart>      <Destination>Austin</Destination>    <Vol>         <HeureDepart>09:15</HeureDepart>         <HeureArrivee>10:15</HeureArrivee>    </Vol>    <Vol>         <HeureDepart>11:15</HeureDepart>         <HeureArrivee>12:15</HeureArrivee>    </Vol>    <Vol>         <HeureDepart>13:15</HeureDepart>         <HeureArrivee>14:15</HeureArrivee>    </Vol></Vols>

XML est en soi (nativement) une sorte de base de données.

XML was designed to transport and store data, with focus on what data is http://www.w3schools.com/xml/xml_whatis.asp

Page 3: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Il obéit à quelques règles simples :

<bookstore>  <book category="COOKING">    <title lang="en">Everyday Italian</title>    <author>Giada De Laurentiis</author>    <year>2005</year>    <price>30.00</price>  </book>  <book category="CHILDREN">    <title lang="en">Harry Potter</title>    <author>J K. Rowling</author>    <year>2005</year>    <price>29.99</price>  </book>  <book category="WEB">    <title lang="en">Learning XML</title>    <author>Erik T. Ray</author>    <year>2003</year>    <price>39.95</price>  </book></bookstore>

Sa structure est arborescente :

XML doit avoir une balise de fermeture : <p>This is a paragraph.</p>

Les balises XML sont sensibles à la casse : <Message>This is incorrect</message><message>This is correct</message>

Les éléments XML doivent être correctement imbriqués : <b><i>This text is bold and italic</b></i><b><i>This text is bold and italic</i></b>

Page 4: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Les fichiers XML doivent avoir un élément racine (root) : <root>  <child>    <subchild>.....</subchild>  </child>

</root>

Les attributs doivent être écrits entre double cotes : <note date="12/11/2007">  <to>Tove</to>  <from>Jani</from>

</note>

Quelques caractères doivent être codés : <message>if salary &lt; 1000 then</message><message>if salary < 1000 then</message>

Page 5: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

1. TEI = Text Encoding Initiative http://www.tei-c.org/index.xml

TEI guidelinesD’abord fondé sur SGML (1980-1986)

Texte de référence : Guidelines for Electronic Text Encoding and Interchange (1988-1994)

DTD TEI : très complexe, mail il existe aussi une DTD TEI-Lite

TEI permet de baliser logiquement la plupart des types de documents sur lesquels travaillent les chercheurs en sciences humaines (textes en prose, poésie, théâtre, éditions philologiques, dictionnaires, corpus linguistiques, etc.)

Tout document balisé comprend 2 parties : un en-tête (teiHeader) et le texte du document (text) :

<TEI><teiHeader> [informations contenues dans l’en-tête TEI] </teiHeader>,<text><front> [ textes préliminaires...] </front>,<body> [ corps du texte... ] </body><back> [annexes... ] </back></text></TEI>

<body> se subdivise en <div>, <div1>, <div2>, etc.

<div> se subdivise en <p>, <sp> (répliques), <1> (vers) selon la forme dont il est question

Il existe aussi un élément <group> pour les textes composites

? Une DocType Declaration est une façon d’associer un document avec son schémaOn utilisera de préférence RELAX NG (Regular Language for XML Next Generation), plus facile d’emploi.Elle permet de décrire un modèle, comme une grammaire : elle décrit les termes employés, leur position, sous forme de classe car elle généralise la description à tout un document ou à un ensemble de documents.

Page 6: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Structure arborescente (hiérarchique)

Description du teiHeader

élément fileDesc : donne une description détaillée du document électronique: titre, créateur, mode de distribution, taille, etc. S’il s’agit d’une RE, il peut fournir la source (dérivation)

élément profileDesc : permet de catégoriser un document (langue dans laquelle il est écrit, sujets dont il traite, etc.)

revisionDesc : historique de révision qui notifie le détail des modifications apportées à un texte.

Page 7: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

La DTD : comporte plus de 400 éléments !Elle correspond aux besoins d’univers culturels variés

Elle se découpe en modules (3 grandes catégories) :

- Core tag sets pour les éléments généraux, utiles à tous ;

- base tag sets, pour les grandes catégories de texte : (poésie, théâtre, textes en prose, dictionnaires, etc.)

- Additional tag sets, éléments servant à la représentation des traitements effectués sur le texte (analyses linguistiques, annotations, etc.

TEI.core TEI.header

TEI.prose (éléments utiles pour coder des textes en prose - paragraphes, chapitres, section, etc.)TEI.verse (éléments utiles pour coder des textes poétiques - lignes, stances, strophes, etc.)TEI.drama (éléments utiles pour coder des œuvres théâtrales)TEI.spoken (éléments utiles pour codes des discours, des interviews, etc.)TEI.dictionaries (éléments utiles pour coder des dictionnaires)TEI.terminology (éléments utiles pour coder des bases termi-nologiques)

TEI.linkingTEI.analysisTEI.fsTEI.certaintyTEI.transcr

TEI.textcritTEI.namesTEI.datesTEI.netsTEI.figures

Entités paramètres : TEI.name, qui peuvent être appelées par la DTD avec la déclaration :

<!ENTITY % TEI.prose ’INCLUDE’ >

Page 8: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

ARMA VIRUMQUE CANO, TROJAE QUI PRIMUS AB ORISITALIAM, FATO PROFUGUS, LAVINIAQUE VENIT

LITORA, MULTUM ILLE ET TERRIS JACTATUS ET ALTOVI SUPERUM SAEVAE MEMOREM IUNONIS OB IRAM ;

MULTA QUOQUE ET BELLO PASSUS, DUM CONDERET URBEM, 5INFERRETQUE DEOS LATIO, GENUS UNDE LATINUM,

ALBANI PATRES, ATQUE ALTAE MOENIA ROMAE ;MUSA, MIHI CAUSAS MEMORA, QUO NUMINE LAESO,

QUIDVE DOLENS REGINA DEUM TOT VOLVERE CASUSINSIGNEM PIETATE VIRUM, TOT ADIRE LABORES 10

IMPULERIT, TANTAENE ANIMIS CAELESTIBUS IRAE ?

Début de l’Enéide de Virgile

<l><seg type=foot><seg type=syll>Ar</seg><seg type=syll>ma</seg><seg type=syll>vi</seg></seg><seg type=foot><seg type=syll>rum</seg><seg type=syll>que</seg><seg type=syll>ca</seg></seg><seg type=foot><seg type=syll>no</seg><seg type=syll>Tro</seg></seg><seg type=foot><seg type=syll>iae</seg><seg type=syll>qui</seg></seg><seg type=foot><seg type=syll>pri</seg><seg type=syll>mus</seg><seg type=syll>ab</seg></seg><seg type=foot><seg type=syll>or</seg><seg type=syll>is</seg></seg></l>

marquage des syllabes et des pieds

Exemples de marquages de textes poétiques

Regrets de du Bellay :<lg type="quatrain"><l>Si je n’ay plus la faveur de la Muse, </l><l>Et si mes vers se trouvent imparfaits, </l><l>Le lieu, le temps, l’âge où je les ay faits, </l><l>Et mes ennuis leur serviront d’excuse. </l></lg>

Source : techniques de l’ingénieur

Page 9: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Un peu de prise de hauteur Qu’est-ce qu’un texte ?

S’agit-il de la même chose ?

Source : digital.humanities, OXFORD

Page 10: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Un texte n’est pas un document

Un texte est une abstraction, créé pour être lu, qui peut être encodé.

Un document est un objet qui peut être numérisé.

Il faut rendre explicite (à une machine) ce qui est implicite (pour une personne).

Ajouter de la valeur documentaire en multipliant les annotations

Faciliter la réutilisation de la ressource produite (dans différents formats, différents contextes,par différents utilisateurs.

Pour une université, marquer un texte est un activité intellectuelle : elle oblige à prendre des décision, conduire une analyse, faire des choix, définir des besoins, etc.

Deux méthodes de marquage !

Page 11: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

The Tempest / Shakespeare

Page 12: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus
Page 13: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Redescendons… vers le bas niveau

<?xml version="1.0" encoding="UTF-8"?><div type="verse">STRANGE MEETINGIt seemed that out of battle I escapedDown some profound dull tunnel, long since scoopedThrough granites which titanic wars had groined.</div>

Etrange rencontre Il m’a semblé que j’échappais à la bataille

Par quelque tunnel profond et sombre, creusé depuis longtempsDans des granits qu’avaient voûtés des guerres titanesques.

Wilfried Owen (18 Mars 1893 – 4 novembre 1918)

Balisage du titre avec <head>

<?xml version="1.0" encoding="UTF-8"?><div type="verse"><head>STRANGE MEETING</head>It seemed that out of battle I escapedDown some profound dull tunnel, long since scoopedThrough granites which titanic wars had groined.</div>

<?xml version="1.0" encoding="UTF-8"?><div type="verse"><head>STRANGE MEETING</head>

<lg type="stanza"> It seemed that out of battle I escapedDown some profound dull tunnel, long since scoopedThrough granites which titanic wars had groined. </lg></div>

Ajout de la valeur stanza comme attributDe <lg> (= Line Group)

XML > TEI

Page 14: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

<?xml version="1.0" encoding="UTF-8"?><div type="verse"><head>STRANGE MEETING</head><lg type="stanza"><l>It seemed that out of battle I escaped</l><l>Down some profound dull tunnel, long since scooped</l><l>Through granites which titanic wars had groined.</l></lg></div>

Ajout de la balise <l> pour marquer les lignes

Création d’un TEAI Header

<?xml version="1.0" encoding="UTF-8"?><TEI xmlns="http://www.tei-c.org/ns/1.0">

</TEI>

Déclaration de l’espace de nom

Ajout de la balise <teiHeader>Des éléments fileDesc, titleStmt,

<?xml version="1.0" encoding="UTF-8"?><TEI xmlns="http://www.tei-c.org/ns/1.0"><teiHeader><fileDesc><titleStmt><title> </title></titleStmt><publicationStmt/><sourceDesc/></fileDesc></teiHeader></TEI>

publicationStmt… va servir à créer une métadonnée supplémentaire pour qualifier mon travail

NB : <sourceDesc/> =<sourceDesc> </sourceDesc>

Page 15: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

<?xml version="1.0" encoding="UTF-8"?><TEI xmlns="http://www.tei-c.org/ns/1.0"><teiHeader> <fileDesc> <titleStmt> <title>Mon document TEI</title> </titleStmt><publicationStmt> <p>Exercice TEI</p></publicationStmt><sourceDesc> <p>Ressource orig. <ref target="http://www.oucs.ox.ac.uk/ww1lit/collections/item/3350">Strange Meeting</ref> Ed. Jon Stallworthy's </p></sourceDesc></fileDesc></teiHeader>

</TEI></xml>

Ajout des valeurs

Il reste à ajouter le texte !

Publication Stmt peut se subdiviser en <p> (paragraphes)

<TEI> </TEI> doit comporter au moins l’un des trois éléments <sourceDoc>, <facsimile>, ou <text>.

Nous allons ajouter <text> avec son « corps », <body> dans un <div> (ça, on l’a déjà fait !)

Page 16: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

<?xml version="1.0" encoding="UTF-8"?><TEI xmlns="http://www.tei-c.org/ns/1.0"><teiHeader> <fileDesc> <titleStmt> <title>Mon document TEI</title> </titleStmt><publicationStmt> <p>Exercice TEI</p></publicationStmt><sourceDesc> <p>Ressource orig. <ref target="http://www.oucs.ox.ac.uk/ww1lit/collections/item/3350">Strange Meeting</ref> Ed. Jon Stallworthy's</p></sourceDesc></fileDesc></teiHeader><text> <body> <div type="verse"> <head>STRANGE MEETING</head> <lg type="stanza"> <l>It seemed that out of battle I escaped</l> <l>Down some profound dull tunnel, long since scooped</l> <l>Through granites which titanic wars had groined.</l> </lg> </div> </body></text></TEI></xml>

Page 17: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

SCHEMA général

EAD, révisée en 2002 : issu d’une réelle coopération internationale, soucieux de sa compatibilité avec ISAD, révisée en 2000

EAD : maintenu par la Society of American Archivists, s’appuie sur le format ISAD(G), International Standard Archive Description (General).

EAD

ISAD(G) ISAAR(CPF) [2004]

XML

ISBD

MARCXMLuniquementpour MARC21

MarcXchange(correspondanceiso2709)

MARC(A)

MARC(B)

(autorités)(autorités)

(bibliographique)

XML

Berkeley, 1993 : objectif création d’une norme d’encodage pour produire de l’information lisible par les machines pour des manuscrits. Qui veille à la capacité de :

1. Présenter des données dans un cadre vaste et indépendant, compatibles avec les instruments de recherche et les besoins de recherche d’information ;

2. Préserver les relations hiérarchiques existant entre les niveaux de description ;

http://www.loc.gov/ead/

3. Représenter les informations descriptives héritées ;4. Naviguer dans la structure informationnelle hiérarchique ;

5. Gérer l’indexation et la récupération d’éléments

Page 18: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

http://www.loc.gov/ead/ead.xsd

<?xml version="1.0" encoding="UTF-8"?><xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"> <xs:element name="personne"> <xs:complexType> <xs:sequence> <xs:element name="nom" type="xs:string" /> <xs:element name="prenom" type="xs:string" /> <xs:element name="date_naissance" type="xs:date" /> <xs:element name="etablissement" type="xs:string" /> <xs:element name="num_tel" type="xs:string" /> </xs:sequence> </xs:complexType> </xs:element></xs:schema>

EAD s’appuie sur un schéma XSD [Qu’est-ce que c’est ?]

<?xml version="1.0" encoding="UTF-8"?> <personne xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="personne.xsd"> <nom>Bourdenet</nom> <prenom>Philippe</prenom> <date_naissance>1972-07-03</date_naissance> <etablissement>Université du Maine</etablissement> <num_tel>0243833052</num_tel> </personne>

<xs:attributeGroup name="am.countrycode"> <xs:attribute name="countrycode"> <xs:simpleType> <xs:restriction base="xs:token"> <xs:enumeration value="AF"/> <xs:enumeration value="AX"/> <xs:enumeration value="AL"/> <xs:enumeration value="DZ"/> <xs:enumeration value="AS"/> [...] </xs:restriction base> </xs:simpleType> </xs:attribute></xs:attributeGroup>

DTD ?

Le fichier dtd2schema.xsl est une feuille de style XSLT qui transforme les instances EAD conformes à la DTD 2002 relativement à des instances qui sont conformes avec soit le schéma Relax NG ou W3C.

=> http://www.loc.gov/ead/dtd2schema.xsl

Page 19: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Source : EAD Tag Library : http://www.archivesdefrance.culture.gouv.fr/static/1066 [octobre 2004 : CG 46 / CN 357 / GE3]

Page 20: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

<eadheader>

Obligatoire

fournit des informations bibliographiques et descriptives sur l'instrument derecherche, et non sur les documents d’archives que celui-ci décrit

Page 21: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

<archdesc>Élément englobant pour une partie essentielle du document EAD, celle qui décrit le contenu, lecontexte et l’importance matérielle d’un ensemble documentaire

Page 22: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus
Page 23: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

<c>

Structure hiérarchisée

Page 24: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

http://www.loc.gov/standards/mets/METSOverview.v2_fr.html

3. METS = Metadata Encoding & Transmission Standard

Principes généraux

METS est un format de transport de données décrivant des documents numériques (des planches numérisées, des sites web, des applications, des archives, ou tout autre ressource électronique)

DC

EADMARCXML

MARCXML

Elaboré il y a un peu plus de 10 ans et maintenu par la LOC, pour garantir leur préservation dans le temps et faciliter leur échange

C’est du XML, qui véhicule du XML

METS XML freight only !Très souple = très facile à adapter à des besoins particuliers(On peut par exemple supprimer des contraintes (Obligatoire/Facultatifchanger les règles de constructions d’identifiants, définir des niveaux de granularité différents, jusqu’à ll’incohérence, etc.

avantages :très commode d’utilisation,répond à des besoins divers

inconvénient :si tout le monde l’adapteà ses propres besoin,il devient moins interopérable !

Page 25: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

En-tête METS Description du document lui-même (informations sur sa création ou sa modification par exemple

Métadonnées descriptives peut contenir des métadonnées descriptives hébergées ailleurs

Métadonnées administratives – Comment les fichiers ont-ils été créés ? Quels sont les droits applicables dessus ? Quel est l’objet original, si c’est une reproduction qui est décrite ? S’il s’agit d’une reproduction, quel est le degré de fidélité par rapport à l’original ? Est-ce une notice dérivée ? ~ visas sur un passeport

Section des fichiers – liste les différentes versions électroniques de l'objet numérique. la balise <fileGrp> réunit les éléments <file> qui comprend les « versions » :

Ex. d’une émission de radio enregistrée

Carte de structure – c’est le cœur d'un document METS ! Elle comprend une structure hiérarchique pour l'objet de la bibliothèque numérique, et relie chaque élément de cette structure aux fichiers de contenu et aux métadonnées qui s'y rapportent.

Liens structurels – gère l’expression des lien entre les éléments déclarés dans la carte de structure. Par exemple peut être utilisée pour l’archivage d’un site web,

Comportement - une section de comportement peut être utilisée pour associer des exécutables au contenu d'un objet METS. Chaque comportement compris dans une section de comportement possède un élément "définition de l'interface", qui est une définition abstraite de l'ensemble des comportements représentés par une section de comportement distincte. Chaque comportement possède aussi un élément "mécanisme", qui identifie un module de code exécutable qui implémente et exécute les comportements définis de manière abstraite dans la définition de l'interface.

METS : vue d'ensemble – les sections

WAV transcription en TEI MP3

<fileGrp>

Page 26: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

<METS:mets><METS:metsHdr /> Header<METS:dmdSec /> Descriptive MD<METS:amdSec /> Administrative MD<METS:fileSec /> File list<METS:structMap /> Structural Map<METS:smLink/> Structutral Links<METS:behaviorSec /> Behavior Section

</METS:mets>

En anglais…

Page 27: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

En-tête METS (<metsHdr> )

L’en-tête contient des métadonnées descriptives minimales sur la « notice » METS :La date de création (attribut CREATEDATE),La date de dernière modification,Le statut du document décrit (attribut RECORDSTATUS).

<metsHdr CREATEDATE="2003-07-04T15:00:00" RECORDSTATUS="Complete"><agent ROLE="CREATOR" TYPE="INDIVIDUAL"> <name>Jerome McDonough</name></agent><agent ROLE="ARCHIVIST" TYPE="INDIVIDUAL"> <name>Ann Butler</name></agent>

</metsHdr>

contributeurs

individuorganisationautre

archivistecréateurconservateurdiffuseuréditeurpropriétaire de l’IPautre

Rôles possibles :

Page 28: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Métadonnées descriptives externes (<dmdSec>, <mdRef> )

Contient de pointeurs vers des métadonnées externes qui peuvent être récupérées

<mets:dmdSec ID="DM1"><mets:mdRef LOCTYPE="URL" MDTYPE="MARC"

xlink:href="http://nucat.library.northwestern.edu/cgi-bin/Pwebrecon.cgi?BBID=4333843" LABEL="Catalog Record"></mets:mdRef>

</mets:dmdSec>

URNURLPURLHANDLEDOIautre

MARCMODS

EADVRA

DC NISOIMG

LC-AV ( Audiovisual Metadata)TEIHDR (TEI Header)

DDIFGDC (géographique)

autre

L’attribut LABEL fournit des indications de visualisation, par exemple pour générer une table des matières

Page 29: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Métadonnées descriptives internes (<dmdSec>, <mdWrap> )

Elément conteneur qui permet d’encapsulée des métadonnées à l’intérieur d’un fichier METS

<dmdSec ID="dmd002"><mdWrap MIMETYPE="text/xml" MDTYPE="DC" LABEL="Dublin Core Metadata"> <xmlData> <dc:title>Alice's Adventures in Wonderland</dc:title> <dc:creator>Lewis Carroll</dc:creator> <dc:date>between 1872 and 1890</dc:date> <dc:publisher>McCloughlin Brothers</dc:publisher> <dc:type>text</dc:type> </xmlData></mdWrap>

</dmdSec>

Micro élément en DC

Chaque section (dmdSec) se voit attribuer un identifiant à l’intérieur du fichier METS. Il servira pour constituer la carte de structure.

Page 30: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Métadonnées administratives (<amdSec>)

Fiche « administrative » de la ressource 1. Métadonnées techniques(création, formats, caractéristiques des fichiers)2. Droits de propriété intellectuelle(copyright et licence)3. Métadonnées de source(à propos de la source analogique dont l’objet numérique décrit peut être dérivé)4. Métadonnées de provenance numérique(évaluation de la différence entre source et résultat, par exemple la perte de qualité entre la source originale et la reproduction décrite dans le cas d’une transformation entre l’objet numérique original et l’objet de la bibliothèque numérique (Wav -> MP3, TIF -> JPG)

<techMD ID="AMD001"><mdWrap MIMETYPE="text/xml" MDTYPE="NISOIMG" LABEL="NISO Img. Data"> <xmlData> <niso:MIMEtype>image/tiff</niso:MIMEtype> <niso:Compression>LZW</niso:Compression> <niso:PhotometricInterpretation>8</niso:PhotometricInterpretation> <niso:Orientation>1</niso:Orientation> <niso:ScanningAgency>NYU Press</niso:ScanningAgency> </xmlData></mdWrap>

</techMD>

Page 31: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Section des fichiers (<fileSec> )

Un <fileGrp> liste tous les fichiers constituant une version électronique distincte de l'objet de bibliothèque numérique

<fileSec><fileGrp ID="VERS1"> <file ID="FILE001" MIMETYPE="application/xml" SIZE="257537" CREATED="2001-06-10"> <FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.xml</FLocat> </file></fileGrp><fileGrp ID="VERS2"> <file ID="FILE002" MIMETYPE="audio/wav" SIZE="64232836" CREATED="2001-05-17" GROUPID="AUDIO1"> <FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.wav</FLocat> </file></fileGrp><fileGrp ID="VERS3" VERSDATE="2001-05-18"> <file ID="FILE003" MIMETYPE="audio/mpeg" SIZE="8238866" CREATED="2001-05-18" GROUPID="AUDIO1"> <FLocat LOCTYPE="URL">http://dlib.nyu.edu/tamwag/beame.mp3</FLocat> </file></fileGrp>

</fileSec>

Transcription audio en TEI

Un fichier WAV

Une version compressée mpeg

D’un enregistrement sonore

Même contenu audio

Page 32: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Carte de structure (<structMap> )

<structMap TYPE="logical"> <div ID="div1.3" LABEL="Introduction to Teachers' Union"

ORDER="3"><fptr FILEID="FILE001"> <area FILEID="FILE001" BEGIN="TUBG" END="TUND" BETYPE="IDREF" /></fptr><fptr FILEID="FILE002"> <area FILEID="FILE002" BEGIN="00:06:18" END="00:10:03" BETYPE="TIME" /></fptr><fptr FILEID="FILE003"> <area FILEID="FILE003" BEGIN="00:10:03" END="00:15:07" BETYPE="TIME" /></fptr>

</div>

</structMap>

Structure hiérarchique d'un objet de la bibliothèque numérique afin de permettre la navigationC’est la balise <div> qui est utilisée pour introduire les éléments hiérarchiques

Cas d’un enregistrement sonore d’entretiens avec un auteur :

Cas d’une ressource en PDF :

<mets:structMap> <mets:div TYPE="text" LABEL="Extending the Lexicon by[Exploiting Subregularities" ADMID="RMD1" DMDID="DMR1 DM1"> <mets:fptr FILEID="FID1"/> <mets:fptr FILEID="FID2"/> </mets:div></mets:structMap>

<mets:fileSec> <mets:fileGrp USE="application"> <mets:file ID="FID1" MIMETYPE="application/pdf" SEQ="1" GROUPID="GID1"> <mets:FLocat xlink:href="http://nma.berkeley.edu/ark:/28722/bk0005j7x2r" LOCTYPE="URL"/> </mets:file> </mets:fileGrp> <mets:fileGrp USE="application"> <mets:file ID="FID2" MIMETYPE="application/ps" SEQ="1" GROUPID="GID1"> <mets:FLocat xlink:href="http://nma.berkeley.edu/ark:/28722/bk0005j7x39" LOCTYPE="URL"/> </mets:file></mets:fileGrp>

Page 33: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Liens structurels ( <smLink>)

Section la plus simple car elle ne contient que l’élément <smLink>

Si fichier METS décrit un site web, prenons l’exemple de deux pages liées (Pages 1 -> Page 2), avec P1 qui contient une image qui ouvre P2 lorsque l’on clique dessus :

Page html 1 (P1), <structMap> :

<div ID="P1" TYPE="page" LABEL="Page 1"> <fptr FILEID="HTMLF1"/>

<div ID="IMG1" TYPE="image" LABEL="Image Hyperlink to Page 2"><fptr FILEID="JPGF1"/>

</div>

Page html 2 (P2), <structMap> :

<div ID="P2" TYPE="page" LABEL="Page 2"> <fptr FILEID="HTMLF2"/>

</div>

Le lien s’exprime de la façon suivante dans la section <smLink> :

<smLink from="IMG1" to="P2" xlink:title="Hyperlink from JPEG Image on Page 1 to Page 2" xlink:show="new" xlink:actuate="onRequest" />

Page 34: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Comportement (<behaviorSec>)

Une section de comportement peut être utilisée pour associer des comportements exécutables  au contenu d'un objet METS

<behavior>

<interfaceDef> : définition abstraite d’un « comportement » DESC

<mechanism> : pointe vers du code exécutable EXEC

Liens vers un service web par exemple :

<METS:behavior ID="DISS1.1" STRUCTID="S1.1" BTYPE="uva-bdef:stdImage" CREATED="2002-05-25T08:32:00" LABEL="UVA Std Image Disseminator" GROUPID="DISS1" ADMID="AUDREC1">

<METS:interfaceDef LABEL="UVA Standard Image Behavior Definition" LOCTYPE="URN" xlink:href="uva-bdef:stdImage"/>

<METS:mechanism LABEL="A NEW AND IMPROVED Image Mechanism" LOCTYPE="URN" xlink:href="uva-bmech:BETTER-imageMech"/> </METS:behavior>

Service web

Page 35: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

METS Community… des informations sur le format

Son utilisation : BnF : dans le cadre du projet SPAR (Système de Préservation et d'Archivage Réparti) entrepôt sécurisé et pérenne d’objets numériques

FEDORA : http://fedora-commons.org/, pour la gestion et la préservation de corpus numériques

Bibliothèque de projets décrits : http://www.loc.gov/standards/mets/mets-present.html

METS tools & compatible software (http://www.loc.gov/standards/mets/mets-tools.html)

Des outils de développement (java, tomcat)

Bibliothèques de conversions : perl

OpenWMS : plateforme open source pour contenus numériques, dispose en vrac des éléments METS dans un entrepôt Fedora

METS Navigator, qui permet d’explorer une base en METS en visuel

Feuilles de styles XSLT

Exemples d’application concrète

Page 36: ENS-LYON 17-19 juin 2013 Evolution des catalogues : Métadonnées, Interopérabilité, web sémantique, FRBR et RDA Philippe.Bourdenet @univ-lemans.fr Focus

Exemple d’application concrète à l’UM http://planches-mycologiques.univ-lemans.fr/

jpg (vignettes) jpg tif

<fileGrp>

Sortir les données de leur complexe applicatif (java, tomcat, apache)

Fournir un VH pour chaque ressource

Fournir un jeu de données METS avec une carte de structure

Décrire en TEI les contenus textuels des planches …et ajouter un élément au <fileGrp> ?