Les éléments d'indexation dans la
DTD-EAD (le standard d’encodage pour
les descriptions archivistiques)
Qu’est-ce que l’EAD ? • EAD: Encoded Archival Description• En français, Description Archivistique
Encodée• Pour créer, publier, conserver, diffuser
sur internet, des instruments de recherche (inventaires, catalogues…) en version électronique
Normes : objectifs
• Rédaction de descriptions pertinentes, explicites et compatibles
• Recherche et échange d’informations• Partage d’autorités communes• Intégration de fonds conservés dans
différents établissements
La description archivistique• repose sur le respect des fonds et la
structuration en fonction de la logique de production (à chaque niveau de classement correspond un niveau de description)
• peut avoir un grand nombre de niveaux (sans redondance des informations d’un niveau à l’autre)
• se fait du général au particulier en situant l’unité décrite dans sa hiérarchie
A cela s’ajoute la nécessité :• de pérennisation des instruments de
recherche électroniques qui maintiennent l’accès aux données (migration des données, traçabilité des mises à jour les plus importantes)
• de création partagée des descriptions• d’aide plus efficace au public
Les outils électroniques traditionnels pour les archives
• Traitement de texte Word ou assimilés, souvent sans feuille de style (pas de possibilité d’échange, de pérennisation, pas de traitement des données, pas de création partagée)
• PDF (forme figée, pas de traitement des données, pas de création partagée)
• Bases de données dont relationnelles (difficile d’appliquer les principes de contextualisation et de description à plusieurs niveaux d’ISAD(G), lourdes programmations et maintenances)
Nouvel environnement
• Contexte de développement de l’Internet, du Web sémantique, des réseaux, etc.
• Volonté de publier en ligne, rendre accessibles, partager les instruments de recherche
• Nécessité d'indexer les termes pour les portails, nécessité de faire le lien avec les documents originaux numérisés, etc.
EAD : historique• Créée en 1995, par un groupe de travail
indépendant puis rattaché à la SAA (Société des Archivistes Américains)
• 1998: 1re version officielle : EAD 1.0• 2002 : première mise à jour : EAD 2002
(prend mieux en compte ISAD(G))• 2014 ? : EAD 3 ? (prendra mieux en compte les
schémas)
XML(Extensible Markup Language)
• Langage de balisage étendu• Langage développé par le W3C destiné à
succéder au HTML sur le Web• Comme HTML, c’est un langage de balisage
(markup)=langage qui présente l’information encadrée par des balises
D’un texte classiqueà un texte encodé
Situées à Paris dans le Marais, les Archives nationales conservent et communiquent les archives de la France depuis les Mérovingiens jusqu'en 1958.
Extrait de la page de présentation du site des Archives nationales - site de Paris
Identifier et distinguerles données essentielles
Situées à Paris dans le Marais, les Archives nationales conservent et communiquent les archives de la France depuis les Mérovingiens jusqu'en 1958.
Le code HTML
Situées à <font color="#FF0000">Paris</font> dans le <font color="#FF0000">Marais</font>, les <font color="#990000">Archives nationales</font> conservent et communiquent les archives de la France <font color="#99CC00">depuis les Mérovingiens jusqu'en 1958</font>
Le langage HTML (hypertext markup language) se caractérise par l’utilisation de balises ou éléments qui définissent la mise en forme du document
Les éléments
Situées à <ville>Paris</ville> dans le <quartier>Marais</quartier>,les <organisme> Archives nationales</organisme> conservent et communiquent les archives de la France <dates_extremes> depuis les Mérovingiens jusqu'en 1958</dates_extremes>
Dans le langage XML, les éléments ne définissent plus la mise en forme mais un contenu sémantique
Les éléments englobants
Situées à <adresse><ville>Paris</ville> dans le <quartier>Marais</quartier></adresse>, le <organisme>Archives nationales</organisme> <mission><objet>conservent et communiquent les archives de la France</objet> <dates_extremes> depuis les Mérovingiens jusqu'en 1958 </dates_extremes></mission>
Les éléments peuvent contenir d’autres éléments. Il est ainsi possible de regrouper des informations de même nature
Du texte aux données<adresse>
<ville>Paris</ville> <quartier>Marais</quartier>
</adresse><organisme>les Archives nationales</organisme> <mission>
<objet>conservent et communiquent les archives de la France </objet>
<dates_extremes> depuis les Mérovingiens jusqu ’en 1958</dates_extremes> </mission>
Les attributs
<adresse><ville>Paris</ville> <quartier>Marais</quartier>
</adresse><organisme>les Archives nationales</organisme> <mission>
<objet>conservent et communiquent les archives de la France </objet>
<dates_extremes siecle="7e/20e"> depuis les Mérovingiens jusqu ’en 1958</dates_extremes> </mission>
Ils précisent la valeur de l’élément
Un document bien formé<?xml version="1.0" encoding="utf-8"?><institution>
<adresse>
<ville>Paris</ville>
<quartier>Marais</quartier>
</adresse>
<organisme>les Archives nationales</organisme>
<mission>
<objet>conservent et communiquent les archives de la France </objet>
<dates_extremes siecle="7e/20e"> depuis les Mérovingiens jusqu ’en 1958</dates_extremes>
</mission>
</institution>
Synthèse• L’auteur peut créer ses propres balises• Il inclut à l’intérieur d’une balise de
l’information textuelle• Chaque balise caractérise l’information• On ne tient pas compte de la mise en
forme mais du contenu
Mise en forme• Contrairement à HTML, XML ne prend
pas en compte la présentation graphique du document mais seulement la structure
• Cela nécessite des outils : feuilles de style (CSS) ou programmes de transformation (XSL-T)
L’intérêt du XMLLa mise en commun de données
• Le XML n’est lié ni à une plate-forme, ni à un système d’exploitation, ni à une famille de logiciels.
• En théorie il faciliterait l’échange des données…
• Mais comment échanger des données si la création des balises est libre ?
La solution : les DTDDTD : Document Type Definitionou Définition de Type de Document
Exemples :- Docbook (documentation technique ; http://www.docbook.org/), - Text Encoding Initiative (http://www.tei-c.org/ ; ouvrages littéraires, sciences humaines, sciences sociales), - DTD Biblio-ML développée pour les catalogues bibliographiques (http://90plan.ovh.net/~adnx/biblioml/doku.php?id=fr:introduction)- DTD des dossiers de l’inventaire développée pour la Direction de l’Architecture et du Patrimoine- MathML (http://www.w3.org/Math/ ; formules mathématiques)
La DTD des archivistes est laDTD EAD ou EAD
Objectifs d’une DTD• Définir les éléments permis dans les
documents• Définir la hiérarchie des éléments• Définir des attributs pouvant être
associés à des éléments• Définir quelles sont les valeurs
permises pour les attributs
Conclusion• La structure hiérarchisée d’un
document XML convient bien à la description des documents d’archives
• La DTD de la communauté des archivistes est l’EAD
• Elle est utilisée pour certains fonds dans les bibliothèques
Caractéristiques essentielles(1)• L’EAD est conçue pour être utilisée avec
des normes de description, en particulier ISAD(G)
• L’EAD facilite l’échange et la portabilité des instruments de recherche : il est possible d’utiliser le même document encodé pour des restitutions multiples
Caractéristiques essentielles(2)• Il est possible de choisir la finesse de
l’encodage en fonction des besoins et des moyens
• L’EAD comprend 146 éléments, dont un tout petit nombre obligatoires (en-tête EAD, description du fonds, niveaux hiérarchiques)
L’EAD : 146 éléments• Éléments génériques de texte et sa mise en
forme : 41• Éléments de métadonnées : 23• Éléments de structure : 18• Éléments d’information spécifiques : 36• Éléments points d’accès (d'indexation) : 12• Éléments de lien : 16 Seulement 8 éléments obligatoires pour avoir
un document valide du point de vue XML
Les attributs• Ils permettent de qualifier les éléments• Ils sont pour la plupart facultatifs• Deux attributs importants :
– LEVEL dans <archdesc> et <c> : il permet de définir le niveau de description
– NORMAL dans plusieurs éléments : il permet de saisir des formes normalisées pour l’indexation
Les trois éléments principauxd’un instrument de recherche EAD
Sous l’élément racine <ead> :
<eadheader>
<frontmatter>
<archdesc>
en-tête EAD (description bibliographique de l'IR) (obligatoire)
préliminaires (page de titre, introduction, préface…)
description archivistique (obligatoire)
Description archivistique <archdesc>
• Correspond à l’instrument de recherche lui-même
• Dans <archdesc>, on trouve les informations globales, concernant toute l'unité à décrire (fonds, groupe de documents, dossiers, etc.).
La description archivistiquecontenu de <archdesc>
• Des éléments d’identification• La présentation du contenu• Des éléments de contexte• Des éléments de gestion• Les sources complémentaires• Des éléments d’indexation• Des éléments de lien• Tous ces éléments sont classés
dans l’élément <archdesc>
<archdesc>
</archdesc>
Les éléments d’identification• Ces éléments permettent
d’identifier et de décrire le fonds aussi bien d’un point de vue intellectuel que matériel et se trouvent dans un élément <did> Description et identification
• Le fonds est identifié par sa cote (<unitid>), un intitulé (<unittitle>), ses dates extrêmes (<unitdate>)
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did>
Les éléments d’identification
La description physique - nature, taille - se trouve dans l’élément <physdesc> qui peut être ou non structurés en d’autres éléments
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did><physdesc/>
La présentation du contenu
Se fait dans l’élément <scopecontent> situé directement sous <archdesc>
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did><physdesc/>
<scopecontent/>
Les éléments de contexteDirectement sous <archdesc>
nous saisirons les éléments concernant:
-l’histoire de la personne physique ou morale à l’origine du fonds <bioghist>,
-l’historique de la conservation <custodhist>
-les modalités d’acquisition <acqinfo>
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did><physdesc/>
<custodhist/><bioghist/>
<scopecontent>
<acqinfo/>
Les éléments de gestion
• Les restrictions d’accès <accessrestrict> ou d’utilisation <userestrict>
• Ils sont situés directement sous <archdesc>
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did><physdesc/>
<custodhist/><bioghist/><scopecontent/>
<accessrestrict/><userestrict/>
<acqinfo/>
Les sources complémentaires• Ces éléments permettent de
signaler l’existence de documents apportant des informations complémentaires
• Il peut s’agir de documents classés dans d’autres fonds <relatedmaterial>
• Ou de documents qui ont fait partie de ce fonds mais qui pour une raison quelconque en on été séparés <separatedmaterial>
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did><physdesc/>
<custodhist/><bioghist/><scopecontent/>
<acqinfo/><accessrestrict/><userestrict/><relatedmaterial/><separatedmaterial/>
Les éléments d’indexation (1)Permettent d’indexer
- les collectivités <corpname>- les fonctions <occupation>- les noms géographiques <geogname>- les noms de personnes <persname>- les mot-matières <subject>
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did><physdesc/>
<custodhist/><bioghist/>
<scopecontent/>
<acqinfo/><accessrestrict/><userestrict/><relatedmaterial/><separatedmaterial/>
Les éléments d’indexation (2)
Les éléments d’indexation peuvent être englobés dans un élément <controlaccess>…
…ou dans le corps du texte
<archdesc>
</archdesc>
<did><unitid/><unittitle/><unitdate/>
</did><physdesc/>
<custodhist/><bioghist/><scopecontent/>
<acqinfo/><accessrestrict/><userestrict/>
<relatedmaterial/><separatedmaterial/><controlaccess>
<subject/><persname/>
</controlaccess>
L’EAD et ISAD(G)• Développée ultérieurement, au départ sans
lien avec le groupe d’experts du CIA puis en collaboration avec lui, l’EAD est totalement compatible avec ISAD(G)
• L’EAD est fondée sur le même principe de description par niveaux
• A chaque élément défini dans ISAD(G) correspond un élément (ou un attribut) dans l’EAD