43
5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management [email protected]

5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

  • Upload
    jonny

  • View
    17

  • Download
    0

Embed Size (px)

DESCRIPTION

5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial. 24 Janvier 2008. Gautier Poupeau, Unilog Management [email protected]. Introduction. La DTD TEI : principes et fonctionnement pour la création de contenu éditorial. Le framework. - PowerPoint PPT Presentation

Citation preview

Page 1: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

5 à 7 ADBSLa DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24 Janvier 2008

Gautier Poupeau, Unilog [email protected]

Page 2: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №2

La DTD TEI : principes et fonctionnement

pour la création de contenu éditorial

Le schémaLe framework

Introduction

Page 3: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №3

Introduction : essai de définition

La TEI (Text encoding initiative) est un framework/cadre de description pour créer des schémas/grammaires utilisés pour encoder des textes de nature très diverse en vue de leur :

• échange ;

• exploitation, c’est-à-dire :• les publier• y effectuer des recherches• les traiter

encoder des textes

Page 4: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №4

Qu’est-ce-qu’un texte ?

Un texte est la représentation sur un support d’une construction logique de phrases formant une unité.

Un texte comprend différents éléments plus ou moins implicites que le lecteur prend compte dans le processus de lecture pour le comprendre et l’appréhender :

• un support • un contexte• une présentation • une structure

Page 5: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №5

Qu’est-ce-que l’encodage ?

L’encodage ou le balisage consiste à rendre explicite l’ensemble des caractéristiques et phénomènes d’un texte en vue de leur exploitation par les machines.

L’encodage permet :• la caractérisation de parties d’un texte de manière formalisée ;• la mise en lumière de la structure logique et hiérarchique d’un texte.

L’encodage facilite la réutilisation du texte dans différents contextes par différents utilisateurs.

Page 6: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №6

XML : une syntaxe pour encoder les textes

XML (eXtensible Markup Language) est un langages à balises issu de SGML.

Exemple :<etatcivil id="1">

<nomdefamille>Poupeau</nomdefamille><prenom>Gautier</prenom><datedenaissance>1980/05/19</datedenaissance>

</etatcivil>

Des éléments ou balises complétés par des attributs s’emboîtent pour mettre en lumière la structure d’un texte.

Le fichier XML forme un arbre avec une racine et des nœuds.

Chaque élément précise le rôle ou la caractéristique tenu par la portion d’informations entourée dans le contexte du texte.

Page 7: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №7

Avantages de XML

XML est une recommandation du W3C XML est indépendant d’un logiciel, d’un éditeur, d’une plate-forme, d’un système d’exploitation

XML n’est pas un format binaire, aucun logiciel particulier n’est requis pour lire du XML

XML est relativement facile à utiliser De plus en plus d’applications supportent le XML XML est extensible

…..Mais XML est extensible !!

Page 8: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №8

Permettre l’interopérabilité : les schémas XML

Un schéma permet de déterminer le nom des éléments et des attributs, leurs significations et leurs règles d’utilisation. Un schéma peut être comparé à une grammaire.

Trois langages pour décrire un schéma :

• DTD (Document type definition) issu pour SGML

• XML schema (XSD), recommandation du W3C

• Relax NG, norme OASIS et ISO

Page 9: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №9

Les problèmes de XML et des schémas XML

Les schémas sont majoritairement spécialisés et limités à un type de textes :•EAD pour les inventaires d’archives

•Docbook pour la documentation technique

•XHTML pour les pages Web Les schémas peuvent s’avérer incomplet pour encoder certains besoins

particuliers. Les schémas évoluent et peuvent perdre la compatibilité descendante. L’utilisation d’un même schéma peut différer d’un utilisateur à un autre ce qui

n’est pas forcément documenté. Les schémas sont définis suivant un des trois langages (DTD, XML schema,

Relax NG) Construire un schéma est un travail complexe, long et fastidieux et n’a de sens

que dans la mesure où il est partagé par une large communauté. Les schémas existants ne permettent pas d’encoder à la fois la structure logique

et la structure physique d’un texte. La syntaxe XML est-elle pérenne ? Qu’en est-il de JSON, par exemple ?

Page 10: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №10

L’approche de la TEI

Une communauté partageant les mêmes buts et objets d’études détermine les besoins d’encodage liés à leur discipline. Elle établit un compromis sur les éléments et leurs règles d’utilisation.

La consolidation des éléments déterminés par les différentes communautés constitue un guide qui s’attache à repérer, organiser, définir et normaliser les différentes informations/éléments d’un texte : guidelines for Electronic Text encoding and interchange (aujourd’hui la 5ème version dite P5).

Une application est mise à disposition pour construire son schéma personnalisée à partir des guidelines.

Page 11: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №11

Conséquences de l’approche de la TEI

La syntaxe XML n’est qu’un moyen d’encoder un texte suivant la TEI (sous-entendu les guidelines).

La TEI est indépendante du langage de définition du schéma XML (DTD, XML schema, Relax NG).

La TEI ne se limite pas à un type de textes et, de par sa maturité (20 ans), répond à l’ensemble des besoins des chercheurs en sciences humaines et même plus.

La TEI comprend 450 éléments !! Et la TEI est extensible…

Conclusion : le schéma n’est qu’une conséquence du guidelines.Un texte encodé en TEI est validé selon un schéma qui respecte le guidelines de la TEI.

Page 12: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №12

Le consortium TEI

Pour maintenir, développer et faire connaître la TEI, une fondation à but non lucrative a été fondée en 1999.

Elle est basée à :• Oxford University• Brown University• University of Virginia• LORIA/ATILF/INIST (Nancy)

Deux instances composent le TEI Consortium :• TEI council, chargé des développements du guidelines ;• TEI board, chargé de gérer le consortium.

Deux éditeurs sont chargés de mettre au point et consolider le guidelines :• Lou Burnard, Oxford University• Syd Bauman, Brown University

Toutes les institutions ou personnes peuvent adhérer au consortium pour supporter la TEI. Le consortium organise une fois par an une réunion rassemblant les membres, occasion pour présenter les projets, les nouveaux développements et rencontrer les différents acteurs de la TEI.

Page 13: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №13

Organisation de la TEI : les modules (1)

Les 450 éléments de la TEI sont réparties en 21 chapitres qui décrivent et définissent un ensemble cohérent d’éléments, appelé module.

Nom du module Identification Exemples

Analysis Analyse et interprétation <c>, <w>, <m>

Certainty Certitude et incertitude <certainty>

Core Eléments communs à tous les textes <bibl>, <hi>, <list>, <item>, <p>, <note>, <l>, <lb/>, <pb/>

Corpus Métadonnées pour les corpus linguistiques <textDesc>

Dictionaries Dictionnaires imprimés <entry>, <etym>, <def>

Drama Texte dramatique <role>, <castList>, <actor>

Figures Tableaux, formules et images <figure>, <table>, <row>, <cell>

Gaiji Documentation des caractères et des glyphes <char>, <g>

Header Métadonnées communes <teiHeader>, <titleStmt>, <seriesStmt>

iso-fs Analyse des traits structurelles

Linking Lien, segmentation et alignement <link>, <seg>

Page 14: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №14

Organisation de la TEI : les modules (2)

Nom du module Identification Exemples

Msdescription Description des manuscrits <msDescription>, <bindingDesc>, <filiation>

Namesdates Noms, dates, personnes et lieux <persName>, <date>, <geogName>, <orgName>

Nets Graphes, réseaux et arbres <root>, <tree>

Spoken Transcription de corpus oraux <incident>, <pause>, <u>

Tagdocs Documentation des éléments (de la TEI)

Tei Infrastructure de la TEI <tei>, <teicorpus>

Textcrit Apparat critique <listWit>, <witness>, <app>, <rdg>

Textstructure Structure par défaut des textes <text>, <front>, <body>, <back>, <div>

Transcr Transcription des sources primaires <damage>, <handShift>, <restore>

Verse Texte versifié <rhyme>, <caesura>

En fonction du texte encodé, l’utilisateur choisit les modules qui lui sont utiles pour construire son schéma. Seul le module tei est obligatoire.Mais il faut au minimum les modules tei, core, header et textstructure pour encoder un texte simple.

Page 15: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №15

Organisation de la TEI : les classes

En plus de l’organisation sous formes de modules, les différentes éléments de la TEI sont réparties dans des classes. Elles déterminent :

• Les attributs partagés par un ensemble d’éléments ;• Le comportement de l’élément, c’est-à-dire l’endroit où il peut être placé.

Les éléments héritent des règles attribuées à leur classe ou à leur super-classe.

Un élément peut appartenir à une ou plusieurs classes.

L’utilisation des classes n’est pas requise pour mettre au point un schéma simple.

Page 16: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №16

Organisation de la TEI : un exemple pour les classes d’éléments

<bibl>

model.bibLike

<cit>

<listBibl>

<sourceDesc>

model.inter

model.listLike

<lem>

<figure><table>

model.common

model.pLike

<ab><p>

<div> <body>

Page 17: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №17

Organisation de la TEI : un exemple pour les classes d’attributs

<bibl>

att.global

att.declarable

att.type @type

@subtype

@default

@xml:id

@n

@xml:lang

@rend

@rendition

@xml:base

Page 18: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №18

ODD (One document does it all) (1)

Pour définir un schéma XML à partir du guidelines de la TEI, un format, appelé ODD, a été mis au point.

Un fichier ODD est un document XML dérivé de la TEI qui permet de déterminer :• les modules utilisés ;• le comportement d’un élément, c’est-à-dire changer sa ou ses classes

Il offre aussi la possibilité d’aller plus loin dans la personnalisation :• changer le nom d’un élément ;• déterminer les éléments utilisés ou non dans un module ;• ajouter un attribut et le rattacher à une classe ;• ajouter un nouvel élément en le reliant à une classe, un module et/ou même un élément ;• contraindre la valeur d’un élément ou d’un attribut ;• documenter l’utilisation d’un élément existant ou ajouté, c’est-à-dire son propre guide de balisage

Page 19: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №19

ODD (One document does it all) (2)

ODD permet donc de construire son propre schéma issu de la TEI adapté à vos besoins précis.

Tous les changements par rapport à la « TEI canonique », c'est à dire les éléments et les attributs, leurs noms, leurs comportements et leurs sémantiques, seront indiqués dans ce fichier ODD.

Page 20: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №20

Roma : une interface Web pour construire son schéma

Roma est une interface Web mis au point par le consortium qui permet de construire son fichier ODD, et donc son schéma suivant le guidelines de la TEI.http://tei.oucs.ox.ac.uk/Roma/

Page 21: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №21

Roma : page d’accueil

Page 22: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №22

Roma : les schémas prédéterminés

Page 23: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №23

Roma : les métadonnées de la personnalisation

Page 24: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №24

Roma : interface en français

Page 25: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №25

Roma : choisir la langue des éléments et de la documentation

Page 26: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №26

Roma : choix des modules

Page 27: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №27

Roma : Module ajouté

Page 28: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №28

Roma : Description du module

Page 29: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №29

Roma : ajouter un élément

Page 30: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №30

Roma : modification des classes d’attributs

Page 31: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №31

Roma : sanity checker

Page 32: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №32

Roma : génération de la documentation

Page 33: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №33

Roma : génération du schéma

Page 34: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №34

Roma : sauver votre personnalisation sous forme de fichier ODD

Page 35: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №35

Un exemple pas à pas d’utilisation de la TEI

Je souhaite encoder des textes simples du type rapport, article, monographies…

Page 36: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №36

Qu’est-ce-qu’on encode ?

Extensibilité de XML est infinie : d'une partie à une lettre à l'intérieur d'un mot

•Il est essentiel de faire des choix, car il est impossible de tout encoder.

•Il faut déterminer toutes les informations possibles qu’il est utile, souhaitable d’encoder

Questions essentielles : •Pourquoi encoder ce document ? •A quoi va servir l'encodage ? •Quelles informations sont utiles par rapport au but poursuivi ? •Quelle est la nature du document ? •Comment fonctionne-t-il ?

Page 37: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №37

Les macro-structures

Les éléments de structure générale d’un fichier TEI•<tei>, <teiHeader>, <text>

Les éléments qui composent le texte•<front>, <body>, <back>

L’élément « magique » de structuration du texte•<div>

Page 38: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №38

Les micro-structures

Les éléments d’un texte•Les mises en valeur : <hi></hi>•Les images : <figure><figDesc></figDesc><graphic/></figure>•Les citations : <q></q> ou <quote></quote>•Les notes : <note></note>•Les mots étrangers : <foreign></foreign>•Les listes : <list><item></item></list>•Les tableaux : <table><row><cell></cell></row></table>

Les éléments de la bibliographie•Une bibliographie : <listBibl>• La référence bibliographique : <bibl>• Les éléments de la référence bibliographiques : <author>, <bibl>,

<biblScope>, <publisher>

Page 39: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №39

Utilisation de Roma pour construire mon schéma

Page 40: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

18/12/2006 №40

<TEI><teiHeader>

<fileDesc><titleStmt><title>Le titre</title></titleStmt><publicationStmt><p>Éditeur</p></publicationStmt><sourceDesc><p>Source du fichier numérique</p></sourceDesc>

</fileDesc></teiHeader><text>

<front></front><body>

<div></div> (la balise magique !!)<div type="partie">

<p>Mon texte avec une <hi rend=“italic”>emphase</hi>.

</p></div>

</body><back></back>

</text></TEI>

La structure générale d’un fichier TEI

Page 41: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

18/12/2006 №41

<bibl><author>Gautier Poupeau</author>, <title level="a">L'édition électronique desources historiques. Nouvelles approches de l'indexation</title>, dans<title level="m">Indexer les <foreign>exempla</foreign> médiévaux</title>sous la direction de Marie-Anne Polo de Beaulieu, <title level="j">Cahier ducentre de recherches historiques</title>, n° 35, avril 2005, <biblScopetype="page">pp. 71-78</biblScope>

</bibl>

Exemple d’une référence bibliographique

Page 42: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №42

Exemples d’utilisation de la TEI

La plateforme Cyberdocs utilisée pour la mise en ligne des thèses, par exemple : Université de Lyon 2

Un exemple d’édition critique accompagné de la numérisation de l’original : Le cartulaire de Nesle

Autre exemples d’édition critique : Les comptes des consuls de Montferrand ou les chroniques latines de Saint-Denis

Un exemple de numérisation en mode texte : les cartulaires numérisés d’Ile-de-France

Un répertoire de manuscrits : le Miroir des classiques Une plate-forme de publication et de traitement de textes

encodés en XML : Telma

Page 43: 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial

24/01/2008 №43

Des questions ???

Merci pour votre attention !!

Des questions ?