61
XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines Lou Burnard Oxford University Computing Services

XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Embed Size (px)

Citation preview

Page 1: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

XML + TEI: un marriage fait aux cieux?

Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les

documents en lettres et sciences humaines

Lou Burnard

Oxford University Computing Services

Page 2: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 2

Pourquoi numeriser un texte?

• Pour remplacer ou pour enrichir un texte écrit?

• Pour aider la recherche, la formation, ou l'enseignement?

• Pour quel public? • Pour faire quelque chose de nouveau, ou

des choses anciennes d'une manière plus efficace?

Page 3: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 3

Du point de vue academique, la numerisation offre…

• L'integration des ressources diverses– textes, commentaires, sources, variations…– multimédia, manuscrits, transcriptions, metadata…

• La preservation des ressources– Les media s'envolent, les données restent– "multiplication beyond the reach of accident"

• Un vaste élargissement d'accessibilité des ressources– quantitative– qualitatitive

Page 4: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 4

De point de vue informatique, la numerisation offre…

• Toute une gamme de problemes techniques• une raison d’ être: la conservation du

patrimoine et de la culture contemporaine• des outils bien compris et pratiques

– la semiotique– le linguistique– l'encodage

Page 5: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Ressources

ressources numerises

encodage

analyses

modele abstraite

Page 6: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 6

Il etait une fois, il y a longtemps, dans une galaxie lointaine….

Page 7: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

The Text Encoding Initiative

1987: Vassar College Conference

Page 8: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 8

Loomings“CALL me Ishmael. Some years ago --- never mind how long precisely--- having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world”

Loomings“CALL me Ishmael. Some years ago --- never mind how long precisely--- having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world”

Balisage ou babel?

|chap1<C 1> Loomings\chapter\chapter[1]{Loomings}:h1.1. LoomingsMOBY001001LOOMINGS|C1.chapter Loomings.cp;.sp 6 a;.ce .bd 1. Loomings~x

Bonne nouvelle: on peut trouver un logiciel pour traduire entre 400 formats diverses

Bonne nouvelle: on peut trouver un logiciel pour traduire entre 400 formats diversesMauvaise nouvelle: il existe (au moins) 400 formats diversMauvaise nouvelle: il existe (au moins) 400 formats divers

Page 9: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 9

Echange d'informations (1)

A

B

C D

E

20 traductions requises (n2-n)

Page 10: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 10

Echange d'informations (2)

A

B

C D

Estandard commun d'echange

10 traductions requises (2n)

Page 11: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Un langage d’encodage sert à...

• specifier les caractères d’un texte

• expliciter la/les structures aperçue/s dans un texte

• linéariser le texte

• specifier les méta-informations, renseignements contextuels etc.

... ce qui implique une indépendance totale d’application, du hard,

comme du soft

Page 12: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Qu’est-ce que l’encodage?

• Un format d'echange s'exprime dans un encodage…

• …qui explicite une théorie concernant un aspect quelconque d’un document– tout encodage est donc une interprétation– aucun langage d’encodage ne peut donc

prétendre être ni complet ni exhaustif

Page 13: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 13

<text n="moby"><div type=chapter n="ch1"><head rend=centred>Loomings</head><p><s>Call me <name>Ishmael</name>.</s> <s>Some years ago &mdash; never mind how long ago precisely &mdash; having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world.</s></p>

<text n="moby"><div type=chapter n="ch1"><head rend=centred>Loomings</head><p><s>Call me <name>Ishmael</name>.</s> <s>Some years ago &mdash; never mind how long ago precisely &mdash; having little or no money in my purse, and nothing particular to interest me on shore, I thought I would sail about a little and see the watery part of the world.</s></p>

Un encodage TEI

Page 14: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Origines de la TEI

• communauté internationale de recherche• surtout dans sciences humaines,

linguistiques• effort international (financement des États

Unis, de l’Union Européenne et du Canada)

• parrainnée par trois associations erudites (ACH, ALLC, ACL)

Page 15: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Les buts de la TEI

• faciliter la création, l’échange, et l’integration des données textuelles informatisées

• toute sorte de texte• toutes les langues • toute provenance temporelle ou culturelle

• La TEI doit servir également à aider...– les débutants, cherchant des solutions bien connues

et consensuelles– les experts, cherchant à créer de nouvelles solutions

Page 16: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Les "délivrables" de la TEI

• un ensemble cohérent de recommandations sur l’encodage, fondé sur la pratique actuelle

• un système extensible, modulaire, polymorphe

• une documentation extensive– TEI P3 : manuel de référence– TEI U5 , U6 : manuels introductifs

• des textes exemplaires

Voir http://www.tei-c.orgVoir http://www.tei-c.org

Page 17: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

La modus operandi TEI

• identifier les traits textuels signicatifs independemment de leur notation ou realisation

• se méfier des controverses, et des rafinements excessifs et des simplifications inutiles

• chercher des solutions génériques

Page 18: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

... et quelques consequences

• appui sur le contenu, plutôt que sur la présentation• un schéma libéral, peu normatif• le rasoir de Occam• une structuration fonctionelle, avec plusieurs

possibilités d'enrichissement

«La TEI ne dispense pas de lire nos collègues, bien au contraire, mais elle nous permet comme en sciences exactes de disposer directement et de façon normalisée des textes travaillés selon les hypotheses d'autrui » (L. Romary)

Page 19: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 19

Heritage de la TEI

• Une facon de considerer ce que le texte est vraiment

• Une codification des pratiques academiques courantes

• Un ensemble d'aprioris et priorites partages dans les perspectives numeriques

• … qui reste valable depuis plus de dix ans

Page 20: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Qui se sert de la TEI?

• http://www.tei-c.org/Applications/

• les bibliothèques informatiséesUMICH, CETH, UVA, OTA, BiMiCeSa, INALF...

• les projets d'ingenierie linguistiqueEAGLES, BNC, MULTEX, ECI, Silfide

• les chercheurs Women Writers Project, Model Editions Partnership, Le

projet Charette

Page 21: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Qu’est-ce que c’est que le {SG,X}ML?

• SGML (Standard Generalised Markup Language) est une norme ISO bien répandue dans le monde informatique;

• …dont XML est une forme simplifiée (norme W3C) qui remplace l'HTML

• Toutes les deux donnent la possibilité d'exprimer une grammaire precise d'encodage: une Document Type Definition (DTD); (facultatif pour XML)

• … et de marquer à la fois la structure et la signification des traits textuels

Page 22: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 22

Current TEI activity (1)

• First AGM and elections in Pisa, November 2001

• Elected TEI Council met in London, January 2002

• XML revision (P4X) approved at Board meeting in Prague, May 2002

• XML edition published in print, June 2002

• Second AGM, Chicago, October 2002http://www.tei-c.org/Services/order/

Page 23: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 23

Current TEI activity (2)

• New work groups on– character set issues: convergence with Unicode– manuscript description– hyperlinking/stand off markup

• Work in progress– SGML/XML conversion– Training

• Funding problems and opportunities

Page 24: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Ce qu’il faut savoir à propos de {SG,X}ML

• un texte est divisé en éléments, qui peuvent s’imbriquer

• les limites des éléments sont marqués par des balises, ayant un type générique et des attributs facultatifs

• un texte peut également contenir des entités: par exemple pour représenter les caractères speciaux

Page 25: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

L’encodage {X,SG}ML

• tout est délimité:• les éléments par des balises de debut

et des balises de fin• les balises par < ... > et </ ... >• les entités par & ... ;• par exemple:<quote lang="fra">L'&eacute;tat, c'est moi!

</quote>

<quote lang="fra">L'&eacute;tat, c'est moi!

</quote>

Page 26: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

SGML et XML

La TEI s'est servie de SGML pour des raisons–pragmatiques

• un standard déjà existant

• un standard bien répandu dans l’industrie

–théoriques• un système declaratif

• un système vérifiable

• un système performant, adéquat aux besoins de recherche

Page 27: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 27

SGML et XML

• La TEI a beaucoup influence l'evolution de XML

• La TEI constitue un modele abstrait, qui peut etre represente ou en SGML ou en XML (ou ailleurs)

• Actuellement, on peut generer des DTDs XML specifiques a l'aide du Pizzachef

• http://www.tei-c.org/Software/pizza.html

Page 28: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Exemple de structuration<text><front> <!-- page de titre, etc --> </front><body> <div1 type='book' n='I' id=JA0100> <head>Book I. </head> <div2 type='chapter' n='1' id=JA0101> <head>Of writing lives in general,...

<!-- suite du chapitre 1 --> </div2> <div2 n='2' id=JA0102>

<!-- chapitre 2 --> </div2>

<!-- suite du tome premier--></div1> <div1 type='book' n='II' id=JA0200>

<!-- tome deuxieme--> </div1>

<!-- encore des tomes --></body></text>

Page 29: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 29

Structuration de phrases...

And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage...

<hi rend=gothic>And this Indenture further witnesseth</hi> that the said <hi rend=italic>Walter Shandy</hi>, merchant, in consideration of the said intended marriage ...

<hi rend=gothic>And this Indenture further witnesseth</hi> that the said <hi rend=italic>Walter Shandy</hi>, merchant, in consideration of the said intended marriage ...

Page 30: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 30

…or...

<seg type=formula>And this Indenture further witnesseth</seg> that the said <name rend=italic>Walter Shandy</name>, merchant, in consideration of the said intended marriage ...

<seg type=formula>And this Indenture further witnesseth</seg> that the said <name rend=italic>Walter Shandy</name>, merchant, in consideration of the said intended marriage ...

And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage...

Page 31: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

A quoi sert une DTD?

• définir l’ensemble des éléments, attributs, et entitités possibles dans un document

• definir la manière de les combiner, pe leur contenu

• permettre la verification formelle d’un document

• aider la gestion automatique des documents

Page 32: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Combien de DTDs faut-il pour supporter les buts de la TEI?

• une seule (approche autoritaire: eg ISO 12083 WKWBFY)

• aucune (approche Waterloo: eg OED NWEUMP)

• autant qu’il en faut (approche Californien: WNSA)

ou peut-on mieux faire?ou peut-on mieux faire?

Page 33: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

La solution TEI

• plusieurs (400+) éléments

• rassemblés en classes sémantiques

• organisés en «tagsets » (jeux de balises)– du noyau («core»)– de base– additionels

une seule DTD à plusieurs aspectsune seule DTD à plusieurs aspects

Page 34: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Comment s’en servir?

• comment faire un seul schéma capable de gérer l’univers des applications voulues?

• chaque texte est différent

• tous les textes sont pareils

• n’importe quel texte peut être utilisé en des manières diverses

Page 35: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Modèle Pizza (manière Chicago)

<!ENTITY % base “(deepDish | thinCrust | stuffed)” >

<!ENTITY % garniture “( poivron| champignon | saucisse | anchois | anananas | ...)” >

<!ELEMENT pizza - - ( %base;, sauceTomate & fromage, (%garniture)*) >

<!ENTITY % base “(deepDish | thinCrust | stuffed)” >

<!ENTITY % garniture “( poivron| champignon | saucisse | anchois | anananas | ...)” >

<!ELEMENT pizza - - ( %base;, sauceTomate & fromage, (%garniture)*) >

Page 36: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Pour créer une application TEI, il faut...

• prendre le noyau

• choisir une base

• ajouter les garnitures de choix

<!DOCTYPE TEI.2 system 'tei2.dtd' [<!ENTITY % tei.prose 'INCLUDE' ><!ENTITY % tei.analysis 'INCLUDE' >]><tei.2>.....</tei.2>

<!DOCTYPE TEI.2 system 'tei2.dtd' [<!ENTITY % tei.prose 'INCLUDE' ><!ENTITY % tei.analysis 'INCLUDE' >]><tei.2>.....</tei.2>

Page 37: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Le noyau

• L’en-tête TEI• Un ensemble d’éléments typiques de

presque toute sorte de document– éléments structuraux (divisions, paragraphes,

vers, discours dramatiques, titres, notes, listes...)

– éléments descriptifs (noms, dates, engras...)– modifications éditorialles– liens, références...

Page 38: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

L’en-tête TEI

• description bibliographique normalisée– du document electronique (titre, responsables, maison

d’édition, source....)

– de son encodage (éléments presents, codes internes...)

– de sa classification (sujets, genres...)

– de son état de revision

• facilite la découverte des ressources sur réseau et dans les bases de données

Page 39: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 39

Exemple d'un entete TEI

<teiHeader><fileDesc><titleStmt><title>Thomas Paine: Common sense, a

machine-readable transcript</title> <respStmt><resp>compiled by</resp><name>Jon K Adams</name></respStmt></titleStmt><publicationStmt> <distributor>Oxford Text Archive</distributor>

</publicationStmt><sourceDesc><bibl>The complete writings of Thomas

Paine,collected and edited by Phillip S. Foner (New York, Citadel Press, 1945) </bibl></sourceDesc>

</fileDesc><teiHeader>

<teiHeader><fileDesc><titleStmt><title>Thomas Paine: Common sense, a

machine-readable transcript</title> <respStmt><resp>compiled by</resp><name>Jon K Adams</name></respStmt></titleStmt><publicationStmt> <distributor>Oxford Text Archive</distributor>

</publicationStmt><sourceDesc><bibl>The complete writings of Thomas

Paine,collected and edited by Phillip S. Foner (New York, Citadel Press, 1945) </bibl></sourceDesc>

</fileDesc><teiHeader>

Page 40: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Un jeu de balises de base...

• définit les composants fondamentaux des documents

• bases définies:–prose, poésie, théâtre–transcription du discours oral–dictionnaires, terminologies

• on peut aussi mélanger les bases–(avec précaution)

Page 41: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Un jeu de balises additionel...

• ajoute des éléments ou attributs specialisés

• sont definis:– linking (liens, jalons, segmentation &c.)– analyse et interprétation,– structures de traits (feature structures)– manuscrits et sources primaires– apparat critique– études onomastiques– formules, tables, graphiques– méta-informations pertinentes aux corpus

• etcetera

Page 42: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Attributs globaux

• tout élément est membre de la classe «globale», et donc porte les attributs suivants:– id (identification unique)– n (identification locale)– lang (langage, identification du WSD rélévant)– rend (rendition)

• on peut étendre la classe globale en choisissant des jeux additionels

Page 43: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Modifications

• apres avoir choisi sa pizza, on peut aussi– renommer un élément...– supprimer un élément...– ajouter un élément ou changer sa définition

• En "cuisinant" sa pizza, on peut l'exporter en XML ou SGML simple

• http://www.tei-c.org/Software/pizza.html

Page 44: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 45

Using the TEI

• Which modules will you use?

• How will you customize them?

• What additional constraints are needed?

• What software will you develop?

• Where will it all be documented?

Page 45: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Quelques applications de la TEI

TEI Lite

Manuscrits

Hypertext

Page 46: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

TEI Lite: une modification exemplaire

• sous-ensemble du noyau avec en plus:– hypertext («HyTime for Idiots»)– interprétation analytique– figures, tables

• en service à plusieurs Text Archives, Etext Centers etc.

• documentés dans le manuel TEIU5, • voir http://www.tei-c.org/Lite/

Version francaise chez Cahiers Gutenberg!!Version francaise chez Cahiers Gutenberg!!

Page 47: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

• a l’interieur d’un seul document,

• <ptr> (sans contenu) or <ref> (avec contenu)

• doivent pointer sur une identification (ID)

References

See especially <ref target='SEC12'> section 12 on page 34</ref>. See especially <ptr target='SEC12'/>....<div id='sec12'> <head>Concerning Identifiers</head>

See especially <ref target='SEC12'> section 12 on page 34</ref>. See especially <ptr target='SEC12'/>....<div id='sec12'> <head>Concerning Identifiers</head>

Page 48: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

X-Pointers

• pour pointer en dehors du document courant ou sur des objets non-SGML

• <xptr> (empty element) or <xref> (with content)

• pointent sur en étendu specifié par une echelle de location (a l’interieur d’un entité nommé par l’attribut doc)

see especially <xptr doc='doc2' from="ID (SEC12)"> see especially <xptr doc='doc2' from="DESCENDANT (2 DIV1) (4 P) CHILD (1 QUOTE LANG LAT)">

see especially <xptr doc='doc2' from="ID (SEC12)"> see especially <xptr doc='doc2' from="DESCENDANT (2 DIV1) (4 P) CHILD (1 QUOTE LANG LAT)">

Page 49: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Liens independent

• On peut specifier que deux objets sont liés en pointant sur tous les deux avec un <link>

• qui permet d’encoder une correspondence ou alignment

<xptr id='x1' doc='xdoc'/><xptr id='x2' doc='ydoc'/><link targets="x1 x2"/>

<xptr id='x1' doc='xdoc'/><xptr id='x2' doc='ydoc'/><link targets="x1 x2"/>

Page 50: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines
Page 51: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Lyon, 2001 53

A three way alignment

<div id=E98 lang=EN><head>The Study</head><seg id=E9801>The Study</seg><seg id=E9802>is a place</seg><seg id=E9803>where a Student,</seg><seg id=E9804>a part from men,</seg><seg id=E9805>sitteth alone,</seg><seg id=E9806>addicted to his

Studies,</seg><seg id=E9807>whilst he readeth</seg><seg id=E9808>Books,</seg>

<div id=E98 lang=EN><head>The Study</head><seg id=E9801>The Study</seg><seg id=E9802>is a place</seg><seg id=E9803>where a Student,</seg><seg id=E9804>a part from men,</seg><seg id=E9805>sitteth alone,</seg><seg id=E9806>addicted to his

Studies,</seg><seg id=E9807>whilst he readeth</seg><seg id=E9808>Books,</seg>

<div id=L98 lang=LA> <head>Mus&eacute;um</head>

<seg id=L9801>Museum</seg><seg id=L9802>est locus</seg><seg id=L9803>ubi Studiosus,</seg><seg id=L9804>secretus ab hominibus,<seg id=L9805>studiis deditus,</seg><seg id=L9806>dum lectitat</seg>

<div id=L98 lang=LA> <head>Mus&eacute;um</head>

<seg id=L9801>Museum</seg><seg id=L9802>est locus</seg><seg id=L9803>ubi Studiosus,</seg><seg id=L9804>secretus ab hominibus,<seg id=L9805>studiis deditus,</seg><seg id=L9806>dum lectitat</seg>

<xptr n='1' id=p981 doc=com98><xptr n='2' id=p982 doc=com98 from='space (2d) (75 5) (133 75)'><xptr n='3' id=p983 doc=com98 from='space (2d) (55 42) (90 60)'>

<xptr n='1' id=p981 doc=com98><xptr n='2' id=p982 doc=com98 from='space (2d) (75 5) (133 75)'><xptr n='3' id=p983 doc=com98 from='space (2d) (55 42) (90 60)'>

<linkGrp type=alignment> <link targets='E9801 L9801 p981'> <link targets='E9802 L9802 '> <link targets='E9803 L9803 p982'> <link targets='E9804 L9804 '> <link targets='E9805 L9805 '> <link targets='E9808 L9808 p983'></linkGrp>

<linkGrp type=alignment> <link targets='E9801 L9801 p981'> <link targets='E9802 L9802 '> <link targets='E9803 L9803 p982'> <link targets='E9804 L9804 '> <link targets='E9805 L9805 '> <link targets='E9808 L9808 p983'></linkGrp>

Page 52: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

The Beowulf Manuscript

MS Cotton Vitellius A xv

voir http://portico.bl.uk/

Page 53: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Version imprimée (Wrenn,1953)

Hwæt we Gar-Dena in gear-dagum

þeod-cyninga þrym gefrunon,

hu ða æþelingas ellen fremedon.

Oft Scyld Scefing sceaþena þreatum,

monegum mægþum meodo-setla ofteah;

egsode Eorle, syððan ærest wearð

feasceaft funden...

Page 54: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Transcription or Editing?

• tout encodage est forcément une interpretation

• le but pourrait être– représenter l’objet originel (transcription)– représenter l’objet idéal (editing)

• une distinction imprécise

Page 55: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Version informatisée (1)

<lg><l>Hw&aelig;t we Gar-Dena in gear-dagum</l>

<l>&thorn;eod-cyninga &thorn;rym gefrunon,</l>

<l>hu &eth;a &aelig;&thorn;elingas ellen fremedon.<l></lg>

<lg><l>Oft Scyld Scefing scea&thorn;ena &thorn;reatum,</l>

<l>monegum m&aelig;g&thorn;um meodo-setla ofteah; </l>

<l>egsode Eorle, sy&eth;&eth;an ærest wear&eth;</l>

<l>feasceaft funden...

Page 56: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Version informatisée (2)

<hi rend='caps'>&H;&wynn;&aelig;t we garde</hi><lb/>

na in gear-dagum &thorn;eod cyninga<lb/>&thorn;rym gefrunon hu&eth;a &aelig;&thorn;elinga&s; ellen<lb/>

fremedon. oft Scyld Scefing scea&thorn;e<add>na</add><lb/>

&thorn;reatum, moneg<expan sic='&ubar;'>um</expan> mægþum meodo-setla <lb/>

of<damage desc=blot/>teah egsode <sic corr='Eorle'>eorl</sic> sy&eth;&eth;an ærest wear&eth;<lb/>

fea sceaft funden...

Page 57: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Transcrire c’est distinguer...

• modifications originelles

• interventions d’editeur/scripteur/transcripteur

• scripteurs et changements de scripteur

• endommagement physique au medium

• usage de blancs, majuscules, format visuel

Page 58: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

par exemple...

• les omissions sont balisés avec <gap>

• la regularization (ou l’inverse) avec <reg> ou <orig>

<gap reason='illegible' desc='bloodstain'> <gap reason='sampling' desc='figure'>

<gap reason='illegible' desc='bloodstain'> <gap reason='sampling' desc='figure'>

<q>I <reg resp="LB" orig="telled"> told</reg> Mary how it would be,</q> he said:

<q>I <orig reg="told">telled</orig> Mary how it would be,</q> he said:

<q>I <reg resp="LB" orig="telled"> told</reg> Mary how it would be,</q> he said:

<q>I <orig reg="told">telled</orig> Mary how it would be,</q> he said:

Page 59: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Normalization ou correction?

• on peut signaler les deux, au meme temps que l’originel

... for his nose was as sharp as a pen and

<reg sic="a'">he</reg>

<corr sic='table' ed='Gifford'>babbl'd</corr>

of green <reg sic='feelds'>fields</reg>

... for his nose was as sharp as a pen and

<reg sic="a'">he</reg>

<corr sic='table' ed='Gifford'>babbl'd</corr>

of green <reg sic='feelds'>fields</reg>

Page 60: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Comment distinguer les responsables?

• avec l’attribute hand (main): – <l n=108>Whe hadon our wyfe at our wil– <add hand=manus2>and well</add>– fore to ware.</l>

<l n='108'>Whe hadon our wyfe at our wil

<add hand='manus2'>and well</add>

fore to ware.</l>

<l n='108'>Whe hadon our wyfe at our wil

<add hand='manus2'>and well</add>

fore to ware.</l>

oft Scyld Scefing

scea&thorn;e<add hand='ed1'>na</add><lb/>

oft Scyld Scefing

scea&thorn;e<add hand='ed1'>na</add><lb/>

Page 61: XML + TEI: un marriage fait aux cieux? Comment utiliser aujourd'hui la Text Encoding Initiative pour structurer les documents en lettres et sciences humaines

Apparatus criticus informatiséExperience (though non auctorité

Were in this world) is right ynough for me

To speke of wo that is in mariage

1 Experience El Hg : Experiment La...

<l><app><rdg wit='El Hg'>Experience</rdg><rdg wit='La'>Experiment</rdg></app>&th;oug&h; non auctorite</l>

<l><app><rdg wit='El Hg'>Experience</rdg><rdg wit='La'>Experiment</rdg></app>&th;oug&h; non auctorite</l>