68
Introduction de la TEI pour la structuration et l'édition des correspondances 10 novembre 2014, Heidelberg Giancarlo Luxardo Cette présentation est mise à disposition selon les termes de la Licence Creative Commons Attribution Pas d’Utilisation Commerciale - Pas de Modification 3.0 France Praxiling UMR 5267 Université de Montpellier 3 – CNRS

Introduction de la TEI pour la structuration et l'édition des correspondances

Embed Size (px)

Citation preview

Page 1: Introduction de la TEI pour la structuration et l'édition des correspondances

Introduction de la TEI pourla structuration et l'édition

des correspondances

10 novembre 2014, Heidelberg Giancarlo Luxardo

Cette présentation est mise à disposition selon les termes de la Licence Creative Commons Attribution

Pas d’Utilisation Commerciale - Pas de Modification 3.0 France

Praxiling UMR 5267Université de Montpellier 3 – CNRS

Page 2: Introduction de la TEI pour la structuration et l'édition des correspondances

• Documents

• Processus

• Outils

• Modèles

Page 3: Introduction de la TEI pour la structuration et l'édition des correspondances

• Documents

• Processus

• Outils

• Modèles

Page 4: Introduction de la TEI pour la structuration et l'édition des correspondances

Documents

Qu’est-ce qu’une carte postale de Poilu ?

Page 5: Introduction de la TEI pour la structuration et l'édition des correspondances

Documents

Qu’est-ce qu’une carte postale de Poilu ?

Page 6: Introduction de la TEI pour la structuration et l'édition des correspondances

Documents

Qu’est-ce qu’une carte postale de Poilu ?

Ceci n’est pas une carte postale !

Page 7: Introduction de la TEI pour la structuration et l'édition des correspondances

Documents

Page 8: Introduction de la TEI pour la structuration et l'édition des correspondances

Documents

La Trahison des images, René Magritte (1929)

Page 9: Introduction de la TEI pour la structuration et l'édition des correspondances

Documents

Ceci n'est pas une pipe : l'importance de la modélisation pour les humanités numériques

Lou Burnard

le Mardi, 16 Décembre, 2014 - de 12:15 à 13:15Maison des Sciences de l'Homme-Alpes Domaine Universitaire de Grenoble St-Martin d’Hères,

Page 10: Introduction de la TEI pour la structuration et l'édition des correspondances

Documents

Une carte postale de Poilu ?• Une source primaire, ou• une représentation :

o un facsimile numérique (une image, plusieurs images)

o une transcription (un texte)o une mise en pageo des annotations (lisibilité ?)o des corrections orthographiqueso des métadonnéeso et aussi… une lecture audio !

une combinaison de…

Page 11: Introduction de la TEI pour la structuration et l'édition des correspondances

Données non-structurées

Qu’est-ce qu’une carte postale de Poilu ?

Traitement de texte

(fichier : doc, docx, odt…)

Présenter un document

Page 12: Introduction de la TEI pour la structuration et l'édition des correspondances

Données structurées

Qu’est-ce qu’une carte postale de Poilu ?

Base de données

(exécuter des requêtes)

Rechercher des documents

(ex : toutes les correspondances du mois d’août 1914 écrites par…)

Page 13: Introduction de la TEI pour la structuration et l'édition des correspondances

correspondence

card letter

+ image+ text+ metadata

surface

1…n

Données structurées

Modélisation de données

Page 14: Introduction de la TEI pour la structuration et l'édition des correspondances

Données semi-structurées

Qu’est-ce qu’une carte postale de Poilu ?

XML

tags

Annoter un document

Page 15: Introduction de la TEI pour la structuration et l'édition des correspondances

<meta charset="UTF-8">Aix-les-Bains,épouse<body>Je t'envoie donc trois cartes dans la même envelloppe<br>tu les recevras au moin tous a la fois et elle sont<br>toute numeroter pour les lires. je te disait donc<br>chère femme bien aimès que je t'ecrit ce soir 19 août<br>le dernnier soir que je suis à Aix en compagnie de<br>Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br>mais ce qu'il y a desagréable c'est que tu va recevoir<br>ces cartes huit jours apres que nous somme ici<br>et que nous avons reçu tous les deux deux lettre le<br>17 courant qui était dater par vous du 12 et du<br>13août et que vous ne savier pas encor que nous<br>étions ici a Aix. Enfin nous sonme tous bien portant et<br>tous se passe bien les francais son vainqueur partout<br>a bientot les plaisir de vous voir Alfred<br></body>

Données semi-structurées

Page 16: Introduction de la TEI pour la structuration et l'édition des correspondances

<meta charset="UTF-8">Aix-les-Bains,épouse<body>Je t'envoie donc trois cartes dans la même envelloppe<br>tu les recevras au moin tous a la fois et elle sont<br>toute numeroter pour les lires. je te disait donc<br>chère femme bien aimès que je t'ecrit ce soir 19 août<br>le dernnier soir que je suis à Aix en compagnie de<br>Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br>mais ce qu'il y a desagréable c'est que tu va recevoir<br>ces cartes huit jours apres que nous somme ici<br>et que nous avons reçu tous les deux deux lettre le<br>17 courant qui était dater par vous du 12 et du<br>13août et que vous ne savier pas encor que nous<br>étions ici a Aix. Enfin nous sonme tous bien portant et<br>tous se passe bien les francais son vainqueur partout<br>a bientot les plaisir de vous voir Alfred<br></body>

Ceci n’est pas un fichier XML ! (mais : pseudo-XML)

Données semi-structurées

Page 17: Introduction de la TEI pour la structuration et l'édition des correspondances

<?xml version="1.0" encoding="UTF-8"?><card><head>Aix-les-Bains,épouse</head><body>Je t'envoie donc trois cartes dans la même envelloppe<br/>tu les recevras au moin tous a la fois et elle sont<br/>toute numeroter pour les lires. je te disait donc<br/>chère femme bien aimès que je t'ecrit ce soir 19 août<br/>le dernnier soir que je suis à Aix en compagnie de<br/>Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/>mais ce qu'il y a desagréable c'est que tu va recevoir<br/>ces cartes huit jours apres que nous somme ici<br/>et que nous avons reçu tous les deux deux lettre le<br/>17 courant qui était dater par vous du 12 et du<br/>13août et que vous ne savier pas encor que nous<br/>étions ici a Aix. Enfin nous sonme tous bien portant et<br/>tous se passe bien les francais son vainqueur partout<br/>a bientot les plaisir de vous voir Alfred<br/></body></card>

Données semi-structurées

Page 18: Introduction de la TEI pour la structuration et l'édition des correspondances

<?xml version="1.0" encoding="UTF-8"?><card><head>Aix-les-Bains,épouse</head><body>Je t'envoie donc trois cartes dans la même envelloppe<br/>tu les recevras au moin tous a la fois et elle sont<br/>toute numeroter pour les lires. je te disait donc<br/>chère femme bien aimès que je t'ecrit ce soir 19 août<br/>le dernnier soir que je suis à Aix en compagnie de<br/>Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/>mais ce qu'il y a desagréable c'est que tu va recevoir<br/>ces cartes huit jours apres que nous somme ici<br/>et que nous avons reçu tous les deux deux lettre le<br/>17 courant qui était dater par vous du 12 et du<br/>13août et que vous ne savier pas encor que nous<br/>étions ici a Aix. Enfin nous sonme tous bien portant et<br/>tous se passe bien les francais son vainqueur partout<br/>a bientot les plaisir de vous voir Alfred<br/></body></card>

Ceci n’est pas un document TEI !

Données semi-structurées

Page 19: Introduction de la TEI pour la structuration et l'édition des correspondances

Nommage des fichiers (scripteur, date) :

andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xmlandre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xmlandre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xmlandre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml

Autres métadonnées : andre-1-140807.jpg

Identité du scripteur laurent-1-150515.jpg

Lieu d’envoi pierre-1-141029.jpg

Destinataire

Données semi-structurées

Page 20: Introduction de la TEI pour la structuration et l'édition des correspondances

Nommage des fichiers (scripteur, date) :

andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xmlandre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xmlandre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xmlandre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml

Autres métadonnées : andre-1-140807.jpg

Identité du scripteur laurent-1-150515.jpg

Lieu d’envoi pierre-1-141029.jpg

Destinataire

Ceci n’est pas une base de données !

Données semi-structurées

Page 21: Introduction de la TEI pour la structuration et l'édition des correspondances

• Documents

• Processus

• Outils

• Modèles

Page 22: Introduction de la TEI pour la structuration et l'édition des correspondances

Numériser Transcrire

Page 23: Introduction de la TEI pour la structuration et l'édition des correspondances

Je t'envoie donc trois cartes dans la même envelloppe

tu les recevras au moin tous a la fois et elle sont

toute numeroter pour les lires. je te disait donc

chère femme bien aimès que je t'ecrit ce soir 19 août

le dernnier soir que je suis à Aix en compagnie de

Marius buvant un verre de rhum bi Thé au rhum

Numériser Transcrire

Page 24: Introduction de la TEI pour la structuration et l'édition des correspondances

Je t'envoie donc trois cartes dans la même envelloppe

tu les recevras au moin tous a la fois et elle sont

toute numeroter pour les lires. je te disait donc

chère femme bien aimès que je t'ecrit ce soir 19 août

le dernnier soir que je suis à Aix en compagnie de

Marius buvant un verre de rhum bi Thé au rhum

<unclear>disait</unclear><strikethrough>rhum</strikethrough>

TranscrireNumériser Transcrire

Page 25: Introduction de la TEI pour la structuration et l'édition des correspondances

Numériser Transcrire

Page 26: Introduction de la TEI pour la structuration et l'édition des correspondances

St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent

et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi

que Dombasle qui se trouve encor mieux a droite nous somme

ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle

au moin dix milles homme de troupes ça fait déjas quelque chose

comme soldats.

Numériser Transcrire

Page 27: Introduction de la TEI pour la structuration et l'édition des correspondances

St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent

et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi

que Dombasle qui se trouve encor mieux a droite nous somme

ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle

au moin dix milles homme de troupes ça fait déjas quelque chose

comme soldats.

Carte postale sur 4 pages Position ?

Numériser Transcrire

Page 28: Introduction de la TEI pour la structuration et l'édition des correspondances

Numériser Transcrire

Page 29: Introduction de la TEI pour la structuration et l'édition des correspondances

Mardi Le 25 Janvier 1916

Cher beau-frère

Je repons à ton aimable carte que j'ai reçu hier

date du quelle ma fait bien plaisir de te savoir

en bonne santé car il et de méme pour moi

Je suis été à Baillargue Dimanche toute la famille

va bien mon père étaient à Montpellier pour

voir sil vous lez tuer les cochons cela fait qui les

turons Mercredi ou Jeudi je pense que tu goutera de

Numériser Transcrire

Page 30: Introduction de la TEI pour la structuration et l'édition des correspondances

Mardi Le 25 Janvier 1916

Cher beau-frère

Je repons à ton aimable carte que j'ai reçu hier

date du quelle ma fait bien plaisir de te savoir

en bonne santé car il et de méme pour moi

Je suis été à Baillargue Dimanche toute la famille

va bien mon père étaient à Montpellier pour [?]

voir sil vous lez tuer les cochons cela fait qui les

turons Mercredi ou Jeudi je pense que tu goutera de

[?] <gap/>

Numériser Transcrire

Page 31: Introduction de la TEI pour la structuration et l'édition des correspondances

Je t'envoie donc trois cartes dans la même envelloppe

tu les recevras au moin tous a la fois et elle sont

toute numeroter pour les lires.

Structurer Annoter

Page 32: Introduction de la TEI pour la structuration et l'édition des correspondances

Je t'envoie donc trois cartes dans la même envelloppe

tu les recevras au moin tous a la fois et elle sont

toute numeroter pour les lires.

Je t'envoie donc trois cartes dans la même enveloppe,

tu les recevras au moins toutes à la fois et elles sont

toutes numérotées pour les lire.

Structurer Annoter

Page 33: Introduction de la TEI pour la structuration et l'édition des correspondances

Tableau lexical :

avoir_VER:pres 3536ne_ADV 1582pas_ADV 1495être_VER:pres 1457bien_ADV 1107lettre_NOM 730bon_ADJ 604petit_ADJ 572faire_VER:pres 537recevoir_VER:pper 517plus_ADV 494jour_NOM 430faire_VER:infi 424santée_NOM 405

Structurer Analyser

Page 34: Introduction de la TEI pour la structuration et l'édition des correspondances

Analyse de données

Structurer Analyser

Page 35: Introduction de la TEI pour la structuration et l'édition des correspondances

Objectif TEI

Utiliser un langage de validation ?

DTD

XML Schema

Schematron

ODD

Structurer Publier

Page 36: Introduction de la TEI pour la structuration et l'édition des correspondances

Objectif TEI

Utiliser un langage de validation ?

DTD

XML Schema

Schematron

ODD

Structurer Publier

Page 37: Introduction de la TEI pour la structuration et l'édition des correspondances

A partir d’une représentation, publier :

• sur le Web• sur différents sites• sur différentes présentations• sur le papier (?)

Structurer Publier

Page 38: Introduction de la TEI pour la structuration et l'édition des correspondances

• Documents

• Processus

• Outils

• Modèles

Page 39: Introduction de la TEI pour la structuration et l'édition des correspondances

MS-WordOpenOfficeLibreOffice…

Traitement de texte

Page 40: Introduction de la TEI pour la structuration et l'édition des correspondances

Problèmes :

AutoCorrectAutoFormatAutoText…coeur Cœurapostrophestraits d’union…

Traitement de texte

Page 41: Introduction de la TEI pour la structuration et l'édition des correspondances

Notepad

Notepad++ (support XML)

Komodo Edit (multi-plateforme)…

Editeurs de texte

Page 42: Introduction de la TEI pour la structuration et l'édition des correspondances

Editeurs XML

Page 43: Introduction de la TEI pour la structuration et l'édition des correspondances

Logiciel de textométrie

Page 44: Introduction de la TEI pour la structuration et l'édition des correspondances

• Documents

• Processus

• Outils

• Modèles

Page 45: Introduction de la TEI pour la structuration et l'édition des correspondances

Text Encoding Initiative

• un standard ?• une norme ?• des recommendations ?

La TEI c'est quoi?Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml

TEI

Page 46: Introduction de la TEI pour la structuration et l'édition des correspondances

Text Encoding Initiative

• un standard ?• une norme ?• des recommandations ?

La TEI c'est quoi?Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml

Ceci n’est pas un format !

TEI

Page 47: Introduction de la TEI pour la structuration et l'édition des correspondances

2. Les enjeux de la TEI"Text Encoding for Interchange"• faciliter la création, l’échange, et l’intégration des données

textuelles informatisées o toute sorte de texteo toutes les langues o toute origine temporelle ou culturelle

• La TEI s'adresse également ...o aux débutants, cherchant des solutions bien connues et

consensuelleso aux experts, cherchant à créer de nouvelles solutions

3. Les buts de la TEI• faire des recommandations qui se basent sur un consensus existant• préférer les solutions générales à celles spécifiques à une discipline• en même temps permettant la spécialisation et l'extension

TEI

Page 48: Introduction de la TEI pour la structuration et l'édition des correspondances

11 Representation of Primary Sources

TEI

Page 49: Introduction de la TEI pour la structuration et l'édition des correspondances

Un balisage sur :

• la structure physique du document <surface xml:id="alfred-1-141202-1-a" type="verso" n="1v"> <graphic url="../../Images/alfred-1-141202-1-a.jpg"/> </surface>

• la structure logique du document<body><opener>St Nicolas du Port le 2 décembre 1914 Chère femme et cher fils<lb/></opener><p>

• la structure sémantique du document <rs type="recipient">épouse</rs>

TEI

Page 50: Introduction de la TEI pour la structuration et l'édition des correspondances

XSL stylesheets for TEI XML

This is a family of XSLT 2.0 stylesheets to transform TEI XML documents to various formats, including XHTML, LaTeX, XSL Formatting Objects, ePub, plain text, RDF, JSON; and to/from Word OOXML (docx) and OpenOfice (odt). They concentrate on the core TEI modules which are used for simple transcription and ‘born digital’ writing. It is important to understand that they do not: • cover all TEI elements and possible attribute values• attempt to define a standard TEI processing or rendering

model

TEI-XSL

Page 51: Introduction de la TEI pour la structuration et l'édition des correspondances

Modèles d’édition

La mise en place d’un workflow dépend de :

o Ressources, contexte

o Modèle de document, métadonnées

o Processus : numériser - transcrire - annoter - publier - exploiter

Page 52: Introduction de la TEI pour la structuration et l'édition des correspondances

(1) édition des textes, traitements textométriques

(2) représentation des sources primaires, publication

(3) workflow multimodal

Edition en trois phases

Page 53: Introduction de la TEI pour la structuration et l'édition des correspondances

Contexte :• divers lieux de numérisation• stagiaires effectuent transcriptions• chercheurs dans plusieurs structures• habitude des formats Office (doc, odt, pdf…)• exigence de statistiques textuelles

(1) édition des textes

Page 54: Introduction de la TEI pour la structuration et l'édition des correspondances

Contexte :• divers lieux de numérisation• stagiaires effectuent transcriptions• chercheurs dans plusieurs structures• habitude des formats Office (doc, odt, pdf…)• demande de statistiques textuelles

• TXM• définition d’un format pseudo-XML (mal formé !)• pas d’éditeur XML (oXygen ?)

(1) édition des textes

Page 55: Introduction de la TEI pour la structuration et l'édition des correspondances

conversion

(1) édition des textes

pseudo-XML

identities.csv

XML/w

metadata.csv

corpus14.css

Page 56: Introduction de la TEI pour la structuration et l'édition des correspondances

conversion

(1) édition des textes

pseudo-XML

identities.csv

XML/w

metadata.csv

corpus14.css

Problème : retro-conversions ?

Page 57: Introduction de la TEI pour la structuration et l'édition des correspondances

(1) édition des textes

Page 58: Introduction de la TEI pour la structuration et l'édition des correspondances

(1) édition des textes

Page 59: Introduction de la TEI pour la structuration et l'édition des correspondances

Contexte :• hébergement sur Ortolang• consultation de textes et images en vis-à-vis• métadonnées exposées à moissonneurs OAI-PMH• indexation par moteurs de recherche

(2) représentation des sources primaires

Page 60: Introduction de la TEI pour la structuration et l'édition des correspondances

Contexte :• hébergement sur Ortolang• consultation de textes et images en vis-à-vis• métadonnées exposées à moissonneurs OAI-PMH• indexation par moteurs de recherche

• TEI module: transcr (Representation of Primary Sources)

…parallel / embedded transcription • conversion de XML/w à TEI• fusion images et textes sur la base du schéma de

nommage• pas d’éditeur XML, mais un éditeur polyvalent (Komodo)

(2) représentation des sources primaires

Page 61: Introduction de la TEI pour la structuration et l'édition des correspondances

conversion

(2) représentation des sources primaires

XML/w

identities.csv

metadata.csv

Dossiers images

XML-TEI

sous-corpus scripteurs

Images

Page 62: Introduction de la TEI pour la structuration et l'édition des correspondances

<creation> <name>Alfred Foray</name> <date when="1914-08-19">19-08-1914</date> <rs type="place">Aix-les-Bains</rs> <rs type="recipient">épouse</rs> </creation> </profileDesc></teiHeader><!-- L'élément <facsimile> décrit l'ensemble d'images associées à la correspondance (carte="card", lettre="letter") --><facsimile> <surfaceGrp type="card" n="1"> <!-- Chaque image doit être décrite suivant le modèle: <surface xml:id="*" type="verso|recto" n="?v|?r"><graphic url="*.jpg"/></surface> --> <surface xml:id="alfred-1-140819-2-ph" type="recto" n="1r"> <graphic url="../../Images/alfred-1-140819-2-ph.jpg"/> </surface> <surface xml:id="alfred-1-140819-2" type="verso" n="1v"> <graphic url="../../Images/alfred-1-140819-2.jpg"/> </surface> </surfaceGrp></facsimile><text xml:lang="fr" facs="#alfred-1-140819-2"><!-- L'élément <opener> (optionnel) regroupe une ligne de date (et lieu) <dateline> et une formule de politesse <salute> --><body><opener>Je t'envoie donc trois cartes dans la même envelloppe<lb/></opener><p>tu les recevras au moin tous a la fois et elle sont<lb/>toute numeroter pour les lires. je te disait donc<lb/>chère femme bien aimès que je t'ecrit ce soir 19 août<lb/>le dernnier soir que je suis à Aix en compagnie de<lb/>Marius buvant un verre de <del rend="overstrike">rhum</del> <del rend="overstrike">bi</del> Thé au rhum<lb/>mais ce qu'il y a desagréable c'est que tu va recevoir<lb/>ces cartes huit jours apres que nous seront<lb/>partit puisque voilas 15 jours que nous somme ici<lb/>et que nous avons reçu tous les deux deux lettre le<lb/>17 courant qui était dater par vous du 12 et du<lb/>13 août et que vous ne savier pas encor que nous<lb/>étions ici a Aix. Enfin nous sonme tous bien portant et<lb/>tous se passe bien les francais son vainqueur partout<lb/>a bientot les plaisir de vous voir Alfred<lb/></p></body><!-- L'élément <closer> (optionnel) regroupe une formule de politesse <salute> et une signature <signed> --></text></TEI>

(2) représentation des sources primaires

Page 63: Introduction de la TEI pour la structuration et l'édition des correspondances

(2) représentation des sources primaires

Ce qu’on ne fait pas :

document TEI qui contient une spécification de schema :ODD (One Document Does it all)

Page 64: Introduction de la TEI pour la structuration et l'édition des correspondances

(2) représentation des sources primairesPortail TXM

Page 65: Introduction de la TEI pour la structuration et l'édition des correspondances

Contexte :• Publication de nouvelles versions du corpus• Alterner transcription fidèle et orthonormée• Ajouter carnets de guerre• Gérer plusieurs langues• Format unique pour TXM et Ortolang ?• Import en TXM d’un format TEI

(3) workflow multimodal

Page 66: Introduction de la TEI pour la structuration et l'édition des correspondances

Contexte :• Publication de nouvelles versions du corpus• Alterner transcription fidèle et normée• Ajouter carnets de guerre• Gérer plusieurs langues• Format unique pour TXM et Ortolang ?• Import en TXM d’un format TEI

Work in progress

(3) workflow multimodal

Page 67: Introduction de la TEI pour la structuration et l'édition des correspondances

Je ne voi rienplus a vous dirre pour le momentet jen profite pour vousremerçier !

Page 68: Introduction de la TEI pour la structuration et l'édition des correspondances

Je ne voi rienplus a vous dirre pour le momentet jen profite pour vousremerçier !

Ceci n’est pas une citation de Laurent !