59
Atelier pratique d’édition XML/TEI Emmanuelle Morlock IGE CNRS, UMR 5189 Proposé dans le cadre du Stage d’ecdotique 2015 de l’Institut Sources Chrétiennes, Lyon, 18/02/2015 cf. http://ecdotique.hypotheses.org/stages-et-formation/la-semaine-decdotique

18 02-2015 atelier-pratique-xml-tei-stage-d-ecdotique-2015

Embed Size (px)

Citation preview

Atelier pratique d’édition XML/TEIEmmanuelle MorlockIGE CNRS, UMR 5189

Proposé dans le cadre du Stage d’ecdotique 2015 de l’Institut Sources Chrétiennes, Lyon, 18/02/2015

cf. http://ecdotique.hypotheses.org/stages-et-formation/la-semaine-decdotique

Objectifs de l’atelier

★ Présenter la TEI et quelques notions technique indispensables

★ Montrer que le balisage est une activité intellectuelle et analytique

★ Pratiquer l’encodage en deux étapes :○ Encodage d’un court texte○ Encodage d’un apparat critique à partir de votre “cahier de collation”

★ Utiliser des outils de visualisation du résultat de l’encodage et de relecture○ Simple feuille de style CSS personnalisable selon des objectifs de relecture○ Critical edition toolbox : pour faciliter le contrôle des encodages complexes○ Modèle d’édition critique DIPLE (Ec. Nat. des Chartes)

○ Versioning Machine pour la visualisation parallèle de plusieurs témoins

IntroductionQu’est-ce que la TEI ?

Pourquoi utiliser XML pour une édition numérique ?

Quelques exemples commentés

La TEI c’est tout à la fois...

★ Un cadre d’encodage gratuit et libre○ un cadre conceptuel pour la représentation des textes○ une architecture informatique modulaire et évolutive○ des “Guidelines” = documentation utilisateur des recommandations d’encodage○ un modèle de document

★ Un écosystème ○ des outils très nombreux et variés○ un consortium international○ une communauté d’utilisateurs actifs

★ Plus qu’un “format standard” ○ un mécanisme pour produire des schémas de contrôle et de validation personnalisés○ un mécanisme permettant de rendre explicite des lectures/interprétations d’un texte○ un format permettant à l’archivage à long terme des données numériques

Mais ce n’est pas...

★ Le seul standard dans le domaine de la représentation des textes★ Un cadre contraingnant ( = “explique-moi ce que tu fais” et pas “fais ainsi”)★ Non-interprétatif ou “objectif”★ Utilisé de manière uniforme (même au sein d’un même projet)★ Un standard stable et non-évolutif★ Une finalité en soi★ Un format de publication automatique★ L’assurance de la préservation à long très terme...

cf. James Cummings, “What is the TEI? And why should I care? “ (27/01/2015) <https://prezi.com/jcvxvvzecc1y/what-is-

the-tei-and-why-should-i-care-a-brief-introduction-for-classicists/>

www.tei-c.org

Pourquoi utiliser XMLpour une édition numérique de sources ?

XML en (très) bref

1. XML ne sert pas à afficher les données mais à les décrire. Il ne fait rien. Appliqué à la représentation des textes, il permet de décrire notamment leur structure (livre, section, chapitre, paragraphe, phrase, mot…)

2. Les balises ne sont pas prédéfinies On peut librement créer ses propres balises (en fonction de la structure logique qu’on choisit de représenter par exemple)

3. On peut l’utiliser avec une “grammaire” de balises (DTD ou Schéma)Pour donner de la rigueur et encoder avec un langage commun entre projets

4. XML est auto-descriptif et assez facilement lisibleOn peut prendre connaissance de la structure d’un corpus assez rapidement en ouvrant simplement le fichier avec n’importe quel éditeur de texte

Principe du balisage descriptif 1

★ Délimitation de segments de texte de toutes tailles

+

★ Explicitation de leur nature ou fonction

<baliseX>Contenu textuel</baliseX>

Balise ouvrante

Balise fermante

Segment balisé

Principe du balisage descriptif 2

★ Les attributs précisent le sens des balises

<handNote xml:id="EP" medium="red-ink">

Ezra Pound's annotations.

</handNote>

Valeur de l’attribut

Attribut

Principe du balisage descriptif 3

★ Le balisage descriptif = décrit les données sans indication de traitement★ Le principe est celui de la séparation du contenu et de la présentation.

★ Comparez :○ <author>Louise Labé</author>○ <span class=”small-caps”>Louise Labé</span>

★ Le but est de décrire la fonction plus que l’apparence du rendu final :○ c’est cela qui offre la flexibilité maximale permettant des chaînes

éditoriales “multi-support” : le rendu est traité à une étape ultérieure, et peut être adapté à chaque support, au contexte de réception ou dispositif de lecture...

Concrètement

Fichier XML :<author><forename>Louise</forename> <surname>Labé</surname></author>

Fichier CSS :surname { font-variant: small-caps; font-family:Times; }

Résultat :Louise LABÉ

Une source unique, des usages multiples

★ Un texte explicité et enrichi au moyen d’un métalangage simple, clair, universel, permettant de baliser n’importe quel type de texte

★ Une source “matrice”, à partir de laquelle on peut produire des versions différentes (vue normalisée vs vue diplomatique ; version pour le web, pour les liseuses, version “grand public, version savante)

★ Un fichier lisible par les humains (contrairement aux fichiers binaires)

★ Un fichier utilisable pour des recherches fines, des extractions ciblées, des analyses automatiques...

★ Un format libre, facilitant l’intéropérabilité

En quoi consiste l’encodage TEI ?

Comparez

● <titre>Phèdre</titre>

● <persName>Phèdre</persName>

● <hi rend=”italics”>Phèdre</Phèdre>

Quelques principes à retenir

★ Texte vs Document○ Le texte est une abstraction que l’on construit et que l’on peut encoder○ Un document est un objet que l’on peut numériser

★ XML considère le texte comme un système de hiérarchies ordonnées d’objets de contenus (les balises doivent être strictement imbriquées)

★ L’encodage consiste à représenter l’information dans des structures arborescentes, en codant ces structures de manière compréhensible à un ordinateur.

Structure d’un fichier TEI

Processus globalpour une édition numérique de sources ?

Quoi encoder ? 4 dimensions principales

★ L’apparence physique et visuelle ○ représentation mimétique +/- transférable d’un support à un autre

★ La dimension linguistique et structurelle○ qu’un lecteur humain peut décoder puis la transcrire ou la traduire

★ La dimension sémantique○ que l’on peut comprendre (ou pas !) et annoter

★ Le contexte de production ou de réception ○ que l’on peut décrire par le biais de métadonnées

Analyse préalable

★ Il s’agit d’identifier :○ les éléments structurants et les caractéristiques principales du doc.○ identifier les caractéristique liées aux centres d’intérêt de l’éditeur

★ Les deux peuvent venir de :○ “pseudo-balisage” : déjà présents dans le document○ explicitations issues du savoir externe de l’analyste

★ Au final, il s’agira toujours d’expliciter ce qui paraît important et les raisons de ses choix d’une manière la plus formalisée possible

Processus

★ Analyse du document = quoi encoder ? = analyse et qualifiation des fonctions des objets d’intérêt

★ Choix des balises / création d’un schéma personnalisé (à l’aide ou non du fichier de spécification ODD (One Document Does it all)

★ Balisage par approfondissements successifs

★ Présenter le document : via des “feuilles de style” CSS ou XSLT○ CSS : simple, attribution de caractéristiques visuelles aux balises○ XSL : plus complexe, permet de transformer le document XML

★ Exploiter le document : langages de requête XPath et XQuery...

Exemples de balisages

Substitution

.

<subst> <subst><del/><add/>

</subst>

.. are all included. <del hand="#RG">It is</del><subst> <add>T</add><del>t</del>

</subst>he expressed

Abréviation avec expansion

.

<abbr> <choice><abbr/><expan/>

</subst>

<choice>

<abbr>&amp;</abbr>

<expan>et</expan>

</choice>

Développement éditorial

.

<ex>

<expan xml:lang=”la”>

<abbr>Imp</abbr>

<ex>erator</ex>

</expan>

Changements de main

.

<handshift> milestone (balise sans contenu)

Lorem ipsum dolor

<handshift medium=”encre-verte” new=”#h1”/>

sit amet

(...)

ailleurs dans le doc :

<handNote xml:id=”h1”>Ecriture très régulière </handshift>

Incertain

.

<unclear>

Vade retro

<unclear reason=”tache-d-encre” cert=”medium” resp=”#EM”>

Satanas

</unclear>

texte restitué

.

<supplied>

Il se retrouvait parmi le <supplied>reason=”erreur-du-scribe”>s</supplied> siens.

Atouts d’un balisage TEIExpressivité

ExploitabilitéEvolutivité

Réutilisabilité

Permet également de repousser certains choix au moment de l’utilisation et pas de la production ! par ex. normalisations : on encode les deux leçons, c’est le lecteur qui choisit !

Exercices pratiques

Programme

1. Prise en main de l’éditeur XML Oxygen Editor

2. Exercice : Transcription d’un court texte

3. Principes de transcription d’un apparat critique

4. Exercice : transcription du cahier de collation

5. Visualisations :

a. Diple (présentation classique avec affichage des variantes au survol de la souris)

b. Versioning machine (voir en parallèle les différents témoins)

Prise en main d’Oxygen Editor

Découverte de l’interface

★ Personnaliser l’espace de travail

★ Préférences : choisir le navigateur par défaut :

○ Safari (de préférence) ou Firefox

★ Expérimenter :

○ saisie d’une balise○ balises possibles dans le contexte○ valeurs possibles d’un attribut○ documentation contextuelle○ CTRL (CMD) + E○ style

Exercice 1Transcription d’une page d’un manuscrit

de Flaubert extrait des Dossiers documentaires de Bouvard et Pécuchet

Ms g226 (8) f°198 - conservé à la Bibliothèque municipale de Rouen

http://www.dossiers-flaubert.fr/cote-g226_8_f_198__r____

Exercice de transcription en TEI

★ Depuis Oxygen, ouvrez le fichier : “TEI_exercice_SC/content/modele_exercice_0.xml”

★ Le fichier à transcrire se trouve dans : “TEI_exercice_SC/sources/exercice-flaubert”

★ Processus à suivre :a. Analyser le document b. Copier le texte dans l’éditeur (depuis “DBP_8_198_r_texte_avec_sauts_de_ligne.txt”)

c. Baliser : i. la structure

ii. les interventions éditoriales de l’auteur (ajouts, suppressions, substitutions...)

iii. les normalisationsiv. les entités nomméesv. … et tout autre caractéristique qui vous paraît pertinente

Analyse du document

Objectifs :

★ repérer la structure textuelle

★ identifier les “distinctions” pertinentes pour votre projet éditorial ou les analyses souhaitées :○ Orthographe ?○ Variantes graphiques des lettres ?○ Capitalisations ?○ Ponctuation ?○ Abréviations ?○ Mise en page ?○ Ajouts, suppressions ?○ erreurs, omissions ?○ etc.

Coller le texte dans le fichier xml

Baliser : à vous de jouer !

★ utilisez au choix la vue “auteur” ou “texte”

Quelques balises TEI courantes

Pour une information détaillée sur le modèle de données ou les attributs possibles des balises TEI, se reporter à la documentation en ligne sur le site de la

TEI : http://www.tei-c.org/

<lb/> Saut de ligne

<head> titre

<div> division

<p> paragraphe

<del> suppression

<add> ajout

<subst> substitution

<choice> balisages alternatifs

<orig> forme originale

<reg> forme régularisée

<placeName> Nom de lieu

<persName> Nom de personne

Voir le résultat dans un navigateur

★ Cliquez sur le bouton “ouvrir dans le navigateur”

★ Le fichier s’affiche en fonction de la feuille de style CSS indiquée par les

instructions de traitement du début du fichier (donnés par le modèle)

Transformer le résultat

Utilisez les feuilles de style XSL de la TEI fournies avec Oxygen :

★ Cliquez sur le bouton “configurer un scénario de transformation”

★ Choisissez le scénario de votre choix dans la liste “TEI P5”

○ xhtml, pdf, odt, etc.

Encoder l’apparat critique

Théorie

★ Cf. diaporama de M. Burghart (EHESS, UMR CIHAM)

★ cf. fichier pdf “Antisèche” dans le dossier

“TEI_exercice_SC/sources/exercice-JdeVitry”

Exemple 1 : pseudo-edition-test-file.xml

Déclaration de la méthode d’encodage :

<variantEncoding method="parallel-segmentation" location="internal"/>

dans teiHeader//encodingDesc

Exemple 1 : pseudo-edition-test-file.xml

Liste des témoins <front><div>

<listWit><witness xml:id="A">Manuscript A</witness><witness xml:id="B">Manuscript B</witness><witness xml:id="C">Manuscript C</witness><witness xml:id="D">Manuscript D</witness><witness xml:id="E">Manuscript E</witness>

</listWit></div></front>

Exemple 1 : pseudo-edition-test-file.xml

Groupes de variantes :

Exemple 1 : pseudo-edition-test-file.xml

Enchâssement de notes d’apparat :

Exercice 2Transcription de votre cahier de collation établi cette semaine (Valerio del Bierzo)

Encore à vous de jouer...

★ Ouvrez le fichier : TEI_exercice_SC/content/modele_apparat_critique.xml

★ à partir de votre cahier de collation (ou de la mise en commun du stage d’ecdotique 2014 cf. TEI_exercice_SC/sources/exercice-valere/stage SC.2014Travail2bis.doc), complétez le fichier...

La granularité de la variation dépend des choix de l’encodeur...

“Contrôle qualité”

Visualisez et contrôlez votre encodage à l’aide de l’outil

développé par M. Burghart “TEI Critical Edition Toolbox”

http://ciham-digital.huma-num.fr/teitoolbox/

VisualisationsDiple

http://developpements.enc.sorbonne.fr/diple/theme/enc/index.php

Versioning machine

http://v-machine.org/

2 façons différentes de transformer votre fichier XML

Diple : dé-commentez l’instruction de traitement “<?xml-stylesheet href="../src/vmachine.xsl" type="text/xsl" ?> ”

et lancez votre navigateur...

Versionning machine : copiez le fichier dans “TEI_exercice_SC/vmachine_MB/samples” puis lancez votre navigateur…