18
Schedae 2011 Prépublication n° 6 | Fascicule n° 1 Thomas Palfray – Sylvie Giraud – Thierry Paquet – Stéphane Nicolas « TranScript : édition et visualisation ultradiplomatique de corpus manuscrits » Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70). 53 TranScript : édition et visualisation ultradiplomatique de corpus manuscrits Thomas Palfray * — Sylvie Giraud** — Thierry Paquet * — Stéphane Nicolas * * Laboratoire LITIS – Université de Rouen ** Laboratoire ITEM – CNRS. ENS Paris Introduction Les bibliothèques et musées du monde entier possèdent depuis longtemps des collections remarquables et d’une richesse culturelle indéniable, mais qui, pour des raisons de conser- vation et de préservation, ne peuvent pas être accessibles au grand public. Aujourd’hui, avec l’essor des technologies numériques, il est enfin possible de valoriser ce patrimoine intellectuel en proposant des substituts numériques d’excellente qualité et récemment, de nombreuses bibliothèques et institutions de conservation publiques ou privées ont pris l’initiative d’intenses campagnes de numérisation. Dès lors, non seulement les originaux sont préservés de toutes dégradations, mais aussi l’accès à la connaissance et au savoir peut être largement partagé et enrichi, sachant que les technologies numériques peuvent modifier considérablement nos habitudes documentaires et notre perception du document. Cependant, l’abondance des données numériques obtenues pose le corollaire de leur exploitation qui nécessite une médiation éditoriale savante pour rendre l’objet manuscrit compréhensible. Se posent notamment des problèmes d’encodage et d’indexation des informations. Comment représenter numériquement des documents manuscrits ? Comment les produire ? Comment les visualiser ? Ces questions constituent la substance de cet article et s’orientent plus particulièrement vers les manuscrits d’auteurs qui sont des documents spécifiques. Sera notamment abordée la problématique de la production et de la visualisation de transcriptions ultradiplomatiques de documents. Dans un premier temps, seront évoqués le contexte littéraire, les évolutions des tech- niques de transcription ainsi que le projet dans lequel nos travaux se sont inscrits, et seront détaillées les particularités des corpus qui le composent, mettant ainsi en lumière les difficultés rencontrées.

TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

Embed Size (px)

Citation preview

Page 1: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

Schedae 2011

Prépublication n° 6 | Fascicule n° 1

Thomas Palfray – Sylvie Giraud – Thierry Paquet – Stéphane Nicolas « TranScript : édition et visualisation ultradiplomatique de corpus manuscrits » Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).

53

TranScript : édition et visualisation ultradiplomatique de corpus manuscrits

Thomas Palfray * — Sylvie Giraud ** — Thierry Paquet * — Stéphane Nicolas *

* Laboratoire LITIS – Université de Rouen

** Laboratoire ITEM – CNRS. ENS Paris

Introduction

Les bibliothèques et musées du monde entier possèdent depuis longtemps des collections

remarquables et d’une richesse culturelle indéniable, mais qui, pour des raisons de conser-

vation et de préservation, ne peuvent pas être accessibles au grand public. Aujourd’hui,

avec l’essor des technologies numériques, il est enfi n possible de valoriser ce patrimoine

intellectuel en proposant des substituts numériques d’excellente qualité et récemment,

de nombreuses bibliothèques et institutions de conservation publiques ou privées ont pris

l’initiative d’intenses campagnes de numérisation. Dès lors, non seulement les originaux

sont préservés de toutes dégradations, mais aussi l’accès à la connaissance et au savoir

peut être largement partagé et enrichi, sachant que les technologies numériques peuvent

modifi er considérablement nos habitudes documentaires et notre perception du document.

Cependant, l’abondance des données numériques obtenues pose le corollaire de leur

exploitation qui nécessite une médiation éditoriale savante pour rendre l’objet manuscrit

compréhensible. Se posent notamment des problèmes d’encodage et d’indexation des

informations. Comment représenter numériquement des documents manuscrits ? Comment

les produire ? Comment les visualiser ? Ces questions constituent la substance de cet article

et s’orientent plus particulièrement vers les manuscrits d’auteurs qui sont des documents

spécifi ques. Sera notamment abordée la problématique de la production et de la visualisation

de transcriptions ultradiplomatiques de documents.

Dans un premier temps, seront évoqués le contexte littéraire, les évolutions des tech-

niques de transcription ainsi que le projet dans lequel nos travaux se sont inscrits, et seront

détaillées les particularités des corpus qui le composent, mettant ainsi en lumière les

diffi cultés rencontrées.

Page 2: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

54

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

Puis sera envisagé le langage d’encodage nommé TSML (TranScript Markup Language),

véritable pivot entre les corpus du projet, un langage mis au point avec l’aide des chercheurs

en critique génétique de l’ITEM. Les particularités d’un document manuscrit imposent

des outils qui doivent prendre en compte l’ensemble des informations du support, autant

sémantiques que physiques, afi n de proposer une visualisation de la transcription électronique.

Ensuite seront considérés les différents algorithmes mis au point pour analyser un

document créé à l’aide du langage TSML dans le but de générer, de manière complètement

automatique, une transcription ultradiplomatique au moyen du formalisme SVG. Nous

démontrons qu’il est possible de s'approcher de l’apparence d’origine d’un manuscrit

d’auteur avec une erreur minimale.

Enfi n, sera présentée l’interface d’aide à l’encodage que nous avons développée,

TranScript, qui permet aux équipes du laboratoire ITEM de transcrire de manière fi able et

pérenne des œuvres complètes.

La génétique du texte

La génétique des textes est née du mouvement structuraliste qui, un peu avant les années

soixante-dix, s’opposa fermement à la longue tradition d’interprétation philologique des

œuvres, préférant concevoir le texte comme un objet de recherche scientifi que. Il ne s’agissait

plus d’émettre sur un texte des hypothèses explicatives à partir d’une critique des sources ou

d’une évaluation stylistique, mais de formuler une démonstration précise sur la base d’une

approche objective du matériau manuscrit et de ses indices matériels. La discipline de la

critique génétique a pour ambition de s’intéresser à l’écriture dans sa qualité physique et tente

de redécouvrir l’œuvre à travers l’ensemble des documents préparatoires qui ont conduit à

la forme fi nale du texte. Alors, se dégagent des notions telles que l’objet manuscrit, le travail

de l’écrivain, la classifi cation des documents préparatoires, l’avant-texte, la temporalité des

opérations d’écriture, les procédés de transformation rédactionnelle, l’enchaînement des

opérations, etc., autant d’éléments que l’étude de genèse prend en compte pour analyser,

classer, transcrire, décrire un texte qui prend naissance, se développe, hésite, se transforme

pour aboutir parfois, mais pas toujours, à la publication.

Le généticien des textes cherche à retrouver le processus global de l’écriture d’une œuvre.

Les conditions du plein développement de la génétique des textes sont maintenant, au

XXI e siècle, réunies : un accès immédiat aux images des manuscrits, une possible navigation

dans la masse des documents originaux, une lecture de pages saturées de corrections grâce

aux transcriptions, etc.

Les techniques de transcription

Historique

La pratique de la transcription, dans le sens de la reproduction typographique d’une écriture

manuscrite parfois diffi cile à déchiffrer, fut sans doute moins freinée par une approche

diffi cile des manuscrits, disponibles et accessibles malgré tout grâce aux microfi lms et à

leurs photocopies, que par l’impression d’une relation au texte impénétrable. L’exemple

de la compréhension des manuscrits de Flaubert est probant. En 1952, René Dumesnil

qualifi ait l’avant-texte des Trois contes « d’exactement indéchiffrable » 1 tant les folios sont

1. G. Flaubert, Trois contes , in Œuvres, A. Thibaudet, R. Dumesnil (éd.), Paris, Gallimard (Pléiade), 1951-1952, t. II, introduction, p. 584.

Page 3: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

55

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

couverts de ratures, de corrections, de traits de liaison ou de gestion, d’ajouts en interligne,

en marge latérale, en marge du haut, en marge du bas, et il se demandait comment l’auteur

lui-même parvenait à reprendre son texte pour le recopier ou le mettre au net. Mais peu

à peu, des chercheurs se sont attelés à la tâche du déchiffrage, de la transcription et de

la saisie des manuscrits et, au fur et à mesure d’élaborations et d’approfondissements

réciproques, l’opération semblait de moins en moins insurmontable. Chaque tentative

enrichissait les travaux réalisés précédemment et en même temps faisait évoluer la notion

même de transcription qui, en quelques années, a beaucoup progressé dans sa structure

et dans sa forme.

Vers 1980, la méthode de transcription recourait à un système de saisie très codé et

pratiquait une combinaison de souffl ets-chevrons pour indiquer l’ajout interlinéaire et de

crochets pour signaler l’élément barré :

La citadelle de Macherous se dressait à l’orient de la Mer Morte, [sur au milieu des montagnes] <au milieu des montagnes> sur un pic de [– illis –] <[de basalte] de basalte> [ayant] <[– illis –] ayant> la forme d’un cône <[aplati – illis – ]> [&] [qu’entouraient] <[quatre quatre directions]> quatre vallées profondes <à l’entour deux en face> deux sur les [côtés] <flancs> [une en face] la quatrième <[som- met>] par derrière

.2

2 La compréhension même de la transcription manquait vite de repères, d’autant que

les contraintes matérielles liées aux dimensions de l’édition papier ne permettaient pas de

reproduire la mise en page originale, Flaubert travaillant sur de grandes feuilles de papier,

21 cm de large sur 34 cm de haut. Le transcripteur était obligé de linéariser le texte, c’est-

à-dire de proposer sur une même ligne tous les événements sémantiques et temporels de

l’écriture, qu’ils soient ajouts, substitutions, reprises, renvois, masquant ainsi toute notion de

chronologie et engageant alors le généticien dans le processus d’interprétation d’un texte en

construction. Il affi rmait une version textuelle qui n’avait peut-être pas été celle de l’auteur.

Dans les années quatre-vingt-dix, bien que déjà qualifi ée de diplomatique, la transcription

restait encore à décrypter, elle abandonnait certains codes (les souffl ets-chevrons et les

crochets), mais en ajoutait d’autres (le barré, la barre verticale pour renseigner la fi n de ligne

du manuscrit, l’italique et les fl èches directionnelles fl anquées de barrettes pour déclarer la

place et le niveau de l’ajout) et conservait la linéarisation de l’énoncé :

La citadelle de Macherous se dressait à l’orient de la mer-

Morte sur un au milieu des montagnes au milieu des mon- tagnes, sur un pic cône escarpé de basalte de basalte ayant

Il avait ayant la forme d’un cône aplati [ill] sommet et qu’entouraient quatre profondes vallées quatre val-

lées profondes l’entour[aient], une en face, deux sur les côtés

flancs, une en face la quatrième par derrière.3

3 Désormais, non seulement les nouvelles technologies ignorent superbement les

contraintes matérielles de l’édition papier et l’assujettissement au linéaire, mais elles mettent

2. Transcription de Philippe Willemart d’un brouillon d’ Hérodias , le f ° 539v °, chapitre I, relatif aux deux premiers paragraphes et au début du troisième paragraphe dans O manuscrito em Gustave Flaubert. Transcriçao, classifi caçao e interpretaçao do proto-texto do 1° capitulo do conto Herodias , Université de São Paulo, Département de philosophie, lettres et sciences humaines, 1984.

3. Transcription de Giovanni Bonaccorso d’un brouillon d’ Hérodias , le f ° 539v °, chapitre I, relatif aux deux premiers paragraphes et au début du troisième paragraphe dans Trois contes Corpus Flaubertianum, Édition diplomatique et génétique des manuscrits , Paris, Librairie Nizet, 1991, t. I et II.

2

3

Page 4: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

56

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

également à la disposition des transcripteurs une combinaison d’outils adéquats pour saisir

un manuscrit, parfois illisible, et en proposer une lecture accessible.

Les apports du rendu ultradiplomatique

Au XXI e siècle, la transcription ne peut s’entendre que numérique et diplomatique, certains

la déclarent ultradiplomatique, d’autres la qualifi ent de mimétique. Disons qu’elle se veut

au plus près du manuscrit original et qu’elle propose la lecture du texte sous une forme qui

tente d’en préserver et d’en imiter l’aspect initial, si tant est que le procédé typographique

puisse reproduire tous les effets changeants de l’écrit à la main. La visualisation simultanée du

manuscrit et de sa transcription ultradiplomatique doit permettre d’atteindre l’objectif idéal

d’une transcription, celle de la lecture aisée d’une page d’auteur où l’intervention éditoriale

codée est peu présente. Aucun signe codé n’est appliqué, qu’il soit crochet, souffl et, accolade,

fl èche montante fl anquée ou non de barrettes, fl èche descendante ou latérale, barre verticale,

etc. Aucun signe redondant n’est utilisé, ni police de caractères ni couleur différentes.

La mise en page de l’auteur est scrupuleusement respectée, la position des mots est

restituée aussi fi dèlement que possible, le texte n’est pas linéarisé. La différence entre

le texte de premier jet et le texte ajouté est distinguée par la taille des caractères : un

corps plus petit signifi ant la postériorité de l’ajout ou de la substitution en interligne ou

en marge. Les graphies et les singularités autographes sont gardées, telles que l’absence

d’accentuation, les fautes d’orthographe, les abréviations, les mots inachevés, les lapsus,

les signes diacritiques autographes, les caractères spéciaux, etc. L’ensemble du graphisme

autographe est reproduit, autant les traits de gestion, que les traits de liaison et d’insertion

ou que les hachures de suppression. Seule l’habitude scripturale de ne pas relever la plume

entre deux mots n’a pas été reproduite.

Contexte général du projet OPTIMA

L’objectif d’OPTIMA est ambitieux. Il s’agit de créer les outils théoriques et techniques

permettant de lever les obstacles matériels et intellectuels qui s’opposent encore à une

véritable valorisation des grands corpus de manuscrits modernes qui, pour la plupart, restent

inexplorés et à l’état de documents illisibles dans nos grandes bibliothèques européennes.

L’outil numérique en a les moyens s’il associe ses ressources à celles d’une méthodologie

d’approche du manuscrit moderne, la génétique des textes. Il s’agit de convertir une masse

opaque de manuscrits autographes – inédits parce qu’illisibles – en un « avant-texte » classé

et transcrit permettant d’interpréter les processus qui ont produit le texte. Le projet est

de faire sauter les verrous qui interdisent l’accès à cet énorme gisement de savoirs et de

modèles cognitifs que contiennent les « brouillons » de la culture moderne.

Le projet OPTIMA s’inscrit donc dans le prolongement des méthodologies en « génétique

textuelle » développées à l’ITEM. Le but est de rendre possible une édition hypertextuelle érudite

des fonds, mais en privilégiant d’abord la conception et la mise au point des outils numériques

fondamentaux qui, à ce jour, font cruellement défaut. L’expérience porte sur plusieurs « grands

corpus », proposant des modèles d’écritures diversifi és : à programmation scénarique (Flaubert),

à structures séquentielles complexes (Proust, Valéry), à forme combinatoire (« fi chier » Braudel).

La crédibilité du projet s’est appuyée sur l’excellence et la complémentarité de cinq

partenaires qui en constituent le dispositif : deux équipes sur corpus (l’ITEM et la MSH), une

équipe d’archivistes (BNF) et deux équipes d’informaticiens (le LITIS et le LIPN).

La BNF a effectué une numérisation à grande échelle des corpus du programme OPTIMA

(75 Cahiers de Proust, l’ensemble du fonds Flaubert [ Trois contes , L’Éducation sentimentale ,

Page 5: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

57

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

Salammbô , la Tentation de saint Antoine , les Œuvres de jeunesse ], 30 Cahiers de Valéry ainsi

que 3 registres de La Jeune Parque et 3 volumes de l’ Album des vers anciens ) dont l’impact

scientifi que est indéniable, car les chercheurs n’avaient jusqu’à présent qu’exceptionnellement

accès aux originaux et devaient se contenter des microfi lms ou de leurs photocopies. Si

la numérisation haute défi nition permet une étude fi ne du manuscrit, autant du côté de

l’écrit que du côté du papier, une médiation éditoriale n’en demeure pas moins nécessaire

pour rendre accessible la masse d’informations contenues dans le corpus. Classement

génétique et transcription sont rapidement indispensables pour transformer le matériau

brut en ouvrage structuré.

Le corpus Valéry (modèle d’écriture à structures séquentielles complexes)

Le département de la BNF a numérisé 30 Cahiers de Paul Valéry (1871-1945) rédigés entre

novembre 1915 et décembre 1924 (cotes Nafr 19 284 à 19 313), ainsi que trois registres

reliés sous cuir de La Jeune Parque, 442 folios rédigés entre 1913 et 1917 (cotes Nafr

19 004, 19 005 et 19 006) et trois volumes de l’ Album des vers anciens , 423 folios (cotes

Nafr 19 001, 19 002 et 19 003).

Les Cahiers , semblables à des cahiers d’écolier, proposent une succession de notes et

de réfl exions, à usage privé, sur un grand nombre de sujets : scientifi ques, littéraires, philoso-

phiques et esthétiques. Il n’est pas rare d’y trouver des fragments poétiques, généralement

siglés PPP au crayon (Petits Poèmes en Prose). Bien qu’aucune note ou réfl exion ne soit

fi nalisée ou n’aboutisse à une œuvre défi nitive, toutes les opérations génétiques scripturales

s’y retrouvent : les ratures, les substitutions, les soulignements, les surcharges, les ajouts,

etc. La linéarité topologique et chronologique de l’écriture dans ces cahiers d’écolier est

doublée d’une circularité des notions et des motifs, dont le retour régulier est marqué par

différentes campagnes de relectures et de réécritures.

Le corpus de La Jeune Parque inclut autant les ébauches que les brouillons, les recherches

formelles, les mises au net manuscrites et les dactylographies du grand poème publié en

1918. Matériellement, une page de travail de La Jeune Parque comporte des confi gurations

diverses imbriquant des blocs d’écriture relativement autonomes et systématiquement isolés

par des espaces blancs, de fréquents éléments iconiques (schémas, dessins, symboles), des

signes d’opérations algébriques ou logiques (infi ni, racine carrée, fraction, exposant, etc.),

des caractères spéciaux (lettres cyrilliques, svastika pointé à gauche et à droite). Tous ces

niveaux énonciatifs, tant autographes qu’allographes, se superposent dans une exploitation

totale de toutes les directions du support.

L’unité génétique de base est de caractère métrique : le vers, parfois le distique, plus

rarement le quatrain, que Valéry travaille sur la page. L’analyse génétique propose de retracer

la description de chaque vers de la version publiée, en tenant compte du fait qu’une page

peut porter les traces de plusieurs campagnes d’écriture, qu’une unité génétique elle-même

peut connaître des segmentations (l’hémistiche). Plus généralement, la construction d’un

modèle de représentation adapte l’application d’unités discrètes sur un continuum, la page

de brouillon, où une irradiation de variations s’effectue à partir d’un « noyau », qu’il soit

vers ou distique.

Le corpus Proust (modèle d’écriture à structures séquentielles complexes)

Soixante-quinze Cahiers du fonds Proust ont été numérisés par la BNF. Tel qu’il est acces-

sible en ligne sur gallica.bnf.fr, le manuscrit représente certes un matériau remarquable à

consulter, mais diffi cile à pénétrer et à comprendre sans une transformation structurée en

transcription et en classement.

Page 6: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

58

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

La méthode du zonage ou de la création de blocs, spécifi que à TranScript et entendue

d’un point de vue physique, s’adapte particulièrement bien aux Cahiers de Proust qui se

présentent sous la forme d’arborescences graphiques par rapport à une ligne principale,

et/ou de constellations d’unités textuelles autonomes dans les marges et sur les versos. Le

repérage spatial des blocs de rédaction et leur défi nition font partie intégrante de l’analyse

préalable à la saisie du texte qui s’affi che dans les blocs concernés sous une forme fi dèle

au document original.

Toutefois, il sera encore plus pertinent pour la compréhension de la pratique rédaction-

nelle de Proust d’envisager la méthode du zonage dans une visée génétique : la délimitation

sur l’image numérique du document des zones textuelles génétiquement signifi catives et

orientées téléologiquement permettra alors de décrire la chronologie rédactionnelle. Chez

Proust, les unités textuelles signifi catives sont très mouvantes, elles éclatent, se fragmentent,

se dispersent au sein du même cahier, mais aussi dans plusieurs cahiers, dans d’autres

carnets, d’autres documents rédactionnels.

Sur la base d’une défi nition précise, à l’échelle de la page, des blocs génétiques impliqués,

associée à une convocation des autres sources mobilisées par l’écrivain, il est possible de

décrire une représentation dynamique de l’écriture et de simuler un plan de la genèse en action.

Pour le moment, seule l’édition diplomatique et génétique des Cahiers 54 et 71 chez

Brepols propose un classement exhaustif, folio par folio.

Le corpus Flaubert (modèle d’écriture à programmation scénarique)

Dans une politique de valorisation globale du patrimoine dont elle est dépositaire, la

BNF a numérisé l’ensemble du fonds Flaubert : Trois contes , L’Éducation sentimentale ,

Salammbô , la Tentation de saint Antoine , les Œuvres de jeunesse . Mais pour l’heure, seuls

les Trois contes , publiés le 24 avril 1877, une petite partie de Salammbô publié en 1862 et

de L’Éducation sentimentale publiée en 1869 possèdent des transcriptions numériques. Les

corpus représentent une masse de feuillets impressionnante : si Trois contes se distinguent

pauvrement par leur millier de pages écrites, le grand dossier de Salammbô possède

environ 5 000 feuillets.

Les deux recueils de Trois contes (cote Nafr 23 663 tomes I et II) rédigés entre sep-

tembre 1875 et février 1877 comprennent environ 1 100 folios écrits et proposent les

trois manuscrits défi nitifs de l’écrivain ( Un cœur simple – La légende de saint Julien

l’Hospitalier – Hérodias) , les trois exemplaires du copiste, puis les brouillons et les notes

des trois contes.

Le document de genèse de Trois contes offre l’avantage d’un corpus de petite dimension

relativement aux énormes dossiers des romans fl aubertiens. Il propose également les

sources complètes de l’ouvrage conduisant de l’avant-texte (avec les notes de recherche

documentaire, les plans, les scénarios, les brouillons, les mises au net) au manuscrit défi nitif.

Mais il n’en renferme pas moins une masse textuelle sans doute parmi les plus diffi ciles

à déchiffrer, transcrire et classer, comme si Flaubert avait adopté dès la longue étape du

travail rédactionnel les valeurs qu’il entendait donner à ses trois petits récits : concision,

rigueur, puissance, justesse.

La spécifi cité de TranScript relative à la défi nition et à la création de blocs génétiquement

justifi és au sein de l’unité de la page écrite s’adapte naturellement à la logique scripturale

de Flaubert, dont l’écriture sous ses aspects enchevêtrés se révèle très structurée. En

effet, très tôt dans la rédaction, l’écrivain organise son travail de composition selon un

agencement par paragraphes. Grâce au traitement textuel par bloc rédactionnel, une

analyse microgénétique à orientation téléologique permet d’accéder au classement. Certes,

la description du classement n’est pas l’objet précisément de l’application TranScript, mais

Page 7: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

59

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

la conception même du logiciel, fondé sur la notion d’un découpage de blocs au sein d’un

texte, représente un socle essentiel au processus ultérieur de navigation dans le corpus (tri,

classement, liens, etc.)

Le corpus Braudel (modèle d’écriture à forme combinatoire)

Le corpus Braudel concerne les archives de Fernand Braudel – archives privées qui appar-

tiennent à la famille Braudel – notamment pour la partie qui intéresse la préparation, la

conception et la genèse de son œuvre maîtresse, La Méditerranée et le monde méditerranéen

à l’époque de Philippe II (1949). En l’absence de brouillons et plus encore des versions

intermédiaires de son livre, ces archives représentent un élément essentiel pour comprendre

l’origine et la naissance du livre.

Les notes sont constituées de dizaines de milliers de fi ches, rédigées dans leur quasi-totalité

par Fernand Braudel lui-même, réunies dans des boîtes en bois, sans couvercle, conçues

pour contenir des fi ches de type Bristol, 10 cm x 15 cm, regroupées par années historiques

suivant un schéma commun (indication des sources, année de référence, recopie de l’archive).

La spécifi cité de TranScript relative à la défi nition et à la création de blocs rédactionnels

sur le manuscrit s’adapte aussi au corpus Braudel : la délimitation sur chaque fi che de

zones sémantico-topologiques (source, année historique, texte) permet non seulement de

retrouver les dossiers consultés par Braudel lors de ses visites dans les différents organismes

conservateurs, mais aussi d’en proposer un classement chronologique ainsi qu’une description

génétique. Car tout en la respectant, Braudel semble avoir fait éclater l’unité du fi chier

source pour croiser des informations recueillies dans des archives diverses et proposer des

éclairages différents sur les questions abordées.

Pourquoi un nouveau langage ?

Les prérequis du langage souhaités par nos collaborateurs de l’ITEM étaient très précis. Le

langage devait répondre à la diversité et à la richesse des indices sémantiques et physiques

contenus dans les quatre grands corpus d’auteurs utilisés, tout en restant générique, afi n de

pouvoir être utilisé par la suite pour d’autres corpus. Une étude de l’existant a été réalisée

en 2007 en préambule de nos travaux :

• les transcripteurs de l’ITEM travaillent avec un traitement de texte (Microsoft Word)

qui permet de conserver l’ensemble des informations sémantiques et spatiales du

document, mais interdit toute recherche systématique, qu’elle soit interrogation de

masse de données ou accès au système de classement ;

• la TEI propose pour sa part un langage pérenne et ouvert pouvant stocker la plupart

des indices scripto-graphiques, mais ne permet pas de conserver les informations

spatiales du document (un groupe de travail étudie ce point précis depuis mai 2009 4) ;

• HNML 5, le langage mis au point pour la plate-forme HyperNietzsche dispose de

nombreuses fonctionnalités réexploitables ; c’est pourquoi notre langage est une

évolution de HNML.

Ce langage, au format XML, autorise le stockage de toutes les informations que le

transcripteur souhaite conserver de manière effi cace et durable. Sa structure est simple :

4. http://staff.cch.kcl.ac.uk/~epierazzo/GeneticEditionDraft1.pdf.5. http://computerphilologie.uni-muenchen.de/jg03/saller.html.

Page 8: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

60

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

il décompose la construction d’un folio en un ensemble de zones, appelées blocs, qui

contiennent d’une part, les coordonnées des points du polygone représentant chaque bloc

et d’autre part, le texte codé du bloc. On bénéfi cie alors d’un encodage précis des unités

textuelles présentes sur le manuscrit.

L’encodage du texte est géré par un ensemble de balises qui organisent les données

sémantiques et physiques (souligné, barré, exposant, indice, gras, retrait de paragraphe,

interlignes, etc.) et les données informatives (auteur, notes de régies, renvoi, titre, etc.).

L’élaboration collective des types de balises indispensables à une saisie intégrale du texte

a confi rmé l’existence d’un inventaire fondamental de balises probablement commun à

l’ensemble des corpus manuscrits.

Les fi chiers de sauvegarde contiennent ces informations, mais également les données

relatives à la mise en forme ultradiplomatique, comme il sera vu plus loin.

Il est à noter que le groupe de travail 6 sur l’édition génétique de textes du consortium

TEI s’est également basé sur HNML pour débuter la conception de son langage.

Langage TSML

Description générale

Le langage TSML a été créé pour stocker des informations sémantiques et spatiales d’un

manuscrit. En fonction de critères généralement génétiques, l’utilisateur défi nit et délimite

des polygones qui peuvent contenir soit des unités textuelles, soit une image. Dans le

premier cas, le transcripteur saisit le texte et l’encode.

<Bloc type="txt"><Point X="38" Y="8" /><Point X="1093" Y="13" /> etc.</Bloc>

Figure 1 – exemple d’unité textuelle complexe issue d’un folio de Proust.

Dans le second cas, le bloc image conserve les parties originales du document, qu’ils

soient dessins ou tampons.

<Bloc type="img"><Point X="38" Y="8" /><Point X="1093" Y="13" /> etc.</Bloc>

Figure 2 – exemples de cas d’utilisation du bloc image.

6. http://wiki.tei-c.org/index.php/Genetic_Editions.

Page 9: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

61

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

TSML permet d’encoder et d’affi cher des structures de textes complexes, autant des

formules mathématiques que des ajouts interlinéaires. Les balises alors utilisées ajoutent

des « lignes hors du corps de texte » dans le langage XML. L’ensemble du contenu inclus à

l’intérieur de ces balises est considéré comme une nouvelle ligne de texte. Le placement

des balises au sein du corps de texte indique où débute cet ajout.

Structure de l’encodage

Nous présentons ci-dessous la DTD mise au point pour le projet OPTIMA et destinée à

valider les documents écrits au format TSML. La première version livrée au début de l’année

2008 a été suivie sur l’année d’un processus itératif de validation autant par l’ITEM que par

le LIPN et le LITIS, pour aboutir à une version stable de cette DTD en août 2008.

<!DOCTYPE transcription [

<!ELEMENT transcription (Image)+>

<!ELEMENT Image (Bloc)*>

<!ATTLIST Image titre #CDATA #REQUIRED coefDimensionLargeur #CDATA

#REQUIRED coefDimensionHauteur #CDATA #REQUIRED>

<!ELEMENT Bloc Point*,Texte+>

<!ATTLIST Point X #CDATA #REQUIRED Y #CDATA #REQUIRED>

<!ATTLIST Bloc idBloc #CDATA #REQUIRED niveauZoom #CDATA #REQUIRED>

<!ELEMENT Texte (auteur|cs|stylo|lb|p|dp|lp|rp|u|str|nl|bl|strblock|ove

rwrite|int|nr|b|sp|hyphen|ind|exp|frac|rac|abbr|hyp|titre|rv|#PCDATA)*>

<!ELEMENT auteur (ANY)>

<!ATTLIST auteur name (#CDATA) #REQUIRED>

<!ELEMENT cs (ANY)>

<!ELEMENT stylo (ANY)>

<!ATTLIST stylo p (encre,stylo,crayon,imprime) #REQUIRED c (#CDATA)

#REQUIRED>

<!ELEMENT lb (ANY)>

<!ELEMENT p (ANY)>

<!ATTLIST p indent (#CDATA) #REQUIRED>

<!ELEMENT dp (ANY)>

<!ELEMENT lp (ANY)>

<!ELEMENT rp (ANY)>

<!ELEMENT u (ANY)>

<!ELEMENT str (ANY)>

<!ELEMENT nl (ANY)>

<!ATTLIST nl l (#CDATA) #REQUIRED>

<!ELEMENT bl (ANY)>

<!ATTLIST bl l (#CDATA) #REQUIRED>

<!ELEMENT strblock (ANY)>

<!ATTLIST strblock c (#CDATA) #REQUIRED>

<!ELEMENT overwrite (old,new)>

<!ELEMENT old (ANY)>

<!ELEMENT new (ANY)>

<!ELEMENT int (ANY)>

<!ATTLIST int pl (#CDATA) #REQUIRED>

<!ELEMENT nr (ANY)>

<!ELEMENT b (ANY)>

<!ELEMENT sp (ANY)>

<!ELEMENT ind (ANY)>

<!ATTLIST ind p (#CDATA) #REQUIRED>

<!ELEMENT exp (ANY)>

<!ATTLIST exp p (#CDATA) #REQUIRED>

Page 10: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

62

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

<!ELEMENT frac (ANY)>

<!ATTLIST frac p (#CDATA) #REQUIRED>

<!ELEMENT rac (ANY)>

<!ELEMENT abbr (ANY)>

<!ATTLIST abbr expand (#CDATA) #REQUIRED>

<!ELEMENT hyp (ANY)>

<!ELEMENT hyphen (ANY)>

<!ELEMENT titre (ANY)>

<!ELEMENT rv (ANY)>

<!ELEMENT Svg (#PCDATA)*>

]>

Descripteurs diplomatiques

Descripteur Utilisation Balise

Texte gras Encode un texte gras. <b>

Texte souligné Encode un texte souligné d’un ou de plusieurs traits. Chaque trait peut être d’une couleur et/ou d’un auteur différents.

<u>

Texte barré Encode un texte barré d’un ou de plusieurs traits. Chaque trait peut être d’une couleur et/ou d’un auteur différents.

<str>

Retrait Avec la règle dynamique, encode un retrait de texte par rapport au bord du bloc défi ni.

<p>

Double page Encode un texte « à cheval » sur deux feuillets.

<dp>

Page gauche Encode un texte à gauche d’une double page.

<lp>

Page droite Encode un texte à droite d’une double page.

<rp>

Blanc Encode un blanc laissé inten-tionnellement par l’auteur, la règle dynamique en défi nit la longueur.

<bl>

Non lu Encode une portion de texte non lue par le transcripteur, la règle dynamique en défi nit la longueur.

<nl>

Lecture hypothétique Encode la lecture hypothétique d’un mot.

<hyp>

Signe de renvoi Encode tout système de cor-respondance (renvoi, rapport d’ordre, redistribution).

<rv>

Titre Encode un titre. <titre>

Bloc raturé Encode une zone textuelle raturée (un choix de type de ratures est proposé).

<strblock>

Instrument et couleur Encode la couleur du texte et/ou l’instrument d’écriture.

<stylo>

Changement de main Encode toute intervention allographe.

<auteur>

Caractère spécial Insère les caractères spéciaux. <cs>

Page 11: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

63

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

Abréviation Encode une abréviation. <abbr>

Fraction Encode une fraction mathé-matique.

<frac>

Indice Encode le texte en indice. <ind>

Exposant Encode le texte en exposant. <exp>

Racine carrée Encode le texte en racine carrée.

<rac>

Césure Encode une césure. <hyp>

Ajout interlinéaire Encode un ajout interlinéaire situé au-dessus ou au-dessous de la ligne de base en cours d’encodage.

<int>

Note de régie Encode une note de régie. <nr>

Moteur de rendu ultradiplomatique

Description générale

Les éditeurs de textes actuels utilisent des techniques proches de celles que l’on connaît

dans le milieu de l’édition. La mise en page maximise la lisibilité et ne permet pas de

conserver la richesse et la diversité des informations d’un folio manuscrit d’auteur. La raison

fondamentale tient au fait que l’ensemble de l’outillage proposé en matière d’édition

numérique est exclusivement orienté vers le formatage d’objets graphiques pour les systèmes

de publication imprimés. Ils sont tous basés sur l’utilisation d’une feuille de style qui précise

les règles éditoriales à employer pour matérialiser les signes. On peut citer essentiellement

les outils XSLT et XSL-fo pour l’édition à partir de documents XML, ainsi que la chaîne de

composition documentaire construite autour de LaTex. D’autres travaux concernant la

mise en page automatique de documents existent naturellement 7, mais ils sont également

destinés à une mise en page de type journal ou magazine 8 et ne peuvent donc pas être

utilisés pour nos problématiques.

Or, l’édition diplomatique repose par défi nition sur des principes différents, car il n’existe

pas de feuille de style pour régir la disposition spatiale d’un manuscrit complexe. Il faut au

contraire parvenir à déterminer pour chaque cas d’espèce les règles de dispositions ad hoc

qui permettent de matérialiser le phénomène dans l’espace fi xe de la page. C’est donc un

processus de matérialisation des signes fonctionnant à l’inverse des processus d’édition

usuels qui a été conçu et développé dans le cadre d’OPTIMA. Il procède par itérations

successives pour déterminer les règles optimales qui satisfont à la fois aux contraintes

spatiales et relationnelles entre les signes. Par construction, l’outil de rendu supporte la

récursivité et permet donc de visualiser les phénomènes graphiques imbriqués complexes.

Notre choix s’est porté sur le langage SVG 9 qui est un dérivé du XML et un standard

international du W3C (World Wide Web Consortium) permettant d’affi cher des graphiques

et du texte sous forme vectorielle. Nous utilisons l’API BATIK 10 de la fondation Apache au

sein de notre interface d’aide à l’encodage pour créer et manipuler des documents au format

SVG. Il est à noter que les documents ainsi créés sont ajoutés au sein du fi chier de sauvegarde

7. J. B. S. de Oliveira, « Two Algorithms for Automatic Document Page Layout », DocEng’08, 16-19 septembre 2008, São Paulo, Brésil, http://dl.acm.org/citation.cfm?id=1410170.

8. N. Hurst et al, « Minimum Sized Text Containment Shapes », DocEng’06, 10-13 octobre 2006, Amsterdam, Pays-Bas, http://www.csse.monash.edu.au/~marriott/HurMarMou06.pdf.

9. http://www.w3.org/Graphics/SVG/.10. http://xmlgraphics.apache.org/batik/.

Page 12: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

64

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

et sont intégrés au format pivot pour une utilisation ultérieure. De cette façon, l’ensemble

des informations d’encodage et de visualisation vectorielle est véhiculé au sein d’un seul et

même fi chier. Précisons que l’approche retenue dans le cadre d’OPTIMA va bien au-delà

des solutions SVG actuellement retenues dans le cadre de la TEI 11, car c’est l’ensemble

des informations, naturellement les informations graphiques, mais également toutes les

informations textuelles qui sont représentées dans ce système d’encodage graphique.

Prétraitements

Tout d’abord, il est nécessaire de préciser quelques défi nitions :

• on appelle objet MEF un caractère composé d’un glyphe affi ché à l’écran auquel on

associe un ensemble de propriétés physiques et logiques défi nissant la surface qu’il

occupe sur l’écran ;

• o n appelle ligne de texte un ensemble de caractères situés sur un segment contenu

dans une unité textuelle. On distingue deux sortes de lignes, la ligne de base et les

ajouts hors de la ligne de base. Ces ajouts sont également des lignes de texte, mais

ils sont toujours associés à une ligne de base.

La première étape consiste à transformer le contenu de l’unité textuelle au format

XML en un ensemble hiérarchisé d’objets permettant de décrire toutes les informations

topographiques relatives à cette unité. Pour accomplir cette tâche, on utilise une liste

contenant un ensemble d’objets nommés MEF (Mise En Forme). Chaque objet correspond

à un caractère du texte. On applique ensuite l’algorithme récursif suivant :

ListeMEF Fonction_MEF(String texte)

ListeMEF = liste d’objets MEF contenant l’ensemble des caractères des lignes de base de

l’unité textuelle

Pour chaque balise_de_TSML Faire

Appliquer une expression régulière pour effacer toutes les balises sauf la balise_de_TSML

de l’unité textuelle

Repérer les Positions des occurrences de balise_de_TSML

Pour chaque Positions Faire

Si balise_de_TSML = hors de la ligne de base

MEF = Fonction_MEF(texte contenu entre Positions)

Sinon

Pour chaque MEF de listeMEF allant de Positions[0] à Positions[1] Faire

MEF = propriété de balise_de_TSML

FinSi

Fin

Fin

Retourne listeMEF

Ensuite, pour mettre en forme les informations transcrites, il est nécessaire de connaître

la position et la surface occupées par chaque caractère. On considère que la surface d’un

caractère comprend la surface du glyphe, auquel on ajoute l’ensemble des surfaces occupées

par les autres glyphes se superposant au glyphe courant, en fonction des balises physiques

qui s’appliquent à ce caractère, comme le montre la fi gure ci-dessous. Nous avons développé

les algorithmes permettant de réaliser ces opérations pour l’ensemble des balises défi nies

11. http://wiki.tei-c.org/index.php/TEI_to_SVG.

Page 13: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

65

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

dans le langage TSML. Ainsi, en partant de la granularité la plus fi ne (le caractère), nous

pouvons en déduire la surface et la forme englobant ce caractère, mais aussi celle de la

ligne de base à laquelle il appartient, en incluant toutes les lignes qui y sont rattachées, et

ceci, quel que soit le balisage mis en place par le transcripteur (fi g. 3).

Figure 3 – prise en compte des balises physiques dans le calcul de la surface d’un texte. Le texte de droite est souligné. Le texte du bas contient un interligne supérieur.

Génération du XML

À partir de ces informations, l’intégralité du texte transcrit peut être matérialisée dans le

polygone composant l’unité textuelle selon l’algorithme suivant. Le postulat de départ est

simple : si l’on considère que la ligne de texte comportant le plus de signes est entièrement

incluse dans le polygone de l’unité textuelle, alors les autres lignes doivent, elles aussi, être

incluses dans ce polygone. L’angle de rotation du texte, précisé par l’utilisateur, est pris en

compte. Le polygone subit tout d’abord une rotation d’un angle opposé à l’inclinaison du

texte. Puis on applique l’algorithme de rendu sur ce polygone (ce qui correspond à un rendu

pour une inclinaison nulle). Enfi n, on applique une rotation inverse sur l’ensemble ainsi tracé

pour retrouver le polygone initial comportant cette fois le texte avec la bonne inclinaison.

Nous en déduisons l’algorithme ci-dessous dans ses grands principes. Ce postulat ne

se vérifi e pas dans tous les cas, comme nous le verrons par la suite :

TaillePolice = 12

Collision = Vrai

Défi nir le rectangle englobant le polygone formant l’unité textuelle

Le découper en autant de sous-rectangles que l’unité comporte de lignes de texte

Calculer LL, la largeur en pixels de la ligne de texte la plus longue

Calculer LR, la largeur en pixels du sous-rectangle englobant cette ligne

TaillePolice = LR/LL

Tant que Collision = VRAI

Pour toutes les lignes Faire

Calculer la surface et la position du polygone composant la ligne courante

Collision = Tester les collisions entre Blocs

Si collision = VRAI

TaillePolice = TaillePolice - 1

Fin

Affi cher les lignes en utilisant la taille de police déterminée et les positions des polygones cor-

respondant à celle-ci.

Page 14: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

66

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

Figure 4 – découpage d’un polygone en utilisant le rectangle englobant dans le cas d’un contenu textuel de 4 lignes. Les points

rouges représentent le début de chaque ligne de texte.

L’application TranScript

Description générale

L’interface est développée à l’aide du langage Java de Sun. Elle est utilisable sur tous

les systèmes d’exploitation disposant d’une machine virtuelle Java 1.5, ce qui représente

l’immense majorité du parc de l’informatique personnelle actuel. Elle a été développée avec

le concours des chercheurs de l’ITEM afi n de répondre de la meilleure manière possible

aux problématiques de critique génétique et de transcriptions ultradiplomatiques. Elle se

compose de trois fenêtres principales, que nous détaillons plus avant.

La fenêtre « Manuscrit »

Lorsque l’utilisateur charge un fi chier, cette fenêtre affi che l’image du manuscrit en haute

résolution. Par défaut, elle calcule le ratio de zoom afi n que l’image soit affi chée en entier

dans la fenêtre. L’utilisateur peut bien entendu modifi er le ratio de zoom, soit en choisissant

dans une liste de ratios précalculés par l’application, soit en utilisant les boutons « zoom

avant » et « zoom arrière ». Afi n de préserver la dualité entre l’image du manuscrit et la

transcription ultradiplomatique, le ratio de zoom est synchronisé avec la fenêtre de rendu.

Ainsi l’utilisateur voit tout de suite les détails de la transcription correspondant à la partie

du manuscrit visualisée.

Il est également possible d’effectuer une rotation horaire du manuscrit afi n de lire, par

exemple, des feuillets rédigés tête-bêche par l’auteur. Cette fonctionnalité est également

synchronisée avec la fenêtre de rendu.

La fenêtre de rendu est utilisée pour créer, modifi er et supprimer les polygones corres-

pondant aux unités textuelles du feuillet, comme le montre la fi gure 5.

Enfi n, il faut noter la présence d’une règle dynamique mesurant la largeur et la hauteur

de l’image. Elle est utilisée afi n de quantifi er un blanc laissé intentionnellement par l’auteur,

ou encore la taille d’un alinéa ou d’un retrait. Cette règle s’adapte automatiquement au

niveau de zoom choisi par l’utilisateur ainsi qu’à l’angle de rotation courant.

Page 15: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

67

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

La fenêtre de saisie

La fenêtre de saisie (fi g. 6) est active lorsque l’utilisateur clique sur un bloc dans la fenêtre

« Manuscrit ». Elle offre la possibilité de saisir la transcription de ce bloc à l’aide d’un ensemble

de boutons correspondant aux balises défi nies au sein du langage pivot. Si nécessaire,

certaines balises font apparaître une fenêtre pour saisir des attributs. Le logiciel se charge du

positionnement des balises automatiquement de deux manières : si l’utilisateur a sélectionné

un extrait de la transcription, les balises seront placées aux extrémités de sa sélection, s’il

n’a rien sélectionné, les balises se placeront à l’extrémité du mot sur lequel se trouve le

curseur. On s’approche ainsi du comportement de Microsoft Word, le traitement de texte

le plus utilisé.

Figure 5 – capture de la fenêtre « Manuscrit ».

Figure 6 – capture de la fenêtre de saisie.

Nous avons choisi d’implémenter la coloration syntaxique afi n de rendre plus claire la

lecture d’une transcription complexe. Enfi n, l’utilisateur dispose des fonctions classiques

d’un traitement de texte (couper, copier, coller, annuler, rétablir).

La fenêtre de rendu ultradiplomatique

La fenêtre de rendu ultradiplomatique (fi g. 7) est la plus simple, elle montre la transcription

SVG générée à l’aide de notre moteur de rendu. La fenêtre est remise à jour en temps réel à

chaque fois que l’utilisateur effectue une action, lorsqu’il crée ou supprime une unité textuelle,

ou bien lorsqu’il modifi e le contenu ou l’encodage d’une transcription. En moyenne, une

unité textuelle met environ 600 ms à se mettre à jour, en fonction bien sûr de la machine

sur laquelle est exécutée l’application TranScript.

Page 16: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

68

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

Figure 7 – capture de la fenêtre de rendu ultradiplomatique.

Résultats

Afi n d’illustrer les possibilités de l’application TranScript, nous présentons ici deux unités

textuelles extraites d’un folio de Proust (fi g. 8 et fi g. 9). Sont affi chés l’image d’origine (A ) ,

le rendu diplomatique ( B) et la transcription des unités au format TSML ( C ).

peu à peu, par la <lb/> suppression ici de <lb/> tel élément, là le <lb/> renforcement de tel <lb/> autre<nr>(ce passage <lb/> - les dernières lignes - est <lb/> écrit bien mieux et <lb/> en détail)</nr> <str>que</str> et que<lb/> <str>le moi<str> que je</str> dont je</str> cet<lb/> <str>désirais la perpétuité</str><lb/> <str>aurait pu</str> anéantissement du<lb/> moi <str>que</str><int pl=»top»>dont</int> je ne pouvais supporter<lb/> L’idée après la mort, j’<overwrite><old>en</old><new>y</new></overwrite><lb/>

consentais à tout <rv>O</rv>

Figure 8

A B

C

Page 17: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

69

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

<nr>Suite de la marge<lb/> du précédent verso</nr><lb/> <str>Le rêve n’avai</str> Mon rêve avait<lb/> été fort imparfait. Il était tout de<lb/> même venu en aide à mon amour et<lb/> à ma souffrance.<str>C</str> En mettant près de moi<lb/> Albertine, en lui faisant me conter son<lb/> aventure avec la blanchisseuse, en me parlant<lb/> d’elle (bonne petite fi lle) <str>elle me l’av</str> le rêve avait<lb/> tout de même mis cela en action, m’avait<lb/> fait de mon soupçon une de ces grossières <hyphen>ma-<lb/> quettes</hyphen> qu’on fait pour donner une idée<lb/> de ce que pourrait être un spectacle.

Figure 9

La capture d’écran ( fi g. 10 ) montre une vue d’ensemble du feuillet de Proust. L’unité

textuelle située au milieu du document donne un exemple des limites actuelles de notre

méthode de positionnement de lignes. Les diffi cultés de la forme du bloc et les angles de

positionnement du texte différents au sein de la même unité empêchent notre système de

fonctionner correctement. Nous estimons qu’il est possible d’aller au-delà de cette limitation

en utilisant des techniques de traitement d’images afi n d’effectuer la détection des lignes.

Conclusion

Parmi les différents logiciels de transcription de manuscrits en voie de constitution (projet

« Les Manuscrits de Stendhal » développé par l’université de Grenoble 12, projet EMMA 13

développé par l’université de Rouen pour Madame Bovary de Flaubert, projet Bouvard et

Pécuchet, etc.), il n’en existe pas encore qui ait pour ambition l’enrichissement et la valorisation

du manuscrit dans sa valeur générale et universelle. Le plus souvent, l’outil informatique

réserve ses compétences au corpus littéraire pour lequel il fut conçu. TranScript a été créé

dans le but de lever cet obstacle et a pour ambition de devenir un outil générique capable

de répondre aux besoins de la communauté scientifi que.

La conception même du logiciel, fondée sur la notion d’un découpage de blocs au sein

d’un texte, représente un socle essentiel au processus ultérieur de navigation dans le corpus

(tri, classement, liens, etc.). La collaboration productive de littéraires et d’informaticiens a

permis de mettre en place à travers TranScript une base solide de principes applicables à

de nombreux corpus.

12. http://stendhal.msh-alpes.fr/manuscrits/.13. http://bovary.univ-rouen.fr/.

A B

C

Page 18: TranScript : édition et visualisation ultradiplomatique de ... · Flaubert, Trois contes, in Œuvres, A. Thibaudet, R. Dumesnil ... premiers paragraphes et au début du troisième

70

Schedae, 2011, prépublication n° 6 (fascicule n° 1, p. 53-70).http://www.unicaen.fr/services/puc/preprints/preprint0062011.pdf

Certes, l’application TranScript est perfectible, nous en connaissons les faiblesses et les

insuffi sances. Néanmoins, diverses solutions ont été identifi ées afi n d’accroître ses possibilités.

Nous en percevons plus encore les capacités.

L’équipe du LITIS souhaite donc faire bénéfi cier la communauté littéraire de son expertise

dans le domaine du traitement automatique de l’image en proposant des outils destinés

à simplifi er la tâche du transcripteur tant au niveau du traitement de la page (délimitation,

création et identifi cation de blocs à valeur génétique) qu’à celui du corpus (indexation des

images, classement par sous-ensembles spécifi és, etc.).

Figure 10