18
OPTIMA, 6 novembre 2008, BnF 1 un outil d’aide à la transcription Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET Laboratoire d’Informatique, Traitement de l’Information et des Systèmes EA 4108 Université de ROUEN Faculté des sciences 76800 Saint-Etienne du Rouvray

un outil d’aide à la transcription

  • Upload
    aelan

  • View
    41

  • Download
    0

Embed Size (px)

DESCRIPTION

un outil d’aide à la transcription. Thomas PALFRAY Stéphane NICOLAS Thierry PAQUET L aboratoire d’ I nformatique, T raitement de l’ I nformation et des S ystèmes EA 4108 Université de ROUEN Faculté des sciences 76800 Saint-Etienne du Rouvray. - PowerPoint PPT Presentation

Citation preview

Page 1: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 1

un outil d’aide à la transcription

Thomas PALFRAYStéphane NICOLASThierry PAQUET

Laboratoire d’Informatique, Traitement de l’Information et des SystèmesEA 4108

Université de ROUENFaculté des sciences76800 Saint-Etienne du Rouvray

Page 2: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 2

un outil d’aide à la transcription

Les ambitions d’OPTIMA

• Valorisation des grands corpus modernes

• Transcription de l’avant texte, réputé illisible

• Conception des outils numériques fondamentaux• Transcription• Classement

Page 3: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 3

Transcription ? Un résultat visible

lisible une explicitation sans interprétation une preuve

Page 4: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 4

Transcription ? Une source numérique rendue accessible au classement

accès aux parties de documents décrire le contenu au-delà du visuel penser la transcription comme une base de données

Page 5: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 5

1- Un langage pour décrire les contenus textuels et graphiques

2- Une interface d’aide à l’encodage

3- Visualisation des images Haute Définition

4- Visualisation des transcriptions (diplomatique?)

Expression des besoins

Page 6: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 6

1. Langage d’encodage

Définition informatique d’une transcription

Repose sur XML: langage des BD semi-structurées

HNML + GustaveML + besoins spécifiques

DTD établie début 2008

Dernières modifications aout 2008

Page 7: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 7

Ajout interlinéaire : Flaubert - Proust

Balise InterligneElle permet d'indiquer quel interligne est utilisé (Supérieur ou Inférieur). Pour un interligne situé dans le corps de texte, on utilise le mot du corps de texte pour indiquer à la visualisation diplomatique ou débute l'interligne.

Exemple: l'interligne débute après le i de "villa"

Codage: vi<int pl="top">de Cale o loco</int>lla

1. Langage d’encodage

Page 8: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 8

bloc de texte : Proust

Balise BlocOn utilise le type bloc de texte pour délimiter les blocs composant le document. Le transcripteur indique les positions successives des points entourant le bloc. La forme est de type polyèdre, ainsi, quelque soit la forme du bloc, on peut délimiter celui-ci et le visualiser sur la diplomatique.

Codage:<Bloc type="txt">    [coordonnées des points du bloc] </Bloc>

1. Langage d’encodage

Page 9: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 9

bloc image : Braudel

Balise blocOn utilise un type de bloc particulier, appelé bloc "Image". Le transcripteur indique ainsi que le contenu de ce bloc n'est pas un texte, mais un tampon que l'on ne peut rendre avec une transcription. La portion d'image ainsi délimitée est ajoutée à la visualisation diplomatique du document transcrit.

Codage:<Bloc type="img">    [coordonnées des points du bloc] </Bloc>

1. Langage d’encodage

Page 10: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 10

ajout en marge : Flaubert - Proust

Non géré actuellement

1. Langage d’encodage

Page 11: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 11

1. Langage d’encodage<!DOCTYPE transcription [

<!ELEMENT transcription (Image)+>

<!ELEMENT Image (Bloc)*>

<!ATTLIST Image titre #CDATA #REQUIRED coefDimensionLargeur #CDATA #REQUIRED coefDimensionHauteur #CDATA #REQUIRED>

<!ELEMENT Bloc Point*,Texte+>

<!ATTLIST Point X #CDATA #REQUIRED Y #CDATA #REQUIRED>

<!ATTLIST Bloc idBloc #CDATA #REQUIRED type (img,txt) #REQUIRED>

<!ELEMENT Texte (auteur|cs|stylo|lb|p|dp|lp|rp|u|str|nl|bl|strblock|overwrite|int|nr|b|sp|hyphen|ind|exp|frac|rac|abbr|hyp|titre|rv|#PCDATA)*>

<!ELEMENT auteur (ANY)>

<!ATTLIST auteur name (#CDATA) #REQUIRED>

<!ELEMENT cs (ANY)>

<!ELEMENT stylo (ANY)>

<!ATTLIST stylo p (encre,stylo,crayon,imprime) #REQUIRED c (#CDATA) #REQUIRED>

<!ELEMENT lb (ANY)>

<!ELEMENT p (ANY)>

<!ATTLIST p indent (#CDATA) #REQUIRED>

<!ELEMENT dp (ANY)>

<!ELEMENT lp (ANY)>

<!ELEMENT rp (ANY)>

…<!ELEMENT Svg (#PCDATA)*>

]>

Page 12: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 12

2. Interface d’aide à l’encodage

1. Saisie du texte et aide à l’encodage

Page 13: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 13

3. Visualisation des images HD

Fonctionnalités images zoom rotation saisie de blocs mesure

Page 14: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 14

Faire passer un système d’écriture non standard dans un système d’édition électronique normalisé

Transcription diplomatique ? linéarisée diplomatique horizontale diplomatique horizontale avec éléments graphiques diplomatique inclinée régulière diplomatique inclinée régulière avec éléments graphiques

Très dépendant de l’utilisateur et du corpus

Accepter une certaine distorsion

4. Visualisation des transcriptions

Page 15: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 15

4. Visualisation des transcriptions

Page 16: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 16

Plateforme Java :- dev indépendant de la machine- permet la manipulation des images HD- pas de technologies Web- IHM en SWING- rendu codé en SVG et visualisé avec BATIK (Apache)

Choix Technologiques

Page 17: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 17

- Format de Transcription Numérique: achevé (version 1)

- Saisie du balisage: achevée (version 1)

- Sauvegarde: en cours de validation

- Visualisation diplomatique: 40% achevé

- Test et validation : à continuer !! Utilisateurs = Testeurs

Bilan et Perspectives

Page 18: un outil d’aide à la transcription

OPTIMA, 6 novembre 2008, BnF 18

- Un outil numérique ambitieux au regard du temps disponible (1 an)

- Un prototype en passe d’être achevé grâce à des échanges réguliers

- A transformer en une réelle application informatique validéeGénie Logiciel = Cycle de production industrielle

- Transcrire la masse?

Bilan et Perspectives