Upload
edmond-moine
View
106
Download
1
Embed Size (px)
Citation preview
OPTIMA, 6 novembre 2008, BnF 1
un outil d’aide à la transcription
Thomas PALFRAYStéphane NICOLASThierry PAQUET
Laboratoire d’Informatique,
Traitement de l’Information et des SystèmesEA 4108
Université de ROUENFaculté des sciences76800 Saint-Etienne du Rouvray
OPTIMA, 6 novembre 2008, BnF 2
un outil d’aide à la transcription
Les ambitions d’OPTIMA
• Valorisation des grands corpus modernes
• Transcription de l’avant texte, réputé illisible
• Conception des outils numériques fondamentaux• Transcription• Classement
OPTIMA, 6 novembre 2008, BnF 3
Transcription ?
Un résultat visible lisible une explicitation sans interprétation une preuve
OPTIMA, 6 novembre 2008, BnF 4
Transcription ?
Une source numérique rendue accessible au classement accès aux parties de documents décrire le contenu au-delà du visuel penser la transcription comme une base de données
OPTIMA, 6 novembre 2008, BnF 5
1- Un langage pour décrire les contenus textuels et graphiques
2- Une interface d’aide à l’encodage
3- Visualisation des images Haute Définition
4- Visualisation des transcriptions (diplomatique?)
Expression des besoins
OPTIMA, 6 novembre 2008, BnF 6
1. Langage d’encodage
Définition informatique d’une transcription
Repose sur XML: langage des BD semi-structurées
HNML + GustaveML + besoins spécifiques
DTD établie début 2008
Dernières modifications aout 2008
OPTIMA, 6 novembre 2008, BnF 7
Ajout interlinéaire : Flaubert - Proust
Balise InterligneElle permet d'indiquer quel interligne est utilisé (Supérieur ou Inférieur). Pour un interligne situé dans le corps de texte, on utilise le mot du corps de texte pour indiquer à la visualisation diplomatique ou débute l'interligne.
Exemple: l'interligne débute après le i de "villa"
Codage: vi<int pl="top">de Cale o loco</int>lla
1. Langage d’encodage
OPTIMA, 6 novembre 2008, BnF 8
bloc de texte : Proust
Balise BlocOn utilise le type bloc de texte pour délimiter les blocs composant le document. Le transcripteur indique les positions successives des points entourant le bloc. La forme est de type polyèdre, ainsi, quelque soit la forme du bloc, on peut délimiter celui-ci et le visualiser sur la diplomatique.
Codage:<Bloc type="txt"> [coordonnées des points du bloc] </Bloc>
1. Langage d’encodage
OPTIMA, 6 novembre 2008, BnF 9
bloc image : Braudel
Balise blocOn utilise un type de bloc particulier, appelé bloc "Image". Le transcripteur indique ainsi que le contenu de ce bloc n'est pas un texte, mais un tampon que l'on ne peut rendre avec une transcription. La portion d'image ainsi délimitée est ajoutée à la visualisation diplomatique du document transcrit.
Codage:<Bloc type="img"> [coordonnées des points du bloc] </Bloc>
1. Langage d’encodage
OPTIMA, 6 novembre 2008, BnF 10
ajout en marge : Flaubert - Proust
Non géré actuellement
1. Langage d’encodage
OPTIMA, 6 novembre 2008, BnF 11
1. Langage d’encodage<!DOCTYPE transcription [
<!ELEMENT transcription (Image)+>
<!ELEMENT Image (Bloc)*>
<!ATTLIST Image titre #CDATA #REQUIRED coefDimensionLargeur #CDATA #REQUIRED coefDimensionHauteur #CDATA #REQUIRED>
<!ELEMENT Bloc Point*,Texte+>
<!ATTLIST Point X #CDATA #REQUIRED Y #CDATA #REQUIRED>
<!ATTLIST Bloc idBloc #CDATA #REQUIRED type (img,txt) #REQUIRED>
<!ELEMENT Texte (auteur|cs|stylo|lb|p|dp|lp|rp|u|str|nl|bl|strblock|overwrite|int|nr|b|sp|hyphen|ind|exp|frac|rac|abbr|hyp|titre|rv|#PCDATA)*>
<!ELEMENT auteur (ANY)>
<!ATTLIST auteur name (#CDATA) #REQUIRED>
<!ELEMENT cs (ANY)>
<!ELEMENT stylo (ANY)>
<!ATTLIST stylo p (encre,stylo,crayon,imprime) #REQUIRED c (#CDATA) #REQUIRED>
<!ELEMENT lb (ANY)>
<!ELEMENT p (ANY)>
<!ATTLIST p indent (#CDATA) #REQUIRED>
<!ELEMENT dp (ANY)>
<!ELEMENT lp (ANY)>
<!ELEMENT rp (ANY)>
…<!ELEMENT Svg (#PCDATA)*>
]>
OPTIMA, 6 novembre 2008, BnF 12
2. Interface d’aide à l’encodage
1. Saisie du texte et aide à l’encodage
OPTIMA, 6 novembre 2008, BnF 13
3. Visualisation des images HD
Fonctionnalités images zoom rotation saisie de blocs mesure
OPTIMA, 6 novembre 2008, BnF 14
Faire passer un système d’écriture non standard dans un système d’édition électronique normalisé
Transcription diplomatique ? linéarisée diplomatique horizontale diplomatique horizontale avec éléments graphiques diplomatique inclinée régulière diplomatique inclinée régulière avec éléments graphiques
Très dépendant de l’utilisateur et du corpus
Accepter une certaine distorsion
4. Visualisation des transcriptions
OPTIMA, 6 novembre 2008, BnF 15
4. Visualisation des transcriptions
OPTIMA, 6 novembre 2008, BnF 16
Plateforme Java :- dev indépendant de la machine- permet la manipulation des images HD- pas de technologies Web- IHM en SWING- rendu codé en SVG et visualisé avec BATIK (Apache)
Choix Technologiques
OPTIMA, 6 novembre 2008, BnF 17
- Format de Transcription Numérique: achevé (version 1)
- Saisie du balisage: achevée (version 1)
- Sauvegarde: en cours de validation
- Visualisation diplomatique: 40% achevé
- Test et validation : à continuer !! Utilisateurs = Testeurs
Bilan et Perspectives
OPTIMA, 6 novembre 2008, BnF 18
- Un outil numérique ambitieux au regard du temps disponible (1 an)
- Un prototype en passe d’être achevé grâce à des échanges réguliers
- A transformer en une réelle application informatique validéeGénie Logiciel = Cycle de production industrielle
- Transcrire la masse?
Bilan et Perspectives