View
1
Download
0
Category
Preview:
Citation preview
Balisage :Choisir ses balises, créer son schémapourquoi ? comment ?
Alexei LavrentievUMR ICAR – CNRS / Université de Lyon
Journées d’étude MutEC « La TEI en France : pratiques et perspectives »Lyon, 9-11 juin 2010
La TEI en France, Lyon, 9-11 juin 2010 2
Plan
Avant de commencer... cahier des charges d’un projet d’encodage
Créer son schéma choisir des balises documenter les choix (TEI ODD)
Expérience de projets CoRPTeF BFM – Manuscrits et Graal
Discussion
La TEI en France, Lyon, 9-11 juin 2010 3
Avant de commencer
En fonction des objectifs du projet définir les besoins prioritaires :
qu’est-ce qu’on veut voir / chercher dans l’édition numérique ? penser aux perspectives :
échanges, intégration dans des collections élargissement du public enrichissement maintenance
Dilemme richesse et précision des données vs compatibilité et
facilité d’échanges et de maintenance
La TEI en France, Lyon, 9-11 juin 2010 4
Avant de commencer
Analyser le(s) document(s) source corps du texte / descripteurs source primaire / édition papier une source / plusieurs sources à aligner apparat critique
La TEI en France, Lyon, 9-11 juin 2010 5
Créer son schéma
Partir de l’existant http://www.tei-c.org/Activities/Projects/
Sinon : définir le jeu de balises minimal
voir la sélection « Parties les plus visitées » des Guidelines de la TEI
choisir les balises supplémentaires à partir des chapitres spécialisés des Guidelines en cherchant dans l’index des éléments
http://www.tei-c.org/Activities/Projects/http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/index.html
La TEI en France, Lyon, 9-11 juin 2010 6
Créer son schéma
Documenter ses choix pour les humains pour les machines
Pour les machines définir les balises, leurs attributs, leur contenu
on peut inclure ou exclure une balise proposée par la TEI telle quelle modifier une balise TEI (attention à la conformité TEI !) définir sa propre balise
Pour les humains expliquer pourquoi et comment...
TEI ODD
La TEI en France, Lyon, 9-11 juin 2010 7
Créer son schéma
Pour éditer un ODD ROMA (interface web ou en ligne de commande)
http://www.tei-c.org/Roma/ éditer directement le fichier XML
Empty pointing element in a very simple schema
supplies the URI of the thing pointed at
http://www.tei-c.org/Roma/
La TEI en France, Lyon, 9-11 juin 2010 8
Créer son schéma
Une fois les balises définies, on peut vérifier si la personnalisation est viable
« sanity check » générer des schémas aux formats standards
DTD, RNG, Schematron, W3C générer la documentation contrôler le balisage dans un logiciel d’édition XML
... et on peut toujours revenir sur ses choix et ajuster le jeu de balises
La TEI en France, Lyon, 9-11 juin 2010 9
Projet CoRPTeF
Corpus Représentatif des Premiers Textes Français resp. Céline Guillot
(ICAR / ENS de Lyon) financement ANR 2008-2010
Utilisateurs linguistes médiévistes autres linguistes littéraires, historiens...
http://corptef.ens-lyon.fr/http://corptef.ens-lyon.fr/
La TEI en France, Lyon, 9-11 juin 2010 10
Projet CoRPTeF Objectifs
décrire le très ancien français (IXe – XIIe s.) créer un corpus représentatif,
linguistiquement enrichi
Priorités de codage descripteurs (pour construire un corpus) corps du texte (pas de notes ni d’apparat critique) compatibilité avec les outils de TAL et d’annotation linguistique
« manuelle » (import / export) intégration dans les outils d’exploitation (plateforme TXM,
TigerSearch...)
La TEI en France, Lyon, 9-11 juin 2010 11
Projet CoRPTeF Sources
« bonnes » éditions papier fidélité à la source
textes déjà numérisés (BFM, ANH) compatibilité avec les anciens choix d’encodage
sélection de textes à numériser en fonction des critères d’organisation du corpus (date, genre, dialecte...)
Communautés Consortium international pour les Corpus de Français
Médiéval Textométrie TEI
http://ccfm.ens-lsh.fr/http://textometrie.ens-lsh.fr/
La TEI en France, Lyon, 9-11 juin 2010 12
Projet CoRPTeF Variété des sources
prose, vers, proverbes traductions, « mélange » français / latin éditions normalisées / « ultra-diplomatiques » nombreuses lacunes
La TEI en France, Lyon, 9-11 juin 2010 13
Projet CoRPTeF Les dialogues du pape
Grégoire éd. Foerster 1876 texte parallèle en français et
en latin indication des locuteurs quelques corrections
file:///C:/Documents and Settings/alavrent/Mes documents/Communications/TEI Formation MUTEC 2010-06-09/dialgreg.jpg
La TEI en France, Lyon, 9-11 juin 2010 14
Projet CoRPTeF
Trope liturgique paraphrasant le Cantique des cantiques
(éd. Foerster & Koschwitz 1932)
plusieurs systèmes de numérotation
alinéas variables marques d’abréviations s « long » italiques (caractères
illisibles)
La TEI en France, Lyon, 9-11 juin 2010 15
Projet CoRPTeF Choix des balises
modules utilisés tei textstructure core header analysis corpus linking namesdates transcr
La TEI en France, Lyon, 9-11 juin 2010 16
Projet CoRPTeF Choix des balises
point de départ : jeu CCFM Niveau 1 : Structure du texte
groupe de textes unité textuelle différents niveaux de sections (partie, chapitre,
section…)
paragraphe , vers et groupe de vers (non utilisées) structure de la taille d’un paragraphe sans en avoir
le rôle dans la BFM, on utilise cette balise au lieu de pour assurer la
compatibilité avec le balisage de phrases
http://ccfm.ens-lyon.fr/
La TEI en France, Lyon, 9-11 juin 2010 17
Projet CoRPTeF Choix des balises
point de départ : jeu CCFM Niveau 1 (suite) : Segmentation de référence
passage à la ligne changement de page délimitation de phrase
Niveau 2 : Analyses , , , , : interventions éditoriales , : analyses graphiques , : analyses linguistiques , : liens entre différents éléments d’un texte
http://ccfm.ens-lyon.fr/
La TEI en France, Lyon, 9-11 juin 2010 18
Projet CoRPTeF Choix des balises
balises supplémentaires pour représenter les données de la source (édition critique)
: références diverses : titre d’une division , : prise de parole et locuteur : caractères ou mots ajoutés par l’éditeur : lacune du manuscrit (points de suspension dans
l’édition) : une mise en relief typographique difficile à interpréter...
La TEI en France, Lyon, 9-11 juin 2010 19
Projet CoRPTeF Choix des balises
balises supplémentaires pour faciliter le traitement automatique
, : interpréter les points (.ii.) ; @rend="word_part" : tokeniser correctement les mots contenant
des balises ; → : pour les passages au discours direct et/ou @xml:lang : identifier les passages en une
langue différente... pour insérer des notes et des commentaires
: références diverses
La TEI en France, Lyon, 9-11 juin 2010 20
Projet CoRPTeF Ajout d’une balise « en cours de route »
(module verse)
La TEI en France, Lyon, 9-11 juin 2010 21
Projet CoRPTeF Choix des balises
documentation Toute la documentation actuelle
Spécification ODD
Manuel d’encodage...
Consignes au relecteurs
Manuel de description des textes
http://ccfm.ens-lyon.fr/spip.php?article49http://ccfm.ens-lyon.fr/IMG/xml/tei_bfm_odd.xmlhttp://ccfm.ens-lyon.fr/IMG/pdf/Manuel_Encodage_TEI.pdfhttp://ccfm.ens-lyon.fr/IMG/pdf/Consignes_BFM.pdfhttp://ccfm.ens-lyon.fr/IMG/pdf/Manuel_Descripteurs_BFM.pdf
La TEI en France, Lyon, 9-11 juin 2010 22
Projet BFM - Manuscrits Corpus de transcriptions de manuscrits
créé pour une thèse sur la ponctuation médiévale destiné à compléter la Base de Français Médiéval
Priorités de codage
représentation fine de l’écriture manuscrite ponctuation, segmentation, abréviations, variantes de
caractères normalisation pour une lecture facilitée annotation linguistique
http://bfm.ens-lsh.fr/
La TEI en France, Lyon, 9-11 juin 2010 23
Projet BFM - Manuscrits
Pro deo amur et pro christian poblo et nostro communsaluament, d'ist di In auant, in quant deussauir et podir me dunat, si saluarai eo,cist meon fradre karlo, et in aiudha,et in cadhuna cosa, si cum om per dreit sonfradra saluar dift. In o quid il mi altresifazet. Et ab ludher nul plaid nunqua·mprindrai qui meon uol cist meon fradrekarle in damno sit.
Transcription graphématique
Pro Deo amur et pro christian poblo et nostro commun salvament, d’ist di in avant, in quant Deus savir et podir me dunat, si salvarai eocist meon fradre Karlo et in aiudhaet in cadhuna cosa, si cum om per dreit sonfradra salvar dift, in o quid il mi altresi fazet. Et ab Ludher nul plaid nunqua·m prindrai qui, meon vol, cist meon fradre Karle in damno sit.
Transcription normalisée
Pro doa̅mur &ꝓxpı̅ an poblo & nro com̅unſaluament · dıst dı [e + I] n auant · ınquantdẝſauır & podır medunat · ſıſaluaraıeo ·cıst meon fradre karlo · & ın aḍ ıudha ·& ın cad huna coſa · ſıcu̅ om ꝑ dreıt ſonfradra ſaluar dı · I no quıd ıl mıaltreſı faz& · E tabludher nul plaıd nu̅quaprındraı quı meon uol cıst meonfradrekarle ındamnoſıt ·
Transcription allographique
Serments de Strasbourg (BnF, lat. 9768)
La TEI en France, Lyon, 9-11 juin 2010 24
Projet BFM - Manuscrits
Annotation linguistique
[5] Pro deo+amur et+pro+christi_an poblo et nostro commun [6] saluament [· > ,] d'ist di [eI]n auant [· > ,] in+quant+deus [7] sauir et podir me+dunat [· > ,] si+saluarai+eo [· > ] [8] cist meon fradre karlo [· > ] et in ad_iudha [· > ] [9] et in cad_huna cosa [· > ,] si+cun om per dreit son [10] fradra saluar dift [· > ,] I_n+o quid il mi+altresi [11] fazet [· > .] E_t+ab+ludher nul plaid nunqua·m [12] prindrai qui+[ > ,] meon uol [ > ,] cist meon+fradre [13] karle in+damno+sit [· > .]
d1-f3f
La TEI en France, Lyon, 9-11 juin 2010 25
Projet BFM - Manuscrits Choix des balises
balises TEI-CCFM balises TEI-BFM balises TEI supplémentaires
, : corrections scribales , : marques d’abréviation et résolutions @facs : lien avec les images
annotation des « unités ponctuables » attributs sur des balises et
La TEI en France, Lyon, 9-11 juin 2010 26
Projet BFM - Manuscrits Extension de la TEI
balises Menota , , : pour les 3 niveaux de
transcription balises BFM
: marque de ponctuation adoptée par la TEI en 2009
: « déglutinations » : lettrine : marque de coupure de mot en fin de ligne @aggl (sur ) : agglutinations...
http://www.menota.org/
La TEI en France, Lyon, 9-11 juin 2010 27
Projet Graal Édition en ligne « multi-facette » (ms. Lyon, bm, P.A. 77)
éditeur scientifique : Ch. Marchello-Nizia prototype encodage d’une partie du texte selon le schéma BFM-
Manuscrits affichage « vis-à-vis »
images du manuscrit les trois transcriptions traduction en français moderne
« outillage textométrique » concordances (formes et catégories morphologiques, discours
direct) ; retour au texte
http://txm.risc.cnrs.fr/txm
La TEI en France, Lyon, 9-11 juin 2010 28
Projets BFM – Manuscrits et Graal Documentation
Manuel d’encodage BFM - Manuscrits
Introduction à l’édition de la Quête du saint Graal
Fichiers sources de l’édition du Graal
spécification ODD document XML feuilles de style
http://ccfm.ens-lyon.fr/IMG/pdf/BFM-Mss_Encodage-XML.pdfhttp://txm.risc.cnrs.fr/txm/texte/introhttp://ccfm.ens-lyon.fr/IMG/zip/qgraal_cm_2010-01.zip
La TEI en France, Lyon, 9-11 juin 2010 29
Discussion...
Diapo 1Diapo 2Diapo 3Diapo 4Diapo 5Diapo 6Diapo 7Diapo 8Diapo 9Diapo 10Diapo 11Diapo 12Diapo 13Diapo 14Diapo 15Diapo 16Diapo 17Diapo 18Diapo 19Diapo 20Diapo 21Diapo 22Diapo 23Diapo 24Diapo 25Diapo 26Diapo 27Diapo 28Diapo 29
Recommended