Click here to load reader

Corpus Représentatif des Premiers Textes Francaismutec.huma-num.fr/sites/...2010/06/10  · La TEI en France, Lyon, 9-11 juin 2010 3 Avant de commencer En fonction des objectifs du

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • Balisage :Choisir ses balises, créer son schémapourquoi ? comment ?

    Alexei LavrentievUMR ICAR – CNRS / Université de Lyon

    Journées d’étude MutEC « La TEI en France : pratiques et perspectives »Lyon, 9-11 juin 2010

  • La TEI en France, Lyon, 9-11 juin 2010 2

    Plan

    Avant de commencer... cahier des charges d’un projet d’encodage

    Créer son schéma choisir des balises documenter les choix (TEI ODD)

    Expérience de projets CoRPTeF BFM – Manuscrits et Graal

    Discussion

  • La TEI en France, Lyon, 9-11 juin 2010 3

    Avant de commencer

    En fonction des objectifs du projet définir les besoins prioritaires :

    qu’est-ce qu’on veut voir / chercher dans l’édition numérique ? penser aux perspectives :

    échanges, intégration dans des collections élargissement du public enrichissement maintenance

    Dilemme richesse et précision des données vs compatibilité et

    facilité d’échanges et de maintenance

  • La TEI en France, Lyon, 9-11 juin 2010 4

    Avant de commencer

    Analyser le(s) document(s) source corps du texte / descripteurs source primaire / édition papier une source / plusieurs sources à aligner apparat critique

  • La TEI en France, Lyon, 9-11 juin 2010 5

    Créer son schéma

    Partir de l’existant http://www.tei-c.org/Activities/Projects/

    Sinon : définir le jeu de balises minimal

    voir la sélection « Parties les plus visitées » des Guidelines de la TEI

    choisir les balises supplémentaires à partir des chapitres spécialisés des Guidelines en cherchant dans l’index des éléments

    http://www.tei-c.org/Activities/Projects/http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/index.html

  • La TEI en France, Lyon, 9-11 juin 2010 6

    Créer son schéma

    Documenter ses choix pour les humains pour les machines

    Pour les machines définir les balises, leurs attributs, leur contenu

    on peut inclure ou exclure une balise proposée par la TEI telle quelle modifier une balise TEI (attention à la conformité TEI !) définir sa propre balise

    Pour les humains expliquer pourquoi et comment...

    TEI ODD

  • La TEI en France, Lyon, 9-11 juin 2010 7

    Créer son schéma

    Pour éditer un ODD ROMA (interface web ou en ligne de commande)

    http://www.tei-c.org/Roma/ éditer directement le fichier XML

    Empty pointing element in a very simple schema

    supplies the URI of the thing pointed at

    http://www.tei-c.org/Roma/

  • La TEI en France, Lyon, 9-11 juin 2010 8

    Créer son schéma

    Une fois les balises définies, on peut vérifier si la personnalisation est viable

    « sanity check » générer des schémas aux formats standards

    DTD, RNG, Schematron, W3C générer la documentation contrôler le balisage dans un logiciel d’édition XML

    ... et on peut toujours revenir sur ses choix et ajuster le jeu de balises

  • La TEI en France, Lyon, 9-11 juin 2010 9

    Projet CoRPTeF

    Corpus Représentatif des Premiers Textes Français resp. Céline Guillot

    (ICAR / ENS de Lyon) financement ANR 2008-2010

    Utilisateurs linguistes médiévistes autres linguistes littéraires, historiens...

    http://corptef.ens-lyon.fr/http://corptef.ens-lyon.fr/

  • La TEI en France, Lyon, 9-11 juin 2010 10

    Projet CoRPTeF Objectifs

    décrire le très ancien français (IXe – XIIe s.) créer un corpus représentatif,

    linguistiquement enrichi

    Priorités de codage descripteurs (pour construire un corpus) corps du texte (pas de notes ni d’apparat critique) compatibilité avec les outils de TAL et d’annotation linguistique

    « manuelle » (import / export) intégration dans les outils d’exploitation (plateforme TXM,

    TigerSearch...)

  • La TEI en France, Lyon, 9-11 juin 2010 11

    Projet CoRPTeF Sources

    « bonnes » éditions papier fidélité à la source

    textes déjà numérisés (BFM, ANH) compatibilité avec les anciens choix d’encodage

    sélection de textes à numériser en fonction des critères d’organisation du corpus (date, genre, dialecte...)

    Communautés Consortium international pour les Corpus de Français

    Médiéval Textométrie TEI

    http://ccfm.ens-lsh.fr/http://textometrie.ens-lsh.fr/

  • La TEI en France, Lyon, 9-11 juin 2010 12

    Projet CoRPTeF Variété des sources

    prose, vers, proverbes traductions, « mélange » français / latin éditions normalisées / « ultra-diplomatiques » nombreuses lacunes

  • La TEI en France, Lyon, 9-11 juin 2010 13

    Projet CoRPTeF Les dialogues du pape

    Grégoire éd. Foerster 1876 texte parallèle en français et

    en latin indication des locuteurs quelques corrections

    file:///C:/Documents and Settings/alavrent/Mes documents/Communications/TEI Formation MUTEC 2010-06-09/dialgreg.jpg

  • La TEI en France, Lyon, 9-11 juin 2010 14

    Projet CoRPTeF

    Trope liturgique paraphrasant le Cantique des cantiques

    (éd. Foerster & Koschwitz 1932)

    plusieurs systèmes de numérotation

    alinéas variables marques d’abréviations s « long » italiques (caractères

    illisibles)

  • La TEI en France, Lyon, 9-11 juin 2010 15

    Projet CoRPTeF Choix des balises

    modules utilisés tei textstructure core header analysis corpus linking namesdates transcr

  • La TEI en France, Lyon, 9-11 juin 2010 16

    Projet CoRPTeF Choix des balises

    point de départ : jeu CCFM Niveau 1 : Structure du texte

    groupe de textes unité textuelle différents niveaux de sections (partie, chapitre,

    section…)

    paragraphe , vers et groupe de vers (non utilisées) structure de la taille d’un paragraphe sans en avoir

    le rôle dans la BFM, on utilise cette balise au lieu de pour assurer la

    compatibilité avec le balisage de phrases

    http://ccfm.ens-lyon.fr/

  • La TEI en France, Lyon, 9-11 juin 2010 17

    Projet CoRPTeF Choix des balises

    point de départ : jeu CCFM Niveau 1 (suite) : Segmentation de référence

    passage à la ligne changement de page délimitation de phrase

    Niveau 2 : Analyses , , , , : interventions éditoriales , : analyses graphiques , : analyses linguistiques , : liens entre différents éléments d’un texte

    http://ccfm.ens-lyon.fr/

  • La TEI en France, Lyon, 9-11 juin 2010 18

    Projet CoRPTeF Choix des balises

    balises supplémentaires pour représenter les données de la source (édition critique)

     : références diverses : titre d’une division ,  : prise de parole et locuteur  : caractères ou mots ajoutés par l’éditeur : lacune du manuscrit (points de suspension dans

    l’édition) : une mise en relief typographique difficile à interpréter...

  • La TEI en France, Lyon, 9-11 juin 2010 19

    Projet CoRPTeF Choix des balises

    balises supplémentaires pour faciliter le traitement automatique

    , : interpréter les points (.ii.) ; @rend="word_part" : tokeniser correctement les mots contenant

    des balises ; → : pour les passages au discours direct et/ou @xml:lang : identifier les passages en une

    langue différente... pour insérer des notes et des commentaires

     : références diverses

  • La TEI en France, Lyon, 9-11 juin 2010 20

    Projet CoRPTeF Ajout d’une balise « en cours de route »

    (module verse)

  • La TEI en France, Lyon, 9-11 juin 2010 21

    Projet CoRPTeF Choix des balises

    documentation Toute la documentation actuelle

    Spécification ODD

    Manuel d’encodage...

    Consignes au relecteurs

    Manuel de description des textes

    http://ccfm.ens-lyon.fr/spip.php?article49http://ccfm.ens-lyon.fr/IMG/xml/tei_bfm_odd.xmlhttp://ccfm.ens-lyon.fr/IMG/pdf/Manuel_Encodage_TEI.pdfhttp://ccfm.ens-lyon.fr/IMG/pdf/Consignes_BFM.pdfhttp://ccfm.ens-lyon.fr/IMG/pdf/Manuel_Descripteurs_BFM.pdf

  • La TEI en France, Lyon, 9-11 juin 2010 22

    Projet BFM - Manuscrits Corpus de transcriptions de manuscrits

    créé pour une thèse sur la ponctuation médiévale destiné à compléter la Base de Français Médiéval

    Priorités de codage

    représentation fine de l’écriture manuscrite ponctuation, segmentation, abréviations, variantes de

    caractères normalisation pour une lecture facilitée annotation linguistique

    http://bfm.ens-lsh.fr/

  • La TEI en France, Lyon, 9-11 juin 2010 23

    Projet BFM - Manuscrits

    Pro deo amur et pro christian poblo et nostro communsaluament, d'ist di In auant, in quant deussauir et podir me dunat, si saluarai eo,cist meon fradre karlo, et in aiudha,et in cadhuna cosa, si cum om per dreit sonfradra saluar dift. In o quid il mi altresifazet. Et ab ludher nul plaid nunqua·mprindrai qui meon uol cist meon fradrekarle in damno sit.

    Transcription graphématique

    Pro Deo amur et pro christian poblo et nostro commun salvament, d’ist di in avant, in quant Deus savir et podir me dunat, si salvarai eocist meon fradre Karlo et in aiudhaet in cadhuna cosa, si cum om per dreit sonfradra salvar dift, in o quid il mi altresi fazet. Et ab Ludher nul plaid nunqua·m prindrai qui, meon vol, cist meon fradre Karle in damno sit.

    Transcription normalisée

    Pro doa̅mur &ꝓxpı̅ an poblo & nro com̅unſaluament · dıst dı [e + I] n auant · ınquantdẝſauır & podır medunat · ſıſaluaraıeo ·cıst meon fradre karlo · & ın aḍ ıudha ·& ın cad huna coſa · ſıcu̅ om ꝑ dreıt ſonfradra ſaluar dı · I no quıd ıl mıaltreſı faz& · E tabludher nul plaıd nu̅quaprındraı quı meon uol cıst meonfradrekarle ındamnoſıt ·

    Transcription allographique

    Serments de Strasbourg (BnF, lat. 9768)

  • La TEI en France, Lyon, 9-11 juin 2010 24

    Projet BFM - Manuscrits

    Annotation linguistique

    [5] Pro deo+amur et+pro+christi_an poblo et nostro commun [6] saluament [· > ,] d'ist di [eI]n auant [· > ,] in+quant+deus [7] sauir et podir me+dunat [· > ,] si+saluarai+eo [· > ] [8] cist meon fradre karlo [· > ] et in ad_iudha [· > ] [9] et in cad_huna cosa [· > ,] si+cun om per dreit son [10] fradra saluar dift [· > ,] I_n+o quid il mi+altresi [11] fazet [· > .] E_t+ab+ludher nul plaid nunqua·m [12] prindrai qui+[ > ,] meon uol [ > ,] cist meon+fradre [13] karle in+damno+sit [· > .]

    d1-f3f

  • La TEI en France, Lyon, 9-11 juin 2010 25

    Projet BFM - Manuscrits Choix des balises

    balises TEI-CCFM balises TEI-BFM balises TEI supplémentaires

    , : corrections scribales , : marques d’abréviation et résolutions @facs : lien avec les images

    annotation des « unités ponctuables » attributs sur des balises et

  • La TEI en France, Lyon, 9-11 juin 2010 26

    Projet BFM - Manuscrits Extension de la TEI

    balises Menota , , : pour les 3 niveaux de

    transcription balises BFM

    : marque de ponctuation adoptée par la TEI en 2009

    : « déglutinations » : lettrine : marque de coupure de mot en fin de ligne @aggl (sur ) : agglutinations...

    http://www.menota.org/

  • La TEI en France, Lyon, 9-11 juin 2010 27

    Projet Graal Édition en ligne « multi-facette » (ms. Lyon, bm, P.A. 77)

    éditeur scientifique : Ch. Marchello-Nizia prototype encodage d’une partie du texte selon le schéma BFM-

    Manuscrits affichage « vis-à-vis »

    images du manuscrit les trois transcriptions traduction en français moderne

    « outillage  textométrique » concordances (formes et catégories morphologiques, discours

    direct) ; retour au texte

    http://txm.risc.cnrs.fr/txm

  • La TEI en France, Lyon, 9-11 juin 2010 28

    Projets BFM – Manuscrits et Graal Documentation

    Manuel d’encodage BFM - Manuscrits

    Introduction à l’édition de la Quête du saint Graal

    Fichiers sources de l’édition du Graal

    spécification ODD document XML feuilles de style

    http://ccfm.ens-lyon.fr/IMG/pdf/BFM-Mss_Encodage-XML.pdfhttp://txm.risc.cnrs.fr/txm/texte/introhttp://ccfm.ens-lyon.fr/IMG/zip/qgraal_cm_2010-01.zip

  • La TEI en France, Lyon, 9-11 juin 2010 29

    Discussion...

    Diapo 1Diapo 2Diapo 3Diapo 4Diapo 5Diapo 6Diapo 7Diapo 8Diapo 9Diapo 10Diapo 11Diapo 12Diapo 13Diapo 14Diapo 15Diapo 16Diapo 17Diapo 18Diapo 19Diapo 20Diapo 21Diapo 22Diapo 23Diapo 24Diapo 25Diapo 26Diapo 27Diapo 28Diapo 29