Upload
georgine-fortin
View
104
Download
0
Embed Size (px)
Citation preview
Silfide : ressources, outils et normalisation
Laurent RomaryLaboratoire LoriaNancy
Silfide - présentation
Serveur Interactif pour la Langue Française, son Identité, sa Diffusion, son EtudeProjet commun lancé au début de 1996
CNRS (Centre National de la Recherche Scientifique)
Aupelf•Uref (Association des Universités Partiellement ou Entièrement de Langue Française)
Équipes : Loria, INaLF, CLIPS, LIMSI, LPL
Principaux objectifs
coordonner les efforts de la communauté académique dans le domaine des ressources linguistiques
développer et promouvoir des actions de normalisation
procurer un accès libre aux ressources et aux services associés
Contexte
Ressources linguistiques Textes (littérature,théâtre, poésie, journaux, etc.) Transcriptions (e.g. dialogues) Dictionnaires, lexiques
Utilisateurs Lexicographes, linguistes, informaticiens Outils divers (e.g. étiqueteurs morpho-
syntaxiques)
Un constat
coût intellectuel et financier de la création des données
quelle documentation associée à ces données ?
comment utiliser ces données (outils) ?
Normaliser pour mieux utiliser et partager nos données.
TEI (Text Encoding Initiative)
Origine : réunion de novembre 1987 au Vassar College (Poughkeepsie, New York)
Directives de codage des textes électroniques sur la base de SGML
Institutions scientifiques :ACH, ALLC, ACL
Guidelines for Electronic Text Encoding and Interchange (TEI P3)
eds. : Michael Sperberg-McQueen et Lou Burnard
TEI - Contenu
Recommandations norme SGML (Standard Generalized Markup
Language) modularité de la DTD TEI
un jeu de balises "noyau" (core tag set) : en-tête, divisions, paragraphes etc.
des ensembles de balises de base (base tag sets) : prose, poésie en vers, dictionnaires, etc.
des jeux de balises additionnelles (additional tag sets) : liens hypertextuels etc.
Conséquence : une famille de DTD TEI
TEI - Documentation des textes
Identification et suivi des textescf. catalogage des documents électroniques (ex.
Silfide)cf. échange des documents électroniques
Comment : en-tête TEI (TeiHeader)aspects bibliographiques du document source
(auteur, éditeur, édition, etc.)aspects propres au document électronique (aspects
bibliographiques, codage, historique des révisions etc.)
TEI - Pièces de théâtre
interventions et indications scéniques<sp who=“P”>
<speaker>Paul</speaker>
<p>Il fait chaud aujourd’hui…</p>
</sp>
<stage>Paul allume une cigarette</stage>
remarque : déclaration des personnages dans une <castList>
TEI - Transcriptions de l’oral
tours de parole, segments<u who=“S”>
<seg>France Telecom, bonjour.</seg>
<seg>Que désirez-vous?</seg>
</u>
remarque : possibilités de coder les pauses, transitions,
superpositions, bruits, difficultés de transcription etc.
TEI - Dictionnaires
structure minimale d’une entrée : mot-vedette, indications grammaticales, définition,
exemples<entry>
<form>
<orth>table</orth>
</form>
<gramGrp><pos>n.f.</pos><gramGrp>
<def>Pièce de mobilier…</def>
<eg>Une table de cuisine</eg>
</entry>
Silfide - du point de vue de l’utilisateur
pas de balise SGML…un scénario en deux temps
Sélection de ressources : construction d’un corpus de travail (“panier”)
Requêtes sur le contenu : utilisation d’outils en ligne sur ce corpus
Sélection des ressources
Liste des sélections
•Le petit Prince…•Le Père Goriot…•ksqjdhlksqjhd•ksjqdhlkqj•…
Titre
Auteur
Requête complexe
Recherche
panier
Sélection Travail en ligne
Résultat
Et XML arriva...
Où l’internet donne raison à la démarche de la TEI
Un rapide état des lieux - 1
XML Une recommandation du W3C simplifiant
SGML Un gain en souplesse et en puissance
Document bien formé/valide
Des interfaces de programmation API DOM : modèle arborescent API SAX : accès par évènements
Un rapide état des lieus - 2
Des recommandations associées Xpath
Un langage généralisé d ’accès à la structure d ’un document XML/body//div/q[lan=“de”]
, XSLUn langage de transformation et de présentationUn système à base de règle exprimées en XMLLes bases d ’une BD orientée XML?
Mise en réseau de serveurs Silfide
DB1Serveur 1
DB2
Serveur 2
DB3
Serveur 3
DB4
Serveur 4
Client(navigateur)
http
Point d ’accès local
Usage généralisé de XML
Informations utilisateursGestion de l ’espace de travail
Paramètres de session « Panier »
RequêtesListes de résultats
Silfide et XML…
DB1Server 1
DB2
Server 2
DB3
Server 3
DB4
Server 4
User Client
<XQL>
Local access point<XRS>
<SWS>
Bilan : apports d ’XML
Uniformisation des formats Contenus « utiles » (adapter la TEI…) Gestion des échanges
Fractionnement et recomposition Utilisation des documents par parties
E.g. : entrée d ’un dictionnaire
Résultat >> documentApplications : commandes en « pipe » (cf. HCRC)
Bilan : apports d ’XML - 2
De premiers composants réutilisables Parseurs XML Interpréteur de requêtes sur des documents
structurés Au delà?
Et maintenant ?
Pistes de développement des efforts de normalisation
Développements en cours - 1
Ressources primaires Initiative INaLF-Loria de rétro-conversion de
textes issus de FrantextThéâtre, poésie etc.Des bases éditoriales codifiées et simplifiées (en-
tête minimal)
Une prise de conscience du besoin de normalisation : IRESCO, Paris IV, etc.
Développements en cours - 2
Annotation externe Cf. CES/Eagles - avènement de Xpath Exemple: alignement de textes multilingues Annotation de la référence MLIS/Mate: une initiative européenne dans le
domaine de l ’étude du dialogue
Développements en cours - 3
Ressources pour l ’Informatique linguistique Terminologie/lexicographie multilingue
MARTIF (ISO 12200, expérimenté dans MLIS/Dhydro)
Lexique syntaxiqueTAGML
Perspectives
Stabiliser une « couche basse » API d ’accès aux mots d ’un texte Entrées/Sorties d ’étiqueteurs morpho-
syntaxiques Architectures de ressources lexico-
grammaticales
Moyens
Accroître la normalisation des données et des interfaces Des rencontres régulières (au delà de cette
journée « découverte ») Un vrai GT sur ce thème
Aboutir à une base commune pour: Échanger des données primaires Échanger des composants Évaluer nos systèmes