Thierry Poibeau LIPN (CNRS et U. Paris 13) poibeau

Preview:

DESCRIPTION

Architectures articulant des représentations hétérogènes L’exemple de Gate (Mini tutoriel, journée Atala du 12 février 2005). Thierry Poibeau LIPN (CNRS et U. Paris 13) http://www-lipn.univ-paris13.fr/~poibeau. De quoi parle-t-on ?. - PowerPoint PPT Presentation

Citation preview

Architectures articulant des représentations hétérogènes

L’exemple de Gate

(Mini tutoriel, journée Atala du 12 février 2005)

Thierry PoibeauLIPN (CNRS et U. Paris 13)http://www-lipn.univ-paris13.fr/~poibeau

De quoi parle-t-on ?

Architecture permettant de recevoir des outils linguistiques de natures diverses Diversité des langages informatiques

employés Diversité des langues traitées

(multilinguisme) Diversité des types d’annotation Diversité des formats de données etc.

Pourquoi de telles architectures ?

Faciliter la conception d’applications Chaînage d’outils linguistiques Réutilisation de modules existants Gestion aisée des données (corpus et

annotations)

Nouveaux besoins liés au web Informatique répartie Multilinguisme

Quelques plates-formes, classées par type d’annotation

Ajout d’annotations au corpusLT-NSL/LT-XML toolkit, Edimburgh

Stockage des annotations à part TIPSTER (dont Gate, Ellogon, Alembic…)

Représentation uniforme (théorie ling.) Xtag U. Penn ; ENJU, U. Tokyo ; Alep …

Aucun mode de gestion pré-définie ICE Intarc, VerbMobil ; TalLab, I-CDC

L’exemple de Gate

Développé à Sheffield depuis 1996 Gratuit et open source Largement distribué (projets européens… )

« …des milliers d’utilisateurs sur des centaines de sites… »

Initialement développé dans le cadre Tipster

Gate 2 (depuis 2002) Entièrement en java (multi plate-forme) Unicode (multilinguisme)

http://www.gate.ac.uk

Principaux composants

Une infrastructure (architecture) Un ensemble de modules Un ensemble de données (textes, ressources, annotations) Une interface graphique permettant de manipuler les données Les traitements (chaînage de

composant)

Outils intégrés

Un système d’extraction d’information pour l’anglais (Segmentation, analyse morpho-syntaxique, entités nommées…)Un système de gestion de regex (Jape, module d’ expressions régulières en java)Interface d’annotation manuelleOutils d’évaluation (comparaison de l’annotation d’un module/référence)

Gestion des annotations

Format Tipster Informations sous forme attribut-valeur Stockage en dehors du document Référence au document par des indices

de position

Format Gate 2 Possibilités de « sorties » au format XML Nouveau types de données supportées

(dictionnaires, ontologies, etc)

Données demandant des liens entre éléments, plus complexe que le format attribut-valeur

Développement d’applications

Principales utilisations Extraction d’information, résumé

automatique Annotation sémantique (AKT)

Construire une application Choisir des composants Les intégrer à Gate (créolisation) Chaîner les traitements

L’expérience du projet Ecran

Projet européen (1996-1998) But Développer des systèmes d’extraction

d’information en anglais, français, grec

Moyens Plate-forme commune : Gate v1 Composants développés avec différents

langages Français : extraction + indexation

sémantique

Chaîne logicielle

Modules intégrés Modules développés hors-projet (Multext) Modules propres (U. Fribourg, Thomson-

CSF)

Visualiseur d’annotations

Visualiseur de Gate 1 (format propre)

Résultat de l’extraction

Formulaire d’extraction(développé en dehors de Gate, à partir des résultats de

l’analyse)

Bilan du projet Ecran

Des points intéressants Réutilisabilité des modules Visualiseurs intégrés Architecture modulable (chaînage)

Des points problématiques Insertion de composants délicate

(créolisation) Format d’annotation propriétaire (pas

XML) Relativement « lourd » et lent

Quelques éléments sur Gate 2

Environnement de création d’application Cf. environnements de développement

d’applications informatiques Enchaînement en pipe-line ou en parallèle Gestion intégrée des ressources

Intégration d’outils de développement de base Jape : bibliothèque d’automates à états finis Annotation auto./manuelle de textes Plusieurs types de visualiseurs

Construire une application (Gate 2)

Annotation sémantique (Gate2)

Bilan sur Gate 2

Un environnement séduisant Nombreux modules disponibles Facilité de manipulation et de

construction d’application Évaluation

Quelques limites « Créolisation » de composants

extérieurs Efficacité de java ?

Conclusion

Des environnements nécessaires Réutilisation et intégration

d’applications Modularité, évolutivité Échanges de données et de traitements

Un investissement rentable pour le TAL

Recommended