Upload
lucienne-potier
View
111
Download
5
Embed Size (px)
Citation preview
Plan
• Quelles ressources pour une analyse syntaxique «classique»?– Utilisations possibles
• Les grammaires d’arbres adjoints lexicalisés– Lexique– Grammaire
• Un exemple d’analyseur: LTAG
Analyse syntaxique « classique »
• identifier les formes des mots et les parties du discours – un lexique complet (toutes les formes)Ou- un étiqueteur + dérivation de formes fléchies
• construire les arbres syntaxiques pour un texte donné– Un ensemble de règles de grammaires et des
contraintes associés• Accord sujet-prédicat, dépendences à distance etc.• modèles linguistiques
Utilisation des ressources
• analyse syntaxique et sémantique• aide à la traduction
– phénomènes linguistiques à traiter: règles d'accord, verbes transitives et intransitives, dépendences à distance
– lexique (expressions figées)
• traduction automatique– systèmes à base d'arbre syntaxiques
• apprentissage d'une langue etrangère– consulter les règles de grammaire
Lexique
• Informations– Toutes les formes– lemmes– Propriétés
• morphologiques • sémantiques
• unités lexicales vs. mots composés
• exhausitivité
Exemples de lexiques
• Sur le CNRTL (Centre national de ressources textuelles et lexicales) http://www.cnrtl.fr/lexiques/
• Morphalou– 400000 formes fléchies– Format XML– Propriétés mophologiques et lemmes
• Prolex : un lexique de noms propres
Exemples de lexiques
• Anglais– http://www.ahds.ac.uk/litlangling
• Multext-EAST :dictionnaires pour plusieurs langues de l’Europe Centrale et de l’Est– http://nl.ijs.si/ME/V3/
Grammaires
• Plusieurs aspects– organisation du lexique– stratégies d'analyse automatique
• Plusieurs modèles pour la grammaire– GPSG (Generalized Phrase Structure Grammar)
(Gazdar)– LFG (Lexical Function Grammar) (Kaplan)– HPSG (Head Phrase Structure Grammar) (Pollard,
Sag, 1994)– TAG (Joshi, 1985), LTAG (Joshi, 1995)
Exemples de ressources
• Une grammaire HPSG pour plusieurs langues– http://www.delph-in.net/index.php?page=3– ERG: pour l'anglais
• http://www.delph-in.net/erg/
– espagnol http://www.upf.edu/pdi/iula/montserrat.marimon/spanish_resource_grammar.html
• LFG (anglais, allemand, norvégien)– http://decentius.aksis.uib.no/logon/xle.xml
TAG
• Tree Adjoining Grammars (Joshi, 1975, 1995)– l'hypothèse: représenter les contextes
syntaxiques locales (des arbres syntaxiques)– contraintes sur les combinaisons entre ces
arbres syntaxiques – justification linguistique (structure prédicat-
argument)– prise en compte de l'ordre locale des mots
TAG (II)
• La grammaire: un symbole initial, des symboles non-terminaux, des symboles terminaux
• Les règles de réécriture: un ensemble d'arbres – arbre initial: un arbre ayant le noeud racine étiqueté
avec le symbole initial• noeuds feuilles: symboles terminaux
– arbre auxiliaire: un seul noeud feuille étiqueté X, la même étiquete que l'étiquette du noeud racine
Arbre initial et arbre auxiliaire
W
Arbre initial α
Phrase
W T* (T l'ensemble de symboles terminaux)
α :
Arbre auxiliaire
X
W1, W2 T* (T l'ensemble de symboles terminaux)X NT (NT – symbole non-terminal)
:
W1 W2X
Adjonction
Phrase
t – sous arbre avec la racine X
: X :
X
X
t
X' :
X
X
t
Lexicalized Tree Adjoining Grammars (LTAG)
• association entrée lexicale - arbres– description complète de l'environnement
syntaxique– possibilité de traiter les expressions figées
• modifications par rapport au TAG– ancrage lexical– deux opérations: substitution (obligatoire) et
adjonction (facultative)
Arbres LTAG
• Arbres élémentaires – décrivent des arguments obligatoires avec d'autres arbres: tête-complément– au moins un noeud ancre (l'unité lexicale)– des noeuds de substitution ()
• Arbres auxiliaires – relations tête-modifieurs– un noeud ancre– un noeud pied (*), l'étiquette est identique au noeud
racine
Exemples
S
V GN
V
Adv V*
S
V GN GN
GN
Np
nv1: nvn1:
adv1: np1:
Propriétés
• Grammaire lexicalisée:– arbres– unités lexicales associées aux arbres– opérations
• localité– un arbre élémentaire contient tous les arguments
dans la même structure– pour chaque unité lexicale, on associe plusieurs
arbres
• recursivité: arbres auxiliaires
Arbres dérivés et arbres de dérivation• arbres dérivés:
– le résultat obtenu suite aux opération de substitution et d'adjonction, sur les arbres associés aux unités lexicales de la phrase d'entrée
• arbres de dérivation– les noeuds étiquetés avec le nom de l'arbre et l'ancre
(le lemme) – les liens – opérations d'adjonction ou de substitution
• arbre de dépendances– on supprime les noms des arbres dans l'arbre de
dérivation
Ressources
• XTAG (Doran et al, 1994)– grammaire de grande couverture– étiqueteur, analyseur morphologique,
analyseur syntaxique– http://www.cis.upenn.edu/~xtag/
• FTAG (Abeillé, 2002)– grammaire de grande couverture pour le
français
L'analyseur syntaxique LTAG
• développé par Langue et Dialogue, LORIA, INRIA-Lorraine– http://www.loria.fr/~azim/LLP2/help/fr/index.html
• utilise un lexique et une grammaire d'arbres adjoints (Joshi 1995)– chaque mot est associé à une famille d'arbres – un arbre décrit le comportement syntaxique de
chaque mot– grammaire d'arbres adjoints lexicalisée (LTAG)
(Abeillé et al, 2001)– possible extensions pour les structures de traits
L'analyseur syntaxique LTAG (II)
• Combiner les arbres associés aux mots de la phrase – opération de substitution: structure prédicat-
argument– opération d'adjonction: les modifieurs
• coût important d'adaptation des ressources aux domaines nouveaux
Jean dort énormément
Jean
dormir
S
VN
énormément
N
Np
Lexique
Arbres
N
Jean
dort
S
VNS
VN
Jean dort
substitution
adjonctionV
Adv V*
V
AdvV*
énormément
Adv
S
VN
Jean dort énormément
Ressources
• une DTD qui décrit les familles d'arbres, de lemmes et d'unités lexicales
• un arbre: – au moins un noeud ancre (attribut type)– un noeud tête (l'élément central qui porte les
propriétés du constituant)– des noeuds de type substitution (subst) ou adjonction
(foot)
• lien avec le lemme: lexicalisation• unités lexicales: morphoLib
Exemple d'arbre
<tree id="prep_mod_temp">
<node cat="VP">
<node cat="VP" type="foot"/>
<node cat="PP">
<node cat="Prep" name="_head" type="anchor">
</node>
<node cat="N" type="subst">
</node>
</node>
</node>
</tree>
Exemples de ancrage
<lexicalization><family>
<tree id="for_n_adj"/></family>
<anchor noderef="_head">
<lemmaref cat="Prep" name="FOR"/>
</anchor>
</lexicalization>
Exemple d'entrée
<morph lex="for">
<fs>
<f name="cat">
<sym value="prep"/>
</f>
</fs>
<lemmaref cat="Prep" name="FOR"/>
</morph>
Autres outils
• French MetaGrammar parser http://alpage.inria.fr/alpi.fr.html
• autres parseurs– http://alpage.inria.fr/software.fr.html
• XTAG parser (Bangalore, 1997) utilisant des informations statistiques pour réduire le nombre d'arbres
Avantages et Limites
• avantages– modèle opérationnel– adaptable pour l'analyse partielle– motivation linguistique
• limites– coût important pour créer les ressources– nécessite une sélection préalable des arbres
Réferences• Abeillé, A., L. Clément, and F. Toussenel. 2003.
`Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht
• Abeillé, A., Schabes, Y., Joshi, A. 1990. Using Lexicalized Tags for Machine Translation. COLING 1990: 1-6
• Abeillé, A. 2002. Une grammaire électronique du français, CNRS Editions, Paris.
• Doran et al 1994. XTAG System – A Wide Coverage Grammar for English. In Proceedings of COLING'94.
Réferences (II)
• Kaplan, R., Bresnan, J. 1983. Lexical Functional Grammar: A Formal System for Grammatical Representation. In J.Bresnan (ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts
• Joshi, A. 1995. Introduction to Tree Adjoining Grammars. In Computational Intelligence
• Joshi, A., Levy, L., Takahashi, M. 1975. Tree Adjunct Grammars. J. Comput. Syst. Sci. 10(1): 136-163
Sujet
• Réalisez un dossier de 6-8 pages qui présente un outil d'analyse automatique (étiqueteur, analyseur syntaxique) ou une ressources (lexique, grammaire), avec les avantages et les inconvenients de chaque modèle.