44
Une Grammaire Noyau Une Grammaire Noyau pour l'analyse syntaxique de pour l'analyse syntaxique de structures présentes dans tout structures présentes dans tout type de corpus type de corpus Núria Gala Pavia Núria Gala Pavia Xerox Research Centre Europe Xerox Research Centre Europe et LIMSI-CNRS et LIMSI-CNRS [email protected] [email protected] S éminaire du groupe Langage et éminaire du groupe Langage et Cognition Cognition Orsay, 5 décembre 2000 Orsay, 5 décembre 2000

Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Embed Size (px)

Citation preview

Page 1: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Une Grammaire Noyau Une Grammaire Noyau pour l'analyse syntaxique de structures pour l'analyse syntaxique de structures

présentes dans tout type de corpusprésentes dans tout type de corpus

Núria Gala PaviaNúria Gala Pavia

Xerox Research Centre Europe Xerox Research Centre Europe

et LIMSI-CNRSet LIMSI-CNRS

[email protected]@xrce.xerox.com

Séminaire du groupe Langage et Cognitionéminaire du groupe Langage et Cognition

Orsay, 5 décembre 2000Orsay, 5 décembre 2000

Page 2: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Analyseurs robustesAnalyseurs robustes

• analyse par étapes déterministesanalyse par étapes déterministes

plutôt que globale et recursiveplutôt que globale et recursive

• resultats exploitables resultats exploitables

quelle que soit la ‘propreté’ du texte en entréequelle que soit la ‘propreté’ du texte en entrée ---- applications réellesapplications réelles

• approches diversesapproches diverses

grammaires [Joshi 61] / statistiques [Church 88]grammaires [Joshi 61] / statistiques [Church 88]

Caractéristiques générales :Caractéristiques générales :

Page 3: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Fondements linguistiquesFondements linguistiques

“ “Certains accessoires Certains accessoires inappropiinappropiéés s modifient modifient la positionla position normale normale de pilotage.de pilotage.””

• Grammaires Grammaires Syntagmatiques Syntagmatiques Noyau Noyau ((chunkschunks))• Grammaires de Grammaires de DépendancesDépendances

• Systèmes Systèmes MixtesMixtes

[Certains accessoires]NP [inappropiés]AP [modifient]VP [la position]NP [normale]AP [de pilotage]PP.

Certains accessoires inappropiés modifient

la position normale de pilotage.

[Certains accessoires]NP [inappropiés]AP [modifient]VP [la position]NP [normale]AP [de pilotage]PP.

SUBJ(accessoires,modifier) NADJ(accesoires, inappropiés) OBJ(modifier,position)

COS

A

AC CA

Page 4: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Quelques Analyseurs robustesQuelques Analyseurs robustes

• CASSCASS (Abney, 91; 96) (Abney, 91; 96)

• FidditchFidditch (Hindle, 93); (Hindle, 93);

• ENGCC ENGCC (Karlsson (Karlsson et al.et al. 95) ; 95) ;

• FDGFDG (Functional Dependency Grammar, (Functional Dependency Grammar, Conexor, Tapanainen et Järvinen, 97);Conexor, Tapanainen et Järvinen, 97);

• SextantSextant (Grefenstette, 94); (Grefenstette, 94);

• Analyseur du GREYCAnalyseur du GREYC (Giguet et Vergne, 97); (Giguet et Vergne, 97);

• IFSPIFSP (Aït-Mokhtar et Chanod, 97); (Aït-Mokhtar et Chanod, 97);

Page 5: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Plan de ce séminaire

1.1. Problématique de la thèseProblématique de la thèse

2.2. Architecture générale proposée:Architecture générale proposée:• ReconfigurabilitéReconfigurabilité• AdaptabilitéAdaptabilité

3.3. Un parseur modulaireUn parseur modulaire• ChunkingChunking

(a) Grammaire noyau(a) Grammaire noyau

(b) Module de diagnostic(b) Module de diagnostic

(c) Grammaires spécialisées(c) Grammaires spécialisées• DépendancesDépendances

4.4. Conclusions et perspectivesConclusions et perspectives

Page 6: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

1. Problématique de la thèse1. Problématique de la thèse

• Texte “libre” en grandes quantitésTexte “libre” en grandes quantités• Grande variété de phénomènes Grande variété de phénomènes • Encodage de l’information Encodage de l’information

• formes appauvries (phrases dans des mails, formes appauvries (phrases dans des mails, titres “télégraphiques”…)titres “télégraphiques”…)

• formes enrichies (marques structurelles, formes enrichies (marques structurelles, marques pragmatiques…)marques pragmatiques…)

Page 7: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Variété et Hétérogénéité des corpusVariété et Hétérogénéité des corpus

Phénomènes “non standard” pour une grammaire : Phénomènes “non standard” pour une grammaire :

séquences linguistiques ou extralinguistiques séquences linguistiques ou extralinguistiques non modeliséesnon modelisées

Présents dans les corpus de façon hétérogène:Présents dans les corpus de façon hétérogène:

• fréquents dans tous les domainesfréquents dans tous les domaines

• particuliers à un type de corpus .particuliers à un type de corpus .

Page 8: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Exemples de Phénomènes “non standard”Exemples de Phénomènes “non standard”

L’Ecole des hautes études en sciences sociales (EHESS, 54 boulevard Raspail, Paris 6) accueille du 28 janvier au 6 mars “Les images médiatiques et la ville” , une exposition comprenant 45.000 timbres de France, d’Allemagne, d’Espagne et des pays de l’ex-bloc de l’Est.

(Le Monde)

Télécoms : l'italien STET s'allie avec l'américain ATT (Les Echos)

Page 9: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Autres Exemples “non standard”Autres Exemples “non standard”

Sur les modèles à partir de 1966 :

1 - Enlevez les caches plastiques (4) qui se trouvent sur le côté intérieur du tambour,

2 - Repérez les deux ouvertures qui permettent d'accéder aux molettes de réglage.

(Manuel technique)

017 -- oui là je malheureusement je / je peux vous le confirmer

(Transcription de l’oral)

Page 10: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Problèmes actuelsProblèmes actuels

• Ensemble de phénomènes “non standard”: Ensemble de phénomènes “non standard”: pourcentage considérable dans les corpuspourcentage considérable dans les corpus..

• Les architectures des analyseurs actuels Les architectures des analyseurs actuels ne ne permettent pas une adaptation facile à des permettent pas une adaptation facile à des domaines différents.domaines différents.

inputinput

outputoutput

GrammaireGrammaire

Analyse Analyse syntaxiquesyntaxique

Page 11: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

2. Architecture Proposée2. Architecture Proposée

Réconfigurabilité (modularité)Réconfigurabilité (modularité)

Adaptabilité (apprentissage)Adaptabilité (apprentissage)

Page 12: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Réconfigurabilité (modularité)Réconfigurabilité (modularité)

inputinput

outputoutput

Grammaire ‘noyau’ GGrammaire ‘noyau’ G0

Grammaires spécialiséesGrammaires spécialiséesGG11 GG22 GG33

…… GGnn

Module de ‘diagnostic’Module de ‘diagnostic’

Page 13: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Adaptabilité (apprentissage)Adaptabilité (apprentissage)

Module Module apprentissageapprentissage

Analyse Analyse préliminairepréliminaire

Ressources Ressources lexico-sém.lexico-sém.

inputinput

outputoutput

Grammaire ‘noyau’ GGrammaire ‘noyau’ G00

Grammaires spécialiséesGrammaires spécialiséesGG11 GG22 GG33

…… GGnn

Module de ‘diagnostic’Module de ‘diagnostic’

Page 14: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Récapitulatif sur l’architectureRécapitulatif sur l’architecture

• RéconfigurabilitéRéconfigurabilité des grammaires des grammaires

en fonction du contenu des corpus (modularité: en fonction du contenu des corpus (modularité: grammaire noyau et grammaires spécialisées) ;grammaire noyau et grammaires spécialisées) ;

• AdaptabilitéAdaptabilité du résultat du résultat

par rapport à des structures déjà bien par rapport à des structures déjà bien analysées (apprentissage).analysées (apprentissage).

Page 15: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

3. Création d’un parseur modulaire3. Création d’un parseur modulaire

• EEntréeée: :

texte étiquetté morphologiquement (texte étiquetté morphologiquement (tagged)tagged)

• SortieSortie: :

texte découpé en constituants avec liste de texte découpé en constituants avec liste de relations de dépendance pour chaque phraserelations de dépendance pour chaque phrase

Page 16: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Moteur utiliséMoteur utilisé

Parseur incrémental mixteParseur incrémental mixte(S. Aït-Mokhtar, J.P. Chanod, C.Roux) (S. Aït-Mokhtar, J.P. Chanod, C.Roux)

• Moteur écrit en C++Moteur écrit en C++

• indépendant des règles de la grammaire indépendant des règles de la grammaire

expressions regulières améliorées avec traits expressions regulières améliorées avec traits

Nous utilisons ce moteur pour créer notre propre…Nous utilisons ce moteur pour créer notre propre…

• découpage en découpage en constituantsconstituants ( (chunkingchunking))

• extraction de extraction de dépendancesdépendances

De façon modulaireDe façon modulaire

Page 17: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Vue d’ensemble du parseurVue d’ensemble du parseur

input

output

ChunkingExtraction de dépendances

Traitements morphologiques

ParseurParseur

Page 18: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

3.1 Chunking3.1 Chunking

• Découpage en constituantsDécoupage en constituants

• Approche modulaire linguistiquement motivéeApproche modulaire linguistiquement motivée (prise en compte de la variété de phénomènes (prise en compte de la variété de phénomènes dans des corpus très différents)dans des corpus très différents)

• Trois étapes de traitement différentes faites par:Trois étapes de traitement différentes faites par:

• un grammaire noyauun grammaire noyau

• un module de diagnosticun module de diagnostic

• des grammaires spécialiséesdes grammaires spécialisées

Page 19: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Vue d’ensemble du parseurVue d’ensemble du parseur

input

output

ChunkingExtraction de dépendances

Traitements morphologiques

g2

noyau

diagnosticgng1

Page 20: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

(a) Grammaire Noyau(a) Grammaire Noyau

Ensemble de règles de l’analyseurEnsemble de règles de l’analyseur

• permettant permettant

• le découpage d’un corpus en constituants ;le découpage d’un corpus en constituants ;

• l’envoi de l’envoi de quelquesquelques phrases vers le module phrases vers le module d’extraction de dépendances ;d’extraction de dépendances ;

• garantisant garantisant

• un taux de un taux de couverture couverture minimaleminimale pour tout pour tout corpus (e.g. 25%);corpus (e.g. 25%);

• un un rappelrappel et une et une précision précision maximalesmaximales quel que quel que soit le type de corpus (soit le type de corpus (e.g. plus que 90%e.g. plus que 90%).).

Page 21: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

MesuresMesures

• couverturecouverture: :

phrases analysées correctement avec GNphrases analysées correctement avec GN

total des phrasestotal des phrases

• rappelrappel: :

phrases ratées par GNphrases ratées par GN

total des phrasestotal des phrases

• précisionprécision: :

phrases analysées correctementphrases analysées correctement

phrases couvertesphrases couvertes

Page 22: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Découpage en constituantsDécoupage en constituants

Méthode d’analyse (sur corpus étiquetté):Méthode d’analyse (sur corpus étiquetté):

• marquage de segments de base marquage de segments de base

NP AP PP FV IV GVNP AP PP FV IV GV

• marquage de segments additionnels selon la marquage de segments additionnels selon la version de la grammaire version de la grammaire

BG SBC ANP PNP PFV S;BG SBC ANP PNP PFV S;

• marquage de phrases de premier niveau.marquage de phrases de premier niveau.

Page 23: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

MéthodeMéthode

22>PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant}, NP{les AP{principaux} acteurs} AP{politiques} PP{du NP{pays}} FV{ont donné} NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} qui FV{relancerait} NP{le processus} AP{démocratique}.

“En dépit d’un désaccord persistant, les principaux acteurs politiques du pays ont donné leur feu vert à la réunion d’une conférence qui relancerait le processus démocratique.”

[Le Monde]

• Découpage en segments de base:Découpage en segments de base:

Page 24: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

22>S{ANP{PP{En NP{dépit}} PP{d' NP{un désaccord}} AP{persistant},} NP{les AP{principaux} acteurs} PNP{ AP{politiques} PP{du NP{pays}}} FV{ont donné} PFV{NP{leur feu} AP{vert} PP{à NP{la réunion}} PP{d' NP{une conférence}} SBC{BG{qui} FV{relancerait}} NP{le processus} AP{démocratique}}.}

• Découpage en segments additionnelsDécoupage en segments additionnels

• Marquage de phrases de premier niveauMarquage de phrases de premier niveau

MéthodeMéthode

Page 25: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Objectifs de la Grammaire NoyauObjectifs de la Grammaire Noyau

• Analyser des phrases deAnalyser des phrases de premierpremier niveau niveau

structures couvertes par la Grammaire Noyau structures couvertes par la Grammaire Noyau quel que soit le type de corpus;quel que soit le type de corpus;

• Détecter des phrases de Détecter des phrases de deuxième niveaudeuxième niveau

pour lesquelles il faudra des modules d’analyse pour lesquelles il faudra des modules d’analyse spécialisés.spécialisés.

Page 26: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Architecture Architecture

premier niveaupremier niveau deuxième niveaudeuxième niveau

ChunkingChunking et et TriTri

Modules spécialisésModules spécialisés

Module de ‘diagnostic’Module de ‘diagnostic’

DépendancesDépendances output

input

Module noyauModule noyau

Page 27: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

• Création de plusieurs versions de la grammaireCréation de plusieurs versions de la grammaire

• Moyen de contrôler la diversité de structures des Moyen de contrôler la diversité de structures des corpus tout venantcorpus tout venant

• Chaque version plus riche que la précédente Chaque version plus riche que la précédente (admettant des structures plus complexes du point (admettant des structures plus complexes du point de vue de l’analyse syntaxique)de vue de l’analyse syntaxique)

VersionsVersions

Page 28: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

• Maintient d’un taux de précision et de rappel très Maintient d’un taux de précision et de rappel très élévésélévés

• Quand la précision et le rappel vont se dégrader de Quand la précision et le rappel vont se dégrader de façon considérable par l’ajout de nouvelles règles façon considérable par l’ajout de nouvelles règles dans la grammaire noyau, on aura atteint un seuil dans la grammaire noyau, on aura atteint un seuil (limite entre premier et deuxième niveau) (limite entre premier et deuxième niveau)

• Les phrases analysées avec une précision faible Les phrases analysées avec une précision faible auront besoin de traitements syntaxiques plus auront besoin de traitements syntaxiques plus puissantspuissants

VersionsVersions

Page 29: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

VersionsVersions

Version Caractéristiques Longueur moyenne

V1 0 ou 1 constituants dans PFV 6 mots/phrase

V2 ANP et PNP (du NP sujet) 7 mots/phrase

V3 2 constituants dans PFV 11 mots/phrase

V4 n constituants dans PFV 15 mots/phrase

V5 1 sbc et 1 virgule dans PNP et PFV

17 mots/phrase

V6 2 sbc et 2 virgules dans PFV 18 mots/phrase

V7 coordinations non ambiguës 19 mots/phrase

Page 30: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Evaluation Grammaire NoyauEvaluation Grammaire Noyau

• Corpus Corpus dede testtest: : 104.515 mots104.515 mots

• Corpus Corpus d’évaluationd’évaluation: 7: 7.757 mots.757 mots

• Domaines:Domaines:

-journaux (journaux (Le MondeLe Monde, , LibérationLibération))

-rapports scientifiques (chimie, physique, médecine)rapports scientifiques (chimie, physique, médecine)

-rapports juridiques rapports juridiques

-manuels techniques (tracteur, moto, photocopieur)manuels techniques (tracteur, moto, photocopieur)

-documents d’économie et financesdocuments d’économie et finances

Page 31: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Résultats du Résultats du chunkingchunking

0%

20%

40%

60%

80%

100%

v5 v6 v7

Couverture

Precision

Rappel

Page 32: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Rappel architecture Rappel architecture

premier niveaupremier niveau deuxième niveaudeuxième niveau

ChunkingChunking et et TriTri

Modules spécialisésModules spécialisés

Module de ‘diagnostic’Module de ‘diagnostic’

DépendancesDépendances output

input

Module noyauModule noyau

Page 33: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

• Les phrases en entrée ont été partiellement Les phrases en entrée ont été partiellement découpées en constituants de base par le module découpées en constituants de base par le module noyaunoyau

• En raison de la présence de structures de En raison de la présence de structures de deuxième niveau ce découpage peut êtredeuxième niveau ce découpage peut être

• imprécis imprécis

• totalement erronétotalement erroné

(b) Module de diagnostic(b) Module de diagnostic

Page 34: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Exemples d’analyse erronéExemples d’analyse erroné

443>MAX{NP{443>MAX{NP{SURVEILLANCESURVEILLANCE} NP{} NP{LLa surveillance} des a surveillance} des apparentés PP{de NP{patients}} atteints PP{de apparentés PP{de NP{patients}} atteints PP{de NP{mélanome}} FV{est abordée} PFV{PP{dans NP{le NP{mélanome}} FV{est abordée} PFV{PP{dans NP{le chapitrechapitre}} NP{}} NP{PPrévention} AP{secondaire}} .}révention} AP{secondaire}} .}

Page 35: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

176>MAX{NP{Le secteur} PNP{non structuré} FV{est 176>MAX{NP{Le secteur} PNP{non structuré} FV{est formé} formé} : -: - NP{des démarcheurs} NP{des démarcheurs} (( NP{vendeurs} PP{de NP{vendeurs} PP{de NP{rue}} et PP{de NP{marchés}} PP{aux NP{puces}} NP{rue}} et PP{de NP{marchés}} PP{aux NP{puces}} )) ;} ;}

177>MAX{177>MAX{-- NP{des clubs} et NP{des associations} NP{des clubs} et NP{des associations} ((NP{groupements} PP{de NP{femmes}} , principalement NP{groupements} PP{de NP{femmes}} , principalement )) ;} ;}

178>MAX{178>MAX{- - NP{des tavernes} NP{des tavernes} (( PP{des NP{banlieues}} PP{des NP{banlieues}} )) .} .}

Exemples d’analyse imprécis Exemples d’analyse imprécis

Page 36: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

• détecter le ou les phénomène(s) syntaxiques détecter le ou les phénomène(s) syntaxiques complexes présents dans chaque phrasecomplexes présents dans chaque phrase

• les orienter vers la grammaire spécialisée les orienter vers la grammaire spécialisée correspondantecorrespondante

Buts du module de diagnosticButs du module de diagnostic

• Module fondamental car les traitements Module fondamental car les traitements syntaxiques suivants dépendent du diagnostic syntaxiques suivants dépendent du diagnostic établi ici.établi ici.

Page 37: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

(c) Modules spécialisés(c) Modules spécialisés

• Chacun est dedié à l’analyse d’un phénomène Chacun est dedié à l’analyse d’un phénomène spécifique ;spécifique ;

• Une même phrase peut être dirigée à plus d’un Une même phrase peut être dirigée à plus d’un module si elle contient plus d’un phénomène ;module si elle contient plus d’un phénomène ;

• Enumérations, coordinations ambiguës…Enumérations, coordinations ambiguës…

• Titres, listes…Titres, listes…

Page 38: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Rappel architecture Rappel architecture

premier niveaupremier niveau deuxième niveaudeuxième niveau

ChunkingChunking et et TriTri

Modules spécialisésModules spécialisés

Module de ‘diagnostic’Module de ‘diagnostic’

DépendancesDépendances output

input

Page 39: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

3.2 Extraction de dépendances3.2 Extraction de dépendances

• Relations syntaxiques entre les mots d’une phrase;Relations syntaxiques entre les mots d’une phrase;

• EntréeEntrée: phrase découpée en constituants;: phrase découpée en constituants;

• SortieSortie: liste de dépendances pour chaque phrase;: liste de dépendances pour chaque phrase;

SUBJ(peuvent,accessoires)

COMP_INF(peuvent,nuire)

VPP(nuire,à,sécurité)

NPP(sécurité,de,conduite)

344>MAX{S{NP{Des accessoires} PNP{mal installés ou mal conçus} FV{peuvent} PFV{IV{nuire} PP{à NP{la sécurité}} PP{de NP{conduite}}} .}}

Page 40: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Extraction de dépendancesExtraction de dépendances

SUBJ SUBJ COMP COMP VN VN VADJ VADJ VPP VPP VAG VAG VADV VADV NN NN NPP NPP NADJ NADJ ADJNADJN

Jean mangeJean mange une pomme une pomme JeanJean mangemange une une pommepomme Jean Jean est pompierest pompier Jean Jean est gentilest gentil Jean Jean vient de Parisvient de Paris Jean estJean est appellé par Paulappellé par Paul JeanJean vient rapidementvient rapidement Jean DupontJean Dupont est gentilest gentilJean mange une Jean mange une pomme du jardinpomme du jardin Jean mange uneJean mange une pomme vertepomme verte Jean craint sesJean craint ses vieux ennemisvieux ennemis

Page 41: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Evaluation des dépendancesEvaluation des dépendances

……sur des phrases de sur des phrases de premier niveaupremier niveau

0

20

40

60

80

100

Version 6 Version 7

Moyennetotale

Moyennerelationsdeterministes

Moyennerelations nondeterministes

Page 42: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

Récapitulatif sur l’évaluationRécapitulatif sur l’évaluation

• Couverture minimale = Couverture minimale = 20 %20 %

• Rappel = entre Rappel = entre 97 %97 % et et 100 %100 %

• Précision segmentation = Précision segmentation = 91 %91 %

• Précision moyenne des dépendances = Précision moyenne des dépendances = 91,5 %91,5 %

Grammaire NoyauGrammaire Noyau

Page 43: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

4. Conclusions 4. Conclusions

• Analyse syntaxique Analyse syntaxique robusterobuste

• Approche modulaire et adaptativeApproche modulaire et adaptative

• ModularitéModularité linguistiquement motivée: linguistiquement motivée:

étude de la diversité de phénomènes étude de la diversité de phénomènes syntaxiques sur des corpus tout venantssyntaxiques sur des corpus tout venants

• ApprentissageApprentissage symbolique: symbolique:

utilisation de structures analysées avec utilisation de structures analysées avec haute précision pour améliorer le resultat final.haute précision pour améliorer le resultat final.

Page 44: Une Grammaire Noyau pour l'analyse syntaxique de structures présentes dans tout type de corpus Núria Gala Pavia Xerox Research Centre Europe et LIMSI-CNRS

… … et perspectiveset perspectives

ModularitéModularité

-amélioration du module de diagnostic (en cours)amélioration du module de diagnostic (en cours)

-définition de phénomènes de deuxième niveaudéfinition de phénomènes de deuxième niveau

-création de modules spécialiséscréation de modules spécialisés

AdaptabilitéAdaptabilité

-introduction de stratégie(s) d’apprentissage -introduction de stratégie(s) d’apprentissage symbolique symbolique