Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université

Acquisition de probabilités desous-catégorisation à partir de très gros corpus

Didier BOURIGAULTEquipe de Recherche en Syntaxe et Sémantique

CNRS – Université Toulouse Le Mirail

[email protected]

www.univ-tlse2.fr/erss/

D. BOURIGAULT Sémantique et corpus, 2 juin 2004 2

TAL, linguistique et méthodes quantitatives

TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de sous-catégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel

Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites d’un lexique (le Lexique Grammaire) construit par des linguistes


Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique Syntex, un analyseur syntaxique en dépendance

Résoudre les ambiguïté de rattachement prépositionnel

Propriétés de sous-catégorisation syntaxique nécessaires issues du Lexique-Grammaire acquises automatiquement à partir de corpus

Je vois un homme avec un télescope

Je mange une pizza avec des olives

voir + avec ?homme + avec ?

manger + avec ?pizza + avec ?


Syntex : un analyseur syntaxique de corpus

Analyseur en dépendance

Architecture modulaire En entrée : un corpus étiqueté morpho-syntaxiquement (parties

du discours) Un module par relation : Déterminant, Sujet, Objet, Préposition,

Adjectif En sortie : corpus annotés avec des relations syntaxiques entre

mots

Chaque module est « écrit à la main » Par des linguistes informaticiens Selon une approche empirique et expérimentale basée sur

l’analyse de corpus


Un exemple d’analyse

Le chat de Marie mange une petite souris.

Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.

Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.

OBJSUJ

Etiquetage morphosyntaxique (Treetagger)

Analyse syntaxique (Syntex)


Les relations syntaxiques

Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots Les mots ont été préalablement étiquetés

Une relation de dépendance syntaxique est orientée d’un régi vers son recteur Contrainte 1 : un régi n’a qu’un seul recteur Contrainte 2 : Les relations de dépendance ne se croisent pas.

Principales relations : SUJ : sujet de verbe OBJ : complément d’objet direct de verbe PREP : complément d’objet indirect de verbe, de nom, d’adjectif ADJ : épithète de nom


Algorithme OBJET : « premier nom à droite » Parcours des mots de la phrase

Point de départ : le verbe (le recteur) Si pronom clitique objet juste à gauche : arrêt Sinon direction : droite Saut de certaines séquences entre virgules (incises) Arrêt : au premier Nom

le|Det chat|Nom mange|Vb une|Det petite|Adj souris|Nom

OBJ

Marie|Nom installe|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom

OBJ


Algorithme SUJET : « dernier nom à gauche » Parcours des mots de la phrase

Point de départ : le verbe (le recteur) Direction : gauche Saut de certaines séquences entre virgules (incises) Arrêt : au dernier Nom ou Pronom Si échec (sujet inversé) : Point de départ : le verbe Direction : droite Arrêt : au premier Nom ou Pronom

le|Det petit|Adj chat|Nom de|Prep Marie|Nom mange|Vb

SUJ


Algorithme PREP : ambiguïté de rattachement prépositionnel

1- Rechercher_candidats Parcours des mots de la phrase

Point de départ : la préposition (le régi) et Direction : gauche Noms, participe passé, adjectif, verbes

2- Sélectionner_candidat À l’aide d’indices

dont propriété de sous-catégorisation syntaxique

Marie|Nom installe|Vb un|Det logiciel|Nom sur|Prep son|Det ordinateur|Nom

?

installer + sur ?logiciel + sur ?


Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ?

Dictionnaires (électroniques) existants Le Lexique-Grammaire du LADL TLFi (Trésor de la Langue Française informatisé) (…)

Acquisition de probabilités de sous-catégorisation à partir de corpus A partir d’un corpus étiqueté automatiquement

Corpus Le Monde Web

A partir d’un corpus annoté manuellement (~ Penn Tree Bank)


Lexique grammaire

Choix de la ressource : Objectif d’exhaustivité, français « standard » Démarche introspective, indépendamment de tout corpus et tout

domaine

Mode de constitution (C. FREROT, ERSS) Extraire l’information sur la sous-catégorisation verbale à

distance des prépositions à, dans, sur Appartenance à la forme canonique N0 V N1 Prep N2

Filtrage des données : on exclut les restrictions de sélection Nature sémantique du syntagme prépositionnel non encodée dans

l’analyseur (traits humain, non humain…) Ex : N1 = : « coup » : Max a (allongé, balancé, envoyé, mis) une

gifle à Ida Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents


Calcul des probabilités de sous-catégorisation

Corpus partiellement annoté Le Monde (1990-1996) : 140 millions de mots Étiquetage morpho-syntaxique (Treetagger) + premiers modules

Syntex

A partir des cas non ambigus :1- Pour une préposition p, qui régit le mot m’, le module

Recherche_candidats a trouvé un seul candidat recteur : m

2- Pour un mot m, le module Recherche_candidats ne l’a retenu comme candidat recteur pour aucune préposition

freq (m, p,m’) + 1

Je l’ai mangé avec une fourchette

freq (manger, avec, fourchette) + 1

freq (m,0) + 1

Jean a mangé.

freq (manger, 0) + 1

1- 2-



freq(m,p)proba(m,p) = freq(m)

productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 }

fréquence de m sans préposition : freq(m,0)

fréquence de m avec la préposition p : freq(m,p) = m’ freq(m,p,m’)

fréquence totale de m : freq(m) = freq(m,0) + p freq(m,p)

log ( 1 + prod(m,p) )* k

freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1freq(manger,avec)=5 freq(manger,à)=5prod(manger,avec)=1 prod(manger,à)=5

proba(manger,avec)=0.28 proba(manger,à)=0.72


Calcul des probabilités de sous-catégorisation Exemple de ressource endogène : résultats sur un

corpus médicalproba mot prep prod freq p freq freq0

0,444 accord avec 4 4 9 5

0,246 accouchement par 2 9 33 19

0,418 allergie à 21 41 98 57

0,200 amylasémie à 2 2 10 8

0,469 analgésie par 6 20 44 23

0,200 anémie à 5 11 61 47

0,735 antibioprophylaxie par 10 21 30 7

0,355 antibiothérapie par 29 63 195 123

0,235 anticoagulation par 4 4 19 13

0,616 argument pour 14 16 28 2

0,312 argument en faveur de 8 10 28 2

0,308 arme à 3 24 78 54

0,600 bactériémie à 5 6 10 4



Itérations Etape 0 : ressources exogènes R0

Etape i : Résoudre les ambiguïtés de rattachement à l’aide de la ressource

construite à l’étape i-1 (Ri-1)

Pour chaque cas ambigu : { (mj, p,m’) , j=1 à ncand }

S’il existe un candidat k tel que prob(mk, P) >> prob(mjk,P) : (rattachement certain) freq(mk,p,m’) + 1

freq(mjk,0) + 1 Sinon (rattachement incertain)

freq(mj,P,m’) + 1 / ncand pour j=1 à ncand Recalculer les probabilités avec ces nouvelles fréquences plus les

fréquences calculées sur les cas non ambigus (étape 0) : Ri



Résultats Corpus d’apprentissage de 140 M mots (Le Monde, 1990-96) Convergence après 4 itérations Nombre de couples (m,p) : 10 759

freq(m)>=50 proba(m,p) >0.05

cat Total Nom VINF

Adj 569 531 38

Nom 3813 3676 137

Vb 6377 5878 499


Probabilités de sous-catégorisation de noms

proba mot prep prod freq freqtot freq0

0,622 accès à 1238 6180 10185 3741

0,864 accession à 136 1417 1665 213

0,539 accointance avec 39 48 95 41

0,606 allusion à 791 1319 2227 867

0,537 appartenance à 338 1318 2479 1146

0,528 assignation à 16 156 345 109

0,564 assujettissement à 35 56 101 44

0,554 butte à 162 365 684 301

0,773 cofinancé par 30 45 61 13

0,510 conformité avec 126 362 761 234

0,606 croupière à 38 49 86 32

0,745 haro sur 52 63 86 22

0,546 hockey sur 3 310 570 253


Validation de la liste LG sur le corpus LM

100 1000 10000 100000

500

400

300

200

100

freq

nb

(412) (375) (271) (124)

770 verbes / 11821 117 couples (vb, prep) / 1659

Histogramme des fréquences des verbes de LG dans le corpus LM


Verbes de LG écartés de l’analyse

chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ;

aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…)

Verbes de LG dont la fréquence d’occurrence dans le corpus LM est inférieure à 100 :

Verbes de LG dont la fréquence d’occurrence dans le corpus LM est nulle :


Probabilités des couples (vb,prep) de LG calculées sur le corpus LM

lg = 1 si (vb,prep) LG

f = freq(vb,prep)

f tot =freq(vb)

p = f / f tot

cat = catégorie du régi de prep


Histogramme des probabilités des couples (vb,prep) de LG

Si seuil probabilité = 0.05 550 couples « infirmés » par le corpus

freq(vb,prep) = 0 Ou p(vb,prep) < 0.05

567 couples « confirmés » par le corpus p(vb,prep)>= 0.05

proba nb cumul

0 39 39

[ 0.00 , 0.01 [ 70 109

[ 0.01 , 0.02 [ 208 317

[ 0.02 , 0.05 [ 233 550

[ 0.05 , 0.10 [ 212 762

[ 0.10 , 0.25 [ 225 987

[ 0.25 , 0.50 [ 99 1086

[ 0.50 , 1.00 [ 31 1117


Couples (vb,prep) de LG absents du corpus


Couples (vb,prep) de LG de probabilité inférieure à 0.05

pas (peu) fréquent/probable, (…) , très fréquent/probable≠

«impossible », « * », « facultatif », « optionnel », (…) , « obligatoire »


Couples (vb,prep) de LG de probabilité supérieure à 0.05

Proportion des cas oùvb est construit avec prep et vb n’a pas d’objet(analyse Syntex)

Rappel : la liste LG est construite à partir du schéma :N0 V N1 prep N2


Couples de LG (vb,prep) sans objet dans le corpus LM


Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG

p vb

0,2 axer sur

0,39 calquer sur

0,28 concentrer sur

0,24 déverser sur

0,2 fonder sur

0,64 indexer sur

0,21 interroger sur

(…)

p vb

0,28 entasser dans

0,5 replacer dans

0,23 réfugier dans

0,22 réinstaller dans

0,2 se frayer dans

0,63 spécialiser dans

0,27 transposer dans

(…)

p vb

0,59 affilier à

0,31 chiffrer à

0,32 comparer à

0,55 confronter à

0,24 coter à

0,29 coupler à

0,38 déférer à

(…)

à (243) dans (135) dans (65)


Réflexions

La vérité ne jaillit pas d’elle-même « du » corpus Même si le corpus est très gros Même si les méthodes quantitatives sont très sophistiquées Le linguiste

choisit le corpus, choisit les méthodes, en fonction de son projet (hypothèses, cadre théorique, application)

Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste Par exemple :

Outils : lemme+catégorie, relation de rection Linguiste : sens de verbe, cadre syntactico-sémantique de sous-

catégorisation


Réflexions (suite) : quantitatif/qualitatif

« gro cé bo ? » Oui,

Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs d’analyse, les

approximations, la faible précision des outils automatiques Mais :

« Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats

Il faut procéder à des analyses contrastives inter-corpus

« probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues

ont besoin de propriétés probabilisées


Résultats de l’évaluation

50

80

90

100

70

60

base endo exo mixte

Prec %

base endo exo mixte

BAL 83.7 84.7 87.4 87.4

LMO 70.5 81.9 86.6 86.7

CTR 61.8 81.1 85.8 86.2

MED 54.0 76.3 65.8 77.6

% précision choix par défaut : le dernier

Documents

Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université