Upload
blancheflor-pires
View
106
Download
0
Embed Size (px)
Citation preview
Typage de donn₫es textuelles pour l'adaptation des traitements
linguistiques
Gabriel ILLOUZLIR - LIMSI
Journ₫e ATALA du 28 Avril 2001De la langue aux genres et aux types
LIR
Plan
Introduction
Description du ph₫nom₩ne et typage
Effet sur les traitements (annotation morpho-syntaxique)
Am₫lioration des traitements
Perspectives : am₫liorer le typage
2 LIR
L'h₫t₫rog₫n₫it₫ : un vrai probl₩me ?
Pas 2 textes identiques Évident pour la diachronie La Langue versus les langues de sp₫cialit₫,
les idiolectes, les sociolectes (Labov 68) Approches sur corpus : linguistiques
contrastives
3Introduction LIR
TAL : approches corpus et g₫n₫ralisation difficile
Des techniques qui s'appliquent sur des domaines restreints et qui r₫sistent à la g₫n₫ralisation
Les approches sur donn₫es volumineuses : robustesse
l'apprentissage est li₫ aux donn₫es d'entraînement
4Introduction LIR
L'h₫t₫rog₫n₫it₫ : effet de variables cach₫es?
Cause de l'h₫t₫rog₫n₫it₫: productivit₫ infinie des langues naturelles ? variables cach₫es à d₫couvrir ?
Variables à ₫tudier : domaine (th₩me), style (genre), autre (type) ?
5Introduction LIR
6
Plan
Introduction Description du ph₫nom₩ne et typage Effet sur les traitements (annotation morpho-
syntaxique) Am₫lioration des traitements Perspectives : am₫liorer le typage
LIR
Crit₩res d'Étude D₫finir les observables :
Caract₩res Mots Mots les plus fr₫quents Cr₫ation d'un ensemble de traits (Biber 88,
Karlgren 99, Kessler 97)
Observation d'un ou plusieurs traits Par partie Par regroupement d'individus Par individu
7Description du ph₫nom₩ne et typage LIR
Aborder le typage : projet TyPTex
Construire une architecture permettant de : Constituer des corpus selon des requ₨tes Enrichir les corpus de mani₩re homog₩ne Disposer de jeux de traits vari₫s Repr₫senter le corpus par une matrice traits / textes Retourner au texte Enrichir la base de texte
8Am₫liorer le typage LIR
TyPTex : pour ne rien effacer
9Am₫liorer le typage
Base de texte
Requ₨te ou
s₫lection
Corpus
Étiquetage 1
Projection vers PivotCorpus
₫tiquet₫
Correction
Corpusmarqu₫
Transduction
Matricex xx x x x
ExtractionsDirectes
Exploration
ClassificationS₫lection de Traits
Sur-traits
LIR
Exp₫rience sur Le Monde (1/5)
LeMonde et LeMonde enrichi
pour les 6 rubriques principales
Rubrique Articles Mots Moyenne Minimum MaximumETR(anger) 5 464 149 2 366 055 77 347 433 519 13 33 3 624 2 585ECO(nomie) 3 478 108 1 443 923 38 540 415 356 15 52 3 058 1 473POL(itque) 2 305 83 1 326 576 36 703 575 442 36 74 5 202 1 604ART(media) 2 261 76 1 080 620 37 220 477 489 1 46 2 990 2 087EMS(Divers) 1 092 42 457 626 17 390 419 414 25 58 3 551 3 127
838 80 364 590 34 284 435 427 28 44 3 168 2 109Total des 6 15 438 538 7 039 390 241 484 455 448 1 33 5 202 3 127ING (Info gale)
10Description du ph₫nom₩ne et typage LIR
Exp₫rience sur Le Monde (2/5) Profil selon traits
11Description du ph₫nom₩ne et typage LIR
Exp₫rience sur Le Monde (2/5) Choix d'observables : les 50 mots les plus
fr₫quents Individus des regroupements de 10 000 mots
issus des rubriques
12Description du ph₫nom₩ne et typage
, des dans ne ont de d' pour s' aux . en par se La la du au n' sont l' un il M ; à une pas Le été le est sur son Les et a qu' _ Il " que plus ce ou les qui : avec ses
LIR
Projection de Sammon(Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus fr₫quentes)
Exp₫rience sur LeMonde (3/5)
Projection de Sammon(Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus fr₫quentes)
Projection de Sammon : Agrandissement(Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus fr₫quentes)
13Description du ph₫nom₩ne et typage LIR
Exp₫rience sur LeMonde (4/5)Classification obtenue par la m₫thode des nu₫es dynamiquesPOL(E-) : Rubrique POL sans les r₫sultats d'₫lection
POL(E) : Uniquement les r₫sultats d'₫lection
14
ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1
Évaluer les diff₫rences ?
ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1
Prendre le plus fort regroupement
ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1
Prendre le plus fort regroupement Continuer it₫rativement .
ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1
.
ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1
.
ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1
jusqu'à ce que toute classe induite soit associ₫e à une cat₫gorie pr₫existante
Description du ph₫nom₩ne et typage
ART ECO ETR POL(E- ) POL(E)C1C2C3C4C5
LIR
ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1
R₫sultats Recouvrement : 86 % (610 ₫chantillons sur 707) Recouvrement : 98,3 % en regroupant {ECO,
ETR, POL(E-)}
Exp₫rience sur LeMonde (4/5)
Classification obtenue par la m₫thode des nu₫es dynamiques
15Description du ph₫nom₩ne et typage LIR
Taille des échantillons 3 Rubriques 5 Rubriques10 000 98.3 86.3
5 000 95.3 75.82 000 90 54.41 000 85.8 47.6
500 78.2 42.8
Recouvrement selon 3 et 5 rubriques
en fonction de la taille des ₫chantillons ₫tudi₫s
Exp₫rience sur LeMonde (5/5)
Effet de la taille des ₫chantillons
16Description du ph₫nom₩ne et typage LIR
Exp₫rience sur le corpus Brown (1/2) Corpus Brown (1 million de mots/500 fragments)
Partition 1 Nb Partition 2 Nb Partition 3 NbInformative Prose 374 Press 88 A. Press : Reportage 44
B. Press : Editorial 27C. Press : Review 17
Misc 176 D. Religion 17E. Skills and Hobbies 36F. Popular Lore 48G. Belles Lettres, etc 75
Non- Fiction 110 H. Gov. Doc. & misc 30J. Learned 80
Imaginative Prose 126 Fiction 126 K. General Fiction 29L. Mystery 24M. Science Fiction 6N. Adventure & western 29P. Romance 29R. Humour 9
17Description du ph₫nom₩ne et typage LIR
Jeu de traits : les caract₩res Classification non supervis₫e utilisant le classifieur
de Jardino et Beaujard (97)
Imaginative ProseInformative ProseC1 53 125C2 321 1
Recouvrement : 89,2 % Recouvrement : 96 % sans la classe Misc
18Description du ph₫nom₩ne et typage
Exp₫rience sur le corpus Brown (2/2)
LIR
Bilan : possibilit₫ de typer Effet de l'h₫t₫rog₫n₫it₫ Traits simples Retrouver partiellement des genres Recouvrement partiel :
Jeux de traits inadapt₫sCat₫gorisation discutable
19 LIR
20
Plan
Introduction Description du ph₫nom₩ne et typage Effet sur les traitements (annotation morpho-
syntaxique) Am₫lioration des traitements Perspectives : am₫liorer le typage
LIR
Effet sur les traitements (1/ 2) Corpus Multitag :
1 million de mots annot₫s par 11 syst₩mes Une annotation de r₫f₫rence pour 100 000 mots
Textes pr₫sents 2 textes de m₫moires 6 Romans 2 Essais 16 num₫ros du Monde
21Effet sur les traitements LIR
Effet sur les traitements (2/2)
La performance varie selon le type des donn₫es
22Effet sur les traitements LIR
Bilan : h₫t₫rog₫n₫it₫ des performances Performance varie selon le type de donn₫es Probl₩me avec les cat₫gorisations Typage plus explicatif ?
Explication des diff₫rences ?Am₫lioration des traitements ?
23 LIR
24
Plan
Introduction Description du ph₫nom₩ne et typage Effet sur les traitements (annotation morpho-
syntaxique) Am₫lioration des traitements Perspectives : am₫liorer le typage
LIR
Mod₩le de Sekine (97)Phase d'apprentissage
Ensemble de test
Phase de testClassificationselon un genre
Ensemble d'apprentissag
e
Classificationselon un genre
TSAApprentissage
Apprentissage TSB
TraitementsSp₫cialis₫s
Base textuellepartitionn₫e
A
B
TSA
B
A
TSB
R₫sultats des Traitements Sp₫cialis₫s
25Am₫lioration des traitements LIR
Am₫liorer : Mod₩le propos₫Phase d'apprentissage
Ensemble de test
Phase de test
ClassificationSupervis₫e
Ensemble d'apprentissag
e
ClassificationInduite
TSAApprentissage
Apprentissage TSB
TraitementsSp₫cialis₫s
Base textuellepartitionn₫e
A
B
TSA
B
A
TSB
R₫sultats des Traitements Sp₫cialis₫s
26Am₫lioration des traitements LIR
Am₫lioration des traitements
Sur le corpus Brown (500 textes), en reprenant la classification non supervis₫e pr₫c₫dente
Apprentissage (444 textes), ₫valuation (56 textes)
Performances inf₫rieures à celles du traitement g₫n₫raliste (entraîn₫ sur le corpus total)
Apprentissage sur C1 C2 TotalTest sur C1 94.05 93.83 94.19Test sur C2 93.47 93.98 94.03
27Am₫lioration des traitements LIR
Am₫liorer : S'adapter à la tâchePhase d'apprentissage
App
App
TSA
TSB
TraitementsSp₫cialis₫s
Base textuellepartitionn₫e
Ensemble de test
Phase de testClassificationsupervis₫e
TSA
B
A
TSB
R₫sultats des Traitements Sp₫cialis₫s
28Am₫lioration des traitements
TSA
Ensemble d'apprentissag
e
Classificationselon
performances
A
B
TSB
Base textuellepartitionn₫e
LIR
Diff₫rences par rapport aux genres :
ChangementInformative Imaginative Informative Imaginative
0 49 111 283 1 241 46 106 286 6 102 43 103 289 9 33 42 103 290 9 14 43 103 289 9 05 43 103 289 9 0
C1 C2
29Am₫lioration des traitements
Reste proche de la cat₫gorisation
LIR
Am₫lioration sur le corpus Brown
30Am₫lioration des traitements
Apprentissage Test
LIR
Am₫lioration des traitements Diff₫rences entre le syst₩me adaptatif et le
g₫n₫raliste : test de MacNemar Système BCorrecte Incorrecte
Système A Correct CC CIIncorrecte IC II
GénéralisteCorrecte Incorrecte
Adaptatif Correcte 121 752 1 488Incorrecte 1 221 6 522
Z=26,1 (Þ H0) rejet₫e à un seuil inf₫rieur à 0,001
31Am₫lioration des traitements
(H0) « IC et CI sont comparables »
LIR
Am₫lioration des traitements
Test de MacNemar appliqu₫ à la comparaison de syst₩mes d'annotations est « pratiquement toujours significatif » Paroubek et Rajman (2000)
N₫cessaire : autre validation de la m₫thode Nombre de donn₫es limit₫es : validation crois₫e
20 tirages al₫atoires du jeu d'entraînement (450 textes)
Pour am₫liorer les performances, entraînement sur le corpus total + n(=3) fois le sous-corpus sp₫cialis₫
32Am₫lioration des traitements LIR
Am₫lioration des traitements
Avec cet entraînement, Am₫liorations par rapport au g₫n₫raliste :
Par le genre : 18 tirages sur les 20 It₫rative : 10 tirages sur les 20
M₫thode inadapt₫e ou probl₩me de typage ?
33
Optimale : 20 tirages sur les 20 Classification par R₫seaux de Neurones Formels :
15 tirages sur les 20
Am₫lioration des traitements LIR
Bilan :Am₫lioration des traitements
Faibles am₫liorations Donn₫es plus vari₫es requises Donn₫es en plus grand nombre M₫thode envisageable à moyen terme Am₫lioration du typage
34Am₫lioration des traitements LIR
Introduction Descriptions du ph₫nom₩ne, et typage Effet sur les traitements (annotation morpho-
syntaxique) Am₫liorer les traitements Perspectives : am₫liorer le typagePerspectives : am₫liorer le typage
35
Plan
LIR
Typage Induire des sous-ensembles homog₩nes Distinguer des proximit₫s non marqu₫es par des
caract₫risations M₫thode it₫rative
Un apprentissage sp₫cialis₫ Performances Þ sup₫rieures au g₫n₫raliste
Þ encore inf₫rieures sp₫cialisation par classes
Conclusion
36 LIR
Utilisation de la m₫thode avec D'autres syst₩mes d'annotations D'autres syst₩mes de traitements linguistiques En combinaison avec une m₫thode des votants
Typage à plus grande ₫chelle Constitution d'un corpus vari₫ pour le fran₤ais BNC (British National Corpus) TypWeb projet de typage de pages Internet
Perspectives
37 LIR