37
Typage de donn₫es textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journ₫e ATALA du 28 Avril 2001 De la langue aux genres et aux types LIR

Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Embed Size (px)

Citation preview

Page 1: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Typage de donn₫es textuelles pour l'adaptation des traitements

linguistiques

Gabriel ILLOUZLIR - LIMSI

Journ₫e ATALA du 28 Avril 2001De la langue aux genres et aux types

LIR

Page 2: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Plan

Introduction

Description du ph₫nom₩ne et typage

Effet sur les traitements (annotation morpho-syntaxique)

Am₫lioration des traitements

Perspectives : am₫liorer le typage

2 LIR

Page 3: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

L'h₫t₫rog₫n₫it₫ : un vrai probl₩me ?

Pas 2 textes identiques Évident pour la diachronie La Langue versus les langues de sp₫cialit₫,

les idiolectes, les sociolectes (Labov 68) Approches sur corpus : linguistiques

contrastives

3Introduction LIR

Page 4: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

TAL : approches corpus et g₫n₫ralisation difficile

Des techniques qui s'appliquent sur des domaines restreints et qui r₫sistent à la g₫n₫ralisation

Les approches sur donn₫es volumineuses : robustesse

l'apprentissage est li₫ aux donn₫es d'entraînement

4Introduction LIR

Page 5: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

L'h₫t₫rog₫n₫it₫ : effet de variables cach₫es?

Cause de l'h₫t₫rog₫n₫it₫: productivit₫ infinie des langues naturelles ? variables cach₫es à d₫couvrir ?

Variables à ₫tudier : domaine (th₩me), style (genre), autre (type) ?

5Introduction LIR

Page 6: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

6

Plan

Introduction Description du ph₫nom₩ne et typage Effet sur les traitements (annotation morpho-

syntaxique) Am₫lioration des traitements Perspectives : am₫liorer le typage

LIR

Page 7: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Crit₩res d'Étude D₫finir les observables :

Caract₩res Mots Mots les plus fr₫quents Cr₫ation d'un ensemble de traits (Biber 88,

Karlgren 99, Kessler 97)

Observation d'un ou plusieurs traits Par partie Par regroupement d'individus Par individu

7Description du ph₫nom₩ne et typage LIR

Page 8: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Aborder le typage : projet TyPTex

Construire une architecture permettant de : Constituer des corpus selon des requ₨tes Enrichir les corpus de mani₩re homog₩ne Disposer de jeux de traits vari₫s Repr₫senter le corpus par une matrice traits / textes Retourner au texte Enrichir la base de texte

8Am₫liorer le typage LIR

Page 9: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

TyPTex : pour ne rien effacer

9Am₫liorer le typage

Base de texte

Requ₨te ou

s₫lection

Corpus

Étiquetage 1

Projection vers PivotCorpus

₫tiquet₫

Correction

Corpusmarqu₫

Transduction

Matricex xx x x x

ExtractionsDirectes

Exploration

ClassificationS₫lection de Traits

Sur-traits

LIR

Page 10: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Exp₫rience sur Le Monde (1/5)

LeMonde et LeMonde enrichi

pour les 6 rubriques principales

Rubrique Articles Mots Moyenne Minimum MaximumETR(anger) 5 464 149 2 366 055 77 347 433 519 13 33 3 624 2 585ECO(nomie) 3 478 108 1 443 923 38 540 415 356 15 52 3 058 1 473POL(itque) 2 305 83 1 326 576 36 703 575 442 36 74 5 202 1 604ART(media) 2 261 76 1 080 620 37 220 477 489 1 46 2 990 2 087EMS(Divers) 1 092 42 457 626 17 390 419 414 25 58 3 551 3 127

838 80 364 590 34 284 435 427 28 44 3 168 2 109Total des 6 15 438 538 7 039 390 241 484 455 448 1 33 5 202 3 127ING (Info gale)

10Description du ph₫nom₩ne et typage LIR

Page 11: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Exp₫rience sur Le Monde (2/5) Profil selon traits

11Description du ph₫nom₩ne et typage LIR

Page 12: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Exp₫rience sur Le Monde (2/5) Choix d'observables : les 50 mots les plus

fr₫quents Individus des regroupements de 10 000 mots

issus des rubriques

12Description du ph₫nom₩ne et typage

, des dans ne ont de d' pour s' aux . en par se La la du au n' sont l' un il M ; à une pas Le été le est sur son Les et a qu' _ Il " que plus ce ou les qui : avec ses

LIR

Page 13: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Projection de Sammon(Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus fr₫quentes)

Exp₫rience sur LeMonde (3/5)

Projection de Sammon(Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus fr₫quentes)

Projection de Sammon : Agrandissement(Fragments de 10 000 mots, par rubriques, Le Monde, traits : 50 formes les plus fr₫quentes)

13Description du ph₫nom₩ne et typage LIR

Page 14: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Exp₫rience sur LeMonde (4/5)Classification obtenue par la m₫thode des nu₫es dynamiquesPOL(E-) : Rubrique POL sans les r₫sultats d'₫lection

POL(E) : Uniquement les r₫sultats d'₫lection

14

ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1

Évaluer les diff₫rences ?

ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1

Prendre le plus fort regroupement

ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1

Prendre le plus fort regroupement Continuer it₫rativement .

ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1

.

ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1

.

ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1

jusqu'à ce que toute classe induite soit associ₫e à une cat₫gorie pr₫existante

Description du ph₫nom₩ne et typage

ART ECO ETR POL(E- ) POL(E)C1C2C3C4C5

LIR

Page 15: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

ART ECO ETR POL(E- ) POL(E)C1 21C2 3 24 245 38C3 13 92C4 117 2 6C5 1 135 9 1

R₫sultats Recouvrement : 86 % (610 ₫chantillons sur 707) Recouvrement : 98,3 % en regroupant {ECO,

ETR, POL(E-)}

Exp₫rience sur LeMonde (4/5)

Classification obtenue par la m₫thode des nu₫es dynamiques

15Description du ph₫nom₩ne et typage LIR

Page 16: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Taille des échantillons 3 Rubriques 5 Rubriques10 000 98.3 86.3

5 000 95.3 75.82 000 90 54.41 000 85.8 47.6

500 78.2 42.8

Recouvrement selon 3 et 5 rubriques

en fonction de la taille des ₫chantillons ₫tudi₫s

Exp₫rience sur LeMonde (5/5)

Effet de la taille des ₫chantillons

16Description du ph₫nom₩ne et typage LIR

Page 17: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Exp₫rience sur le corpus Brown (1/2) Corpus Brown (1 million de mots/500 fragments)

Partition 1 Nb Partition 2 Nb Partition 3 NbInformative Prose 374 Press 88 A. Press : Reportage 44

B. Press : Editorial 27C. Press : Review 17

Misc 176 D. Religion 17E. Skills and Hobbies 36F. Popular Lore 48G. Belles Lettres, etc 75

Non- Fiction 110 H. Gov. Doc. & misc 30J. Learned 80

Imaginative Prose 126 Fiction 126 K. General Fiction 29L. Mystery 24M. Science Fiction 6N. Adventure & western 29P. Romance 29R. Humour 9

17Description du ph₫nom₩ne et typage LIR

Page 18: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Jeu de traits : les caract₩res Classification non supervis₫e utilisant le classifieur

de Jardino et Beaujard (97)

Imaginative ProseInformative ProseC1 53 125C2 321 1

Recouvrement : 89,2 % Recouvrement : 96 % sans la classe Misc

18Description du ph₫nom₩ne et typage

Exp₫rience sur le corpus Brown (2/2)

LIR

Page 19: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Bilan : possibilit₫ de typer Effet de l'h₫t₫rog₫n₫it₫ Traits simples Retrouver partiellement des genres Recouvrement partiel :

Jeux de traits inadapt₫sCat₫gorisation discutable

19 LIR

Page 20: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

20

Plan

Introduction Description du ph₫nom₩ne et typage Effet sur les traitements (annotation morpho-

syntaxique) Am₫lioration des traitements Perspectives : am₫liorer le typage

LIR

Page 21: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Effet sur les traitements (1/ 2) Corpus Multitag :

1 million de mots annot₫s par 11 syst₩mes Une annotation de r₫f₫rence pour 100 000 mots

Textes pr₫sents 2 textes de m₫moires 6 Romans 2 Essais 16 num₫ros du Monde

21Effet sur les traitements LIR

Page 22: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Effet sur les traitements (2/2)

La performance varie selon le type des donn₫es

22Effet sur les traitements LIR

Page 23: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Bilan : h₫t₫rog₫n₫it₫ des performances Performance varie selon le type de donn₫es Probl₩me avec les cat₫gorisations Typage plus explicatif ?

Explication des diff₫rences ?Am₫lioration des traitements ?

23 LIR

Page 24: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

24

Plan

Introduction Description du ph₫nom₩ne et typage Effet sur les traitements (annotation morpho-

syntaxique) Am₫lioration des traitements Perspectives : am₫liorer le typage

LIR

Page 25: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Mod₩le de Sekine (97)Phase d'apprentissage

Ensemble de test

Phase de testClassificationselon un genre

Ensemble d'apprentissag

e

Classificationselon un genre

TSAApprentissage

Apprentissage TSB

TraitementsSp₫cialis₫s

Base textuellepartitionn₫e

A

B

TSA

B

A

TSB

R₫sultats des Traitements Sp₫cialis₫s

25Am₫lioration des traitements LIR

Page 26: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Am₫liorer : Mod₩le propos₫Phase d'apprentissage

Ensemble de test

Phase de test

ClassificationSupervis₫e

Ensemble d'apprentissag

e

ClassificationInduite

TSAApprentissage

Apprentissage TSB

TraitementsSp₫cialis₫s

Base textuellepartitionn₫e

A

B

TSA

B

A

TSB

R₫sultats des Traitements Sp₫cialis₫s

26Am₫lioration des traitements LIR

Page 27: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Am₫lioration des traitements

Sur le corpus Brown (500 textes), en reprenant la classification non supervis₫e pr₫c₫dente

Apprentissage (444 textes), ₫valuation (56 textes)

Performances inf₫rieures à celles du traitement g₫n₫raliste (entraîn₫ sur le corpus total)

Apprentissage sur C1 C2 TotalTest sur C1 94.05 93.83 94.19Test sur C2 93.47 93.98 94.03

27Am₫lioration des traitements LIR

Page 28: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Am₫liorer : S'adapter à la tâchePhase d'apprentissage

App

App

TSA

TSB

TraitementsSp₫cialis₫s

Base textuellepartitionn₫e

Ensemble de test

Phase de testClassificationsupervis₫e

TSA

B

A

TSB

R₫sultats des Traitements Sp₫cialis₫s

28Am₫lioration des traitements

TSA

Ensemble d'apprentissag

e

Classificationselon

performances

A

B

TSB

Base textuellepartitionn₫e

LIR

Page 29: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Diff₫rences par rapport aux genres :

ChangementInformative Imaginative Informative Imaginative

0 49 111 283 1 241 46 106 286 6 102 43 103 289 9 33 42 103 290 9 14 43 103 289 9 05 43 103 289 9 0

C1 C2

29Am₫lioration des traitements

Reste proche de la cat₫gorisation

LIR

Page 30: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Am₫lioration sur le corpus Brown

30Am₫lioration des traitements

Apprentissage Test

LIR

Page 31: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Am₫lioration des traitements Diff₫rences entre le syst₩me adaptatif et le

g₫n₫raliste : test de MacNemar Système BCorrecte Incorrecte

Système A Correct CC CIIncorrecte IC II

GénéralisteCorrecte Incorrecte

Adaptatif Correcte 121 752 1 488Incorrecte 1 221 6 522

Z=26,1 (Þ H0) rejet₫e à un seuil inf₫rieur à 0,001

31Am₫lioration des traitements

(H0) « IC et CI sont comparables »

LIR

Page 32: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Am₫lioration des traitements

Test de MacNemar appliqu₫ à la comparaison de syst₩mes d'annotations est « pratiquement toujours significatif » Paroubek et Rajman (2000)

N₫cessaire : autre validation de la m₫thode Nombre de donn₫es limit₫es : validation crois₫e

20 tirages al₫atoires du jeu d'entraînement (450 textes)

Pour am₫liorer les performances, entraînement sur le corpus total + n(=3) fois le sous-corpus sp₫cialis₫

32Am₫lioration des traitements LIR

Page 33: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Am₫lioration des traitements

Avec cet entraînement, Am₫liorations par rapport au g₫n₫raliste :

Par le genre : 18 tirages sur les 20 It₫rative : 10 tirages sur les 20

M₫thode inadapt₫e ou probl₩me de typage ?

33

Optimale : 20 tirages sur les 20 Classification par R₫seaux de Neurones Formels :

15 tirages sur les 20

Am₫lioration des traitements LIR

Page 34: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Bilan :Am₫lioration des traitements

Faibles am₫liorations Donn₫es plus vari₫es requises Donn₫es en plus grand nombre M₫thode envisageable à moyen terme Am₫lioration du typage

34Am₫lioration des traitements LIR

Page 35: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Introduction Descriptions du ph₫nom₩ne, et typage Effet sur les traitements (annotation morpho-

syntaxique) Am₫liorer les traitements Perspectives : am₫liorer le typagePerspectives : am₫liorer le typage

35

Plan

LIR

Page 36: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Typage Induire des sous-ensembles homog₩nes Distinguer des proximit₫s non marqu₫es par des

caract₫risations M₫thode it₫rative

Un apprentissage sp₫cialis₫ Performances Þ sup₫rieures au g₫n₫raliste

Þ encore inf₫rieures sp₫cialisation par classes

Conclusion

36 LIR

Page 37: Typage de donnes textuelles pour l'adaptation des traitements linguistiques Gabriel ILLOUZ LIR - LIMSI Journe ATALA du 28 Avril 2001 De la langue aux genres

Utilisation de la m₫thode avec D'autres syst₩mes d'annotations D'autres syst₩mes de traitements linguistiques En combinaison avec une m₫thode des votants

Typage à plus grande ₫chelle Constitution d'un corpus vari₫ pour le fran₤ais BNC (British National Corpus) TypWeb projet de typage de pages Internet

Perspectives

37 LIR