28
Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS- IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille de Texte 21-22 septembre 2006, Fribourg, Suisse

Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

Embed Size (px)

Citation preview

Page 1: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

Zohra KHALIS

Caroline TAMBELLINI

Loic MAISONNASSE

Laboratoire CLIPS-IMAG

A chaque corpus son découpage et une segmentation pour tous

2ème DÉfi Fouille de Textes21-22 septembre 2006,Fribourg, Suisse

Page 2: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘062

Objectifs

Choisir le découpage physique adéquat

Calculer la similarité pour comparer les

unités issues du découpage

Délimiter les segments à partir des

différences de similarités

Sortie : segment

Entrée :texte

Proposition d’une méthode adaptée au particularité de chaque corpus en suivant les 3 étapes de la segmentation

Page 3: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘063

Corpus

3 corpus

Prétraitement des trois corpus– Tree tagger – Adjectifs verbes noms

Nombre de phrases du corpus Nombre de ruptures de thème

Corpus politique 303373 18929

Corpus juridique 433456 9934

Corpus scientifique 4722 337

<1.1x> BONSOIR MADAME, BONSOIR MADEMOISELLE, BONSOIR MONSIEUR.<1.2> COMME JE VOUS L'AVAIS INDIQUE, PENDANT LA CAMPAGNE PRESIDENTIELLE JE CONSIDERE QU'UNE DE MES MISSIONS, UNE DE MES MISSIONS IMPORTANTES EST DE VOUS INFORMER, ET JE VOUDRAIS VOUS INFORMER CE SOIR DES MOTIFS QUI M'ONT CONDUIT AU CHOIX DU PREMIER MINISTRE ET A LA COMPOSITION DU NOUVEAU GOUVERNEMENT.

<2.1x> Article X<2.2> 1) Les prélèvements sur les productions de charbon et d'acier prévus aux articles 49 et 50 du Traité sont assis sur les produits suivants: 1. Briquettes de lignite et semi coke de lignite<2.3> 2. Houille de toutes catégories<2.4> 3. Fonte autre que destinée à la fabrication des lingots

<3.1x> D'un point de vue conceptuel, l'apprentissage se joue entre un espace dedescription des objets d'entrée et un espace d'hypothèses.<3.2> Le choix d'un principe inductif permet d'évaluer, à partir des exemples, la qualité des hypothèses et de prescrire l'hypothèse théorique optimale.

Page 4: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘064

Plan

Méthodes – Méthode du Text Tiling– Apprentissage sur les phrases– Méthode de cohérence

Résultats

Page 5: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘065

Méthode de Text Tiling

Adaptation au corpus juridique– Utilisation de la structure du corpus en article– Emplacement des ruptures à la fin d’un article

Choisir le découpage physique adéquat

Calculer la similarité pour comparer les

unités issues du découpage

Délimiter les segments à partir des

différences de similarités

Sortie : segment

Entrée :texte Calcul du

cosinus entre les blocs

Valeurs de similarité calculées des blocs

Découpage par article

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 6: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘066

Calcul de la similarité

Bloc A

Bloc B

Bloc C

Bloc D

Bloc E

Similarité(A, B)

Similarité(B, C)

Similarité(C, D)

Similarité(D, E)

Sélection des ruptures

<>Article ------------------------

<--> -------------------------

-

<>Article ------------------------

<--> -------------------------

-

<>Article ------------------------

<--> ------------------------

--

<>Article ---------------------

---<-->

--------------------------

<>Article ---------------------

---<-->

--------------------------

n

t bt

n

t at

n

t btat

ww

wwbasim

1

2,1

2,

1 ,,),(

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 7: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘067

Sélection des ruptures

Il y a une vallée lorsque (ya1 – ya2) + (ya3 – ya2) > δ,

δ étant un seuil à fixer

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Validation des paramètres– δ = 0 correspond aux tests donnant de meilleurs

résultats

Page 8: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘068

Apprentissage sur les phrases

Phrases de rupture formées d’un vocabulaire spécifique dans le corpus politique

Phrases de non rupture formées de mots de liaison

Choisir le découpage physique adéquat

Calculer la similarité pour comparer les

unités issues du découpage

Délimiter les segments à partir des

différences de similarités

Entrée :texte Établissement

de 2 profils

Score de correspondance

de chaque phrase

Découpage par phrase de rupture et de non rupture

Sortie : segment

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 9: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘069

Formules d’apprentissage

Pj : ensemble des phrases de type j, j étant une rupture ou une non rupture Qj : ensemble des phrases contenants le lemme i

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 10: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0610

Validation des paramètres

Seuil important amélioration de 25% Différents en fonction des corpus

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 11: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0611

Méthode de cohérence

Présence de digression dans le corpus scientifique

Choisir le découpage physique adéquat

Calculer la similarité pour comparer les

unités issues du découpage

Délimiter les segments à partir des

différences de similarités

Entrée :texte Liens

dans une zone intermédiaire

Valeurs de cohérence de chaque

phrase

Découpage par phrase

Sortie : segment

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 12: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0612

Calcul de la similarité(1/5)

Zone de comparaisonTaille de la zone : 2 δ

Phrases adjacentes Toutes les phrases Phrases dans une zone

δδ

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 13: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0613

Calcul de la similarité(2/5)

Calcul de la matrice de similarité dans la zone de comparaison (cosinus)

xyj

xxi

xxjxi

ff

ffjisim

2,

2,

,,,

Avec f(i,x) la fréquence du mot x dans la phrase i

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 14: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0614

Calcul de la similarité(3/5)

Calcul de la matrice de liens

– Notion de lien 2 phrases fortement similaires sont liées

– Seuil de similarité

Par exemple, on a δ = 2 phrases– Lien (x,y) = 1 si case rouge– Lien (x,y) = 0 si case grise

sinon 0

j) M(i, si 1,

jiLien

Matrice de liens

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 15: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0615

Calcul de la similarité(4/5)

Calcul de la matrice de cohérence Notion de cohérence

j Phrase i k

343

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 16: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0616

Calcul de la similarité(5/5)

Calcul de la matrice de cohérence

MC (2,3) =

Lien(1,3) +

Lien(2,3) + Lien(2,4)

= 0 + 0 + 1 = 1

1 2 3 4 5

54321

      1  2

       2  1

   1  2    

   2  1    

 1        

) Lien(k, j) (i, MC

i j

jl

l

ik

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 17: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0617

Sélection des ruptures

La courbe de cohérence– La diagonale de la matrice de cohérence

0

1 0

2 0

3 0

4 0

5 0

6 0

7 0

8 0

1 1 4 2 7 4 0 5 3 6 6 7 9 9 2 1 0 5 1 1 8 1 3 1 1 4 4 1 5 7 1 7 0 1 8 3 1 9 6

Les changements de thème correspondent au minimum

locaux de la courbe

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 18: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0618

Validation des paramètres

Taille de la zone– inférieure ou égale à la moyenne de la taille des

segments

Taille de la zone Moyenne des résultats

5 0,191

10 0,191

15 0,188

20 0,182

25 0,172

30 0,167

40 0,164

50 0,165

60 0,171

100 0,131

δ δ

δ

Taille des segments Moyenne

Corpus politique 16

Corpus scientifique 14

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 19: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0619

Validation des paramètres

Seuil de similarité– entre deux phrases est supérieure à 0,5

Seuil >0,3 > 0,4 > 0,5 > 0,6 > 0,7

Moyenne 0,164 0,161 0,172 0,170 0,164

sinon 0

j) M(i, si 1,

jiLien

Méthodes – Méthode du Text Tiling– Apprentissage sur les

phrases– Méthode de cohérence

Résultats

Page 20: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0620

Plan

Méthodes Résultats

– Descriptions des essais– Corpus juridique– Corpus scientifique– Corpus politique

Page 21: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0621

Descriptions des essais

Choix des méthodes en fonctions des corpus

ESSAI 1 ESSAI 2 ESSAI 3

Corpus politiqueMETHODE DE

ROCCHIOMETHODE DE COHERENCE

COMBINAISON

Corpus juridiqueMETHODE DE TEXTTILING

METHODE DE TEXTTILING

METHODE DE TEXTTILING

Corpus scientifiqueMETHODE DE

ROCCHIOMETHODE DE COHERENCE

COMBINAISON

Méthodes Résultats

– Descriptions des essais– Corpus juridique– Corpus scientifique– Corpus politique

Page 22: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0622

Corpus juridique

F-score campagne DEFT'06

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

Moyenne des participants Méthode de Text Tiling

simple

fen 1

fen 2

Méthodes Résultats

– Descriptions des essais– Corpus juridique– Corpus scientifique– Corpus politique

Page 23: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0623

Corpus politique

F-score campagne DEFT'06

00,050,1

0,150,2

0,25

0,30,350,4

0,450,5

Moyenne desparticipants

Méthode deRocchio

Méthode decohérence

Combinaisondes 2

simple

fen 1

fen 2

Méthodes Résultats

– Descriptions des essais– Corpus juridique– Corpus politique– Corpus scientifique

Page 24: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0624

Corpus scientifique

F-score campagne DEFT'06

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

Moyenne desparticipants

Méthode deRocchio

Méthode decohérence

Combinaisondes 2

simple

fen 1

fen 2

Méthodes Résultats

– Descriptions des essais– Corpus juridique– Corpus politique– Corpus scientifique

Page 25: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0625

Conclusion

Approches différenciées Proposition d’une méthode de segmentation

– Avec une zone de comparaison intermédiaire– Avec un nouveau calcul de similarité les liens– Avec une segmentation sur la diagonale

Méthode non supervisée Méthode pouvant être combinée

Page 26: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

Je vous remercie de votre attention

Page 27: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

Zohra KHALIS

Caroline TAMBELLINI

Loic MAISONNASSE

Laboratoire CLIPS-IMAG

A chaque corpus son découpage et une segmentation pour tous

2ème DÉfi Fouille de Textes21-22 septembre 2006,Fribourg, Suisse

Page 28: Zohra KHALIS Caroline TAMBELLINI Loic MAISONNASSE Laboratoire CLIPS-IMAG A chaque corpus son découpage et une segmentation pour tous 2ème DÉfi Fouille

21 septembre 2006 DEFT‘0628

Résultats sur le corpus d’évaluation

moyenne + ou - ESSAI 1 ESSAI 2 ESSAI 3

discours

simple 0,1814025 0,09999015 0,274342 0,134466 0,180209

fen 1 0,30295294 0,08976585 0,386936 0,307809 0,288286

fen 2 0,39453311 0,09086104 0,460655 0,402088 0,351411

lois

simple 0,17065679 0,1959429 0,248967 0,248967 0,248967

fen 1 0,20480322 0,1862971 0,249402 0,249402 0,249402

fen 2 0,25874429 0,20610532 0,374646 0,374646 0,374646

scientifique

simple 0,11502264 0,09334831 0,165816 0,160695 0,158983

fen 1 0,2196155 0,12354013 0,299616 0,278867 0,307937

fen 2 0,28735678 0,14901245 0,355677 0,346636 0,380952

Etat de l’art Proposition Expérimentation

– Validation– Comparaison– Résultats