Upload
honoree-villeneuve
View
105
Download
1
Embed Size (px)
Citation preview
Zohra KHALIS
Caroline TAMBELLINI
Loic MAISONNASSE
Laboratoire CLIPS-IMAG
A chaque corpus son découpage et une segmentation pour tous
2ème DÉfi Fouille de Textes21-22 septembre 2006,Fribourg, Suisse
21 septembre 2006 DEFT‘062
Objectifs
Choisir le découpage physique adéquat
Calculer la similarité pour comparer les
unités issues du découpage
Délimiter les segments à partir des
différences de similarités
Sortie : segment
Entrée :texte
Proposition d’une méthode adaptée au particularité de chaque corpus en suivant les 3 étapes de la segmentation
21 septembre 2006 DEFT‘063
Corpus
3 corpus
Prétraitement des trois corpus– Tree tagger – Adjectifs verbes noms
Nombre de phrases du corpus Nombre de ruptures de thème
Corpus politique 303373 18929
Corpus juridique 433456 9934
Corpus scientifique 4722 337
<1.1x> BONSOIR MADAME, BONSOIR MADEMOISELLE, BONSOIR MONSIEUR.<1.2> COMME JE VOUS L'AVAIS INDIQUE, PENDANT LA CAMPAGNE PRESIDENTIELLE JE CONSIDERE QU'UNE DE MES MISSIONS, UNE DE MES MISSIONS IMPORTANTES EST DE VOUS INFORMER, ET JE VOUDRAIS VOUS INFORMER CE SOIR DES MOTIFS QUI M'ONT CONDUIT AU CHOIX DU PREMIER MINISTRE ET A LA COMPOSITION DU NOUVEAU GOUVERNEMENT.
<2.1x> Article X<2.2> 1) Les prélèvements sur les productions de charbon et d'acier prévus aux articles 49 et 50 du Traité sont assis sur les produits suivants: 1. Briquettes de lignite et semi coke de lignite<2.3> 2. Houille de toutes catégories<2.4> 3. Fonte autre que destinée à la fabrication des lingots
<3.1x> D'un point de vue conceptuel, l'apprentissage se joue entre un espace dedescription des objets d'entrée et un espace d'hypothèses.<3.2> Le choix d'un principe inductif permet d'évaluer, à partir des exemples, la qualité des hypothèses et de prescrire l'hypothèse théorique optimale.
21 septembre 2006 DEFT‘064
Plan
Méthodes – Méthode du Text Tiling– Apprentissage sur les phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘065
Méthode de Text Tiling
Adaptation au corpus juridique– Utilisation de la structure du corpus en article– Emplacement des ruptures à la fin d’un article
Choisir le découpage physique adéquat
Calculer la similarité pour comparer les
unités issues du découpage
Délimiter les segments à partir des
différences de similarités
Sortie : segment
Entrée :texte Calcul du
cosinus entre les blocs
Valeurs de similarité calculées des blocs
Découpage par article
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘066
Calcul de la similarité
Bloc A
Bloc B
Bloc C
Bloc D
Bloc E
Similarité(A, B)
Similarité(B, C)
Similarité(C, D)
Similarité(D, E)
Sélection des ruptures
<>Article ------------------------
<--> -------------------------
-
<>Article ------------------------
<--> -------------------------
-
<>Article ------------------------
<--> ------------------------
--
<>Article ---------------------
---<-->
--------------------------
<>Article ---------------------
---<-->
--------------------------
n
t bt
n
t at
n
t btat
ww
wwbasim
1
2,1
2,
1 ,,),(
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘067
Sélection des ruptures
Il y a une vallée lorsque (ya1 – ya2) + (ya3 – ya2) > δ,
δ étant un seuil à fixer
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
Validation des paramètres– δ = 0 correspond aux tests donnant de meilleurs
résultats
21 septembre 2006 DEFT‘068
Apprentissage sur les phrases
Phrases de rupture formées d’un vocabulaire spécifique dans le corpus politique
Phrases de non rupture formées de mots de liaison
Choisir le découpage physique adéquat
Calculer la similarité pour comparer les
unités issues du découpage
Délimiter les segments à partir des
différences de similarités
Entrée :texte Établissement
de 2 profils
Score de correspondance
de chaque phrase
Découpage par phrase de rupture et de non rupture
Sortie : segment
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘069
Formules d’apprentissage
Pj : ensemble des phrases de type j, j étant une rupture ou une non rupture Qj : ensemble des phrases contenants le lemme i
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0610
Validation des paramètres
Seuil important amélioration de 25% Différents en fonction des corpus
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0611
Méthode de cohérence
Présence de digression dans le corpus scientifique
Choisir le découpage physique adéquat
Calculer la similarité pour comparer les
unités issues du découpage
Délimiter les segments à partir des
différences de similarités
Entrée :texte Liens
dans une zone intermédiaire
Valeurs de cohérence de chaque
phrase
Découpage par phrase
Sortie : segment
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0612
Calcul de la similarité(1/5)
Zone de comparaisonTaille de la zone : 2 δ
Phrases adjacentes Toutes les phrases Phrases dans une zone
δδ
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0613
Calcul de la similarité(2/5)
Calcul de la matrice de similarité dans la zone de comparaison (cosinus)
xyj
xxi
xxjxi
ff
ffjisim
2,
2,
,,,
Avec f(i,x) la fréquence du mot x dans la phrase i
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0614
Calcul de la similarité(3/5)
Calcul de la matrice de liens
– Notion de lien 2 phrases fortement similaires sont liées
– Seuil de similarité
Par exemple, on a δ = 2 phrases– Lien (x,y) = 1 si case rouge– Lien (x,y) = 0 si case grise
sinon 0
j) M(i, si 1,
jiLien
Matrice de liens
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0615
Calcul de la similarité(4/5)
Calcul de la matrice de cohérence Notion de cohérence
j Phrase i k
343
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0616
Calcul de la similarité(5/5)
Calcul de la matrice de cohérence
MC (2,3) =
Lien(1,3) +
Lien(2,3) + Lien(2,4)
= 0 + 0 + 1 = 1
1 2 3 4 5
54321
1 2
2 1
1 2
2 1
1
) Lien(k, j) (i, MC
i j
jl
l
ik
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0617
Sélection des ruptures
La courbe de cohérence– La diagonale de la matrice de cohérence
0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
1 1 4 2 7 4 0 5 3 6 6 7 9 9 2 1 0 5 1 1 8 1 3 1 1 4 4 1 5 7 1 7 0 1 8 3 1 9 6
Les changements de thème correspondent au minimum
locaux de la courbe
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0618
Validation des paramètres
Taille de la zone– inférieure ou égale à la moyenne de la taille des
segments
Taille de la zone Moyenne des résultats
5 0,191
10 0,191
15 0,188
20 0,182
25 0,172
30 0,167
40 0,164
50 0,165
60 0,171
100 0,131
δ δ
δ
Taille des segments Moyenne
Corpus politique 16
Corpus scientifique 14
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0619
Validation des paramètres
Seuil de similarité– entre deux phrases est supérieure à 0,5
Seuil >0,3 > 0,4 > 0,5 > 0,6 > 0,7
Moyenne 0,164 0,161 0,172 0,170 0,164
sinon 0
j) M(i, si 1,
jiLien
Méthodes – Méthode du Text Tiling– Apprentissage sur les
phrases– Méthode de cohérence
Résultats
21 septembre 2006 DEFT‘0620
Plan
Méthodes Résultats
– Descriptions des essais– Corpus juridique– Corpus scientifique– Corpus politique
21 septembre 2006 DEFT‘0621
Descriptions des essais
Choix des méthodes en fonctions des corpus
ESSAI 1 ESSAI 2 ESSAI 3
Corpus politiqueMETHODE DE
ROCCHIOMETHODE DE COHERENCE
COMBINAISON
Corpus juridiqueMETHODE DE TEXTTILING
METHODE DE TEXTTILING
METHODE DE TEXTTILING
Corpus scientifiqueMETHODE DE
ROCCHIOMETHODE DE COHERENCE
COMBINAISON
Méthodes Résultats
– Descriptions des essais– Corpus juridique– Corpus scientifique– Corpus politique
21 septembre 2006 DEFT‘0622
Corpus juridique
F-score campagne DEFT'06
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
Moyenne des participants Méthode de Text Tiling
simple
fen 1
fen 2
Méthodes Résultats
– Descriptions des essais– Corpus juridique– Corpus scientifique– Corpus politique
21 septembre 2006 DEFT‘0623
Corpus politique
F-score campagne DEFT'06
00,050,1
0,150,2
0,25
0,30,350,4
0,450,5
Moyenne desparticipants
Méthode deRocchio
Méthode decohérence
Combinaisondes 2
simple
fen 1
fen 2
Méthodes Résultats
– Descriptions des essais– Corpus juridique– Corpus politique– Corpus scientifique
21 septembre 2006 DEFT‘0624
Corpus scientifique
F-score campagne DEFT'06
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
Moyenne desparticipants
Méthode deRocchio
Méthode decohérence
Combinaisondes 2
simple
fen 1
fen 2
Méthodes Résultats
– Descriptions des essais– Corpus juridique– Corpus politique– Corpus scientifique
21 septembre 2006 DEFT‘0625
Conclusion
Approches différenciées Proposition d’une méthode de segmentation
– Avec une zone de comparaison intermédiaire– Avec un nouveau calcul de similarité les liens– Avec une segmentation sur la diagonale
Méthode non supervisée Méthode pouvant être combinée
Je vous remercie de votre attention
Zohra KHALIS
Caroline TAMBELLINI
Loic MAISONNASSE
Laboratoire CLIPS-IMAG
A chaque corpus son découpage et une segmentation pour tous
2ème DÉfi Fouille de Textes21-22 septembre 2006,Fribourg, Suisse
21 septembre 2006 DEFT‘0628
Résultats sur le corpus d’évaluation
moyenne + ou - ESSAI 1 ESSAI 2 ESSAI 3
discours
simple 0,1814025 0,09999015 0,274342 0,134466 0,180209
fen 1 0,30295294 0,08976585 0,386936 0,307809 0,288286
fen 2 0,39453311 0,09086104 0,460655 0,402088 0,351411
lois
simple 0,17065679 0,1959429 0,248967 0,248967 0,248967
fen 1 0,20480322 0,1862971 0,249402 0,249402 0,249402
fen 2 0,25874429 0,20610532 0,374646 0,374646 0,374646
scientifique
simple 0,11502264 0,09334831 0,165816 0,160695 0,158983
fen 1 0,2196155 0,12354013 0,299616 0,278867 0,307937
fen 2 0,28735678 0,14901245 0,355677 0,346636 0,380952
Etat de l’art Proposition Expérimentation
– Validation– Comparaison– Résultats