Les approches numériques pour le résumé automatique de texte · 2009-11-12 · ljvbl jbv lajb v...

Preview:

Citation preview

Les approches numeriques pour le resumeautomatique de texte

Florian Boudin

12 novembre 2009

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Definition

Une transformation reductrice d’un texte source en resume parcondensation du contenu par selection et/ou generalisation de cequi est important dans la source.

A reductive transformation of source text to summary text throughcontent condensation by selection and/or generalisation on what isimportant in the source.

(Sparck Jones, 99)

Le resume automatique de texte

K Compression (avec perte) de l’information d’un document

D Entree : document longD Sortie : document courtD Contrainte : preserver les idees essentielles

K Exemples de resumes

D Sommaire, mots cles (indicatifs)D Abstracts d’articles (informatifs)D Snippets

K Plusieurs variantes

D Mono-document | multi-documentsD Generique | oriente

A quoi sert le resume automatique ?

K Repondre au probleme de surcharge d’information

K Apercu du contenu d’un document

K Proposer une autre solution a la lecture directe

K Accelerer-simplifier l’acces a l’information

K Utilisation indirecte : recherche d’information, classification

Pourquoi est-ce si difficile ?

K Interpretations differentes du document source

K Necessite des connaissances externes

K Besoin(s) de l’utilisateur

D Indicatif : indique la nature du texteD Informatif : tente de se substituer au texteD Critique : emet un avis sur le document

K Nature des documents

K Taux de compression ( r esumesource )

Etudier le comportement humain

K Etude du comportement des resumeurs professionnels

D (Van Dijk, 79; Cremmins, 96; Endres-Niggemeyer, 98)

K 12-20 minutes pour resumer un article scientifique

D Veritable comprehension ?

K Protocole speak-out-loud → processus cognitif

D Les resumeurs ne lisent jamais le document au completD Exploiter la structure du documentD Analyse de traits surfaciques

K 70 % des phrases des resumes empruntees au texte source

D (Lin et Hovy, 03)

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Comment est-il aborde ?

K Approches extractives versus abstractives

K Processus en deux etapes

1. Identification des segments textuels importants2. Assemblage pour generer un resume (extrait)

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouce zaearva ov ijvr j za z za bvhb fa kajcn can cja cj leb kjhb eahb hbckjhboaie iocb ibacoicba ohbc oaib o i b a c o i o r i b v a i o r ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj b l a v k j b l j v b v k l j a b l a j v b jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

Extraction

Sélection Compression

Assemblage

Analyse Génération RésuméDocument(s)

Les approches classiques

K Travaux de recherche debutes il y a 50 ans (Luhn, 58)

K Luhn decrit une technique specifique aux articles scientifiques

D Distribution des frequences de mots dans le documentD Normalisation des variantes orthographiquesD Extraction des phrases de plus hauts poids

K Travaux etendus par (Edmundson, 69)

D Position des phrasesD Presence des mots provenant de la structure (titres, etc.)D Presence de mots indices (cue words, ex : significant, etc.)D Evaluation manuelle par comparaison avec des references

Les approches par apprentissage

K Resume automatique → probleme de classification

D Ensemble de paires documents/resumesD Extraction des features de chaque segment/phraseD Contribution de chacun des parametres dans la ponderation ?

K (Kupiec et al., 95) utilisent un classifieur bayesien

D Criteres decrits dans (Edmundson, 69)D Features precedemment decritsD Longueur de la phrase et presence de mots en majuscules

K D’autres algorithmes ont ete experimentes

D Modeles de Markov caches (HMM) (Conroy et O’leary, 01)D Reseaux de neurones (Svore et al., 07)

Les approches par analyse rhetorique

K Theorie de la Structure Rhetorique (Mann et Thompson, 88)

D Texte organise en elements (satellites-noyaux) relies

K Elagage de l’arbre rhetorique (Ono et al., 94; Marcu, 97)

Les approches par analyse de graphes

K Document → graphe d’unites textuelles (phrases)

K Relations inter-noeuds issues de calculs de similarite

phrases

Représentation générationrésumé

Cluster dedocuments

[0.3,1.0][0.2,0.3][0.1,0.2][0.0,0.1]

Poids des arêtes

K Algorithme PageRank (Erkan et Radev, 04; Mihalcea, 04)

Resume multi-documents

K Identifier les documents aux contenus similaires

K Ponderation par similarite avec le centroıde (Radev et al., 00)

K Couverture des thematiques

Générationaromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouov ijvr jv bvhb hboibv hubva hbv habvu hbavh bvkahb vkhb vhba khbv kjhvab khvba hvb kajvhb kjhba vkjb kjhb kjhab jhab hjab jhb ljhb aljhb ajhb ljhab lhjba lhjb lajhb lajhb ljabv ljhbav ljhbva ljvbl jbv lajbv ljvhba ljbvljbalvj blavkjb ljvb vkljab lajvb jafdqvvqfvoi ioa o ianr n nblkjvba ipurpiuarbgipuvbapiuvbiuv jkcb ibarohb vrahbv hbak hbak hbvr

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

Résumé

Documents

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

aromia ia ouceearva ov ijvbvhb a kajcn can cja cj l e b k j h b e a h b hbckjhboaie iocb ibacoicba ohbc oaib oibacoior ibvaior ubvioaruv iaubio ubra oiubvoiaubrv oiubrav oiau bvoiaj jc aj ajk ckja cjhca j cajharv ar rav er rv rvzc j

Pondération

Clustering

Resume oriente

K Oriente par un besoin utilisateur (requete)

K Techniques empruntees

D Recherche d’informationD Systemes de questions/reponses

K Trouver les segments pertinents (redondance !)

K Le systeme le plus simple

D Phrases et requete representees sous forme de vecteursD Ponderation par calcul de similarite (cosine)D Assemblage des segments de plus hauts scores

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Generation du resume

K Assemblage des segments les plus importants

K Ameliorer la qualite du resume → post-traitements

K Coherence et cohesion ?

D Segments provenant de differentes parties/documentsD Hors du contexte → anaphores non resolues

K Redondance de l’information dans le resume

D Ponderation des segments par rapport au documentD Haute probabilite de redondance inter- meilleurs segmentsD Multi-documents → probabilite augmente

Minimisation de la redondance

K Construction iterative MMR (Carbonell et Goldstein, 98)

K Reordonner les phrases en fonction de

D Importance de la phraseD Redondance par rapport aux phrases deja selectionneesD Ordre chronologique

MMR = arg maxs∈S

[ λ · Score(s)− (1− λ) ·maxsj∈E

Sim(s, sj) ]

D S ensemble des phrases candidatesD E ensemble des phrases selectionneesD λ coefficient d’interpolation

Ce que nous sommes capables de faire...

K Elimination

D Marie a un ballon. Le ballon est rougeD Marie a un ballon rouge

K Integration

D Le vent a emporte le ballon. Elle n’a plus de ballonD Le vent a emporte son ballon

K Construction

D Ce matin elle a pris ses toasts avec confiture. Elle a pris soncafe au lait et son bol de cereales

D Elle a pris son petit-dejeuner

K Generalisation

D Elle a mange des pommes, des poires et des raisinsD Elle a mange des fruits

... ce que les systemes automatiques font

K Reecriture des acronymes

K Normalisation des references temporelles

K Resolution d’anaphores pronominales

K Traitements surfaciques

D Suppression du contenu entre parenthesesD Normalisation de la ponctuation

K Minimiser le risque d’erreur linguistique !

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Evaluation des resumes

K Extrinseque versus Intrinseque

K Evaluation manuelle

D Qualite du texte (forme)D Capture des concepts cles (fond)D Faible accord inter-juges

K Comparaison a une reference

D Forte variabilite des phrases extraites (Rath et al., ’61)D Multiples references

Effort de la communaute

K Competitions annuelles DUC → TAC

K Donnees controlees → tests reproduisibles

K Plusieurs problematiques abordees : multi, mono, update, etc.

K Systemes evalues manuellement et (semi-)automatiquement

K Mesures (semi-)automatiques proposees

Recall-Oriented Understudy for Gisting Evaluation(ROUGE)

K Mesures classiques

K Rappel des unites (mots) entre un candidats et des references

Résumécandidat

Résumésde référence

ROUGE =Nombre( )Nombre( )

ROUGE (Lin, 2004)

Basic Elements (Hovy et al., 2005)

Pyramids

K Mesures de contenu plus robuste que ROUGE

K Necessite l’annotation manuelle des unites dans les resumes

K Exemple : 19,8 millions d’euros = approximativement 20millions d’euros

Résumésde référence Pyramide

de SCUs

poids=3

poids=2

poids=1

Résumécandidat

Pyramids = poids(SCUs )∑ candidat

poids(SCUs )∑ ideal

Pyramids (Nenkova et al., 2004)

Plan

1. Problematique

2. Approches par extraction

3. Traitements linguistiques

4. Evaluation

5. Conclusion

Conclusions

K Surcharge d’information→ resume automatique indispensable

K Methodes extractives robustes

K Forte adaptabilite

K Problematique tres ouverte

D Transversalite: RI, ML, NLG, etc.D Autres types de documents: blogs, tweets, etc.D Methodes hybrides

K Une problematique resolue ?

Une problematique resolue...

K Experience HexTac menee au RALI

D Production manuelle de resumes par methode extractiveD Represente la limite superieure des methodes extractives puresD Run meilleur que tous les systemes participants

K Langues traitees par les systemes

D Principalement en anglaisD Quelques autres langues : allemand (Reithinger et al., 00),

japonais (programme NTCIR1), portugais (Mihalcea, 04),francais (Boudin et al., 09)

1NII Test Collection for IR Systems

Les systemes existants

K MEAD (Radev et al., 01, 04)

D Statistique

K Newsblaster (McKeown et al., 02)

D Statistique + symbolique

K GISTexter (Harabagiu et Lacatusu, 02)

D RI + ressources linguistiques + patrons

K CORTEX (Torres-Moreno et al., 01)

D Statistique

Quelques lectures

K Advances in Automatic Text Summarization

D Inderjeet Mani et Mark Maybury

K Automatic Summarising: The State of the Art

D Karen Sparck Jones

K Les actes des conferences DUC, TAC

K Les theses de doctorats de

D Atefeh FarzindarD Horacio SaggionD Hal Daume III

Merci pour votre attentionAvez-vous des questions ?

Recommended