Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Utilisation des citations pour le résumé automatique de la
contribution d’articles scientifiques
Bruno Malenfant
Guy Lapalme
2
Corpus Articles
ArticlesXML
Base RDF
RésuméArticlesXML
RP+CPs
Transformation
Sélection
Transfo
rmatio
n
Analyse
Métriques
Déterminer facette
CitancesAnnotés
+RP
Extraction
Éval
uat
ion
MétriquesRouge
RP
CP
CP
CP
• C1• C2
• C3• C4
• C5• C6
• C2• C5
Extrait
Résumé
3
Comparaison avec travaux antérieurs
Graphe de citation :
• Vincent Larivière :• Bibliométrique, analyse des graphes de citation.
• Dragomir R. Radev, Vahed Qazvinian (AAN) :• Analyse des graphes de citation.
4
Comparaison avec travaux antérieurs
Résumé :
• Vahed Qazvinian et Dragomir R Radev 2008 :• Résumé à l’aide d’un graphe de citance.
• Qiaozhu Mei et ChengXiang Zhai 2008 :• Résumé de l’impact d’un article.
• Participants TAC 2014, CL 2014, CL 2016 :• Résumé de l’impact d’un article.
5
Définitions
• Le terme citance a été proposé par Preslav I. Nakov, Ariel S. Schwartz et Marti A. Hearst pour décrire l’ensemble des phrases entourant une citation. Le texte entourant une citation va souvent évoquer des informationstraitées dans l’articles de référence. Ces informations sontgénéralement énoncés de façon concise.
6
White [32] provides a good recent review of the field of citation analysis (for a more thorough but less recent review of the field see [22]). White describes three major lines of research in the field of citation analysis.
Corpus
• ACL Anthology Network
• Environ 20 360 articles avec leurs méta-informations
• Nombre de liens : 110 930 références
7
Corpus
• Compétitions
• TAC 2014 : 20 articles (RP) pré-annotés avec les 200 articles les citant (CP).
• CL 2014 : 10 articles (RP) pré-annotés avec les 84 articles les citant (CP).
• CL 2016 : 30 articles (RP) pré-annotés avec les 486 articles les citant (CP).
• Annotations
• Citance : phrase de référence
• Résumé
8
Production du résumé
• Technique : Maximal Marginal Relevance.• Incrémentale
• Élimine la redondance
• Choisir phrase par phrase1. Citances
2. Extraits de l’article résumé
• C2• C5
Extrait
Résumé
9
MMR : Maximal Marginal Relevance
• Le MMR permet un contrôle entre avoir des phrases similaires à une phrase requête et différente aux phrases déjà choisie (𝜆).
Titre RP
P1P2P3P4P5P6
R1R2R3
Requête
Phrases potentiellesRésumé
𝜆𝑆𝑖𝑚 − 1 − 𝜆 𝑆𝑖𝑚
10
Similarité entre phrases (Mihalcea, Corley et Strapparava)
… systems that can automatically summarize one or more documents become …
…it is especially useful to have tool which can help users…
0,800,33
• Moyenne pondéré par idf des similarités entre les mots.• Similarité de Zhibiao Wu et Martha Palmer entre les mots.
11
12
Similarité entre phrases (Mihalcea, Corley et Strapparava)
… systems that can automatically summarize one or more documents become …
…it is especially useful to have tool which can help users…
0,80
0,80 0,200,33
0,33
• Moyenne pondéré par idf des similarités entre les mots.• Similarité de Zhibiao Wu et Martha Palmer entre les mots.
Production du résumé
Requête
Citances
Requête
Citanceschoisies
Extraits RP
Résumé=
Citances+
Extraits
MMR
MMR
Trouver le meilleur ratio entre citances et extraits ?
1. Choisir des phrases parmi les citances.2. Choisir des phrases dans le RP.
13
Sorties de Citatum
14
Évaluation des résumés
• Utilisation de Rouge-2 et 4 pour comparer les résumés résultants.
Rouge = Recall-Oriented Understudy for Gisting Evaluation
• Donne les meilleurs résultats avec 8% de phrase des citances et 92% de phrases extraites de l’article.
• 𝜆 = 0.52 pour les citances.
• 𝜆 = 1.00 pour les extraits : favorise les phrases similaires au titre.
15
Évaluation des résumés
• Troisième sur cinq équipes.
• Rouge-4 = 0.084
• Autres : entre 0.035 et 0.117
16
Travaux futurs
• Déterminer la portée d’une citance.
• Résumé dirigé vers les facettes.• Simone Teufel : basis, contras , other.
• TAC : hypothesis, methods, results, implication, discussion.
• CL-Summ : hypothesis, methods, results, implication, aims.
• CiTO (Citation Typing Ontology, 41 facettes):
• Positive : confirms, credits, extends, obtainsSupportFrom, supports, updates.
• Négative : corrects, critiques, disagreesWith, qualifies, refutes.
• Neutre : discusses, reviews.
17
Conclusion
• Il y a un intérêt pour les résumés d’articles scientifiques et leurs impacts: TAC 2014, Comp Ling Summarization.
• Les citances donnent de l’information nouvelle et utile pour mesurer l’impact d’un article.
• Nous avons proposé des techniques pour construire un résumé utilisant les citances et l’article à résumer.
18