Transcript
Page 1: Séminaire Ist inria 2014 : Pascale Sébillot

Le traitement automatique des langues

face aux données textuelles

volumineuses et potentiellement

dégradées : qu’est-ce que cela change ?

Pascale SÉBILLOT PRU en informatique à l’INSA de RennesMembre de l’équipe LinkMedia de l’IRISA et

d’INRIA

Page 2: Séminaire Ist inria 2014 : Pascale Sébillot

204/10/2014

LinkMediaCreating and exploiting explicit links between multimedia fragments

Périm

ètre de LinkMedia

Objectifs• fondements scientifiques de la

structuration de collections de documents multimédias par des liens explicites

• nouveaux usages et techniques de traitement de contenus induits par ces liens

Page 3: Séminaire Ist inria 2014 : Pascale Sébillot

304/10/2014

Mon parcours de recherche

• Domaine : traitement automatique des langues (TAL)

• Thèse en syntaxe passage à la sémantique

• Acquisition de connaissances à partir de corpus de textesgrâce à des techniques d’apprentissage artificiel

• Application du TAL à la recherche d’information

• Application du TAL à la reconnaissance automatique de laparole

• Application du TAL à la structuration de (collections de)documents multimédias

Page 4: Séminaire Ist inria 2014 : Pascale Sébillot

404/10/2014

Impact du Big Data sur le traitement automatique des langues ?

• Révolution ?

Page 5: Séminaire Ist inria 2014 : Pascale Sébillot

504/10/2014

Impact du Big Data sur le traitement automatique des langues ?

• Révolution : NON– Révolution du TAL faite fin des années 80 – début des années 90

• Du TAL rationaliste…– Approches symboliques à base de règles

– Expertise humaine forte

– Focus sur l’explication des jugements de grammaticalité, la construction de représentations du sens élaborées…

• … au TAL empirique– Approches fondées sur les données

– Volumes de textes et puissance des machines croissants

– Apprentissage artificiel, linguistique de corpus

– Observation à grande échelle, représentations du « sens utile »

Page 6: Séminaire Ist inria 2014 : Pascale Sébillot

604/10/2014

Impact du Big Data sur le traitement automatique des langues ?

• Révolution : OUI– Nouveaux types de données textuelles à prendre en

compte

– Volumes toujours plus conséquents

– Empirisme toujours plus présent• Moins / pas (ou très peu) d’expertise

• Plus de comptage

Page 7: Séminaire Ist inria 2014 : Pascale Sébillot

704/10/2014

Impact du Big Data sur le TALOrganisation de la présentation

1. Spécificités des données textuelles dans le monde du Big Data

2. Représentations et exploitation des données textuelles

3. Applications pour faire face aux masses de données

4. Applications tirant profit de la profusion de données

Page 8: Séminaire Ist inria 2014 : Pascale Sébillot

804/10/2014

1- Spécificités des données textuelles dans le monde du Big Data

• Les 3 V (volume, variété, vélocité) appliqués aux données textuelles

• Propriétés intrinsèques compliquant l’accès au sens

Page 9: Séminaire Ist inria 2014 : Pascale Sébillot

904/10/2014

Variété

• Données produites (directement) sous une forme textuelle

– Textes écrits, emails, sites Web

– Blogs, réseaux sociaux

– Sms

Page 10: Séminaire Ist inria 2014 : Pascale Sébillot

1004/10/2014

Variété

• Données produites (directement) sous une forme textuelle

– Textes écrits, emails, sites Web

– Blogs, réseaux sociaux

– Sms• Tu te x mal1• JV encor dvoir 10QT

aussi dans la qualité

Exemples issus de [Fairon et al. 2006]

Page 11: Séminaire Ist inria 2014 : Pascale Sébillot

1104/10/2014

Variété

• Données langagières issues d’un média différent– Système de reconnaissance… générateur d’erreurs

– Images de textes• Dactylographiés, manuscrits

• OCR : logiciel de reconnaissance optique de caractères– Segmentation en caractères individuels

– Classifieur fondé sur un apprentissage neuronal pour la reconnaissance

– Parole contenue dans les documents audio/vidéos• Système de reconnaissance automatique de la parole (RAP)

Page 12: Séminaire Ist inria 2014 : Pascale Sébillot

1204/10/2014

Système de RAP

Système de reconnaissance automatique de la parole

Signal de parole

Hypothèse detranscription

w*1 ... w*P

c1 ... cP

Mesures de confiance

Page 13: Séminaire Ist inria 2014 : Pascale Sébillot

1304/10/2014

Modèle acoustique

Modèle de langue

Lexique phonétisé

Caractéristiques numériques du signal sonore contenant de

la parole (énergie, fréquence vocale…)

y1 ... yT

Meilleure hypothèse de transcription

w*1 ... w*P

w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'

c1 ... cP

Mesures de confiance

Système de reconnaissance automatique de la parole

Page 14: Séminaire Ist inria 2014 : Pascale Sébillot

1404/10/2014

Modèle acoustique

Modèle de langue

Lexique phonétisé

Caractéristiques numériques du signal sonore contenant de

la parole (énergie, fréquence vocale…)

y1 ... yT

Meilleure hypothèse de transcription

w*1 ... w*P

w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'

c1 ... cP

Mesures de confiance

Système de reconnaissance automatique de la parole

Vocabulaire : mots - prononciations

Page 15: Séminaire Ist inria 2014 : Pascale Sébillot

1504/10/2014

Modèle acoustique

Modèle de langue

Lexique phonétisé

Caractéristiques numériques du signal sonore contenant de

la parole (énergie, fréquence vocale…)

y1 ... yT

Meilleure hypothèse de transcription

w*1 ... w*P

w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'

c1 ... cP

Mesures de confiance

Système de reconnaissance automatique de la parole

Vraisemblance du signal sachant une séquence de mots

Page 16: Séminaire Ist inria 2014 : Pascale Sébillot

1604/10/2014

Modèle acoustique

Modèle de langue

Lexique phonétisé

Caractéristiques numériques du signal sonore contenant de

la parole (énergie, fréquence vocale…)

y1 ... yT

Meilleure hypothèse de transcription

w*1 ... w*P

w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'

c1 ... cP

Mesures de confiance

Système de reconnaissance automatique de la parole

Probabilité a priori des séquences de mots (n-grammes)

Page 17: Séminaire Ist inria 2014 : Pascale Sébillot

1704/10/2014

Quant au voile catholique de soeur ____ Adalberta , il est

tout ce qu' il y a de strict , serré sous le menton , il

encadre son visage sans permettre de voir , un seul de

ses cheveux .

quant aux voix catholiques de serge adda alberta _ il est

tout ce qu' il y a de strictes _ série sous le menton _ l

encadre son visage sans permettre de voir _ un seul de

ses cheveux _

Spécificités des transcriptions • Particularités de l’oral

– Disfluences– Constructions grammaticales particulières

• Format de transcription– Pas de ponctuation, de majuscules– Segmentation en groupes de souffle, pas en phrases

• Erreurs de transcription• Mots non fiables et mesures de confiance imparfaites

Taux d'erreur sur les mots ou WER (word errorrate )

Page 18: Séminaire Ist inria 2014 : Pascale Sébillot

1804/10/2014

Volume et Vélocité

Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/)Go-globe.com, juin 2011

Page 19: Séminaire Ist inria 2014 : Pascale Sébillot

1904/10/2014

Propriétés intrinsèques compliquant l’accès au sens

• Données non structurées– Pas de sémantique portée par une structure a priori

• Données porteuses de sens, compréhensibles par un humain et fortement présentes

– Nécessité de savoir en extraire l’information pertinente

• Données difficiles à comprendre par une machine– Ambiguïté

– Implicite

– Formulations différentes d’une même idée

Page 20: Séminaire Ist inria 2014 : Pascale Sébillot

2004/10/2014

Ambiguïté• Lexicale

– Statique : président : verbe / nom ?

– Dynamique : rat : nom / adjectif

• Syntaxique– Structure hiérarchique : la petite brise la glace

– Ambiguïté de rattachement : j’ai été voir un film avec Brad Pitt

• Sémantique– Homonymie : avocat : fruit / auxiliaire de justice

– Polysémie : agneau : animal / viande

– Portée des quantificateurs : toutes mes sœurs ont épousé un médecin vs toutes les personnes présentes ont entendu un cri

• Pragmatique– Paul : tu viens à la fête chez Luc mardi soir ?

– Virginie : j’ai entendu que Benoît sera là

Page 21: Séminaire Ist inria 2014 : Pascale Sébillot

2104/10/2014

Implicite• Connaissances partagées par les locuteurs

– Encyclopédiques

– De sens commun

– De scenarii…

• Interprétations « évidentes » [exemples empruntés à F. Yvon]

– Elle s’est assise, a commandé un café à la serveuse (…). Puis elle est partie sans payer Qui ?

– Le professeur a envoyé l’élève au censeur

• parce qu’il lançait des boulettes

• parce qu’il voulait avoir la paix

• parce qu’il voulait le voir

• Emplois métaphoriques, métonymiques– Premier violon

Page 22: Séminaire Ist inria 2014 : Pascale Sébillot

2204/10/2014

Formulations différentes d’une même idée

• Problème pour compter des occurrences d’un concept

• Variation– Graphique, morphologique : mot clé, mot-clé, mots-clés

– Syntaxique, morphosyntaxique : acidité du sang, acidité élevée du sang, acidité sanguine

– Paradigmatique : vélo, bicyclette, cyclisme, moyen de transport

– Paraphrase…

Page 23: Séminaire Ist inria 2014 : Pascale Sébillot

2304/10/2014

et apprentissage

Spécificités des données textuelles• Volumes, variété, propriétés intrinsèques des données

textuelles– Impossibilité de faire des analyses linguistiques fines

• Rapidement

• Sur des textes dégradés

• Variété : domaine ouvert– Ambiguïtés multipliées

– Sources de connaissance non utilisables

• Changement de paradigme du TAL

Rationalisme Empirisme

« TAL fondé linguistique » « TAL fondé statistique »

Comprendre finement Avoir des représentations desens utiles

Page 24: Séminaire Ist inria 2014 : Pascale Sébillot

2404/10/2014

2- Représentations et exploitation des données textuelles

• Représentation du sens « rationaliste »– Vision syntaxico-logique

• Logique comme langage de représentation de connaissance et de raisonnement

• Interprétation compositionnelle du langage dirigée par la syntaxe sous forme de formules logiques

– Vision Intelligence artificielle• Modèle du monde (ou domaine) générique

• Interprétation d’un énoncé ou discours : instanciation du modèle

• Ex. : scripts (Schank)…

Page 25: Séminaire Ist inria 2014 : Pascale Sébillot

2504/10/2014

2- Représentations et exploitation des données textuelles

• Représentation du sens « empirique »– Sens « utile » et non « vrai » sens

• On ne cherche pas à comprendre le langage

• Sens d’un mot – Dépendant de / exprimable par son co-texte– Co-textes comparables pour détecter les mots du même

paradigme• Sens d’un document

– Des mots extraits du texte qui, ensemble, représentent « son » sens

• Changement de thème– Changement global de vocabulaire

Page 26: Séminaire Ist inria 2014 : Pascale Sébillot

2604/10/2014

Changement de paradigme

• Expertise Données– Extraction de la connaissance des données par

apprentissage artificiel (observation de régularités et redondances)

• Sens Éléments de représentation extraits des mots, des phrases, des documents utiles pour l’application visée

– Exemples : noms et verbes les plus fréquents, noms de personnes, de lieux et d’entreprises mentionnés…

• À tous les niveaux : document, paragraphe, phrase…

Page 27: Séminaire Ist inria 2014 : Pascale Sébillot

2704/10/2014

Éléments de représentation

• N-grammes de caractères, de mots• Mots : tous ou filtrés

– Type précis : noms, verbes, termes complexes, entités nommées (EN : noms de personnes, lieux…)…

– Saillance• Comptage

– Fréquence

– Fréquence dans l’unité considérée mais pas dans la collection

– Autres

• Position– Mot / phrase du début

– Éléments situés entre deux items, avant, après…

Page 28: Séminaire Ist inria 2014 : Pascale Sébillot

2804/10/2014

Représentation

Taille de la collection

Nb documents contenant le mot

Page 29: Séminaire Ist inria 2014 : Pascale Sébillot

2904/10/2014

Représentation

• Exploitation– Par comparaison des représentations via des

mesures de similarité• Fondées intersection des représentations• Cosinus

– Par des méthodes d’apprentissage artificiel

Page 30: Séminaire Ist inria 2014 : Pascale Sébillot

3004/10/2014

Des outils pour manipuler et représenter

• Segmenteurs– Pas toujours simple : l’opéra / aujourd’hui ou O’hara, Jean-Paul /

qu’a-t-il dit ?

• Étiqueteurs morphosyntaxiques (PoS taggers)– LeDetMasSing présidentNomCommunMasSing…

• Lemmatiseurs / analyseurs morphologiques / raciniseurs (stemmers)

– parlons, parlera, parlèrent � parler

• Extracteurs de termes simples ou complexes, d’entités nommées, de relations sémantiques

• Analyseur en dépendances, en chunks…

• Autres outils liés à l’application visée (d’extraction de n-grammes au lieu de mots…)

Page 31: Séminaire Ist inria 2014 : Pascale Sébillot

3104/10/2014

Apprentissage artificiel

• Branche de l’IA qui étudie l’écriture de programmes qui s’améliorent en se confrontant aux données

• Apprentissage supervisé– Données étiquetées disponibles

• Apprentissage non supervisé– Pas de données étiquetées

– Exemple de technique : clustering

• Apprentissage de quoi ?– De représentations (ex. : probabilités de n-grammes de mots)

– D’outils

– De clusters

– De connaissances par observation de régularités dans les masses de données…

Page 32: Séminaire Ist inria 2014 : Pascale Sébillot

3204/10/2014

Le chercheur en TAL à l’heure du Big Data

• Transformation en scientifique des données (data scientist)

– Quelles représentations (à grain souvent grossier) ?

– Quelles techniques d’apprentissage artificiel ?

– Quelles mesures de similarité ?

– Quelles méthodes de visualisation ?

Page 33: Séminaire Ist inria 2014 : Pascale Sébillot

3304/10/2014

3- Applications pour faire face aux masses de données

Page 34: Séminaire Ist inria 2014 : Pascale Sébillot

3404/10/2014

3- Applications pour faire face aux masses de données

• De très nombreuses applications pour aider l’humain face au déluge de données

• Applications s’appuyant sur les représentations vues et des méthodes d’apprentissage artificiel

• Zoom sur trois d’entre elles– Résumé automatique (d’un ou plusieurs textes)

– Structuration et navigation

– Fouille d’opinions

Page 35: Séminaire Ist inria 2014 : Pascale Sébillot

3504/10/2014

3.1- Résumé automatique

• Intérêt : savoir si texte à lire in extenso• Domaine ancien du TAL

– Début dans les années 50

– Fort essor au milieu des années 90

• Notion de « bon » résumé ?– Réalités diverses

• Idées-clés

• Couverture maximale

• « Bande-annonce »

– Contrainte de taille

Page 36: Séminaire Ist inria 2014 : Pascale Sébillot

3604/10/2014

Typologie(s)

• Un ou des document(s)• Point de départ : document(s) ou requête• Résumé par abstraction ou par extraction

– Si extraction, des phrases ou des mots-clés

– Si extraction de phrases, curation a posteriori• Remplacement des mots répétés, des pronoms

• Fusion de phrases, parties inutiles ôtées

Page 37: Séminaire Ist inria 2014 : Pascale Sébillot

3704/10/2014

Typologie(s)

• Un ou des document(s)• Point de départ : document(s) ou requête• Résumé par abstraction ou par extraction

– Si extraction, des phrases ou des mots-clés

– Si extraction de phrases, curation a posteriori• Remplacement des mots répétés, des pronoms

• Fusion de phrases, parties inutiles ôtées

• Méthodologie globale– Ancrage linguistique fort

– Apprentissage artificiel

– Représentations fondées recherche d’information (RI)

Page 38: Séminaire Ist inria 2014 : Pascale Sébillot

3804/10/2014

Résumé par extraction

• Saillance– Score pour chaque phrase / passage

– Indicateurs combinés• Score des mots : tf, tf*idf (somme)

• Présence de mots-clés, d’entités nommées, de marqueurs du discours…

• Longueur

• Position par rapport au texte, à son paragraphe…

– Pondération entre les indicateurs pouvant être fixée ou apprise

Page 39: Séminaire Ist inria 2014 : Pascale Sébillot

3904/10/2014

Résumé par extraction

• Redondance– Saillance seule insuffisante

– Non redondance par rapport aux phrases déjà dans le résumé

– MMR (maximal marginal relevance [Goldstein et Carbonell 98])• Score combinaison linéaire de saillance et non redondance

• MMR ≈ Argmax(Pi∈R−S) [λ(Sim1(Pi,Q)) − (1− λ)max(Dj∈S) Sim2(Pi,Dj)]– Q : document à résumer / requête utilisateur ; P : phrases

– R : liste ordonnée des phrases ; S : sous-ensemble des phrases de R déjà dans le résumé

– Sim : mesure de similarité (cosinus)

– Cas multi-documents : clustering des phrases similaires et extraction d’une phrase par cluster

Page 40: Séminaire Ist inria 2014 : Pascale Sébillot

4004/10/2014

Extraction fondée centroïde

• Score d’une phrase : fonction de sa centralité par rapport au thème des(du) documents à résumer

• Document centroïde– Pseudo-document qui contient les mots ayant un score

(tf*idf) supérieur à un seuil

– Cas multi-documents : un centroïde par cluster

• Score d’une phrase fonction de– Sa similarité avec le centroïde (de son cluster dans le

cas multi-documents)

– Sa non redondance par rapport aux phrases retenues

• Logiciel Mead : http://www.summarization.com/mead/

Page 41: Séminaire Ist inria 2014 : Pascale Sébillot

4104/10/2014

Extraction fondée graphe

• Score d’une phrase : fonction globalement du score des phrases avec lesquelles elle partage le plus de mots

• Proche de PageRank (Google)– Une phrase recommande d’autres phrases

• Algorithme TextRank [Mihalcea 2004]

– Chaque phrase : un nœud du graphe

– Arc entre deux nœuds : pondération selon le nombre de mots partagés (et longueur des phrases)

– Poids initial assigné aux nœuds

– Itération de l’algorithme recalculant le score du nœud en fonction du score des nœuds liés et du poids des arcs

– Conservation des phrases aux scores les plus élevés

• Intérêt : fonctionne sur l’information issue de tout le graphe

Page 42: Séminaire Ist inria 2014 : Pascale Sébillot

4204/10/2014

Extraction fondée contraintes ou optimisation

• Choix des phrases qui maximisent une fonction objectif

• Donc pas un algorithme glouton, mais vue globale du choix des phrases (et de la redondance)

• Expression de contraintes et de la fonction à maximiser

– Contraintes : taille, phrases plutôt longues…

• Utilisation d’un solveur de contraintes

Page 43: Séminaire Ist inria 2014 : Pascale Sébillot

4304/10/2014

Extraction fondée contraintes ou optimisation

• Un exemple : [Gillick et Favre 2009]

• Fonction à optimiser– Somme des poids des concepts présents dans le résumé

– Concept : bigramme informatif

– Poids d’un concept : nombre de documents où il apparaît

• Contraintes– Somme des longueurs des phrases conservées inférieure à la

longueur maximum

– Non sélection de phrases sans concept

– Sélection d’une phrase : sélectionner tous ses concepts

– Sélection d’un concept possible si présent dans au moins une phrase gardée

Page 44: Séminaire Ist inria 2014 : Pascale Sébillot

4404/10/2014

Évaluation

• Problème épineux, accord faible entre humains• De nombreuses campagnes d’évaluation

– Conférences DUC puis TAC

• Des mesures proposées– Résumés de référence produits par des humains

– Mesures fondées sur la présence d’« unités », pas de phrases

• ROUGE [Lin 2004]

– Proportion de n-grammes partagés entre le résumé produit et les références

– Plusieurs variantes

Page 45: Séminaire Ist inria 2014 : Pascale Sébillot

4504/10/2014

Résumé de l’oral transcrit

• Moins de travaux– Résumés de réunions, d’émissions TV

• Application de méthodes de TAL• Adaptations pour l’oral

– Reponctuation

– Utilisation des mesures de confiance

– Utilisation de l’information acoustique

• Cas des résumés de vidéos– Travail a posteriori nécessaire pour avoir des résumés

acceptables (i.e., écoutables et regardables)

Page 46: Séminaire Ist inria 2014 : Pascale Sébillot

4604/10/2014

Résumé automatique

• Bilan– Méthodologies fonctionnelles

– Qualité / cohésion textuelle encore moyenne

– Aspect temporel peu pris en compte

– Résumé de données textuelles autres qu’écrites encore limité

– Évaluation encore à améliorer

Page 47: Séminaire Ist inria 2014 : Pascale Sébillot

4704/10/2014

3.2- Structuration et navigation

• Données textuelles– Très nombreuses

– Non organisées (« vrac »)

– Souvent vues individuellement, peu au sein d’un ensemble

• Organisation pour perception ou navigation éclairée• Regroupement / établissement de liens selon une

notion de proximité, surtout sémantique• Différentes solutions, sur des textes écrits et de

l’oral transcrit

Page 48: Séminaire Ist inria 2014 : Pascale Sébillot

4804/10/2014

Organisation a posteriori d’une requête

• Recherche d’information (RI)– Mise en évidence des termes de la question dans les documents

retournés [Hearst 1995]

une ligne par mots de la question

une colonne par segment du texte

Page 49: Séminaire Ist inria 2014 : Pascale Sébillot

4904/10/2014

Organisation a posteriori d’une requête

• Recherche d’information (RI)– Mise en évidence des termes de la question dans les documents

retournés [Hearst 1995]

– Clustering des résultats (par thèmes, entités nommées…)

Page 50: Séminaire Ist inria 2014 : Pascale Sébillot

5004/10/2014

Organisation a posteriori d’une requête

Page 51: Séminaire Ist inria 2014 : Pascale Sébillot

5104/10/2014

Organisation a posteriori d’une requête

• Également une version par apprentissage à partir de chronologies manuelles (boosting)

– Apprentissage des caractéristiques d’une date saillante

– Traits liés au fait que plus une date est mentionnée plus elle est importante

– Traits liés au fait qu’un événement important est mentionné longtemps

• Dans les différents cas, constitution de la chronologie à partir des phrases contenant les dates saillantes

Page 52: Séminaire Ist inria 2014 : Pascale Sébillot

5204/10/2014

Le président égyptien Hosni Mubarak, qui a démissionné vendredi, et le président Zine El Abidine Ben Ali, qui a quitté le pouvoir le 14 janvier , ont fait face à des protestations populaires sans précédent.

Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe

Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.

Des manifestants ont également blessés vendredi , y compris Chawki Belhoussine El Hadri

Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.

La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police.

RequêtePlusieurs milliers de documents

INDEX Requête : révolution tunisienne

Transparents empruntés à X. Tannier

Page 53: Séminaire Ist inria 2014 : Pascale Sébillot

5304/10/2014

La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police.

Des manifestants ont également blessés vendredi , y compris ChawkiBelhoussine El Hadri

Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.

Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe

Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi .

14 jan. 2011

Regroupés par dates normalisées

Ordonnés selon l’importance de la date

Clusters temporels

plus important

24 déc. 2010 13 jan. 2011

INDEX

Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants

Requête

Plusieurs milliers de documents

Requête : révolution tunisienne

Page 54: Séminaire Ist inria 2014 : Pascale Sébillot

5404/10/2014

La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police.

Des manifestants ont également blessés vendredi , y compris ChawkiBelhoussine El Hadri

Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.

Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe

Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi .

14 jan. 2011

Regroupés par dates normalisées

Ordonnés selon l’importance de la date

Clusters temporels

plus important

24 déc. 2010 13 jan. 2011

INDEX

Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants

Requête

Plusieurs milliers de documents

Choix des descriptions d’événements

Maximiser la pertinence

Minimiser la redondance

Requête : révolution tunisienne

Page 55: Séminaire Ist inria 2014 : Pascale Sébillot

5504/10/2014

17 déc. 2010 : Mohamed Bouazizi s’immole par le feu pour protester contre le harcèlement de la police et le chômage.

25 déc. 2010 : Les protestations démarrent à Sidi Bouzid et s’étendent à Bouzaiene, Kairouan, Sfax, Ben Guerdane, Sousse.

27 déc. 2010 : Les protestations s’étendent à Tunis, la capitale du pays.

14 jan. 2011 : Le président Ben Ali s’enfuit en Arabie Saoudite.

Requête : révolution tunisienne

• Chronologie événementielle obtenue

Page 56: Séminaire Ist inria 2014 : Pascale Sébillot

5604/10/2014

Autre réponse de la recherche d’information

• Les systèmes questions-réponses [Hirschman et Gaizauskas 2001]

– Réponse précise à une question au lieu de documents contenant les termes de la question

Page 57: Séminaire Ist inria 2014 : Pascale Sébillot

5704/10/2014

Liens entre documents fondés contenu

• Création de liens initiée par la communauté hypertexte [Allan 1997]

– Souvent sur des documents à structure assez marquée (emails, articles de Wikipédia)

– Souvent sur de petites collections (a posteriori d’une requête par exemple)

Page 58: Séminaire Ist inria 2014 : Pascale Sébillot

5804/10/2014

Systèmes de recommandation

• Souvent mélange de filtrages fondé contenu et collaboratif

• Filtrage collaboratif– Calcul de corrélation entre les avis

des autres utilisateurs et celui visé

Prédiction pour un item : par exemple calculable par la moyenne pondérée (par le coefficient de corrélation) des évaluations pour cet item des utilisateurs similaires

• Filtrage fondé contenu Élaboration d’un profil de l’utilisateur grâce aux mots-clés

émergeant des items qu’il apprécie

Comparaison au contenu d’un item non évalué pour le recommander ou pas à l’utilisateur

Page 59: Séminaire Ist inria 2014 : Pascale Sébillot

5904/10/2014

Graphes temporels d’événements [Tannier 2014]

• Dépêches AFP contenant des événements• Organisation temporelle fondée sur trois relations

– Même événement

– Continuation (conséquence, suite naturelle)• Réaction (opinion sur un événement)

• Annotation manuelle des dépêches entre dates d et d+7 si 2 mots-clés communs dans 1er paragraphe

• Apprentissage (svm)

– Relation vs pas de relation

– Même événement vs continuation

– Continuation vs réaction

Page 60: Séminaire Ist inria 2014 : Pascale Sébillot

6004/10/2014

2 avril, 21:05

Georges Bush déclare que le Pape était un « champion de la liberté humaine »

Graphes temporels d’événements [Tannier 2014]

2 avril, 01:51

Un cardinal dit que la mort du Pape est imminente

2 avril, 15:39

Le Pape dans une situation sérieuse mais « résiste » 2 avril, 20:58

La Reine Elisabeth II exprime son « profond regret »

2 avril, 21:40

Jean-Paul II sera enterré mercredi au Vatican

continuation

continuation

2 avril, 19:53

Le Pape est mort2 avril, 19:57

Le Pape est mort au Vatican2 avril, 20:01

Le Pape est mort au Vatican

réaction

réaction

continuation

Transparent empruntés à X. Tannier

Page 61: Séminaire Ist inria 2014 : Pascale Sébillot

6104/10/2014

Structuration et navigation dans une collection de journaux TV

• Segmentation automatique de journaux TV en reportages successifs [Gravier et al. 2011]

• Navigation– Vers d’autres reportages abordant le même sujet

– Vers des pages Web offrant de l’information complémentaire

• Application de techniques de TAL et de RI, mêlant grain « grossier » et grain plus fin, sur la parole transcrite

Page 62: Séminaire Ist inria 2014 : Pascale Sébillot

6204/10/2014

Segmentation thématique

• La plupart des techniques fondée sur la cohésion lexicale

– Changement de thème = changement de vocabulaire

• Méthodes locales– Recherche de ruptures par comparaison de zones

adjacentes et détection de minima de similarité [Hearst 1997]

• Méthodes globales– Production « directe » des segments les plus

cohérents [Utiyama et Isahara 2001]

• Possibilité d’adaptation aux transcriptions de la parole ?

Page 63: Séminaire Ist inria 2014 : Pascale Sébillot

6304/10/2014

Adaptation aux transcriptions

• Particularités problématiques– Erreurs de transcription

– Manque de répétitions

• Modification du calcul de la cohésion lexicale– Prise en compte des mesures de confiance, en particulier lors du

comptage des occurrences de mots

– Prise en compte des relations sémantiques entre les mots

cigarette cigare 0.476838

cigarette gitane 0.378044

cigarette gauloise 0.37508

cigarette clope 0.366334

cigarette tabac 0.304606

mots partageant des contextes similaires

Page 64: Séminaire Ist inria 2014 : Pascale Sébillot

6404/10/2014

Résultats de la segmentation

• Corpus– 57 JT de France 2 – février et mars 2007

• Système de reconnaissance de la parole– WER : 20% sur données Ester 2 (actualités radio)

• Évaluation– Changement de thème à chaque reportage (1180

frontières)– Frontière correcte : < 10s par rapport à une frontière de

référence– Rappel, précision

Page 65: Séminaire Ist inria 2014 : Pascale Sébillot

6504/10/2014

Résultats de la segmentation

• Mesures de confiance et relations sémantiques

Page 66: Séminaire Ist inria 2014 : Pascale Sébillot

6604/10/2014

Caractérisation des segments obtenus

• Caractérisation par mots-clés extraits• Deux rôles

– Permettre de comparer des reportages entre eux

– Permettre d’interroger le Web pour trouver des pages liées

• Mais aussi, forme de résumé informatif du contenu• Modifications du tf*idf car oral transcrit

– Lemmatisation

– Pénalité introduite pour les noms propres

– Prise en compte des mesures de confiance

Page 67: Séminaire Ist inria 2014 : Pascale Sébillot

6704/10/2014

• Tf*idf classique sur les lemmes1.000 voile0.756 adda0.521 bernadette0.501 laïcité0.483 musulmans, musulmane0.449 photo, photos0.429 sarkozy0.387 chirac0.372 préfecture0.364 serge

du tchador et de la corne est au nomdu principe de la laïcité de l' état on l' aquelques jours nicolas sarkozyrappeler fermement aux musulmansqui n' était pas question de porter levoile en photo des entités un rappel àl' ordre qui visiblement a échappé àbernadette chirac encore le journal lecanard enchaîné l' épouse duprésident de la république sedémènent pour qu' une religieusepuisqu' elle garder son voile est uneétrange mal le voile de serge addaalberta ...

S(l) = tf(l) x idf(l)

Extraction de mots-clés

Page 68: Séminaire Ist inria 2014 : Pascale Sébillot

6804/10/2014

Extraction de mots-clés

• + Pénalités sur les noms propres- 1.000 voile- 0.567 adda↑ 0.501 laïcité↑ 0.483 musulmans, musulmane↑ 0.449 photo, photos↓ 0.391 bernadette↑ 0.372 préfecture↑ 0.330 mimosa↑ 0.329 tchador↑ 0.326 carmélites

↓ 0.322 sarkozy↓ 0.290 chirac↓ 0.273 serge

du tchador et de la corne est au nomdu principe de la laïcité de l' état on l'a quelques jours nicolas sarkozyrappeler fermement aux musulmansqui n' était pas question de porter levoile en photo des entités un rappelà l' ordre qui visiblement a échappé àbernadette chirac encore le journal lecanard enchaîné l' épouse duprésident la publique se démènentpour qu' une religieuse puisqu' ellegarder son voile est une étrange malle voile de serge adda alberta ...

S’(l)= tf’(l) x idf(l)

Page 69: Séminaire Ist inria 2014 : Pascale Sébillot

6904/10/2014

• + Prise en compte des mesures de confiance

↓ 0.294 serge↓ 0.270 chirac

- 0.992 voile↑ 0.500 laïcité↑ 0.458 musulmans, musulmane↓ 0.454 adda↑ 0.428 photo, photos↓ 0.390 bernadette↑ 0.371 préfecture↑ 0.328 tchador↑ 0.325 carmélites↓ 0.321 sarkozy

du tchador et de la corne est au nomdu principe de la laïcité de l' état on l' aquelques jours nicolas sarkozyrappeler fermement aux musulmansqui n' était pas question de porter levoile en photo des entités un rappel àl' ordre qui visiblement a échappé àbernadette chirac encore le journal lecanard enchaîné l' épouse du présidentde la république se démènent pour qu'une religieuse puisqu' elle garder sonvoile est une étrange mal le voile deserge adda alberta ...

Extraction de mots-clés

Page 70: Séminaire Ist inria 2014 : Pascale Sébillot

7004/10/2014

Récupération de pages Web liées à l’aide de requêtes

• Conservation des premiers mots-clés• Requêtes formées par mélange de 2 ou 3 mots-

clés voile laïcité

voile musulmans

musulmans adda photo

laïcité adda photo

voile laïcité photo

voile adda

... Limite l’influence des erreurs de transcription

Page 71: Séminaire Ist inria 2014 : Pascale Sébillot

7104/10/2014

Texmix

• Application : système de navigation au sein d’une collection de journaux TV

• Utilisation de techniques issues de différents travaux de recherche dans l’équipe TexMex

• Démonstration : Texmix

Page 72: Séminaire Ist inria 2014 : Pascale Sébillot

7204/10/2014

Texmix

Page 73: Séminaire Ist inria 2014 : Pascale Sébillot

7304/10/2014

Texmix

Page 74: Séminaire Ist inria 2014 : Pascale Sébillot

7404/10/2014

3.3- Fouille d’opinions

• Analyse de données exprimant des opinions : réseaux sociaux, blogs, fora, commentaires sur des sites de commerce électronique …

• Enjeux– Individuels : achat d’un matériel, réservation de séjour…

– Économiques : perception d’un produit (propre ou concurrent) par des utilisateurs, avis synthétique sur un sujet…

– Politiques : perception d’une réforme, de sujets de mécontentement…

Page 75: Séminaire Ist inria 2014 : Pascale Sébillot

7504/10/2014

Un travail compliqué• Samedi dernier, j’ai acheté un mobile Nokia et ma copine a acheté un

Samsung avec Bluetooth. On s’est appelés quand on est rentrés. Lavoix sur mon téléphone n’était pas si claire, pire en tous cas que surmon Motorola précédent. La batterie ne dure pas longtemps non plus.Ma copine était plutôt satisfaite de son téléphone. Moi, je voulais untéléphone avec un bon son. Donc j’étais déçu de mon achat. J’ai ramenéle téléphone hier. (exemple de [Liu 2012] traduit)

• Nombreux aspects du TAL impliqués– Dont certains aspects de compréhension assez fins

• Coréférence, analyse syntaxique, analyse sémantique voire pragmatique (claire >0 ou <0 ?)…

• Données à analyser très diverses– En qualité

– En contenu : avis global sur une entité, avis sur différents aspects d’une entité, avis sur plusieurs entités, zones factuelles et zones subjectives, avis se répondant…

Page 76: Séminaire Ist inria 2014 : Pascale Sébillot

7604/10/2014

4 tâches essentielles

• Extraction d’opinions– Identifications des textes porteurs d’opinions

– Localisation des passages/phrases… porteurs d’opinions

• Classification d’opinions– Attribution d’une polarité à l’opinion émise : positive, négative et

parfois neutre

– Proximité avec la classification de textes mais mots polarisés importants

• Constitution de ressources d’opinion– Lexiques de mots ou d’expressions polarisés

• Résumé d’opinions

Page 77: Séminaire Ist inria 2014 : Pascale Sébillot

7704/10/2014

Approches supervisées de classification de documents et phrases

• De très nombreux travaux aux deux niveaux

• Bons résultats avec des classifieurs de type SVM et NB (Bayésien naïf)

• De très nombreux traits utilisés– Mots, éventuellement pondérés

– Étiquettes catégorielles (adjectifs importants, ponctuation…)

– Mots porteurs d’opinion

– N-grammes de mots, d’étiquettes (ex. : N+Adjpos)

– Présence de mots « changeurs » de polarité (négation, mais…)…

Page 78: Séminaire Ist inria 2014 : Pascale Sébillot

7804/10/2014

Approches non supervisées de classification de documents et phrases

• Également de nombreux travaux aux deux niveaux

• Utilisation de ressources d’opinion– Lexiques

– Règles plus ou moins ad hoc

• Un exemple au niveau document [Turney 2002]

– Étiquetage catégoriel de commentaires sur des voitures, films…

– Extraction de bigrammes répondant à des patterns (d’expression d’opinion)

• Adj-Nom commun, Adv-Adj si 3e mot pas nom commun…

– Moteur de recherche (AltaVista) pour calculer des scores d’affinité de ces bigrammes avec « excellent » et avec « poor »

– Moyenne, pour tous les patterns contenus, des différences d’affinité avec excellent et poor : >0 et <0

Page 79: Séminaire Ist inria 2014 : Pascale Sébillot

7904/10/2014

Constitution de ressources• Lexiques de mots / d’expressions : petit, coûte un bras• Développement manuel : coûteux• Des mots amorces (ou un lexique amorce) +…

– Approche fondée dictionnaire• Extension par exemple grâce aux synonymes / antonymes du

dictionnaire

• Exemple : SentiWordNet [Esuli et Sebastiani 2006]

– Extension par WordNet + classifieur appris grâce aux vecteurs de mots formés à partir des gloses du lexique

• Développement rapide, mais polarité des mots dépendant du contexte et du domaine…

– Petit : le téléphone est petit (+) / l’écran LCD est petit (-)

– Long : la durée de vie de la batterie est longue (+) / le temps de mise au point est long (-)

Page 80: Séminaire Ist inria 2014 : Pascale Sébillot

8004/10/2014

Constitution de ressources

• Des mots amorces (ou un lexique amorce) +…– Approche fondée corpus

• Par exemple par extension via des constructions syntaxiques au sein d’une phrase du corpus, voire au-delà : présence de ET, OU, MAIS, négation…

– Cette voiture est puissante (+) et spacieuse : spacieuse annoté comme positif

– Cette voiture est puissante (+). Toutefois elle est chère dans sa gamme : chère annoté comme négatif

Page 81: Séminaire Ist inria 2014 : Pascale Sébillot

8104/10/2014

Du gros grain au grain fin

• Avec l'EOS 100D, Canon a miniaturisé son 650D en conservant sesprincipales qualités (simplicité d'utilisation, capteur et électroniqueefficaces, écran excellent). La réactivité et la transportabilité ont aussi étéaméliorées mais le zoom du kit vient gâcher tous les efforts :disproportionné en volume, bourré d'aberrations optiques et surtout trèsimprécis, il ne faudra pas hésiter à… (extrait adapté du site lesnumeriques.com)

• Avis global positif mais certains aspects très négatifs

• Donc avis aspect par aspect nécessaire

• Classification de documents de phrases d’aspects

• Détermination de quel avis porte sur quoi : analyse à grain fin

• Vision de l’opinion de Liu [Liu 2012]

– (entité cible, aspect de l’entité, opinion, source, date)

– Structuration du non-structuré

Page 82: Séminaire Ist inria 2014 : Pascale Sébillot

8204/10/2014

Résumé d’opinions

• Nombreuses opinions émises sur une entité ou ses parties besoin de synthèse

• Synthèse textuelle– Forme particulière de résumé multi-documents

– Techniques par extraction de phrases utilisables dans une certaine mesure si traits d’opinion (présence de mots polarisés) pris en compte

– Mais nécessité de prendre en compte le côté quantitatif et/voire les aspects de l’entité évalués

– Structure : 1ere phrase = opinion sur l’entité, puis une phrase par aspect… en intégrant des nombres si multiples avis

Page 83: Séminaire Ist inria 2014 : Pascale Sébillot

8304/10/2014

Résumé d’opinions

• Synthèse textuelle : exemple extrait des transparents associés à [Liu 2012]

Page 84: Séminaire Ist inria 2014 : Pascale Sébillot

8404/10/2014

Résumé d’opinions

• Synthèse graphique exemple extrait des transparents associés à [Liu 2012]

– Synthèse souvent préférée ; formes multiples

– Si temps connu, évolution affichable

Page 85: Séminaire Ist inria 2014 : Pascale Sébillot

8504/10/2014

Résumé d’opinions

Extrait de Booking.com

Page 86: Séminaire Ist inria 2014 : Pascale Sébillot

8604/10/2014

Résumé d’opinions

• Agrégation d’opinions OpinionEQexemple extrait des transparents associés à [Liu 2012]

Page 87: Séminaire Ist inria 2014 : Pascale Sébillot

8704/10/2014

Encore du travail…

• De nouvelles recherches– Faux commentaires

• Commentaires positifs sur ses propres produits, négatifs sur les produits concurrents

• Recherche sur les contenus difficile ; plutôt patterns de comportement – Que des commentaires positifs sur une marque, négatifs sur une autre

– Notes très élevées, le même jour…

– Contextualisation des opinions (fil de tweets)

• Encore beaucoup de choses non/mal traitées– Recherches bridées par toutes les particularités du langage

naturel• Sarcasme, ironie

• Aspects parfois implicites : le téléphone est cher, ne rentre pas facilement dans une poche

• …

Page 88: Séminaire Ist inria 2014 : Pascale Sébillot

8804/10/2014

4- Applications tirant profit de la profusion de données

Page 89: Séminaire Ist inria 2014 : Pascale Sébillot

8904/10/2014

4- Applications tirant profit de la profusion de données

• Profusion et redondance– Masses de données comme une solution et non

comme un problème

– Constitution d’informations plus complètes, plus certaines

• Applications s’appuyant sur les représentationsvues et des méthodes d’apprentissage artificiel

• Zoom sur trois d’entre elles– Traduction automatique

– Journalisme de données

– Fact-checking (vérification par les faits)

Page 90: Séminaire Ist inria 2014 : Pascale Sébillot

9004/10/2014

4.1- Traduction automatique

Page 91: Séminaire Ist inria 2014 : Pascale Sébillot

9104/10/2014

Une histoire ancienne

• 1954 : 1re démonstration publique d’un traducteur Russe / Anglais IBM - université de Georgetown

– 250 mots, 6 règles de grammaire, 49 phrases

• Grand enthousiasme dans les années 50 et 60, mais…– 1960 : Bar-Hillel (auteur de la 1re conférence sur la T.A. en 52)

• L’obtention de traductions automatiques d’aussi haut niveau que les humaines est irréaliste

– 1966 : rapport ALPAC (automatic language processing advisory committee)

• La traduction automatique est plus lente, moins pertinente et 2 fois plus chère que l’humaine

• Recommandation de développement de l’aide à la traduction humaine

Page 92: Séminaire Ist inria 2014 : Pascale Sébillot

9204/10/2014

Jusqu’à la fin des années 80

• Trois approches fondées sur des règles (lexicales, d’analyse morphologique, syntaxique…)

– Directe : traduction d’une langue source en une cible à l’aide d’un dictionnaire et de règles

– Interlangue : utilisation d’une représentation intermédiaire abstraite

– Par transfert : analyse de la source, production d’une représentation, transfert vers une représentation-cible et génération en langue cible

• Exemples de règles– to grow : grandir mais faire pousser si complément plante…

– Adjectif + Nom Nom + Adjectif

Page 93: Séminaire Ist inria 2014 : Pascale Sébillot

9304/10/2014

Début des années 90

• Développement d’Internet• Besoins nouveaux

– Traduction pour tous

– Production rapide de traductions compréhensibles

– Différentes langues, différents domaines

• Volumes aussi solution• Développement de la traduction fondée corpora ou

données– Traduction automatique statistique (TAS)

– Traduction fondée exemples

Page 94: Séminaire Ist inria 2014 : Pascale Sébillot

9404/10/2014

Traduction automatique statistique [Brown et al. 1990]

• f : phrase en langue source (Français) ; e phrase en langue cible (English)

• Traduction de f en e = recherche de e* qui maximise P(e|f)

• Décomposition en 2 problèmes

– e* = argmax P(e|f) = argmax P(f|e) P(e)e e

– Développer un modèle de traduction garantissant que P(f|e) est élevé pour toute phrase cible appariée à f

– Développer un modèle de la langue cible associant des valeurs P(e) élevées aux phrases grammaticales

règle de Bayes

Estimation des probabilités de n-grammes sur un corpus monolingue

Estimation sur un corpus bilingue parallèle aligné au niveau phrase

Page 95: Séminaire Ist inria 2014 : Pascale Sébillot

9504/10/2014

Corpus multilingues parallèles

• Hansard : débats parlementaires canadiens en Français et Anglais (environ 20 millions de mots par langue)

• Europarl : débats parlementaires européens en 21 langues (environ 60 millions de mots par langue)

• Mais aussi textes techniques, cours, classiques de la littérature…

Monsieur le Président, je voudrais porter à l’attention de la Chambre que nous célébrons aujourd’hui, comme le savent les honorables députés, l’anniversaire de la proclamation de la Charte canadienne des droits et libertés [...]

Mr Speaker, I would like to bring to the attention of the House that today, as Hon. Members are no doubt aware, we are celebrating the anniversary of the proclamation of the Canadian Charter of Rights and Freedoms [...]

Alignement au niveau phrase (ex. extrait du Hansard)

Page 96: Séminaire Ist inria 2014 : Pascale Sébillot

9604/10/2014

Modèles de traduction

• Rappel rôles des modèles de traduction et de langue– Modèle de traduction : guider la construction pour une phrase source

d’un ensemble d’hypothèses de phrases en langue cible

– Modèle de langue : permettre le choix final en favorisant les phrases grammaticales

• Pour chaque unité de traduction en langue source : des traductions possibles en langue cible + scores

• 1ers modèles de traduction = modèles d’alignements de mots– IBM, Brown et al. 1990 : 5 modèles successivement proposés

• IBM1 : hypothèse que toutes les valeurs d’alignement sont équiprobables

• IBM2 : introduction d’une dépendance entre l’alignement du moti et sa position dans la phrase source

• IBM3 : introduction de la notion de fertilité (un mot source peut être traduit par 0 à n mots)

• …

Page 97: Séminaire Ist inria 2014 : Pascale Sébillot

9704/10/2014

Modèles de traduction initiaux

• Table de transfert (lexique bilingue probabilisé)

le (the 0.38) (of 0.15)…

ministre (minister 0.7) (the 0.2) (prime 0.15)…

années (year 0.4) (years 0.3) (some 0.1)…

Page 98: Séminaire Ist inria 2014 : Pascale Sébillot

9804/10/2014

Modèles de traduction = modèles d’alignements de segments

• Début des années 2000 [Zens, Och, Ney 2002]

• Appui sur les alignements mot-à-mot (dans les deux directions F/E et E/F)

• Intérêt de l’alignement de segments– Levée d’ambiguïtés lexicales

– Prise en compte de nombres de mots différents dans les deux langues

– Modélisation simple de réordonnancements locaux

• Nécessité de modélisation des distorsions (réordonnancements non locaux)

Page 99: Séminaire Ist inria 2014 : Pascale Sébillot

9904/10/2014

Modèles d’alignements de segments

• Table de transfert (ou encore de segments)

• En fait, information en règle générale plus riche que dans l’exemple précédent

a big (le grand 0.1) (un des principaux 0.04) (un grand 0.01) (Une grande 0.015) (ont une grande 0.02)…

Page 100: Séminaire Ist inria 2014 : Pascale Sébillot

10004/10/2014

Traduction automatique statistique

• Traduction– Segmentation de f en segments de longueurs variables

– Pour chaque segment, choix d’un équivalent en langue cible

– Réarrangement des segments cibles pour avoir la traduction e

• Décision du système de TAS fondée sur 3 modèles– Modèle de traduction : évalue la qualité d’un appariement entre f

et e et délivre un coût

– Modèle de distorsion : évalue la plausibilité du réordonnancement induit par cet appariement et délivre un coût

– Modèle de langue : évalue la qualité de la phrase cible formée et délivre un coût

• Meilleure traduction (décodage) = meilleur compromis

Page 101: Séminaire Ist inria 2014 : Pascale Sébillot

10104/10/2014

Exempletransparent emprunté à F. Yvon

Page 102: Séminaire Ist inria 2014 : Pascale Sébillot

10204/10/2014

Ressources [Allauzen et Yvon 2011]

• Outre les corpora monolingues ou parallèles, voire comparables…

• Outils d’alignements– Giza++ http://code.google.com/p/giza-pp/

– Outils de Berkeley http://code.google.com/p/berkeleyaligner/

– Boîte à outils Uplug (manipulation de corpus et alignements) http://sourceforge.net/projects/uplug

• Systèmes de TAS– Moses http://www.statmt.org/moses/

Page 103: Séminaire Ist inria 2014 : Pascale Sébillot

10304/10/2014

Évaluation

• Tâche complexe : fidélité au texte source, compréhensibilité, caractère naturel…

• Évaluation subjective (experts) vs automatique• Plusieurs mesures automatiques

• Exemple : BLEUk (Bilingual evaluation understudy)– Comparaison de l’hypothèse de traduction à une ou

des traductions de référence

– N-grammes de longueur 1 à k partagés ou pas

Page 104: Séminaire Ist inria 2014 : Pascale Sébillot

10404/10/2014

Traduction fondée exemples

• [Nagao 1984] mais essor fin des années 80• Utilisation d’une mémoire de traduction

– Phrases déjà traduites, parfois abstraites pour accroître les possibilités de généralisation

• Deux parties– Identification des fragments de la phrase source

s’appariant avec des exemples

– Recombinaison des éléments traduits pour obtenir une phrase correcte en langue cible

Page 105: Séminaire Ist inria 2014 : Pascale Sébillot

10504/10/2014

Traduction de la parole

• Initialement des travaux portant sur des domaines restreints– Négociations multilingues, réservations téléphoniques de séjour…

• Pas de contraintes de domaines maintenant

• Diverses voies explorées– Traduction a posteriori de la transcription

• Reponctuation, suppression des disfluences…

– Traduction des sorties intermédiaires des systèmes de RAP• Scores des deux systèmes mêlés pour ordonner les hypothèses

– Production de transcriptions que le système de traduction sait traduire

• Modèle de langue du système de transcription biaisé par les groupes de mots du modèle de traduction

Page 106: Séminaire Ist inria 2014 : Pascale Sébillot

10604/10/2014

4.2- Journalisme de données

• Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente

• Principes– Découverte de faits intéressants

– Mise en évidence de tendances cachées

– Compilation d’ensembles de données• Accessibles sur une machine

• Distribuables au public

– Visualisation appropriée

Page 107: Séminaire Ist inria 2014 : Pascale Sébillot

10704/10/2014

4.2- Journalisme de données

• Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente

• Principes– Découverte de faits intéressants

– Mise en évidence de tendances cachées

– Compilation d’ensembles de données• Accessibles sur une machine

• Distribuables au public

– Visualisation appropriée

l’utilisateur doit pouvoir interagir avec les données, les personnaliser

passage d’une histoire complexe à un graphique clair (interactif, personnalisable)

Page 108: Séminaire Ist inria 2014 : Pascale Sébillot

10804/10/2014

Une nouveauté qui vient de loin…

• 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau

image extraite de Wikipédia

Page 109: Séminaire Ist inria 2014 : Pascale Sébillot

10904/10/2014

Une nouveauté qui vient de loin…

• 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau

• 1858 – Florence Nightingale : graphique sur la mortalité dans l’armée britannique montrant que plus de morts étaient dues aux maladies qu’aux balles

image extraite de Wikipédia

Page 110: Séminaire Ist inria 2014 : Pascale Sébillot

11004/10/2014

Une nouveauté qui vient de loin…

• À partir des années 2000 : beaucoup de bases de données disponibles

• 2006 – A. Holotavy : principes de ce que devrait être le journalisme de données [Holotavi 2006]

• 2011 : le guide du datajournalisme (The Data Journalism Handbookhttp://datajournalismhandbook.org/)

• 2012 – M.J. Berens et K. Armstrong (Seattle Times) : prix Pulitzer du journalisme d’investigation pour leur travail sur le lien surmortalité –méthadone dans l’état de Washington

Page 111: Séminaire Ist inria 2014 : Pascale Sébillot

11104/10/2014

Exemple 1 : Gapminder

Page 112: Séminaire Ist inria 2014 : Pascale Sébillot

11204/10/2014

Exemple 2 : émeutes 2011 en Angleterre

• The Guardian− Lien entre

les adresses des accusés et les zones de pauvreté

Page 113: Séminaire Ist inria 2014 : Pascale Sébillot

11304/10/2014

Quelles données ?

• Collectivités, services publics www.data.gouv.fr

Page 114: Séminaire Ist inria 2014 : Pascale Sébillot

11404/10/2014

Quelles données ?

• Collectivités, services publics www.data.gouv.fr

• Web…

• Éventuellement des données plus confidentielles (WikiLeaks)

abondance

croisement

fiabilité

• Beaucoup de bases structurées ; encore très peu de TAL

Page 115: Séminaire Ist inria 2014 : Pascale Sébillot

11504/10/2014

Techniques de RI textuelle• J. Stray et J. Burges 2010• Travail sur les rapports d’enquêtes de l’US Army connus sous

le nom de Iraq War Logs Leak– 390000 rapports d’action sur la guerre de 2004 à 2009

• Focus sur le mois de décembre 2006 (11600 rapports)

• Chaque document – Représenté par un vecteur pondéré de mots (tf*idf)

– Caractérisé par ses 3 mots les plus saillants

– Représenté par un nœud coloré selon le type d’incident décrit (métadonnée)

• Comparaison : cosinus

• Visualisation grâce au logiciel de graphe Gephi https://gephi.github.io/

– Chaque cluster formé caractérisé par ses mots saillants

Page 116: Séminaire Ist inria 2014 : Pascale Sébillot

11604/10/2014

J. Stray et J. Burges 2010

• Caractérisation thématique

Page 117: Séminaire Ist inria 2014 : Pascale Sébillot

11704/10/2014

J. Stray et J. Burges 2010

Événements criminels

Risque d’explosion

Page 118: Séminaire Ist inria 2014 : Pascale Sébillot

11804/10/2014

Plus de TAL et de linguistique

• J. Véronis : analyse linguistique fine de discours politiques

• Focus sur – L’utilisation des pronoms

– Les EN employées

– Les thèmes abordés

• Travail important lors de la campagne présidentielle 2012 : Observatoire des discours

Page 119: Séminaire Ist inria 2014 : Pascale Sébillot

11904/10/2014

Observatoire des discours

Page 120: Séminaire Ist inria 2014 : Pascale Sébillot

12004/10/2014

Vers de l’automatisation grâce au TAL• [Tannier 2014] : identification automatique de relations

d’alliance ou d’opposition entre pays sur un sujet donné

• Corpus : dépêches AFP + Web• Pré-travail

– Création d’un lexique de 110 déclencheurs de relations positives (applaud, agree) ou négatives (criticism…)

• Prétraitement du corpus– Normalisation des dates, segmentation en chunks,

résolution de coréférence, étiquetage en EN

– Utilisation de DBPedia et d’heuristiques pour lier capitales, villes, personnes et pays

Page 121: Séminaire Ist inria 2014 : Pascale Sébillot

12104/10/2014

Vers de l’automatisation grâce au TAL

• Apprentissage d’un classifieur (SVM) classant chaque phrase avec au moins deux EN et un déclencheur

– Relation ou pas de relation

– Relation positive ou négative

Indonesia voiced support for East Timor's bid to join the ASEAN.� POS(Indonesia, East Timor)

China earlier protested Obama's meeting with the Dalai Lama, [...].� NEG(China, USA)

Page 122: Séminaire Ist inria 2014 : Pascale Sébillot

12204/10/2014

Vers de l’automatisation grâce au TAL• Chaque phrase contenant au moins une relation :

contenu, pays impliqués, relation(s) et date indexés• Interrogation via un moteur de recherche

– Sujet (mots-clés)

– Dates minimale et maximale

– Nombre de pays

• Pour chaque paire de pays (e1, e2) à la date d, calcul d’un poids

– Poids(e1, e2, d) = log �����(��,�,�)

�� ��(��,�,�)

• Lissage du poids sur une fenêtre temporelle– Moyenne pondérée sur la fenêtre

Page 123: Séminaire Ist inria 2014 : Pascale Sébillot

12304/10/2014

Requête « Syria » entre « USA » et « Russia »

Série temporelle – 2 pays

Transparent emprunté à X. Tannier

Page 124: Séminaire Ist inria 2014 : Pascale Sébillot

12404/10/2014

Requête « Syria » en « 2012 »

Distances et couleurs marquants les alliances/oppositions

Transparent emprunté à X. Tannier

Page 125: Séminaire Ist inria 2014 : Pascale Sébillot

12504/10/2014

4.3- Fact-checking

• Vérification par les faits• Vérification de la véracité d’affirmations issues de

discours ou de documents– Vrai / faux, omissions, lectures à sens unique…

• Par comparaison avec des sources d’informations fiables

– Tirer profit de la masse d’informations disponible

Page 126: Séminaire Ist inria 2014 : Pascale Sébillot

12604/10/2014

Des exemples

• Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’universitéde Pennsylvanie

• 2007 : site PolitiFact du Tampa Bay Times– Truth-O-Meter

Page 127: Séminaire Ist inria 2014 : Pascale Sébillot

12704/10/2014

Truth-O-Meter

Page 128: Séminaire Ist inria 2014 : Pascale Sébillot

12804/10/2014

Des exemples

• Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’universitéde Pennsylvanie

• 2007 : site PolitiFact du Tampa Bay Times– Truth-O-Meter

– Obameter

• 2007 : site FactChecker du Washington Post

Page 129: Séminaire Ist inria 2014 : Pascale Sébillot

12904/10/2014

FactChecker

Page 130: Séminaire Ist inria 2014 : Pascale Sébillot

13004/10/2014

Des exemples

• Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’universitéde Pennsylvanie

• 2007 : site PolitiFact du Tampa Bay Times– Truth-O-Meter

– Obameter

• 2007 : site FactChecker du Washington Post• En France

– Radio : Le vrai du faux, France-Info (2012)

– TV : Véritomètre sur la campagne présidentielle de 2012, OWNI et i>TELE

Page 131: Séminaire Ist inria 2014 : Pascale Sébillot

13104/10/2014

Véritomètre

Page 132: Séminaire Ist inria 2014 : Pascale Sébillot

13204/10/2014

Techniques de vérification

• Travail essentiellement manuel– Par recoupement de plusieurs bases

• Fiabilité acquise (ou renforcée) grâce à la masse de données

– Parfois par appel au crowd-sourcing

• Un peu d’automatisation : prototype TruthTeller du Washington Post

– Repérage d’affirmations stockées en bases et déjà contrôlées dans un discours transcrit

Page 133: Séminaire Ist inria 2014 : Pascale Sébillot

13304/10/2014

TruthTeller

Page 134: Séminaire Ist inria 2014 : Pascale Sébillot

13404/10/2014

Ce que le TAL peut offrir

• Recherche d’information– Comparaison de contenus

• Systèmes de questions/réponses– Réponses à des questions précises

• Extraction d’informations– Extraction d’un fait, de ses attributs

• Techniques d’apprentissage artificiel– Pour faire émerger des connaissances

Page 135: Séminaire Ist inria 2014 : Pascale Sébillot

13504/10/2014

Ce que le TAL offre actuellement

• Trouver un fait exact parmi des informations contradictoires

– En se fondant sur la fiabilité des sites le citant [Yin et al. 2007]

• Interdépendance fiabilité d’un site – crédibilité d’un fait

• Score d’un fait : dépend du score des sites le mentionnant et est influencé par les scores des faits qui lui sont similaires

• Score d’un site : dépend du score des faits qu’il contient

• Algorithme itératif transitif– Scores des sites initialisés à la même valeur

– Scores des faits calculés

– Scores des sites recalculés

– Itération jusqu’à convergence

Page 136: Séminaire Ist inria 2014 : Pascale Sébillot

13604/10/2014

Ce que le TAL offre actuellement

• Trouver un fait exact parmi des informations contradictoires

– En se fondant sur l’objectivité du langage des sites le citant [Nakashole et Mitchell 2014]

• Langage objectif : neutre, impartial, non personnel, non émotionnel

• Interdépendance objectivité d’une source et sa fiabilité

• Proposition d’un classifieur (apprentissage supervisé) objectif vssubjectif, fondé sur différents traits dont la présence de mots issus de lexique d’opinion

• Score d’un candidat-fait : fonction de l’objectivité des sources qui le citent et du score des faits co-mentionnés avec lui

Page 137: Séminaire Ist inria 2014 : Pascale Sébillot

13704/10/2014

Ce que le TAL offre actuellement• Reconnaître si la source d’un fait croit en la véracité

du fait qu’elle énonce [Saurì et Pustejovsky 2012]

– Granularité assez fine• Polarité du fait : affirmé ou nié

• Modalité épistémique : certain, probable ou possible

– Travail d’expertise linguistique pour définir• Une liste de marqueurs de la polarité et de la modalité :

– non, certainement, supposé, possible, apparemment, pouvoir, dire, douter, regretter…

• Les influences entre ces marqueurs au fil des constructions syntaxiques

• Bilan global : TAL encore peu utilisé en Fact-checking

Page 138: Séminaire Ist inria 2014 : Pascale Sébillot

13804/10/2014

Conclusions TAL et Big Data• Pas une révolution, celle du TAL datant d’avant

– Mais plus de données, plus de variété

– Revisite d’applications ou techniques de TAL

– Essor d’applications pour faire face au déluge de données

– Essor d’applications pour tirer profit du déluge de données

• Chercheur en TAL transformé en « scientifique des données » (data scientist)

– Mais aussi utilisation de représentations mixant des grains différents

• Prise de conscience de l’importance de l’accès au contenu des données langagières

• Attente d’applications efficaces et explicatives

Page 139: Séminaire Ist inria 2014 : Pascale Sébillot

13904/10/2014

Bibliographie• ALLAN (J.), Building Hypertext Using Information Retrieval, Information Processing and Management, Vol. 33(2), 1997, p. 133-144.• ALLAUZEN (A.) et YVON (F.), Méthodes statistiques pour la traduction automatique, dans GAUSSIER (É.) et YVON (F.), Modèles statistiques pour l'accès à

l'information textuelle, Paris, Hermès, chapitre 7, 2011, p. 271-356.• BROWN (P.F.), COCKE (J.), DELLA PIETRA (S.A.), DELLA PIETRA (V.J.), JELINEK (F.), LAFFERTY (J.D.), MERCER (R.L.) et ROOSSIN (P.S.), A statistical

approach to machine translation, dans Computational Linguistics, Vol. 16(2), 1990, p. 79-85.• ESULI (A.) et SEBASTIANI (F.), SentiWordNet: A publicly available lexical resource for opinion mining, dans Actes de 5th Conference on Language Resources and

Evaluation (LREC 2006), Gênes, Italie, 2006, pp. 417-422.• FAIRON (C.), KLEIN (J.) et PAUMIER (S.), Le langage SMS. Étude d'un corpus informatisé à partir de l'enquête « Faites don de vos SMS à la science », Louvain-la-

Neuve, Presses universitaires de Louvain, 2006.• GILLICK (D.) et FAVRE (B.), A scalable model for summarization, dans Actes de NAACL HLT Workshop on Integer Linear Programming for Natural Language

Processing, Boulder, USA, 2009, p. 10-18.• GOLDSTEIN (J.) et CARBONELL (J.), Summarization : (1) using MMR for diversity-based reranking and (2) evaluating summaries, dans Actes de Workshop On

TIPSTER Text Program : Phase III, Baltimore, USA, 1998, p. 181-195.• GRAVIER (G), GUINAUDEAU (C.), LECORVÉ (G.) et SÉBILLOT (P.), Exploiting speech for automatic TV delinearization : From streams to cross-media semantic

navigation, dans Eurasip Journal on Image and Video Processing, Vol. 2011, 2011.• HEARST (M.A.), TileBars: Visualization of term distribution information in full text information access, dans Actes de ACM SIGCHI Conference on Human Factors in

Computing Systems (CHI), Denver, USA, 1995, p. 59-66.• HEARST (M.A.), TextTiling: Segmenting text into multi-paragraph subtopic passages, dans Computational Linguistics, Vol. 23(1), 1997, p. 33-64.• HIRSCHMAN (L.) et GAIZAUSKAS (R.), Natural language question answering, dans Natural Language Engineering, Vol. 7(4), 2001, p. 275-300.• HOLOTAVI (A.) (2006, 6 sep.), A fundamental way newspaper sites need to change, sur http://www.holovaty.com/writing/fundamental-change/. Consulté le 9 juil.

2014.• LIN (C.-Y.), Rouge: A package for automatic evaluation of summaries, dans Actes de ACL Workshop Text summarization branches out, Barcelona, Espagne, 2004,

p. 74-81.• LIU (B.), Sentiment analysis and opinion mining, dans Morgan & Claypool publishers, 2012.• MIHALCEA (R.), Graph-based ranking algorithms for sentence extraction, applied to text summarization, dans Actes de 42nd Annual Meeting of the Association for

Computational Linguistics, companion volume (ACL 2004), Barcelona, Espagne, 2004.• NAGAO (M.), A framework of a mechanical translation between Japanese and English by analogy principle, dans Elithorn (A.) et Banerji (R.), Artificial and Human

Intelligence, Amsterdam, North-Holland Publishing Company, chapitre 11, 1984, p. 173-180.• NAKASHOLE (N.) et MITCHELL (T.M.), Language-aware truth assessment of fact candidates, dans Actes de 52nd Annual Meeting of the Association for

Computational Linguistics (ACL 2014), Baltimore, USA, 2014, p. 1009-1019.• SAURÍ (R.) et PUSTEJOVSKY (J.), Are you sure that this happened? Assessing the factuality degree of events in text, dans Computational Linguistics, Vol. 38(2),

2012, p. 261-299.• TANNIER (X.), Traitement des événements et ciblage d'information, Habilitation à diriger des recherches, Université Paris Sud, 2014.• TURNEY (P.D.), Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews, dans Actes de 40th Annual Meeting of the

Association for Computational Linguistics (ACL 2002), Philadelphia, USA, 2002, p. 417-424.• UTIYAMA (M.) et ISAHARA (H.), A statistical model for domain-independent text segmentation, dans Actes de 39th Annual Meeting on the Association for

Computational Linguistics (ACL 2001), Toulouse, France, 2001, p. 499-506.• YIN (X.), HAN (J.) et Yu (P.S.), Truth discovery with multiple conflicting information providers on the Web, dans Actes de 13th International Conference on Knowledge

Discovery and Data Mining (KDD'07), Short paper, San Jose, USA, 2007, p. 1048-1052.• ZENS (R.), OCH (F.J.) et NEY (H), Phrase-based statistical machine translation, dans KI-2002: Advances in Artificial Intelligence, Springer Verlag, LNAI Vol. 2479,

2002, p. 18-32.