Author
inria
View
308
Download
3
Embed Size (px)
DESCRIPTION
"Le traitement automatique du langage (TAL) face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ?" : Prsentation de Pascale Sebillot, chercheuse l'IRISA lors du sminaire IST Inria : "Big Data, nouvelles partitions de l'information" ; Saint-Paul-Ls-Dax du 6 au 10 octobre 2014.
Le traitement automatique des langues
face aux données textuelles
volumineuses et potentiellement
dégradées : qu’est-ce que cela change ?
Pascale SÉBILLOT PRU en informatique à l’INSA de RennesMembre de l’équipe LinkMedia de l’IRISA et
d’INRIA
204/10/2014
LinkMediaCreating and exploiting explicit links between multimedia fragments
Périm
ètre de LinkMedia
Objectifs• fondements scientifiques de la
structuration de collections de documents multimédias par des liens explicites
• nouveaux usages et techniques de traitement de contenus induits par ces liens
304/10/2014
Mon parcours de recherche
• Domaine : traitement automatique des langues (TAL)
• Thèse en syntaxe passage à la sémantique
• Acquisition de connaissances à partir de corpus de textesgrâce à des techniques d’apprentissage artificiel
• Application du TAL à la recherche d’information
• Application du TAL à la reconnaissance automatique de laparole
• Application du TAL à la structuration de (collections de)documents multimédias
404/10/2014
Impact du Big Data sur le traitement automatique des langues ?
• Révolution ?
504/10/2014
Impact du Big Data sur le traitement automatique des langues ?
• Révolution : NON– Révolution du TAL faite fin des années 80 – début des années 90
• Du TAL rationaliste…– Approches symboliques à base de règles
– Expertise humaine forte
– Focus sur l’explication des jugements de grammaticalité, la construction de représentations du sens élaborées…
• … au TAL empirique– Approches fondées sur les données
– Volumes de textes et puissance des machines croissants
– Apprentissage artificiel, linguistique de corpus
– Observation à grande échelle, représentations du « sens utile »
604/10/2014
Impact du Big Data sur le traitement automatique des langues ?
• Révolution : OUI– Nouveaux types de données textuelles à prendre en
compte
– Volumes toujours plus conséquents
– Empirisme toujours plus présent• Moins / pas (ou très peu) d’expertise
• Plus de comptage
704/10/2014
Impact du Big Data sur le TALOrganisation de la présentation
1. Spécificités des données textuelles dans le monde du Big Data
2. Représentations et exploitation des données textuelles
3. Applications pour faire face aux masses de données
4. Applications tirant profit de la profusion de données
804/10/2014
1- Spécificités des données textuelles dans le monde du Big Data
• Les 3 V (volume, variété, vélocité) appliqués aux données textuelles
• Propriétés intrinsèques compliquant l’accès au sens
904/10/2014
Variété
• Données produites (directement) sous une forme textuelle
– Textes écrits, emails, sites Web
– Blogs, réseaux sociaux
– Sms
1004/10/2014
Variété
• Données produites (directement) sous une forme textuelle
– Textes écrits, emails, sites Web
– Blogs, réseaux sociaux
– Sms• Tu te x mal1• JV encor dvoir 10QT
aussi dans la qualité
Exemples issus de [Fairon et al. 2006]
1104/10/2014
Variété
• Données langagières issues d’un média différent– Système de reconnaissance… générateur d’erreurs
– Images de textes• Dactylographiés, manuscrits
• OCR : logiciel de reconnaissance optique de caractères– Segmentation en caractères individuels
– Classifieur fondé sur un apprentissage neuronal pour la reconnaissance
– Parole contenue dans les documents audio/vidéos• Système de reconnaissance automatique de la parole (RAP)
1204/10/2014
Système de RAP
Système de reconnaissance automatique de la parole
Signal de parole
Hypothèse detranscription
w*1 ... w*P
c1 ... cP
Mesures de confiance
1304/10/2014
Modèle acoustique
Modèle de langue
Lexique phonétisé
Caractéristiques numériques du signal sonore contenant de
la parole (énergie, fréquence vocale…)
y1 ... yT
Meilleure hypothèse de transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'
c1 ... cP
Mesures de confiance
Système de reconnaissance automatique de la parole
1404/10/2014
Modèle acoustique
Modèle de langue
Lexique phonétisé
Caractéristiques numériques du signal sonore contenant de
la parole (énergie, fréquence vocale…)
y1 ... yT
Meilleure hypothèse de transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'
c1 ... cP
Mesures de confiance
Système de reconnaissance automatique de la parole
Vocabulaire : mots - prononciations
1504/10/2014
Modèle acoustique
Modèle de langue
Lexique phonétisé
Caractéristiques numériques du signal sonore contenant de
la parole (énergie, fréquence vocale…)
y1 ... yT
Meilleure hypothèse de transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'
c1 ... cP
Mesures de confiance
Système de reconnaissance automatique de la parole
Vraisemblance du signal sachant une séquence de mots
1604/10/2014
Modèle acoustique
Modèle de langue
Lexique phonétisé
Caractéristiques numériques du signal sonore contenant de
la parole (énergie, fréquence vocale…)
y1 ... yT
Meilleure hypothèse de transcription
w*1 ... w*P
w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] }w1...wP' ϵ VP'
c1 ... cP
Mesures de confiance
Système de reconnaissance automatique de la parole
Probabilité a priori des séquences de mots (n-grammes)
1704/10/2014
Quant au voile catholique de soeur ____ Adalberta , il est
tout ce qu' il y a de strict , serré sous le menton , il
encadre son visage sans permettre de voir , un seul de
ses cheveux .
quant aux voix catholiques de serge adda alberta _ il est
tout ce qu' il y a de strictes _ série sous le menton _ l
encadre son visage sans permettre de voir _ un seul de
ses cheveux _
Spécificités des transcriptions • Particularités de l’oral
– Disfluences– Constructions grammaticales particulières
• Format de transcription– Pas de ponctuation, de majuscules– Segmentation en groupes de souffle, pas en phrases
• Erreurs de transcription• Mots non fiables et mesures de confiance imparfaites
Taux d'erreur sur les mots ou WER (word errorrate )
1804/10/2014
Volume et Vélocité
Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/)Go-globe.com, juin 2011
1904/10/2014
Propriétés intrinsèques compliquant l’accès au sens
• Données non structurées– Pas de sémantique portée par une structure a priori
• Données porteuses de sens, compréhensibles par un humain et fortement présentes
– Nécessité de savoir en extraire l’information pertinente
• Données difficiles à comprendre par une machine– Ambiguïté
– Implicite
– Formulations différentes d’une même idée
2004/10/2014
Ambiguïté• Lexicale
– Statique : président : verbe / nom ?
– Dynamique : rat : nom / adjectif
• Syntaxique– Structure hiérarchique : la petite brise la glace
– Ambiguïté de rattachement : j’ai été voir un film avec Brad Pitt
• Sémantique– Homonymie : avocat : fruit / auxiliaire de justice
– Polysémie : agneau : animal / viande
– Portée des quantificateurs : toutes mes sœurs ont épousé un médecin vs toutes les personnes présentes ont entendu un cri
• Pragmatique– Paul : tu viens à la fête chez Luc mardi soir ?
– Virginie : j’ai entendu que Benoît sera là
2104/10/2014
Implicite• Connaissances partagées par les locuteurs
– Encyclopédiques
– De sens commun
– De scenarii…
• Interprétations « évidentes » [exemples empruntés à F. Yvon]
– Elle s’est assise, a commandé un café à la serveuse (…). Puis elle est partie sans payer Qui ?
– Le professeur a envoyé l’élève au censeur
• parce qu’il lançait des boulettes
• parce qu’il voulait avoir la paix
• parce qu’il voulait le voir
• Emplois métaphoriques, métonymiques– Premier violon
2204/10/2014
Formulations différentes d’une même idée
• Problème pour compter des occurrences d’un concept
• Variation– Graphique, morphologique : mot clé, mot-clé, mots-clés
– Syntaxique, morphosyntaxique : acidité du sang, acidité élevée du sang, acidité sanguine
– Paradigmatique : vélo, bicyclette, cyclisme, moyen de transport
– Paraphrase…
2304/10/2014
et apprentissage
Spécificités des données textuelles• Volumes, variété, propriétés intrinsèques des données
textuelles– Impossibilité de faire des analyses linguistiques fines
• Rapidement
• Sur des textes dégradés
• Variété : domaine ouvert– Ambiguïtés multipliées
– Sources de connaissance non utilisables
• Changement de paradigme du TAL
Rationalisme Empirisme
« TAL fondé linguistique » « TAL fondé statistique »
Comprendre finement Avoir des représentations desens utiles
2404/10/2014
2- Représentations et exploitation des données textuelles
• Représentation du sens « rationaliste »– Vision syntaxico-logique
• Logique comme langage de représentation de connaissance et de raisonnement
• Interprétation compositionnelle du langage dirigée par la syntaxe sous forme de formules logiques
– Vision Intelligence artificielle• Modèle du monde (ou domaine) générique
• Interprétation d’un énoncé ou discours : instanciation du modèle
• Ex. : scripts (Schank)…
2504/10/2014
2- Représentations et exploitation des données textuelles
• Représentation du sens « empirique »– Sens « utile » et non « vrai » sens
• On ne cherche pas à comprendre le langage
• Sens d’un mot – Dépendant de / exprimable par son co-texte– Co-textes comparables pour détecter les mots du même
paradigme• Sens d’un document
– Des mots extraits du texte qui, ensemble, représentent « son » sens
• Changement de thème– Changement global de vocabulaire
2604/10/2014
Changement de paradigme
• Expertise Données– Extraction de la connaissance des données par
apprentissage artificiel (observation de régularités et redondances)
• Sens Éléments de représentation extraits des mots, des phrases, des documents utiles pour l’application visée
– Exemples : noms et verbes les plus fréquents, noms de personnes, de lieux et d’entreprises mentionnés…
• À tous les niveaux : document, paragraphe, phrase…
2704/10/2014
Éléments de représentation
• N-grammes de caractères, de mots• Mots : tous ou filtrés
– Type précis : noms, verbes, termes complexes, entités nommées (EN : noms de personnes, lieux…)…
– Saillance• Comptage
– Fréquence
– Fréquence dans l’unité considérée mais pas dans la collection
– Autres
• Position– Mot / phrase du début
– Éléments situés entre deux items, avant, après…
2804/10/2014
Représentation
Taille de la collection
Nb documents contenant le mot
2904/10/2014
Représentation
• Exploitation– Par comparaison des représentations via des
mesures de similarité• Fondées intersection des représentations• Cosinus
– Par des méthodes d’apprentissage artificiel
3004/10/2014
Des outils pour manipuler et représenter
• Segmenteurs– Pas toujours simple : l’opéra / aujourd’hui ou O’hara, Jean-Paul /
qu’a-t-il dit ?
• Étiqueteurs morphosyntaxiques (PoS taggers)– LeDetMasSing présidentNomCommunMasSing…
• Lemmatiseurs / analyseurs morphologiques / raciniseurs (stemmers)
– parlons, parlera, parlèrent � parler
• Extracteurs de termes simples ou complexes, d’entités nommées, de relations sémantiques
• Analyseur en dépendances, en chunks…
• Autres outils liés à l’application visée (d’extraction de n-grammes au lieu de mots…)
3104/10/2014
Apprentissage artificiel
• Branche de l’IA qui étudie l’écriture de programmes qui s’améliorent en se confrontant aux données
• Apprentissage supervisé– Données étiquetées disponibles
• Apprentissage non supervisé– Pas de données étiquetées
– Exemple de technique : clustering
• Apprentissage de quoi ?– De représentations (ex. : probabilités de n-grammes de mots)
– D’outils
– De clusters
– De connaissances par observation de régularités dans les masses de données…
3204/10/2014
Le chercheur en TAL à l’heure du Big Data
• Transformation en scientifique des données (data scientist)
– Quelles représentations (à grain souvent grossier) ?
– Quelles techniques d’apprentissage artificiel ?
– Quelles mesures de similarité ?
– Quelles méthodes de visualisation ?
3304/10/2014
3- Applications pour faire face aux masses de données
3404/10/2014
3- Applications pour faire face aux masses de données
• De très nombreuses applications pour aider l’humain face au déluge de données
• Applications s’appuyant sur les représentations vues et des méthodes d’apprentissage artificiel
• Zoom sur trois d’entre elles– Résumé automatique (d’un ou plusieurs textes)
– Structuration et navigation
– Fouille d’opinions
3504/10/2014
3.1- Résumé automatique
• Intérêt : savoir si texte à lire in extenso• Domaine ancien du TAL
– Début dans les années 50
– Fort essor au milieu des années 90
• Notion de « bon » résumé ?– Réalités diverses
• Idées-clés
• Couverture maximale
• « Bande-annonce »
– Contrainte de taille
3604/10/2014
Typologie(s)
• Un ou des document(s)• Point de départ : document(s) ou requête• Résumé par abstraction ou par extraction
– Si extraction, des phrases ou des mots-clés
– Si extraction de phrases, curation a posteriori• Remplacement des mots répétés, des pronoms
• Fusion de phrases, parties inutiles ôtées
3704/10/2014
Typologie(s)
• Un ou des document(s)• Point de départ : document(s) ou requête• Résumé par abstraction ou par extraction
– Si extraction, des phrases ou des mots-clés
– Si extraction de phrases, curation a posteriori• Remplacement des mots répétés, des pronoms
• Fusion de phrases, parties inutiles ôtées
• Méthodologie globale– Ancrage linguistique fort
– Apprentissage artificiel
– Représentations fondées recherche d’information (RI)
3804/10/2014
Résumé par extraction
• Saillance– Score pour chaque phrase / passage
– Indicateurs combinés• Score des mots : tf, tf*idf (somme)
• Présence de mots-clés, d’entités nommées, de marqueurs du discours…
• Longueur
• Position par rapport au texte, à son paragraphe…
– Pondération entre les indicateurs pouvant être fixée ou apprise
3904/10/2014
Résumé par extraction
• Redondance– Saillance seule insuffisante
– Non redondance par rapport aux phrases déjà dans le résumé
– MMR (maximal marginal relevance [Goldstein et Carbonell 98])• Score combinaison linéaire de saillance et non redondance
• MMR ≈ Argmax(Pi∈R−S) [λ(Sim1(Pi,Q)) − (1− λ)max(Dj∈S) Sim2(Pi,Dj)]– Q : document à résumer / requête utilisateur ; P : phrases
– R : liste ordonnée des phrases ; S : sous-ensemble des phrases de R déjà dans le résumé
– Sim : mesure de similarité (cosinus)
– Cas multi-documents : clustering des phrases similaires et extraction d’une phrase par cluster
4004/10/2014
Extraction fondée centroïde
• Score d’une phrase : fonction de sa centralité par rapport au thème des(du) documents à résumer
• Document centroïde– Pseudo-document qui contient les mots ayant un score
(tf*idf) supérieur à un seuil
– Cas multi-documents : un centroïde par cluster
• Score d’une phrase fonction de– Sa similarité avec le centroïde (de son cluster dans le
cas multi-documents)
– Sa non redondance par rapport aux phrases retenues
• Logiciel Mead : http://www.summarization.com/mead/
4104/10/2014
Extraction fondée graphe
• Score d’une phrase : fonction globalement du score des phrases avec lesquelles elle partage le plus de mots
• Proche de PageRank (Google)– Une phrase recommande d’autres phrases
• Algorithme TextRank [Mihalcea 2004]
– Chaque phrase : un nœud du graphe
– Arc entre deux nœuds : pondération selon le nombre de mots partagés (et longueur des phrases)
– Poids initial assigné aux nœuds
– Itération de l’algorithme recalculant le score du nœud en fonction du score des nœuds liés et du poids des arcs
– Conservation des phrases aux scores les plus élevés
• Intérêt : fonctionne sur l’information issue de tout le graphe
4204/10/2014
Extraction fondée contraintes ou optimisation
• Choix des phrases qui maximisent une fonction objectif
• Donc pas un algorithme glouton, mais vue globale du choix des phrases (et de la redondance)
• Expression de contraintes et de la fonction à maximiser
– Contraintes : taille, phrases plutôt longues…
• Utilisation d’un solveur de contraintes
4304/10/2014
Extraction fondée contraintes ou optimisation
• Un exemple : [Gillick et Favre 2009]
• Fonction à optimiser– Somme des poids des concepts présents dans le résumé
– Concept : bigramme informatif
– Poids d’un concept : nombre de documents où il apparaît
• Contraintes– Somme des longueurs des phrases conservées inférieure à la
longueur maximum
– Non sélection de phrases sans concept
– Sélection d’une phrase : sélectionner tous ses concepts
– Sélection d’un concept possible si présent dans au moins une phrase gardée
4404/10/2014
Évaluation
• Problème épineux, accord faible entre humains• De nombreuses campagnes d’évaluation
– Conférences DUC puis TAC
• Des mesures proposées– Résumés de référence produits par des humains
– Mesures fondées sur la présence d’« unités », pas de phrases
• ROUGE [Lin 2004]
– Proportion de n-grammes partagés entre le résumé produit et les références
– Plusieurs variantes
4504/10/2014
Résumé de l’oral transcrit
• Moins de travaux– Résumés de réunions, d’émissions TV
• Application de méthodes de TAL• Adaptations pour l’oral
– Reponctuation
– Utilisation des mesures de confiance
– Utilisation de l’information acoustique
• Cas des résumés de vidéos– Travail a posteriori nécessaire pour avoir des résumés
acceptables (i.e., écoutables et regardables)
4604/10/2014
Résumé automatique
• Bilan– Méthodologies fonctionnelles
– Qualité / cohésion textuelle encore moyenne
– Aspect temporel peu pris en compte
– Résumé de données textuelles autres qu’écrites encore limité
– Évaluation encore à améliorer
4704/10/2014
3.2- Structuration et navigation
• Données textuelles– Très nombreuses
– Non organisées (« vrac »)
– Souvent vues individuellement, peu au sein d’un ensemble
• Organisation pour perception ou navigation éclairée• Regroupement / établissement de liens selon une
notion de proximité, surtout sémantique• Différentes solutions, sur des textes écrits et de
l’oral transcrit
4804/10/2014
Organisation a posteriori d’une requête
• Recherche d’information (RI)– Mise en évidence des termes de la question dans les documents
retournés [Hearst 1995]
une ligne par mots de la question
une colonne par segment du texte
4904/10/2014
Organisation a posteriori d’une requête
• Recherche d’information (RI)– Mise en évidence des termes de la question dans les documents
retournés [Hearst 1995]
– Clustering des résultats (par thèmes, entités nommées…)
5004/10/2014
Organisation a posteriori d’une requête
5104/10/2014
Organisation a posteriori d’une requête
• Également une version par apprentissage à partir de chronologies manuelles (boosting)
– Apprentissage des caractéristiques d’une date saillante
– Traits liés au fait que plus une date est mentionnée plus elle est importante
– Traits liés au fait qu’un événement important est mentionné longtemps
• Dans les différents cas, constitution de la chronologie à partir des phrases contenant les dates saillantes
5204/10/2014
Le président égyptien Hosni Mubarak, qui a démissionné vendredi, et le président Zine El Abidine Ben Ali, qui a quitté le pouvoir le 14 janvier , ont fait face à des protestations populaires sans précédent.
Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe
Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.
Des manifestants ont également blessés vendredi , y compris Chawki Belhoussine El Hadri
Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.
La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police.
RequêtePlusieurs milliers de documents
INDEX Requête : révolution tunisienne
Transparents empruntés à X. Tannier
5304/10/2014
La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police.
Des manifestants ont également blessés vendredi , y compris ChawkiBelhoussine El Hadri
Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.
Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe
Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi .
14 jan. 2011
Regroupés par dates normalisées
Ordonnés selon l’importance de la date
Clusters temporels
plus important
24 déc. 2010 13 jan. 2011
INDEX
Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants
Requête
Plusieurs milliers de documents
Requête : révolution tunisienne
5404/10/2014
La révolte s’est propagée le 24 décembre dans le centre-du pays, notamment à Menzel Bouzaiane, où Mohamed Ammari est tué par balle dans la poitrine par la police.
Des manifestants ont également blessés vendredi , y compris ChawkiBelhoussine El Hadri
Ben Ali a signé sa démission vendredi après une vague de protestations déclenchée par le suicide d’un étudiant de 26 ans que la police avait empêché de vendre des fruits et des légumes pour vivre.
Zine el-Abidine Ben Ali a annoncé jeudi soir qu'il ne se représentera pas en 2014 au poste qu'il occupe
Ces révélations ont lieu après la révolte tunisienne qui a mit fin à 23 ans de règne de Ben Ali, qui s’est enfui de Tunisie pour l’Arabie Saoudite vendredi .
14 jan. 2011
Regroupés par dates normalisées
Ordonnés selon l’importance de la date
Clusters temporels
plus important
24 déc. 2010 13 jan. 2011
INDEX
Ben Ali a donné jeudi l'ordre à la police de ne plus tirer sur les manifestants
Requête
Plusieurs milliers de documents
Choix des descriptions d’événements
Maximiser la pertinence
Minimiser la redondance
Requête : révolution tunisienne
5504/10/2014
17 déc. 2010 : Mohamed Bouazizi s’immole par le feu pour protester contre le harcèlement de la police et le chômage.
25 déc. 2010 : Les protestations démarrent à Sidi Bouzid et s’étendent à Bouzaiene, Kairouan, Sfax, Ben Guerdane, Sousse.
27 déc. 2010 : Les protestations s’étendent à Tunis, la capitale du pays.
14 jan. 2011 : Le président Ben Ali s’enfuit en Arabie Saoudite.
Requête : révolution tunisienne
• Chronologie événementielle obtenue
5604/10/2014
Autre réponse de la recherche d’information
• Les systèmes questions-réponses [Hirschman et Gaizauskas 2001]
– Réponse précise à une question au lieu de documents contenant les termes de la question
5704/10/2014
Liens entre documents fondés contenu
• Création de liens initiée par la communauté hypertexte [Allan 1997]
– Souvent sur des documents à structure assez marquée (emails, articles de Wikipédia)
– Souvent sur de petites collections (a posteriori d’une requête par exemple)
5804/10/2014
Systèmes de recommandation
• Souvent mélange de filtrages fondé contenu et collaboratif
• Filtrage collaboratif– Calcul de corrélation entre les avis
des autres utilisateurs et celui visé
Prédiction pour un item : par exemple calculable par la moyenne pondérée (par le coefficient de corrélation) des évaluations pour cet item des utilisateurs similaires
• Filtrage fondé contenu Élaboration d’un profil de l’utilisateur grâce aux mots-clés
émergeant des items qu’il apprécie
Comparaison au contenu d’un item non évalué pour le recommander ou pas à l’utilisateur
5904/10/2014
Graphes temporels d’événements [Tannier 2014]
• Dépêches AFP contenant des événements• Organisation temporelle fondée sur trois relations
– Même événement
– Continuation (conséquence, suite naturelle)• Réaction (opinion sur un événement)
• Annotation manuelle des dépêches entre dates d et d+7 si 2 mots-clés communs dans 1er paragraphe
• Apprentissage (svm)
– Relation vs pas de relation
– Même événement vs continuation
– Continuation vs réaction
6004/10/2014
2 avril, 21:05
Georges Bush déclare que le Pape était un « champion de la liberté humaine »
Graphes temporels d’événements [Tannier 2014]
2 avril, 01:51
Un cardinal dit que la mort du Pape est imminente
2 avril, 15:39
Le Pape dans une situation sérieuse mais « résiste » 2 avril, 20:58
La Reine Elisabeth II exprime son « profond regret »
2 avril, 21:40
Jean-Paul II sera enterré mercredi au Vatican
continuation
continuation
2 avril, 19:53
Le Pape est mort2 avril, 19:57
Le Pape est mort au Vatican2 avril, 20:01
Le Pape est mort au Vatican
réaction
réaction
continuation
Transparent empruntés à X. Tannier
6104/10/2014
Structuration et navigation dans une collection de journaux TV
• Segmentation automatique de journaux TV en reportages successifs [Gravier et al. 2011]
• Navigation– Vers d’autres reportages abordant le même sujet
– Vers des pages Web offrant de l’information complémentaire
• Application de techniques de TAL et de RI, mêlant grain « grossier » et grain plus fin, sur la parole transcrite
6204/10/2014
Segmentation thématique
• La plupart des techniques fondée sur la cohésion lexicale
– Changement de thème = changement de vocabulaire
• Méthodes locales– Recherche de ruptures par comparaison de zones
adjacentes et détection de minima de similarité [Hearst 1997]
• Méthodes globales– Production « directe » des segments les plus
cohérents [Utiyama et Isahara 2001]
• Possibilité d’adaptation aux transcriptions de la parole ?
6304/10/2014
Adaptation aux transcriptions
• Particularités problématiques– Erreurs de transcription
– Manque de répétitions
• Modification du calcul de la cohésion lexicale– Prise en compte des mesures de confiance, en particulier lors du
comptage des occurrences de mots
– Prise en compte des relations sémantiques entre les mots
cigarette cigare 0.476838
cigarette gitane 0.378044
cigarette gauloise 0.37508
cigarette clope 0.366334
cigarette tabac 0.304606
mots partageant des contextes similaires
6404/10/2014
Résultats de la segmentation
• Corpus– 57 JT de France 2 – février et mars 2007
• Système de reconnaissance de la parole– WER : 20% sur données Ester 2 (actualités radio)
• Évaluation– Changement de thème à chaque reportage (1180
frontières)– Frontière correcte : < 10s par rapport à une frontière de
référence– Rappel, précision
6504/10/2014
Résultats de la segmentation
• Mesures de confiance et relations sémantiques
6604/10/2014
Caractérisation des segments obtenus
• Caractérisation par mots-clés extraits• Deux rôles
– Permettre de comparer des reportages entre eux
– Permettre d’interroger le Web pour trouver des pages liées
• Mais aussi, forme de résumé informatif du contenu• Modifications du tf*idf car oral transcrit
– Lemmatisation
– Pénalité introduite pour les noms propres
– Prise en compte des mesures de confiance
6704/10/2014
• Tf*idf classique sur les lemmes1.000 voile0.756 adda0.521 bernadette0.501 laïcité0.483 musulmans, musulmane0.449 photo, photos0.429 sarkozy0.387 chirac0.372 préfecture0.364 serge
du tchador et de la corne est au nomdu principe de la laïcité de l' état on l' aquelques jours nicolas sarkozyrappeler fermement aux musulmansqui n' était pas question de porter levoile en photo des entités un rappel àl' ordre qui visiblement a échappé àbernadette chirac encore le journal lecanard enchaîné l' épouse duprésident de la république sedémènent pour qu' une religieusepuisqu' elle garder son voile est uneétrange mal le voile de serge addaalberta ...
S(l) = tf(l) x idf(l)
Extraction de mots-clés
6804/10/2014
Extraction de mots-clés
• + Pénalités sur les noms propres- 1.000 voile- 0.567 adda↑ 0.501 laïcité↑ 0.483 musulmans, musulmane↑ 0.449 photo, photos↓ 0.391 bernadette↑ 0.372 préfecture↑ 0.330 mimosa↑ 0.329 tchador↑ 0.326 carmélites
↓ 0.322 sarkozy↓ 0.290 chirac↓ 0.273 serge
du tchador et de la corne est au nomdu principe de la laïcité de l' état on l'a quelques jours nicolas sarkozyrappeler fermement aux musulmansqui n' était pas question de porter levoile en photo des entités un rappelà l' ordre qui visiblement a échappé àbernadette chirac encore le journal lecanard enchaîné l' épouse duprésident la publique se démènentpour qu' une religieuse puisqu' ellegarder son voile est une étrange malle voile de serge adda alberta ...
S’(l)= tf’(l) x idf(l)
6904/10/2014
• + Prise en compte des mesures de confiance
↓ 0.294 serge↓ 0.270 chirac
- 0.992 voile↑ 0.500 laïcité↑ 0.458 musulmans, musulmane↓ 0.454 adda↑ 0.428 photo, photos↓ 0.390 bernadette↑ 0.371 préfecture↑ 0.328 tchador↑ 0.325 carmélites↓ 0.321 sarkozy
du tchador et de la corne est au nomdu principe de la laïcité de l' état on l' aquelques jours nicolas sarkozyrappeler fermement aux musulmansqui n' était pas question de porter levoile en photo des entités un rappel àl' ordre qui visiblement a échappé àbernadette chirac encore le journal lecanard enchaîné l' épouse du présidentde la république se démènent pour qu'une religieuse puisqu' elle garder sonvoile est une étrange mal le voile deserge adda alberta ...
Extraction de mots-clés
7004/10/2014
Récupération de pages Web liées à l’aide de requêtes
• Conservation des premiers mots-clés• Requêtes formées par mélange de 2 ou 3 mots-
clés voile laïcité
voile musulmans
musulmans adda photo
laïcité adda photo
voile laïcité photo
voile adda
... Limite l’influence des erreurs de transcription
7104/10/2014
Texmix
• Application : système de navigation au sein d’une collection de journaux TV
• Utilisation de techniques issues de différents travaux de recherche dans l’équipe TexMex
• Démonstration : Texmix
7204/10/2014
Texmix
7304/10/2014
Texmix
7404/10/2014
3.3- Fouille d’opinions
• Analyse de données exprimant des opinions : réseaux sociaux, blogs, fora, commentaires sur des sites de commerce électronique …
• Enjeux– Individuels : achat d’un matériel, réservation de séjour…
– Économiques : perception d’un produit (propre ou concurrent) par des utilisateurs, avis synthétique sur un sujet…
– Politiques : perception d’une réforme, de sujets de mécontentement…
7504/10/2014
Un travail compliqué• Samedi dernier, j’ai acheté un mobile Nokia et ma copine a acheté un
Samsung avec Bluetooth. On s’est appelés quand on est rentrés. Lavoix sur mon téléphone n’était pas si claire, pire en tous cas que surmon Motorola précédent. La batterie ne dure pas longtemps non plus.Ma copine était plutôt satisfaite de son téléphone. Moi, je voulais untéléphone avec un bon son. Donc j’étais déçu de mon achat. J’ai ramenéle téléphone hier. (exemple de [Liu 2012] traduit)
• Nombreux aspects du TAL impliqués– Dont certains aspects de compréhension assez fins
• Coréférence, analyse syntaxique, analyse sémantique voire pragmatique (claire >0 ou <0 ?)…
• Données à analyser très diverses– En qualité
– En contenu : avis global sur une entité, avis sur différents aspects d’une entité, avis sur plusieurs entités, zones factuelles et zones subjectives, avis se répondant…
7604/10/2014
4 tâches essentielles
• Extraction d’opinions– Identifications des textes porteurs d’opinions
– Localisation des passages/phrases… porteurs d’opinions
• Classification d’opinions– Attribution d’une polarité à l’opinion émise : positive, négative et
parfois neutre
– Proximité avec la classification de textes mais mots polarisés importants
• Constitution de ressources d’opinion– Lexiques de mots ou d’expressions polarisés
• Résumé d’opinions
7704/10/2014
Approches supervisées de classification de documents et phrases
• De très nombreux travaux aux deux niveaux
• Bons résultats avec des classifieurs de type SVM et NB (Bayésien naïf)
• De très nombreux traits utilisés– Mots, éventuellement pondérés
– Étiquettes catégorielles (adjectifs importants, ponctuation…)
– Mots porteurs d’opinion
– N-grammes de mots, d’étiquettes (ex. : N+Adjpos)
– Présence de mots « changeurs » de polarité (négation, mais…)…
7804/10/2014
Approches non supervisées de classification de documents et phrases
• Également de nombreux travaux aux deux niveaux
• Utilisation de ressources d’opinion– Lexiques
– Règles plus ou moins ad hoc
• Un exemple au niveau document [Turney 2002]
– Étiquetage catégoriel de commentaires sur des voitures, films…
– Extraction de bigrammes répondant à des patterns (d’expression d’opinion)
• Adj-Nom commun, Adv-Adj si 3e mot pas nom commun…
– Moteur de recherche (AltaVista) pour calculer des scores d’affinité de ces bigrammes avec « excellent » et avec « poor »
– Moyenne, pour tous les patterns contenus, des différences d’affinité avec excellent et poor : >0 et <0
7904/10/2014
Constitution de ressources• Lexiques de mots / d’expressions : petit, coûte un bras• Développement manuel : coûteux• Des mots amorces (ou un lexique amorce) +…
– Approche fondée dictionnaire• Extension par exemple grâce aux synonymes / antonymes du
dictionnaire
• Exemple : SentiWordNet [Esuli et Sebastiani 2006]
– Extension par WordNet + classifieur appris grâce aux vecteurs de mots formés à partir des gloses du lexique
• Développement rapide, mais polarité des mots dépendant du contexte et du domaine…
– Petit : le téléphone est petit (+) / l’écran LCD est petit (-)
– Long : la durée de vie de la batterie est longue (+) / le temps de mise au point est long (-)
8004/10/2014
Constitution de ressources
• Des mots amorces (ou un lexique amorce) +…– Approche fondée corpus
• Par exemple par extension via des constructions syntaxiques au sein d’une phrase du corpus, voire au-delà : présence de ET, OU, MAIS, négation…
– Cette voiture est puissante (+) et spacieuse : spacieuse annoté comme positif
– Cette voiture est puissante (+). Toutefois elle est chère dans sa gamme : chère annoté comme négatif
8104/10/2014
Du gros grain au grain fin
• Avec l'EOS 100D, Canon a miniaturisé son 650D en conservant sesprincipales qualités (simplicité d'utilisation, capteur et électroniqueefficaces, écran excellent). La réactivité et la transportabilité ont aussi étéaméliorées mais le zoom du kit vient gâcher tous les efforts :disproportionné en volume, bourré d'aberrations optiques et surtout trèsimprécis, il ne faudra pas hésiter à… (extrait adapté du site lesnumeriques.com)
• Avis global positif mais certains aspects très négatifs
• Donc avis aspect par aspect nécessaire
• Classification de documents de phrases d’aspects
• Détermination de quel avis porte sur quoi : analyse à grain fin
• Vision de l’opinion de Liu [Liu 2012]
– (entité cible, aspect de l’entité, opinion, source, date)
– Structuration du non-structuré
8204/10/2014
Résumé d’opinions
• Nombreuses opinions émises sur une entité ou ses parties besoin de synthèse
• Synthèse textuelle– Forme particulière de résumé multi-documents
– Techniques par extraction de phrases utilisables dans une certaine mesure si traits d’opinion (présence de mots polarisés) pris en compte
– Mais nécessité de prendre en compte le côté quantitatif et/voire les aspects de l’entité évalués
– Structure : 1ere phrase = opinion sur l’entité, puis une phrase par aspect… en intégrant des nombres si multiples avis
8304/10/2014
Résumé d’opinions
• Synthèse textuelle : exemple extrait des transparents associés à [Liu 2012]
8404/10/2014
Résumé d’opinions
• Synthèse graphique exemple extrait des transparents associés à [Liu 2012]
– Synthèse souvent préférée ; formes multiples
– Si temps connu, évolution affichable
8504/10/2014
Résumé d’opinions
Extrait de Booking.com
8604/10/2014
Résumé d’opinions
• Agrégation d’opinions OpinionEQexemple extrait des transparents associés à [Liu 2012]
8704/10/2014
Encore du travail…
• De nouvelles recherches– Faux commentaires
• Commentaires positifs sur ses propres produits, négatifs sur les produits concurrents
• Recherche sur les contenus difficile ; plutôt patterns de comportement – Que des commentaires positifs sur une marque, négatifs sur une autre
– Notes très élevées, le même jour…
– Contextualisation des opinions (fil de tweets)
• Encore beaucoup de choses non/mal traitées– Recherches bridées par toutes les particularités du langage
naturel• Sarcasme, ironie
• Aspects parfois implicites : le téléphone est cher, ne rentre pas facilement dans une poche
• …
8804/10/2014
4- Applications tirant profit de la profusion de données
8904/10/2014
4- Applications tirant profit de la profusion de données
• Profusion et redondance– Masses de données comme une solution et non
comme un problème
– Constitution d’informations plus complètes, plus certaines
• Applications s’appuyant sur les représentationsvues et des méthodes d’apprentissage artificiel
• Zoom sur trois d’entre elles– Traduction automatique
– Journalisme de données
– Fact-checking (vérification par les faits)
9004/10/2014
4.1- Traduction automatique
9104/10/2014
Une histoire ancienne
• 1954 : 1re démonstration publique d’un traducteur Russe / Anglais IBM - université de Georgetown
– 250 mots, 6 règles de grammaire, 49 phrases
• Grand enthousiasme dans les années 50 et 60, mais…– 1960 : Bar-Hillel (auteur de la 1re conférence sur la T.A. en 52)
• L’obtention de traductions automatiques d’aussi haut niveau que les humaines est irréaliste
– 1966 : rapport ALPAC (automatic language processing advisory committee)
• La traduction automatique est plus lente, moins pertinente et 2 fois plus chère que l’humaine
• Recommandation de développement de l’aide à la traduction humaine
9204/10/2014
Jusqu’à la fin des années 80
• Trois approches fondées sur des règles (lexicales, d’analyse morphologique, syntaxique…)
– Directe : traduction d’une langue source en une cible à l’aide d’un dictionnaire et de règles
– Interlangue : utilisation d’une représentation intermédiaire abstraite
– Par transfert : analyse de la source, production d’une représentation, transfert vers une représentation-cible et génération en langue cible
• Exemples de règles– to grow : grandir mais faire pousser si complément plante…
– Adjectif + Nom Nom + Adjectif
9304/10/2014
Début des années 90
• Développement d’Internet• Besoins nouveaux
– Traduction pour tous
– Production rapide de traductions compréhensibles
– Différentes langues, différents domaines
• Volumes aussi solution• Développement de la traduction fondée corpora ou
données– Traduction automatique statistique (TAS)
– Traduction fondée exemples
9404/10/2014
Traduction automatique statistique [Brown et al. 1990]
• f : phrase en langue source (Français) ; e phrase en langue cible (English)
• Traduction de f en e = recherche de e* qui maximise P(e|f)
• Décomposition en 2 problèmes
– e* = argmax P(e|f) = argmax P(f|e) P(e)e e
– Développer un modèle de traduction garantissant que P(f|e) est élevé pour toute phrase cible appariée à f
– Développer un modèle de la langue cible associant des valeurs P(e) élevées aux phrases grammaticales
règle de Bayes
Estimation des probabilités de n-grammes sur un corpus monolingue
Estimation sur un corpus bilingue parallèle aligné au niveau phrase
9504/10/2014
Corpus multilingues parallèles
• Hansard : débats parlementaires canadiens en Français et Anglais (environ 20 millions de mots par langue)
• Europarl : débats parlementaires européens en 21 langues (environ 60 millions de mots par langue)
• Mais aussi textes techniques, cours, classiques de la littérature…
Monsieur le Président, je voudrais porter à l’attention de la Chambre que nous célébrons aujourd’hui, comme le savent les honorables députés, l’anniversaire de la proclamation de la Charte canadienne des droits et libertés [...]
Mr Speaker, I would like to bring to the attention of the House that today, as Hon. Members are no doubt aware, we are celebrating the anniversary of the proclamation of the Canadian Charter of Rights and Freedoms [...]
Alignement au niveau phrase (ex. extrait du Hansard)
9604/10/2014
Modèles de traduction
• Rappel rôles des modèles de traduction et de langue– Modèle de traduction : guider la construction pour une phrase source
d’un ensemble d’hypothèses de phrases en langue cible
– Modèle de langue : permettre le choix final en favorisant les phrases grammaticales
• Pour chaque unité de traduction en langue source : des traductions possibles en langue cible + scores
• 1ers modèles de traduction = modèles d’alignements de mots– IBM, Brown et al. 1990 : 5 modèles successivement proposés
• IBM1 : hypothèse que toutes les valeurs d’alignement sont équiprobables
• IBM2 : introduction d’une dépendance entre l’alignement du moti et sa position dans la phrase source
• IBM3 : introduction de la notion de fertilité (un mot source peut être traduit par 0 à n mots)
• …
9704/10/2014
Modèles de traduction initiaux
• Table de transfert (lexique bilingue probabilisé)
le (the 0.38) (of 0.15)…
ministre (minister 0.7) (the 0.2) (prime 0.15)…
années (year 0.4) (years 0.3) (some 0.1)…
9804/10/2014
Modèles de traduction = modèles d’alignements de segments
• Début des années 2000 [Zens, Och, Ney 2002]
• Appui sur les alignements mot-à-mot (dans les deux directions F/E et E/F)
• Intérêt de l’alignement de segments– Levée d’ambiguïtés lexicales
– Prise en compte de nombres de mots différents dans les deux langues
– Modélisation simple de réordonnancements locaux
• Nécessité de modélisation des distorsions (réordonnancements non locaux)
9904/10/2014
Modèles d’alignements de segments
• Table de transfert (ou encore de segments)
• En fait, information en règle générale plus riche que dans l’exemple précédent
a big (le grand 0.1) (un des principaux 0.04) (un grand 0.01) (Une grande 0.015) (ont une grande 0.02)…
10004/10/2014
Traduction automatique statistique
• Traduction– Segmentation de f en segments de longueurs variables
– Pour chaque segment, choix d’un équivalent en langue cible
– Réarrangement des segments cibles pour avoir la traduction e
• Décision du système de TAS fondée sur 3 modèles– Modèle de traduction : évalue la qualité d’un appariement entre f
et e et délivre un coût
– Modèle de distorsion : évalue la plausibilité du réordonnancement induit par cet appariement et délivre un coût
– Modèle de langue : évalue la qualité de la phrase cible formée et délivre un coût
• Meilleure traduction (décodage) = meilleur compromis
10104/10/2014
Exempletransparent emprunté à F. Yvon
10204/10/2014
Ressources [Allauzen et Yvon 2011]
• Outre les corpora monolingues ou parallèles, voire comparables…
• Outils d’alignements– Giza++ http://code.google.com/p/giza-pp/
– Outils de Berkeley http://code.google.com/p/berkeleyaligner/
– Boîte à outils Uplug (manipulation de corpus et alignements) http://sourceforge.net/projects/uplug
• Systèmes de TAS– Moses http://www.statmt.org/moses/
10304/10/2014
Évaluation
• Tâche complexe : fidélité au texte source, compréhensibilité, caractère naturel…
• Évaluation subjective (experts) vs automatique• Plusieurs mesures automatiques
• Exemple : BLEUk (Bilingual evaluation understudy)– Comparaison de l’hypothèse de traduction à une ou
des traductions de référence
– N-grammes de longueur 1 à k partagés ou pas
10404/10/2014
Traduction fondée exemples
• [Nagao 1984] mais essor fin des années 80• Utilisation d’une mémoire de traduction
– Phrases déjà traduites, parfois abstraites pour accroître les possibilités de généralisation
• Deux parties– Identification des fragments de la phrase source
s’appariant avec des exemples
– Recombinaison des éléments traduits pour obtenir une phrase correcte en langue cible
10504/10/2014
Traduction de la parole
• Initialement des travaux portant sur des domaines restreints– Négociations multilingues, réservations téléphoniques de séjour…
• Pas de contraintes de domaines maintenant
• Diverses voies explorées– Traduction a posteriori de la transcription
• Reponctuation, suppression des disfluences…
– Traduction des sorties intermédiaires des systèmes de RAP• Scores des deux systèmes mêlés pour ordonner les hypothèses
– Production de transcriptions que le système de traduction sait traduire
• Modèle de langue du système de transcription biaisé par les groupes de mots du modèle de traduction
10604/10/2014
4.2- Journalisme de données
• Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente
• Principes– Découverte de faits intéressants
– Mise en évidence de tendances cachées
– Compilation d’ensembles de données• Accessibles sur une machine
• Distribuables au public
– Visualisation appropriée
10704/10/2014
4.2- Journalisme de données
• Collecte, filtrage, combinaison, analyse de grands volumes de données pour en faire émerger une histoire pertinente
• Principes– Découverte de faits intéressants
– Mise en évidence de tendances cachées
– Compilation d’ensembles de données• Accessibles sur une machine
• Distribuables au public
– Visualisation appropriée
l’utilisateur doit pouvoir interagir avec les données, les personnaliser
passage d’une histoire complexe à un graphique clair (interactif, personnalisable)
10804/10/2014
Une nouveauté qui vient de loin…
• 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau
image extraite de Wikipédia
10904/10/2014
Une nouveauté qui vient de loin…
• 1854 – John Snow : carte d’une épidémie de cholera permettant de comprendre la concentration près des pompes à eau
• 1858 – Florence Nightingale : graphique sur la mortalité dans l’armée britannique montrant que plus de morts étaient dues aux maladies qu’aux balles
image extraite de Wikipédia
11004/10/2014
Une nouveauté qui vient de loin…
• À partir des années 2000 : beaucoup de bases de données disponibles
• 2006 – A. Holotavy : principes de ce que devrait être le journalisme de données [Holotavi 2006]
• 2011 : le guide du datajournalisme (The Data Journalism Handbookhttp://datajournalismhandbook.org/)
• 2012 – M.J. Berens et K. Armstrong (Seattle Times) : prix Pulitzer du journalisme d’investigation pour leur travail sur le lien surmortalité –méthadone dans l’état de Washington
11104/10/2014
Exemple 1 : Gapminder
11204/10/2014
Exemple 2 : émeutes 2011 en Angleterre
• The Guardian− Lien entre
les adresses des accusés et les zones de pauvreté
11304/10/2014
Quelles données ?
• Collectivités, services publics www.data.gouv.fr
11404/10/2014
Quelles données ?
• Collectivités, services publics www.data.gouv.fr
• Web…
• Éventuellement des données plus confidentielles (WikiLeaks)
abondance
croisement
fiabilité
• Beaucoup de bases structurées ; encore très peu de TAL
11504/10/2014
Techniques de RI textuelle• J. Stray et J. Burges 2010• Travail sur les rapports d’enquêtes de l’US Army connus sous
le nom de Iraq War Logs Leak– 390000 rapports d’action sur la guerre de 2004 à 2009
• Focus sur le mois de décembre 2006 (11600 rapports)
• Chaque document – Représenté par un vecteur pondéré de mots (tf*idf)
– Caractérisé par ses 3 mots les plus saillants
– Représenté par un nœud coloré selon le type d’incident décrit (métadonnée)
• Comparaison : cosinus
• Visualisation grâce au logiciel de graphe Gephi https://gephi.github.io/
– Chaque cluster formé caractérisé par ses mots saillants
11604/10/2014
J. Stray et J. Burges 2010
• Caractérisation thématique
11704/10/2014
J. Stray et J. Burges 2010
Événements criminels
Risque d’explosion
11804/10/2014
Plus de TAL et de linguistique
• J. Véronis : analyse linguistique fine de discours politiques
• Focus sur – L’utilisation des pronoms
– Les EN employées
– Les thèmes abordés
• Travail important lors de la campagne présidentielle 2012 : Observatoire des discours
11904/10/2014
Observatoire des discours
12004/10/2014
Vers de l’automatisation grâce au TAL• [Tannier 2014] : identification automatique de relations
d’alliance ou d’opposition entre pays sur un sujet donné
• Corpus : dépêches AFP + Web• Pré-travail
– Création d’un lexique de 110 déclencheurs de relations positives (applaud, agree) ou négatives (criticism…)
• Prétraitement du corpus– Normalisation des dates, segmentation en chunks,
résolution de coréférence, étiquetage en EN
– Utilisation de DBPedia et d’heuristiques pour lier capitales, villes, personnes et pays
12104/10/2014
Vers de l’automatisation grâce au TAL
• Apprentissage d’un classifieur (SVM) classant chaque phrase avec au moins deux EN et un déclencheur
– Relation ou pas de relation
– Relation positive ou négative
Indonesia voiced support for East Timor's bid to join the ASEAN.� POS(Indonesia, East Timor)
China earlier protested Obama's meeting with the Dalai Lama, [...].� NEG(China, USA)
12204/10/2014
Vers de l’automatisation grâce au TAL• Chaque phrase contenant au moins une relation :
contenu, pays impliqués, relation(s) et date indexés• Interrogation via un moteur de recherche
– Sujet (mots-clés)
– Dates minimale et maximale
– Nombre de pays
• Pour chaque paire de pays (e1, e2) à la date d, calcul d’un poids
– Poids(e1, e2, d) = log �����(��,�,�)
�� ��(��,�,�)
• Lissage du poids sur une fenêtre temporelle– Moyenne pondérée sur la fenêtre
12304/10/2014
Requête « Syria » entre « USA » et « Russia »
Série temporelle – 2 pays
Transparent emprunté à X. Tannier
12404/10/2014
Requête « Syria » en « 2012 »
Distances et couleurs marquants les alliances/oppositions
Transparent emprunté à X. Tannier
12504/10/2014
4.3- Fact-checking
• Vérification par les faits• Vérification de la véracité d’affirmations issues de
discours ou de documents– Vrai / faux, omissions, lectures à sens unique…
• Par comparaison avec des sources d’informations fiables
– Tirer profit de la masse d’informations disponible
12604/10/2014
Des exemples
• Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’universitéde Pennsylvanie
• 2007 : site PolitiFact du Tampa Bay Times– Truth-O-Meter
12704/10/2014
Truth-O-Meter
12804/10/2014
Des exemples
• Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’universitéde Pennsylvanie
• 2007 : site PolitiFact du Tampa Bay Times– Truth-O-Meter
– Obameter
• 2007 : site FactChecker du Washington Post
12904/10/2014
FactChecker
13004/10/2014
Des exemples
• Début des années 2000 : site FactCheck.org, projet du Annenberg Public Policy Center de l’universitéde Pennsylvanie
• 2007 : site PolitiFact du Tampa Bay Times– Truth-O-Meter
– Obameter
• 2007 : site FactChecker du Washington Post• En France
– Radio : Le vrai du faux, France-Info (2012)
– TV : Véritomètre sur la campagne présidentielle de 2012, OWNI et i>TELE
13104/10/2014
Véritomètre
13204/10/2014
Techniques de vérification
• Travail essentiellement manuel– Par recoupement de plusieurs bases
• Fiabilité acquise (ou renforcée) grâce à la masse de données
– Parfois par appel au crowd-sourcing
• Un peu d’automatisation : prototype TruthTeller du Washington Post
– Repérage d’affirmations stockées en bases et déjà contrôlées dans un discours transcrit
13304/10/2014
TruthTeller
13404/10/2014
Ce que le TAL peut offrir
• Recherche d’information– Comparaison de contenus
• Systèmes de questions/réponses– Réponses à des questions précises
• Extraction d’informations– Extraction d’un fait, de ses attributs
• Techniques d’apprentissage artificiel– Pour faire émerger des connaissances
13504/10/2014
Ce que le TAL offre actuellement
• Trouver un fait exact parmi des informations contradictoires
– En se fondant sur la fiabilité des sites le citant [Yin et al. 2007]
• Interdépendance fiabilité d’un site – crédibilité d’un fait
• Score d’un fait : dépend du score des sites le mentionnant et est influencé par les scores des faits qui lui sont similaires
• Score d’un site : dépend du score des faits qu’il contient
• Algorithme itératif transitif– Scores des sites initialisés à la même valeur
– Scores des faits calculés
– Scores des sites recalculés
– Itération jusqu’à convergence
13604/10/2014
Ce que le TAL offre actuellement
• Trouver un fait exact parmi des informations contradictoires
– En se fondant sur l’objectivité du langage des sites le citant [Nakashole et Mitchell 2014]
• Langage objectif : neutre, impartial, non personnel, non émotionnel
• Interdépendance objectivité d’une source et sa fiabilité
• Proposition d’un classifieur (apprentissage supervisé) objectif vssubjectif, fondé sur différents traits dont la présence de mots issus de lexique d’opinion
• Score d’un candidat-fait : fonction de l’objectivité des sources qui le citent et du score des faits co-mentionnés avec lui
13704/10/2014
Ce que le TAL offre actuellement• Reconnaître si la source d’un fait croit en la véracité
du fait qu’elle énonce [Saurì et Pustejovsky 2012]
– Granularité assez fine• Polarité du fait : affirmé ou nié
• Modalité épistémique : certain, probable ou possible
– Travail d’expertise linguistique pour définir• Une liste de marqueurs de la polarité et de la modalité :
– non, certainement, supposé, possible, apparemment, pouvoir, dire, douter, regretter…
• Les influences entre ces marqueurs au fil des constructions syntaxiques
• Bilan global : TAL encore peu utilisé en Fact-checking
13804/10/2014
Conclusions TAL et Big Data• Pas une révolution, celle du TAL datant d’avant
– Mais plus de données, plus de variété
– Revisite d’applications ou techniques de TAL
– Essor d’applications pour faire face au déluge de données
– Essor d’applications pour tirer profit du déluge de données
• Chercheur en TAL transformé en « scientifique des données » (data scientist)
– Mais aussi utilisation de représentations mixant des grains différents
• Prise de conscience de l’importance de l’accès au contenu des données langagières
• Attente d’applications efficaces et explicatives
13904/10/2014
Bibliographie• ALLAN (J.), Building Hypertext Using Information Retrieval, Information Processing and Management, Vol. 33(2), 1997, p. 133-144.• ALLAUZEN (A.) et YVON (F.), Méthodes statistiques pour la traduction automatique, dans GAUSSIER (É.) et YVON (F.), Modèles statistiques pour l'accès à
l'information textuelle, Paris, Hermès, chapitre 7, 2011, p. 271-356.• BROWN (P.F.), COCKE (J.), DELLA PIETRA (S.A.), DELLA PIETRA (V.J.), JELINEK (F.), LAFFERTY (J.D.), MERCER (R.L.) et ROOSSIN (P.S.), A statistical
approach to machine translation, dans Computational Linguistics, Vol. 16(2), 1990, p. 79-85.• ESULI (A.) et SEBASTIANI (F.), SentiWordNet: A publicly available lexical resource for opinion mining, dans Actes de 5th Conference on Language Resources and
Evaluation (LREC 2006), Gênes, Italie, 2006, pp. 417-422.• FAIRON (C.), KLEIN (J.) et PAUMIER (S.), Le langage SMS. Étude d'un corpus informatisé à partir de l'enquête « Faites don de vos SMS à la science », Louvain-la-
Neuve, Presses universitaires de Louvain, 2006.• GILLICK (D.) et FAVRE (B.), A scalable model for summarization, dans Actes de NAACL HLT Workshop on Integer Linear Programming for Natural Language
Processing, Boulder, USA, 2009, p. 10-18.• GOLDSTEIN (J.) et CARBONELL (J.), Summarization : (1) using MMR for diversity-based reranking and (2) evaluating summaries, dans Actes de Workshop On
TIPSTER Text Program : Phase III, Baltimore, USA, 1998, p. 181-195.• GRAVIER (G), GUINAUDEAU (C.), LECORVÉ (G.) et SÉBILLOT (P.), Exploiting speech for automatic TV delinearization : From streams to cross-media semantic
navigation, dans Eurasip Journal on Image and Video Processing, Vol. 2011, 2011.• HEARST (M.A.), TileBars: Visualization of term distribution information in full text information access, dans Actes de ACM SIGCHI Conference on Human Factors in
Computing Systems (CHI), Denver, USA, 1995, p. 59-66.• HEARST (M.A.), TextTiling: Segmenting text into multi-paragraph subtopic passages, dans Computational Linguistics, Vol. 23(1), 1997, p. 33-64.• HIRSCHMAN (L.) et GAIZAUSKAS (R.), Natural language question answering, dans Natural Language Engineering, Vol. 7(4), 2001, p. 275-300.• HOLOTAVI (A.) (2006, 6 sep.), A fundamental way newspaper sites need to change, sur http://www.holovaty.com/writing/fundamental-change/. Consulté le 9 juil.
2014.• LIN (C.-Y.), Rouge: A package for automatic evaluation of summaries, dans Actes de ACL Workshop Text summarization branches out, Barcelona, Espagne, 2004,
p. 74-81.• LIU (B.), Sentiment analysis and opinion mining, dans Morgan & Claypool publishers, 2012.• MIHALCEA (R.), Graph-based ranking algorithms for sentence extraction, applied to text summarization, dans Actes de 42nd Annual Meeting of the Association for
Computational Linguistics, companion volume (ACL 2004), Barcelona, Espagne, 2004.• NAGAO (M.), A framework of a mechanical translation between Japanese and English by analogy principle, dans Elithorn (A.) et Banerji (R.), Artificial and Human
Intelligence, Amsterdam, North-Holland Publishing Company, chapitre 11, 1984, p. 173-180.• NAKASHOLE (N.) et MITCHELL (T.M.), Language-aware truth assessment of fact candidates, dans Actes de 52nd Annual Meeting of the Association for
Computational Linguistics (ACL 2014), Baltimore, USA, 2014, p. 1009-1019.• SAURÍ (R.) et PUSTEJOVSKY (J.), Are you sure that this happened? Assessing the factuality degree of events in text, dans Computational Linguistics, Vol. 38(2),
2012, p. 261-299.• TANNIER (X.), Traitement des événements et ciblage d'information, Habilitation à diriger des recherches, Université Paris Sud, 2014.• TURNEY (P.D.), Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews, dans Actes de 40th Annual Meeting of the
Association for Computational Linguistics (ACL 2002), Philadelphia, USA, 2002, p. 417-424.• UTIYAMA (M.) et ISAHARA (H.), A statistical model for domain-independent text segmentation, dans Actes de 39th Annual Meeting on the Association for
Computational Linguistics (ACL 2001), Toulouse, France, 2001, p. 499-506.• YIN (X.), HAN (J.) et Yu (P.S.), Truth discovery with multiple conflicting information providers on the Web, dans Actes de 13th International Conference on Knowledge
Discovery and Data Mining (KDD'07), Short paper, San Jose, USA, 2007, p. 1048-1052.• ZENS (R.), OCH (F.J.) et NEY (H), Phrase-based statistical machine translation, dans KI-2002: Advances in Artificial Intelligence, Springer Verlag, LNAI Vol. 2479,
2002, p. 18-32.