Click here to load reader

Séminaire Ist inria 2014 : Pascale Sébillot

  • View
    308

  • Download
    3

Embed Size (px)

DESCRIPTION

"Le traitement automatique du langage (TAL) face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ?" : Prsentation de Pascale Sebillot, chercheuse l'IRISA lors du sminaire IST Inria : "Big Data, nouvelles partitions de l'information" ; Saint-Paul-Ls-Dax du 6 au 10 octobre 2014.

Text of Séminaire Ist inria 2014 : Pascale Sébillot

 1. Le traitement automatique des langues face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ? Pascale SBILLOT PRU en informatique lINSA de Rennes Membre de lquipe LinkMedia de lIRISA et dINRIA 2. 2 04/10/2014 LinkMedia Creating and exploiting explicit links between multimedia fragments Primtre de LinkMedia Objectifs fondements scientifiques de la structuration de collections de documents multimdias par des liens explicites nouveaux usages et techniques de traitement de contenus induits par ces liens 3. 3 04/10/2014 Mon parcours de recherche Domaine : traitement automatique des langues (TAL) Thse en syntaxe passage la smantique Acquisition de connaissances partir de corpus de textes grce des techniques dapprentissage artificiel Application du TAL la recherche dinformation Application du TAL la reconnaissance automatique de la parole Application du TAL la structuration de (collections de) documents multimdias 4. 4 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution ? 5. 5 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution : NON Rvolution du TAL faite fin des annes 80 dbut des annes 90 Du TAL rationaliste Approches symboliques base de rgles Expertise humaine forte Focus sur lexplication des jugements de grammaticalit, la construction de reprsentations du sens labores au TAL empirique Approches fondes sur les donnes Volumes de textes et puissance des machines croissants Apprentissage artificiel, linguistique de corpus Observation grande chelle, reprsentations du sens utile 6. 6 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution : OUI Nouveaux types de donnes textuelles prendre en compte Volumes toujours plus consquents Empirisme toujours plus prsent Moins / pas (ou trs peu) dexpertise Plus de comptage 7. 7 04/10/2014 Impact du Big Data sur le TAL Organisation de la prsentation 1. Spcificits des donnes textuelles dans le monde du Big Data 2. Reprsentations et exploitation des donnes textuelles 3. Applications pour faire face aux masses de donnes 4. Applications tirant profit de la profusion de donnes 8. 8 1- Spcificits des donnes textuelles 04/10/2014 dans le monde du Big Data Les 3 V (volume, varit, vlocit) appliqus aux donnes textuelles Proprits intrinsques compliquant laccs au sens 9. 9 04/10/2014 Varit Donnes produites (directement) sous une forme textuelle Textes crits, emails, sites Web Blogs, rseaux sociaux Sms 10. 10 04/10/2014 Varit Donnes produites (directement) sous une forme textuelle Textes crits, emails, sites Web Blogs, rseaux sociaux Sms Tu te x mal1 JV encor dvoir 10QT aussi dans la qualit Exemples issus de [Fairon et al. 2006] 11. 11 04/10/2014 Varit Donnes langagires issues dun mdia diffrent Systme de reconnaissance gnrateur derreurs Images de textes Dactylographis, manuscrits OCR : logiciel de reconnaissance optique de caractres Segmentation en caractres individuels Classifieur fond sur un apprentissage neuronal pour la reconnaissance Parole contenue dans les documents audio/vidos Systme de reconnaissance automatique de la parole (RAP) 12. Systme de reconnaissance automatique de 12 04/10/2014 la parole Systme de RAP Signal de parole Hypothse de transcription w*1 ... w*P c1 ... cP Mesures de confiance 13. Systme de reconnaissance automatique de 13 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole 14. Systme de reconnaissance automatique de 14 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Vocabulaire : mots - prononciations 15. Systme de reconnaissance automatique de 15 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Vraisemblance du signal sachant une squence de mots 16. Systme de reconnaissance automatique de 16 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Probabilit a priori des squences de mots (n-grammes) 17. 17 quant aux voix catholiques de serge adda alberta _ il est tout ce qu' il y a de strictes _ srie sous le menton _ l encadre son visage sans permettre de voir _ un seul de ses cheveux _ Quant au voile catholique de soeur ____ Adalberta , il est tout ce qu' il y a de strict , serr sous le menton , il encadre son visage sans permettre de voir , un seul de ses cheveux . 04/10/2014 Spcificits des transcriptions Particularits de loral Disfluences Constructions grammaticales particulires Format de transcription Pas de ponctuation, de majuscules Segmentation en groupes de souffle, pas en phrases Erreurs de transcription Mots non fiables et mesures de confiance imparfaites Taux d'erreur sur les mots ou WER (word error rate) 18. 18 04/10/2014 Volume et Vlocit Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/) Go-globe.com, juin 2011 19. 19 Proprits intrinsques compliquant 04/10/2014 laccs au sens Donnes non structures Pas de smantique porte par une structure a priori Donnes porteuses de sens, comprhensibles par un humain et fortement prsentes Ncessit de savoir en extraire linformation pertinente Donnes difficiles comprendre par une machine Ambigut Implicite Formulations diffrentes dune mme ide 20. 20 04/10/2014 Ambigut Lexicale Statique : prsident : verbe / nom ? Dynamique : rat : nom / adjectif Syntaxique Structure hirarchique : la petite brise la glace Ambigut de rattachement : jai t voir un film avec Brad Pitt Smantique Homonymie : avocat : fruit / auxiliaire de justice Polysmie : agneau : animal / viande Porte des quantificateurs : toutes mes soeurs ont pous un mdecin vs toutes les personnes prsentes ont entendu un cri Pragmatique Paul : tu viens la fte chez Luc mardi soir ? Virginie : jai entendu que Benot sera l 21. 21 04/10/2014 Implicite Connaissances partages par les locuteurs Encyclopdiques De sens commun De scenarii Interprtations videntes [exemples emprunts F. Yvon] Elle sest assise, a command un caf la serveuse (). Puis elle est partie sans payer Qui ? Le professeur a envoy llve au censeur parce quil lanait des boulettes parce quil voulait avoir la paix parce quil voulait le voir Emplois mtaphoriques, mtonymiques Premier violon 22. 22 Formulations diffrentes dune mme ide Problme pour compter des occurrences dun concept Variation 04/10/2014 Graphique, morphologique : mot cl, mot-cl, mots-cls Syntaxique, morphosyntaxique : acidit du sang, acidit leve du sang, acidit sanguine Paradigmatique : vlo, bicyclette, cyclisme, moyen de transport Paraphrase 23. 23 Volumes, varit, proprits intrinsques des donnes textuelles 04/10/2014 Spcificits des donnes textuelles Impossibilit de faire des analyses linguistiques fines Rapidement Sur des textes dgrads et apprentissage Varit : domaine ouvert Ambiguts multiplies Sources de connaissance non utilisables Changement de paradigme du TAL Rationalisme Empirisme TAL fond linguistique TAL fond statistique Comprendre finement Avoir des reprsentations de sens utiles 24. 24 2- Reprsentations et exploitation des 04/10/2014 donnes textuelles Reprsentation du sens rationaliste Vision syntaxico-logique Logique comme langage de reprsentation de connaissance et de raisonnement Interprtation compositionnelle du langage dirige par la syntaxe sous forme de formules logiques Vision Intelligence artificielle Modle du monde (ou domaine) gnrique Interprtation dun nonc ou discours : instanciation du modle Ex. : scripts (Schank) 25. 25 2- Reprsentations et exploitation des 04/10/2014 donnes textuelles Reprsentation du sens empirique Sens utile et non vrai sens On ne cherche pas comprendre le langage Sens dun mot Dpendant de / exprimable par son co-texte Co-textes comparables pour dtecter les mots du mme paradigme Sens dun document Des mots extraits du texte qui, ensemble, reprsentent son sens Changement de thme Changement global de vocabulaire 26. 26 04/10/2014 Changement de paradigme Expertise Donnes Extraction de la connaissance des donnes par apprentissage artificiel (observation de rgularits et redondances) Sens lments de reprsentation extraits des mots, des phrases, des documents utiles pour lapplication vise Exemples : noms et verbes les plus frquents, noms de personnes, de lieux et dentreprises mentionns tous les niveaux : document, paragraphe, phrase 27. 27 04/10/2014 lments de reprsentation N-grammes de caractres, de mots Mots : tous ou filtrs Type prcis : noms, verbes, termes complexes, entits nommes (EN : noms de personnes, lieux) Saillance Comptage Frquence Frquence dans lunit considre mais pas dans la collection Autres Position Mot / phrase du dbut lments situs entre deux items, avant, aprs 28. 28 04/10/2014 Reprsentation Taille de la collection Nb documents contenant le mot 29. 29 04/10/2014 Reprsentation Exploitation Par comparaison des reprsentations via des mesures de similarit Fondes intersection des reprsentations Cosinus Par des mthodes dapprentissage artificiel 30. 30 Des outils pour manipuler et reprsenter Segmenteurs 04/10/2014 Pas toujours simple : lopra / aujourdhui ou Ohara, Jean-Paul / qua-t-il dit ? tiqueteurs morphosyntaxiques (PoS taggers) LeDetMasSing prsidentNomCommunMasSing Lemmatiseurs / analyseurs morphologiques / raciniseurs (stemmers) parlons, parlera, parlrent parler Extracteurs de termes simples ou complexes, dentits nommes, de relations smantiques Analyseur en dpendances, en chunks Autres outils lis lapplication vise (dextraction de n-grammes au lieu de mots) 31. 31 04/10/2014 Apprentissage artificiel Branche de lIA qui tudie lcriture de programmes qui samliorent en se confrontant aux donnes Apprentissage supervis Donnes tiquetes disponibles Apprentissage non supervis Pas de donnes tiquetes Exemple de technique : clustering Apprentissage de quoi ? De reprsentations (ex. : probabilits de n-grammes de mots) Doutils De clusters De connaissances par observation de rgularits dans les masses de donnes 32. 32 Le chercheur en TAL lheure du Big Data Transformation en scientifique des donnes (data scientist) 04/10/2014 Quelles reprsentations ( grain souvent grossier) ? Quelles techniques dapprentissage artificiel ? Quelles mesures de similarit ? Quelles mthodes de visualisation ? 33. 33 3- Applications pour faire face aux masses 04/10/2014 de donnes 34. 34 3- Applications pour faire face aux masses 04/10/2014 de donnes De trs nombreuses applications pour aider lhumain face au dluge de donnes Applications sappuyant sur les reprsentations vues et des mthodes dapprentissage artificiel Zoom sur trois dentre elles Rsum automatique (dun ou plusieurs textes) Structuration et navigation Fouille dopinions 35. 35 04/10/2014 3.1- Rsum automatique Intrt : savoir si texte lire in extenso Domaine ancien du TAL Dbut dans les annes 50 Fort essor au milieu des annes 90 Notion de bon rsum ? Ralits diverses Ides-cls Couverture maximale Bande-annonce Contrainte de taille 36. 36 04/10/2014 Typologie(s) Un ou des document(s) Point de dpart : document(s) ou requte Rsum par abstraction ou par extraction Si extraction, des phrases ou des mots-cls Si extraction de phrases, curation a posteriori Remplacement des mots rpts, des pronoms Fusion de phrases, parties inutiles tes 37. 37 04/10/2014 Typologie(s) Un ou des document(s) Point de dpart : document(s) ou requte Rsum par abstraction ou par extraction Si extraction, des phrases ou des mots-cls Si extraction de phrases, curation a posteriori Remplacement des mots rpts, des pronoms Fusion de phrases, parties inutiles tes Mthodologie globale Ancrage linguistique fort Apprentissage artificiel Reprsentations fondes recherche dinformation (RI) 38. 38 04/10/2014 Rsum par extraction Saillance Score pour chaque phrase / passage Indicateurs combins Score des mots : tf, tf*idf (somme) Prsence de mots-cls, dentits nommes, de marqueurs du discours Longueur Position par rapport au texte, son paragraphe Pondration entre les indicateurs pouvant tre fixe ou apprise 39. 39 04/10/2014 Rsum par extraction Redondance Saillance seule insuffisante Non redondance par rapport aux phrases dj dans le rsum MMR (maximal marginal relevance [Goldstein et Carbonell 98]) Score combinaison linaire de saillance et non redondance MMR Argmax(PiRS) [l(Sim1(Pi,Q)) (1 l)max(DjS) Sim2(Pi,Dj)] Q : document rsumer / requte utilisateur ; P : phrases R : liste ordonne des phrases ; S : sous-ensemble des phrases de R dj dans le rsum Sim : mesure de similarit (cosinus) Cas multi-documents : clustering des phrases similaires et extraction dune phrase par cluster 40. 40 04/10/2014 Extraction fonde centrode Score dune phrase : fonction de sa centralit par rapport au thme des(du) documents rsumer Document centrode Pseudo-document qui contient les mots ayant un score (tf*idf) suprieur un seuil Cas multi-documents : un centrode par cluster Score dune phrase fonction de Sa similarit avec le centrode (de son cluster dans le cas multi-documents) Sa non redondance par rapport aux phrases retenues Logiciel Mead : http://www.summarization.com/mead/ 41. 41 04/10/2014 Extraction fonde graphe Score dune phrase : fonction globalement du score des phrases avec lesquelles elle partage le plus de mots Proche de PageRank (Google) Une phrase recommande dautres phrases Algorithme TextRank [Mihalcea 2004] Chaque phrase : un noeud du graphe Arc entre deux noeuds : pondration selon le nombre de mots partags (et longueur des phrases) Poids initial assign aux noeuds Itration de lalgorithme recalculant le score du noeud en fonction du score des noeuds lis et du poids des arcs Conservation des phrases aux scores les plus levs Intrt : fonctionne sur linformation issue de tout le graphe 42. 42 04/10/2014 Extraction fonde contraintes ou optimisation Choix des phrases qui maximisent une fonction objectif Donc pas un algorithme glouton, mais vue globale du choix des phrases (et de la redondance) Expression de contraintes et de la fonction maximiser Contraintes : taille, phrases plutt longues Utilisation dun solveur de contraintes 43. 43 04/10/2014 Extraction fonde contraintes ou optimisation Un exemple : [Gillick et Favre 2009] Fonction optimiser Somme des poids des concepts prsents dans le rsum Concept : bigramme informatif Poids dun concept : nombre de documents o il apparat Contraintes Somme des longueurs des phrases conserves infrieure la longueur maximum Non slection de phrases sans concept Slection dune phrase : slectionner tous ses concepts Slection dun concept possible si prsent dans au moins une phrase garde 44. 44 04/10/2014 valuation Problme pineux, accord faible entre humains De nombreuses campagnes dvaluation Confrences DUC puis TAC Des mesures proposes Rsums de rfrence produits par des humains Mesures fondes sur la prsence d units , pas de phrases ROUGE [Lin 2004] Proportion de n-grammes partags entre le rsum produit et les rfrences Plusieurs variantes 45. 45 04/10/2014 Rsum de loral transcrit Moins de travaux Rsums de runions, dmissions TV Application de mthodes de TAL Adaptations pour loral Reponctuation Utilisation des mesures de confiance Utilisation de linformation acoustique Cas des rsums de vidos Travail a posteriori ncessaire pour avoir des rsums acceptables (i.e., coutables et regardables) 46. 46 04/10/2014 Rsum automatique Bilan Mthodologies fonctionnelles Qualit / cohsion textuelle encore moyenne Aspect temporel peu pris en compte Rsum de donnes textuelles autres qucrites encore limit valuation encore amliorer 47. 47 04/10/2014 3.2- Structuration et navigation Donnes textuelles Trs nombreuses Non organises ( vrac ) Souvent vues individuellement, peu au sein dun ensemble Organisation pour perception ou navigation claire Regroupement / tablissement de liens selon une notion de proximit, surtout smantique Diffrentes solutions, sur des textes crits et de loral transcrit 48. 48 Organisation a posteriori dune requte Recherche dinformation (RI) une colonne par segment du texte 04/10/2014 Mise en vidence des termes de la question dans les documents retourns [Hearst 1995] une ligne par mots de la question 49. 49 Organisation a posteriori dune requte Recherche dinformation (RI) 04/10/2014 Mise en vidence des termes de la question dans les documents retourns [Hearst 1995] Clustering des rsultats (par thmes, entits nommes) 50. 50 Organisation a posteriori dune requte 04/10/2014 51. 51 Organisation a posteriori dune requte galement une version par apprentissage partir de chronologies manuelles (boosting) 04/10/2014 Apprentissage des caractristiques dune date saillante Traits lis au fait que plus une date est mentionne plus elle est importante Traits lis au fait quun vnement important est mentionn longtemps Dans les diffrents cas, constitution de la chronologie partir des phrases contenant les dates saillantes 52. 52 INDEX Requte : rvolution tunisienne 04/10/2014 Le prsident gyptien Hosni Mubarak, qui a dmissionn vendredi, et le prsident Zine El Abidine Ben Ali, qui a quitt le pouvoir le 14 janvier, ont fait face des protestations populaires sans prcdent. Zine el-Abidine Ben Ali a annonc jeudi soir qu'il ne se reprsentera pas en 2014 au poste qu'il occupe Ben Ali a sign sa dmission vendredi aprs une vague de protestations dclenche par le suicide dun tudiant de 26 ans que la police avait empch de vendre des fruits et des lgumes pour vivre. Des manifestants ont galement blesss vendredi, y compris Chawki Belhoussine El Hadri Ben Ali a sign sa dmission vendredi aprs une vague de protestations dclenche par le suicide dun tudiant de 26 ans que la police avait empch de vendre des fruits et des lgumes pour vivre. La rvolte sest propage le 24 dcembre dans le centre-du pays, notamment Menzel Bouzaiane, o Mohamed Ammari est tu par balle dans la poitrine par la police. Requte Plusieurs milliers de documents Transparents emprunts X. Tannier 53. 53 04/10/2014 Regroups par dates normalises Ordonns selon limportance de la date La rvolte sest propage le 24 dcembre dans le centre-du pays, notamment Menzel Bouzaiane, o Mohamed Ammari est tu par balle dans la poitrine par la police. Des manifestants ont galement blesss vendredi, y compris Chawki Belhoussine El Hadri 14 jan. 2011 Ben Ali a sign sa dmission vendredi aprs une vague de protestations dclenche par le suicide dun tudiant de 26 ans que la police avait empch de vendre des fruits et des lgumes pour vivre. Zine el-Abidine Ben Ali a annonc jeudi soir qu'il ne se reprsentera pas en 2014 au poste qu'il occupe Ces rvlations ont lieu aprs la rvolte tunisienne qui a mit fin 23 ans de rgne de Ben Ali, qui sest enfui de Tunisie pour lArabie Saoudite vendredi. Clusters temporels plus important 24 dc. 2010 13 jan. 2011 INDEX Ben Ali a donn jeudi l'ordre la police de ne plus tirer sur les manifestants Requte Plusieurs milliers de documents Requte : rvolution tunisienne 54. 54 04/10/2014 Requte : rvolution tunisienne Regroups par dates normalises Ordonns selon limportance de la date La rvolte sest propage le 24 dcembre dans le centre-du pays, notamment Menzel Bouzaiane, o Mohamed Ammari est tu par balle dans la poitrine par la police. Des manifestants ont galement blesss vendredi, y compris Chawki Belhoussine El Hadri 14 jan. 2011 Ben Ali a sign sa dmission vendredi aprs une vague de protestations dclenche par le suicide dun tudiant de 26 ans que la police avait empch de vendre des fruits et des lgumes pour vivre. Zine el-Abidine Ben Ali a annonc jeudi soir qu'il ne se reprsentera pas en 2014 au poste qu'il occupe Ces rvlations ont lieu aprs la rvolte tunisienne qui a mit fin 23 ans de rgne de Ben Ali, qui sest enfui de Tunisie pour lArabie Saoudite vendredi. Clusters temporels plus important 24 dc. 2010 13 jan. 2011 INDEX Ben Ali a donn jeudi l'ordre la police de ne plus tirer sur les manifestants Requte Plusieurs milliers de documents Choix des descriptions dvnements Maximiser la pertinence Minimiser la redondance 55. 55 Chronologie vnementielle 04/10/2014 Requte : rvolution tunisienne 17 dc. 2010 : Mohamed Bouazizi simmole par le feu pour protester contre le harclement de la police et le chmage. 25 dc. 2010 : Les protestations dmarrent Sidi Bouzid et stendent Bouzaiene, Kairouan, Sfax, Ben Guerdane, Sousse. 27 dc. 2010 : Les protestations stendent Tunis, la capitale du pays. 14 jan. 2011 : Le prsident Ben Ali senfuit en Arabie Saoudite. obtenue 56. Autre rponse de la recherche dinformation 56 Les systmes questions-rponses [Hirschman et Gaizauskas 2001] 04/10/2014 Rponse prcise une question au lieu de documents contenant les termes de la question 57. 57 Liens entre documents fonds contenu Cration de liens initie par la communaut hypertexte [Allan 1997] 04/10/2014 Souvent sur des documents structure assez marque (emails, articles de Wikipdia) Souvent sur de petites collections (a posteriori dune requte par exemple) 58. 58 04/10/2014 Systmes de recommandation Souvent mlange de filtrages fond contenu et collaboratif Filtrage collaboratif Calcul de corrlation entre les avis des autres utilisateurs et celui vis Prdiction pour un item : par exemple calculable par la moyenne pondre (par le coefficient de corrlation) des valuations pour cet item des utilisateurs similaires Filtrage fond contenu laboration dun profil de lutilisateur grce aux mots-cls mergeant des items quil apprcie Comparaison au contenu dun item non valu pour le recommander ou pas lutilisateur 59. 59 Graphes temporels dvnements [Tannier 2014] Dpches AFP contenant des vnements Organisation temporelle fonde sur trois relations 04/10/2014 Mme vnement Continuation (consquence, suite naturelle) Raction (opinion sur un vnement) Annotation manuelle des dpches entre dates d et d+7 si 2 mots-cls communs dans 1er paragraphe Apprentissage (svm) Relation vs pas de relation Mme vnement vs continuation Continuation vs raction 60. 60 Graphes temporels dvnements [Tannier 2014] 04/10/2014 2 avril, 21:05 Georges Bush dclare que le Pape tait un champion de la libert humaine 2 avril, 01:51 Un cardinal dit que la mort du Pape est imminente 2 avril, 15:39 Le Pape dans une situation srieuse mais rsiste 2 avril, 20:58 La Reine Elisabeth II exprime son profond regret 2 avril, 21:40 Jean-Paul II sera enterr mercredi au Vatican continuation continuation 2 avril, 19:53 Le Pape 2e satv mrilo, r1t9:57 raction Le Pape e2s ta mvroilr,t 2a0u: 0V1atican raction continuation Le Pape est mort au Vatican Transparent emprunts X. Tannier 61. 61 Structuration et navigation dans une 04/10/2014 collection de journaux TV Segmentation automatique de journaux TV en reportages successifs [Gravier et al. 2011] Navigation Vers dautres reportages abordant le mme sujet Vers des pages Web offrant de linformation complmentaire Application de techniques de TAL et de RI, mlant grain grossier et grain plus fin, sur la parole transcrite 62. 62 04/10/2014 Segmentation thmatique La plupart des techniques fonde sur la cohsion lexicale Changement de thme = changement de vocabulaire Mthodes locales Recherche de ruptures par comparaison de zones adjacentes et dtection de minima de similarit [Hearst 1997] Mthodes globales Production directe des segments les plus cohrents [Utiyama et Isahara 2001] Possibilit dadaptation aux transcriptions de la parole ? 63. 63 04/10/2014 Adaptation aux transcriptions Particularits problmatiques Erreurs de transcription Manque de rptitions Modification du calcul de la cohsion lexicale Prise en compte des mesures de confiance, en particulier lors du comptage des occurrences de mots Prise en compte des relations smantiques entre les mots cigarette cigare 0.476838 cigarette gitane 0.378044 cigarette gauloise 0.37508 cigarette clope 0.366334 cigarette tabac 0.304606 mots partageant des contextes similaires 64. 64 04/10/2014 Rsultats de la segmentation Corpus 57 JT de France 2 fvrier et mars 2007 Systme de reconnaissance de la parole WER : 20% sur donnes Ester 2 (actualits radio) valuation Changement de thme chaque reportage (1180 frontires) Frontire correcte : < 10s par rapport une frontire de rfrence Rappel, prcision 65. 65 04/10/2014 Rsultats de la segmentation Mesures de confiance et relations smantiques 66. Mais aussi, forme de rsum informatif du contenu Modifications du tf*idf car oral transcrit 66 Caractrisation des segments obtenus Caractrisation par mots-cls extraits Deux rles Permettre de comparer des reportages entre eux Permettre dinterroger le Web pour trouver des pages lies Lemmatisation Pnalit introduite pour les noms propres Prise en compte des mesures de confiance 04/10/2014 67. 67 Extraction de mots-cls Tf*idf classique sur les lemmes 04/10/2014 1.000 voile 0.756 adda 0.521 bernadette 0.501 lacit 0.483 musulmans, musulmane 0.449 photo, photos 0.429 sarkozy 0.387 chirac 0.372 prfecture 0.364 serge du tchador et de la corne est au nom du principe de la lacit de l' tat on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' tait pas question de porter le voile en photo des entits un rappel l' ordre qui visiblement a chapp bernadette chirac encore le journal le canard enchan l' pouse du prsident de la rpublique se dmnent pour qu' une religieuse puisqu' elle garder son voile est une trange mal le voile de serge adda alberta ... S(l) = tf(l) x idf(l) 68. 68 04/10/2014 Extraction de mots-cls + Pnalits sur les noms propres - 1.000 voile - 0.567 adda 0.501 lacit 0.483 musulmans, musulmane 0.449 photo, photos 0.391 bernadette 0.372 prfecture 0.330 mimosa 0.329 tchador 0.326 carmlites 0.322 sarkozy 0.290 chirac 0.273 serge du tchador et de la corne est au nom du principe de la lacit de l' tat on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' tait pas question de porter le voile en photo des entits un rappel l' ordre qui visiblement a chapp bernadette chirac encore le journal le canard enchan l' pouse du prsident la publique se dmnent pour qu' une religieuse puisqu' elle garder son voile est une trange mal le voile de serge adda alberta ... S(l)= tf(l) x idf(l) 69. 69 Extraction de mots-cls + Prise en compte des mesures de confiance 04/10/2014 - 0.992 voile 0.500 lacit 0.458 musulmans, musulmane 0.454 adda 0.428 photo, photos 0.390 bernadette 0.371 prfecture 0.328 tchador 0.325 carmlites 0.321 sarkozy 0.294 serge 0.270 chirac du tchador et de la corne est au nom du principe de la lacit de l' tat on l' a quelques jours nicolas sarkozy rappeler fermement aux musulmans qui n' tait pas question de porter le voile en photo des entits un rappel l' ordre qui visiblement a chapp bernadette chirac encore le journal le canard enchan l' pouse du prsident de la rpublique se dmnent pour qu' une religieuse puisqu' elle garder son voile est une trange mal le voile de serge adda alberta ... 70. Rcupration de pages Web lies laide de erreurs de transcription 70 04/10/2014 requtes Conservation des premiers mots-cls Requtes formes par mlange de 2 ou 3 mots-cls voile lacit voile musulmans voile adda ... Limite linfluence des voile lacit photo lacit adda photo musulmans adda photo 71. 71 04/10/2014 Texmix Application : systme de navigation au sein dune collection de journaux TV Utilisation de techniques issues de diffrents travaux de recherche dans lquipe TexMex Dmonstration : Texmix 72. 72 04/10/2014 Texmix 73. 73 04/10/2014 Texmix 74. 74 04/10/2014 3.3- Fouille dopinions Analyse de donnes exprimant des opinions : rseaux sociaux, blogs, fora, commentaires sur des sites de commerce lectronique Enjeux Individuels : achat dun matriel, rservation de sjour conomiques : perception dun produit (propre ou concurrent) par des utilisateurs, avis synthtique sur un sujet Politiques : perception dune rforme, de sujets de mcontentement 75. 75 04/10/2014 Un travail compliqu Samedi dernier, jai achet un mobile Nokia et ma copine a achet un Samsung avec Bluetooth. On sest appels quand on est rentrs. La voix sur mon tlphone ntait pas si claire, pire en tous cas que sur mon Motorola prcdent. La batterie ne dure pas longtemps non plus. Ma copine tait plutt satisfaite de son tlphone. Moi, je voulais un tlphone avec un bon son. Donc jtais du de mon achat. Jai ramen le tlphone hier. (exemple de [Liu 2012] traduit) Nombreux aspects du TAL impliqus Dont certains aspects de comprhension assez fins Corfrence, analyse syntaxique, analyse smantique voire pragmatique (claire >0 ou 0 et