Séminaire Ist inria 2014 : Pascale Sébillot

Embed Size (px)

DESCRIPTION

"Le traitement automatique du langage (TAL) face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ?" : Prsentation de Pascale Sebillot, chercheuse l'IRISA lors du sminaire IST Inria : "Big Data, nouvelles partitions de l'information" ; Saint-Paul-Ls-Dax du 6 au 10 octobre 2014.

Text of Séminaire Ist inria 2014 : Pascale Sébillot

 1. Le traitement automatique des langues face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ? Pascale SBILLOT PRU en informatique lINSA de Rennes Membre de lquipe LinkMedia de lIRISA et dINRIA 2. 2 04/10/2014 LinkMedia Creating and exploiting explicit links between multimedia fragments Primtre de LinkMedia Objectifs fondements scientifiques de la structuration de collections de documents multimdias par des liens explicites nouveaux usages et techniques de traitement de contenus induits par ces liens 3. 3 04/10/2014 Mon parcours de recherche Domaine : traitement automatique des langues (TAL) Thse en syntaxe passage la smantique Acquisition de connaissances partir de corpus de textes grce des techniques dapprentissage artificiel Application du TAL la recherche dinformation Application du TAL la reconnaissance automatique de la parole Application du TAL la structuration de (collections de) documents multimdias 4. 4 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution ? 5. 5 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution : NON Rvolution du TAL faite fin des annes 80 dbut des annes 90 Du TAL rationaliste Approches symboliques base de rgles Expertise humaine forte Focus sur lexplication des jugements de grammaticalit, la construction de reprsentations du sens labores au TAL empirique Approches fondes sur les donnes Volumes de textes et puissance des machines croissants Apprentissage artificiel, linguistique de corpus Observation grande chelle, reprsentations du sens utile 6. 6 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution : OUI Nouveaux types de donnes textuelles prendre en compte Volumes toujours plus consquents Empirisme toujours plus prsent Moins / pas (ou trs peu) dexpertise Plus de comptage 7. 7 04/10/2014 Impact du Big Data sur le TAL Organisation de la prsentation 1. Spcificits des donnes textuelles dans le monde du Big Data 2. Reprsentations et exploitation des donnes textuelles 3. Applications pour faire face aux masses de donnes 4. Applications tirant profit de la profusion de donnes 8. 8 1- Spcificits des donnes textuelles 04/10/2014 dans le monde du Big Data Les 3 V (volume, varit, vlocit) appliqus aux donnes textuelles Proprits intrinsques compliquant laccs au sens 9. 9 04/10/2014 Varit Donnes produites (directement) sous une forme textuelle Textes crits, emails, sites Web Blogs, rseaux sociaux Sms 10. 10 04/10/2014 Varit Donnes produites (directement) sous une forme textuelle Textes crits, emails, sites Web Blogs, rseaux sociaux Sms Tu te x mal1 JV encor dvoir 10QT aussi dans la qualit Exemples issus de [Fairon et al. 2006] 11. 11 04/10/2014 Varit Donnes langagires issues dun mdia diffrent Systme de reconnaissance gnrateur derreurs Images de textes Dactylographis, manuscrits OCR : logiciel de reconnaissance optique de caractres Segmentation en caractres individuels Classifieur fond sur un apprentissage neuronal pour la reconnaissance Parole contenue dans les documents audio/vidos Systme de reconnaissance automatique de la parole (RAP) 12. Systme de reconnaissance automatique de 12 04/10/2014 la parole Systme de RAP Signal de parole Hypothse de transcription w*1 ... w*P c1 ... cP Mesures de confiance 13. Systme de reconnaissance automatique de 13 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole 14. Systme de reconnaissance automatique de 14 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Vocabulaire : mots - prononciations 15. Systme de reconnaissance automatique de 15 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Vraisemblance du signal sachant une squence de mots 16. Systme de reconnaissance automatique de 16 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Probabilit a priori des squences de mots (n-grammes) 17. 17 quant aux voix catholiques de serge adda alberta _ il est tout ce qu' il y a de strictes _ srie sous le menton _ l encadre son visage sans permettre de voir _ un seul de ses cheveux _ Quant au voile catholique de soeur ____ Adalberta , il est tout ce qu' il y a de strict , serr sous le menton , il encadre son visage sans permettre de voir , un seul de ses cheveux . 04/10/2014 Spcificits des transcriptions Particularits de loral Disfluences Constructions grammaticales particulires Format de transcription Pas de ponctuation, de majuscules Segmentation en groupes de souffle, pas en phrases Erreurs de transcription Mots non fiables et mesures de confiance imparfaites Taux d'erreur sur les mots ou WER (word error rate) 18. 18 04/10/2014 Volume et Vlocit Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/) Go-globe.com, juin 2011 19. 19 Proprits intrinsques compliquant 04/10/2014 laccs au sens Donnes non structures Pas de smantique porte par une structure a priori Donnes porteuses de sens, comprhensibles par un humain et fortement prsentes Ncessit de savoir en extraire linformation pertinente Donnes difficiles comprendre par une machine Ambigut Implicite Formulations diffrentes dune mme ide 20. 20 04/10/2014 Ambigut Lexicale Statique : prsident : verbe / nom ? Dynamique : rat : nom / adjectif Syntaxique Structure hirarchique : la petite brise la glace Ambigut de rattachement : jai t voir un film avec Brad Pitt Smantique Homonymie : avocat : fruit / auxiliaire de justice Polysmie : agneau : animal / viande Porte des quantificateurs : toutes mes soeurs ont pous un mdecin vs toutes les personnes prsentes ont entendu un cri Pragmatique Paul : tu viens la fte chez Luc mardi soir ? Virginie : jai entendu que Benot sera l 21. 21 04/10/2014 Implicite C