Séminaire Ist inria 2014 : Pascale Sébillot

  • Published on
    21-Dec-2014

  • View
    301

  • Download
    2

Embed Size (px)

DESCRIPTION

"Le traitement automatique du langage (TAL) face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ?" : Prsentation de Pascale Sebillot, chercheuse l'IRISA lors du sminaire IST Inria : "Big Data, nouvelles partitions de l'information" ; Saint-Paul-Ls-Dax du 6 au 10 octobre 2014.

Transcript

<ul><li> 1. Le traitement automatique des langues face aux donnes textuelles volumineuses et potentiellement dgrades : quest-ce que cela change ? Pascale SBILLOT PRU en informatique lINSA de Rennes Membre de lquipe LinkMedia de lIRISA et dINRIA </li> <li> 2. 2 04/10/2014 LinkMedia Creating and exploiting explicit links between multimedia fragments Primtre de LinkMedia Objectifs fondements scientifiques de la structuration de collections de documents multimdias par des liens explicites nouveaux usages et techniques de traitement de contenus induits par ces liens </li> <li> 3. 3 04/10/2014 Mon parcours de recherche Domaine : traitement automatique des langues (TAL) Thse en syntaxe passage la smantique Acquisition de connaissances partir de corpus de textes grce des techniques dapprentissage artificiel Application du TAL la recherche dinformation Application du TAL la reconnaissance automatique de la parole Application du TAL la structuration de (collections de) documents multimdias </li> <li> 4. 4 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution ? </li> <li> 5. 5 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution : NON Rvolution du TAL faite fin des annes 80 dbut des annes 90 Du TAL rationaliste Approches symboliques base de rgles Expertise humaine forte Focus sur lexplication des jugements de grammaticalit, la construction de reprsentations du sens labores au TAL empirique Approches fondes sur les donnes Volumes de textes et puissance des machines croissants Apprentissage artificiel, linguistique de corpus Observation grande chelle, reprsentations du sens utile </li> <li> 6. 6 04/10/2014 Impact du Big Data sur le traitement automatique des langues ? Rvolution : OUI Nouveaux types de donnes textuelles prendre en compte Volumes toujours plus consquents Empirisme toujours plus prsent Moins / pas (ou trs peu) dexpertise Plus de comptage </li> <li> 7. 7 04/10/2014 Impact du Big Data sur le TAL Organisation de la prsentation 1. Spcificits des donnes textuelles dans le monde du Big Data 2. Reprsentations et exploitation des donnes textuelles 3. Applications pour faire face aux masses de donnes 4. Applications tirant profit de la profusion de donnes </li> <li> 8. 8 1- Spcificits des donnes textuelles 04/10/2014 dans le monde du Big Data Les 3 V (volume, varit, vlocit) appliqus aux donnes textuelles Proprits intrinsques compliquant laccs au sens </li> <li> 9. 9 04/10/2014 Varit Donnes produites (directement) sous une forme textuelle Textes crits, emails, sites Web Blogs, rseaux sociaux Sms </li> <li> 10. 10 04/10/2014 Varit Donnes produites (directement) sous une forme textuelle Textes crits, emails, sites Web Blogs, rseaux sociaux Sms Tu te x mal1 JV encor dvoir 10QT aussi dans la qualit Exemples issus de [Fairon et al. 2006] </li> <li> 11. 11 04/10/2014 Varit Donnes langagires issues dun mdia diffrent Systme de reconnaissance gnrateur derreurs Images de textes Dactylographis, manuscrits OCR : logiciel de reconnaissance optique de caractres Segmentation en caractres individuels Classifieur fond sur un apprentissage neuronal pour la reconnaissance Parole contenue dans les documents audio/vidos Systme de reconnaissance automatique de la parole (RAP) </li> <li> 12. Systme de reconnaissance automatique de 12 04/10/2014 la parole Systme de RAP Signal de parole Hypothse de transcription w*1 ... w*P c1 ... cP Mesures de confiance </li> <li> 13. Systme de reconnaissance automatique de 13 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole </li> <li> 14. Systme de reconnaissance automatique de 14 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Vocabulaire : mots - prononciations </li> <li> 15. Systme de reconnaissance automatique de 15 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Vraisemblance du signal sachant une squence de mots </li> <li> 16. Systme de reconnaissance automatique de 16 04/10/2014 Lexique phontis Modle de langue Modle acoustique Caractristiques numriques du signal sonore contenant de la parole (nergie, frquence vocale) y1 ... yT Meilleure hypothse de transcription w*1 ... w*P w*1 ... w*P = argmax { p(y1 ... yT|w1 ... wP') x P[w1 ... wP'] } w1...wP' VP' c1 ... cP Mesures de confiance la parole Probabilit a priori des squences de mots (n-grammes) </li> <li> 17. 17 quant aux voix catholiques de serge adda alberta _ il est tout ce qu' il y a de strictes _ srie sous le menton _ l encadre son visage sans permettre de voir _ un seul de ses cheveux _ Quant au voile catholique de soeur ____ Adalberta , il est tout ce qu' il y a de strict , serr sous le menton , il encadre son visage sans permettre de voir , un seul de ses cheveux . 04/10/2014 Spcificits des transcriptions Particularits de loral Disfluences Constructions grammaticales particulires Format de transcription Pas de ponctuation, de majuscules Segmentation en groupes de souffle, pas en phrases Erreurs de transcription Mots non fiables et mesures de confiance imparfaites Taux d'erreur sur les mots ou WER (word error rate) </li> <li> 18. 18 04/10/2014 Volume et Vlocit Nombres par minute (http://davidfayon.fr/2011/06/croissance-du-web-une-minute/) Go-globe.com, juin 2011 </li> <li> 19. 19 Proprits intrinsques compliquant 04/10/2014 laccs au sens Donnes non structures Pas de smantique porte par une structure a priori Donnes porteuses de sens, comprhensibles par un humain et fortement prsentes Ncessit de savoir en extraire linformation pertinente Donnes difficiles comprendre par une machine Ambigut Implicite Formulations diffrentes dune mme ide </li> <li> 20. 20 04/10/2014 Ambigut Lexicale Statique : prsident : verbe / nom ? Dynamique : rat : nom / adjectif Syntaxique Structure hirarchique : la petite brise la glace Ambigut de rattachement : jai t voir un film avec Brad Pitt Smantique Homonymie : avocat : fruit / auxiliaire de justice Polysmie : agneau : animal / viande Porte des quantificateurs : toutes mes soeurs ont pous un mdecin vs toutes les personnes prsentes ont entendu un cri Pragmatique Paul : tu viens la fte chez Luc mardi soir ? Virginie : jai entendu que Benot sera l </li> <li> 21. 21 04/10/2014 Implicite Connaissances partages par les locuteurs Encyclopdiques De sens commun De scenarii Interprtations videntes [exemples emprunts F. Yvon] Elle sest assise, a command un caf la serveuse (). Puis elle est partie sans payer Qui ? Le professeur a envoy llve au censeur parce quil lanait des boulettes parce quil voulait avoir la paix parce quil voulait le voir Emplois mtaphoriques, mtonymiques Premier violon </li> <li> 22. 22 Formulations diffrentes dune mme ide Problme pour compter des occurrences dun concept Variation 04/10/2014 Graphique, morphologique : mot cl, mot-cl, mots-cls Syntaxique, morphosyntaxique : acidit du sang, acidit leve du sang, acidit sanguine Paradigmatique : vlo, bicyclette, cyclisme, moyen de transport Paraphrase </li> <li> 23. 23 Volumes, varit, proprits intrinsques des donnes textuelles 04/10/2014 Spcificits des donnes textuelles Impossibilit de faire des analyses linguistiques fines Rapidement Sur des textes dgrads et apprentissage Varit : domaine ouvert Ambiguts multiplies Sources de connaissance non utilisables Changement de paradigme du TAL Rationalisme Empirisme TAL fond linguistique TAL fond statistique Comprendre finement Avoir des reprsentations de sens utiles </li> <li> 24. 24 2- Reprsentations et exploitation des 04/10/2014 donnes textuelles Reprsentation du sens rationaliste Vision syntaxico-logique Logique comme langage de reprsentation de connaissance et de raisonnement Interprtation compositionnelle du langage dirige par la syntaxe sous forme de formules logiques Vision Intelligence artificielle Modle du monde (ou domaine) gnrique Interprtation dun nonc ou discours : instanciation du modle Ex. : scripts (Schank) </li> <li> 25. 25 2- Reprsentations et exploitation des 04/10/2014 donnes textuelles Reprsentation du sens empirique Sens utile et non vrai sens On ne cherche pas comprendre le langage Sens dun mot Dpendant de / exprimable par son co-texte Co-textes comparables pour dtecter les mots du mme paradigme Sens dun document Des mots extraits du texte qui, ensemble, reprsentent son sens Changement de thme Changement global de vocabulaire </li> <li> 26. 26 04/10/2014 Changement de paradigme Expertise Donnes Extraction de la connaissance des donnes par apprentissage artificiel (observation de rgularits et redondances) Sens lments de reprsentation extraits des mots, des phrases, des documents utiles pour lapplication vise Exemples : noms et verbes les plus frquents, noms de personnes, de lieux et dentreprises mentionns tous les niveaux : document, paragraphe, phrase </li> <li> 27. 27 04/10/2014 lments de reprsentation N-grammes de caractres, de mots Mots : tous ou filtrs Type prcis : noms, verbes, termes complexes, entits nommes (EN : noms de personnes, lieux) Saillance Comptage Frquence Frquence dans lunit considre mais pas dans la collection Autres Position Mot / phrase du dbut lments situs entre deux items, avant, aprs </li> <li> 28. 28 04/10/2014 Reprsentation Taille de la collection Nb documents contenant le mot </li> <li> 29. 29 04/10/2014 Reprsentation Exploitation Par comparaison des reprsentations via des mesures de similarit Fondes intersection des reprsentations Cosinus Par des mthodes dapprentissage artificiel </li> <li> 30. 30 Des outils pour manipuler et reprsenter Segmenteurs 04/10/2014 Pas toujours simple : lopra / aujourdhui ou Ohara, Jean-Paul / qua-t-il dit ? tiqueteurs morphosyntaxiques (PoS taggers) LeDetMasSing prsidentNomCommunMasSing Lemmatiseurs / analyseurs morphologiques / raciniseurs (stemmers) parlons, parlera, parlrent...</li></ul>