Upload
legfii
View
455
Download
2
Embed Size (px)
Citation preview
INRIA
Approches et limites pour le traitement du langage
Éric de la Clergerie<[email protected]>
http://alpage.inria.frINRIA Paris-Rocquencourt / Univ. Paris Diderot
Forum GFII – Att. «Humains et Algorithmes»Paris, 7 Décembre 2015
INRIA Éric de la Clergerie NLP 07/12/15 1 / 1
INRIA
Analyse Linguistique Profonde À Grande Échelle
Outils + Ressources linguistiques vers Données + Apprentissage<?xml vers ion=" 1.0 " encoding=" ISO−8859−1 "?><dependencies i d ="E1" mode=" f u l l ">
< c l u s t e r i d = " E1c_1_2 " l e f t = " 1 " r i g h t = " 2 " token=" soyons " lex="E1F2 | soyons " / >
< c l u s t e r i d = " E1c_2_3 " l e f t = " 2 " r i g h t = " 3 " token=" i m a g i n a t i f s "l ex="E1F3 | i m a g i n a t i f s " / >
< c l u s t e r i d = " E1c_5_6 " l e f t = " 5 " r i g h t = " 6 " token=" déc lare " lex="E1F6 | déc lare " / >
<node de r i v = " E1d10 " xcat= "comp" i d =" E1n13 " cat= " ad j " t r ee =" 72" lemma=" i m a g i n a t i f " c l u s t e r = " E1c_2_3 " form=" i m a g i n a t i f s " / >
<node de r i v = " E1d104 " xcat= "S" i d =" E1n22 " cat= " v " t r ee =" 186 "lemma=" déc la re r " c l u s t e r = " E1c_5_6 " form=" déc lare " / >
<node de r i v = " E1d13 " xcat= "S" i d ="E1n7" cat= " v " t r ee =" 198 "lemma=" ê t re " c l u s t e r = " E1c_1_2 " form=" soyons " / >
<edge i d =" E1e029 " source=" E1n22 " t a r g e t = " E1n18 " type=" l e x i c a l" l a b e l = " sub jec t ">< de r i v names=" E1d104 " source_op="E1o5" target_op=" E1o20 "span=" 6 7 " / >
< / edge><edge i d =" E1e011 " source=" E1n007 " t a r g e t = " E1n013 " type=" subst
" l a b e l = "comp">< de r i v names=" E1d000013 " source_op=" E1o26 " target_op="E1o9"span=" 2 3 " / >
< / edge><edge i d =" E1e008 " source=" E1n022 " t a r g e t = " E1n007 " type=" subst
" l a b e l = "xcomp">< de r i v names=" E1d000104 " source_op="E1o5" target_op=" E1o26 "span=" 0 4 " / >
< / edge>< / dependencies >
à tester sur http://alpage.inria.fr/frmgwiki
Grammaire
FRMG
Lexique LEFFF
Entités NomméesALEDA
WordNetWOLF FrameNet
ASFALDA treebanks
INRIA Éric de la Clergerie NLP 07/12/15 2 / 1
INRIA
Quelles applications ?
Extraction d’information & Annotations
http://alpage.inria.fr/sapiens
Acquisition de connaissances (à partir de grands corpus)
http://alpage.inria.fr/Lbx
INRIA Éric de la Clergerie NLP 07/12/15 3 / 1
INRIA
Beaucoup d’applications potentielles . . .
recherche d’information, veille, extraction, questions-réponsesaccès à l’information : traduction, résumés, annotations/lienssémantiquesanalyse d’opinion, e-réputationgénération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires,aide à la rédaction : correction grammaticale, stylistique ; saisie prédictiveaide pédagogique : apprentissage des langues ; tutorat ; évaluationinteraction : agents conversationnels, chatbots, assistants numériques,
scénario plausible :
bel assistant, fournis moi un bref topo sur les robots journalistes
INRIA Éric de la Clergerie NLP 07/12/15 4 / 1
INRIA
Et déjà de bons résultats en bricolant . . .
Robot journaliste (inquiétudes !)
http://goo.gl/0cpFvC
Générer du non-sens new-age !
http://sebpearce.com/bullshit/
INRIA Éric de la Clergerie NLP 07/12/15 5 / 1
INRIA
Mais de réelles difficultés !
Forte ambiguïté du langage (tous niveaux)⇒ besoin connaissances sur le monde, le contexte, . . . ,via ressources et statistiques
Diversité (langues, domaines, phénomènes),créativité (néologismes, expressions) et évolutivité⇒ besoin de robustesse
Ellipses (ce qui n’est pas dit/écrit)⇒ besoin connaissances partagées, aspects culturels
Jeux avec le language (métaphores, euphémismes, ironie, . . . )
Omar m’a tuer
Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais quec’est pas parce que vous voulez renverser la table que vousdescendez de la voiture dont vous vous abstenez de choisir lechauffeur.
INRIA Éric de la Clergerie NLP 07/12/15 6 / 1
INRIA
Néanmoins des succès récents et des annonces
2010: Google translate2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux
Siri, Google Now, Cortana
2014: Le chatbot Eugene Goostmanréussit le test de Turing ?
http://goo.gl/hQSmmf
2015: une IA surveillewikipedia
http://goo.gl/zAvbSt
INRIA Éric de la Clergerie NLP 07/12/15 7 / 1
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings
2013: Word embeddingsanalogies ≡ calcul vectoriel
Mikolov et al.2014: Analyse d’opinions
Socher et al.
2015: Google SmartReplysuggérer des réponses aux mails
http://goo.gl/d8R2LI
DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits
INRIA Éric de la Clergerie NLP 07/12/15 8 / 1
INRIA
Une conjonction de bons facteurs
Masses de donnéestextuelles (et autres)
Des algo d’apprentissagede + en + sophistiqués
De la puissance de calcul
Linked Open DataDes ressources structu-rées (RDF) et en réseau
INRIA Éric de la Clergerie NLP 07/12/15 9 / 1
INRIA
Succès et limites des approches supervisées
Courant majoritaire : données annotées et apprentissage supervisé
FTB12Ks
SequoiaBank3Ks
QuestionBank2Ks
SocialMediaBank
TimeBank
DiscourseTreeBank
RhapsodieTreeBank
X efficaceX découplageX robustesseX évaluationX autonome
4 coût humain4 fastidieux4 peu évolutif4 sensibilité domaine4 boite noire
INRIA Éric de la Clergerie NLP 07/12/15 10 / 1
INRIA
Approches symboliques et hybridation
Courant historique : systèmes par règles (pro & cons)
4 expertise forte requiseformel x linguistique
4 problème couverture(mais FRMG ∼ 90%, etintérêt des erreurs)
4X ressources linguistiquesrequises/exploitables
4 gestion des ambiguïtés
X compréhensibilité etadaptabilité
X développement initial rapideX moins sensible au domaineX possibilité de régler des
paramètres par apprentissage(hybridation) et couplage avecoutils statistiques
FTB testEuropar
annodis
emea-fr-dev
emea-fr-test
frwiki
8284868890
LAS
FRMG stat. FRMG+stat.
Divers analyseurs sur corpus SEQUOIA
INRIA Éric de la Clergerie NLP 07/12/15 11 / 1
INRIA
Approches non supervisées
Courant futuriste : emploi encore limité !
Partir de données brutes :
ok pour regroupements (clustering); ressourcesextraction terminologie, champs thématiques,réseaux sémantiques, morphologie, . . .en général besoin de validation
ok pour modèles de langue (saisie prédictive)
pas trop mal pour étiquetage et ségmentation
faible sur des décisions complexes(induction de grammaires)
http://stp.lingfil.uu.se/~bea/copiale/
INRIA Éric de la Clergerie NLP 07/12/15 12 / 1
INRIA
Vers des approches faiblement superviséesCourant prometteur : l’imagination au pouvoir
Exploitation de vues multiples et interactions
traduction : textes alignéstransfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . )accès aux logs des moteurs de recherche + liens suivis + bouton chanceanalyse d’opinion : associer commentaires et notes données par lesutilisateursréseaux sociaux : méta-données associées (threads/discussions, date, . . . )séquences de mails ; Google SmartReplyPhotos & légendes ; Films & sous-titrescrowdsourcing : payant ou au travers de jeux
INRIA Éric de la Clergerie NLP 07/12/15 13 / 1
INRIA
Conclusion
Vers des interactions humains-machine riches via le langageune large palette de méthodesévolutions rapidesmais perfection quasi-impossible !
⇒ Bien analyser la situation !données (indispensables) : annotées ? interactions ?quelles ressources ?multi-domaines ? multi-lingues ?adapatibilité ? interprétabilité ?qualité attendue ?contraintes sur puissance de calcul, mémoire, tempsflux de données ? évolutivité ?. . .
INRIA Éric de la Clergerie NLP 07/12/15 14 / 1