Algorithmes et data-sciences : approches et limites pour le traitement du langage

INRIA

Approches et limites pour le traitement du langage

Éric de la Clergerie<[email protected]>

http://alpage.inria.frINRIA Paris-Rocquencourt / Univ. Paris Diderot

Forum GFII – Att. «Humains et Algorithmes»Paris, 7 Décembre 2015

INRIA Éric de la Clergerie NLP 07/12/15 1 / 1

[email protected]>

http://alpage.inria.fr

INRIA

Analyse Linguistique Profonde À Grande Échelle

Outils + Ressources linguistiques vers Données + Apprentissage<?xml vers ion=" 1.0 " encoding=" ISO−8859−1 "?><dependencies i d ="E1" mode=" f u l l ">

< c l u s t e r i d = " E1c_1_2 " l e f t = " 1 " r i g h t = " 2 " token=" soyons " lex="E1F2 | soyons " / >

< c l u s t e r i d = " E1c_2_3 " l e f t = " 2 " r i g h t = " 3 " token=" i m a g i n a t i f s "l ex="E1F3 | i m a g i n a t i f s " / >

< c l u s t e r i d = " E1c_5_6 " l e f t = " 5 " r i g h t = " 6 " token=" déc lare " lex="E1F6 | déc lare " / >

<node de r i v = " E1d10 " xcat= "comp" i d =" E1n13 " cat= " ad j " t r ee =" 72" lemma=" i m a g i n a t i f " c l u s t e r = " E1c_2_3 " form=" i m a g i n a t i f s " / >

<node de r i v = " E1d104 " xcat= "S" i d =" E1n22 " cat= " v " t r ee =" 186 "lemma=" déc la re r " c l u s t e r = " E1c_5_6 " form=" déc lare " / >

<node de r i v = " E1d13 " xcat= "S" i d ="E1n7" cat= " v " t r ee =" 198 "lemma=" ê t re " c l u s t e r = " E1c_1_2 " form=" soyons " / >

<edge i d =" E1e029 " source=" E1n22 " t a r g e t = " E1n18 " type=" l e x i c a l" l a b e l = " sub jec t ">< de r i v names=" E1d104 " source_op="E1o5" target_op=" E1o20 "span=" 6 7 " / >

< / edge><edge i d =" E1e011 " source=" E1n007 " t a r g e t = " E1n013 " type=" subst

" l a b e l = "comp">< de r i v names=" E1d000013 " source_op=" E1o26 " target_op="E1o9"span=" 2 3 " / >

< / edge><edge i d =" E1e008 " source=" E1n022 " t a r g e t = " E1n007 " type=" subst

" l a b e l = "xcomp">< de r i v names=" E1d000104 " source_op="E1o5" target_op=" E1o26 "span=" 0 4 " / >

< / edge>< / dependencies >

à tester sur http://alpage.inria.fr/frmgwiki

Grammaire

FRMG

Lexique LEFFF

Entités NomméesALEDA

WordNetWOLF FrameNet

ASFALDA treebanks


http://alpage.inria.fr/frmgwiki

INRIA

Quelles applications ?

Extraction d’information & Annotations

http://alpage.inria.fr/sapiens

Acquisition de connaissances (à partir de grands corpus)

http://alpage.inria.fr/Lbx


http://alpage.inria.fr/sapiens

http://alpage.inria.fr/Lbx

INRIA

Beaucoup d’applications potentielles . . .

recherche d’information, veille, extraction, questions-réponsesaccès à l’information : traduction, résumés, annotations/lienssémantiquesanalyse d’opinion, e-réputationgénération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires,aide à la rédaction : correction grammaticale, stylistique ; saisie prédictiveaide pédagogique : apprentissage des langues ; tutorat ; évaluationinteraction : agents conversationnels, chatbots, assistants numériques,

scénario plausible :

bel assistant, fournis moi un bref topo sur les robots journalistes


INRIA

Et déjà de bons résultats en bricolant . . .

Robot journaliste (inquiétudes !)

http://goo.gl/0cpFvC

Générer du non-sens new-age !

http://sebpearce.com/bullshit/


http://goo.gl/0cpFvC

http://sebpearce.com/bullshit/

INRIA

Mais de réelles difficultés !

Forte ambiguïté du langage (tous niveaux)⇒ besoin connaissances sur le monde, le contexte, . . . ,via ressources et statistiques

Diversité (langues, domaines, phénomènes),créativité (néologismes, expressions) et évolutivité⇒ besoin de robustesse

Ellipses (ce qui n’est pas dit/écrit)⇒ besoin connaissances partagées, aspects culturels

Jeux avec le language (métaphores, euphémismes, ironie, . . . )

Omar m’a tuer

Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais quec’est pas parce que vous voulez renverser la table que vousdescendez de la voiture dont vous vous abstenez de choisir lechauffeur.


INRIA

Néanmoins des succès récents et des annonces

2010: Google translate2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux

Siri, Google Now, Cortana

2014: Le chatbot Eugene Goostmanréussit le test de Turing ?

http://goo.gl/hQSmmf

2015: une IA surveillewikipedia

http://goo.gl/zAvbSt


http://goo.gl/hQSmmf

http://goo.gl/zAvbSt

INRIA

IA ? On y est presque :-)

Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings

2013: Word embeddingsanalogies ≡ calcul vectoriel

Mikolov et al.2014: Analyse d’opinions

Socher et al.

2015: Google SmartReplysuggérer des réponses aux mails

http://goo.gl/d8R2LI

DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits


http://goo.gl/d8R2LI

INRIA

Une conjonction de bons facteurs

Masses de donnéestextuelles (et autres)

Des algo d’apprentissagede + en + sophistiqués

De la puissance de calcul

Linked Open DataDes ressources structu-rées (RDF) et en réseau


INRIA

Succès et limites des approches supervisées

Courant majoritaire : données annotées et apprentissage supervisé

FTB12Ks

SequoiaBank3Ks

QuestionBank2Ks

SocialMediaBank

TimeBank

DiscourseTreeBank

RhapsodieTreeBank

X efficaceX découplageX robustesseX évaluationX autonome

4 coût humain4 fastidieux4 peu évolutif4 sensibilité domaine4 boite noire


INRIA

Approches symboliques et hybridation

Courant historique : systèmes par règles (pro & cons)

4 expertise forte requiseformel x linguistique

4 problème couverture(mais FRMG ∼ 90%, etintérêt des erreurs)

4X ressources linguistiquesrequises/exploitables

4 gestion des ambiguïtés

X compréhensibilité etadaptabilité

X développement initial rapideX moins sensible au domaineX possibilité de régler des

paramètres par apprentissage(hybridation) et couplage avecoutils statistiques

FTB testEuropar

annodis

emea-fr-dev

emea-fr-test

frwiki

8284868890

LAS

FRMG stat. FRMG+stat.

Divers analyseurs sur corpus SEQUOIA


INRIA

Approches non supervisées

Courant futuriste : emploi encore limité !

Partir de données brutes :

ok pour regroupements (clustering); ressourcesextraction terminologie, champs thématiques,réseaux sémantiques, morphologie, . . .en général besoin de validation

ok pour modèles de langue (saisie prédictive)

pas trop mal pour étiquetage et ségmentation

faible sur des décisions complexes(induction de grammaires)

http://stp.lingfil.uu.se/~bea/copiale/




INRIA

Vers des approches faiblement superviséesCourant prometteur : l’imagination au pouvoir

Exploitation de vues multiples et interactions

traduction : textes alignéstransfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . )accès aux logs des moteurs de recherche + liens suivis + bouton chanceanalyse d’opinion : associer commentaires et notes données par lesutilisateursréseaux sociaux : méta-données associées (threads/discussions, date, . . . )séquences de mails ; Google SmartReplyPhotos & légendes ; Films & sous-titrescrowdsourcing : payant ou au travers de jeux


INRIA

Conclusion

Vers des interactions humains-machine riches via le langageune large palette de méthodesévolutions rapidesmais perfection quasi-impossible !

⇒ Bien analyser la situation !données (indispensables) : annotées ? interactions ?quelles ressources ?multi-domaines ? multi-lingues ?adapatibilité ? interprétabilité ?qualité attendue ?contraintes sur puissance de calcul, mémoire, tempsflux de données ? évolutivité ?. . .


Internet

Algorithmes et data-sciences : approches et limites pour le traitement du langage