France RUBRIQUE - systransoft.com©e... · naire et les règlesgrammaticales et syntaxiques de la langue visée (ordre desmots, accords, genres…). Par exemple, si the, en anglais,

Latraductiondopéepar

l’intelligenceartificielle

Graal de l’informatique depuissacréation, la traduction automatiquea récemment fait des progrèsimpressionnants, grâce à l’utilisation deréseauxneuronaux et à l’apprentissageprofond. Lesalgorithmes vont-ilssupplanter les traducteurs humains ?david larousserie

En à peine six mois, nous avons dû réinven-ter notre technologie. C’était une questionde survie pour l’entreprise », expliqueJean Senellart, le directeur technique deSystran, un des leaders de la traduction

par ordinateur depuis sa création, en 1968.« Début2016,une compétition interne, très stimulante, a étéorganisée pour battre notre meilleur système grâceà une nouvelle technique en vogue », précise le spé-cialiste, qui a lui-même participé à l’épreuve.

Et ils ont battu leur «vieux » champion. Au prin-temps 2016,près de cinquante ans de savoir-faireétaient ainsi jetés aux oubliettes. En novembre, le

nouveau produit, qui traduit 30 langues, était prêt,en même temps que Google lançait son nouveausite de traduction reposant sur la même techni-que, suivi par Microsoft, Baidu, Facebook…

« Tout le monde s’est rué sur ces technologies.C’était complètement fou ! », raconte PhilippKoehn, de l’université Johns-Hopkins (Maryland),pionnier d’une technique précédente, balayée parla nouvelle venue. « Avant cesinventions, on esti-mait qu’il fallait un an pour progresser d’un pointsur une certaine échelle de qualité. Après, en un an,les bonds, pour certaines paires de langues, ont étéde près de huit points », constate François Yvon,directeur du Laboratoire d’informatique pour lamécanique et les sciences de l’ingénieur (Limsi-CNRS)à Orsay (Essonne). Et en août, un nouveauvenu, DeepL, aussi à l’origine du dictionnaire Lin-guee, se targuait d’un gain de trois points supplé-mentaires sur la même échelle de qualité par rap-port à ses concurrents.

Que s’est-il passé?L’histoire remonte aux années1950.Traduire est l’une despremières applicationsde l’informatique, après le chiffrement des com-munications et les calculs balistiques. En 1954,IBMet l’université de Georgetown, à Washington, fontla « une » des journaux en traduisant des phrases

Tous droits de reproduction réservés

PAYS : France PAGE(S) : 1,4,5SURFACE : 182 %PERIODICITE : Quotidien

RUBRIQUE : Premiere pageDIFFUSION : 275310JOURNALISTE : David Larousserie

29 novembre 2017 - N°NC - Science et Medecine

du russe vers l’anglais. La méthode utilisée est«naturelle ». On fournit à la machine un diction-naire et les règles grammaticales et syntaxiques dela langue visée (ordre desmots, accords, genres…).Par exemple, si the, en anglais, précède un motféminin, traduire par «la », sinon par «le », etc.

Les linguistes sont évidemment requis pourélaborer ce modèle de langue, limité par la puis-sance des machines d’alors et par le nombrequasi infini de règles à transformer en lignesinformatiques. La technique fera néanmoins lesbeaux jours d’IBM ou de Systran. Un systèmecanadien de prévision météo, Taum-Météo, fonc-tionnera de 1977jusqu’au début des années 2000sur ce principe de règles.

En 1966, la publication d’un rapport, dit « Alpac »,jette cependant un froid. Le problème est plusdifficile que prévu et loin d’être résolu, contraire-ment à ce que clamaient ses pionniers. Les finan-cements, qui abondaient, fondent… Ledomaine del’intelligence artificielle connaît là l’un de sespremiers «hivers ».

→LIRE LA SUITE PAGES 4-5





GILLESRAPAPORT





ÉVÉNEMENTLEMONDE ·SCIENCE & MÉDECINEMERCREDI 29 NOVEMBRE 2017

TraductionLesautomatesontledondeslangues▶ SUITE DE LA PREMIÈRE PAGE

Cerefroidissement ne signifie cependant pasunarrêt complet. Chez IBM, dans les années 1980,des ingénieurs et chercheurs ressuscitent desidées plus anciennes, qui constitueront uneseconde révolution dans le domaine. Au lieu detravailler comme un linguiste ou un traducteur,la machine fonctionnera désormais de façonprobabiliste, en fournissant une traduction cor-respondant à la plus grande chance devoir cetteproposition apparaître dans un corpus dit bilin-gue,contenant despaires de phrases traduites endeux langues. Si nice, en anglais, apparaît plussouvent comme « joli » que comme «beau »,alors la machine choisira «joli » comme proposi-tion. Idem pour desbouts de phrase.

Simple, à condition d’avoir de tels corpus. Lespremiers utilisés proviennent des archives bilin-gues du gouvernement canadien ou de la Com-mission et du Parlement européens, pour plu-sieurs langues. Puis le Web se transforme ensource abondante, plusieurs robots moissonnantsespages enquête de traductions. Google devientalors un acteur majeur et abandonne, en 2007, lemoteur de traduction à base de règles fourni pargSystran,pour proposer sa «machine statistique detraduction », nourrie par près de cent millions deséquencesde mots. Lemonde académique réagit

en amassant aussi son propre corpus. Lesbasesdedonnées Gigaword ou ParaCrawl de PhilippKoehn en sont desexemples. Cedernier, soutenupar l’Union européenne, est également l’auteurdu programme Moses, dont la dernière version,qui date du mois d’octobre, est toujours utiliséepar la Commission européenne.

Puis nouvel hiver dans le domaine, avec desévolutions assez lentes. Jusqu’aux secousses del’année 2014. Trois articles, quasi simultanés,l’un de chercheurs de Google, les deux autres del’équipe de l’université de Montréal menée parYoshua Bengio, expliquent comment de nou-veaux algorithmes promettent de tout changer.Les mots-clés ne sont plus « linguistique » ou« statistique » mais « apprentissage » et «réseauxde neurones ».Cesderniers ont été inventés dansles années 1950 et remis au goût du jour, notam-ment par YoshuaBengio, pour la reconnaissancede caractères manuscrits ou l’identificationd’objets ou d’animaux dans les images.

Cesont des fonctions mathématiques simples(addition, multiplication) contenant des millionsde paramètres ajustables, permettant de trouverlameilleure combinaison possible pour réponse àune question. Comme un peintre mélangeantplusieurs couleurs jusqu’à trouver la bonne. Pour





la traduction, il s’agit d’ajuster les paramètres afind’exhiber la fonction permettant de passerd’unephrase d’une langue àsa traduction, piochée tou-jours dans les vastes corpus bilingues. «Le petitchat tigré estmort » est présenté au système,et s’ilrépond «the big cat striped is dead»,on le corrige,jusqu’à ce qu’il trouve la bonne version : «the littletabby cat is dead ». Et cela sur desmillions depai-res de phrases. «Formellement, apprendre, pources réseaux, c’est évaluer les paramètres de cettefonction qui associe une phrase source à unephrase cible»,résume François Yvon.

Bête et astucieuxL’appellation réseau de neurones vient du faitque, dans lecerveau, lesconnexions entre neuro-nes se renforcent ou disparaissent sans cesse.Une de leurs caractéristiques est qu’il leur fautingurgiter beaucoup de données avant de pou-voir s’appliquer à des problèmes inconnusd’identification, de labellisation, de jeu…

Lessuccèssont tels depuis 2012,année de la pre-mière victoire de tels systèmes en reconnaissanced’images, qu’ils se confondent désormais avecl’expression « intelligence artificielle ». Pourtant,en traduction, ils semblent plus «bêtes» que leursprédécesseurs, puisqu’ils ne savent rien des lan-gues et de leurs règles, et qu’ils cherchent juste lameilleure manière d’apparier despaires de phra-ses(traduites par deshumains).

Mais on peut être bête et astucieux. L’idée-cléest qu’on peut abandonner le monde des motspour celui des chiffres, évidemment plus fami-lier pour les machines. L’astuce consiste à repré-senter la totalité desmots (d’un texte, deWikipé-dia ou encore de directives européennes) dansun vaste espace,dans lequel deux mots de sensproche seraient géographiquement voisins.« Roi » serait proche de « reine », « chat » de« chien », «chats » de « chat »…Cette transforma-tion assez abstraite, voire absconse, est possi-ble… par apprentissage neuronal, comme l’amontré Yoshua Bengio en 2003.

Puis, en 2007,Holger Schwenk – alors au Limsiet, depuis 2015,chez Facebook–l’applique pour lapremière fois à la traduction, avant qu’en 2012leLimsi l’utilise à grande échelle dans un cadre detraduction statistique et que d’autres la perfec-tionnent. Lesystème est conçu pour apprendre àbien parler une langue, mot à mot, c’est-à-direqu’il prédit le meilleur terme pour compléter ledébut d’une phrase. C’est en quelque sorte lefameux modèle de langue des linguistes desannées 1950,mais qui se dispense de règles gram-maticales écrites par des experts. Puis cemodèleestcoupléauxstatistiquespourfairelebonchoix

de traduction dans les énormes corpus.Ceshybrides n’ont eu qu’un temps car, en 2014,

lestrois articles déjà cités arrivent àpasser d’unelangue à l’autre sans les statistiques à l’ancienne,grâce à ces représentations numériques appe-lées «plongement lexical », « sac de mots »,«représentations continues » (word embeddingen anglais)…. Les mots d’une phrase sourcedans une langue sont d’abord « encodés» dansun plongement lexical qui tient compte desmots l’entourant dans la séquence, avant d’être«décodés» dans la langue cible, selon un proces-sus inverse. L’apprentissage desdeux réseaux sefait en même temps, de manière que la sortiesoit ajustée à l’entrée.

Et ça fonctionne, comme l’ont successivementdémontré l’université de Montréal, Google,Systran, Facebook, DeepL… en quelques semai-nes d’apprentissage. «C’est fascinant de voir quecette technique, qui reste encore opaque et malcomprise, fonctionne aussi bien », constate Fran-çois Yvon. Il est vrai que les linguistes y perdentun peu leur latin ; l’énorme réseau de neurones àplusieurs dizaines de millions de paramètresreste assez mystérieux quant aux transforma-tions qu’il fait subir aux mots…

C’estmême si fort que d’aucuns pensent qu’il ya peut-être du sens à chercher dans ces plonge-ments lexicaux. En octobre, une équipe de Face-book a ainsi construit un dictionnaire de motsdans deux langues…sansavoir aucune informa-tion bilingue ! Leschercheurs ont «simplement »rapproché les deux représentations géométri-ques et numériques de chaque langue, grâce àdes réseaux de neurones.

Puis ils ont regardé quels mots étaient proches,et considéré qu’il s’agissait de leur traduction.«C’est bluffant car n’oublions pas qu’il n’y aaucune donnée bilingue dans le système.Certes ily a deserreurs, mais cela reste un exploit », estimeJean Senellart, qui a vérifié la validité de laméthode de ces collègues en cent lignes de codeet un week-end. Car,cequi est bluffant aussi aveccesréseaux de neurones, c’est que bien desalgo-rithmes des Google, Facebook et autres sontlibres et partagés, accélérant la diffusion desconnaissances. Systran a lui aussi « ouvert » sesentrailles pour espérer attirer une communautéautour de sessystèmes.

IdiomatismesMagiques ou pas, les résultats sont désormais là.«Il y a plus de fluidité dans les traductions depuis2016», constate Pierre Isabelle, tout juste retraitédu Centre national de recherches du Canada Son





équipe a également testé le meilleur systèmeactuel, DeepL, sur des phrases pièges. « 50 %d’erreurs en moins que les autres », écrivent leschercheurs dans un résumé de leur étude parusur le site Medium. Laplus grande faille concerneles idiomatismes. « Pédaler dans la choucroute »est littéralement traduit par «pedaling in saue-rkraut ».«To beout to lunch » aurait été mieux.

Mais ce ne sont pas les seuls problèmes. «Par-fois le système dérape complètement ! », constatePierre Isabelle. Laqualité desdonnées compte. Siun réseau n’apprend qu’à partir de la législationeuropéenne, il ne saura pas ce que signifie letutoiement, totalement absent du corpus… Idempour un réseau spécialisé en finance, qui prendraun bank pour une banque, alors qu’il pourraits’agir d’un banc de poissons.

La qualité grimpe, certes, mais des sommetsrestent inaccessibles aujourd’hui. «Traduire nonplus phrase à phrase, mais prendre en compte latotalité d’un document afin de préserver la cohé-rence stylistique ou lexicale est un défi. Lessystè-mes actuels y arrivent sur quelques dizaines demots ; c’est déjà remarquable », note FrançoisYvon. Mais pas toujours. Ainsi, DeepL a unemémoire de poisson rouge car il traduit «The caris red. It has four wheels» par « La voiture estrouge. Il a quatre roues.»

Autre point faible, selon Yoshua Bengio, «mal-gré les quantités délirantes de données utiliséespour les entraîner, plus que ce qu’un humainpourrait voir en plusieurs vies, les erreurs faitespar ces systèmes montrent qu’ils ne captent pasvraiment le senscommun, c’est-à-dire la compré-hension générale du monde qui nous entoure.Pour cela il faudra aller au-delà descorpus de tex-tes et de traductions, et s’attacher à associer lesmots et les phrases à des réalités auxquelles ilsfont référence, et que l’ordinateur comprenne lanature de cette réalité, les relations de cause àeffet…» L’absence de bon sens se pose d’ailleurs

pour d’autres tâches cognitives «attaquées » parl’intelligence artificielle.

Les ingénieurs ont aussi leurs problèmes trèsterre à terre. Google reconnaît : «Les réseauxde neurones sont plus lents que les modèlesstatistiques et même si des progrès ont été faits,nous cherchons des améliorations. » En outre,«un modèle est long à entraîner [plusieurssemaines] et comme Google traduit plus de100 langues, nous cherchons à mettre au pointdes modèles multilingues », indique un de sesporte-parole.

Cedernier point est relié à une autre question,à la fois technique et conceptuelle : que faireavec les langues peu courantes ou n’étantmême pas écrites ? Le côté «bluffant » de l’en-capsulation numérique pourrait être utile.«Une partie de ma recherche vise à trouver unereprésentation universelle qui serait donc com-mune à toutes ces langues et qui serait en quel-que sorte une représentation du sens», indiqueHolger Schwenk. Accessoirement, cela rendraitpeut-être plus explicable le comportement deces bêtes à traduire.

Et la traduction orale ? Elle est aussi en ligne demire, bien sûr, mais cumule deux difficultés. Lapremière, la traduction, dont on vient d’exposerles limites. La seconde, la reconnaissance de laparole et sa transcription en texte, qui n’a riend’évident non plus. «Les systèmes ont du malavec les intonations, les ponctuations, les hésita-tions dans un dialogue…Bref, tout cequi est spon-tané dans le langage »,rappelle Laurent Besacier,professeur de l’université Grenoble-Alpes, quivient de proposer une méthode évitant l’étapede transcription. Malgré les difficultés, des pro-totypes existent, comme dans Skype pour lessystèmes d’exploitation Windows, ou chez lastart-up Waverly Labs,dont on peut tester l’appli-cation sur smartphone, Pilot, en attendant quedes oreillettes fassent aussi le travail, ou bienencore dans les cours d’Alex Waibel, de l’Instituttechnologique de Karlsruhe, en Allemagne, quitraduit ses conférences à la volée. Mais ils sontloin de la perfection. p

david larousserie

LESYSTÈMEESTCONÇUPOUR APPRENDREÀ BIEN

PARLERUNE LANGUE,MOT À MOT, C’EST-À-DIREQU’IL PRÉDITLEMEILLEURTERMEPOUR COMPLÉTERLE DÉBUT D’UNE PHRASE





GILLESRAPAPORT





Documents

France RUBRIQUE - systransoft.com©e... · naire et les règlesgrammaticales et syntaxiques de la langue visée (ordre desmots, accords, genres…). Par exemple, si the, en anglais,