22
Projet Odysseus Outil de comparaison automatique de traductions

DH EHESS Odyssée : Marianne Reboul

Embed Size (px)

Citation preview

  • Projet OdysseusOutil de comparaison automatique de

    traductions

  • IntroductionLa traductologie

  • 1. Une tude historique :

    N.B.:PourGoogleNgram,attentionauxrsultatsfausss

  • 2. Un exercice d'analyse stylistique :TraductiondeSalomonCerton:1604

    Museracontemoyl'hommefin&rus

    Quisilongtempserra,depuisqu'ileutras

    LesacrmurdeTroye,&d'hommes&devilles

    Remarqualesfaonsfarrouches&civiles,

    IleutensonespritencourantsurlesmersDesdouleursengrandnombre,&destravauxamers.

    TraductiondePhilippeJaccottet:1955

    Muse,contemoilaventuredelInventif:

    celuiquipillaTroie,quipendantdesanneserra,

    voyantbeaucoupdevilles,dcouvrantbeaucoupdusages,

    souffrantbeaucoupdangoissesdanssonmesurlamer

    ?

    Quelques chiffres :6verspourCerton

    4verspourJaccottet53motspourCerton

    32pourJaccottet

  • 3. Pourquoi faire ? Corpus:207traductionsdiffrentes

    >>>unecentainedetraductionsintgrales

    >>>plusieursdizainesdemillionsdemots

    >>>95anscompterseulement Objectivit:

    >>>pasdethorieapriori

    >>>remiseencausepermanenteavecoutilsvolutifs

  • I. Les phases de preprocessing

  • Les outils de base Segmentation:

    Ments,filsdAnchialus,etilrgnesurles

    Taphiens,peuplefortappliqu,lamarine.Ainsiparla

    Toknisation:

    1/Avanttokenisation:

    {[Car,detouteslesfemmesdupalaisc'taitcellequiavaitleplusd'affectionpourlui.]}

    2/Aprstokenisation:

    {[Car][,][de][toutes][les][femmes][du][palais][c]['][tait][celle][qui][avait][le][plus][d'affection][pour][lui]}

  • Les outils de base (suite) Lemmatisation:

    1/Avantlemmatisation:

    {[Car,detouteslesfemmesdupalaisc'taitcellequiavaitleplusd'affectionpourlui.]}

    2/Aprslemmatisation:

    {[Car][,][de][tout][le][femme][du][palais][c]['][tre][celui][qui][avoir][le][plus][d'affection][pour][lui]}

    N.B.:2typesdelemmatiseurs: grammairetatfini(ditsrule-based) statistiques (dont l'apprentissage dpend entirement de l'entranement sur un

    corpus)

  • Les outils de base (fin) Etiquetagesyntaxiquelger:

    Puislepeupledesmortsparmesvoeuxetpriresimplor,jesaisislesdeuxbtes,leurtranchailagorgesurletrou.

    Puis:ADV//le:DET:ART//peuple:NOM//des:PRP:det//morts:NOM//par:PRP//mes:DET:POS//voeux:NOM//et:KON//prires:NOM//implor:VER:pper//,:PUN//je:PRO:PER//saisis:VER:pres//les:DET:ART//deux:NUM//btes:NOM//,:PUN//leur:PRO:PER//tranchai:VER:simp//la:DET:ART//gorge:NOM//sur:PRP//le:DET:ART//trou:NOM//

  • Quelques outils utiles Toknisationdufranais:Freeling,NLTK,OpenNLPetStanfordCoreNLP,Bonsaidel'quipeAlpageetTreeTagger(laplupartdesfautes:formescompositionnelles)

    Lemmatisationdufranais:LgeRM,Morfette,Unitex,TreeTagger,etc.

    POSTaggingfranais(tiquetagesyntaxiquelger):ceuxquej'utilise:TreeTagger,StanfordTagger,OpenNLPTagger

    Treebanks,etc:MaltParser,MSTParseretBerkeleyParser(mentionnonsaussileFRMGParser,etleLFGParser)

  • II. Alignement et Vecteurs

  • L'alignement humain/machineS1/C1

    +S1/C2

    +C1/C2

    (S,C1)/

    (S,C2)

    (S,C1)/(S,C2)/(S,C3)OU

    (Comp(Cna,Cnb))/(Comp(Cn'a,Cn'b))etc.

  • Le texte pivot

    G.XI.1

    G.XI.2

    G.XI.3

    G.XI.4

    GrecD.XI.1

    D.XI.2

    D.XI.3

    D.XI.4

    DacierL.XI.1

    L.XI.2

    L.XI.3

    L.XI.4

    Lebrun

    B.XI.1

    B.XI.2

    B.XI.3

    B.XI.4

    Berard

  • L'alignement (bisquentielici)POStagging : noms propres

    Source Cible

    Prtraitement Needleman-Wunsch

    Sacdesquences:n squencestexteSn squencestexteC

  • La vectorisation: pourquoi?Source Cible

    M , , ,

    Muse,qu'ilfautmedire,Celuiquitanterraquand,de

    T :

    Troade,ileutpilllavillesainte,Celuiquivisitalescitsdetantd'hommesetconnutleuresprit

    Trg1 : Ulysse sur les vaisseaux recourbs vers Ilion

    Src1 : ' Trg2 : Cyclope tua dans sa caverne profonde

    Src2 : Trg3 : le fils chri d'Ulysse

    Src3 :

    Vecteur d : 1 0 1

    Vecteur dUlysse : 1 0 1

    Vecteur de : 0 1 0

    Vecteur de Cyclope : 0 1 0

  • III. Interface et comparaison statistique

  • 1.c Des exemples concrets (entre autres)TraductionsFranaises

  • Des exemples concrets (ensuite)

  • Des exemples concrets (enfin)

  • (Zoom)

  • La comparaison statistique

  • Merci de votre attentionPour toutes questions:

    [email protected]

    Diapo 1Diapo 2Diapo 3Diapo 4Diapo 5Diapo 6Diapo 7Diapo 8Diapo 9Diapo 10Diapo 11Diapo 12Diapo 13Diapo 14Diapo 15Diapo 16Diapo 17Diapo 18Diapo 19Diapo 20Diapo 21Diapo 22