View
2.683
Download
2
Category
Preview:
Citation preview
Projet OdysseusOutil de comparaison automatique de
traductions
IntroductionLa traductologie
1. Une tude historique :
N.B.:PourGoogleNgram,attentionauxrsultatsfausss
2. Un exercice d'analyse stylistique :TraductiondeSalomonCerton:1604
Museracontemoyl'hommefin&rus
Quisilongtempserra,depuisqu'ileutras
LesacrmurdeTroye,&d'hommes&devilles
Remarqualesfaonsfarrouches&civiles,
IleutensonespritencourantsurlesmersDesdouleursengrandnombre,&destravauxamers.
TraductiondePhilippeJaccottet:1955
Muse,contemoilaventuredelInventif:
celuiquipillaTroie,quipendantdesanneserra,
voyantbeaucoupdevilles,dcouvrantbeaucoupdusages,
souffrantbeaucoupdangoissesdanssonmesurlamer
?
Quelques chiffres :6verspourCerton
4verspourJaccottet53motspourCerton
32pourJaccottet
3. Pourquoi faire ? Corpus:207traductionsdiffrentes
>>>unecentainedetraductionsintgrales
>>>plusieursdizainesdemillionsdemots
>>>95anscompterseulement Objectivit:
>>>pasdethorieapriori
>>>remiseencausepermanenteavecoutilsvolutifs
I. Les phases de preprocessing
Les outils de base Segmentation:
Ments,filsdAnchialus,etilrgnesurles
Taphiens,peuplefortappliqu,lamarine.Ainsiparla
Toknisation:
1/Avanttokenisation:
{[Car,detouteslesfemmesdupalaisc'taitcellequiavaitleplusd'affectionpourlui.]}
2/Aprstokenisation:
{[Car][,][de][toutes][les][femmes][du][palais][c]['][tait][celle][qui][avait][le][plus][d'affection][pour][lui]}
Les outils de base (suite) Lemmatisation:
1/Avantlemmatisation:
{[Car,detouteslesfemmesdupalaisc'taitcellequiavaitleplusd'affectionpourlui.]}
2/Aprslemmatisation:
{[Car][,][de][tout][le][femme][du][palais][c]['][tre][celui][qui][avoir][le][plus][d'affection][pour][lui]}
N.B.:2typesdelemmatiseurs: grammairetatfini(ditsrule-based) statistiques (dont l'apprentissage dpend entirement de l'entranement sur un
corpus)
Les outils de base (fin) Etiquetagesyntaxiquelger:
Puislepeupledesmortsparmesvoeuxetpriresimplor,jesaisislesdeuxbtes,leurtranchailagorgesurletrou.
Puis:ADV//le:DET:ART//peuple:NOM//des:PRP:det//morts:NOM//par:PRP//mes:DET:POS//voeux:NOM//et:KON//prires:NOM//implor:VER:pper//,:PUN//je:PRO:PER//saisis:VER:pres//les:DET:ART//deux:NUM//btes:NOM//,:PUN//leur:PRO:PER//tranchai:VER:simp//la:DET:ART//gorge:NOM//sur:PRP//le:DET:ART//trou:NOM//
Quelques outils utiles Toknisationdufranais:Freeling,NLTK,OpenNLPetStanfordCoreNLP,Bonsaidel'quipeAlpageetTreeTagger(laplupartdesfautes:formescompositionnelles)
Lemmatisationdufranais:LgeRM,Morfette,Unitex,TreeTagger,etc.
POSTaggingfranais(tiquetagesyntaxiquelger):ceuxquej'utilise:TreeTagger,StanfordTagger,OpenNLPTagger
Treebanks,etc:MaltParser,MSTParseretBerkeleyParser(mentionnonsaussileFRMGParser,etleLFGParser)
II. Alignement et Vecteurs
L'alignement humain/machineS1/C1
+S1/C2
+C1/C2
(S,C1)/
(S,C2)
(S,C1)/(S,C2)/(S,C3)OU
(Comp(Cna,Cnb))/(Comp(Cn'a,Cn'b))etc.
Le texte pivot
G.XI.1
G.XI.2
G.XI.3
G.XI.4
GrecD.XI.1
D.XI.2
D.XI.3
D.XI.4
DacierL.XI.1
L.XI.2
L.XI.3
L.XI.4
Lebrun
B.XI.1
B.XI.2
B.XI.3
B.XI.4
Berard
L'alignement (bisquentielici)POStagging : noms propres
Source Cible
Prtraitement Needleman-Wunsch
Sacdesquences:n squencestexteSn squencestexteC
La vectorisation: pourquoi?Source Cible
M , , ,
Muse,qu'ilfautmedire,Celuiquitanterraquand,de
T :
Troade,ileutpilllavillesainte,Celuiquivisitalescitsdetantd'hommesetconnutleuresprit
Trg1 : Ulysse sur les vaisseaux recourbs vers Ilion
Src1 : ' Trg2 : Cyclope tua dans sa caverne profonde
Src2 : Trg3 : le fils chri d'Ulysse
Src3 :
Vecteur d : 1 0 1
Vecteur dUlysse : 1 0 1
Vecteur de : 0 1 0
Vecteur de Cyclope : 0 1 0
III. Interface et comparaison statistique
1.c Des exemples concrets (entre autres)TraductionsFranaises
Des exemples concrets (ensuite)
Des exemples concrets (enfin)
(Zoom)
La comparaison statistique
Merci de votre attentionPour toutes questions:
odysseuspolymetis2010@gmail.com
Diapo 1Diapo 2Diapo 3Diapo 4Diapo 5Diapo 6Diapo 7Diapo 8Diapo 9Diapo 10Diapo 11Diapo 12Diapo 13Diapo 14Diapo 15Diapo 16Diapo 17Diapo 18Diapo 19Diapo 20Diapo 21Diapo 22
Recommended