Upload
guido
View
26
Download
1
Embed Size (px)
DESCRIPTION
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE ÉCOLE DOCTORALE : Langage et langues. 1. Doctorat en Sciences du langage :. Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles. Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM. 26/11/2004. - PowerPoint PPT Presentation
Citation preview
1
Approches quantitatives de l’extraction de ressources traductionnelles à partir de
corpus parallèles
Auteur : Maria ZIMINA-POIROT
Thèse dirigée par
André SALEM
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE
ÉCOLE DOCTORALE : Langage et langues
Doctorat en Sciences du langage :
26/11/2004
1
2
Plan de l’exposé
• Parcours…
• Ressources textuelles multilingues– Gestion, accès au contenu linguistique…– Domaines d’application
• Textométrie multilingue– Un nouveau courrant de recherches interdisciplinaire…– Bilan sur les utilisations
26/11/2004
2
3
Parcours
• Etudes de lettres(Université Lomonossov, Moscou)– Philologie
– Linguistique et langues modernes
• Information Technology for Linguists(Coventry University, UK)– Travail sur corpus de textes
– Première approche de concordanciers parallèles
• Approches quantitatives de corpus parallèles(Université de la Sorbonne nouvelle – Paris 3)
…
3
4
« Il est maintenant possible d ’enregistrer et de manipuler par
ordinateur des masses pratiquement illimitées de textes…
Compte tenu de l ’évolution récente en informatique, tout
indique en effet que les traducteurs pourront bientôt accéder
facilement à de très vastes corpus bilingues contenant leurs
propres traductions et celles de leurs collègues. »
ISABELLE Pierre et WARWICK-ARMSTRONG Susan (1993).
« Les corpus bilingues : une nouvelle ressource pour le traducteur ».
In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université
de Montréal, pp. 288-306.
26/11/2004
4
5
Analyse de ressources textuelles multilingues
Corpus de textes parallèles ou comparables
Corpus de textes parallèles ou comparables
Bi-textes numérisés
Bi-textes numérisés
Visualisations sélectives du
contenu linguistique
Visualisations sélectives du
contenu linguistique
Sources :
Web, archives de textes traduits…
Outils de gestion :
aligneurs, étiqueteurs et analyseurs syntaxiques…
Moyens d’accès au contenu linguistique :
concordanciers parallèles, mémoires de traduction, lexiques de termes multilingues…
État 1 État 2 État 3
26/11/2004
5
6
Traduction
Lexicographie
Terminologie
Enseignement des langues étrangères
Recherche d’information multilingue
…
Corpus multilingues : domaines d’application
26/11/2004
6
7
TRAITEMENT AUTOMATIQUEDE CORPUS MULTILINGUES
Textométrie multilingue
http://www.cavi.univ-paris3.fr/lexicometrica/jadt/textometrie-multilingue/
TEXTOMÉTRIE
TRADUCTOLOGIE
Ingénierie multilingue
26/11/2004
Alignement automatique
Extraction de ressources traductionnelles
7
8
Exploration textométrique parallèle (étape 1)
volet français volet anglais
fonctionnairesfonctionnaires
26/11/2004
8
9
volet français volet anglais
fonctionnairesfonctionnaires servantsservants
Exploration textométrique parallèle (étape 2)
26/11/2004
9
10
Analyse des résultats
fonctionnaires (Frq.Tot.=49)
officers (Frq.P.=10)
officials (Frq.P.= 7)
servants (Frq.P.=31)
48
volet français volet anglais
??
26/11/2004
10
11Travail effectué en collaboration avec William Martinez
Univers lexicaux parallèles
26/11/2004
FF
AA
FF
AA
FF
AA
11
12
Bilan…sur l’extraction de ressources
traductionnelles
26/11/2004
• Notre approche permet d’extraire semi automatiquement et sans faire appel à des savoirs a priori, des correspondances traductionnelles à partir de corpus parallèles.
• La textométrie met en évidence des phénomènes traductionnels complexes : variations contextuelles des traductions, groupes thématiques d’équivalences lexicales, constellations lexicales parallèles, etc.
• Appuyée sur la représentation topographique de corpus pluri textuels, cette approche permet d’explorer la structure des équivalences lexicales.
12
13
Bilan…sur la création d’outils de traitement automatique de corpus multilingues
Maquettes de logiciels d’exploration textométrique multilingue ;
Procédures et objets informatiques indispensables pour l’acquisition de ressources traductionnelles à base de corpus.
26/11/2004
13