Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

Preview:

DESCRIPTION

UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE ÉCOLE DOCTORALE : Langage et langues. 1. Doctorat en Sciences du langage :. Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles. Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM. 26/11/2004. - PowerPoint PPT Presentation

Citation preview

1

Approches quantitatives de l’extraction de ressources traductionnelles à partir de

corpus parallèles

Auteur : Maria ZIMINA-POIROT

Thèse dirigée par

André SALEM

UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE

ÉCOLE DOCTORALE : Langage et langues

Doctorat en Sciences du langage :

26/11/2004

1

2

Plan de l’exposé

• Parcours…

• Ressources textuelles multilingues– Gestion, accès au contenu linguistique…– Domaines d’application

• Textométrie multilingue– Un nouveau courrant de recherches interdisciplinaire…– Bilan sur les utilisations

26/11/2004

2

3

Parcours

• Etudes de lettres(Université Lomonossov, Moscou)– Philologie

– Linguistique et langues modernes

• Information Technology for Linguists(Coventry University, UK)– Travail sur corpus de textes

– Première approche de concordanciers parallèles

• Approches quantitatives de corpus parallèles(Université de la Sorbonne nouvelle – Paris 3)

3

4

« Il est maintenant possible d ’enregistrer et de manipuler par

ordinateur des masses pratiquement illimitées de textes…

Compte tenu de l ’évolution récente en informatique, tout

indique en effet que les traducteurs pourront bientôt accéder

facilement à de très vastes corpus bilingues contenant leurs

propres traductions et celles de leurs collègues. »

ISABELLE Pierre et WARWICK-ARMSTRONG Susan (1993).

« Les corpus bilingues : une nouvelle ressource pour le traducteur ».

In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université

de Montréal, pp. 288-306.

26/11/2004

4

5

Analyse de ressources textuelles multilingues

Corpus de textes parallèles ou comparables

Corpus de textes parallèles ou comparables

Bi-textes numérisés

Bi-textes numérisés

Visualisations sélectives du

contenu linguistique

Visualisations sélectives du

contenu linguistique

Sources :

Web, archives de textes traduits…

Outils de gestion :

aligneurs, étiqueteurs et analyseurs syntaxiques…

Moyens d’accès au contenu linguistique :

concordanciers parallèles, mémoires de traduction, lexiques de termes multilingues…

État 1 État 2 État 3

26/11/2004

5

6

Traduction

Lexicographie

Terminologie

Enseignement des langues étrangères

Recherche d’information multilingue

Corpus multilingues : domaines d’application

26/11/2004

6

7

TRAITEMENT AUTOMATIQUEDE CORPUS MULTILINGUES

Textométrie multilingue

http://www.cavi.univ-paris3.fr/lexicometrica/jadt/textometrie-multilingue/

TEXTOMÉTRIE

TRADUCTOLOGIE

Ingénierie multilingue

26/11/2004

Alignement automatique

Extraction de ressources traductionnelles

7

8

Exploration textométrique parallèle (étape 1)

volet français volet anglais

fonctionnairesfonctionnaires

26/11/2004

8

9

volet français volet anglais

fonctionnairesfonctionnaires servantsservants

Exploration textométrique parallèle (étape 2)

26/11/2004

9

10

Analyse des résultats

fonctionnaires (Frq.Tot.=49)

officers (Frq.P.=10)

officials (Frq.P.= 7)

servants (Frq.P.=31)

48

volet français volet anglais

??

26/11/2004

10

11Travail effectué en collaboration avec William Martinez

Univers lexicaux parallèles

26/11/2004

FF

AA

FF

AA

FF

AA

11

12

Bilan…sur l’extraction de ressources

traductionnelles

26/11/2004

• Notre approche permet d’extraire semi automatiquement et sans faire appel à des savoirs a priori, des correspondances traductionnelles à partir de corpus parallèles.

• La textométrie met en évidence des phénomènes traductionnels complexes : variations contextuelles des traductions, groupes thématiques d’équivalences lexicales, constellations lexicales parallèles, etc.

• Appuyée sur la représentation topographique de corpus pluri textuels, cette approche permet d’explorer la structure des équivalences lexicales.

12

13

Bilan…sur la création d’outils de traitement automatique de corpus multilingues

Maquettes de logiciels d’exploration textométrique multilingue ;

Procédures et objets informatiques indispensables pour l’acquisition de ressources traductionnelles à base de corpus.

26/11/2004

13

Recommended