13
1 Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM UNIVERSITÉ PARIS 3 SORBONNE NOUVELLE ÉCOLE DOCTORALE : Langage et langues Doctorat en Sciences du langage : 26/11/20 04 1

Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

  • Upload
    guido

  • View
    26

  • Download
    1

Embed Size (px)

DESCRIPTION

UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE ÉCOLE DOCTORALE : Langage et langues. 1. Doctorat en Sciences du langage :. Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles. Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM. 26/11/2004. - PowerPoint PPT Presentation

Citation preview

Page 1: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

1

Approches quantitatives de l’extraction de ressources traductionnelles à partir de

corpus parallèles

Auteur : Maria ZIMINA-POIROT

Thèse dirigée par

André SALEM

UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE

ÉCOLE DOCTORALE : Langage et langues

Doctorat en Sciences du langage :

26/11/2004

1

Page 2: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

2

Plan de l’exposé

• Parcours…

• Ressources textuelles multilingues– Gestion, accès au contenu linguistique…– Domaines d’application

• Textométrie multilingue– Un nouveau courrant de recherches interdisciplinaire…– Bilan sur les utilisations

26/11/2004

2

Page 3: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

3

Parcours

• Etudes de lettres(Université Lomonossov, Moscou)– Philologie

– Linguistique et langues modernes

• Information Technology for Linguists(Coventry University, UK)– Travail sur corpus de textes

– Première approche de concordanciers parallèles

• Approches quantitatives de corpus parallèles(Université de la Sorbonne nouvelle – Paris 3)

3

Page 4: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

4

« Il est maintenant possible d ’enregistrer et de manipuler par

ordinateur des masses pratiquement illimitées de textes…

Compte tenu de l ’évolution récente en informatique, tout

indique en effet que les traducteurs pourront bientôt accéder

facilement à de très vastes corpus bilingues contenant leurs

propres traductions et celles de leurs collègues. »

ISABELLE Pierre et WARWICK-ARMSTRONG Susan (1993).

« Les corpus bilingues : une nouvelle ressource pour le traducteur ».

In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université

de Montréal, pp. 288-306.

26/11/2004

4

Page 5: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

5

Analyse de ressources textuelles multilingues

Corpus de textes parallèles ou comparables

Corpus de textes parallèles ou comparables

Bi-textes numérisés

Bi-textes numérisés

Visualisations sélectives du

contenu linguistique

Visualisations sélectives du

contenu linguistique

Sources :

Web, archives de textes traduits…

Outils de gestion :

aligneurs, étiqueteurs et analyseurs syntaxiques…

Moyens d’accès au contenu linguistique :

concordanciers parallèles, mémoires de traduction, lexiques de termes multilingues…

État 1 État 2 État 3

26/11/2004

5

Page 6: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

6

Traduction

Lexicographie

Terminologie

Enseignement des langues étrangères

Recherche d’information multilingue

Corpus multilingues : domaines d’application

26/11/2004

6

Page 7: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

7

TRAITEMENT AUTOMATIQUEDE CORPUS MULTILINGUES

Textométrie multilingue

http://www.cavi.univ-paris3.fr/lexicometrica/jadt/textometrie-multilingue/

TEXTOMÉTRIE

TRADUCTOLOGIE

Ingénierie multilingue

26/11/2004

Alignement automatique

Extraction de ressources traductionnelles

7

Page 8: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

8

Exploration textométrique parallèle (étape 1)

volet français volet anglais

fonctionnairesfonctionnaires

26/11/2004

8

Page 9: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

9

volet français volet anglais

fonctionnairesfonctionnaires servantsservants

Exploration textométrique parallèle (étape 2)

26/11/2004

9

Page 10: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

10

Analyse des résultats

fonctionnaires (Frq.Tot.=49)

officers (Frq.P.=10)

officials (Frq.P.= 7)

servants (Frq.P.=31)

48

volet français volet anglais

??

26/11/2004

10

Page 11: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

11Travail effectué en collaboration avec William Martinez

Univers lexicaux parallèles

26/11/2004

FF

AA

FF

AA

FF

AA

11

Page 12: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

12

Bilan…sur l’extraction de ressources

traductionnelles

26/11/2004

• Notre approche permet d’extraire semi automatiquement et sans faire appel à des savoirs a priori, des correspondances traductionnelles à partir de corpus parallèles.

• La textométrie met en évidence des phénomènes traductionnels complexes : variations contextuelles des traductions, groupes thématiques d’équivalences lexicales, constellations lexicales parallèles, etc.

• Appuyée sur la représentation topographique de corpus pluri textuels, cette approche permet d’explorer la structure des équivalences lexicales.

12

Page 13: Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM

13

Bilan…sur la création d’outils de traitement automatique de corpus multilingues

Maquettes de logiciels d’exploration textométrique multilingue ;

Procédures et objets informatiques indispensables pour l’acquisition de ressources traductionnelles à base de corpus.

26/11/2004

13