Upload
giselle-derrien
View
104
Download
0
Embed Size (px)
Citation preview
Des corpus bilingues annotés
sémantiquement pour l’aide à la
rédaction: application aux collocations de
la langue scientifique générale
Olivier Kraif, Agnès TutinLIDILEM
Université Stendhal Grenoble 3
Paris, Journée ATALA « Outils de TAL pour l’aide à la rédaction »
Objectif
• Montrer comment des corpus bilingues alignés étiquetés et annotés sémantiquement permettraient d’élaborer des outils d’aide à la rédaction en L2 :– Pour la constitution des données :
En permettant au concepteur d’extraire facilement des données lexicales fines pour constituer des bases de collocations monolingues et bilingues.
– Pour la consultation des données :En permettant à l’utilisateur d’observer les phénomènes lexicaux dans leur contexte naturel, les corpus, à partir d’un accès onomasiologique et sémasiologique.
Plan
• Les collocations : un phénomène qui doit être observé en corpus
• Une proposition d’architecture d’un outil d’aide à la rédaction exploitant des corpus bilingues annotés linguistiquement
• Les ressources TAL exploitées à cette fin
Les collocations : un phénomène qui doit être observé sur corpus
• Les collocations
• Donner exemples syntaxiques et exemples sémantiques
• Informations sur les fréquences et les genres
►Collocations
Architecture
Ressources TAL
Architecture d’un système d’aide à la rédaction basé sur corpus
• Principes :– Navigation entre les ressources lexicales et
les exemples sur corpus. – Accès par le sens (classe sémantique,
synonyme) ou par la forme (lemme, catégorie)– Navigation entre les langues par le biais d’un
lexique pivot et des alignements de phrases.– Exploitation d’analogies sémantiques pour
vérifier des candidats collocations et proposer le cas échéant des collocations valides.
Collocations
► Architecture
Ressources TAL
Architecture générale
Collocations
► Architecture
Ressources TAL
Base+ collocatif
corpus monolingue
corpus bilingue
échec
Généralisation à la classe de la base et/ou du collocatif
Substitution synonymique
Index
Fiche lexicographique
de la base
• classe sémantique
• collocatifs triés par
1/ classes et
2/ fréquences d'occurrence
3/ fréquences des constructions
Les exemples sont triés en fonction des correspondances (par ordre de fréquence décroissante)
Les exemples sont triés en fonction des constructions (par ordre de fréquence décroissante)
Schéma d'interrogation unilingue
Base+ collocatif L2
Dictionnaire
Accès aux informations linguistiques
Exemple de recherche (corpus bilingue)– Critère de recherche : défendre une approche
• Le corpus ne contient pas d'exemple
• Possibilité de généraliser : type-verbe='défendre'
Résultats, dans le corpus bilingue :pourquoi et comment nous préconisons une démarche de design…why and how we promote a design…
En soutenant l' idée d' un essai contrôlé …In endorsing the idea of a placebo-controlled …
Trois arguments sont généralement avancés à l' appui …Three arguments are generally put forth to support …
Kracke et Parker , aux Etats-Unis , ont avancé l' hypothèse que …Kracke and Parker argued that ….
Je veux préconiser une approche au problème…I want to advocate a view of the problem ….(…)
Collocations
► Architecture
Ressources TAL
Accès aux informations linguistiques
Exemple de recherche (corpus bilingue)
On obtient ainsi des quasi-synonymes :
approche -> démarche
défendre -> préconiser
Mais aussi des équivalents potentiels en anglais
to promote
to advocate a view
Collocations
► Architecture
Ressources TAL
Accès aux informations linguistiques
Des classes de quasi-synonymes peuvent être obtenues automatiquement grâce au corpus bilingue :
• Technique de l'aller-retour
• Deux unités de L2 qui partagent les mêmes correspondances
en L1 ont sans doute des sens en commun.
Exemples (extrait d'un corpus de 27 000 couples de phrases):
prouver-verb -> démontrer-verb montrer-verb révéler-verb
question-noun -> problème-noun
apercevoir-verb -> observer-verb montrer-verb remarquer-verb distinguer-
verb trouver-verb voir-verb vivre-verb
• Les quasi-synonymes permettent également de généraliser la
recherche
Collocations
► Architecture
Ressources TAL
Accès aux informations linguistiques
Autre parcours
• On traduit la requête mot à mot
• Puis on effectue une recherche dans le corpus en L2.
• Exemple :approche -> approach
préconiser -> promote
Trouve-t-on des occurrences de la collocation: to promote +
approach ?
Collocations
► Architecture
Ressources TAL
Accès aux informations linguistiques
Collocations
► Architecture
Ressources TAL
Accès aux informations linguistiques
Collocations
► Architecture
Ressources TAL
Accès aux informations linguistiques
Pour la traduction des requêtes, on peut utiliser un lexique bilingue extrait à partir du corpus aligné.
• On calcule les correspondances lexicales
• On enregistre les équivalences les plus fréquentes et
statistiquement significatives
• Plus le corpus est vaste, mieux on peut filtrer les
correspondances valides.
Exemple (WHR95)
Collocations
► Architecture
Ressources TAL
Accès aux informations linguistiques
Différents types d’accès :- Forme
- Catégorie- Lemme
- Sens (thésaurus)- Classe sémantique
- Généralisations- En cas d’échec à une réponse, extension à la
classe sémantique et aux synonymes
Collocations
► Architecture
Ressources TAL
Exemple 1
Exemple 1 : défendre approchefrançais ou bilingue
Collocations
► Architecture
Ressources TAL
Exemple 2
Défendre approche vers l’anglais
Traduction de l’expression en utilisant les équivalents traductionnels et classes sémantiques (en sélectionnant les équivalents jugés pertinents)
Collocations
► Architecture
Ressources TAL
Ressources TAL nécessaires
• Corpus
- Corpus en anglais et français étiquetés au niveau morpho-syntaxique.
- Corpus annotés au niveau des collocations :- Annotation simple à réaliser (par exemple, emploi de
transducteurs d’états finis).
- Annotations à vérifier manuellement.– Corpus bilingues alignés (techniques??).
• Alignement à vérifier manuellement.
Collocations
Architecture
► Ressources TAL
Ressources TAL nécessaires
• Ressources lexicales
- Dictionnaire de collocations (produit automatiquement à partir des annotations vérifiées sur corpus).
- Lexique d’équivalents traductionnels (mots simples), généré automatiquement, à vérifier en partie manuellement.
- Lexique des synonymes généré automatiquement à partir des équivalents traductionnels, à vérifier en partie manuellement.
Collocations
Architecture
► Ressources TAL
Problèmes posés par les ressources
• La qualité du lexique bilingue et du dictionnaire de synonymes est tributaire de la taille des corpus (difficiles à obtenir).
• Pistes à envisager :– Corpus d’autres domaines, par exemple, presse
ou discours institutionnels (vocabulaire abstrait commun).
– Exploiter les corpus comparables pour affiner les dictionnaires de synonymes.
Collocations
Architecture
► Ressources TAL
Interface utilisateur
• L’intégration des ressources TAL doit être pensée du point de vue de l’utilisateur.
• Points à envisager : – L’accès sémantique aux données doit être simple
et « naturel ». Expérimentation nécessaire pour vérifier l’ « utilisabilité » des étiquettes sémantiques.
– Le mode d’interrogation doit être simple mais puissant. Trouver un compromis entre des formulaires peu
puissants et des expressions régulières indigestes. Proposer des requêtes préenregistrées pour permettre
l’interrogation par analogie.
Collocations
Architecture
► Ressources TAL
Conclusion
• Des techniques de TAL éprouvées (étiquetage morpho-syntaxique, automates d’états finis, alignement de textes bilingues) pourraient être exploitées facilement pour élaborer un outil d’aide à la rédaction.
• Une vérification manuelle des outils reste indispensable (mais est relativement peu coûteuse).
• L’ergonomie de l’interface utilisateur doit être prise sérieusement en compte. Moteurs de recherche Correcteurs orthographiques