20
Atelier ASSTICCOT, Conférence CFD 2002, 20- 23 octobre Hammamet 1 Terminologie et corpus : la question du genre et de la variation Myriam Bouveret (DYALANG) Anne Condamines (ERSS) Valérie Delavigne (DYALANG) Pierre Zweigenbaum (DIAM/SIM)

Variation corpus

Embed Size (px)

Citation preview

Page 1: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

1

Terminologie et corpus : la question du genre et de la

variation

Myriam Bouveret (DYALANG)

Anne Condamines (ERSS)

Valérie Delavigne (DYALANG)

Pierre Zweigenbaum (DIAM/SIM)

Page 2: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

2

Introduction

• le corpus permet de construire des ressources langagières de types différents (glossaires, index, terminologies, thésaurus, ontologies…)

• mais le corpus est aussi en soi une ressource langagière à considérer en amont

• des corpus, méthodes, ressources adaptées aux applications, utilisateurs

Page 3: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

3

Sens / signification

• Ce déplacement en linguistique renvoie à la question de la signification

• Linguistique et informatique ont une base logique commune qui a permis de travailler sur le sens

• Nécessité de trouver de nouvelles bases entre linguistique et informatique reposant sur la signification (cf. Slodzian 2000)

Page 4: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

4

Contexte, variation, genre• On pose ici le problème du sens en contexte :

variation et genre pour des ressources crées à partir de textes

• le genre, une sorte de variation • Un texte n’est pas normé, il est produit selon un

genre (ex : comptes rendus médicaux, résumés de thèse, fiches de dégustation, etc…)

Page 5: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

5

2. La variation• « La variation mesure un décalage entre une

forme lexicalisée et son usage » (Slodzian 2000 :75)

• Le sens n’est pas figé. Synonymie et polysémie comme variation inhérente à la langue naturelle

• Cas de variation : variation sémantique (polysémie, synonymie), variantes morphologiques et variation multilingue

Page 6: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

6

Variation sémantique et morphologique

Sortie 1 la sortie des informations

output process

Sortie 2 la sortie imprimée

output data

Sortie 3 la sortie du logiciel 

computer output

Sortie 4 la sortie plug

exemples extraits du corpus LLI, Laboratoire de linguistique et d'informatique de l'université de Montréal

Page 7: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

7

Terme instrument localisation

résultat

mémoriser mémoire

formater format

indexation index

impression imprimante imprimé

Page 8: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

8

TAL: Différents aspects de la variation

Terme entré Terme de référence

Flexion Aberrations chromosomiques

Aberration chromosomique

Dérivation Sténose valve aorte

Sténose aortique valvulaire

Syntaxe

(+ dérivation)

Adénome de la prostate

Adénome prostatique

Page 9: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

9

Sémantique

Terme entré Terme de référence

Synonymes Appareil

Derme

Dispositif

Corium

Co-référents Canal de Cuvier Veine cardinale commune

Page 10: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

10

Genre et variation lexicale

• Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique

• Une dimension du genre est le public visé

• Exemple: grand public vs spécialistes

Crise cardiaque Infarctus du myocarde

Rhume Rhinopharyngite

Page 11: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

11

Genre et variation morphologique

• Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique

• Cas: productivité des adjectifs dérivés dans des corpus médicaux (hématologie)

• Exemple: dérivés en –al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers

Page 12: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

12

Genre et variation syntaxique

• Les outils de TAL ont des performances qui varient avec le genre des textes

• L’étiquetage morpho-syntaxique (GRACE) diffère selon le genre: HEUR et Brill-Limsi

• Exemple :journaux, mémoires, romans et essais. Performances homogènes sauf pour mémoires

Page 13: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

13

3. La question du genre• Problématique

– Caractériser les textes au-delà de leur contenu– Prendre en compte la situation de production d’un texte– Genre influe sur les ressources terminologiques

ex : légitimité /illégitimité des textes de vulgarisation• Définition

– Comportement discursif observable par des régularités langagières auxquelles les locuteurs obéissent (Bahktine)

– Compétence métalinguistique. – Normes: horizon d’attente, modèle de création– Descriptions insuffisantes: droit, génie génétique, physique nucléaire, art

pariétal…

Page 14: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

14

Une typologie des genres est-elle possible ?

Tentatives nombreuses: rhétorique classique,champ littéraire, institution scolaire. Mais :

• Multiplication des situations possibles• Classes trop générales • Hétérogénéité des genres (ex: écrit vs oral)• Plusieurs genres dans un même texte• Diversité des critères descriptifs (action sociale,

fonctionnement rhétorique, situations énonciatives, finalité du discours, situation sociale, types d’interaction, actes de langage…)

Page 15: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

15

Marqueurs de reformulation

- Un exemple: les marqueurs des discours de vulgarisation

indice fort : importance du métalangagejuxtaposition, coordination, verbes (être, appeler, nommer, signifier, désigner…)

expressions métalinguistiques (c'est-à-dire, autrement dit, en d’autres termes…), joncteurs (ou, soit…)

- Mais • Marqueurs non spécifiques

• Tous les textes de vulgarisation ne portent pas ces marques

• Certains textes spécialisés les portent

Page 16: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

16

Marqueurs de relation

• Marqueur d’anaphorique a permis de repérer 44 génériques (cf. Aussenac, Condamines et Szulman 2000)– Exemple: Archivage de l’état de configuration logiciel. Cette activité…

• Ces génériques apparaissent comme têtes de termes complexes: acteur, activité, composant, processus

• Hypothèse: si plus fréquents dans textes non spécialistes on peut utiliser ces génériques pour constituer des ressources terminologiques s’adressant à des non-spécialistes

Page 17: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

17

Conclusion

• Pistes pour une étude de la variation – Outils d’extraction cf. Syntex – Patterns d’extraction – Marqueurs de genre – Modèles de ressources flexibles : intégrant la

variation. Nature du sens ?– Modèles de ressources économiques : indexant

la variation

Page 18: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

18

Pistes: des marqueurs de genre

• Quelles questions poser pour typifier les genres ?

• Comment exploiter les outils existants pour étudier des genres ? Ex, Biber utilise les concordanciers pour une étude des marques discursives (« study of discourse characteristics » Biber, Conrad and Reppen, 1998 :106)

• Des marqueurs grand public/spécialisé  ?

Page 19: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

19

Pistes: des dimensions du genre

• Difficultés de caractériser les genres (ex Web, mémoires)

• On peut utiliser des traits ou des dimensions différentielles

• Exemple: dimensions externes (destinataire, objectif) et dimensions internes (style, factualité, technicité) cf.Sinclair (EAGLES), Biber

Page 20: Variation corpus

Atelier ASSTICCOT, Conférence CFD 2002, 20-23 octobre Hammamet

20

BibliographieAssadi H.et Bourigault D., 2000, « Analyse syntaxique et statistique pour la construction d’ontologies à partir de textes », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 243-256 Aussenac, Condamines et Szulman, à paraître, « Prise en compte de l’application dans la constitution de produits terminologiques »  Biber D., Conrad S. and Reppen R., 1998, Corpus Linguistics. Investigating language stucture and use, Cambridge University Press Biber D., 1994, “Representativeness in corpus design. Linguistica Computazionale, IX-X:377-408”. Current Issues in Computational Linguistics: in honor of Don Walker. Condamines A. et Rebeyrolles J., 2000, « Construction d’une BCT à partir de textes : expérimentation d’une méthdoe », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 191-206 Delavigne V. et Bouveret M. (Ed.), 2000, Sémantique des termes, Dyalang, Publications de l’Université de Rouen Grabar et Zweigenbaum, à paraître, « Productivité à travers domaines et genres : dérivés adjectivaux et langue médicale », Langue française Illouz G., « Typage de données textuelles et adaptation des traitements linguistiques. Application à l’annotation morpho-syntaxique », thèse de l’Université de Paris XI, 2000 Illouz G ; 1999, « Méta-étiqueteurs adaptatif : vers une utilisation pragmatique des ressources linguistiques », Actes de TALN 99, (Pascal Amsili coord.), 185-194, ATALA CargèseSinclair J., 1996, « Preliminary Recommendations on Text Typology , document en ligne (http://nicolet.ilc.pi.cnr.it/EAGLES/texttyp/texttyp.html), EAGLES (Expert Advisory Group on Language Engineering Standards) Slodzian M., 2000, « L’émergence d’une terminologie textuelle et le retour du sens », in Béjoint et Thoiron 2000, Le sens en terminologie, Duculot-Aupelf, 61-85 Zweigenbaum P. et Grabar N., « Liens morphologiques et structuration de terminologie », in Actes d’IC 2000, Ingénierie des connaissances, Toulouse 2002, Eyrolles, 325-334