Download pdf - 04-cabre

37

CONSTITUER UN CORPUS DE TEXTES DE SPECIALITE

M. Teresa CABR Institut Universitari de Lingstica Aplicada

Universitat Pompeu Fabra (Barcelone)

Il ne peut y avoir de doute que le dveloppement des corpus textuels a permis

la linguistique descriptive de faire un saut qualitatif trs important. Ce

progrs a permis aux linguistes de tenir compte de faon plus adquate du

fonctionnement des langues partir du moment o les analyses ont pu se

fonder pour la premire fois sur des exemples abondants et reprsentatifs de

production langagire qui ntaient ni limits ni biais subjectivement comme

auparavant. En outre, la linguistique de corpus permet dexplorer de manire

exhaustive les productions langagires et doffrir au linguiste des chantillons

de donnes quune analyse manuelle nest pas en mesure dexploiter de faon

aussi approfondie.

Dans cet article nous poursuivons trois objectifs. Tout dabord nous

exposerons quelques caractristiques de ce quon appelle les langues de

spcialit, qui sont lorigine des textes spcialiss. Ensuite nous

prsenterons brivement le corpus textuel spcialis de lInstitut universitaire

de linguistique applique comme chantillon dadaptation aux conditions

mentionnes dans notre premier objectif. Nous monterons enfin titre

dexemple une tude sur les diffrences entre les textes de spcialit et les

textes non spcialiss au regard de leurs caractres linguistico-grammaticaux.

Cahier du CIEL 2007-2008

38

1 LA CONSTITUTION DUN CORPUS DE SPECIALITE :QUESTIONS ET CRITERES

Pour construire un corpus textuel de spcialit la premire question qui se

pose est de savoir ce quon entend par texte spcialis ou comment nous

identifions les textes spcialiss. Sans rponse prcise cette question il nest

videmment pas possible de commencer slectionner le matriel.

Une fois tablis les critres qui permettent didentifier les textes produits par

des spcialistes dans des situations professionnelles, il convient de dterminer

quels types de texte nous devons retenir pour que le corpus qui en rsulte soit

suffisamment quilibr.

En troisime lieu, nous devons dterminer la quantit de productions qui

feront partie de ce corpus, pour savoir sil sera suffisamment reprsentatif de

chaque spcialit ou bien seulement pour analyser un thme pralablement

choisi. Il convient ce propos davoir pralablement dtermin afin de

pouvoir dfinir sa dimension. Dans quel but constituons-nous ce corpus?

Quelle en est la finalit que nous comptons atteindre grce lui? A quelles

tudes linguistiques souhaitons-nous quil donne lieu?

En rpondant ces trois questions nous pouvons dj commencer le travail,

qui logiquement devra comporter dautres questions de type plus techniques,

quil sagisse de questions linguistiques ou dinformatiques ?

Une fois constitu le corpus sous forme numrique enfin, nous devons

factoriser toutes les possibilits dexploration, possibilits que nous avons d

tablir dans ltape prliminaire de la caractrisation du corpus constituer.

Nous rpondrons point par point chacune de ces questions.

1.1 Quest-ce un texte spcialis? Comment reconnatre parmi tous les textes ceux qui sont spcialiss?

Les textes spcialiss sont les productions linguistiques, orales ou crites, qui

se manifestent dans le cadre des communications professionnelles et dont la

finalit est exclusivement professionnelle. On reconnat les situations

professionnelles par les interlocuteurs qui interagissent, par le sujet voqu

qui relve du domaine ou des domaines concerns par la profession, et par la

finalit essentielle de rechercher linformation auprs du rcepteur, bien que

pour ce faire on utilise des stratgies discursives diffrentes.

Dun point de vue analytique, on peut dire que les textes spcialiss se

dfinissent par trois types de conditions :

T. CABRE Constituer un corpus de textes de spcialit

39

conditions discursives : les proprits de la situation

spcialise de ce type de communication

conditions cognitives : le thme qui est trait et la faon

dont il est trait

conditions linguistiques : les conditions textuelles gnrales

(prcision, concision et systmaticit, les deux dernires

des degrs diffrents suivant les conditions discursives), la

forme macro et micro textuelle, et surtout les units

lexicales propres au domaine dont il est question dans le

texte.

1.2 Quels sont les variables que nous pouvons prendre en considration dans un corpus spcialis?

Les textes de spcialit ne sont pas homognes, mais ils sont organiss en

diffrents types en fonction des critres de classification qui sont pris en

considration. Les critres qui sont notre avis les plus pertinents pour

organiser les textes de spcialit dans un corpus sont les suivants :

le thme/sujet

la perspective ou dimension disciplinaire

le niveau de spcialisation

les sources

le genre textuel

la classe de texte daprs la stratgie discursive

les langues

la relation entre les textes des langues du corpus dans le cas de textes

plurilingues (bilingues, trilingues, etc.)

En matire de thme ou de sujet nous distinguons entre corpus

monodisciplinaire et pluridisciplinaire. Un exemple de ce dernier : la banque

de droit de lenvironnement pour le groupe TERMISUL de lUniversit de

Porto Alegre (Brsil).

Quant au niveau de spcialisation, un corpus peut comporter des textes dun

seul niveau de spcialit (par exemple : des textes darticles scientifiques


40

provenant de priodiques de mme type) ou encore comporter des textes de

diffrents niveaux de spcialit1.

Par le canal de transfert, les textes du corpus peuvent maner dun seul type

de source ou de plusieurs types de sources. La diversit des sources peut

rsulter aussi dune grande diversit de critres parmi lesquels nous nous

intressons au critre du mode de transmission ici car les textes dun corpus

peuvent tre exclusivement oraux ou crits ou audiovisuels ou encore

comporter des occurrences de toutes les possibilits.

En ce qui concerne le genre textuel, un corpus peut tre homogne et ne

comporter que des textes dun seul genre (par exemple des abstracts de

priodiques scientifiques), ou bien il peut inclure des textes de diffrents

genres textuels.

En ce qui concerne le type de texte daprs la stratgie discursive, les corpus

peuvent tre homognes ou htrognes en matire de genre textuel. Par

exemple, un corpus homogne ne comportera que des textes argumentatifs, ou

narratifs, etc.

En application du critre des langues, les corpus peuvent tre monolingues,

bilingues, trilingues, etc. Les textes qui comportent plus dune langue peuvent

tre mlangs au sein dun seul sujet ou bien comporter des textes dans une

langue donne et la traduction correspondante dans la deuxime ou la

troisime langue. Dans ce dernier cas on parle de corpus parallles.

1.3 Quelle est la bonne taille dun corpus spcialis?

La rponse cette question ne peut tre que la suivante : ceci dpend de la

finalit du corpus. A quoi va servir un corpus? Pour extraire des donnes

reprsentatives de lusage dune langue dans son ensemble? Dans ce cas-l

nous devons constituer un type de corpus que lon appelle corpus de

rfrence, qui comporte un chantillon dusage reprsentatif de la totalit de

la langue, y compris toute la variation interne et externe. En revanche, sil

sagit de constituer un corpus pour tudier un problme particulier, la taille du

corpus doit tre en adquation avec les finalits proposes. Par exemple, le

corpus que nous devons constituer pour analyser lusage dun pronom en

position enclytique sera de taille moins importante que celui quil faudrait

1 La pertinence dun texte un niveau haut, moyen ou bas se dtermine par les

caractristiques des destinataires, son support et ses finalits. Ainsi, un texte produit

par un spcialiste pour des tudiants peut se dfinir comme de niveau moyen. Pour de

plus amples renseignements, voir Cabr (1998) et Ciapuscio (2003).


41

pour extraire la terminologie dun domaine de spcialit. Lextraction de

collocations ncessitera un corpus encore plus important.

1.4 Le processus de constitution de corpus

La constitution effective, une fois les critres tablis, se droule en phases

distinctes :

a. la slection des sources

b. les critres de slection des textes et la dcision de savoir sil faut

prendre le texte complet ou des fragments du mme texte2

c. les dcisions quant larchitecture de base

d. les dcisions quant linfrastructure logicielle et matrielle (systme

de gestion de corpus textuels)

e. la slection des conventions pour la reprsentation des textes

f. les critres, langage et systme de balisage structurel

1.5 Outils dinterrogation

Les textes dun corpus peuvent tre utiliss sous forme brute ou dj traits

linguistiquement. Si lon utilise des textes dj traits, il parat logique de

tenir compte des ressources et des outils de traitement automatique de

linformation :

outils de marquage structural et linguistique

dictionnaire initial de traitement

systme danalyse morphologique

systme de lemmatisation

systme de dsambigusation

systme de gestion de dictionnaires

systme de structuration syntaxique ( chunker ), etc.

2 Cette dcision dpend des tudes que nous souhaitons raliser grce au corpus. Pour

lanalyse textuelle (connecteurs, structuration informative, genres textuels, etc.), il faut

des textes complets.


42

1.6 Possibilits dexploitation

Les possibilits dexploitation linguistique dun corpus dpendent enfin du

traitement que les donnes ont subies pendant cette phase. Les possibilits

dapplication des donnes du corpus se ralisent dans les secteurs suivants :

en ingnierie linguistique, pour la mise au point doutils et de robots

en extraction dinformation pour des besoins de recherche,

denseignement, dexploitation industrielle, de publication, etc.

en rcupration dinformation pour des besoins documentaires et

bibliographiques.

Les linguistes sintressent aux corpus de spcialit surtout pour les

applications suivantes :

la recherche sur le discours spcialis, la terminologie et la

phrasologie spcialiss

llaboration de dictionnaires spcialiss

lenseignement des langues de spcialit ou de langues sur objectifs

spcialiss.

Pour lenseignement des langues de spcialit, les corpus donnent la

possibilit de mieux prparer les programmes (en rapport avec les besoins et

le niveau de connaissances des tudiants), dlaborer des exercices et

dalimenter des systmes dauto-apprentissage des langues.

Dans le domaine de la documentation, et plus concrtement pour la gestion de

linformation, les corpus fournissent de linformation pour la construction

automatique ou assiste par ordinateur de thsaurus, pour lindexation

automatique et pour laborer des systmes de classification de documents ou

pour mieux orienter la consultation selon le profil de lutilisateur individuel.

2 LE CORPUS TECHNIQUE PLURILINGUE DE LIULALInstitut universitaire de linguistique applique (IULA) est un centre de

lUniversit Pompeu Fabra, de Barcelone, consacr la recherche et la

formation doctorales. Il fut cr en 1993 par Maria Teresa Cabr. LIULA est

sous-divis en groupes de recherche : Lexique, terminologie et discours

spcialis (Groupe IULATERM, qui hberge la Linguistique Informatique),

Lexicographie (Groupe INFOLEX), Variation linguistique (Groupe UVAL),

Documentation et publication numrique (Groupe DIGIDOC), ainsi que trois

laboratoires : OBNEO (Observatoire de nologie), LATEL (Laboratoire de


43

technologie linguistique) et le Laboratoire de linguistique judiciaire. Depuis

1993 jusquaujourdhui le projet Corpus est le projet de recherche commun

auquel participent tous les membres de lIULA. Il comporte des textes crits

dans cinq langues (catalan, castillan, anglais, franais et allemand) des

domaines de lconomie, du droit, de lenvironnement, de la mdecine et de

linformatique. Le corpus comporte en plus des documents parallles,

facilitant ainsi ltude de la traduction. Le corpus multilingue de lIULA est

constitu dun sous-corpus de la langue gnrale, extrait de la presse de

grande diffusion, qui reprsente un corpus contrastif.

Lobjectif de ce corpus est de faciliter lanalyse de donnes linguistiques afin

de pouvoir tablir les lois qui rgissent le comportement de chaque langue

dans chaque domaine. Il est ouvert aux chercheurs et tous ceux qui ont

besoin de consulter dans les domaines de spcialit concerns. Lexploitation

du corpus a dbouch sur des tudes de caractre terminologique, discursif,

morphologique, syntaxique, nologique ou traductologique. Afin de faciliter

lexploitation des donnes, lIULA a mis au point une srie doutils

dinterrogation. Parmi ceux-ci on peut signaler un extracteur automatique de

nologie, un dtecteur automatique de terminologie, un aligneur de textes, un

outil permettant lalimentation des dictionnaires. De fait, ce corpus est le

principal support des activits de recherche et denseignement de notre

institut.

Loutil qui permet daccder aux donnes du corpus par Internet est

BwanaNet, qui peut tre consult sur la page principale du site de lIULA

(http ://bwananet.iula.upf.edu/), dans la rubrique intitule Recursos IULA.

Le corpus de lIULA comporte des textes crits dans cinq langues (catalan,

castillan, anglais, franais et allemand) des domaines de lconomie, du droit,

de lenvironnement, de la mdecine et de linformatique, ainsi que des

documents parallles sur ces sujets. Chacun des domaines a t structur par

un spcialiste en diffrents sous-domaines de telle sorte que les textes

puissent tre rcuprs avec une grande prcision thmatique.


44

Voici comment est structur le domaine de la mdecine :

Anatomie (AN)

Organismes (OR)

Maladies (MA)

Produits chimiques et pharmaceutiques (PQ)

Techniques et quipements analytiques, diagnostiques et

thrapeutiques

(TE)

Psychiatrie et psychologie (PS)

Sciences biologiques (CB)

Sciences physiques (CF)

Anthropologie, ducation, sociologie et phnomnes

sociaux

(FS)

Technologie, industrie, agriculture (TI)

Sciences humaines (HU)

Information scientifique (IC)

Groupes nominaux (GN)

Planification et gestion sanitaires (GS)

Le traitement des textes du corpus suit les tapes suivantes.

2.1 Phase de slection des textes

Les spcialistes de chaque matire slectionnent les textes quils considrent

comme pertinents et les classent par thme dans une structuration du domaine

pralablement conu par des spcialistes.

2.2 Phase dannotation et denregistrement de linformation du document

Les documents sont baliss selon la norme SGML et les conventions tablies

par la norme Corpus Encoding Standards (CES) du projet EAGLES. Ensuite

linformation de type documentaire est enregistre (auteur, titre, dition,

pages retenues, sous-domaine auquel il appartient, langues quun document

unique peut comporter dans le corpus).


45

2.3 Phase de traitement linguistique

Le traitement linguistique de la documentation est automatis et comporte un

prtraitement afin de traiter linguistiquement les entits susceptibles dune

dtection automatique avant lanalyse morphologique (dates, chiffres,

locutions, noms propres, sigles et abrviations), une analyse morphologique,

par laquelle tous les mots du documents sont lemmatiss et pourvus dune ou

de plusieurs tiquettes morphologiques, en accord avec le systme

dtiquetage morphosyntaxique conu lIULA, ainsi quune

dsambigusation linguistique et statistique de sorte que chaque mot ne se

voie attribu quun seul lemme et une seule tiquette.

2.4 Stockage dans une base de donnes textuelles

Finalement quand chaque mot est associ un lemme et une catgorie

grammaticale, les textes sont stocks dans une base de donnes textuelles, qui

comporte toute linformation gnre sur ce document. Le rsultat de tout ce

processus de traitement des textes peut tre consult en ligne ladresse

suivante : http :// brangaene.upf.es/bwananet/index.htm.

Domaine catalan espagnol anglais franais allemand total

Droit 1 463 000 2 085 000 431 000 44 000 16 000 4 039 000

Economie 1 776 000 1 091 000 274 000 78 000 27 000 3 246 000

Environnement 1 506 000 1 062 000 599 000 230 000 429 000 3 826 000

Informatique 655 000 1 227 000 338 000 194 000 83 000 2 497 000

Mdecine 2 619 000 4 077 000 1 555 000 27 000 198 000 8 476 000

Total 8 019 000 9 542 000 3 197 000 573 000 753 000 22 084 000

Figure 1 : nombre de mots par langue et par domaine

Le corpus de mdecine comporte un sous-corpus de textes sur le gnome

humain, labor par le groupe Iulaterm, qui comporte 945 000 mots en

catalan, 1 447 000 en espagnol et 1 119 000 en anglais.

Les donns en relation avec le corpus parallle pour les paires linguistiques

les plus significatives catalan-espagnol, catalan-anglais, espagnol-anglais,

sont prsentes dans la figure 2.


46

Domaine catalan-espagnol catalan-anglais espagnol-anglais

Droit 460 000 12 000 57 000

Economie 600 000 250 000 283 000

Environnement 214 000 213 000 144 000

Informatique 28 000 300 000

Mdecine 118 000 40 000 640 000

Total 420 000 515 000 1 424 000

Figure 2 : Nombre de mots dans les corpus parallles par domaine et par langue

Les donnes du corpus tmoin sont indiques dans la figure 3.

Domaine catalan espagnol total

Gnral 1 526 000 3 230 000 4 756 000

Figure 3 : nombre de mots dans le corpus de la langue gnrale

Le corpus technique de lIULA (CT-IULA) est index grce un ensemble

doutils mis au point par lInstitut fr Maschinelle Sprachverarbeitung, de lUniversit de Stuttgart (Corpus Workbench). LIULA a mis au point loutil

qui permet linterrogation en ligne de CT-IULA

(brangaene.upf.es/bwananet/index htm).

2.5 Une application de linguistique de corpus : comparaison grammaticale entre textes spcialiss et textes non spcialiss

Grce ce corpus plus de vingt thses de doctorat ont pu tre ralises. En

plus des thses, le corpus a permis de mettre au point une base de

connaissances (GENOMA) qui peut tre consulte

www.iula.upof.edu/genoma.

En ce moment, un projet de recherche sur les caractristiques spcifiques des

textes spcialiss par rapport aux textes non spcialiss est sur le point dtre

achev. Une brve synthse de ce projet et certains de ses rsultats sont

prsents ci-dessous.

Le projet ESPETEX, qui fait partie dun projet plus vaste financ par le

Ministre de lEducation et de la culture espagnol (TEXTERM-2.

Fondements, stratgies et outils pour le traitement et lextraction automatiques de linformation spcialise N REFERENCIA : BFF2003-02111) auquel participent une vingtaine de chercherurs et collaborateurs,

comporte deux objectifs :


47

Vrifier si les caractristiques grammaticales que les manuels de langues de

spcialit attribuent aux langues de spcialit sont confirmes par rapport un

corpus suffisamment reprsentatif.

Au cas o ceci ne serait pas confirm en totalit ou en partie, tenter de relever

et dtablir quelques-uns de facteurs grammaticaux spcifiques qui

caractrisent les textes spcialiss.

Pour mener bien ce projet nous sommes partie de la liste des caractristiques

des textes spcialiss exposs dans les deux manuels suivants :

Kocourek, R. (1991) La langue franaise de la technique et de la science. Vers une linguistique de la langue savante, Wiesbaden, Oscar Brandstetter Verlag.

Sager, J.C. ; Dungworth, D. ; McDonald, P. (1980) English Special Languages. Wiesbaden, Oscar Brandstetter Verlag.

Ces manuels sont bass sur des corpus de taille modeste. Pour le projet

ESPETEX nous avons constitu un corpus double : un premier corpus de

textes spcialiss et un second de textes de caractre gnral.

Le corpus de la langue gnrale, issue de la presse, comporte 5.002.121 mots,

rpartis dans 155 documents du Corpus de lIULA.

Le corpus de spcialit est compos de 5.018.193 mots rpartis dans 251

documents du Corpus de lIULA (droit, conomie, informatique,

environnement, mdecine : 1.000.000 mots par domaine).

Les caractristiques grammaticales non lexicales que les manuels attribuent

aux textes de spcialit peuvent tre rpartis, selon Kocourek (1991), en

quatre groupes3

1. slection des catgories grammaticales

2. complexit de la structure

3. condensation syntaxique

4. impersonnalit de la phrase

En ce qui concerne la slection des catgories grammaticales on relve les

phnomnes suivants :

prdominance des substantifs

emploi particulier de certaines catgories grammaticales, surtout en

relation avec le verbe (ainsi quavec les pronoms personnels) :

3 En plus de Kocourek, dautres linguistes ont publi sur le sujet. Parmi ceux-ci nous

signalons en particulier : Phal (1968), Vigner et Martin (1976), Loffler-Laurian (1980,

1982, 1983, 1985, 1986), D. Candel (1984), Hoffmann (1985) et LHomme (2005).


48

o absence de la deuxime personne du singulier comme du

pluriel

o usage rare de la premire personne du singulier, auquel on

prfre nous.

absence de certains mots ou morphmes grammaticaux de la

morphologie verbale :

o prdominance de la troisime personne du singulier

o prdominance du prsent de lindicatif

o frquence de la deuxime personne du pluriel limpratif

o prdominance de phrases dclaratives

o emploi limit de phrases interrogatives directes.

Par rapport la complexit structurelle, on distingue comme spcifiques des

textes spcialiss les traits grammaticaux suivants :

faible longueur de la phrase

nominalisation des verbes

frquence dexpansions de noms et de syntagmes nominaux

abondance de propositions relatives

constructions ralises avec des participes et linfinitif

diversit des conjonctions circonstancielles

constructions insres dans la phrase

Comme exemples de condensation syntaxique, nous relevons les phnomnes

suivants :

emploi abondant de pronominalisation

emploi de propositions infinitives et participiales

nominalisation de formes verbales

Le caractre impersonnel de la phrase dans les textes de spcialit est exprim

par les phnomnes suivants :

pronom de modestie : nous

emploi de lindfini : un

tournures impersonnelles comme est + adjectif (probable, certain, surprenant, etc.), il en rsulte que, etc.

emploi frquent de la voix passive.

En plus de toutes ces caractristiques grammaticales, il convient de souligner

sur le plan textuel :


49

absence de certains genres (cartes, pices de thtre, etc.)

abondance de certains genres : suivant le domaine (droit, mdecine,

gnomique, etc.)

contrle de la structuration de linformation (marqueurs discursifs et

mta-discursifs, tables, listes, etc.).

Sur le plan lexical :

prsence abondante de terminologie

absence relative dunits polysmiques

tendance employer systmatiquement la mme unit pour un

concept, vitant ainsi lemploi de synonymes.

Sur le plan graphique, enfin :

prsence de symboles, de formules

reprsentations iconiques

units lexicales : commande c, etc.

Lanalyse ralise sur notre double corpus se limite aux phnomnes

suivants :

classes grammaticales : N, V, Adj, Adv, Prp, Conj,

noms propres et noms communs

genre et nombre des substantifs

nom prcd du dterminant dfini

adjectifs qualificatifs

pronoms relatifs

personne, mode et temps des verbes

formes verbales impersonnelles

prpositions

conjonctions

Parmi les substantifs et pronoms :

N + Adj

N + SP

Pronoms 1, 2, 3 personne du singular et pluriel


50

Forme impersonnelle se

Pronoms relatifs : que, qui, dont

Quant aux formes verbales, nous avons analys

temps : prsent/pass

o personne : 1, 2, 3

o nom : singulier/pluriel

o formes de la 1, 2, 3 personne actives et passives

mode

o indicatif/subjonctif/impratif/ conditionnel

Nous avons observ en outre certaines prpositions, des conjonctions simples

et complexes, savoir :

prposition de

conjonctions de coordination : et, ou, ni, mais

conjonctions subordonnes : parce que, etc.

conjonctions subordonnes complexes : par consquent, de sorte que, moins que...

Ainsi que certaines marques mtadiscursives

lemme : dfinir, dsigner, appeler, sous-entendre

lemme : connatre, dfinir, entendre + comme

lemme : entendre par

lemme : + lemme : vouloir dire

lemme : recevoir + le nom de

cest dire

cest

ou bien

Les rsultats auxquels nous sommes arrivs peuvent tre rsums dans les

tableaux suivants.


51

Langue gnrale LSP

Noms 1.218.815 1.302.211

Adj qualificatifs 381.813 430.576

Verbs 684.530 624.766

Determinants 612.499 659.823

Prposition de 366.827 457.584

Conjonctions 239.865 235.434

Adverbes 231.341 202.956

225.856 (42,68%)150.386 (38,07%)N+Adj

303.469 (57,33%)244.635 (61,93%)N+SP

----N+participe

430.576381.813Adj qualificat.

TETG

225.856 (42,68%)150.386 (38,07%)N+Adj

303.469 (57,33%)244.635 (61,93%)N+SP

----N+participe

430.576381.813Adj qualificat.

TETG

169.819187.252Formes non

personnelles

454.947497.278Formes

personnelles

TETG

169.819187.252Formes non

personnelles

454.947497.278Formes

personnelles

TETG


52

41.202 (0,88%)41.202 (0,88%)29.614 (0,72%)29.614 (0,72%)Ambigues Ambigues ImperatifImperatif--SbjonctifSbjonctif

7.6129.378Conditionnel

120.258120.258115.917115.917Ambigues Ambigues ImperatifImperatif--IndicatifIndicatif

8.3159.437Subjonctif

219.648313.992Indicatif

TETG

41.202 (0,88%)41.202 (0,88%)29.614 (0,72%)29.614 (0,72%)Ambigues Ambigues ImperatifImperatif--SbjonctifSbjonctif

7.6129.378Conditionnel

120.258120.258115.917115.917Ambigues Ambigues ImperatifImperatif--IndicatifIndicatif

8.3159.437Subjonctif

219.648313.992Indicatif

TETG

4 0 .0 7 91 4 8 .3 1 8p a s s

3 1 2 .4 2 32 8 7 .9 8 3p r s e n t

T ET G

4 0 .0 7 91 4 8 .3 1 8p a s s

3 1 2 .4 2 32 8 7 .9 8 3p r s e n t

T ET G

102.389 (36,92%)174.904 (63,08%)Total formes sing

123.166 (51,52%)115.853 (48,48%)Total formes plur.

3.210/1064.214/3112 singulier/ pluriel

12.472/13.71823.270/12.9731 singulier/pluriel

196.049 (86,9 %)249.989 (85,9 %)3me personne

3.316 (1,47%)4.525 (1,56%)2me personne

26.190 (11,61%)36.243 (12,47%)1re personne

TETG

102.389 (36,92%)174.904 (63,08%)Total formes sing

123.166 (51,52%)115.853 (48,48%)Total formes plur.

3.210/1064.214/3112 singulier/ pluriel

12.472/13.71823.270/12.9731 singulier/pluriel

196.049 (86,9 %)249.989 (85,9 %)3me personne

3.316 (1,47%)4.525 (1,56%)2me personne

26.190 (11,61%)36.243 (12,47%)1re personne

TETG


53

TG TE

PASSIVE 3.469 3.562

ACTIVE

1r sing/plu 16/17 0/0

2e sing/plur 0/0 1/0

3esing/plur 1.8292/1.544 1.570/1.991

2.9731.743cuyo,-a, cuyos, -as

97.41869.867se impersonnel

105.222120.453Total

3871.103quien, quienes

3.9481.216cual, cuales

97.391114.204que

TETG

2.9731.743cuyo,-a, cuyos, -as

97.41869.867se impersonnel

105.222120.453Total

3871.103quien, quienes

3.9481.216cual, cuales

97.391114.204que

TETG

2.6 En guise de conclusion

Nous partons du principe que ce que lon appelle les langues de spcialit font partie de lensemble de la langue en gnrale et quelles peuvent

constituer des ensembles uniquement virtuels. Si nous acceptons ce principe,

les langues de spcialit sont alors uniquement des varits ou des styles de la

langue toute entire. Cest sur la base des textes produits dans des situations

de communication spcialise que nous pourrons extraitre leur

caractristiques discriminantes par rapport ceux qui sont issus de situations

non spcialiss. Ces caractristiques comportent des ressources lexicales aussi

bien que morphologiques, syntaxiques et graphiques.

De tous les phnomnes que les linguistes ont considrs comme

discriminants, dans cette tude empirique portant sur un assez vaste corpus

nous avons pu vrifier que seuls certains traits apparaissent assez souvent

dans les textes de spcialit tandis que dautres ne peuvent pas tre considrs


54

comme reprsentatifs, car doccurrences trop peu frquentes. En revanche

nous avons pu observer des phnomnes qui nont pas t relevs dans les

ouvrages sur les langues de spcialit.

Parmi ceux-ci nous pouvons signaler en particulier :

Noms propres moins reprsents en langue de spcialit

Predominance N+Adj en langue de spcialit

Pronoms de 1 personne du singular et du plural plus prsentes en

langue gnrale

Distribution complementaire des formes du pronom relatif (sauf que

en espagnol)

Conjonctions complexes en langue de spcialit

Que completif en langue gnrale

Conjonction o en langue de spcialit

Conjunctions pero, porque, ni (mais, parce que, ni) en langue

gnrale

Marqueurs mtadiscursifs en langue de spcialit, etc.

En revanche les donnes confirment que les traits suivants apparaissent

comme significatifs dans les textes de spcialit :

La prdominance des substantifs (par rapport dautres catgories ;

pas plus quen langue gnrale)

Emploi particulier de catgories grammaticales, surtout en relation

avec les verbes (surtout des pronoms personnels)

absence de la 2 personne du singulier comme du pluriel

emploi rare de la 1 personne du singulier en faveur du nous emploi considrable de la 3 personne du singulier

prdominance du prsent de lindicatif (par rapport aux temps pass)

expansion adjectivale des substantifs

nominalisation des formes verbales

nosotros uno

Grce ces rsultats nous pensons pouvoir contribuer la caractrisation

grammaticale des textes spcialiss et faciliter ainsi leur traitement

automatique


55

BIBLIOGRAPHIE

Beaugrande, R. de, Dressler, W. (1997) Introduccin a la lingstica del texto.

Barcelona, Ariel.

Cabr, M.T. (1998) VariacI pel tema. El discurs especialitzat o la variaci funcional

determinada per la temtica : noves perspectives. En : Caplletra, Revista

Internacional de Filologa, Tardor, 1998, pp. 137-194.

Cajolet-Laganire, H., N. Maillet (1995) Caractrisation des textes techniques

qubcois , Prsence francophone 47, pp. 113-147.

Ciapuscio, G. (2003) Textos especializados y terminologa. Barcelona, IULA.

Coulon, R. (1972) French as it is written by French sociologists , Bulletin

pdagogique des IUT18, p. 11-25.

Harris, Z. (1952) Discourse Analysis, Language, 28, 1-30, p. 474-494.

Hoffmann, L. (1976) Kommunikationsmittel Fachsprache Eine Einfhrung, Berlin,

Sammlung Akademie Verlag.

Kocourek, R. (1991) La langue franaise de la technique et de la science. Vers une

linguistique de la langue savante. Wiesbaden, Oscar Branstetter.

LHomme, M.C. (1993) Contribution lanalyse grammaticale de la langue de

spcialit : le mode, le temps et la personne du verbe dans quelques

textes,scientifiques crits vocation pdagogique. Qubec, Universit Laval.

LHomme, M.C. (1995) Formes verbales de temps et texte scientifique , Le langage

et lhomme, 31(2-3), p. 107-123.

Lauffler-Laurian, A.M. (1983) Typologie des discours scientifiques : deux approches,

tudes de Linguistique Applique, 51.

Lauffler-Laurian, A.M. (1984) Vulgarisation scientifique : formulation, reformulation,

traduction, Langue Franaise, 64, p. 109-125.

Opitz, K. (1980) Language for Special Purposes. An intractable presence,

Fachsprache 2(2), p. 21-27.

Sager, J.C., Dungworth,D. (1980) English Special Languages. Wiesbaden, Oscar Brandstetter Verlag.


56

ANNEXE : THESES ET MEMOIRES

Les thses et mmoires suivants ont t raliss en exploitant les donnes du corpus :

Araceli Alonso : Descripcin y anlisis de los sufijos nominalizadores en el rea del medio ambiente / Description et analyse des suffixes de nominalisation dans le domaine de lenvironnement

Rosanna Folguer : Adjectius en el discurs especialitzat : una primera descripci deis adjectius en els textos del genoma hum / Adjectifs en discours spcialis : une premire description des adjectifs dans les textes sur le gnome humain

Vanesa Vidal : Aproximacin al fenmeno de la combinatoria verbo-nominal en el discurso especializado en Genoma Humano / Une approche du phnomne de la combinaison verbe-nom dans le discours spcialis sur le gnome humain

Gabriel Quiroz : Las unidades sintagmticas extensas especializadas en ingls y en espaol : descripcin y clasificacin en un corpus de genoma / Les units syntagmatiques dveloppes spcialises en anglais et en espagnol : description et

classification dans un corpus de gnomique

John Jairo Giraldo : Anlisis y descripcin de las siglas en el discurso especializado de Genoma humano y Medio ambiente / Analyse et description des sigles en discours spcialiss du gnome humain et en environnement

Iria de Cunha : Hacia un modelo lingstico de resumen automtico de artculos mdicos en espaol / Vers un modle linguistique du rsum automatique des articles de mdecine en espagnol

Rogelio Nazar : Aproximacin cuantitativa al mapeo conceptual / Approche quantitative de la carte conceptuelle

Carles Teb : La representaci conceptual en terminologia : l'atribuci temtica en els bancs de dades terminolgiques / La reprsentation conceptuelle en terminologie : lattribution de domaine dans les banques de donnes

terminologiques.

Ricardo Guantiva : Terminologa y variacin vertical : clasificacin de textos en niveles de especializacin a partir del anlisis del tipo y la densidad de las unidades terminolgicas / Terminologie et variation verticale : classification de textes en niveaux de spcialisation partir danalyses de type et la densit dunits

terminologiques.

Ona Domnech : Textos especialitzats i variaci vertical : la diversitat terminolgica com a factor discriminant del nivell d'especialitzaci d'un text / Textes spcialiss et variation verticale : la diversit terminologique comme facteur discriminant du

niveau de spcialisation dun texte.