37
CONSTITUER UN CORPUS DE TEXTES DE SPECIALITE
M. Teresa CABR Institut Universitari de Lingstica Aplicada
Universitat Pompeu Fabra (Barcelone)
Il ne peut y avoir de doute que le dveloppement des corpus textuels a permis
la linguistique descriptive de faire un saut qualitatif trs important. Ce
progrs a permis aux linguistes de tenir compte de faon plus adquate du
fonctionnement des langues partir du moment o les analyses ont pu se
fonder pour la premire fois sur des exemples abondants et reprsentatifs de
production langagire qui ntaient ni limits ni biais subjectivement comme
auparavant. En outre, la linguistique de corpus permet dexplorer de manire
exhaustive les productions langagires et doffrir au linguiste des chantillons
de donnes quune analyse manuelle nest pas en mesure dexploiter de faon
aussi approfondie.
Dans cet article nous poursuivons trois objectifs. Tout dabord nous
exposerons quelques caractristiques de ce quon appelle les langues de
spcialit, qui sont lorigine des textes spcialiss. Ensuite nous
prsenterons brivement le corpus textuel spcialis de lInstitut universitaire
de linguistique applique comme chantillon dadaptation aux conditions
mentionnes dans notre premier objectif. Nous monterons enfin titre
dexemple une tude sur les diffrences entre les textes de spcialit et les
textes non spcialiss au regard de leurs caractres linguistico-grammaticaux.
Cahier du CIEL 2007-2008
38
1 LA CONSTITUTION DUN CORPUS DE SPECIALITE :QUESTIONS ET CRITERES
Pour construire un corpus textuel de spcialit la premire question qui se
pose est de savoir ce quon entend par texte spcialis ou comment nous
identifions les textes spcialiss. Sans rponse prcise cette question il nest
videmment pas possible de commencer slectionner le matriel.
Une fois tablis les critres qui permettent didentifier les textes produits par
des spcialistes dans des situations professionnelles, il convient de dterminer
quels types de texte nous devons retenir pour que le corpus qui en rsulte soit
suffisamment quilibr.
En troisime lieu, nous devons dterminer la quantit de productions qui
feront partie de ce corpus, pour savoir sil sera suffisamment reprsentatif de
chaque spcialit ou bien seulement pour analyser un thme pralablement
choisi. Il convient ce propos davoir pralablement dtermin afin de
pouvoir dfinir sa dimension. Dans quel but constituons-nous ce corpus?
Quelle en est la finalit que nous comptons atteindre grce lui? A quelles
tudes linguistiques souhaitons-nous quil donne lieu?
En rpondant ces trois questions nous pouvons dj commencer le travail,
qui logiquement devra comporter dautres questions de type plus techniques,
quil sagisse de questions linguistiques ou dinformatiques ?
Une fois constitu le corpus sous forme numrique enfin, nous devons
factoriser toutes les possibilits dexploration, possibilits que nous avons d
tablir dans ltape prliminaire de la caractrisation du corpus constituer.
Nous rpondrons point par point chacune de ces questions.
1.1 Quest-ce un texte spcialis? Comment reconnatre parmi tous les textes ceux qui sont spcialiss?
Les textes spcialiss sont les productions linguistiques, orales ou crites, qui
se manifestent dans le cadre des communications professionnelles et dont la
finalit est exclusivement professionnelle. On reconnat les situations
professionnelles par les interlocuteurs qui interagissent, par le sujet voqu
qui relve du domaine ou des domaines concerns par la profession, et par la
finalit essentielle de rechercher linformation auprs du rcepteur, bien que
pour ce faire on utilise des stratgies discursives diffrentes.
Dun point de vue analytique, on peut dire que les textes spcialiss se
dfinissent par trois types de conditions :
T. CABRE Constituer un corpus de textes de spcialit
39
conditions discursives : les proprits de la situation
spcialise de ce type de communication
conditions cognitives : le thme qui est trait et la faon
dont il est trait
conditions linguistiques : les conditions textuelles gnrales
(prcision, concision et systmaticit, les deux dernires
des degrs diffrents suivant les conditions discursives), la
forme macro et micro textuelle, et surtout les units
lexicales propres au domaine dont il est question dans le
texte.
1.2 Quels sont les variables que nous pouvons prendre en considration dans un corpus spcialis?
Les textes de spcialit ne sont pas homognes, mais ils sont organiss en
diffrents types en fonction des critres de classification qui sont pris en
considration. Les critres qui sont notre avis les plus pertinents pour
organiser les textes de spcialit dans un corpus sont les suivants :
le thme/sujet
la perspective ou dimension disciplinaire
le niveau de spcialisation
les sources
le genre textuel
la classe de texte daprs la stratgie discursive
les langues
la relation entre les textes des langues du corpus dans le cas de textes
plurilingues (bilingues, trilingues, etc.)
En matire de thme ou de sujet nous distinguons entre corpus
monodisciplinaire et pluridisciplinaire. Un exemple de ce dernier : la banque
de droit de lenvironnement pour le groupe TERMISUL de lUniversit de
Porto Alegre (Brsil).
Quant au niveau de spcialisation, un corpus peut comporter des textes dun
seul niveau de spcialit (par exemple : des textes darticles scientifiques
Cahier du CIEL 2007-2008
40
provenant de priodiques de mme type) ou encore comporter des textes de
diffrents niveaux de spcialit1.
Par le canal de transfert, les textes du corpus peuvent maner dun seul type
de source ou de plusieurs types de sources. La diversit des sources peut
rsulter aussi dune grande diversit de critres parmi lesquels nous nous
intressons au critre du mode de transmission ici car les textes dun corpus
peuvent tre exclusivement oraux ou crits ou audiovisuels ou encore
comporter des occurrences de toutes les possibilits.
En ce qui concerne le genre textuel, un corpus peut tre homogne et ne
comporter que des textes dun seul genre (par exemple des abstracts de
priodiques scientifiques), ou bien il peut inclure des textes de diffrents
genres textuels.
En ce qui concerne le type de texte daprs la stratgie discursive, les corpus
peuvent tre homognes ou htrognes en matire de genre textuel. Par
exemple, un corpus homogne ne comportera que des textes argumentatifs, ou
narratifs, etc.
En application du critre des langues, les corpus peuvent tre monolingues,
bilingues, trilingues, etc. Les textes qui comportent plus dune langue peuvent
tre mlangs au sein dun seul sujet ou bien comporter des textes dans une
langue donne et la traduction correspondante dans la deuxime ou la
troisime langue. Dans ce dernier cas on parle de corpus parallles.
1.3 Quelle est la bonne taille dun corpus spcialis?
La rponse cette question ne peut tre que la suivante : ceci dpend de la
finalit du corpus. A quoi va servir un corpus? Pour extraire des donnes
reprsentatives de lusage dune langue dans son ensemble? Dans ce cas-l
nous devons constituer un type de corpus que lon appelle corpus de
rfrence, qui comporte un chantillon dusage reprsentatif de la totalit de
la langue, y compris toute la variation interne et externe. En revanche, sil
sagit de constituer un corpus pour tudier un problme particulier, la taille du
corpus doit tre en adquation avec les finalits proposes. Par exemple, le
corpus que nous devons constituer pour analyser lusage dun pronom en
position enclytique sera de taille moins importante que celui quil faudrait
1 La pertinence dun texte un niveau haut, moyen ou bas se dtermine par les
caractristiques des destinataires, son support et ses finalits. Ainsi, un texte produit
par un spcialiste pour des tudiants peut se dfinir comme de niveau moyen. Pour de
plus amples renseignements, voir Cabr (1998) et Ciapuscio (2003).
T. CABRE Constituer un corpus de textes de spcialit
41
pour extraire la terminologie dun domaine de spcialit. Lextraction de
collocations ncessitera un corpus encore plus important.
1.4 Le processus de constitution de corpus
La constitution effective, une fois les critres tablis, se droule en phases
distinctes :
a. la slection des sources
b. les critres de slection des textes et la dcision de savoir sil faut
prendre le texte complet ou des fragments du mme texte2
c. les dcisions quant larchitecture de base
d. les dcisions quant linfrastructure logicielle et matrielle (systme
de gestion de corpus textuels)
e. la slection des conventions pour la reprsentation des textes
f. les critres, langage et systme de balisage structurel
1.5 Outils dinterrogation
Les textes dun corpus peuvent tre utiliss sous forme brute ou dj traits
linguistiquement. Si lon utilise des textes dj traits, il parat logique de
tenir compte des ressources et des outils de traitement automatique de
linformation :
outils de marquage structural et linguistique
dictionnaire initial de traitement
systme danalyse morphologique
systme de lemmatisation
systme de dsambigusation
systme de gestion de dictionnaires
systme de structuration syntaxique ( chunker ), etc.
2 Cette dcision dpend des tudes que nous souhaitons raliser grce au corpus. Pour
lanalyse textuelle (connecteurs, structuration informative, genres textuels, etc.), il faut
des textes complets.
Cahier du CIEL 2007-2008
42
1.6 Possibilits dexploitation
Les possibilits dexploitation linguistique dun corpus dpendent enfin du
traitement que les donnes ont subies pendant cette phase. Les possibilits
dapplication des donnes du corpus se ralisent dans les secteurs suivants :
en ingnierie linguistique, pour la mise au point doutils et de robots
en extraction dinformation pour des besoins de recherche,
denseignement, dexploitation industrielle, de publication, etc.
en rcupration dinformation pour des besoins documentaires et
bibliographiques.
Les linguistes sintressent aux corpus de spcialit surtout pour les
applications suivantes :
la recherche sur le discours spcialis, la terminologie et la
phrasologie spcialiss
llaboration de dictionnaires spcialiss
lenseignement des langues de spcialit ou de langues sur objectifs
spcialiss.
Pour lenseignement des langues de spcialit, les corpus donnent la
possibilit de mieux prparer les programmes (en rapport avec les besoins et
le niveau de connaissances des tudiants), dlaborer des exercices et
dalimenter des systmes dauto-apprentissage des langues.
Dans le domaine de la documentation, et plus concrtement pour la gestion de
linformation, les corpus fournissent de linformation pour la construction
automatique ou assiste par ordinateur de thsaurus, pour lindexation
automatique et pour laborer des systmes de classification de documents ou
pour mieux orienter la consultation selon le profil de lutilisateur individuel.
2 LE CORPUS TECHNIQUE PLURILINGUE DE LIULALInstitut universitaire de linguistique applique (IULA) est un centre de
lUniversit Pompeu Fabra, de Barcelone, consacr la recherche et la
formation doctorales. Il fut cr en 1993 par Maria Teresa Cabr. LIULA est
sous-divis en groupes de recherche : Lexique, terminologie et discours
spcialis (Groupe IULATERM, qui hberge la Linguistique Informatique),
Lexicographie (Groupe INFOLEX), Variation linguistique (Groupe UVAL),
Documentation et publication numrique (Groupe DIGIDOC), ainsi que trois
laboratoires : OBNEO (Observatoire de nologie), LATEL (Laboratoire de
T. CABRE Constituer un corpus de textes de spcialit
43
technologie linguistique) et le Laboratoire de linguistique judiciaire. Depuis
1993 jusquaujourdhui le projet Corpus est le projet de recherche commun
auquel participent tous les membres de lIULA. Il comporte des textes crits
dans cinq langues (catalan, castillan, anglais, franais et allemand) des
domaines de lconomie, du droit, de lenvironnement, de la mdecine et de
linformatique. Le corpus comporte en plus des documents parallles,
facilitant ainsi ltude de la traduction. Le corpus multilingue de lIULA est
constitu dun sous-corpus de la langue gnrale, extrait de la presse de
grande diffusion, qui reprsente un corpus contrastif.
Lobjectif de ce corpus est de faciliter lanalyse de donnes linguistiques afin
de pouvoir tablir les lois qui rgissent le comportement de chaque langue
dans chaque domaine. Il est ouvert aux chercheurs et tous ceux qui ont
besoin de consulter dans les domaines de spcialit concerns. Lexploitation
du corpus a dbouch sur des tudes de caractre terminologique, discursif,
morphologique, syntaxique, nologique ou traductologique. Afin de faciliter
lexploitation des donnes, lIULA a mis au point une srie doutils
dinterrogation. Parmi ceux-ci on peut signaler un extracteur automatique de
nologie, un dtecteur automatique de terminologie, un aligneur de textes, un
outil permettant lalimentation des dictionnaires. De fait, ce corpus est le
principal support des activits de recherche et denseignement de notre
institut.
Loutil qui permet daccder aux donnes du corpus par Internet est
BwanaNet, qui peut tre consult sur la page principale du site de lIULA
(http ://bwananet.iula.upf.edu/), dans la rubrique intitule Recursos IULA.
Le corpus de lIULA comporte des textes crits dans cinq langues (catalan,
castillan, anglais, franais et allemand) des domaines de lconomie, du droit,
de lenvironnement, de la mdecine et de linformatique, ainsi que des
documents parallles sur ces sujets. Chacun des domaines a t structur par
un spcialiste en diffrents sous-domaines de telle sorte que les textes
puissent tre rcuprs avec une grande prcision thmatique.
Cahier du CIEL 2007-2008
44
Voici comment est structur le domaine de la mdecine :
Anatomie (AN)
Organismes (OR)
Maladies (MA)
Produits chimiques et pharmaceutiques (PQ)
Techniques et quipements analytiques, diagnostiques et
thrapeutiques
(TE)
Psychiatrie et psychologie (PS)
Sciences biologiques (CB)
Sciences physiques (CF)
Anthropologie, ducation, sociologie et phnomnes
sociaux
(FS)
Technologie, industrie, agriculture (TI)
Sciences humaines (HU)
Information scientifique (IC)
Groupes nominaux (GN)
Planification et gestion sanitaires (GS)
Le traitement des textes du corpus suit les tapes suivantes.
2.1 Phase de slection des textes
Les spcialistes de chaque matire slectionnent les textes quils considrent
comme pertinents et les classent par thme dans une structuration du domaine
pralablement conu par des spcialistes.
2.2 Phase dannotation et denregistrement de linformation du document
Les documents sont baliss selon la norme SGML et les conventions tablies
par la norme Corpus Encoding Standards (CES) du projet EAGLES. Ensuite
linformation de type documentaire est enregistre (auteur, titre, dition,
pages retenues, sous-domaine auquel il appartient, langues quun document
unique peut comporter dans le corpus).
T. CABRE Constituer un corpus de textes de spcialit
45
2.3 Phase de traitement linguistique
Le traitement linguistique de la documentation est automatis et comporte un
prtraitement afin de traiter linguistiquement les entits susceptibles dune
dtection automatique avant lanalyse morphologique (dates, chiffres,
locutions, noms propres, sigles et abrviations), une analyse morphologique,
par laquelle tous les mots du documents sont lemmatiss et pourvus dune ou
de plusieurs tiquettes morphologiques, en accord avec le systme
dtiquetage morphosyntaxique conu lIULA, ainsi quune
dsambigusation linguistique et statistique de sorte que chaque mot ne se
voie attribu quun seul lemme et une seule tiquette.
2.4 Stockage dans une base de donnes textuelles
Finalement quand chaque mot est associ un lemme et une catgorie
grammaticale, les textes sont stocks dans une base de donnes textuelles, qui
comporte toute linformation gnre sur ce document. Le rsultat de tout ce
processus de traitement des textes peut tre consult en ligne ladresse
suivante : http :// brangaene.upf.es/bwananet/index.htm.
Domaine catalan espagnol anglais franais allemand total
Droit 1 463 000 2 085 000 431 000 44 000 16 000 4 039 000
Economie 1 776 000 1 091 000 274 000 78 000 27 000 3 246 000
Environnement 1 506 000 1 062 000 599 000 230 000 429 000 3 826 000
Informatique 655 000 1 227 000 338 000 194 000 83 000 2 497 000
Mdecine 2 619 000 4 077 000 1 555 000 27 000 198 000 8 476 000
Total 8 019 000 9 542 000 3 197 000 573 000 753 000 22 084 000
Figure 1 : nombre de mots par langue et par domaine
Le corpus de mdecine comporte un sous-corpus de textes sur le gnome
humain, labor par le groupe Iulaterm, qui comporte 945 000 mots en
catalan, 1 447 000 en espagnol et 1 119 000 en anglais.
Les donns en relation avec le corpus parallle pour les paires linguistiques
les plus significatives catalan-espagnol, catalan-anglais, espagnol-anglais,
sont prsentes dans la figure 2.
Cahier du CIEL 2007-2008
46
Domaine catalan-espagnol catalan-anglais espagnol-anglais
Droit 460 000 12 000 57 000
Economie 600 000 250 000 283 000
Environnement 214 000 213 000 144 000
Informatique 28 000 300 000
Mdecine 118 000 40 000 640 000
Total 420 000 515 000 1 424 000
Figure 2 : Nombre de mots dans les corpus parallles par domaine et par langue
Les donnes du corpus tmoin sont indiques dans la figure 3.
Domaine catalan espagnol total
Gnral 1 526 000 3 230 000 4 756 000
Figure 3 : nombre de mots dans le corpus de la langue gnrale
Le corpus technique de lIULA (CT-IULA) est index grce un ensemble
doutils mis au point par lInstitut fr Maschinelle Sprachverarbeitung, de lUniversit de Stuttgart (Corpus Workbench). LIULA a mis au point loutil
qui permet linterrogation en ligne de CT-IULA
(brangaene.upf.es/bwananet/index htm).
2.5 Une application de linguistique de corpus : comparaison grammaticale entre textes spcialiss et textes non spcialiss
Grce ce corpus plus de vingt thses de doctorat ont pu tre ralises. En
plus des thses, le corpus a permis de mettre au point une base de
connaissances (GENOMA) qui peut tre consulte
www.iula.upof.edu/genoma.
En ce moment, un projet de recherche sur les caractristiques spcifiques des
textes spcialiss par rapport aux textes non spcialiss est sur le point dtre
achev. Une brve synthse de ce projet et certains de ses rsultats sont
prsents ci-dessous.
Le projet ESPETEX, qui fait partie dun projet plus vaste financ par le
Ministre de lEducation et de la culture espagnol (TEXTERM-2.
Fondements, stratgies et outils pour le traitement et lextraction automatiques de linformation spcialise N REFERENCIA : BFF2003-02111) auquel participent une vingtaine de chercherurs et collaborateurs,
comporte deux objectifs :
T. CABRE Constituer un corpus de textes de spcialit
47
Vrifier si les caractristiques grammaticales que les manuels de langues de
spcialit attribuent aux langues de spcialit sont confirmes par rapport un
corpus suffisamment reprsentatif.
Au cas o ceci ne serait pas confirm en totalit ou en partie, tenter de relever
et dtablir quelques-uns de facteurs grammaticaux spcifiques qui
caractrisent les textes spcialiss.
Pour mener bien ce projet nous sommes partie de la liste des caractristiques
des textes spcialiss exposs dans les deux manuels suivants :
Kocourek, R. (1991) La langue franaise de la technique et de la science. Vers une linguistique de la langue savante, Wiesbaden, Oscar Brandstetter Verlag.
Sager, J.C. ; Dungworth, D. ; McDonald, P. (1980) English Special Languages. Wiesbaden, Oscar Brandstetter Verlag.
Ces manuels sont bass sur des corpus de taille modeste. Pour le projet
ESPETEX nous avons constitu un corpus double : un premier corpus de
textes spcialiss et un second de textes de caractre gnral.
Le corpus de la langue gnrale, issue de la presse, comporte 5.002.121 mots,
rpartis dans 155 documents du Corpus de lIULA.
Le corpus de spcialit est compos de 5.018.193 mots rpartis dans 251
documents du Corpus de lIULA (droit, conomie, informatique,
environnement, mdecine : 1.000.000 mots par domaine).
Les caractristiques grammaticales non lexicales que les manuels attribuent
aux textes de spcialit peuvent tre rpartis, selon Kocourek (1991), en
quatre groupes3
1. slection des catgories grammaticales
2. complexit de la structure
3. condensation syntaxique
4. impersonnalit de la phrase
En ce qui concerne la slection des catgories grammaticales on relve les
phnomnes suivants :
prdominance des substantifs
emploi particulier de certaines catgories grammaticales, surtout en
relation avec le verbe (ainsi quavec les pronoms personnels) :
3 En plus de Kocourek, dautres linguistes ont publi sur le sujet. Parmi ceux-ci nous
signalons en particulier : Phal (1968), Vigner et Martin (1976), Loffler-Laurian (1980,
1982, 1983, 1985, 1986), D. Candel (1984), Hoffmann (1985) et LHomme (2005).
Cahier du CIEL 2007-2008
48
o absence de la deuxime personne du singulier comme du
pluriel
o usage rare de la premire personne du singulier, auquel on
prfre nous.
absence de certains mots ou morphmes grammaticaux de la
morphologie verbale :
o prdominance de la troisime personne du singulier
o prdominance du prsent de lindicatif
o frquence de la deuxime personne du pluriel limpratif
o prdominance de phrases dclaratives
o emploi limit de phrases interrogatives directes.
Par rapport la complexit structurelle, on distingue comme spcifiques des
textes spcialiss les traits grammaticaux suivants :
faible longueur de la phrase
nominalisation des verbes
frquence dexpansions de noms et de syntagmes nominaux
abondance de propositions relatives
constructions ralises avec des participes et linfinitif
diversit des conjonctions circonstancielles
constructions insres dans la phrase
Comme exemples de condensation syntaxique, nous relevons les phnomnes
suivants :
emploi abondant de pronominalisation
emploi de propositions infinitives et participiales
nominalisation de formes verbales
Le caractre impersonnel de la phrase dans les textes de spcialit est exprim
par les phnomnes suivants :
pronom de modestie : nous
emploi de lindfini : un
tournures impersonnelles comme est + adjectif (probable, certain, surprenant, etc.), il en rsulte que, etc.
emploi frquent de la voix passive.
En plus de toutes ces caractristiques grammaticales, il convient de souligner
sur le plan textuel :
T. CABRE Constituer un corpus de textes de spcialit
49
absence de certains genres (cartes, pices de thtre, etc.)
abondance de certains genres : suivant le domaine (droit, mdecine,
gnomique, etc.)
contrle de la structuration de linformation (marqueurs discursifs et
mta-discursifs, tables, listes, etc.).
Sur le plan lexical :
prsence abondante de terminologie
absence relative dunits polysmiques
tendance employer systmatiquement la mme unit pour un
concept, vitant ainsi lemploi de synonymes.
Sur le plan graphique, enfin :
prsence de symboles, de formules
reprsentations iconiques
units lexicales : commande c, etc.
Lanalyse ralise sur notre double corpus se limite aux phnomnes
suivants :
classes grammaticales : N, V, Adj, Adv, Prp, Conj,
noms propres et noms communs
genre et nombre des substantifs
nom prcd du dterminant dfini
adjectifs qualificatifs
pronoms relatifs
personne, mode et temps des verbes
formes verbales impersonnelles
prpositions
conjonctions
Parmi les substantifs et pronoms :
N + Adj
N + SP
Pronoms 1, 2, 3 personne du singular et pluriel
Cahier du CIEL 2007-2008
50
Forme impersonnelle se
Pronoms relatifs : que, qui, dont
Quant aux formes verbales, nous avons analys
temps : prsent/pass
o personne : 1, 2, 3
o nom : singulier/pluriel
o formes de la 1, 2, 3 personne actives et passives
mode
o indicatif/subjonctif/impratif/ conditionnel
Nous avons observ en outre certaines prpositions, des conjonctions simples
et complexes, savoir :
prposition de
conjonctions de coordination : et, ou, ni, mais
conjonctions subordonnes : parce que, etc.
conjonctions subordonnes complexes : par consquent, de sorte que, moins que...
Ainsi que certaines marques mtadiscursives
lemme : dfinir, dsigner, appeler, sous-entendre
lemme : connatre, dfinir, entendre + comme
lemme : entendre par
lemme : + lemme : vouloir dire
lemme : recevoir + le nom de
cest dire
cest
ou bien
Les rsultats auxquels nous sommes arrivs peuvent tre rsums dans les
tableaux suivants.
T. CABRE Constituer un corpus de textes de spcialit
51
Langue gnrale LSP
Noms 1.218.815 1.302.211
Adj qualificatifs 381.813 430.576
Verbs 684.530 624.766
Determinants 612.499 659.823
Prposition de 366.827 457.584
Conjonctions 239.865 235.434
Adverbes 231.341 202.956
225.856 (42,68%)150.386 (38,07%)N+Adj
303.469 (57,33%)244.635 (61,93%)N+SP
----N+participe
430.576381.813Adj qualificat.
TETG
225.856 (42,68%)150.386 (38,07%)N+Adj
303.469 (57,33%)244.635 (61,93%)N+SP
----N+participe
430.576381.813Adj qualificat.
TETG
169.819187.252Formes non
personnelles
454.947497.278Formes
personnelles
TETG
169.819187.252Formes non
personnelles
454.947497.278Formes
personnelles
TETG
Cahier du CIEL 2007-2008
52
41.202 (0,88%)41.202 (0,88%)29.614 (0,72%)29.614 (0,72%)Ambigues Ambigues ImperatifImperatif--SbjonctifSbjonctif
7.6129.378Conditionnel
120.258120.258115.917115.917Ambigues Ambigues ImperatifImperatif--IndicatifIndicatif
8.3159.437Subjonctif
219.648313.992Indicatif
TETG
41.202 (0,88%)41.202 (0,88%)29.614 (0,72%)29.614 (0,72%)Ambigues Ambigues ImperatifImperatif--SbjonctifSbjonctif
7.6129.378Conditionnel
120.258120.258115.917115.917Ambigues Ambigues ImperatifImperatif--IndicatifIndicatif
8.3159.437Subjonctif
219.648313.992Indicatif
TETG
4 0 .0 7 91 4 8 .3 1 8p a s s
3 1 2 .4 2 32 8 7 .9 8 3p r s e n t
T ET G
4 0 .0 7 91 4 8 .3 1 8p a s s
3 1 2 .4 2 32 8 7 .9 8 3p r s e n t
T ET G
102.389 (36,92%)174.904 (63,08%)Total formes sing
123.166 (51,52%)115.853 (48,48%)Total formes plur.
3.210/1064.214/3112 singulier/ pluriel
12.472/13.71823.270/12.9731 singulier/pluriel
196.049 (86,9 %)249.989 (85,9 %)3me personne
3.316 (1,47%)4.525 (1,56%)2me personne
26.190 (11,61%)36.243 (12,47%)1re personne
TETG
102.389 (36,92%)174.904 (63,08%)Total formes sing
123.166 (51,52%)115.853 (48,48%)Total formes plur.
3.210/1064.214/3112 singulier/ pluriel
12.472/13.71823.270/12.9731 singulier/pluriel
196.049 (86,9 %)249.989 (85,9 %)3me personne
3.316 (1,47%)4.525 (1,56%)2me personne
26.190 (11,61%)36.243 (12,47%)1re personne
TETG
T. CABRE Constituer un corpus de textes de spcialit
53
TG TE
PASSIVE 3.469 3.562
ACTIVE
1r sing/plu 16/17 0/0
2e sing/plur 0/0 1/0
3esing/plur 1.8292/1.544 1.570/1.991
2.9731.743cuyo,-a, cuyos, -as
97.41869.867se impersonnel
105.222120.453Total
3871.103quien, quienes
3.9481.216cual, cuales
97.391114.204que
TETG
2.9731.743cuyo,-a, cuyos, -as
97.41869.867se impersonnel
105.222120.453Total
3871.103quien, quienes
3.9481.216cual, cuales
97.391114.204que
TETG
2.6 En guise de conclusion
Nous partons du principe que ce que lon appelle les langues de spcialit font partie de lensemble de la langue en gnrale et quelles peuvent
constituer des ensembles uniquement virtuels. Si nous acceptons ce principe,
les langues de spcialit sont alors uniquement des varits ou des styles de la
langue toute entire. Cest sur la base des textes produits dans des situations
de communication spcialise que nous pourrons extraitre leur
caractristiques discriminantes par rapport ceux qui sont issus de situations
non spcialiss. Ces caractristiques comportent des ressources lexicales aussi
bien que morphologiques, syntaxiques et graphiques.
De tous les phnomnes que les linguistes ont considrs comme
discriminants, dans cette tude empirique portant sur un assez vaste corpus
nous avons pu vrifier que seuls certains traits apparaissent assez souvent
dans les textes de spcialit tandis que dautres ne peuvent pas tre considrs
Cahier du CIEL 2007-2008
54
comme reprsentatifs, car doccurrences trop peu frquentes. En revanche
nous avons pu observer des phnomnes qui nont pas t relevs dans les
ouvrages sur les langues de spcialit.
Parmi ceux-ci nous pouvons signaler en particulier :
Noms propres moins reprsents en langue de spcialit
Predominance N+Adj en langue de spcialit
Pronoms de 1 personne du singular et du plural plus prsentes en
langue gnrale
Distribution complementaire des formes du pronom relatif (sauf que
en espagnol)
Conjonctions complexes en langue de spcialit
Que completif en langue gnrale
Conjonction o en langue de spcialit
Conjunctions pero, porque, ni (mais, parce que, ni) en langue
gnrale
Marqueurs mtadiscursifs en langue de spcialit, etc.
En revanche les donnes confirment que les traits suivants apparaissent
comme significatifs dans les textes de spcialit :
La prdominance des substantifs (par rapport dautres catgories ;
pas plus quen langue gnrale)
Emploi particulier de catgories grammaticales, surtout en relation
avec les verbes (surtout des pronoms personnels)
absence de la 2 personne du singulier comme du pluriel
emploi rare de la 1 personne du singulier en faveur du nous emploi considrable de la 3 personne du singulier
prdominance du prsent de lindicatif (par rapport aux temps pass)
expansion adjectivale des substantifs
nominalisation des formes verbales
nosotros uno
Grce ces rsultats nous pensons pouvoir contribuer la caractrisation
grammaticale des textes spcialiss et faciliter ainsi leur traitement
automatique
T. CABRE Constituer un corpus de textes de spcialit
55
BIBLIOGRAPHIE
Beaugrande, R. de, Dressler, W. (1997) Introduccin a la lingstica del texto.
Barcelona, Ariel.
Cabr, M.T. (1998) VariacI pel tema. El discurs especialitzat o la variaci funcional
determinada per la temtica : noves perspectives. En : Caplletra, Revista
Internacional de Filologa, Tardor, 1998, pp. 137-194.
Cajolet-Laganire, H., N. Maillet (1995) Caractrisation des textes techniques
qubcois , Prsence francophone 47, pp. 113-147.
Ciapuscio, G. (2003) Textos especializados y terminologa. Barcelona, IULA.
Coulon, R. (1972) French as it is written by French sociologists , Bulletin
pdagogique des IUT18, p. 11-25.
Harris, Z. (1952) Discourse Analysis, Language, 28, 1-30, p. 474-494.
Hoffmann, L. (1976) Kommunikationsmittel Fachsprache Eine Einfhrung, Berlin,
Sammlung Akademie Verlag.
Kocourek, R. (1991) La langue franaise de la technique et de la science. Vers une
linguistique de la langue savante. Wiesbaden, Oscar Branstetter.
LHomme, M.C. (1993) Contribution lanalyse grammaticale de la langue de
spcialit : le mode, le temps et la personne du verbe dans quelques
textes,scientifiques crits vocation pdagogique. Qubec, Universit Laval.
LHomme, M.C. (1995) Formes verbales de temps et texte scientifique , Le langage
et lhomme, 31(2-3), p. 107-123.
Lauffler-Laurian, A.M. (1983) Typologie des discours scientifiques : deux approches,
tudes de Linguistique Applique, 51.
Lauffler-Laurian, A.M. (1984) Vulgarisation scientifique : formulation, reformulation,
traduction, Langue Franaise, 64, p. 109-125.
Opitz, K. (1980) Language for Special Purposes. An intractable presence,
Fachsprache 2(2), p. 21-27.
Sager, J.C., Dungworth,D. (1980) English Special Languages. Wiesbaden, Oscar Brandstetter Verlag.
Cahier du CIEL 2007-2008
56
ANNEXE : THESES ET MEMOIRES
Les thses et mmoires suivants ont t raliss en exploitant les donnes du corpus :
Araceli Alonso : Descripcin y anlisis de los sufijos nominalizadores en el rea del medio ambiente / Description et analyse des suffixes de nominalisation dans le domaine de lenvironnement
Rosanna Folguer : Adjectius en el discurs especialitzat : una primera descripci deis adjectius en els textos del genoma hum / Adjectifs en discours spcialis : une premire description des adjectifs dans les textes sur le gnome humain
Vanesa Vidal : Aproximacin al fenmeno de la combinatoria verbo-nominal en el discurso especializado en Genoma Humano / Une approche du phnomne de la combinaison verbe-nom dans le discours spcialis sur le gnome humain
Gabriel Quiroz : Las unidades sintagmticas extensas especializadas en ingls y en espaol : descripcin y clasificacin en un corpus de genoma / Les units syntagmatiques dveloppes spcialises en anglais et en espagnol : description et
classification dans un corpus de gnomique
John Jairo Giraldo : Anlisis y descripcin de las siglas en el discurso especializado de Genoma humano y Medio ambiente / Analyse et description des sigles en discours spcialiss du gnome humain et en environnement
Iria de Cunha : Hacia un modelo lingstico de resumen automtico de artculos mdicos en espaol / Vers un modle linguistique du rsum automatique des articles de mdecine en espagnol
Rogelio Nazar : Aproximacin cuantitativa al mapeo conceptual / Approche quantitative de la carte conceptuelle
Carles Teb : La representaci conceptual en terminologia : l'atribuci temtica en els bancs de dades terminolgiques / La reprsentation conceptuelle en terminologie : lattribution de domaine dans les banques de donnes
terminologiques.
Ricardo Guantiva : Terminologa y variacin vertical : clasificacin de textos en niveles de especializacin a partir del anlisis del tipo y la densidad de las unidades terminolgicas / Terminologie et variation verticale : classification de textes en niveaux de spcialisation partir danalyses de type et la densit dunits
terminologiques.
Ona Domnech : Textos especialitzats i variaci vertical : la diversitat terminolgica com a factor discriminant del nivell d'especialitzaci d'un text / Textes spcialiss et variation verticale : la diversit terminologique comme facteur discriminant du
niveau de spcialisation dun texte.