20
37 CONSTITUER UN CORPUS DE TEXTES DE SPECIALITE M. Teresa CABRÉ Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra (Barcelone) Il ne peut y avoir de doute que le développement des corpus textuels a permis à la linguistique descriptive de faire un saut qualitatif très important. Ce progrès a permis aux linguistes de tenir compte de façon plus adéquate du fonctionnement des langues à partir du moment où les analyses ont pu se fonder pour la première fois sur des exemples abondants et représentatifs de production langagière qui n’étaient ni limités ni biaisé subjectivement comme auparavant. En outre, la linguistique de corpus permet d’explorer de manière exhaustive les productions langagières et d’offrir au linguiste des échantillons de données qu’une analyse manuelle n’est pas en mesure d’exploiter de façon aussi approfondie. Dans cet article nous poursuivons trois objectifs. Tout d’abord nous exposerons quelques caractéristiques de ce qu’on appelle les “langues de spécialité”, qui sont à l’origine des textes spécialisés. Ensuite nous présenterons brièvement le corpus textuel spécialisé de l’Institut universitaire de linguistique appliquée comme échantillon d’adaptation aux conditions mentionnées dans notre premier objectif. Nous monterons enfin à titre d’exemple une étude sur les différences entre les textes de spécialité et les textes non spécialisés au regard de leurs caractères linguistico-grammaticaux.

04-cabre

Embed Size (px)

DESCRIPTION

terminologie

Citation preview

  • 37

    CONSTITUER UN CORPUS DE TEXTES DE SPECIALITE

    M. Teresa CABR Institut Universitari de Lingstica Aplicada

    Universitat Pompeu Fabra (Barcelone)

    Il ne peut y avoir de doute que le dveloppement des corpus textuels a permis

    la linguistique descriptive de faire un saut qualitatif trs important. Ce

    progrs a permis aux linguistes de tenir compte de faon plus adquate du

    fonctionnement des langues partir du moment o les analyses ont pu se

    fonder pour la premire fois sur des exemples abondants et reprsentatifs de

    production langagire qui ntaient ni limits ni biais subjectivement comme

    auparavant. En outre, la linguistique de corpus permet dexplorer de manire

    exhaustive les productions langagires et doffrir au linguiste des chantillons

    de donnes quune analyse manuelle nest pas en mesure dexploiter de faon

    aussi approfondie.

    Dans cet article nous poursuivons trois objectifs. Tout dabord nous

    exposerons quelques caractristiques de ce quon appelle les langues de

    spcialit, qui sont lorigine des textes spcialiss. Ensuite nous

    prsenterons brivement le corpus textuel spcialis de lInstitut universitaire

    de linguistique applique comme chantillon dadaptation aux conditions

    mentionnes dans notre premier objectif. Nous monterons enfin titre

    dexemple une tude sur les diffrences entre les textes de spcialit et les

    textes non spcialiss au regard de leurs caractres linguistico-grammaticaux.

  • Cahier du CIEL 2007-2008

    38

    1 LA CONSTITUTION DUN CORPUS DE SPECIALITE :QUESTIONS ET CRITERES

    Pour construire un corpus textuel de spcialit la premire question qui se

    pose est de savoir ce quon entend par texte spcialis ou comment nous

    identifions les textes spcialiss. Sans rponse prcise cette question il nest

    videmment pas possible de commencer slectionner le matriel.

    Une fois tablis les critres qui permettent didentifier les textes produits par

    des spcialistes dans des situations professionnelles, il convient de dterminer

    quels types de texte nous devons retenir pour que le corpus qui en rsulte soit

    suffisamment quilibr.

    En troisime lieu, nous devons dterminer la quantit de productions qui

    feront partie de ce corpus, pour savoir sil sera suffisamment reprsentatif de

    chaque spcialit ou bien seulement pour analyser un thme pralablement

    choisi. Il convient ce propos davoir pralablement dtermin afin de

    pouvoir dfinir sa dimension. Dans quel but constituons-nous ce corpus?

    Quelle en est la finalit que nous comptons atteindre grce lui? A quelles

    tudes linguistiques souhaitons-nous quil donne lieu?

    En rpondant ces trois questions nous pouvons dj commencer le travail,

    qui logiquement devra comporter dautres questions de type plus techniques,

    quil sagisse de questions linguistiques ou dinformatiques ?

    Une fois constitu le corpus sous forme numrique enfin, nous devons

    factoriser toutes les possibilits dexploration, possibilits que nous avons d

    tablir dans ltape prliminaire de la caractrisation du corpus constituer.

    Nous rpondrons point par point chacune de ces questions.

    1.1 Quest-ce un texte spcialis? Comment reconnatre parmi tous les textes ceux qui sont spcialiss?

    Les textes spcialiss sont les productions linguistiques, orales ou crites, qui

    se manifestent dans le cadre des communications professionnelles et dont la

    finalit est exclusivement professionnelle. On reconnat les situations

    professionnelles par les interlocuteurs qui interagissent, par le sujet voqu

    qui relve du domaine ou des domaines concerns par la profession, et par la

    finalit essentielle de rechercher linformation auprs du rcepteur, bien que

    pour ce faire on utilise des stratgies discursives diffrentes.

    Dun point de vue analytique, on peut dire que les textes spcialiss se

    dfinissent par trois types de conditions :

  • T. CABRE Constituer un corpus de textes de spcialit

    39

    conditions discursives : les proprits de la situation

    spcialise de ce type de communication

    conditions cognitives : le thme qui est trait et la faon

    dont il est trait

    conditions linguistiques : les conditions textuelles gnrales

    (prcision, concision et systmaticit, les deux dernires

    des degrs diffrents suivant les conditions discursives), la

    forme macro et micro textuelle, et surtout les units

    lexicales propres au domaine dont il est question dans le

    texte.

    1.2 Quels sont les variables que nous pouvons prendre en considration dans un corpus spcialis?

    Les textes de spcialit ne sont pas homognes, mais ils sont organiss en

    diffrents types en fonction des critres de classification qui sont pris en

    considration. Les critres qui sont notre avis les plus pertinents pour

    organiser les textes de spcialit dans un corpus sont les suivants :

    le thme/sujet

    la perspective ou dimension disciplinaire

    le niveau de spcialisation

    les sources

    le genre textuel

    la classe de texte daprs la stratgie discursive

    les langues

    la relation entre les textes des langues du corpus dans le cas de textes

    plurilingues (bilingues, trilingues, etc.)

    En matire de thme ou de sujet nous distinguons entre corpus

    monodisciplinaire et pluridisciplinaire. Un exemple de ce dernier : la banque

    de droit de lenvironnement pour le groupe TERMISUL de lUniversit de

    Porto Alegre (Brsil).

    Quant au niveau de spcialisation, un corpus peut comporter des textes dun

    seul niveau de spcialit (par exemple : des textes darticles scientifiques

  • Cahier du CIEL 2007-2008

    40

    provenant de priodiques de mme type) ou encore comporter des textes de

    diffrents niveaux de spcialit1.

    Par le canal de transfert, les textes du corpus peuvent maner dun seul type

    de source ou de plusieurs types de sources. La diversit des sources peut

    rsulter aussi dune grande diversit de critres parmi lesquels nous nous

    intressons au critre du mode de transmission ici car les textes dun corpus

    peuvent tre exclusivement oraux ou crits ou audiovisuels ou encore

    comporter des occurrences de toutes les possibilits.

    En ce qui concerne le genre textuel, un corpus peut tre homogne et ne

    comporter que des textes dun seul genre (par exemple des abstracts de

    priodiques scientifiques), ou bien il peut inclure des textes de diffrents

    genres textuels.

    En ce qui concerne le type de texte daprs la stratgie discursive, les corpus

    peuvent tre homognes ou htrognes en matire de genre textuel. Par

    exemple, un corpus homogne ne comportera que des textes argumentatifs, ou

    narratifs, etc.

    En application du critre des langues, les corpus peuvent tre monolingues,

    bilingues, trilingues, etc. Les textes qui comportent plus dune langue peuvent

    tre mlangs au sein dun seul sujet ou bien comporter des textes dans une

    langue donne et la traduction correspondante dans la deuxime ou la

    troisime langue. Dans ce dernier cas on parle de corpus parallles.

    1.3 Quelle est la bonne taille dun corpus spcialis?

    La rponse cette question ne peut tre que la suivante : ceci dpend de la

    finalit du corpus. A quoi va servir un corpus? Pour extraire des donnes

    reprsentatives de lusage dune langue dans son ensemble? Dans ce cas-l

    nous devons constituer un type de corpus que lon appelle corpus de

    rfrence, qui comporte un chantillon dusage reprsentatif de la totalit de

    la langue, y compris toute la variation interne et externe. En revanche, sil

    sagit de constituer un corpus pour tudier un problme particulier, la taille du

    corpus doit tre en adquation avec les finalits proposes. Par exemple, le

    corpus que nous devons constituer pour analyser lusage dun pronom en

    position enclytique sera de taille moins importante que celui quil faudrait

    1 La pertinence dun texte un niveau haut, moyen ou bas se dtermine par les

    caractristiques des destinataires, son support et ses finalits. Ainsi, un texte produit

    par un spcialiste pour des tudiants peut se dfinir comme de niveau moyen. Pour de

    plus amples renseignements, voir Cabr (1998) et Ciapuscio (2003).

  • T. CABRE Constituer un corpus de textes de spcialit

    41

    pour extraire la terminologie dun domaine de spcialit. Lextraction de

    collocations ncessitera un corpus encore plus important.

    1.4 Le processus de constitution de corpus

    La constitution effective, une fois les critres tablis, se droule en phases

    distinctes :

    a. la slection des sources

    b. les critres de slection des textes et la dcision de savoir sil faut

    prendre le texte complet ou des fragments du mme texte2

    c. les dcisions quant larchitecture de base

    d. les dcisions quant linfrastructure logicielle et matrielle (systme

    de gestion de corpus textuels)

    e. la slection des conventions pour la reprsentation des textes

    f. les critres, langage et systme de balisage structurel

    1.5 Outils dinterrogation

    Les textes dun corpus peuvent tre utiliss sous forme brute ou dj traits

    linguistiquement. Si lon utilise des textes dj traits, il parat logique de

    tenir compte des ressources et des outils de traitement automatique de

    linformation :

    outils de marquage structural et linguistique

    dictionnaire initial de traitement

    systme danalyse morphologique

    systme de lemmatisation

    systme de dsambigusation

    systme de gestion de dictionnaires

    systme de structuration syntaxique ( chunker ), etc.

    2 Cette dcision dpend des tudes que nous souhaitons raliser grce au corpus. Pour

    lanalyse textuelle (connecteurs, structuration informative, genres textuels, etc.), il faut

    des textes complets.

  • Cahier du CIEL 2007-2008

    42

    1.6 Possibilits dexploitation

    Les possibilits dexploitation linguistique dun corpus dpendent enfin du

    traitement que les donnes ont subies pendant cette phase. Les possibilits

    dapplication des donnes du corpus se ralisent dans les secteurs suivants :

    en ingnierie linguistique, pour la mise au point doutils et de robots

    en extraction dinformation pour des besoins de recherche,

    denseignement, dexploitation industrielle, de publication, etc.

    en rcupration dinformation pour des besoins documentaires et

    bibliographiques.

    Les linguistes sintressent aux corpus de spcialit surtout pour les

    applications suivantes :

    la recherche sur le discours spcialis, la terminologie et la

    phrasologie spcialiss

    llaboration de dictionnaires spcialiss

    lenseignement des langues de spcialit ou de langues sur objectifs

    spcialiss.

    Pour lenseignement des langues de spcialit, les corpus donnent la

    possibilit de mieux prparer les programmes (en rapport avec les besoins et

    le niveau de connaissances des tudiants), dlaborer des exercices et

    dalimenter des systmes dauto-apprentissage des langues.

    Dans le domaine de la documentation, et plus concrtement pour la gestion de

    linformation, les corpus fournissent de linformation pour la construction

    automatique ou assiste par ordinateur de thsaurus, pour lindexation

    automatique et pour laborer des systmes de classification de documents ou

    pour mieux orienter la consultation selon le profil de lutilisateur individuel.

    2 LE CORPUS TECHNIQUE PLURILINGUE DE LIULALInstitut universitaire de linguistique applique (IULA) est un centre de

    lUniversit Pompeu Fabra, de Barcelone, consacr la recherche et la

    formation doctorales. Il fut cr en 1993 par Maria Teresa Cabr. LIULA est

    sous-divis en groupes de recherche : Lexique, terminologie et discours

    spcialis (Groupe IULATERM, qui hberge la Linguistique Informatique),

    Lexicographie (Groupe INFOLEX), Variation linguistique (Groupe UVAL),

    Documentation et publication numrique (Groupe DIGIDOC), ainsi que trois

    laboratoires : OBNEO (Observatoire de nologie), LATEL (Laboratoire de

  • T. CABRE Constituer un corpus de textes de spcialit

    43

    technologie linguistique) et le Laboratoire de linguistique judiciaire. Depuis

    1993 jusquaujourdhui le projet Corpus est le projet de recherche commun

    auquel participent tous les membres de lIULA. Il comporte des textes crits

    dans cinq langues (catalan, castillan, anglais, franais et allemand) des

    domaines de lconomie, du droit, de lenvironnement, de la mdecine et de

    linformatique. Le corpus comporte en plus des documents parallles,

    facilitant ainsi ltude de la traduction. Le corpus multilingue de lIULA est

    constitu dun sous-corpus de la langue gnrale, extrait de la presse de

    grande diffusion, qui reprsente un corpus contrastif.

    Lobjectif de ce corpus est de faciliter lanalyse de donnes linguistiques afin

    de pouvoir tablir les lois qui rgissent le comportement de chaque langue

    dans chaque domaine. Il est ouvert aux chercheurs et tous ceux qui ont

    besoin de consulter dans les domaines de spcialit concerns. Lexploitation

    du corpus a dbouch sur des tudes de caractre terminologique, discursif,

    morphologique, syntaxique, nologique ou traductologique. Afin de faciliter

    lexploitation des donnes, lIULA a mis au point une srie doutils

    dinterrogation. Parmi ceux-ci on peut signaler un extracteur automatique de

    nologie, un dtecteur automatique de terminologie, un aligneur de textes, un

    outil permettant lalimentation des dictionnaires. De fait, ce corpus est le

    principal support des activits de recherche et denseignement de notre

    institut.

    Loutil qui permet daccder aux donnes du corpus par Internet est

    BwanaNet, qui peut tre consult sur la page principale du site de lIULA

    (http ://bwananet.iula.upf.edu/), dans la rubrique intitule Recursos IULA.

    Le corpus de lIULA comporte des textes crits dans cinq langues (catalan,

    castillan, anglais, franais et allemand) des domaines de lconomie, du droit,

    de lenvironnement, de la mdecine et de linformatique, ainsi que des

    documents parallles sur ces sujets. Chacun des domaines a t structur par

    un spcialiste en diffrents sous-domaines de telle sorte que les textes

    puissent tre rcuprs avec une grande prcision thmatique.

  • Cahier du CIEL 2007-2008

    44

    Voici comment est structur le domaine de la mdecine :

    Anatomie (AN)

    Organismes (OR)

    Maladies (MA)

    Produits chimiques et pharmaceutiques (PQ)

    Techniques et quipements analytiques, diagnostiques et

    thrapeutiques

    (TE)

    Psychiatrie et psychologie (PS)

    Sciences biologiques (CB)

    Sciences physiques (CF)

    Anthropologie, ducation, sociologie et phnomnes

    sociaux

    (FS)

    Technologie, industrie, agriculture (TI)

    Sciences humaines (HU)

    Information scientifique (IC)

    Groupes nominaux (GN)

    Planification et gestion sanitaires (GS)

    Le traitement des textes du corpus suit les tapes suivantes.

    2.1 Phase de slection des textes

    Les spcialistes de chaque matire slectionnent les textes quils considrent

    comme pertinents et les classent par thme dans une structuration du domaine

    pralablement conu par des spcialistes.

    2.2 Phase dannotation et denregistrement de linformation du document

    Les documents sont baliss selon la norme SGML et les conventions tablies

    par la norme Corpus Encoding Standards (CES) du projet EAGLES. Ensuite

    linformation de type documentaire est enregistre (auteur, titre, dition,

    pages retenues, sous-domaine auquel il appartient, langues quun document

    unique peut comporter dans le corpus).

  • T. CABRE Constituer un corpus de textes de spcialit

    45

    2.3 Phase de traitement linguistique

    Le traitement linguistique de la documentation est automatis et comporte un

    prtraitement afin de traiter linguistiquement les entits susceptibles dune

    dtection automatique avant lanalyse morphologique (dates, chiffres,

    locutions, noms propres, sigles et abrviations), une analyse morphologique,

    par laquelle tous les mots du documents sont lemmatiss et pourvus dune ou

    de plusieurs tiquettes morphologiques, en accord avec le systme

    dtiquetage morphosyntaxique conu lIULA, ainsi quune

    dsambigusation linguistique et statistique de sorte que chaque mot ne se

    voie attribu quun seul lemme et une seule tiquette.

    2.4 Stockage dans une base de donnes textuelles

    Finalement quand chaque mot est associ un lemme et une catgorie

    grammaticale, les textes sont stocks dans une base de donnes textuelles, qui

    comporte toute linformation gnre sur ce document. Le rsultat de tout ce

    processus de traitement des textes peut tre consult en ligne ladresse

    suivante : http :// brangaene.upf.es/bwananet/index.htm.

    Domaine catalan espagnol anglais franais allemand total

    Droit 1 463 000 2 085 000 431 000 44 000 16 000 4 039 000

    Economie 1 776 000 1 091 000 274 000 78 000 27 000 3 246 000

    Environnement 1 506 000 1 062 000 599 000 230 000 429 000 3 826 000

    Informatique 655 000 1 227 000 338 000 194 000 83 000 2 497 000

    Mdecine 2 619 000 4 077 000 1 555 000 27 000 198 000 8 476 000

    Total 8 019 000 9 542 000 3 197 000 573 000 753 000 22 084 000

    Figure 1 : nombre de mots par langue et par domaine

    Le corpus de mdecine comporte un sous-corpus de textes sur le gnome

    humain, labor par le groupe Iulaterm, qui comporte 945 000 mots en

    catalan, 1 447 000 en espagnol et 1 119 000 en anglais.

    Les donns en relation avec le corpus parallle pour les paires linguistiques

    les plus significatives catalan-espagnol, catalan-anglais, espagnol-anglais,

    sont prsentes dans la figure 2.

  • Cahier du CIEL 2007-2008

    46

    Domaine catalan-espagnol catalan-anglais espagnol-anglais

    Droit 460 000 12 000 57 000

    Economie 600 000 250 000 283 000

    Environnement 214 000 213 000 144 000

    Informatique 28 000 300 000

    Mdecine 118 000 40 000 640 000

    Total 420 000 515 000 1 424 000

    Figure 2 : Nombre de mots dans les corpus parallles par domaine et par langue

    Les donnes du corpus tmoin sont indiques dans la figure 3.

    Domaine catalan espagnol total

    Gnral 1 526 000 3 230 000 4 756 000

    Figure 3 : nombre de mots dans le corpus de la langue gnrale

    Le corpus technique de lIULA (CT-IULA) est index grce un ensemble

    doutils mis au point par lInstitut fr Maschinelle Sprachverarbeitung, de lUniversit de Stuttgart (Corpus Workbench). LIULA a mis au point loutil

    qui permet linterrogation en ligne de CT-IULA

    (brangaene.upf.es/bwananet/index htm).

    2.5 Une application de linguistique de corpus : comparaison grammaticale entre textes spcialiss et textes non spcialiss

    Grce ce corpus plus de vingt thses de doctorat ont pu tre ralises. En

    plus des thses, le corpus a permis de mettre au point une base de

    connaissances (GENOMA) qui peut tre consulte

    www.iula.upof.edu/genoma.

    En ce moment, un projet de recherche sur les caractristiques spcifiques des

    textes spcialiss par rapport aux textes non spcialiss est sur le point dtre

    achev. Une brve synthse de ce projet et certains de ses rsultats sont

    prsents ci-dessous.

    Le projet ESPETEX, qui fait partie dun projet plus vaste financ par le

    Ministre de lEducation et de la culture espagnol (TEXTERM-2.

    Fondements, stratgies et outils pour le traitement et lextraction automatiques de linformation spcialise N REFERENCIA : BFF2003-02111) auquel participent une vingtaine de chercherurs et collaborateurs,

    comporte deux objectifs :

  • T. CABRE Constituer un corpus de textes de spcialit

    47

    Vrifier si les caractristiques grammaticales que les manuels de langues de

    spcialit attribuent aux langues de spcialit sont confirmes par rapport un

    corpus suffisamment reprsentatif.

    Au cas o ceci ne serait pas confirm en totalit ou en partie, tenter de relever

    et dtablir quelques-uns de facteurs grammaticaux spcifiques qui

    caractrisent les textes spcialiss.

    Pour mener bien ce projet nous sommes partie de la liste des caractristiques

    des textes spcialiss exposs dans les deux manuels suivants :

    Kocourek, R. (1991) La langue franaise de la technique et de la science. Vers une linguistique de la langue savante, Wiesbaden, Oscar Brandstetter Verlag.

    Sager, J.C. ; Dungworth, D. ; McDonald, P. (1980) English Special Languages. Wiesbaden, Oscar Brandstetter Verlag.

    Ces manuels sont bass sur des corpus de taille modeste. Pour le projet

    ESPETEX nous avons constitu un corpus double : un premier corpus de

    textes spcialiss et un second de textes de caractre gnral.

    Le corpus de la langue gnrale, issue de la presse, comporte 5.002.121 mots,

    rpartis dans 155 documents du Corpus de lIULA.

    Le corpus de spcialit est compos de 5.018.193 mots rpartis dans 251

    documents du Corpus de lIULA (droit, conomie, informatique,

    environnement, mdecine : 1.000.000 mots par domaine).

    Les caractristiques grammaticales non lexicales que les manuels attribuent

    aux textes de spcialit peuvent tre rpartis, selon Kocourek (1991), en

    quatre groupes3

    1. slection des catgories grammaticales

    2. complexit de la structure

    3. condensation syntaxique

    4. impersonnalit de la phrase

    En ce qui concerne la slection des catgories grammaticales on relve les

    phnomnes suivants :

    prdominance des substantifs

    emploi particulier de certaines catgories grammaticales, surtout en

    relation avec le verbe (ainsi quavec les pronoms personnels) :

    3 En plus de Kocourek, dautres linguistes ont publi sur le sujet. Parmi ceux-ci nous

    signalons en particulier : Phal (1968), Vigner et Martin (1976), Loffler-Laurian (1980,

    1982, 1983, 1985, 1986), D. Candel (1984), Hoffmann (1985) et LHomme (2005).

  • Cahier du CIEL 2007-2008

    48

    o absence de la deuxime personne du singulier comme du

    pluriel

    o usage rare de la premire personne du singulier, auquel on

    prfre nous.

    absence de certains mots ou morphmes grammaticaux de la

    morphologie verbale :

    o prdominance de la troisime personne du singulier

    o prdominance du prsent de lindicatif

    o frquence de la deuxime personne du pluriel limpratif

    o prdominance de phrases dclaratives

    o emploi limit de phrases interrogatives directes.

    Par rapport la complexit structurelle, on distingue comme spcifiques des

    textes spcialiss les traits grammaticaux suivants :

    faible longueur de la phrase

    nominalisation des verbes

    frquence dexpansions de noms et de syntagmes nominaux

    abondance de propositions relatives

    constructions ralises avec des participes et linfinitif

    diversit des conjonctions circonstancielles

    constructions insres dans la phrase

    Comme exemples de condensation syntaxique, nous relevons les phnomnes

    suivants :

    emploi abondant de pronominalisation

    emploi de propositions infinitives et participiales

    nominalisation de formes verbales

    Le caractre impersonnel de la phrase dans les textes de spcialit est exprim

    par les phnomnes suivants :

    pronom de modestie : nous

    emploi de lindfini : un

    tournures impersonnelles comme est + adjectif (probable, certain, surprenant, etc.), il en rsulte que, etc.

    emploi frquent de la voix passive.

    En plus de toutes ces caractristiques grammaticales, il convient de souligner

    sur le plan textuel :

  • T. CABRE Constituer un corpus de textes de spcialit

    49

    absence de certains genres (cartes, pices de thtre, etc.)

    abondance de certains genres : suivant le domaine (droit, mdecine,

    gnomique, etc.)

    contrle de la structuration de linformation (marqueurs discursifs et

    mta-discursifs, tables, listes, etc.).

    Sur le plan lexical :

    prsence abondante de terminologie

    absence relative dunits polysmiques

    tendance employer systmatiquement la mme unit pour un

    concept, vitant ainsi lemploi de synonymes.

    Sur le plan graphique, enfin :

    prsence de symboles, de formules

    reprsentations iconiques

    units lexicales : commande c, etc.

    Lanalyse ralise sur notre double corpus se limite aux phnomnes

    suivants :

    classes grammaticales : N, V, Adj, Adv, Prp, Conj,

    noms propres et noms communs

    genre et nombre des substantifs

    nom prcd du dterminant dfini

    adjectifs qualificatifs

    pronoms relatifs

    personne, mode et temps des verbes

    formes verbales impersonnelles

    prpositions

    conjonctions

    Parmi les substantifs et pronoms :

    N + Adj

    N + SP

    Pronoms 1, 2, 3 personne du singular et pluriel

  • Cahier du CIEL 2007-2008

    50

    Forme impersonnelle se

    Pronoms relatifs : que, qui, dont

    Quant aux formes verbales, nous avons analys

    temps : prsent/pass

    o personne : 1, 2, 3

    o nom : singulier/pluriel

    o formes de la 1, 2, 3 personne actives et passives

    mode

    o indicatif/subjonctif/impratif/ conditionnel

    Nous avons observ en outre certaines prpositions, des conjonctions simples

    et complexes, savoir :

    prposition de

    conjonctions de coordination : et, ou, ni, mais

    conjonctions subordonnes : parce que, etc.

    conjonctions subordonnes complexes : par consquent, de sorte que, moins que...

    Ainsi que certaines marques mtadiscursives

    lemme : dfinir, dsigner, appeler, sous-entendre

    lemme : connatre, dfinir, entendre + comme

    lemme : entendre par

    lemme : + lemme : vouloir dire

    lemme : recevoir + le nom de

    cest dire

    cest

    ou bien

    Les rsultats auxquels nous sommes arrivs peuvent tre rsums dans les

    tableaux suivants.

  • T. CABRE Constituer un corpus de textes de spcialit

    51

    Langue gnrale LSP

    Noms 1.218.815 1.302.211

    Adj qualificatifs 381.813 430.576

    Verbs 684.530 624.766

    Determinants 612.499 659.823

    Prposition de 366.827 457.584

    Conjonctions 239.865 235.434

    Adverbes 231.341 202.956

    225.856 (42,68%)150.386 (38,07%)N+Adj

    303.469 (57,33%)244.635 (61,93%)N+SP

    ----N+participe

    430.576381.813Adj qualificat.

    TETG

    225.856 (42,68%)150.386 (38,07%)N+Adj

    303.469 (57,33%)244.635 (61,93%)N+SP

    ----N+participe

    430.576381.813Adj qualificat.

    TETG

    169.819187.252Formes non

    personnelles

    454.947497.278Formes

    personnelles

    TETG

    169.819187.252Formes non

    personnelles

    454.947497.278Formes

    personnelles

    TETG

  • Cahier du CIEL 2007-2008

    52

    41.202 (0,88%)41.202 (0,88%)29.614 (0,72%)29.614 (0,72%)Ambigues Ambigues ImperatifImperatif--SbjonctifSbjonctif

    7.6129.378Conditionnel

    120.258120.258115.917115.917Ambigues Ambigues ImperatifImperatif--IndicatifIndicatif

    8.3159.437Subjonctif

    219.648313.992Indicatif

    TETG

    41.202 (0,88%)41.202 (0,88%)29.614 (0,72%)29.614 (0,72%)Ambigues Ambigues ImperatifImperatif--SbjonctifSbjonctif

    7.6129.378Conditionnel

    120.258120.258115.917115.917Ambigues Ambigues ImperatifImperatif--IndicatifIndicatif

    8.3159.437Subjonctif

    219.648313.992Indicatif

    TETG

    4 0 .0 7 91 4 8 .3 1 8p a s s

    3 1 2 .4 2 32 8 7 .9 8 3p r s e n t

    T ET G

    4 0 .0 7 91 4 8 .3 1 8p a s s

    3 1 2 .4 2 32 8 7 .9 8 3p r s e n t

    T ET G

    102.389 (36,92%)174.904 (63,08%)Total formes sing

    123.166 (51,52%)115.853 (48,48%)Total formes plur.

    3.210/1064.214/3112 singulier/ pluriel

    12.472/13.71823.270/12.9731 singulier/pluriel

    196.049 (86,9 %)249.989 (85,9 %)3me personne

    3.316 (1,47%)4.525 (1,56%)2me personne

    26.190 (11,61%)36.243 (12,47%)1re personne

    TETG

    102.389 (36,92%)174.904 (63,08%)Total formes sing

    123.166 (51,52%)115.853 (48,48%)Total formes plur.

    3.210/1064.214/3112 singulier/ pluriel

    12.472/13.71823.270/12.9731 singulier/pluriel

    196.049 (86,9 %)249.989 (85,9 %)3me personne

    3.316 (1,47%)4.525 (1,56%)2me personne

    26.190 (11,61%)36.243 (12,47%)1re personne

    TETG

  • T. CABRE Constituer un corpus de textes de spcialit

    53

    TG TE

    PASSIVE 3.469 3.562

    ACTIVE

    1r sing/plu 16/17 0/0

    2e sing/plur 0/0 1/0

    3esing/plur 1.8292/1.544 1.570/1.991

    2.9731.743cuyo,-a, cuyos, -as

    97.41869.867se impersonnel

    105.222120.453Total

    3871.103quien, quienes

    3.9481.216cual, cuales

    97.391114.204que

    TETG

    2.9731.743cuyo,-a, cuyos, -as

    97.41869.867se impersonnel

    105.222120.453Total

    3871.103quien, quienes

    3.9481.216cual, cuales

    97.391114.204que

    TETG

    2.6 En guise de conclusion

    Nous partons du principe que ce que lon appelle les langues de spcialit font partie de lensemble de la langue en gnrale et quelles peuvent

    constituer des ensembles uniquement virtuels. Si nous acceptons ce principe,

    les langues de spcialit sont alors uniquement des varits ou des styles de la

    langue toute entire. Cest sur la base des textes produits dans des situations

    de communication spcialise que nous pourrons extraitre leur

    caractristiques discriminantes par rapport ceux qui sont issus de situations

    non spcialiss. Ces caractristiques comportent des ressources lexicales aussi

    bien que morphologiques, syntaxiques et graphiques.

    De tous les phnomnes que les linguistes ont considrs comme

    discriminants, dans cette tude empirique portant sur un assez vaste corpus

    nous avons pu vrifier que seuls certains traits apparaissent assez souvent

    dans les textes de spcialit tandis que dautres ne peuvent pas tre considrs

  • Cahier du CIEL 2007-2008

    54

    comme reprsentatifs, car doccurrences trop peu frquentes. En revanche

    nous avons pu observer des phnomnes qui nont pas t relevs dans les

    ouvrages sur les langues de spcialit.

    Parmi ceux-ci nous pouvons signaler en particulier :

    Noms propres moins reprsents en langue de spcialit

    Predominance N+Adj en langue de spcialit

    Pronoms de 1 personne du singular et du plural plus prsentes en

    langue gnrale

    Distribution complementaire des formes du pronom relatif (sauf que

    en espagnol)

    Conjonctions complexes en langue de spcialit

    Que completif en langue gnrale

    Conjonction o en langue de spcialit

    Conjunctions pero, porque, ni (mais, parce que, ni) en langue

    gnrale

    Marqueurs mtadiscursifs en langue de spcialit, etc.

    En revanche les donnes confirment que les traits suivants apparaissent

    comme significatifs dans les textes de spcialit :

    La prdominance des substantifs (par rapport dautres catgories ;

    pas plus quen langue gnrale)

    Emploi particulier de catgories grammaticales, surtout en relation

    avec les verbes (surtout des pronoms personnels)

    absence de la 2 personne du singulier comme du pluriel

    emploi rare de la 1 personne du singulier en faveur du nous emploi considrable de la 3 personne du singulier

    prdominance du prsent de lindicatif (par rapport aux temps pass)

    expansion adjectivale des substantifs

    nominalisation des formes verbales

    nosotros uno

    Grce ces rsultats nous pensons pouvoir contribuer la caractrisation

    grammaticale des textes spcialiss et faciliter ainsi leur traitement

    automatique

  • T. CABRE Constituer un corpus de textes de spcialit

    55

    BIBLIOGRAPHIE

    Beaugrande, R. de, Dressler, W. (1997) Introduccin a la lingstica del texto.

    Barcelona, Ariel.

    Cabr, M.T. (1998) VariacI pel tema. El discurs especialitzat o la variaci funcional

    determinada per la temtica : noves perspectives. En : Caplletra, Revista

    Internacional de Filologa, Tardor, 1998, pp. 137-194.

    Cajolet-Laganire, H., N. Maillet (1995) Caractrisation des textes techniques

    qubcois , Prsence francophone 47, pp. 113-147.

    Ciapuscio, G. (2003) Textos especializados y terminologa. Barcelona, IULA.

    Coulon, R. (1972) French as it is written by French sociologists , Bulletin

    pdagogique des IUT18, p. 11-25.

    Harris, Z. (1952) Discourse Analysis, Language, 28, 1-30, p. 474-494.

    Hoffmann, L. (1976) Kommunikationsmittel Fachsprache Eine Einfhrung, Berlin,

    Sammlung Akademie Verlag.

    Kocourek, R. (1991) La langue franaise de la technique et de la science. Vers une

    linguistique de la langue savante. Wiesbaden, Oscar Branstetter.

    LHomme, M.C. (1993) Contribution lanalyse grammaticale de la langue de

    spcialit : le mode, le temps et la personne du verbe dans quelques

    textes,scientifiques crits vocation pdagogique. Qubec, Universit Laval.

    LHomme, M.C. (1995) Formes verbales de temps et texte scientifique , Le langage

    et lhomme, 31(2-3), p. 107-123.

    Lauffler-Laurian, A.M. (1983) Typologie des discours scientifiques : deux approches,

    tudes de Linguistique Applique, 51.

    Lauffler-Laurian, A.M. (1984) Vulgarisation scientifique : formulation, reformulation,

    traduction, Langue Franaise, 64, p. 109-125.

    Opitz, K. (1980) Language for Special Purposes. An intractable presence,

    Fachsprache 2(2), p. 21-27.

    Sager, J.C., Dungworth,D. (1980) English Special Languages. Wiesbaden, Oscar Brandstetter Verlag.

  • Cahier du CIEL 2007-2008

    56

    ANNEXE : THESES ET MEMOIRES

    Les thses et mmoires suivants ont t raliss en exploitant les donnes du corpus :

    Araceli Alonso : Descripcin y anlisis de los sufijos nominalizadores en el rea del medio ambiente / Description et analyse des suffixes de nominalisation dans le domaine de lenvironnement

    Rosanna Folguer : Adjectius en el discurs especialitzat : una primera descripci deis adjectius en els textos del genoma hum / Adjectifs en discours spcialis : une premire description des adjectifs dans les textes sur le gnome humain

    Vanesa Vidal : Aproximacin al fenmeno de la combinatoria verbo-nominal en el discurso especializado en Genoma Humano / Une approche du phnomne de la combinaison verbe-nom dans le discours spcialis sur le gnome humain

    Gabriel Quiroz : Las unidades sintagmticas extensas especializadas en ingls y en espaol : descripcin y clasificacin en un corpus de genoma / Les units syntagmatiques dveloppes spcialises en anglais et en espagnol : description et

    classification dans un corpus de gnomique

    John Jairo Giraldo : Anlisis y descripcin de las siglas en el discurso especializado de Genoma humano y Medio ambiente / Analyse et description des sigles en discours spcialiss du gnome humain et en environnement

    Iria de Cunha : Hacia un modelo lingstico de resumen automtico de artculos mdicos en espaol / Vers un modle linguistique du rsum automatique des articles de mdecine en espagnol

    Rogelio Nazar : Aproximacin cuantitativa al mapeo conceptual / Approche quantitative de la carte conceptuelle

    Carles Teb : La representaci conceptual en terminologia : l'atribuci temtica en els bancs de dades terminolgiques / La reprsentation conceptuelle en terminologie : lattribution de domaine dans les banques de donnes

    terminologiques.

    Ricardo Guantiva : Terminologa y variacin vertical : clasificacin de textos en niveles de especializacin a partir del anlisis del tipo y la densidad de las unidades terminolgicas / Terminologie et variation verticale : classification de textes en niveaux de spcialisation partir danalyses de type et la densit dunits

    terminologiques.

    Ona Domnech : Textos especialitzats i variaci vertical : la diversitat terminolgica com a factor discriminant del nivell d'especialitzaci d'un text / Textes spcialiss et variation verticale : la diversit terminologique comme facteur discriminant du

    niveau de spcialisation dun texte.