77
1 INSTITUT SUPÉRIEUR DE TRADUCTEURS ET INTERPRÈTES Haute École de Bruxelles 34, rue J. Hazard 1180 Bruxelles TERMINOTIQUE Prof. M. Van Campenhoudt 2 e maîtrise en traduction option « traduction et industries de la langue » Année XXXX Les textes des polycopiés sont édités sous la responsabilité de leur auteur

INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

  • Upload
    doquynh

  • View
    220

  • Download
    1

Embed Size (px)

Citation preview

Page 1: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

1

INSTITUT SUPÉRIEUR DE TRADUCTEURS ET INTERPRÈTES

Haute École de Bruxelles

34, rue J. Hazard1180 Bruxelles

TERMINOTIQUE

Prof. M. Van Campenhoudt2e maîtrise en traduction

option « traduction et industries de la langue »Année XXXX

Les textes des polycopiés sont édités sous la responsabilité de leur auteur

Page 2: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

2

© Marc Van Campenhoudt, ISTI-HEB, 2012

1re édition EN COURS DE RÉDACTION

Tous droits de reproduction réservés

Page 3: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

3

INTRODUCTION

Quel que soit le domaine de spécialité, traduire d’une langue dans une autre implique de disposer d’une terminologie commune et cohérente, permettant de communiquer sans contresens. À cette fin, le terminologue est chargé de trouver, décrire et définir les termes français et étrangers relevant des domaines techno-scientifiques. Une fois validé par des experts du domaine, le résultat de ses recherches est enregistré dans une base de données terminologique, sous la forme de fiches structurées. Le contenu de cette base de données est présenté dans un format normalisé, directement exploitable dans les outils informatiques d'aide à la traduction. Ceci permet au traducteur d’éviter la multiplication de longues recherches individuelles, tout en augmentant la cohérence des textes traduits1.

Bien plus qu’un appendice au cursus académique, la terminologie est donc une discipline étroitement liée à la traduction spécialisée, enseignée dans toutes les bonnes écoles de traduction. Il est prévisible que son apport, à haute valeur humaine ajoutée, ne cessera de se renforcer avec les avancées technologiques attendues en matière de traduction assistée par ordinateur (TAO). Peu nombreux à l’heure actuelle, les traducteurs-terminologues correctement formés sont très appréciés sur le marché, particulièrement s'ils ont suivi l'option « Traduction et industries de la langue ».

Ce cours a pour objectif de former les étudiants à la conception de données terminologiques multilingues utiles au traducteur et disponibles sous format électronique. On souhaite amener l'étudiant à concevoir des glossaires spécialisés conformes aux exigences de l'ingénierie linguistique et qui, rompant avec une longue habitude de compilation, rendent compte de l'usage réel observé dans les textes spécialisés.

1. En amont du travail de traduction, les rédacteurs de textes spécialisés (juridiques, scientifiques, techniques) peuvent également veiller à la précision de leurs textes en consultant des bases de données de référence.

Page 4: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

4

Le cours s'appuie largement sur les acquis des cours de Linguistique française II (LFEII), portant sur la lexicologie et sur la sémantique, sur le cours de Linguistique française III (LFEIII), consacré aux langues spécialisées et sur les différents cours d'informatique dispensés à partir de la troisième année du baccalauréat. La matière étudiée nous amène souvent au cœur de la problématique de la TAO. Elle doit être pensée en dialogue avec les autres cours dispensés au sein de l'option « traduction et industries de la langue ». Les passerelles entre les matières sont nombreuses et constituent autant d'objets de réflexion et de recherche susceptibles de nourrir la problématique du mémoire de fin d'études.

Tenant compte des acquis fondamentaux de la lexicologie, de la sémantique et de l'ingénierie linguistique, ce cours de terminotique propose un cadre théorique stable qui tient compte des acquis les plus récents de la discipline. La perspective adoptée est celle d'une approche descriptive des vocabulaires spécialisés, fondée sur l'usage réel et respectueuse de l'absence d'isomorphisme entre les langues. Elle s'inscrit clairement dans le cadre de la linguistique descriptive et privilégie l'exploitation informatique de corpus textuels multilingues.

Les connaissances dispensées dans le cadre du cours de terminotique se nourrissent de l'acquis de vingt années de réflexion théorique et de recherches appliquées menées au sein du Centre de recherche Termisti (www.termisti.org), en dialogue avec des chercheurs de nombreuses universités étrangères. De nombreux exemples seront tirés des matériaux linguistiques que le centre a eu à traiter au cours de son existence, particulièrement des données relatives au domaine maritime, dans lequel nous avons acquis une expérience particulière. Le Centre de recherche Termisti offre aux étudiants un soutien didactique dans le cadre de ce cours et peut leur proposer divers projets de stage et de mémoire, souvent à l'interface de la terminotique et de la localisation.

Le mot terminologie est polysémique. Selon le Nouveau Petit Robert (2007), il désigne un « Vocabulaire particulier utilisé dans un domaine de la connaissance ou un domaine professionnel; ensemble structuré de termes », mais aussi l' « Étude systématique des "termes" ou mots et syntagmes spéciaux servant à dénommer classes d'objets et concepts (→ lexicographie) » et les « principes généraux qui président à cette étude ». L'usage dans le cadre dans les bureaux de traduction, largement reflété par les logiciels de traduction assistée par ordinateur (TAO) tend toutefois à qualifier de « terminologie » toute liste de mots à traduire. Cette extension de sens introduit une confusion regrettable, à la source de nombreuses lacunes méthodologiques susceptibles de nuire à la qualité de la traduction.

Par souci de clarté, nous utiliserons le mot terminographie pour désigner toute activité rédactionnelle de production, de description et de traduction d'unités lexicales spécialisées.

La terminotique est, elle, une discipline appliquée relevant de l'ingénierie linguistique. Elle a pour objet de faciliter l'activité terminographique aussi bien que la recherche terminologique. Elle couvre un ensemble de matières différentes qui seront toutes examinées dans le cadre de ce cours :

- la constitution de vastes corpus de textes spécialisés, multilingues et exploitables par l'ingénierie

linguistique ;

- la recherche systématique de termes spécialisés et de collocations dans un tel corpus ;

- la recherche de connaissances, particulièrement de relations sémantiques, de synonymes et

d'équivalents dans un tel corpus ;

- la modélisation intelligente d'un dictionnaire électronique multilingue, interfaçable avec d'autres

outils de TAO et indépendant d'une suite logicielle particulière ;

- l'engrangement de données terminographiques dans un tel dictionnaire ;

- l'échange de données textuelles ou terminographiques dans des formats XML normalisés.

Page 5: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

5

Dans la suite du cours, nous allons aborder tour à tour les différentes étapes d'un travail de constitution et d'alimentation d'une base de données terminologique. L'appellation étape ne doit pas cacher les inévitables et indispensables mouvements d'aller et retour qui caractérisent toute recherche originale.

1. Recherche documentaire : état des lieux, identification des besoins et des sources principales d'information, recherche d'experts du domaine.

2. Constitution d'un corpus de textes spécialisés pertinents et disponibles sous format électronique.

3. Exploitation systématique de ce corpus pour identifier les termes et recueillir un maximum de données linguistiques à leur propos : synonymes, équivalents, relations sémantiques, contextes d'attestation, collocations, marques d'usage...

4. Élaboration d'un modèle de données apte à décrire au mieux la terminologie du domaine, tout en répondant aux besoins spécifiques des utilisateurs.

5. Engrangement des données dans la base de données terminologiques.

Avant d'aborder ces différents points, nous nous proposons de brosser un tableau de l'activité terminologique telle qu'elle se pratique habituellement dans nos contrées et de fournir une initiation succincte au langage de balisage XML, devenu absolument incontournable

Page 6: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

6

1 L'ACTIVITÉ TERMINOLOGIQUE

L'activité terminologique est multiforme et il est difficile de prétendre en cerner tous les contours. Nous n'envisagerons ici que les activités multilingues, s'agissant avant tout de former de futurs traducteurs. Comme déjà expliqué dans le cours de LFEIII, les dictionnaires monolingues – imprimés ou électroniques – sont souvent des encyclopédies et parfois des lexicographies spécialisées. Les bases de données monolingues sont, quant à elle, le plus fréquemment créées dans un but de normalisation ou d'harmonisation.

1.1 Production terminographique

On décrit les vocabulaires spécialisés depuis des temps très reculés. À titre d'exemple, le plus ancien dictionnaire de marine en langue française, l'Explication des termes de marine employez dans les edicts, ordonnances et reglemens de l'Admirauté, d'Estienne Cleirac, date de 1636, mais on trouve déjà des répertoires de termes traduits dès le Moyen Âge. Christiane Villain Gandossi (1999 : 27), cite ainsi un glossaire du 10e siècle rédigé en latin et en anglo-saxon. En permanence, depuis parfois des siècles, chaque discipline produit son lot de lexiques, glossaires, dictionnaires2 et, même aujourd'hui, il est quasiment impossible de produire un inventaire systématique des publications. Ceci, sans compter les innombrables pages sur Internet consacrées aux vocabulaires spécialisés. Sur le papier comme sur la toile, le meilleur côtoie le pire.

Dans le cours de LFEIII, nous avons déjà introduit la différence entre les approches lexicographiques et terminographiques. Nombre de dictionnaires spécialisés ou de bases de données dites terminologiques se situent à la frontière des deux approches et se caractérisent par des

2. Pour une définition de ces notions, voir XXX.

Page 7: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

7

méthodologies discutables, sinon des objectifs ambigus. Nous y reviendrons au point XXX, consacré à la modélisation des données.

Une production terminographique institutionnelle existe en parallèle depuis longtemps déjà :

- ministères, organismes para-étatiques ;

- organisations internationales ;

- organisations sectorielles.Cette production peut-être liée aux nécessités de la traduction, à un souci de clarification des usages, à une mission de vulgarisation, à une volonté de normalisation, à une mission d'aménagement linguistique, etc. Dans de nombreux cas de figure, cette activité terminographique institutionnelle adopte une démarche qualifiée de systématique. Elle se distingue de la démarche du traducteur soigneux, qui veille à conserver en mémoire, dans une base de données locale, éventuellement partagée au sein d'un bureau de traduction ou d'un réseau de traducteurs, tous les problèmes de terminologie auxquels il est confronté au jour le jour. Dans ce cas, on parle de terminologie ponctuelle.

La production de dictionnaires imprimés était encore fréquente voici dix ans. Pour le domaine maritime, on citera, par exemple, le Dictionnaire international de signalisation maritime de l'Association internationale de signalisation maritime (1988), le Multilingual dictionary of fishing vessels and safety on board de la Commission européenne (1992) ou encore le Dictionnaire hydrographique de l'Organisation hydrographique internationale (1995). Aujourd'hui, elle se fait plus rare, Internet offrant des moyens de diffusion beaucoup plus puissant et moins onéreux. Le Centre de rechercher Termisti a ainsi été l'une des chevilles ouvrières de l'informatisation du Dictionnaire hydrographique dans le cadre du projet européen DHYDRO3. Ce projet, dont nous aurons à citer fréquemment les acquis scientifiques et méthodologiques, est exemplaire de ce que permet une bonne modélisation des données lexicales susceptible de déboucher sur une grande diversité de produits dictionnairiques. De nos jours, en effet, au départ d'une même base de données lexicale, il est possible de générer une très grande diversité de dictionnaires différents : encyclopédie, lexicographie monolingue, terminographie multilingue, dictionnaire de correcteur orthographique ou de saisie de SMS, tant sur support imprimé que sur écran digital.

On trouvera dans la page Infoport de la terminologie du Centre de recherche Termisti4, de nombreux liens vers les bases de données terminologiques produites par des organismes officiels. Nous conseillons vivement de prendre le temps de consulter chacune de ces bases et d'y effectuer une recherche de termes. En les consultant et en les comparant, on peut constater une grande diversité des pratiques terminographiques, parmi lesquelles on pourra principalement distinguer les finalités décrites ci-dessous.

- Thésaurus : Il s'agit normalement de créer un langage documentaire permettant d'indexer et de

classer des documents. Sans être définis, les descripteurs normalisés y sont hiérarchisés en

fonction de relations sémantiques élémentaires : hiérarchie (terme générique, terme spécifique),

équivalence (terme équivalent, synonyme) et association (terme associé). Exemples : Agrovoc,

Eurovoc, Mesh.

- Ontologies de domaine ou d'application : « Une ontologie est une conceptualisation d’un

domaine – c’est-à-dire une définition formelle des concepts et de leurs relations – décrivant une

réalité partagée par une communauté de pratique. » (Roche, à paraître). L’approche est

fondamentalement onomasiologique : « L'"ontoterminologie" relève de l’extralinguistique. Elle a

pour principale finalité la représentation formelle d’une conceptualisation et la recherche de mots

« justes » pour en parler. » (op. cit.). Les ontoterminologies sont constituées de grandes 3. www.loria.fr/projets/MLIS/DHYDRO.

4. www.termisti.org/infof.htm.

Page 8: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

8

arborescences établissant des relations sémantiques entre des concepts. Elles sont souvent

développées à des fins internes et on n'en trouve guère d'exemples sur la toile. Elles sont

généralement créées au sein d'organismes privés ou publics à des fins de représentation de la

connaissance, pour servir de « référentiel d'entreprises ». Ainsi, telle grosse société multinationale

voudra hiérarchiser et unir par des relations sémantiques explicites l'ensemble des postes, des

services et des fonctions, et ce dans plusieurs langues. Exemple : les réalisations de la société

Ontologos5.

- Normalisation : Il s'agit de produire une terminologie normalisée et de veiller à son usage au sein

d'une même communauté d'utilisateurs. L'objectif est généralement de clarifier et d'harmoniser les

usages dans la communication en vue de garantir l'intercompréhension. Par exemple, la société

Microsoft veillera à ce que tous les développeurs et tous les localisateurs désignent

systématiquement de la même manière les mêmes fonctionnalités relevant de son système

d'exploitation Windows : bureau, presse-papier, corbeille, calculatrice... La normalisation peut

également être effectuée à des fins traductives : on gomme les différences culturelles en obligeant

les spécialistes de telle ou telle langue à appréhender le monde de la même manière. Ici aussi, la

démarche est onomasiologique : on structure l'univers extralinguistique et on désigne les concepts

qui le composent en imposant des termes ad hoc, comme on « collerait » des étiquettes sur des

objets. Par exemple : les définitions juridiques fournies au début d'un texte de loi, ou les

terminologies normatives de l'Iso (p.ex. la norme ISO 5968 : Filières rondes de filetage --

Nomenclature et terminologie).

- Description de l'usage : Dans la tradition de la linguistique descriptive, on veille à rendre compte

de la diversité des usages observés dans un corpus de textes spécialisés retenus comme

pertinents (cf. XXX). La garantie de l'usage par les spécialistes est apportée par la reproduction

de contextes d'attestations accompagnés de références bibliographiques complètes. On trouve

malheureusement très peu de bases de ce type, en dehors des travaux de fin d'études

universitaires. La nouvelle direction prise par la base de données terminologique de la

Communauté française de Belgique, qui intégrera à l'avenir des contextes d'attestation est, à cet

égard, prometteuse6.

- Aménagement linguistique : Agissant au service d'un choix politique de favoriser une langue, on

tente d'en faire évoluer le lexique spécialisé dans un but d'enrichissement (langue jugée trop

déficitaire), de lutte contre l'influence d'un adstrat (langue jugée trop emprunteuse) ou

d'harmonisation (langue soumise à une importante variation). Le développement d'une base de

données terminologique permet d'assurer une bonne implantation des termes proposés. Parmi les

organismes menant des politiques d'aménagement linguistique, on citera le centre de terminologie

Termcat de la Generalitat de Catalunya (Cercaterm), l'Office québécois de la langue française

(Grand dictionnaire terminologique), la Délégation générale à la langue de France (France Terme)

ou encore le Service de la langue française de la Communauté française de Belgique

(Terminobanque).

- Vulgarisation de l'usage et des connaissances : Soucieux de bien communiquer, de nombreux

organismes privés ou publics veillent à clarifier le vocabulaire qu'ils utilisent en diffusant des

glossaires, généralement monolingues, qui demeurent souvent de taille modeste et ont une visée

essentiellement définitoire. On citera, par exemple, la page « Lexique » de la BNP Paribas7. Dans

d'autres cas, il s'agira de mettre à disposition du public de véritables dictionnaires spécialisés,

avec souvent une tendance à l'encyclopédisme. P. ex Le Dictionnaire hydrographique de

l'Organisation hydrographique internationale.

- Traduction : Comme pour le dictionnaire imprimé (cf. LFEIII), il convient de distinguer les bases

5. www.ontologos-corp.com.

6. Voir, par exemple, la récente terminologie de l'audit et de la qualité : www.xxx.xx

7. invest.bnpparibas.com/fr/lexique.

Page 9: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

9

de données dans lesquelles une langue domine et où des équivalents sont donnés plus ou moins

systématiquement à des fins de thèmes (p. ex. les dictionnaires spécialisés du Conseil

international de la langue française) et celles dont le but principal est d'aider le traducteur

professionnel (p.ex., la base de données interinstitutionnelle Iate de l'Union européenne). Ce

dernier type de base de données retiendra principalement notre attention et l'un des objectifs de

ce cours est de permettre au futur diplômé de vérifier si telle ou telle base de données censément

traductive est à même de répondre de manière fiable aux besoins de ses utilisateurs.

- Base de connaissances : Une base de connaissances terminologique se veut une base de

données où les relations sémantiques entre les concepts sont systématiquement décrites, au

moins sous la forme d'une ontologie, voire où l'information terminologique peut être vérifiée en

accédant directement à un corpus de textes spécialisés. Il n'existe pas de véritables banques de

ce type au-delà de prototypes ponctuels réalisés par des centres de recherche. On citera, comme

exemple, le projet Cogniterm mené à l'Université d'Ottawa au début des années 90. Les avancées

vers le web sémantique et la prise en compte des problématiques terminologiques par les

concepteurs du langage OWL8, destinés à rendre compte des ontologies, apportent néanmoins de

nouvelles perspectives (cf. le logiciel Protégé).Certaines de ces orientations s'opposent (description de l'usage et normalisation), alors que

d'autres se combinent aisément (p.ex. ontologie et thésaurus, traduction et description de l'usage, aménagement et normalisation). Par ailleurs, du fait de cette combinatoire, il est rare que deux bases de données présentent exactement les mêmes profils. Dans la suite de ce cours, le type de base de données idéal que nous privilégierons pour un service de traduction sera une base de connaissances terminologique multilingue fondée sur la description de l'usage. Nous la concevrons dans une perspective systématique, jugeant que l'investissement dans une base de données fiable constitue une garantie de qualité qui devrait être mise en avant par les services de traduction.

Au-delà des grandes distinctions établies ci-dessus, qui relèvent sinon d'une philosophie générale différente, en tout cas d'objectifs distincts clairement précisés, on peut également classer les bases de données en fonction de critères plus binaires, étant entendu que l'on oppose ici deux pôles d'un continuum, chaque base pouvant se rapprocher plus ou moins de l'un deux.

- Terminographie – lexicographie : Les différences séparant ces deux approches ont été décrites

dans le cours de LFEIII. Rappelons qu'en lexicographie, on adopte une approche polysémique,

les synonymes étant éclatés dans l'ordre alphabétique et les termes complexes étant

généralement traités sous l'entrée de leur base. En terminographie, par contre, on privilégie la

monosémie – donc un dégroupement en autant d'homonymes que de sens différents – ainsi qu'un

regroupement des synonymes et on octroie une entrée à chaque syntagme ; en outre, un

classement systématique est parfois pratiqué. Chaque dictionnaire, chaque base de données peut

panacher ces différents aspects.

- Généraliste – spécialisé : L'ambition peut être de couvrir l'ensemble des langues de spécialité

(p. ex. Grand dictionnaire terminologique, Iate, Termium) ou de se cantonner à un domaine de

compétence, lié à un secteur d'activité relativement large (p. ex. FAOterm, Iloterm) ou beaucoup

plus restreint (p. ex. Silvaterm, Termite).

- Papier reproduit à l'écran – vraie base de données : Il n'est pas rare que l'information produite

à l'écran colle littéralement à la mise en page d'une version imprimée. Dans de nombreux cas,

cela traduit une informatisation mal pensée, prisonnière de la tradition lexicographique et limitant

le potentiel d'applications en ingénierie linguistique. Même des produits réputés

« terminographiques », peuvent introduire une polysémie porteuse d'ambiguïtés pour le choix des

équivalents (p. ex. l'ancienne base Eurodicautom ou nombre de bases de données réalisées avec

les anciennes versions du logiciel Multiterm). Des exceptions existent : l'informatisation des

8. OWL = XXX

Page 10: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

10

données du Dictionnaire hydrographique dans le cadre du projet européen DHYDRO permet de

multiplier les formes de représentation du dictionnaire, en aval d'un modèle de données bien

pensé (cf. XXX).

- Dictionnaire – encyclopédie : L'encyclopédie, dictionnaire de choses, s'intéresse davantage aux

savoirs. Comme expliqué dans le cours de LFEIII, les dictionnaires spécialisés monolingues

suivent souvent cette perspective, ayant pour objectif principal de répondre aux questions d'un

public d'une langue déterminée (dictionnaire de médecine, de marine, d'informatique...). Le

dictionnaire de langue, engrangeant, à la manière du Nouveau Petit Robert ou du Trésor de la

langue française, des connaissances lexicales sur la langue spécialisée, est exceptionnel. Dans le

meilleur des cas, on a affaire à un dictionnaire qui tout en suivant une approche lexicographique,

présente des définitions hyperspécifiques ou des développements encyclopédiques (Dictionnaire

hydrographique, dictionnaires du CILF). Sur la toile, ces caractéristiques se retrouvent surtout

dans des ouvrages imprimés transposés à l'écran (cf. point précédent).

- Privé – public : Une terminographie peut-être réalisée par un organisme public (ministère,

organisme para-étatique, institution de recherche, institution internationale...) ou être le fruit d'une

initiative privée (auteur indépendant, organisation sectorielle, entreprise privée...). Ce caractère

public ou privé ne concerne pas que les initiateurs du projet. La terminographie peut,

effectivement faire l'objet d'une diffusion restreinte (limitée à l'ensemble du personnel, à un service

particulier, étendue aux sous-traitants...) ou beaucoup plus large (payante ou gratuite).

- Collaboratif – auteur individuel : Les grandes bases de données sont le plus souvent le fruit

d'un travail collaboratif de longue haleine, réparti sur de longues années. Cela pose, bien entendu

de lourds problèmes de rigueur méthodologique, d'enrichissement et de mise à jour qui finissent

par grever la qualité de l'ensemble. Dans certains cas, de larges pans de la base sont même

réalisés par des sous-traitants aux contours mal définis : l'utilisateur final est alors abusé par la

garantie que semble donner le nom du donneur d'ordre, en absence de traçabilité des auteurs de

chaque fiche individuelle. Une base de données collaborative devient vite un fouillis inexploitable

si les fiches ne passent pas par le filtre d'une validation officielle par un comité ad hoc (voir par

exemple l'architecture administrative de la base de données DHYDRO). Le travail d'un auteur

solitaire n'offre pas nécessairement de meilleures garanties : entre le spécialiste réalisant avec

plus ou moins de soin un dictionnaire encyclopédique monolingue et le traducteur publiant un

modeste lexique bilingue réalisé par simple compilation (cf. point suivant), toutes les situations

sont envisageables.

- Compilation – travail original : Beaucoup de terminographies sont le fruit d'un simple travail de

compilation, ce qui pose le grave problème de la fiabilité des équivalents proposés au traducteur

pressé. On ose à peine évoquer ici les déversements « sauvages » de dictionnaires hétéroclites

dans des grandes bases d'accumulation comme Eurodicautom (fusionnée dans Iate après une

tentative de « nettoyage »). Une introduction méthodologique, l'identification des collaborateurs

(cf. point précédent) et la systématicité des descriptions (définition, contextes, sources, marques

d'usage...) constituent généralement les preuves tangibles d'un travail original.

- Glossaire – lexique : Les sources de référence (ISO 1087-1 : 2000, Boutin-Quesnel et al. 1985,

Bessé et al. 1997), définissent de manière contradictoire les notions de glossaire, de lexique voire

de vocabulaire. Nous nous proposons de distinguer le glossaire, produit qui fournit une

information terminologique digne de ce nom (définitions, contextes, sources...), du lexique, simple

liste de termes. Il n'est pas rare qu'une terminographie imprimée ou en ligne fournisse un

glossaire dans une langue et un simple lexique dans les autres langues (cf. point suivant).

- Thème – version : Les terminographies permettant une inversion des couples langue source –

langue cible sont très rares. Souvent une langue domine nettement : celle dans laquelle sont

fournies les informations sémantiques et lexicales et qui sert au tri alphabétique des entrées. De

tels ouvrages sont destinés au locuteur de cette langue principale et, en général, l'auteur n'a

Page 11: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

11

effectué aucun travail d'étude systématique des textes spécialisés en langue étrangère : les

équivalents ne sont fournis qu'accessoirement, à des fins de thème. Même dans les simples

lexiques, une observation attentive conduit à remarquer qu'une langue domine les autres : elle

figure en première colonne et elle compte le plus de termes du fait de la présence de synonymes

et d'homonymes nés de la recherche d'équivalents (cf. XXX). C'est le signe que l'ouvrage est

fondé sur la connaissance du domaine spécialisé au travers d'une langue particulière : la langue

source à laquelle l'auteur – traducteur et terminographe – est généralement confronté. Cet

ouvrage ne permet qu'un seul sens de traduction, vers la langue maternelle du traducteur.

- Monolingue – multilingue : Dans le polycopié de LFEIII, nous avons montré qu'une

terminographie monolingue est le plus souvent un dictionnaire encyclopédique et que la diversité

et la qualité de l'information linguistique décroît à mesure qu'augmente le nombre de langues

prises en compte. Un travail multilingue permettant une inversion des langues source et cible

suppose, au minimum, un coauteur par langue et donc un difficile travail coopératif. Chaque

coauteur doit veiller à ce que l'ensemble des termes attestés dans l'usage réel de sa langue

soient pris en compte, décrits et traduits. En outre, il doit aussi tenir compte des nombreux cas où

la réalité du domaine n'est pas appréhendée de la même manière dans les autres langues. Les

grandes difficultés que pose le travail d'établissement des équivalences (cf. XXX) imposent que

les définitions soient parfaitement compatibles et requièrent donc une concertation permanente.

On développe aujourd'hui des plates-formes collaboratives censées aider les terminologues à

mener ce type de travail (cf. l'expérience fondatrice du projet européen DHYDRO en 1998-2000).

1.2 Organisation de la terminologie

Diverses initiatives ont été prises pour organiser le « monde de la terminologie », qu'il s'agisse de produire des données terminographiques ou de coordonner des activités de recherche et de formation universitaires. Le relevé proposé ici est loin d'être exhaustif, s'agissant, pour l'essentiel, de donner une information brève à propos des acteurs que nous identifions comme majeurs9.

1.2.1 PRATIQUE DE LA TERMINOGRAPHIE

L'ORGANISATION INTERNATIONALE DE NORMALISATION

L'Organisation internationale de normalisation (ISO, Genève) a de très longue date manifesté un intérêt soutenu pour la terminologie sous l'influence d'un personnage souvent qualifié de « père fondateur » de la discipline, l'ingénieur allemand Eugen Wüster (cf. XXX). Les travaux du comité technique 37 de l'ISO, « Terminologie et autres ressources langagières et ressources de contenu », en charge de la terminologie, ont été longtemps marqués par la vision normative et conceptualisante de Wüster et de ses héritiers spirituels de l'école dite « de Vienne ». Ils s'en affranchissent très progressivement depuis une décennie, s'ouvrant avec précaution aux acquis de la recherche scientifique.

Un relevé des principales normes de l'ISO est fourni dans la bibliographie du cours. Il importe de préciser que ces normes n'ont pas force de loi. Elles expriment un point de vue consensuel des membres du comité technique 37. À ce titre, elles ne rendent pas compte des divergences parfois profondes entre les différentes écoles ou tardent à prendre en compte les évolutions les plus récentes. Conçues pour répondre aux besoins de l'industrie, les normes de l'ISO constituent toutefois des points

9. Des liens vers les sites de ces institutions sont fournis dans notre « Infoport de la terminologie » : http://www.termisti.org/infof.htm.

Page 12: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

12

de repère stables, utiles aux professionnels qui souhaitent pratiquer la terminographie dans de bonnes conditions de réussite.

À ce propos, soulignons ici que l'ISO produit des normes, mais ne certifie pas qu'elles ont bien mises en oeuvre par telle ou telle entreprise ou que leur respect est garanti par l'usage de tel ou tel produit terminotique. La certification éventuelle est établie par des sociétés marchandes en échange d'une rémunération et au terme d'un examen plus ou moins approfondi...

JOINT INTER-AGENCY MEETING ON COMPUTER-ASSISTED TRANSLATION AND TERMINOLOGY

Le groupe JIAMCATT (Joint Inter-Agency Meeting on Computer-Assisted Translation and Terminology ou Réunion interinstitutions sur la terminologie et la traduction assistée par ordinateur) « vise à renforcer les échanges entre les services linguistiques des organisations internationales et des organismes nationaux en vue de promouvoir la mise en commun des données terminologiques des partenaires sur un support informatique accessible à tous.10 » L'accès à l'espace d'échange de données de JIAMCATT est réservé aux membres, parmi lesquels on retrouve, notamment, les services de traduction des grands organismes rattachés à l'Organisation des Nations unies.

THE LOCALIZATION INDUSTRY STANDARDS ASSOCIATION

La Localization Industry Standards Association (LISA), dissoute en 2011, regroupait nombre d'acteurs majeurs du monde de la localisation : de grands bureaux de traduction, de grandes entreprises clientes, voire des écoles de traduction. Son groupe de travail OSCAR (Open Standards for Container/content Allowing Reuse), a proposé une norme d'échange de données terminographiques entre logiciels gestionnaires de terminologie, Term Base eXchange (TBX), devenue une norme ISO de référence (ISO 30 042). Une version plus légère, TBX Basic est également disponible11. Nous y reviendrons dans le cadre des formats d'échange XML (cf. XXX).

THE OPEN LEXICON INTERCHANGE FORMAT

Le consortium OLIF (Open Lexicon Interchange Format) regroupe le même type d'acteurs pour proposer une norme d'échange portant sur des données davantage orientées vers une pratique lexicographique adaptée aux besoins du monde de la traduction automatique. La norme OLIF utilise, elle aussi, le standard XML.

1.2.2 RECHERCHE ET FORMATION EN TERMINOLOGIE

Différents réseaux fédèrent les personnes et institutions actives dans le domaine de la terminologie. Beaucoup de ces réseaux sont surtout fréquentés par des chercheurs universitaires, même si, dans leurs statuts, ils ont la prétention d'oeuvrer dans un cadre beaucoup plus large au développement de la discipline.

- Association européenne de lexicographie (EURALEX)

- Association européenne de terminologie (A.E.T.)

10. http://jiamcatt.unsystem.org/english/jiamcate.htm.

11. Officiellement, le successeur de LISA est l'European Telecommunications Standards Institute (www.etsi.org/website/newsandevents/2011_07_isg_lis.aspx). Ses normes peuvent être téléchargées depuis le site de la Globalization and Localization Association (www.gala-global.org/lisa-oscar-standards).

Page 13: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

13

- Association européenne pour les ressources linguistiques (ELRA)

- Deutscher Terminologie-Tag e.V. (DTT)

- International Information Centre for Terminology (INFOTERM) ;

- International Network for Terminology (TERMNET)

- NORDTERM

- Réseau ibéro-américain de terminologie (RITERM)

- Réseau international francophone d'aménagement linguistique (RIFAL)

- Réseau panlatin de terminologie (REALITER)

- Réseau thématique Lexicologie, terminologie et traduction (L.T.T.), de l’AUF

- Société française de terminologie (S.F.T.)

- etc.

1.2.3 DIFFUSION DE L'INFORMATION

On trouve sur Internet des portails dédiés à la terminologie, comme Terminometro, Fiterm, Terminology Forum ou encore notre Infoport de la terminologie, ainsi que des listes de distribution, comme Termilat ou Term List.

Des revues scientifiques sont spécialement dédiées à la recherche en terminologie, d'autres abordant des problématiques plus larges, comme la traduction ou l'aménagement linguistique, publient fréquemment des articles consacrés à la terminologie.

- Cahiers du Rifal (anciennement Terminologies nouvelles), Bruxelles, Agence de la Francophonie

et Communauté française de Belgique, annuel (revue du Réseau international de néologie et de

terminologie) ;

- International Journal of Lexicography, Oxford, Oxford University Press, trimestriel ;

- La banque des mots, Paris, CILF, semestriel ;

- L'Actualité langagière (anciennement L'Actualité terminologique), Travaux publics et Services

gouvernementaux, Ottawa, trimestriel ;

- Meta, journal des traducteurs = Meta, Translators' Journal, Montréal, Les presses de l'Université

de Montréal, trimestriel ;

- Revue d'aménagement linguistique (anciennement Terminogramme, bulletin d'information

terminologique et linguistique, Québec, Office québécois de la langue française, bisannuel ;

- Terminology. International Journal of Theoretical and Applied Issues in Specialized

Communication, Amsterdam et Philadelphia, John Benjamins Publishing Company, annuel.On notera également les bulletins de liaison qu'éditent certains des organismes déjà cités,

comme par exemple Termnet News (TERMNET) ou La lettre de la Société française de terminologie.

Page 14: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

14

2 LE LANGAGE XML

2.1 Brève présentation de l'intérêt du langage XML

2.1.1 UN FORMAT UNIVERSEL ET NON PROPRIÉTAIRE

Le langage XML (eXtended Markup Language) est un standard du World Wide Web Consortium (W3C), son utilisation est libre de droits.

Un fichier XML est un fichier texte (son extension .xml peut être remplacée par .txt) dont la lecture ne nécessite aucun logiciel dédié. Comme Unicode constitue le format de codage par défaut pour les caractères, XML gère des documents multilingues quelles que soient les écritures utilisées.

2.1.2 QUELLE EST L'UTILITÉ DE XML ? REPRÉSENTER UN DOCUMENT STRUCTURÉ

Tout document textuel se caractérise par une structure et un contenu, que le langage XML permet de représenter au sein d'une structure arborescente. Par exemple, une tragédie classique en cinq actes peut être représentée comme suit :

TragédieActes

ScènesDidascaliePersonnage

Page 15: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

15

ParoleVers

Grâce aux balises XML, on peut aisément identifier du contenu au sein d'un texte, transformé en une forme de base de données. On pourra, par exemple, extraire très aisément dans le Britannicus de Racine les paroles du seul Néron.

Ne dépendant d'aucun format propriétaire, directement lisible, aisément interprétable par l'esprit humain, XML garantit une pérennité de l'archivage. Imprimé sur du papier de qualité et conservé dans de bonnes conditions, un document XML pourra être aisément scanné, renumérisé et exploité dans un millénaire.

Le langage de rédaction de feuilles de style XSL – qui ne sera pas étudié ici en tant que tel – permet d'envisager toutes sortes de métamorphose du fichier XML vers des formats très variés : HTML, DOC, RTF, PDF...

Toutes ces qualités font aujourd'hui de XML un outil très apprécié pour l'échange de données.

2.1.3 QUELLES SONT LES DIFFÉRENCES AVEC HTML ?

Le langage HTML (HyperText Markup Language), massivement utilisé dans les pages web sert à décrire une mise en page sur un écran d'ordinateur. À la différence de XML, HTML ne décrit pas le contenu du document et n'en décrit qu'une structure superficielle (titres, paragraphe, liste, tableau...). Les noms de balises HTML sont fixés et les tolérances syntaxiques sont nombreuses.

Exemple de codage HTML :

<tr valign="middle" bgcolor="#FFFDEC">

<td colspan="3">

<p><b>entrée : alarme de dérapage</b></p>

<p><b>grammaire : </b>s.f. </p>

<p><b>note d'usage : </b></p>

<dl>

<dt>

<p><b>contexte : </b>Quand les conditions d'alarme sont détectées, ces symboles apparaissent à l'écran,

[quelle que] soit la fonction sur laquelle est votre appareil. Quand les différents signaux sont allumés, la

signification des indicateurs est la suivante : ANC - Indique que l'alarme de veille mouillage a été activée.</p>

</dt>

<dd><font size="-2">

<p><b>source : </b>E.T.N.A. SE, sd-b : RAYSTAR 590 GPS NAVIGATOR, Octeville Sur Mer :

E.T.N.A.,p. 40</p></font> </dd>

</dl>

</td>

</tr>

Exemple de codage des mêmes données en XML :

<terme>

<entree_A.1>alarme de dérapage</entree_A.1>

<grammaire_A2.2>s.f.</grammaire_A2.2>

<attestation>

<contexte_A.5.3>Quand les conditions d'alarme sont détectées, ces symboles apparaissent à l'écran,

[quelle que] soit la fonction sur laquelle est votre appareil. Quand les différents signaux sont allumés, la

Page 16: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

16

signification des indicateurs est la suivante : ANC - Indique que l'alarme de veille mouillage a été

activée.</contexte_A.5.3>

<source_A10.19>E.T.N.A. SE, sd-b : RAYSTAR 590 GPS NAVIGATOR, Octeville Sur Mer : E.T.N.A. , p.

40

</source_A10.19>

</attestation>

</terme>

Dès aujourd'hui, un fichier XML accompagné de sa feuille de style XSL est immédiatement visualisé au format HTML lorsqu'il est affiché par un navigateur récent.

2.1.4 XML ET LA TRADUCTION ASSISTÉE PAR ORDINATEUR (TAO)

Les utilisations de standards XML tendent à se généraliser, qu'il s'agisse d'utiliser une suite bureautique (DOCX, ODF) , de rassembler un corpus de textes spécialisés (TEI, XCES), de gérer une bases de données lexicographique ou terminographique (TMF, TBX), de stocker des textes alignés (TMX), de traduire en localisation (XLIFF) ou en sous-titrage (SMIL).

2.2 Initiation au langage XML12

2.2.1 NOTION D’ÉLÉMENT

Élément = <balise_ouvrante>contenu</balise_fermante>

<animal>Tigre</animal>

Élément vide = <balise_ouvrante-fermante/>

<illustration fichier_image="tigre.jpg"/>

2.2.2 NOTION D’ATTRIBUT

Attribut = méta-donnée : information sur les données.

<balise_ouvrante attribut="valeur">contenu</balise_fermante>

<nom langue="francais">tigre</nom><nom langue="latin">panthera tigris</nom>

L'attribut figure dans une balise ouvrante ou ouvrante-fermante, jamais dans une balise fermante.

2.2.3 FORMATION DES NOMS DE BALISES ET D’ATTRIBUTS

Choix du nom arbitraire, mais si possible transparent.

Commencer par une lettre ou par souligné ( _ ) (à l’exclusion de tout autre signe).

12. Tous les points qui suivent sont directement inspirés de Castro (2001), auteur auquel nous avons emprunté ses excellents exemples.

Page 17: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

17

Utiliser : - des lettres de n’importe quel alphabet- des chiffres- souligné ( _ ), tiret ( - ) et point ( . )

Ne pas utiliser :- xml ou toute autre combinaison de ces trois lettres (xlm, lxm, lmx, etc.)- les autres signes de ponctuation (sauf : pour les espaces de noms)- les espaces blancs- les tabulations, les retours à la ligne...

La casse (majuscule vs minuscule) est pertinente.

2.2.4 CARACTÈRES RÉSERVÉS ET ENTITÉS

Cinq caractères sont réservés à XML. Si on a besoin de ces caractères, on doit les remplacer par un codage particulier nommé entité :

< à remplacer par &lt;> à remplacer par &gt;& à remplacer par &amp;" à remplacer par &quot;‘ à remplacer par &apos;

Il apparaîtra paradoxal de parler d’entité pour ces cas. En effet, de manière générale, on appelle entités des abréviations permettant de représenter un contenu plus long.

Dans un fichier XML, les entités prennent normalement la forme &abréviation; et leur forme est expliquée dans la DTD (cf. 2.5).

exemple :

&isti;

où isti = Institut supérieur de traducteurs et interprètes

2.2.5 INSÉRER DES COMMENTAIRES

< !-- insérer le commentaire entre ces deux séries de caractères -->

Permet de commenter le code.

exemple :

<?xml version="1.0" encoding="ISO-8859-1"?><espèces_menacées><animal><nom langue="Francais">Tigre</nom><nom langue="Latin">panthera tigris</nom><menace>braconnier</menace><poids>300 kilos</poids><!-- La balise source se réfère à l'article correspondant sur le site du World Wildlife Fund --><source idsection="120" idjournal="21" />

Page 18: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

18

<illustration fichier_image="tigre.jpg" x="200" y="197" /></animal></espèces_menacées>

Utile aussi pour neutraliser temporairement une partie du document.

Les doubles tirets ( -- ) ne peuvent pas être utilisés à l’intérieur du commentaire.

2.2.6 AFFICHER DES ÉLÉMENTS COMME UN SIMPLE TEXTE

< ![CDATA[ insérer le(s) élément(s) ]]>

exemple :

Dans le fichier XML :

<?xml version="1.0" encoding="ISO-8859-1"?><xml_livre>

<balises><aspect><![CDATA[<espèces_menacées><animal>

<nom langue="Francais">Tigre</nom><nom langue="Latin">panthera tigris</nom><menace>braconnier</menace><poids>&lt; 300 kilos</poids>

</animal></espèces_menacées>]]></aspect>

</balises></xml_livre>

Dans le navigateur :

Page 19: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

19

Affichage des éléments comme un simple texte dans Internet Explorer

2.2.7 VÉRIFIER SI LE FICHIER XML EST BIEN FORMÉ

Les noms des éléments et attributs doivent respecter les règles de formation.

Les espacements et tabulation ne sont pas pris en compte.

L’élément racine est obligatoire.

<?xml version="1.0" encoding="ISO-8859-1"?><espèces_menacées>

<animal>tigre</animal></espèces_menacées>

Les balises fermantes sont requises.

Les éléments doivent s’imbriquer ou se succéder et non se chevaucher.

bien formé : <animal><nom langue="Francais">tigre</nom><nom langue="Latin">panthera tigris</nom>

</animal>

Page 20: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

20

mal formé : <espèces_menacées><animal>Tigre</espèces_menacées>

</animal>

Le XML est sensible à la casse.

mal formé : <animal>Tigre</Animal>

2.2.8 DÉCLARATION XML

<?xml version="1.0" encoding="ISO-8859-1"?><?xml version="1.0" encoding="UTF-8"?>

2.2.9 INSTRUCTIONS DE TRAITEMENT : DÉCLARER UNE DTD (DÉFINITION DU TYPE DE DOCUMENT)

2.2.9.1 LA DTD INTERNE AU FICHIER XML

Utile en cas de document XML individuel ne partageant pas son modèle de données avec d’autres documents.

<!DOCTYPE nom de l’élément racine [ contenu de la DTD ]>

<?xml version="1.0" encoding="ISO-8859-1"?><!DOCTYPE espèces_menacées [<!ELEMENT espèces_menacées (animal*)><!ELEMENT animal (nom+, menaces, poids?, longueur?, source, illustration, sous_espèces+)><!ELEMENT nom (#PCDATA)><!ATTLIST nom langue (Francais | Latin) #REQUIRED><!ELEMENT menaces (menace*)><!ELEMENT menace (#PCDATA)><!ELEMENT poids (#PCDATA)><!ELEMENT longueur (#PCDATA)><!ELEMENT source EMPTY><!ATTLIST source idsection CDATA #REQUIRED

idjournal CDATA #REQUIRED><!ELEMENT illustration EMPTY><!ATTLIST fichier_image CDATA #REQUIRED

x CDATA #REQUIREDy CDATA #REQUIRED>.

<!ELEMENT sous_espèces (nom+, région, population)><!ELEMENT région (#PCDATA)><!ELEMENT population (#PCDATA)><!ATTLIST population année CDATA #REQUIRED>]>

<espèces_menacées><animal>

<nom langue="Francais">Tigre</nom><nom langue="Latin">panthera tigris</nom><menaces><menace>braconnier</menace>

etc.<animal>

Page 21: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

21

</espèces_menacées>

2.2.9.2 LA DTD EXTERNE AU FICHIER XML

Utilisée lorsque plusieurs documents XML utilisent un même modèle de données. Le fichier comportant la DTD peut être disponible sur le même ordinateur ou être public (sur la toile).

2.2.9.2.1 Externe propre

<?xml version="1.0" encoding="iso-8859-1" standalone="no"?> <!DOCTYPE nom de l’élément racine SYSTEM "adresse sur la toile">

<?xml version="1.0" encoding="iso-8859-1" standalone="no"?> <!DOCTYPE espèces_menacées SYSTEM "http://www.informit.fr/documents/ressources/downloads/xml/chap02/espèces_menacées.dtd">

La mention standalone="no" dans la déclaration xml est indispensable : elle précise que le fichier XML se réfère à un fichier externe.

La mention SYSTEM indique que la DTD est propre au créateur et non standardisée.

2.2.9.2.2 EXTERNE PUBLIQUE

<?xml version="1.0" encoding="ISO-8859-1" standalone="no"?> <!DOCTYPE nom de l’élément racine PUBLIC "-//nom du propriétaire//DTD nom de la DTD//code langue ISO 639 en 2 caractères//" "adresse sur la toile">

<!DOCTYPE espèces_menacées PUBLIC "-//Liz Castro//DTD Animaux-en-péril//EN//" "http://www.informit.fr/documents/ressources/downloads/xml/chap02/espèces_menacées.dtd">

La mention standalone="no" dans la déclaration xml est indispensable : elle précise que le fichier XML se réfère à un fichier externe.

La valeur positive ou négative indique si la DTD a été approuvée ( + ) ou non ( - ) par un organisme de standardisation tel l’ISO.

La mention PUBLIC indique que la DTD est standardisée et connue sous ce nom.

2.2.9.3 « MIXTE »

Il est permis de combiner une DTD interne (1.9.1) et une des deux variétés de DTD externe (1.9.2.1 ou 1.9.2.2), par exemple pour préciser le codage de certaines entités.

Page 22: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

22

<!DOCTYPE cesDoc SYSTEM "xcesDoc.dtd" [<!ENTITY oelig "&#x153;"><!ENTITY OElig "&#x152;"><!ENTITY hellip "&#x2026;"><!ENTITY mdash "&#x2014;">

]>

2.2.10 ÉCRIRE UNE DTD (DÉFINITION DU TYPE DE DOCUMENT)

La DTD permet de préciser quel est le modèle de données utilisé. Elle définit des éléments, des attributs et des entités.

2.2.10.1 DÉFINITION DES ÉLÉMENTS

De manière générale, la définition des éléments adopte la forme suivante :

<!ELEMENT nom de l’élément ( contenu de l’élément )>

soit :<!ELEMENT nom de l’élément ANY><!ELEMENT nom de l’élément EMPTY><!ELEMENT nom de l’élément (#PCDATA)><!ELEMENT nom de l’élément (élément1)><!ELEMENT nom de l’élément (élément1, élément2, élément3…)><!ELEMENT nom de l’élément (élément1 | élément2 | élément3 | …)><!ELEMENT nom de l’élément (élément1?)><!ELEMENT nom de l’élément (élément1+)><!ELEMENT nom de l’élément (élément1*)>

.

DÉFINIR LE CONTENU DE L’ÉLÉMENT

ANY N’importe quel contenu autorisé (à éviter).

EMPTY Aucun contenu n’est autorisé.

(#PCDATA) Abréviation de Parsed Character Data. N’importe quel(s) caractère(s) : lettres, chiffres, symboles et entités.

(élément1) L’élément est un « parent » qui contient nécessairement un autre élément, qui est son « enfant ».

(élément1, élément2, élément3…) L’élément est un « parent » qui contient nécessairement plusieurs « enfants ». Les virgules indiquent l’ordre dans lequel doivent se succéder ces enfants : elles équivalent à ET.

(élément1 | élément2 | élément3 | …) L’élément est un « parent » qui contient nécessairement un « enfant » parmi plusieurs possibles. Les signes | indiquent qu’un seul des enfants peut être utilisé : ils équivalent à un

Page 23: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

23

ANY N’importe quel contenu autorisé (à éviter).

OU exclusif.

(élément1?) L’élément enfant peut être utilisé 0 ou 1 fois.

Si ce caractère est placé après les parenthèses d'une liste de contenu, il s'applique à tout le contenu : <!ELEMENT nom de l’élément (élément1, élément2, élément3…)?>.

(élément1+) L’élément enfant doit être utilisé une ou plusieurs fois.

Si ce caractère est placé après les parenthèses d'une liste de contenu, il s'applique à tout le contenu : <!ELEMENT nom de l’élément (élément1, élément2, élément3…)+>

(élément1*) L’élément enfant est optionnel. Il peut être utilisé 0, 1 ou plusieurs fois.

Si ce caractère est placé après les parenthèses d'une liste de contenu, il s'applique à tout le contenu : <!ELEMENT nom de l’élément (élément1, élément2, élément3…)*>

2.2.10.2 DÉFINITION DES ATTRIBUTS

Les attributs doivent être énumérés dans la DTD.

La définition des éléments adopte la forme suivante :

<!ATTLIST nom de l’élément nom de l’attribut type d’attribut conditions de présence>

exemples :<!ATTLIST population année CDATA #REQUIRED><!ATTLIST population année CDATA #FIXED "2002"><!ATTLIST nom catgram (sm | sf) # REQUIRED ><!ATTLIST étymon langue CDATA #IMPLIED>

2.2.10.2.1 Le type de l’attribut

CDATA Character Data : n’importe quelle combinaison de caractères non réservés.

(valeur1 | valeur2 | valeur3 | …) Liste des valeurs possibles pour l’attribut, une seule pouvant être utilisée à a fois dans le document XML.

Page 24: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

24

2.2.10.2.2 Les conditions de présence de l’attribut

#FIXED L’attribut doit nécessairement posséder cette valeur.

#REQUIRED L’attribut doit nécessairement posséder une valeur.

#IMPLIED L’attribut n’a pas de valeur par défaut et celle-ci peut même être omise.

2.2.10.2.3 Définition d’attributs à valeur non répétable dans le document (ID)

Les valeurs des attributs ID ne peuvent pas être répétées dans un même document XML.

<!ATTLIST concept num ID #REQUIRED>

Attention, les attributs ID doivent respecter les règles d’écriture : ils ne peuvent pas commencer par un chiffre.

2.2.10.2.4 Définition d’attributs possédant la valeur d’un attribut ID (IDREFS)

Il s’agit de faire en sorte qu’un attribut ne puisse posséder comme valeur qu’une référence à un attribut ID.

<!ATTLIST homonymes renvoi IDREFS #REQUIRED>

Ce mécanisme permet de donner plusieurs ID comme valeur d’un attribut.

<hyponymes renvoi="T033 T156 T596"/>

2.2.10.2.5 Définition d’attributs dont la valeur doit respecter les normes d’écriture XML (NMTOKEN)

Leur usage peut être utile lorsqu’on veut obliger à respecter un certain nombre de contraintes, comme par exemple interdire une valeur contenant un espace blanc.

<!ATTLIST aspect couleur_dominante NMTOKEN #IMPLIED>

Appliqué à un fichier XML :

Valide : <aspect couleur_dominante="orange">

Non valide : <aspect couleur_dominante="orange foncé">

2.2.11 DÉFINITION D’ENTITÉS

Les entités sont des abréviations qui permettent de représenter un contenu plus long sous la forme &abréviation; (cf. 1.4).

Page 25: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

25

2.2.11.1 ENTITÉS INTERNES À LA DTD

Dans la DTD :

<!ENTITY isti "Institut supérieur de traducteurs et interprètes">

Dans le texte :

L’&isti; est situé à Bruxelles.

Dans le navigateur :

L’institut supérieur de traducteurs et interprètes est situé à Bruxelles.

2.2.11.2 ENTITÉS EXTERNES À LA DTD

Il est possible de créer une entité qui renvoie à un document externe.

Il convient d’abord à veiller à ce que la déclaration xml du fichier XML comporte bien la mention standalone="no".

Dans la DTD, on inclut la mention suivante, dans laquelle SYSTEM indique que l’abréviation est définie dans un autre fichier :

<!ENTITY abréviation SYSTEM nom et emplacement du fichier>

exemple :

<!ENTITY bob SYSTEM bob.ent>

Le fichier extérieur bob.ent doit être un simple fichier texte contenant le texte à insérer, éventuellement balisé.

exemple de contenu du fichier bob.ent :

<source>(Nouveau Petit Robert 2003)</source>

Dans le texte :

<entrée><nom>lexicographe</nom><def>Personne qui fait un dictionnaire de langue</def>&bob;</entrée>

Dans le navigateur :

<entrée> <nom>lexicographe</nom> <def>Personne qui fait un dictionnaire de langue</def> <source>(Nouveau Petit Robert 2003)</source>

Page 26: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

26

</entrée>

2.3 Transformation XSL

Le langage de transformation XSL n'est pas enseigné dans le cadre de ce cours. Il convient toutefois de savoir transformer un fichier XML à l'aide d'une feuille de style XSL. Pour cela, on utilise traditionnellement un moteur de transformation XSL comme Saxon ou Xalan13, généralement inclus dans des éditeurs XML comme XML Spy ou Oxygen14 (utilisés à l'ISTI).

Par ailleurs, il importe de savoir qu'un fichier XML apparaîtra immédiatement en HTML dans un navigateur récent s'il inclut au début une déclaration de lien avec un fichier XSL.

<?xml-stylesheet type="text/xsl" href="fichier.xsl"?>

Transformation XSL immédiate d'un fichier XML dans Internet Explorer

13. saxon.sourceforge.net et xalan.apache.org.

14. www.altova.com et www.oxygenxml.com ; on notera que des solutions libres de qualité conviendront à ceux qui tutoient aisément l'informatique.

Page 27: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

27

3 LE DÉPOUILLEMENT TERMINOLOGIQUE D'UN CORPUS DE TEXTES SPÉCIALISÉS

3.1 Objectifs et méthodes

Aujourd’hui affranchie de l’École de Vienne, l’étude des vocabulaires spécialisés s’inscrit clairement dans le cadre de la linguistique descriptive et privilégie une approche fondée sur l'exploitation informatique de corpus textuels multilingues.

Le cours aborde les problématiques classiques de la linguistique de corpus avant de se focaliser sur la recherche de candidats termes, de contextes et d’éléments définitoires dans des textes spécialisés, éventuellement alignés. Au-delà de la théorie, il propose une initiation à des logiciels dédiés et des exercices pratiques de recherche de candidats termes.

3.2 Rompre avec une tradition terminographique de compilation des dictionnaires

La terminographie a trop souvent ressemblé à une pratique lexicographique de seconde zone, consistant à accumuler des listes d’équivalents en compilant des dictionnaires aux qualités incertaines. Dans d’autres cas, elle s’est présentée comme une activité d’aménagement et de normalisation linguistique visant à sélectionner le seul « bon terme ». Le résultat a trop souvent pris l’apparence de véritables « fictionnaires » – électroniques ou imprimés – coupés de l’usage réel et ne pouvant que rougir d’une comparaison avec un véritable travail lexicographique.

Exception faite des programmes d’aménagement linguistique, la terminographie sert d’abord et avant tout à fournir au traducteur une information sémantique et lexicale qui lui permette de traduire

Page 28: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

28

au mieux des textes spécialisés. Travaillant souvent dans l’urgence, le traducteur est contraint de faire confiance aux glossaires disponibles, sans garantie que les équivalents proposés correspondent à un usage réel des spécialistes. Force est de constater qu’en dépit des recommandations sans cesse réitérées des formateurs, les terminographies ne comportent que très exceptionnellement des informations sur l’emploi du terme dans son contexte…

Sous l’influence de ses « pères fondateurs », la terminologie a longtemps été conçue comme une discipline consacrée à l’étude de la désignation des concepts et elle s’est ainsi démarquée des préoccupations et méthodes de la linguistique. Si un courant « fondamentaliste » demeure actif dans certains pays et dans certains cénacles, les deux dernières décennies ont vu des linguistes – généralement venus de la lexicologie et de la linguistique de corpus – s’intéresser de près aux langues spécialisées et appréhender leur étude à l’aide des instruments propres aux sciences du langage.

Fidèles à la démarche descriptive de leur discipline, ils défendent le point de vue que l’information terminologique doit rendre fidèlement compte d’un usage véritable, observé dans des textes écrits ou des transcriptions d’échanges oraux. Depuis plusieurs décennies, les lexicologues et lexicographes ont recours à l’exploitation de corpus électroniques, qu’ils dépouillent à l’aide de logiciels dénommés concordanciers. Si, voici peu, l’accès aux documents électroniques était encore malaisé, l’avènement des autoroutes de l’information permet aujourd’hui de se procurer de vastes ensembles de textes spécialisés. De nombreux organismes nationaux ou internationaux diffusent des textes dans chacune de leurs langues officielles. Cette accessibilité nouvelle a rendu viable la commercialisation de logiciels jadis réservés aux centres de recherche. Dédiés aux traducteurs, ils permettent d’aligner un texte source et un texte cible en sorte qu’un gestionnaire de mémoire de traduction puisse ensuite identifier tous les passages déjà traduits par le passé.

La conjugaison du concordancier et de l’aligneur de corpus offre aujourd’hui une puissance de recherche terminologique considérable. Le bon usage de ces deux outils permet notamment de :

- rechercher les termes spécialisés ;- identifier l’environnement phraséologique d’un terme et les marques de figement idiomatique ;- rechercher des contextes définitoires ou encyclopédiques ;- identifier les relations sémantiques ;- rechercher la/les traduction(s) d’un terme ;- vérifier la cohérence terminologique d’un texte spécialisé ;- vérifier la cohérence des équivalents utilisés dans un texte traduit.

Il paraît donc désormais indispensable d’initier le traducteur – ou le terminologue venu de la traduction – à la puissance potentielle de ces outils.

3.3 Utilité de la documentation en terminologie (Cabré 1998 : 221-222)

Les deux disciplines sont complémentaires et se nourrissent mutuellement. Nous nous intéresserons à la documentation comme adjuvant de la terminologie.

3.3.1 OBTENIR DES INFORMATIONS GÉNÉRALES EN DÉBUT DE RECHERCHE

- Besoins en matière de terminographie- Structuration du domaine- Bibliographie : ouvrages de référence, manuels, publications en série…- Dictionnaires disponibles : évaluation de la qualité

Page 29: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

29

- Centres de documentation- Organisations sectorielles- Spécialistes pouvant fournir une expertise

3.3.2 EXTRACTION TERMINOLOGIQUE

- Élaboration d’un corpus de référence (cf. point consacré aux critères)- Extraction de candidats termes, de contextes définitoires, de liens conceptuels à l’aide de logiciels

dédiés- Recherche d’équivalents dans des corpus source et cible préalablement alignés- Confrontation des résultats par rapport aux dictionnaires (corpus d’exclusion ?) et au point de vue

des experts

3.3.3 ALIMENTATION DE LA BASE DE DONNÉES TERMINOLOGIQUE

Rupture avec la tradition de compilation de dictionnaires peu fiables : rédaction de fiches terminologiques qui soient :

- complètes (définitions, contextes, liens sémantiques)- fondées sur un usage réel- accompagnées de références bibliographiques.

3.4 Des corpus

3.4.1 QUELQUES DÉFINITIONS DE LA NOTION DE CORPUS

Ambiguïté originelle : recueil d’énoncés ou de textes, échantillon (représentatif ?) ou corpus saturé ?

« Ensemble d’énoncés d’une langue donnée (écrits ou oraux enregistrés) qui ont été recueillis pour constituer une base d’observation permettant d’entreprendre la description et l’analyse de la langue en question. » (ARRIVÉ, GADET et GALMICHE 1986.)

« Si l’on veut étudier tels ou tels phénomènes dans une langue naturelle, il faut recueillir les corpus correspondants. Ce sont des ensembles d’énoncés (écrits ou oraux, selon les besoins) que le linguiste pose comme un échantillon représentatif de faits de parole (au sens saussurien) des locuteurs de cette langue. » (CHISS, FILLIOLET et MAINGUENEAU 1993 : 61.)

« A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as sample of language » (SINCLAIR 1994a : 2.)

CORPUS [13c: from Latin corpus body. The plural is usually corpora]. (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances, or other specimens considered more or less representative of a language, and usually stored as an electronic database. Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus ... T.McA. (The Oxford Companion to the English Language, ed. McArthur & McArthur 1992)

Page 30: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

30

« La réunion d’un grand nombre de textes indexés constitue un corpus, à l’intérieur duquel on se propose d’étudier et de quantifier certains faits lexicaux, syntaxiques, etc. Le corpus comprend en général des divisions ou sous-corpus, qui la plupart du temps ont une unité propre (chronologique, stylistique, etc. » (MULLER 1973 : 16.)

3.4.2 CRITIQUES À L’ENCONTRE DE LA LINGUISTIQUE DE CORPUS

- Peu de corpus oraux disponibles- Mythe du corpus objectif et homogène ; négligence des facteurs extralinguistiques : conditions de

production, incidence du locuteur, contexte, variables sociales, régionales, économiques…

Nécessité de s’interroger sur les critères de constitution des corpus

Certains linguistes, comme Chomsky, ont jadis rejeté l’utilisation des corpus au profit de l’intuition du linguiste, ce qui rappelle l’idée saussurienne du locuteur homogène dans une société homogène. Loin de l’empirisme dont font preuve certains, l’observation d’énoncés attestés dans un environnement textuel participe en réalité d’une démarche scientifique qui s’avère rigoureuse dès lors qu’elle prend en considération les paramètres de l’expérimentation et en relativise les résultats.

L’irruption de l’informatique dans la majorité des centres de recherche en linguistique et l’accessibilité récente d’un grand nombre de textes électroniques via Internet explique sans doute la grande percée actuelle de la linguistique de corpus.

3.5 Quelques critères de limitation et sélection du corpus en langue spécialisée (Pearson 1998, Bowker 1999)

Les critères se recoupent très souvent. Leur énoncé peut donc paraître quelque peu redondant.

3.5.1 TAILLE

- Taille mythique : environ un million de mots en langue spécialisée (LSp), beaucoup plus en langue générale (LG).

- Nécessité de toujours faire évoluer et donc d’agrandir le corpus.

- La représentativité est plus importante que la taille. Même dans un grand corpus, on doit pouvoir isoler des sous-corpus en fonction de critères précis.

- La taille dépend d’abord des matériaux disponibles (sous-domaine très pointu, déficit lexical dans une langue) et des objectifs de la recherche.

3.5.2 DOMAINE ET SOUS-DOMAINE

- Cerner l’appartenance des textes au domaine et aux écoles au sein du domaine en dialogue avec des experts.

- Plus le sujet est pointu, plus la sélection est restrictive, plus la taille du corpus sera limitée.

Page 31: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

31

3.5.3 GENRE

Le genre du texte est largement lié au public auquel le texte est destiné : articles ou contributions destinées aux experts, aux spécialistes, aux étudiants du domaine, à une large vulgarisation ?

3.5.4 ÉCHANTILLONNAGE ?

Il importe d’être très prudent avant de travailler sur des extraits. Un texte doit normalement être considéré dans sa totalité : il est fréquent que l’auteur clarifie son vocabulaire au fur et à mesure qu’il progresse. Il serait donc dommage d’en perdre une partie.

3.5.5 TEXTES DIFFUSÉS

On préfère normalement travailler avec des textes destinés à être publiés, même s’ils sont seulement diffusés auprès d’un public restreint. Ce critère garantit un minimum de qualité rédactionnelle des textes et en valide la pertinence auprès des utilisateurs du corpus.

3.5.6 AUTEURS

Il importe que les auteurs retenus soient reconnus comme experts par leurs pairs. Il importe de vérifier leur réputation. Un diplôme et un emploi dans le domaine de spécialité constituent également des critères importants.

3.5.7 TECHNICITÉ

Le degré de technicité dépend des compétences de l’auteur et du public qu’il vise :

- technique : écrit par une spécialiste pour des spécialistes- semi-technique : écrit par un spécialiste pour un public spécifique (initié, en cours d’initiation ou

non initié)

3.5.8 PUBLIC

- Même degré d’expertise que l’auteur.

- Degré d’expertise inférieur à celui de l’auteur : professionnels initiés du même secteur, étudiants de la même discipline, néophytes.

Chaque situation peut avoir son intérêt : le jargon se recherchera plutôt dans des textes destinés aux experts, les contextes définitoires dans les autres catégories.

3.5.9 OBJECTIFS VISÉS

- « Stipulatifs » : normalisation, réglementation, cahier des charges…

- Didactiques

Page 32: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

32

3.5.10 CADRE, CONTEXTE

- Institutionnel

- Éducatif, universitaire

3.5.11 LANGUES CONSIDÉRÉES

Une langue peut-être déficitaire pour un domaine concerné.

Les textes traduits doivent normalement être écartés d’office (problématique de l’alignement). Seul un critère relatif à la qualité du traducteur (expert du domaine, membre du service de traduction d’un organisme de référence pour le domaine) peut justifier de rares exceptions.

3.5.12 CONSERVER LA MÉMOIRE DES CRITÈRES

Tout corpus doit être accompagné de documents permettant de garder la mémoire de son mode de constitution et de balisage. Voir les directives de la Text Encoding Initiative en la matière.

3.6 Constitution du corpus

5.1 Droits d’auteurs

Pour tout usage qui dépasse le cadre strict de la recherche et qui impliquerait une diffusion, commerciale ou non, d’extraits de textes protégés par un copyright, il importe d’obtenir une autorisation des auteurs.

3.6.1 OÙ SE PROCURER LES CORPUS ?

• Directement auprès des auteurs : Internet et le courrier électronique offrent aujourd'hui des facilités évidentes pour identifier et contacter les experts. Il reste que les démarches sont souvent longues et elles demandent de longues explications sur la nature et l’intérêt de l’utilisation.

• Par reconnaissance optique (O.C.R) : les progrès de l’O.C.R. sont prodigieux, mais elle demeure fastidieuse pour des mises en page non linéaires. La vérification orthographique est indispensable, sous peine de ne pas identifier un certain nombre de termes.

• Sur cédérom : coûteux, rarement disponibles pour les revues scientifiques (ou uniquement recueil de résumés), textes fastidieux à récupérer.

• Sur Internet : problème de la validité des documents ; problème de l’exploitation du balisage (HTML) ou de la récupération des données protégées (PDF).

3.6.2 MONOLITHIQUE OU PLURIEL ?

Page 33: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

33

Suivant l’objet de la recherche, on pourra se focaliser sur un seul texte, sur l’ensemble des textes d’un auteur, d’une institution, d’une école. On pourra aussi constituer le corpus d’un ensemble de textes représentatifs de divers experts, diverses écoles, diverses régions, diverses époques, etc. Dans le cas d’un corpus pluriel, il importera toujours de pouvoir raccrocher un extrait à son texte d’origine (utilité du balisage).

3.6.3 PRODUCTIVITÉ DU CORPUS

Un texte peut paraître intéressant, mais il ne constitue pas nécessairement une source productive de termes du domaine, de néologismes, etc.

Avant de s’embarquer dans un long et fastidieux travail de balisage, il convient de tester le corpus brut (TXT) à l’aide d’un concordancier en vue d’évaluer sa productivité : nombre de syntagmes figés, comparaison avec d’autres textes, avec une liste d’exclusion, etc.

3.6.4 ÉVOLUTION DU CORPUS

Le corpus pluriel portant sur un domaine particulier n’est jamais définitivement constitué. Il doit continuer à s’enrichir en fonction des lacunes constatées, des nouvelles publications et de l’évolution du domaine.

3.7 La préparation linguistique du corpus

Pour l’ordinateur, un mot = toute suite de caractères entre deux espaces blancs.

[blanc]Suivez-moi,[blanc]jeune-homme,[blanc]s’écria-t-elle. [blanc] = 3 mots

Il importe donc de s’interroger sur les problèmes de découpage des unités lexicales (« parsage ») pour les langues considérées. Soit l’on compte sur des options du logiciel pour résoudre ces problèmes, soit l’on applique un prétraitement du corpus.

3.7.1 PONCTUATION

La plupart des logiciels résolvent aujourd’hui correctement les problèmes de découpage liés à la ponctuation.

3.7.2 DIACRITIQUES

Au départ, l’informatique a été conçue pour l’anglais : voici vingt ans, le traitement des accents, cédilles et autres caractères absents de l’alphabet anglais posait encore de nombreux problèmes de tris, aujourd’hui résolus. De nombreux logiciels permettent cependant que l’on spécifie le classement alphabétique.

Ainsi en français : AaÀàÂâ, Bb, CcÇç, Dd, EeÈèÉéÊêËë, etc.

3.7.3 DÉCOUPAGE DES MOTS

Page 34: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

34

Les problèmes peuvent être très simples, dans le cas d’une langue à faible flexion comme l’anglais, ou très compliqués, dans le cas d’une langue ayant une tendance agglutinante comme l’allemand ou le néerlandais.

Exercice : réfléchissez aux règles de parsage des mots en français sur la base des exemples suivants. Expliquez à un informaticien comment il pourrait s’y prendre pour découper à coup sûr les mots unis par un trait d’union ou une apostrophe.

Dit-il.Penses-tu ?Répète-le.Dis-moi.Va-t’en.Laisse-le-moi.Soyez-en sûr.Cette personne-là.Du papier-peint jauni.Un papier peint en rose.Suivez-moi, jeune homme !Son chapeau portait un suivez-moi-jeune-homme.Le poisson-chat.Il s’abaisse.La grand’place.La grand-place.Mais qu’en dira-t-on à l’ISTI ?Je me moque du qu’en-dira-t-on.

3.7.4 PROPRETÉ DE LA MISE EN PAGE

La mise en page d’un texte peut en affecter la logique de contenu autant que son intégrité lexicale ou grammaticale. S’agissant d’un fichier récupéré par reconnaissance optique, par copier-coller ou par conversion de format, il convient de s’assurer de la continuité du texte. Pour envisager sereinement le dépouillement d'un texte, il convient de disposer d'un fichier électronique aussi propre qu’un fichier de traitement de texte utilisé intelligemment, à l’aide de feuilles de style (modèle de document dans Word ou Open Office15).

Dans tous les cas, le fichier « texte seulement » (*.TXT) obtenu doit être inspecté systématiquement, les problèmes de conversion de caractères n’étant pas rares. On sera par ailleurs vigilant à confronter systématiquement le texte original et la version « texte seulement » pour rechercher toutes les causes de rupture du texte suivi, notamment :

- les confusions entre les fins de ligne et les fins de paragraphe ;

- les césures (très fréquentes dans les présentations en colonnes) ;

- les appels de note et les notes de bas de page ;

- les titres courants ;

- les numéros de pages ;

- les encadrés ;

- les légendes des illustrations. La maîtrise de la fonction « rechercher-remplacer » d'un éditeur de texte et plus

particulièrement l'usage des expressions régulières s'avèrent une aide précieuse. Le passage du correcteur orthographique est souvent très utile pour dépister les problèmes qui subsistent.

15. Voir notre ancienne page Présenter un tapuscrit : Comment bien utiliser son traitement de texte ? : www.termisti.org/ttxt.htm

Page 35: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

35

Il est, par ailleurs, important de souligner que toute manipulation d'un texte d'autrui doit être faite dans le respect des droits d'auteur.

3.7.5 SAUVEGARDER CORRECTEMENT UN TEXTE DEPUIS INTERNET

Les textes disponibles sur Internet, le sont exceptionnellement sous la forme de fichier de traitement de texte. Le format HTML cède la plus souvent la place au format PDF, voire au format PostScript dans les sciences « dures ». Leur conversion vers le format texte brut n'est pas toujours aisée. Nous n'envisageons ici que les solutions logicielles gratuites, tout en conservant à l'esprit qu'il est possible d'acheter de véritables produits professionnels.

3.7.5.1 DU FORMAT HTML AU TRAITEMENT DE TEXTE

Afin d'exploiter au mieux la mise en page, il est conseillé de sauvegarder les fichiers au format HTML et d'ensuite les convertir dans un autre format (*.doc, *.rtf, *.txt...) à l'aide d'un logiciel de traitement de texte tel que Word ou Open Office. En effet, cela permettra d'établir un lien entre la mise en forme et des types de données appelant un balisage particulier.

1. Enregistrer le fichier au format HTML (et non pas TXT, car les fins de ligne deviennent

souvent des fins de paragraphe) ;

2. Ouvrir le fichier HTML à partir du traitement de texte ;

3. Sauvegarder au format du traitement de texte (p.ex. *.TXT, *.RTF ou *.DOC).

3.7.5.2 DU FORMAT PDF (ACROBAT READER) AU FORMAT TXT

Grâce à un gratuiciel

Si l'on ne souhaite pas tenir compte de la mise en forme pour baliser certains éléments du texte, une solution simple et performante consiste à utiliser le gratuiciel Convert associé au concordancier PhraseContext16.

Via le format HTML (via Internet)

1. Convertir le fichier au format HTML via un courrier électronique ou via un formulaire sur le site

d'Adobe17 ;

2. Agir ensuite comme au point précédent « Du format HTML au traitement de texte ». Dans notre expérience, la conversion ne fonctionne pas parfaitement pour un document PDF

incluant des caractères particuliers (p.ex. la phonétique ou des symboles mathématiques).

3.7.5.3 DU FORMAT POSTSCRIPT AU FORMAT TXT VIA LES FORMATS PDF ET HTML

Le format PostScript est très utilisé par les communautés scientifiques utilisant les systèmes UNIX et LINUX.

1. Pour ouvrir un fichier PostScript sous Windows, installer le logiciel GhostScript et son 16. www.hjkm.dk.

17. www.adobe.com/products/acrobat/access_onlinetools.html.

Page 36: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

36

interface graphique Gsview18 ;

2. Ouvrir le fichier PostScript à l’aide de Gsview ;

3. Utiliser le menu « Fichier - Convert… » et choisir le type PDFwrite ;

4. Sauvegarder le fichier avec une extension *.PDF ;

5. Convertir ce fichier PDF conformément au point précédent Exercice : récupérer et nettoyer un fichier de chaque format à l’adresse www.gutenberg.eu.org/pub/gut/publications.

3.8 La préparation structurelle du corpus

3.8.1 ASSURER LA PÉRENNITÉ DU TEXTE

On a cru que l’informatique était la clé d’un archivage à long terme des documents. On s’aperçoit aujourd’hui combien il peut être difficile de lire sur son ordinateur un fichier de traitement de texte vieux d’à peine dix ans, alors que les bibliothèques conservent des manuscrits du Moyen Âge… Pour bien archiver un texte sous un format électronique, on conseille notamment de veiller aux points suivants :

- utiliser un format texte balisé XML dont la lecture ne dépende pas d’un logiciel particulier ;

- utiliser un support moderne et faire évoluer le support des archives au fil du temps (bande

perforée, bande magnétique, disquette, disquette zip, cédérom, DVD, clé USB, espace

d'archivage sur la toile… ;

- conserver le fichier dans un lieu protégé (feu, inondation, vol…) ;

- conserver une copie de l’archive dans un lieu séparé ;

- conserver également une version imprimée sur papier de qualité, par une imprimante laser : une

reconnaissance optique sera toujours possible…

3.8.2 CONSERVER LA MÉMOIRE DU TEXTE : LA NOTION DE DOCUMENT STRUCTURÉ

On sait déjà qu’un simple format texte balisé est un excellent format de sauvegarde, peu dépendant des logiciels. Par ailleurs, un corpus textuel doit pouvoir servir à d’autres applications, par d’autres utilisateurs même si l’on ignore encore aujourd’hui quelles sont les données qui leur sembleront importantes demain. Il importe donc de sauvegarder un maximum d’informations sur le texte d’origine, en sorte qu’elles puissent être exploitées ultérieurement, qu’il s’agisse de données bibliographiques ou d’informations liées à son contenu et à sa structure.

Un document écrit, quel que soit son support, peut être défini comme l’alliance indéfectible d’un contenu et d’une structure. Cette définition convient aussi bien à l’écrivain qu’au linguiste. Malheureusement, tous les documents ne constituent pas des documents structurés, au sens où l’entend la gestion électronique des documents (G.E.D.).

Un format d’échange de traitement de texte comme R.T.F. n’utilise qu’un balisage dit procédural indiquant la mise en page (italiques, gras, exposant, justifié…). Le balisage H.T.M.L. utilisé sur Internet ne fait guère autre chose. Dans un cas comme dans l’autre, il ne s’agit pas de documents structurés. En effet, un document structuré utilise un balisage dit descriptif, qui identifie la nature de chaque information (titre, exemple, légende, didascalie…). Le balisage descriptif est habituellement de type logique, c.-à-d. qu’il traduit la structure logique du document (p.ex. un paragraphe est une partie d’un chapitre ou une catégorie grammaticale est une partie de la description syntaxique d’un terme).

18. pages.cs.wisc.edu/~ghost/gsview/index.htm.

Page 37: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

37

L’ensemble des balises utilisées est réputé constituer un métalangage. La question de la mise en page du document structuré n’est envisagée que dans un second temps : un texte balisé en X.M.L. peut être aisément mis en page par l’intermédiaire de feuilles de style XSL (cf. chapitre 2).

Un balisage doit être bien conçu et il importe que le contenu des balises corresponde effectivement à ce qui a été étiqueté. À ce propos, on ne saurait assez souligner l’importance d’une formation aux documents structurés dans le cadre des études de langues et de lettres. Relativement récente, cette notion constitue une évolution importante dans la conception des textes et couvre des aspects aussi bien rédactionnels - sinon littéraires - que linguistiques ou cognitifs : structure des idées, mémoire des textes, exploitation systématique des connaissances…

Deux grands formats standards de balisage, largement compatibles, sont traditionnellement utilisés en sciences humaines : la Text Encoding Initiative (T.E.I.) et le Corpus Encoding Standard for XML (XCES), plus particulièrement étudié dans ce polycopié.

3.8.3 CODAGE PERTINENT POUR LA RECHERCHE TERMINOLOGIQUE

Il est difficile de dresser un inventaire de toutes les catégories d’informations qui pourraient se révéler pertinentes dans le cadre d’un dépouillement terminologique à l’aide d’un concordancier. Sachant que les contextes d’attestation pertinents seront retenus dans la fiche terminologique, il semble toutefois utile de retenir par ordre d’importance :

- l'auteur du texte d'origine ;

- le titre du texte d’origine ;

Page 38: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

38

- la date de publication ;

- la page dans le texte ;

- une éventuelle autre localisation plus ou moins fine (le volume, le chapitre, la ligne dans la page) ;

- l’usage d’un caractère d’imprimerie discriminant (gras, italiques) ;

- le caractère autonymique éventuel de l'attestation ;

- la présence de l’attestation dans une partie du texte réservée à des explications (note, glossaire).

3.9 La Text Encoding Initiative (T.E.I.)19

Né dans le monde de la recherche et des universités, le consortium de la T.E.I. regroupe nombre d'institutions prestigieuses actives dans le traitement informatique des textes. Cette norme couvre un très large spectre d'applications de l'écrit et est très régulièrement mise à jour, ayant évolué de SGML vers les applications XML les plus récentes. Elle n'est pas spécifique à l'ingénierie linguistique et est même plutôt « littéraire » au sens large.

Pour l'heure, en dehors d'applications d'ingénierie linguistique particulières, on conseillera d'utiliser de préférence la TEI, car elle semble faire l'objet d'un meilleur suivi et parce que de nombreuses applications dérivées sont disponibles :

- la T.E.I. simplifiée, aisée d'accès (www.tei-c.org/Guidelines/Customization/Lite);

- convertisseur Oxgarage (www.tei-c.org/oxgarage) ;

- interface Roma pour créer une DTD ou un schéma personnalisé (www.tei-c.org/Roma) ;

- bibliothèque de feuilles de style permettant des conversions vers de nombreux formats (www.tei-

c.org/Tools/Stylesheets) ;

- guide pour la traduction de la T.E.I. dans différentes langues, dont le français20 (www.tei-

c.org/Tools/I18N) ;

- Intégration dans des éditeurs XML, comme par exemple Oxygen (wiki.tei-

c.org/index.php/OXygen), et dans la suite bureautique OpenOffice/LibreOffice (wiki.tei-

c.org/index.php/TEI_OpenOffice_Package).

3.9.1 STRUCTURE TYPIQUE D'UN DOCUMENT T.E.I.

Un document T.E.I. Se caractérise par deux grandes parties : l'en-tête et le texte, selon la structure de base suivante :

<TEI> <teiHeader></teiHeader> <text></text></TEI>

Voici un exemple typique de structure d'un document T.E.I. permettant de conserver la mémoire d’un texte. Cet exemple se limite volontairement aux éléments utiles lors du balisage d'un texte spécialisé, sans rentrer dans trop de détails, notamment pour le balisage des figures et tableaux.

<?xml version="1.0" encoding="UTF-8"?><TEI xmlns="http://www.tei-c.org/ns/1.0"> <teiHeader> <fileDesc>

19. www.tei-c.org/index.xml.

20. Pour s'initier en français à la T.E.I., on trouvera un excellent texte d’initiation dans le n° 24 (juin 1996) des Cahiers Gutenberg (cahiers.gutenberg.eu.org/cg-bin/article/CG_1996___24_23_0.pdf ou www.tei-c.org/Guidelines/Customization/Lite/teiu5_fr.html).

Page 39: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

39

<titleStmt> <title>Corpus de textes de référence en terminologie</title> <respStmt> <resp>Balisage</resp> <name>Marc Van Campenhoudt</name> </respStmt> </titleStmt> <publicationStmt> <distributor>Centre de recherche en linguistique appliquée Termisti</distributor> <availability status="restricted"> <p>sous copyright</p> </availability> </publicationStmt> <sourceDesc> <biblStruct> <analytic> <author>François Gaudin</author> <title>Les termes ont-ils de propriétés extrinsèques ?</title> </analytic> <monogr> <author>Henri Béjoint et Philippe Thoiron</author> <title>Le sens en terminologie</title> <imprint> <date>2000</date> <publisher>Presses universitaires de Lyon</publisher> <pubPlace>Lyon</pubPlace> </imprint> </monogr> </biblStruct> </sourceDesc> </fileDesc> <profileDesc> <langUsage> <language ident="FR"/> </langUsage> </profileDesc> </teiHeader> <text> <front> <div> <head>Introduction</head> <p>La polysémie permet d'envisager plus aisément, blablaba....</p> </div> </front> <body> <div n="1" type="chapitre"> <head/> <p/> <note n="24" type="foot"/> <quote></quote> <list> <item></item> </list> </div> </body> <back> <div> <head/>

Page 40: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

40

<p/> </div> </back> </text></TEI>

Voici la clarification des fonctions de chaque élément. Les définitions sont extraites de la traduction en français de la TEI P521.

L'en-tête

<teiHeader> (en-tête TEI) donne des informations descriptives et déclaratives qui constituent une page de titre électronique au début de tout texte conforme à la TEI.

<fileDesc> (description bibliographique du fichier.) contient une description bibliographique complète du fichier électronique.

<titleStmt> (mention de titre) regroupe les informations sur le titre d’une œuvre et les personnes ou institutions responsables de son contenu intellectuel.

<title/> (titre) contient le titre complet d'une oeuvre quelconque.

<respStmt> (mention de responsabilité) donne une mention de responsabilité quant au contenu intellectuel d'un texte, d'une édition, d'un enregistrement ou d'une publication en série, lorsque les éléments spécifiques relatifs aux auteurs, éditeurs, etc. ne suffisent pas ou ne s'appliquent pas.

<resp/> (responsabilité) contient une expression décrivant la nature de la responsabilité intellectuelle d'une personne.

<name/> (nom, nom propre) contient un nom propre ou un syntagme nominal

<publicationStmt> (mention de publication) regroupe des informations concernant la publication ou la diffusion d’un texte électronique ou d’un autre type de texte.

<distributor/> (Diffuseur) donne le nom d’une personne ou d’un organisme responsable de la diffusion d’un texte.

<availability status="restricted"> (disponibilité) renseigne sur la disponibilité du texte, par exemple sur toutes restrictions quant à son usage ou sa diffusion, son statut de copyright, etc. Les valeurs autorisées sont : free (le texte est libre de droits), unknown (le statut du texte est inconnu [valeur par défaut]) et restricted (le texte est sous droits).

<sourceDesc> (description de la source) décrit la source à partir de laquelle un texte électronique a été dérivé ou produit, habituellement une description bibliographique pour un texte numérisé, ou une expression comme "document numérique natif " pour un texte qui n'a aucune existence précédente.

<biblStruct> (référence bibliographique structurée) contient une référence bibliographique dans laquelle seuls des sous-éléments bibliographiques apparaissent et cela, selon un ordre déterminé.

<analytic> (niveau analytique) contient des éléments descriptifs qui

21. www.tei-c.org/release/doc/tei-p5-doc/fr/html.

Page 41: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

41

décrivent la bibliographie d'une ressource (par exemple un poème ou un article de revue) publiée à l'intérieur d'une monographie ou d'une ressource et non publiée de façon indépendante.

<author/> (auteur) dans une référence bibliographique contient le nom de la (des) personne(s) physique(s) ou du collectif, auteur(s) d'une oeuvre ; la première mention de responsabilité comme seul élément bibliographique.

<title/> (titre) contient le titre complet d'une œuvre quelconque

<monogr> (niveau monographique) contient des données bibliographiques décrivant un objet (par exemple une monographie ou une revue) publié comme un élément indépendant (i.e. matériellement séparé.

<author/> (auteur) dans une référence bibliographique contient le nom de la (des) personne(s) physique(s) ou du collectif, auteur(s) d'une oeuvre ; la première mention de responsabilité comme seul élément bibliographique.

<title/> (titre) contient le titre complet d'une œuvre quelconque

<imprint> regroupe des informations relatives à la publication ou à la distribution d'un élément bibliographique.

<date/> (date) contient une date exprimée dans n'importe quel format.

<pubPlace/> (lieu de publication) contient le nom du lieu de publication dans une référence bibliographique.

<publisher/> (éditeur) donne le nom de l'organisme responsable de la publication ou de la distribution d'un élément bibliographique.

<profileDesc> (description du profil) fournit une description détaillée des aspects non-bibliographiques du texte, notamment les langues utilisées et leurs variantes, les circonstances de sa production, les collaborateurs et leur statut.

<langUsage> (langue utilisée) décrit les langues, variétés de langues, registres, dialectes, etc. présents à l’intérieur d’un texte.

<language ident="FR"> (langue) caractérise une langue ou une variété de langue utilisée dans un texte.

Le texte

<text> (texte) contient un seul texte quelconque, simple ou composite, par exemple un poème ou une pièce de théâtre, un recueil d’essais, un roman, un dictionnaire ou un échantillon de corpus.

<front> (texte préliminaire) contient tout ce qui est au début du document, avant le corps du texte : en-têtes, page de titre, préfaces, dédicaces, etc.

<body> (corps du texte) contient la totalité du corps d’un seul texte simple, à l’exclusion de toute partie pré- ou post-liminaire.

<back> (texte postliminaire) contient tout supplément placé après la partie principale d'un texte : appendice, etc.

<div n="1" type="chapitre"> (division du texte) contient une subdivision dans le texte préliminaire, dans le corps d’un texte ou dans le texte postliminaire.

Page 42: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

42

<head/> (en-tête) contient tout type d'en-tête, par exemple le titre d'une section, ou l'intitulé d'une liste, d'un glossaire, d'une description de manuscrit, etc.

<p/> (paragraphe) marque les paragraphes dans un texte en prose.

<note n="24" type="foot"/> contient une note ou une annotation

<quote> (citation) contient une expression ou un passage que le narrateur ou l'auteur attribue à une origine extérieure au texte.

<list> (liste) contient une suite d'items ordonnés dans une liste.

<item> contient un composant d'une liste.

Un exemple de structure minimale conforme à la T.E.I. simplifiée pourra être :

<TEI xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <teiHeader> <fileDesc> <titleStmt> <title/> <respStmt> <resp/> <name/> </respStmt> </titleStmt> <publicationStmt> <distributor/> </publicationStmt> <sourceDesc> <bibl/> </sourceDesc> </fileDesc> </teiHeader> <text> <body> <div> <head/> <p/> </div> </body> </text></TEI>

Voici un exemple de fichier T.E.I. plus élaboré, réalisé dans le cadre du projet Babeliris22 pour rassembler un corpus de textes diffusés à l'intention des patients dans le cadre des hôpitaux publics bruxellois.

<?xml version="1.0" encoding="UTF-8"?>

<TEI xmlns="http://www.tei-c.org/ns/1.0">

<teiHeader>

<fileDesc>

<titleStmt>

<title>Accès à l'hôpital de jour unité 606</title>

<author>anonyme</author>

<principal>Ward Van de Velde</principal>

<funder>Innoviris</funder>

<respStmt>

<resp key="markup"/>

<name>Cédric Libert</name>

</respStmt>

</titleStmt>

22. www.babeliris.org.

Page 43: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

43

<publicationStmt>

<publisher>Iris faîtière</publisher>

<address>

<addrLine>Rue Dejoncker, 46</addrLine>

<addrLine>1060 Saint-Gilles</addrLine>

<addrLine>Belgique</addrLine>

</address>

<authority>Centre de recherche Termisti</authority>

<address>

<addrLine>Institut supérieur de traducteurs et

interprètes</addrLine>

<addrLine>Rue J. Hazard, 34</addrLine>

<addrLine>B-1180 Bruxelles</addrLine>

<addrLine>Belgique</addrLine>

<addrLine>

<email>[email protected]</email>

</addrLine>

</address>

<availability status="restricted">

<p>Le texte est sous droits.</p>

</availability>

<date when-iso="2012-06">juin 2012</date>

</publicationStmt>

<sourceDesc>

<biblStruct>

<monogr>

<author role="unknown">anonyme</author>

<title>Accès à l'hôpital de jour unité 606</title>

<imprint>

<publisher>CHU Saint-Pierre</publisher>

<pubPlace>Bruxelles</pubPlace>

<date when-iso="0000"/>

<note>note éventuelle</note>

</imprint>

</monogr>

</biblStruct>

</sourceDesc>

</fileDesc>

<encodingDesc>

<projectDesc>

<p>Le présent fichier fait partie d'un vaste corpus de

textes rassemblant les écrits qui sont destinés à informer la

patientèle des hôpitaux publics bruxellois. Il a été créé par le

Centre de recherche en linguistique appliquée Termisti dans

le cadre du projet de recherche "Babeliris - Compétences

linguistiques et dynamique interculturelle dans les hôpitaux

bruxellois : l'impact de la communication écrite sur l'inégalité

sociale en matière de santé" (2011-2015).</p>

<p>Ce projet est mené en partenariat avec le

Centrum voor Vaktaal en Communicatie de la

Erasmushogeschool Brussel et les hôpitaux publics de la

Région de Bruxelles-Capitale (réseau IRIS).</p>

<p>Le financement du projet Babeliris est assuré par

le programme "Prospective Research for Brussels" de

l'Institut bruxellois pour la recherche et l'innovation Innoviris

(www.innoviris.be).</p>

<p>Plus d’informations sur www.babeliris.org.</p>

<p>Les textes imprimés ont été récupérés à l’aide du

logiciel de reconnaissance optique de caractères Readiris™

puis minutieusement vérifiés et sauvegardés au format

docx.</p>

<p>Les textes électroniques ont été également

vérifiés puis sauvegardés dans ce même format.</p>

<p>Les documents ont ensuite été remis en forme

selon les normes de la TEI-P5 (Text Encoding Initiative) à

l'aide du modèle de conversion proposé par le logiciel tei-

vesta (commande: docxtotei).</p>

<p>Les seuls enrichissements apportés ont concerné

le contenu de l'en-tête.</p>

</projectDesc>

<samplingDecl>

<p>Les textes du projet n'ont fait l'objet d'aucun

échantillonnage. Ils ont été réunis en collaboration avec le

personnel des différents services hospitaliers au cours des

années 2011 et 2012. Un large effort a été fourni pour en

réunir le plus grand nombre, sans que l'on puisse prétendre

à l'exhaustivité.</p>

</samplingDecl>

<editorialDecl>

<correction>

<p>Les textes récupérés par OCR ont fait l'objet

d'une relecture attentive, et les erreurs contenues dans les

versions originales ont été conservées dans le but de ne pas

biaiser les résultats finaux de la recherche.</p>

</correction>

<hyphenation>

<p>Les césures ont été systématiquement

supprimées.</p>

</hyphenation>

</editorialDecl>

<appInfo>

<application ident="TEI_fromDOCX"

version="2.15.0">

<label>DOCX vers TEI</label>

</application>

</appInfo>

</encodingDesc>

<profileDesc>

<langUsage>

<language ident="FR">français</language>

</langUsage>

<textClass>

<keywords scheme="www.babeliris.org">

<term>Service administratif et logistique</term>

<term>Accueil - admission - consultation</term>

</keywords>

</textClass>

<textDesc>

<channel>dépliant</channel>

<constitution type="single"/>

<derivation type="original"/>

<domain type="medicine"/>

<factuality type="fact"/>

<interaction passive="group">patient</interaction>

<preparedness/>

<purpose type="persuade"/>

Page 44: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

44

</textDesc>

</profileDesc>

<revisionDesc status="approved" >

<change who="iris hospitals" when-iso="0000"/>

</revisionDesc>

</teiHeader>

<text>

<body>

<div>

<head/>

<p rend="Style">CHU Saint-Pierre</p>

<p rend="Style">Contact : <del resp="Ward Van de

Velde">02 535 40 23</del></p>

<p rend="Style">

<hi rend="bold">Hôpital de jour chirurgical</hi>

</p>

<p rend="Style">Accès à l'hôpital de jour Unité

606</p>

<p rend="Style">CHU SAINT-PIERRE</p>

<p rend="Style">Hôpital de jour</p>

<p rend="Style">Accueil des admissions au rez-de-

chaussée :</p>

<p rend="Style">Entrée A - 105, <del resp="Ward

Van de Velde">rue aux Laines</del></p>

<p rend="Style">A partir de l'entrée principale, il

convient de prendre la galerie à droite en direction du

bâtiment 600</p>

<p rend="Style">CHU Saint-Pierre. <del resp="Ward

Van de Velde">Rue Haute 322 - 1000 Bruxelles, tel.

</del><del resp="Ward Van de Velde">+32 2 535 31

11</del><lb/>César De Paepe, <del resp="Ward Van de

Velde">Rue des Alexiens 11 - 1000 Bruxelles, tel. </del><del

resp="Ward Van de Velde">+32 2 506 71 11</del><lb/><del

resp="Ward Van de

Velde">www.chusaintpierre.be</del></p>

<p rend="Style">réseau <del resp="Ward Van de

Velde">iris structuur</del></p>

</div>

</body>

</text>

</TEI>

3.10 Corpus Encoding Standard for XML (XCES)23

Plus spécifique à l'élaboration de corpus destinés à être traité par l'ingénierie linguistique, la norme XCES est une évolution vers XML de la norme SGML du consortium EAGLES (Expert Advisory Group on Language Engineering Standards). Elle est très largement compatible avec la TEI et sera plus particulièrement approfondie dans le cadre de ce cours. Des exemples pratiques de codages XCES sont fournis sur la page intranet du cours.

3.10.1 LES PRINCIPALES BALISES

Voici l'ossature typique d'un document XCES :

<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE cesDoc SYSTEM "D:\Rifal03\xcesDoc.dtd"> <cesDoc version="4.3" type="text"> <cesHeader version="2.0"> <fileDesc> <titleStmt> <h.title>...</h.title> <respStmt> <respType>...</respType> <respName>...</respName> </respStmt> </titleStmt> <publicationStmt> <distributor>...</distributor> <pubAddress>...</pubAddress> <availability status="restricted">...</availability> <pubDate value="ISO8601">AAAA-MM-JJ</pubDate> </publicationStmt> <sourceDesc>

23. www.xces.org.

Page 45: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

45

<biblStruct> <analytic> <h.title>...</h.title> <h.author>...</h.author> </analytic> <monogr> <h.title>...</h.title> <h.author>...</h.author> <imprint> <pubPlace>...</pubPlace> <publisher>...</publisher> <pubDate>...</pubDate> </imprint> </monogr> </biblStruct> </sourceDesc> </fileDesc> <profileDesc> <langUsage> <language id="fr" iso639="fr">French</language> <language id="en" iso639="en">English</language> <language id="la" iso639="la">Latin</language> </langUsage> </profileDesc> </cesHeader> <text lang="fr"> <body> <div type="CHAPTER" n="5"> <head>…</head> <p>...</p> <sp> <speaker>...</speaker> <stage>...</stage> </sp> <poem> <lg > <l>...</l> </lg > </poem> <list> <item>...</item> </list> <figure> <head>...</head> <figDesc>...</figDesc> </figure> <table> <row> <cell>...</cell> </row> </table> <bibl>…</bibl> <caption>…</caption> <quote>…</quote> <note>...</note> </div> </body> </text> </cesDoc>

Page 46: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

46

3.10.2 LES PRINCIPALES BALISES DE L'ENTÊTE (HEADER)

L'entête XCES comporte une description bibliographique qui doit utiliser les balises suivantes :

<cesHeader version="2.0"> <fileDesc> <titleStmt> <h.title>...</h.title> <respStmt> <respType>...</respType> <respName>...</respName> </respStmt> </titleStmt> <publicationStmt> <distributor>...</distributor> <pubAddress>...</pubAddress> <availability status="restricted">...</availability> <pubDate value="ISO8601">AAAA-MM-JJ</pubDate> </publicationStmt> <sourceDesc> <biblStruct> <analytic> <h.title>...</h.title> <h.author>...</h.author> </analytic> <monogr> <h.title>...</h.title> <h.author>...</h.author> <imprint> <pubPlace>...</pubPlace> <publisher>...</publisher> <pubDate>...</pubDate> </imprint> </monogr> </biblStruct> </sourceDesc> </fileDesc> <profileDesc> <langUsage> <language id="fr" iso639="fr">French</language> <language id="en" iso639="en">English</language> <language id="la" iso639="la">Latin</language> </langUsage> </profileDesc>

</cesHeader>

<fileDesc> Contient une description bibliographique complète d’un fichier électronique. [TEI24]

<titleStmt> Regroupe des informations concernant le corpus électronique (et non pas le document sur papier). Le titre doit être différent de celui du document imprimé original.

<h.title> Le titre et l’éventuel sous-titre du corpus rassemblé dans le fichier.

<respStmt> Regroupe les informations concernant les responsables du corpus

24. Les définitions tirées de la T.E.I. ont été copiées dans les Cahiers Gutenberg, n° 24.

Page 47: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

47

électronique (et non pas du document sur papier)

<respType> Précise la nature de la responsabilité.

<respName> Fournit le nom de la personne ou de l’institution responsable.

<publicationStmt> Regroupe des informations concernant la publication ou la diffusion d’un texte qu’il soit électronique ou non. [TEI] Sert à préciser la disponibilité publique du corpus

<distributor> Fournit le nom d’une personne ou d’une institution responsable de la diffusion d’un texte. [TEI]

<pubAddress> adresse postale du distributeur.

<availability> Fournit des informations concernant la disponibilité d’un texte, par exemple toute restriction sur son emploi ou diffusion, son statut en matière de droits d’auteur, etc. [TEI]

Trois statuts sont possibles : free, restricted, unknown. Ils doivent être décrits sous la forme suivante :

<availability status="restricted">

<pubDate> Date de constitution du corpus présent dans ce fichier.

<sourceDesc> Fournit une description bibliographique du texte original à partir duquel un texte électronique a été dérivé ou généré. [TEI] Il s’agit ici de la description du document imprimé proprement dit.

<biblStruct> Se compose des sous-éléments suivants

<monogr> Utilisé pour les monographies et les publications en série.

<h.title> Titre du document.

<h.author> Auteur du document.

<imprint> Indications relatives à la publication contenant les sous-éléments suivants

<pubPlace> Lieu d’édition.

<publisher> Éditeur. Il peut être de trois types

<pubDate> Date de publication. À préciser sous la forme année-mois-jour :

<pubDate value="ISO8601">AAAA-MM-JJ</pubDate>

Si la mention du jour ou celle du mois sont inconnues, elles peuvent être omises : <pubDate value="ISO8601">2003</pubDate>

<analytic> Pour les parties de monographies (contributions) ou de publications en série (articles).

Cette balise précède <monogr> et doit contenir une balise <h.author> (auteur de la contribution ou de l’article) et une balise

Page 48: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

48

<h.title> (titre de la contribution ou de l’article).

<profileDesc> Fournit une description détaillée des aspects non bibliographiques d’un texte, spécifiquement les langues et le sous-langues employées, les circonstances de sa production, les participants, et leur environnement. [TEI]

<langUsage> Décrit les langues, les sous-langues, les registres, les dialectes, etc., représentés à l’intérieur un texte. [TEI] À décrire sous la forme suivante :

<langUsage><language id="fr" iso639="fr">French</language>

<language id="en" iso639="en">English</language> <language id="la" iso639="la">Latin</language><langUsage>

Pour spécifier la langue dans le texte, utiliser l’attribut lang décrit au point 3.

3.10.3 LES PRINCIPALES BALISES UTILISÉES POUR DÉCRIRE LE CORPS DU TEXTE

<text lang="fr"> <body> <div type="CHAPTER" n="5"> <head>…</head> <p>...</p> <sp> <speaker>...</speaker> <stage>...</stage> </sp> <poem> <lg > <l>...</l> </lg > </poem> <list> <item>...</item> </list> <figure> <head>...</head> <figDesc>...</figDesc> </figure> <table> <row> <cell>...</cell> </row> </table> <bibl>…</bibl> <caption>…</caption> <quote>…</quote> <note>...</note> </div> </body> </text>

Page 49: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

49

3.10.3.1 LES BALISES DU NIVEAU DU TEXTE

<text> Balise qui marque le début et la fin du texte et doit contenir la balise <body>

<body> Contient le corps entier d’un texte unitaire unique, à l’exclusion de toute pièce liminaire ou annexe [TEI]

<div type="CHAPTER" n="5">

Contient une subdivision du texte.Le type permet de catégoriser la subdivision par une liste d’attributs (chapitre, section…)Le n ou l’id permettent de préciser la numérotation de la subdivision (voir point 3).<div type="part" id="ORW1.1">

<div type="chapter" id="ORW1.1.1"><div type="section" id="ORW1.1.1.1">

<head> Contient tout type de titre, comme par exemple, le titre d’une section, ou l’en-tête d’une liste ou d’un glossaire. [TEI]

3.10.3.2 LES BALISES DU NIVEAU DU PARAGRAPHE

<p> Un paragraphe d’un texte écrit.

<sp> Passage parlé à l’écrit (dialogue, interview).

<speaker> Identification de la personne qui parle

<stage> Didascalie

<poem> Poème ou passage versifié

<lg> Toute subdivision du poème pertinente. À préciser sous la forme <lg type="strophe" n="7">

<l> Vers.

<list> Liste d’éléments distingués à l’aide de tirets ou de puces.

<item> Tout élément d’une liste.

<figure> Figure ; graphique, illustration.

<head> Permet de préciser un titre éventuel.

<figDesc> Description de la figure lorsque celle-ci n’apparaît pas comme du texte.

<table> Tout texte disposé sous forme de lignes et de colonnes. <table cols="2" row="2">

<row> Mention de la ligne où se trouve l’information.

<cell> Mention de la colonne où se trouve l’information.

Page 50: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

50

Exemple : Tableau 2 : Caractéristiques des modèles bilinguiste et diglossique

Modèle bilinguiste Modèle diglossique

InteractionApproche microSynchroniqueDynamiqueConsensuel

LanguesApproche macroDiachroniqueDynamiqueConflictuel</table>

<table cols="2" row="2"><head>Tableau 2 : Caractéristiques des modèles bilinguiste et

diglossique</head><row n="1">

<cell n="1">Modèle bilinguiste</cell><cell n="2">Modèle diglossique</cell>

</row><row n="1">

<cell n="1">Interaction</cell><cell n="2">Langues</cell>

</row><row n="2">

<cell n="1">Approche micro</cell><cell n="2">Approche macro</cell>

</row><row n="3">

<cell n="1">Synchronique</cell><cell n="2">Diachronique</cell>

</row><row n="4">

<cell n="1">Dynamique</cell><cell n="2">Dynamique</cell>

</row><row n="5">

<cell n="1">Consensuel</cell><cell n="2">Conflictuel</cell>

</row></table>

<bibl> Référence bibliographique

<caption> Légende d’une image, d’une figure, d’un tableau…

<quote> Citation d’un autre auteur faisant l’objet d’un paragraphe séparé.

<note> Contient une note ou une annotation, avec des attributs pour indiquer le type, l’emplacement et la source de la note. Exemple :

<note id="N1" place="foot">Dans le texte, l’appel de note sera remplacé par la mention <ptr target="N1"/>

3.10.3.3 LES BALISES À L’INTÉRIEUR DES BALISES DU NIVEAU DES PARAGRAPHES

<foreign> Identifie un mot ou une expression écrits dans une langue différente de

Page 51: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

51

celle du texte avoisinant. [TEI]

L’attribut lang permet de spécifier la langue étrangère : <foreign lang="en">

<q> Contient une citation ou quelque chose qui s’apparente à une citation. [TEI]

3.10.3.4 LES ATTRIBUTS

L’attribut lang

Cet attribut permet d’indiquer que le contenu de la balise est dans une langue particulière. Sa valeur doit être spécifiée dans la balise <language> du header.

Si non précisée, la langue est supposée être la même que celle qui est employée dans le contexte immédiat. [TEI]

Exemples : <poem lang="fr"> ou <foreign lang="en">

L’attribut id

Identifiant unique d’un élément ; doit commencer avec une lettre, peut contenir des lettres, des chiffres, des tirets ou des points [TEI].

Voir par exemple la balise <div>.

L’attribut n

Nom ou nombre de cet élément ; peut comporter toute chaîne de caractères ; souvent employé pour enregistrer des systèmes de référence traditionnels.

Voir par exemple les balises <note> et <lg>.

Page 52: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

52

4 L’EXTRACTION DE CANDIDATS-TERMES

On nomme candidat-terme toute suite de caractères identifiée comme susceptible de constituer un terme spécialisé au sein d'un corpus de textes spécialisés.

Il serait vain de croire ou d'affirmer que l'on peut réaliser une description terminographique d'un domaine spécialisé sans avoir fait l'effort de lire les textes rassemblés au sein du corpus et sans y avoir pris note manuellement des candidats-termes intéressants. Ne pas s'adresser ensuite au spécialiste pour lui demander une expertise de ces « candidats » constituerait une importante lacune méthodologique.

Il reste que le dépouillement manuel à l'aide d'un surligneur est fastidieux, difficile à envisager au-delà d'un certain nombre de pages et que l'attention humaine n'est pas infaillible. Par ailleurs, même l'oeil le plus exercé n'arrivera pas à observer des phénomènes de cooccurrences dispersés au fil des pages. Au-delà d'une lecture scrupuleuse et attentive des textes les plus importants, le recours à l'outil logiciel permet une systématicité et un gain de temps considérable pour découvrir des phénomènes récurrents et valider des hypothèses de recherche.

On l'aura compris, nous ne croyons pas aux « logiciels miracles » censés extraire d'un coup de baguette magique toute la terminologie d'un texte. Des prototypes existent, certes, mais leurs limites sont bien connues des scientifiques qui les ont conçus dans le cadre de laboratoires de recherche en traitement automatique des langues (TAL). On citera, par exemple, les résultats de la Campagne d'évaluation de systèmes d'acquisition de ressources terminologique (EVALDA-CESART) qui s'est déroulée entre 2002 et 2006 :

« À l'origine, trois tâches ont été prévues : l'extraction des termes pour la construction d'un référentiel terminologique ; l'extraction des termes pour l'indexation contrôlée et l'extraction des relations sémantiques. Faute de participants à la tâche d'extraction des termes pour l'indexation contrôlée, la campagne d'évaluation s'est déroulée en deux tâches :

Page 53: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

53

• Extraction des termes pour la construction d'un référentiel terminologique dont l'application est l'enrichissement du référentiel et l'indexation libre des documents ;

• Extraction des relations sémantiques (synonymie) à partir d'une liste des termes amorces.

Pour la tâche d’extraction des termes, l’évaluation a été effectuée sur le corpus médical (Santé Canada). Les précisions des systèmes participants sont calculées selon les différents degrés de pertinence cités ci-dessus et sur les 1 000 premiers candidats termes extraits. La comparaison entre les systèmes s’avère difficile, puisque les systèmes ont renvoyés [sic] un grand nombre de candidats termes. On observe une forte disparité entre les résultats, si l’on considère le nombre de termes renvoyés. Il faut relativiser l’importance des résultats puisque les systèmes n’ont pas renvoyé le même nombre de candidats termes.

Les résultats, en moyenne, restent très modestes. Selon l’évaluation stricte (degré de pertinence le plus élevé), le meilleur système obtient 28,8% de précision (soit 288 bonnes réponses sur 1000) contre moins de 11% pour les 3 autres systèmes. Moins le degré de pertinence est élevé, meilleurs sont les résultats (jusqu’à 52% de précision pour l’un des systèmes).

Pour la tâche d’extraction des relations synonymiques, un seul système participant a été évalué sur le corpus médical. L’évaluation a été effectuée sur l’échantillon représentatif de la sortie de SYNOTERM. Seulement 4% des termes ont été jugés pertinents. Cet échantillon a été établi en fonction de la distribution des fréquences des termes dans le corpus. 102 synonymes jugés pertinents, sur l’échantillon de 2115 renvoyés. » (www.technolangue.net/article200.html25)

Un excellent mémoire de D.E.S.S. réalisé en 2XXX par une étudiante de l'ISTI a débouché sur des conclusions relativement similaires à propos de deux logiciels d'extractions alors commercialisés sur le marché (référence à ajouter). On l'aura compris : les extracteurs ne seront jamais que des outils d'aide à la conception de glossaires et leur usage en mode « automatique » sera encore longtemps décevant. Pire, les « glossaires » – en fait de vulgaires listes d'équivalents – conçus par la méthode « presse-bouton » appliquée à des mémoires de traduction risquent de rapidement polluer la qualité de nombres de traductions. La vente d'applications similaires à un public de traducteurs ne rencontre un éventuel succès commercial que dans la mesure où la naïveté côtoie la médiocrité professionnelle et le faible niveau d'exigence de certains donneurs d'ordre.

4.1 Les outils d'indexation et d'annotation des textes

4.1.1 LES CONCORDANCIERS26

Le Nouveau Petit Robert (2009) définit une concordance comme suit :

« Ensemble des passages d'un texte où figure une unité lexicale (mot, expression).

25. On trouvera un exposé plus détaillé chez Timimi (2007) ainsi que chez Mustafa El Hadi et Chaudiron (2007).

26. La page de liens du Centre de recherche Termisti propose une liste de concordanciers fréquemment cités, beaucoup étant téléchargeables librement.

Page 54: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

54

▫ Liste alphabétique des unités lexicales d'un texte, avec leurs contextes. ➙ index. Éditer une concordance de la Bible. Concordance établie par ordinateur. »

Le terme concordancier, non attesté dans ce dictionnaire, sert précisément à établir une telle concordance. De manière plus large, on peut le définir comme un logiciel d'indexation des textes qui permet – comme un moteur de recherche et souvent beaucoup mieux – de rechercher des informations dans les textes.

Les concordanciers les plus basiques, qui ne traitent qu'un texte à la fois et ne peuvent pas prendre en compte les caractères Unicode doivent être écartés au profit d'outils offrant au moins les fonctions suivantes :

- recherche d'une unité lexicale ou d'un ensemble d'unités lexicales ;

- affichage de microcontextes contenant la lexie recherchée (souvent nommés kwics, de l'anglais

keywords in context), avec mention du fichier d'origine

- possibilité de tri sur les mots qui précèdent ou qui suivent ;

- possibilité de passer du microcontexte au texte ;

- exploitation d'algorithmes statistiques d'usage courant en lexicométrie : type/token ratio, chi carré,

log likelihood, connexion lexicale, information mutuelle, n-grammes...Certains concordanciers sont très élaborés et servent à des fonctions très particulières en

linguistique, en analyse de discours, en traductologie, en recherche documentaire... Nous ne pourrons en dresser ici un inventaire exhaustif et nous focaliserons sur les outils utiles au terminologue-traducteur.

4.1.1.1 LES « SIMPLES » CONCORDANCIERS

Le concordancier de base ne « lemmatise » pas, ceci signifie qu'il ne possède pas d'algorithme d'analyse grammaticale lui permettant de désambiguïser les formes homographes (p.ex. : mousse) pour les rattacher à un lemme27 (mousse [s.m.], mousse [s.f.], mousser [v.], mousse [adj.]). Il propose des méthodes de tris et des calculs statistiques pour aider à effectuer des recherches lexicales à l'intérieur des textes.

A priori décevants pour celui qui espère un miracle de l'extraction automatique, les simples concordanciers, de base comme le gratuiciel AntConc, ou beaucoup plus élaborés comme le très démocratique WordSmith, se révèlent des outils de recherche très puissants pour qui prend le temps de mener un travail approfondi et systématique.

AntConc fait l'objet d'une initiation dans le cadre du cours en 2008-2009. Les manipulations proposées porteront sur les capacités suivantes :

- rechercher un terme ;

- rechercher des collocations fréquentes ;

- rechercher les cooccurrents (clusters) par un calcul d'information mutuelle ;

- rechercher à l'aide des expressions régulières ;

- trier les résultats dans un microcontexte pour faire apparaître les figements ;

- rechercher les formes fléchies caractéristiques d'un texte.

4.1.1.2 LES CONCORDANCIERS LEMMATISEURS ET LES PARSEURS

27. La différence entre la forme fléchie (le « mot » du texte) et le lemme (sa forme canonique, généralement utilisée en entrée dans le dictionnaire) a été explicitée dans le cours de Linguistique française et exercices II).

Page 55: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

55

Certains concordanciers proposent une lemmatisation. Cette opération, qui – rappelons-le – consiste à désambiguïser les homographies (plusieurs milliers de cas en langue française), suppose un logiciel adapté à chaque langue et donc de coûteux développements d'ingénierie linguistique. En amont de la concordance, le logiciel doit donc utiliser une annotation (ou étiquetage) grammaticale de chacune des formes du texte. Les programmes procédant à une analyse de type syntaxique et à un étiquetage sont souvent qualifiés de parseurs. Les techniques d'annotation, « embarquées » ou « débarquées », sont très clairement explicitées par Benoît Habert (2005) dans son ouvrage Instruments et ressources électroniques pour le français. L'annotation et la lemmatisation sont des étapes préliminaires indispensables à la traduction automatique et leur explicitation relève des cours de traductique. Nous devons nous résoudre à ne présenter ici que certains de ces outils, sans en approfondir les propriétés.

Cordial Analyseur28

Développé par la société Synapse, Cordial Analyseur est un outil distinct du correcteur grammatical Cordial. Très couramment utilisé dans le cadre de la recherche universitaire, il offre, selon ses concepteurs, les services suivants :

« - Étiquetage morpho-syntaxique des textes en français - Étiquetage au format EASy fournissant l'ensemble des composants et des relations. - Analyse statistique des caractéristiques stylistiques de vos textes - Aide à l'analyse terminologique et sémantique de corpus »

Voici un étiquetage « maison » proposé par Cordial Analyseur :

"N° mot" "mot" "§" "Phrase" "Lemme" "Typegr

am"

"Fonction

"

"Num Prop." "Pivot" "Type Prop."

"Certains concordanciers proposent une lemmatisation. "

"#NO

M ?"

1 0 1 "Certains" "certain" "ADJIND

"

"2|2" "T" 1 "proposent" "Indépe

ndante"

2 0 1 "concordancie

rs"

"concorda

ncier"

"NCMP" "2|2" "T" 1 "proposent" "Indépe

ndante"

3 0 1 "proposent" "proposer" "VINDP3

P"

3 "V" 1 "proposent" "Indépe

ndante"

4 0 1 "une" "un" "DETIFS

"

"5|5" "D" 1 "proposent" "Indépe

ndante"

5 0 1 "lemmatisation

"

"lemmatis

ation"

"NCFS" "5|5" "D" 1 "proposent" "Indépe

ndante"

6 0 1 "." "." "PCTFO

RTE"

"-" "-" 1 "proposent" "Indépe

ndante"

"#NO

M ?"

"Cette opération qui - rappelons-le - consiste à désambiguïser les homographies (plusieurs milliers de cas en langue

française) suppose un logiciel adapté à chaque langue et donc de coûteux développements d'ingénierie linguistique. "

"#NO

28. www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htm

Page 56: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

56

M ?"

1 0 2 "Cette" "ce" "DETDE

M"

"2|2" "T" 1 "consiste" "Indépe

ndante"

2 0 2 "opération" "opération

"

"NCFS" "2|2" "T" 1 "consiste" "Indépe

ndante"

3 0 2 " " " " "PCTFAIB" "2|2" "T" 1

Le même étiquetage peut être produit en XML conformément à la norme mise au point dans le cadre des campagnes d'évaluation Evalda/Easy29 pour éviter les variations des étiquettes d'un logiciel à l'autre :

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE DOCUMENT SYSTEM "http://www.synapse-fr.com/Cordial_Analyseur/easy.dtd">

<DOCUMENT fichier=" sans nom.Cordial_2.xml" id="passage_cordial"

xmlns:xlink="http://www.w3.org/1999/xlink">

<E id="E1">

<Groupe type="GN" id="E1G1">

<F id="E1F1">Certains</F>

<F id="E1F2">concordanciers</F>

</Groupe>

<Groupe type="NV" id="E1G2">

<F id="E1F3">proposent</F>

</Groupe>

<Groupe type="GN" id="E1G3">

<F id="E1F4">une</F>

<F id="E1F5">lemmatisation</F>

</Groupe>

<F id="E1F6">.</F>

<relations>

<relation xlink:type="extended" type="SUJ-V" id="E1R1">

<sujet xlink:type="locator" xlink:href="E1G1"/>

<verbe xlink:type="locator" xlink:href="E1G2"/>

</relation>

<relation xlink:type="extended" type="COD-V" id="E1R2">

<cod xlink:type="locator" xlink:href="E1G3"/>

<verbe xlink:type="locator" xlink:href="E1F3"/>

</relation>

</relations>

</E>

Nooj30

Nooj a été développé parle professeur Max Silberztein (Université de Franche-Comté). Évolution actuelle d'une précédente plate-forme nommée Intex, il est présenté comme suit sur la page d'accueil de la conférence Nooj 200731 :

« NooJ est un environnement de développement linguistique qui permet de construire et de gérer des dictionnaires et grammaires électroniques à large couverture, afin de formaliser divers

29. www.technolangue.net/article198.html

30. www.nooj4nlp.net.

31. seneca.uab.es/filfrirom/nooj/presentation.html.

Page 57: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

57

niveaux des langues naturelles : orthographe, morphologie flexionnelle et dérivationnelle, lexique de mots simples, mots composés et expressions figées, syntaxe locale et désambiguïsation, syntaxe structurelle et transformationnelle, sémantique et ontologies. Les descriptions formalisées peuvent ensuite être appliquées pour traiter des textes et corpus de taille importante. NooJ est utilisé dans des applications variées du Traitement Automatique des Langues Naturelles (par ex. moteurs de recherche, extracteurs d’entités nommées, terminologie, traduction automatique), ainsi que comme outil de Linguistique de corpus, et en enseignement. Les utilisateurs de NooJ forment une communauté en expansion qui, à l'heure actuelle, développe des ressources linguistiques à large couverture dans une quinzaine de langues. »

Comme un autre concordancier célèbre, Unitex, Nooj permet de développer des lexiques-grammaires dans la perspective du linguiste Maurice Gross (Laboratoire d'automatique documentaire et linguistique32, Université Paris VII). Ces lexiques-grammaires sont des dictionnaires électroniques proposant une description grammaticale très fine de chaque lexème (mots simples ou composés) au travers d'une multiplicité de descripteurs. Les capacités de cet outil de recherche gratuit, largement paramétrable, sont trop souvent méconnues dans le monde de la traduction professionnelle.

TreeTagger33

Logiciel libre, TreeTagger a été développé au sein de l'Institut für Maschinelle Sprachverarbeitung de l'Université de Stuttgart. Il ne s'agit pas d'un concordancier, mais d'un parseur susceptible de fonctionner dans de nombreuses langues enseignées à l'ISTI. Le mot tree ne fait pas référence à une approche arborescente de la syntaxe, mais au modèle probabiliste du logiciel, qui fonde son étiquetage sur un arbre décisionnel. TreeTagger est présenté comme suit sur la page d'accueil du site qui lui est dédié.

« The TreeTagger is a tool for annotating text with part-of-speech and lemma information which has been developed within the TC project at the Institute for Computational Linguistics of the University of Stuttgart. The TreeTagger has been successfully used to tag German, English, French, Italian, Dutch, Spanish, Bulgarian, Russian, Greek, Portuguese, Chinese and old French texts and is easily adaptable to other languages if a lexicon and a manually tagged training corpus are available.

Sample output:

word pos lemma

The DT the

TreeTagger NP TreeTagger

is VBZ be

easy JJ easy

to TO to

use VB use

. SENT .

The TreeTagger can also be used as a chunker for English, German, and French. »

32. ladl.univ-mlv.fr.

33. www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger.

Page 58: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

58

Une interface graphique Windows peut aisément être installée sur un PC en suivant les instructions mentionnées à la page Windows Interface for Stuttgart Tree Tagger34 de Ciarán Ó Duibhín.

4.2 L'extraction de candidats-termes

4.2.1 IDENTIFIER LES TERMES

Dans le troisième chapitre du cours de LFEIII, intitulé « Les terminologies spécialisées : approche formelle » (Van Campenhoudt 2008 : 34-42), nous avons envisagé les différentes caractéristiques morphologiques et syntaxiques du terme, à travers les point suivants :

- Les catégories syntaxiques concernées ;

- Les termes qui sont de simples lexies ;

- Les termes issus de la dérivation ;

- Les termes formés par composition savante ;

- Les termes qui sont des syntagmes complexes ;

- Les formes brachygraphiques ;

- Les termes empruntés (y compris au latin) ;

- Les mécanismes sémantiques de la créativité néologique.

4.2.1.1 LE TERME DANS LE TEXTE

Une recherche dans un texte spécialisé – comme - les corpus Règles de course ou Loi de la mer – montre que les termes peuvent appartenir à bien des catégories grammaticales grammaticales :

- substantifs (guindant, gréement) [pas nécessairement identifiables par des affixes] ;

- verbes (empanner, amurer) ;

- adjectifs (tribord, archipélagique, transatmosphérique) ;

- expressions figées (au vent, en route libre derrière, au plus près).

Ces catégories grammaticales sont, elles-mêmes, susceptibles de servir de tête à une expansion, p.ex. :

- ADJECTIF + NOM : bâbord amure, premier substitut ;

- VERBE + PRÉPOSITION + (DÉTERMINANT) + NOM : virer de bord, se maintenir à l’écart ;

- PRÉPOSITION + NOM : au vent, sous le vent ;

- DÉTERMINANT + ADVERBE + NOM : au plus près.

-

Certains termes appartiennent à la langue courante : engagement, border, finir

34. www.smo.uhi.ac.uk/~oduibhin/oideasra/interfaces/winttinterface.htm.

Page 59: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

59

Certains termes sont des combinaisons de syntagmes : droit d'accès à la mer et depuis la mer.

Certains termes appartiennent à des langues étrangères comme l’anglais (outrigger) ou le latin (Thon noir : Thunnus atlanticus).

Les termes ont, par ailleurs, été décrits dans le même cours comme synthétisant un savoir particulier en une expression relativement brève qui jour un rôle important dans l'une des principales marques de la phrase spécialisée : la tendance à la condensation syntaxique. On ne peut donc prétendre décrire une terminologie sans tenir compte de la phraséologie attestée dans l'usage.

4.2.1.2 DIVERSITÉ DU TERME DANS LE DICTIONNAIRE

Un rapide relevé des entrées du remarquable Dictionnaire hydrographique, atteste de l’extraordinaire diversité morphologique des termes. Le terme simple y est le plus souvent un substantif (magnitude), mais on y trouve également nombre d’adjectifs (monochromatique) ou de verbes (tosser). L'apparence de ces termes simples est, effectivement multiple, tous les modes de formation étant convoqués :

- dérivation (préfixale, suffixale, parasynthétique, régressive) : aphotique- composition et confixation (antérieure ou postérieure) : bioluminescence, houlographe- métaphore : nœud, poche- néologisme (lexical ou sémantique) : radome, navarea- emprunt (lexical ou sémantique), calque, xénisme : bedrock, boomer- troncation : gyro (pour gyrocompas)- abréviation (sigle, acronyme) : GPS (global positioning system), radar (radio détection and

ranging), avurnav. (avis urgent aux navigateurs)- mot-valise : racon (radar beacon)

Les termes complexes sont généralement des syntagmes nominaux, aux procédés de formation multiples :

- N + de + N : aire de vent- N + de + déterminant + N : âge de la lune- N + de + N + de +déterminant + N : alignement de contrôle des compas magnétiques- N + de + N + N : calque de situation surface- N + à + N : alidade à pinnules- N + sur + N : levé sur balises- N + à + adj +N : levé à grande échelle- N + adj : aberration annuelle- N + (adj + [N+ Adj]) : ligne d'égale variation annuelle- N + adj + à + N + adj : levé topographique au cercle hydrographique- N + Nom propre : tour Bilby

Mais l'on trouve également des locutions verbales (couvrir et découvrir, faire station, prendre vue de terre), adjectives (bloqué par les glaces, coplanaires à la base, en station), adjectives ou adverbiales (à fleur d'eau, à flot), adverbiales (mer de l'arrière, par grands fonds) dont les structures lexico-syntaxiques sont tout aussi diverses.

Identifier un terme est donc tout sauf une sinécure, même pour l'esprit humain.

4.2.2 LES MÉTHODES D'EXTRACTION

Page 60: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

60

Différentes voies de recherche sont explorées pour assister le terminologue dans la recherche de termes attestés dans un corpus. Les linguistes travaillant sur cette problématique sont loin d'envisager le terme sous autant de facettes différentes, ce qui limite – consciemment ou inconsciemment – la capacité de leur méthode à viser l'exhaustivité. On trouvera un exposé aussi clair que documenté des différentes approches dans l'ouvrage de Marie-Claude L'Homme (2004 : 166-200), La terminologie : principes et techniques. Nous nous bornerons ici à un exposé synthétique, sinon partiel, insistant sur l'intérêt d'une approche manuelle et la possibilité de mettre en oeuvre certaines méthodes simples à l'aide des outils déjà décrits.

4.2.2.1 LE CONCORDANCIER ET LES MÉTHODES STATISTIQUES

Ce n’est pas un hasard si tous les concordanciers permettent de jouer sur la fréquence. Les liens entre la linguistique de corpus et la statistique sont très étroits et font l’objet d’une spécialisation particulière au sein des sciences du langage : la lexicométrie. Celle-ci peut répondre à des objectifs d’études variés : analyse littéraire, analyse du discours politique, philologie biblique, terminologie...

Plusieurs postulats d’ordre statistiques peuvent servir à isoler des candidats-termes :

- le mot a une fréquence inhabituelle ;- le mot a une longueur plus importante que la moyenne des mots ;- le mot apparaît souvent à proximité des mêmes mots.

Diverses méthodes de calcul, plus ou moins élaborées, permettent d’exploiter ces indices. Certaines sont implantées dans AntConc, mais un concordancier plus élaboré, comme WordSmith, en proposera davantage.

4.2.2.2 LES TRIS DES COLLOCATIONS

Rappelons d'abord ce que précise déjà notre cours de LFEIII, consacré à la langue spécialisée (Van Campenhoudt 2008 : 100-11) :

« Tout texte d'une certaine ampleur contient des traces du figement de la langue. En langue générale, il peut s'agir notamment de :

- contraintes syntaxiques : parler à… se moquer de… plus ADJECTIF que…

- classes d'objets : manger + NOURRITURE, CHIEN + aboyer, administrer + MÉDICATION…

- d'expressions toutes faites : à la sauvette, sur la sellette, en catimini

- d'expressions privilégiées : café bien tassé, ignorance crasse, capitalisme triomphant…

- syntagmes figés : train de vie, fer à repasser, casque bleu…Ces phénomènes ont très bien été répertoriés pour le français général dans le Dictionnaire des

combinaisons de mots paru chez Robert dans la collection Les usuels (Le Fur 2007) ainsi que dans le dictionnaire en ligne d'Antonio González Rodríguez de l'Université européenne de Madrid (www.tonitraduction.net). Ils peuvent également faire l'objet de descriptions pour les langues spécialisées, comme dans le Dictionnaire d'apprentissage du français des affaires de la KUL. (www.projetdafa.net).

La différence entre les termes cooccurrence et collocation n'est pas toujours claire. On parle plus habituellement de cooccurrences lorsque l'on constate un lien combinatoire entre deux lexies.

Page 61: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

61

Par exemple, dans la Convention des Nations unies sur le droit de la mer35, les dix premiers mots qui entretiennent des liens de cooccurrence forte avec le mot navire (5 mots avant ou après navire) sont pavillon, étranger, guerre, battre, article, État, passage, pollution, droit et immobilisation.

Le terme collocation est davantage privilégié pour désigner des figements particulièrement importants : navire de guerre, navire de pêche, navire étranger, navire de recherche, navire d'État. »

Un simple concordancier comme AntConc permet de produire une concordance systématique de toutes les formes fléchies attestées dans le texte. Toutes les collocations du texte apparaîtront dès lors que l'on effectuera un tri des microcontextes (ou kwics) fondé sur les formes qui suivent ou sur les formes qui précèdent. Le premier est traditionnellement plus pertinent pour les langues romanes, alors que le second convient davantage pour les langues germaniques.

l'État côtier du fait de l'inobservation par un navire de guerre ou par tout autre navire d'État utilisé

uer une saisie pour raison de piraterie Seuls les navires de guerre ou aéronefs militaires, ou les autres n

roit de poursuite ne peut être exercé que par des navires de guerre ou des aéronefs militaires ou d'autres

es agents officiellement habilités, ainsi que les navires de guerre ou aéronefs militaires ou les autres na

éservation du milieu marin ne s'appliquent ni aux navires de guerre ou navires auxiliaires, ni aux autres n

villon. 2. Dans les cas visés au paragraphe 1, le navire de guerre peut procéder à la vérification des tit

ntion procède de pouvoirs conférés par traité, un navire de guerre qui croise en haute mer un navire étran

erre " Aux fins de la Convention, on entend par " navire de guerre " tout navire qui fait partie des force

ls sont définis à l'article 101, perpétrés par un navire de guerre, un navire d'État ou un aéronef d'État

et d'autres substances nocives; c) s'agissant des navires de pêche, l'interdiction de la pêche, y compris l

peuvent être pêchés; e) renseignements exigés des navires de pêche, notamment statistiques relatives aux ca

ainsi que du type, de la taille et du nombre des navires de pêche qui peuvent être utilisés; d) fixation d

recherche scientifique marine et l'assistance aux navires de recherche Les États s'efforcent d'adopter des

s de la première arrivée et du dernier départ des navires de recherche ou celles de l'installation et du re

territoriale et, si besoin est, de faciliter aux navires de recherche scientifique marine qui se conformen

préjudice de la continuation de l'exercice par un navire de son droit de passage inoffensif ou de l'applic

age inoffensif Sous réserve de la Convention, les navires de tous les États, côtiers ou sans littoral, joui

article 53 et sans préjudice de l'article 50, les navires de tous les États jouissent dans les eaux archipé

Microcontextes : tri à droite des occurrences en français

Criminal jurisdiction on board a foreign ship 1. The criminal jurisdiction of the coastal Stat

State should not be exercised on board a foreign ship passing through the territorial sea to arrest any

of an arrest or investigation on board a foreign ship passing through the territorial sea after leaving

l State may not take any steps on board a foreign ship passing through the territorial sea to arrest any

coastal State should not stop or divert a foreign ship passing through the territorial sea for the purpo

r international navigation. However, if a foreign ship other than those referred to in section 10 has co

es of international law. 2. Passage of a foreign ship shall be considered to be prejudicial to the peac

t of hot pursuit 1. The hot pursuit of a foreign ship may be undertaken when the competent authorities

r the purpose of any civil proceedings, a foreign ship lying in the territorial sea, or passing through

rship which encounters on the high seas a foreign ship , other than a ship entitled to complete immunity

ial sea. 2. Charges may be levied upon a foreign ship passing through the territorial sea as payment on

t discrimination in form or in fact among foreign ships , suspend temporarily in specified areas of its te

not discriminate in form or in fact among foreign ships or in their application have the practical effect

t discrimination in form or in fact among foreign ships , suspend temporarily in specified areas of its ar

35. Les corpus textuels de référence sont disponibles sur le site du cours.

Page 62: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

62

gn, construction, manning or equipment of foreign ships unless they are giving effect to generally accept

shall not hamper the innocent passage of foreign ships through the territorial sea except in accordance

s territorial sea the innocent passage of foreign ships if such suspension is essential for the protectio

chipelagic waters the innocent passage of foreign ships if such suspension is essential for the protectio

the continuous and expeditious passage of foreign ships and aircraft through or over its archipelagic wat

(a) impose requirements on foreign ships which have the practical effect of

treatment equal to that accorded to other foreign ships in maritime ports.

urvey activities During transit passage, foreign ships , including marine scientific research and hydrogr

ity to all such laws and regulations. 4. Foreign ships exercising the right of innocent passage through

ity to all such laws and regulations. 4. Foreign ships exercising the right of transit passage shall com

gard to the safety of navigation, require foreign ships exercising the right of innocent passage through

Microcontextes : tri à gauche des occurrences en anglais

Bien entendu, cette méthode génère beaucoup de bruit, mais elle présente l'immense avantage de proposer un examen systématique de toutes les lexies attestées et des figements éventuels qui se manifestent dans leur environnement immédiat. Elle est parfaitement adéquate pour le terminologue qui dispose du temps nécessaire à un examen approfondi d'un corpus de référence, sachant que la concordance globale aura une taille considérable, chaque forme du texte générant un microcontexte d'une ligne.

Ne le cachons pas : la conception d'un dictionnaire spécialisé est bel et bien un travail de bénédictin ! Ce travail peut être intelligemment allégé par différentes tactiques que nous énumérons ci-dessous.

4.2.2.3 LE CORPUS D'EXCLUSION

On appelle corpus d'exclusion une liste de lexèmes simples ou complexes que l'on exclut de prendre en compte lors de l'indexation d'un texte. Ainsi, on peut aisément exclure d'une concordance toutes les formes liées aux mots hyperfréquents. On rappellera ici qu'au sein de la langue française, les classes grammaticales fermées (conjonctions, prépositions, déterminants, pronoms) correspondent à une centaine de lexèmes, mais qu'elles représentent environ cinquante pour cent des formes attestées dans un texte suivi. Les exclure de l'indexation permet donc d'éliminer la moitié des microcontextes à examiner.

Il peut sembler intéressant d'utiliser pour corpus d'exclusion une liste de formes fléchies correspondant à des listes de mots fréquents dans la langue générale, quotidienne. On songera, par exemple au français fondamental de Georges Gougenheim ou aux échelles de Dubois-Buyse (Van Campenhoudt 2008 : 4-5). Cette démarche se révèle particulièrement dangereuse au vu de ce que l'on sait déjà des mécanismes de création néologique des termes (Van Campenhoudt 2008 : 40-41) : le poids de la métaphore, de la métonymie ou de la création de syntagmes lexicalisant des traits définitoires est tel que nombre de termes risquent de se trouver exclus accidentellement du dépouillement (souris, col de cygne, carte à puce...).

Lorsqu'on traque des termes qui n'ont pas encore été décrits, le principe du corpus d'exclusion permet de ne pas indexer tous les termes, simples ou complexes, qui sont déjà répertoriés dans le dictionnaire spécialisé ou la base de données terminologique que l'on se propose de mettre à jour. Ceci suppose, bien entendu, que l'on soit capable de faire varier les termes au sein du corpus d'exclusion (féminin, pluriel, conjugaison) pour éviter de générer un bruit inutile. Cette démarche peut aussi être bruitée par la perméabilité de nombreux termes longs au test d'insertion ou par les

Page 63: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

63

phénomènes d'emboîtement de termes (cf. XXX : incident de navigation en haute mer vs incident de navigation maritime en haute mer).

Toujours dans la même perspective de recherche, on peut aussi rechercher les mots d'un nouveau texte qui possèdent une fréquence anormalement élevée par rapport à l'ensemble des textes déjà indexés. Ces méthodes sont intéressantes, mais il ne faut pas négliger leurs inconvénients :

- beaucoup de formes vont être indexées alors qu'elles n'ont aucune pertinence ou sont surtout

révélatrices de thématiques abordées (bruit) ;

- s'agissant de formes fléchies, l'absence de lemmatisation risque de fausser les comparaisons sur

une base statistique (silence) ;

- la prise en compte des termes complexes suppose l'usage d'un concordancier déjà élaboré.

4.2.2.4 LA RECHERCHE DE COLLOCATIONS ET DE COOCCURRENCES SUR UNE BASE STATISTIQUE

« L'observation des textes à l'aide d'un concordancier conduit toutefois à identifier des combinaisons récurrentes qui méritent d'être qualifiées de collocations, même si elles sont plus libres que les syntagmes figés répondant aux critères syntaxiques ou morphosyntaxiques habituellement mis en avant par la lexicologie (cf. cours de Linguistique française et exercices II) :

navire battant pavillonnavire battant son/leur pavillonnavires, aéronefs, plates-formes ou autres ouvragesnavire étranger passant dans la mer territorialenavires étrangers exerçant le droit de passage inoffensifnavires transportant des substances radioactives

De véritables segments de phrase peuvent ainsi être répétés un certain nombre de fois :

entraver le passage inoffensif des navires étrangersla conception, la construction et l'armement des naviresprévenir, réduire et maîtriser la pollution du milieu marin par les naviresLorsqu'un navire se trouve volontairement dans un port ou à une installation terminale au large

Un texte spécialisé peut être particulièrement marqué par ces phénomènes répétitifs. Il convient toutefois de disposer d'une base statistique suffisante pour les dépister de manière pertinente.

collocations de 6 mots attestés au moins 3 fois (selon le concordancier WordSmith ) :

1 652 dans la Convention des Nations unies sur le droit de la mer = 1,85 %172 dans Chimiothérapie du paludisme = 0,24 %75 dans Vingt mille lieues sous les mers = 0,05 % » (d'après Van Campenhoudt 2008 : 11-12)

« Le degré de figement de collocations peut être évalué grâce à différentes mesures statistiques. La plus communément utilisée est celle de l'information mutuelle (Church & Hanks 1990), directement inspirée de la théorie de l'information (notamment Shannon et Weaver 194936). Elle consiste à observer les probabilités qu'un terme X et un terme Y apparaissent ensemble ou séparément dans un corpus textuel.

36. Cf. cours de Linguistique française et exercices II : l’information se mesure en bits. Elle correspond au logarithme binaire de l’étendue des événements possibles (I = log2 N)

IM(x,y) = log2

P(x,y)

P(x) P(y)

Page 64: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

64

Un score supérieur à 3 est généralement vu comme le signe d'une cooccurrence pertinente ou collocation.

Prenons, par exemple, le cas des attestations des formes navires, guerre et mer dans le corpus Convention des Nations unies sur le droit de la mer :

navires : 177 attestations sur 89 345 formes fléchies (soit la longueur du texte)guerre : 21 attestations sur 89 345 formes fléchiesmer : 306 attestations sur 89 345 formes fléchiesnavires + guerre : 12 attestations sur 89 345 formes fléchiesnavires + mer : 4 attestations sur 89 345 formes fléchies

IM (navires, guerre) = 7,72 bitsIM (navires, mer) = 2,68 bits

Lorsqu'on interroge le corpus sur ces termes à l'aide d'un concordancier, on observe effectivement l'expression figée navires de guerre dans tous les contextes associant (navires, guerre), alors que l'on trouve pour (navires, mer) des passages aussi variés que : "le passage inoffensif des navires étrangers dans la mer territoriale", "immunité des navires de guerre en haute mer", "éviter toute inspection matérielle superflue de navires en mer", etc. » (Van Campenhoudt 2008 : )

L'usage d'une méthode comme celle du calcul de l'information mutuelle (ou d'autres apparentées) est séduisant. Il convient toutefois de se souvenir qu'elle n'a pas été conçue à des fins de dépouillement terminologique : nous l'avons d'ailleurs utilisée dans le cadre du cours de LFEIII comme indice de mesure de la spécialisation des textes, appréhendée à travers les marques de figement (Van Campenhoudt 2008 : 10-13).

Par ailleurs, on ne doit pas oublier que l'information mutuelle envisage des phénomènes de cooccurrences et ne peut donc servir qu'à identifier des termes complexes. Trop souvent dans la littérature, le terme est envisagé, sinon décrit, comme un syntagme figé, voire un syntagme nominal. Cette vérité est tout à fait partielle : beaucoup de termes sont des unités complexes, mais – on vient de le voir – leur figement n'est pas total. Par ailleurs, la simple consultation des dictionnaires spécialisés montre qu'un nombre non négligeable de termes sont des unités simples, éventuellement marquées par une construction morphologique particulière. Dans le chapitre 3 du cours de LFEIII, on a détaillé les mécanismes de création des termes simples : dérivation, composition savante, brachygraphie, néologie sémantique, emprunt... On ne peut les identifier par les techniques précédentes.

Bien d'autres méthodes statistiques peuvent être envisagées et nous ne pouvons ici toutes les épuiser. Le concordancier Antconc permet de rechercher les collocations fortes (clusters) d'un terme pour une longueur de collocation et une fréquence précise. Le résultat fera inévitablement apparaître toutes les récursivités du texte qui apparaissent déjà dans une concordance. Ainsi pour navire* (classement alphabétique des suites de 2 à 12 mots attestées au moins 3 fois) :

a de sérieuses raisons de penser qu' un navire

a de sérieuses raisons de penser qu' un navire naviguant

a de sérieuses raisons de penser qu' un navire naviguant dans

a de sérieuses raisons de penser qu' un navire naviguant dans sa

applicables aux navires

applicables visant à prévenir, réduire et maîtriser la pollution par les navires

au navire

Page 65: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

65

aucune discrimination de droit ou de fait entre les navires

aucune discrimination de droit ou de fait entre les navires étrangers

autre navire

autres navires

autres navires ou

autres navires ou aéronefs

autres navires ou aéronefs qui

autres navires ou aéronefs qui portent

autres navires ou aéronefs qui portent des

autres navires ou aéronefs qui portent des marques

autres navires ou aéronefs qui portent des marques extérieures

autres navires ou aéronefs qui portent des marques extérieures indiquant

autres navires ou aéronefs qui portent des marques extérieures indiquant clairement

autres navires ou aéronefs qui portent des marques extérieures indiquant clairement qu

aux navires

aux navires battant

aux navires de

aux navires étrangers

bord d' un navire

bord d' un navire étranger

ce navire

ce que les navires

ce que les navires battant

ce que les navires battant leur

ce que les navires battant leur pavillon

AntConc peut aussi activer un algorithme de recherche basé sur les « n-grammes ». Plutôt que d'entrer dans une fastidieuse démonstration mathématique, citons l'explication, toute simple, fournie dans l'aide de la version 3.2.1 :

« The **N-Grams** tool is used to generate an ordered list of n-grams that appear in the target files listed in the left frame of the main window. N-grams are word n-grams, and therefore, large files will create huge numbers of n-grams. For example, n-grams of size 2 for the sentence "this is a pen", are 'this is', 'is a' and 'a pen'.

As with the **Clusters** tool, the n-grams can be ordered either by frequency or the start or end of the word. They can also be ordered by the probability of the first word in the cluster preceding the remaining words. All list orderings can also be inverted. Also, a user can select the minimum and maximum size (number of words) in each n-gram, and the minimum frequency of n-grams displayed. »

Une recherche sur les n-grammes de la Convention des Nations unies sur le droit de la mer fait apparaître un résultat systématique pour tous les mots du texte concernés par la requête (ici les suites de 2 à 6 mots répétées au moins 3 fois ).

pollution du

pollution du milieu

pollution du milieu marin

pollution du milieu marin d

pollution du milieu marin d origine

pollution du milieu marin les

pollution du milieu marin les États

pollution du milieu marin par

pollution du milieu marin par les

pollution du milieu marin par les navires

Page 66: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

66

pollution du milieu marin qui

pollution du milieu marin résultant

pollution du milieu marin résultant d

pollution du milieu marin résultant d activités

pollution du milieu marin résultant d activités menées

pollution du milieu marin résultant d activités menées dans

pollution du milieu marin résultant d activités menées dans la

pollution du milieu marin résultant d activités menées dans la Zone

pollution en

pollution et

pollution par

pollution par les

pollution par les navires

pollution par les navires ou

pollution par les navires ou par

pollution par les navires ou par immersion

Comme on le voit encore une fois, l'apport par rapport à l'examen de la concordance n'a d'intérêt que si un nouvel algorithme permet de réduire la liste en déterminant :

- les n-grammes qui ont une existence autonome en dehors de cas d'enchâssement systématique

dans un même n-gramme plus grand : pollution du milieu marin existe en dehors de n-grammes à

la différence de pollution du milieu ;

- les frontières maximales et non pas les enchâssements systématiques : prévenir, réduire et

maîtriser la pollution du milieu marin résultant d'activités menées dans la Zone.La seconde procédure risque surtout de ramener des figements intéressants pour un alignement sub-phrastique, alors que la première permettrait d'identifier nombre de composés et syntagmes terminologiquement pertinents. En travaillant sur un corpus étiqueté, on devrait même pouvoir identifier des formes (conjonctions, déterminant, pronom personnel, formes verbales...) ou des combinaisons de formes (participe + préposition + déterminant) qui ne peuvent terminer ou commencer un syntagme et s'en servir pour mieux isoler ceux-ci37.

4.2.3 LA RECHERCHE DE PATRONS DE FORMATION DE TERMES COMPLEXES DANS UN CORPUS ÉTIQUETÉ : ADEPTE-NOMINO

Pour s’initier à la problématique des modèles de recherche, on se propose d'étudier ici le fonctionnement d’Adepte-Nomino. Déjà très ancien, ce logiciel fait figure d'ancêtre, mais reste une référence. Dédié à la recherche de termes en français, il a été développé au début des années 90 par le Centre Centre d'analyse de texte par ordinateur (Centre ATO) de l'Université du Québec à Montréal (UQAM) dans le cadre d'un projet conjoint à l'Office québécois de la langue française (OQLF) et au Réseau international de néologie et de terminologie (RINT)38. Adepte-Nomino n'a pas la prétention d'être un extracteur automatique, mais un outil d'aide à la recherche de termes – uniquement conçus comme des syntagmes nominaux – dans des textes spécialisés et à la rédaction de fiches d'attestations. On en trouvera une excellente description synthétique dans l'article de Jean Perron (1996), Adepte-Nomino : un outil de veille terminologique.

4.2.3.1 LES UNITÉS COMPLEXES NOMINALES

37. Cette technologie a été expérimentée dans le logiciel Lexter développé par Didier Bourigault (1994).

38. Devenu ensuite Réseau international francophone d'aménagement linguistique (RIFAL).

Page 67: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

67

Adepte-Nomino présente la particularité d’être un outil dédié spécifiquement à la langue française et peut donc offrir le confort de la lemmatisation. Le traitement typique d’un fichier texte s’effectue en 4 étapes :

A. Identification des formes fléchies, des phrases, des noms propres, des abréviations et autres marques d’édition ;

B. Recherche pour chaque forme des lemmes possibles (relevé des homographies : avions, sommes, affluent…) et des caractéristiques morpho-syntaxiques. Ces dernières sont essentiellement déduites de la terminaison (une finale en –ez est propre à un verbe, sauf exception).

C. Analyse syntaxique bidirectionnelle des formes voisines : en commençant par le début de la phrase, on vérifie les candidats-lemmes qui précèdent ou suivent pour vérifier des hypothèses sur la base de quelque 300 règles de désambiguïsation.

P.ex. : si le lemme est potentiellement un nom, un adjectif ou un verbe et qu’il est précédé d’un adverbe, alors ce n’est pas un nom.

D. Recherche des unités complexes nominales : NOM + EXPANSION

- NOM + NOM : carte mère- NOM + PRÉPOSITION + NOM : carte à mémoire- NOM + PRÉPOSITION + VERBE : carte à jouer- NOM + ADJECTIF : abonné téléphonique- NOM + PARTICIPE PASSÉ : carte embossée

Le logiciel permet, en outre, de prendre en compte des « unités complexes nominales additionnelles ». Il s’agit d’une liste des expansions construites à l’aide :

- des prépositions avec, pour, sans et sur : état sans littoral- des déterminants : accès à la mer, mais aussi exercice de la liberté de transit et droit de la mer- des expansions infinitives (machine à laver)

Activer la recherche de ces unités additionnelles permet d'élargir la recherche, mais va dans le même temps générer plus de bruits.

4.2.3.2 UNE ORIGINALITÉ : LES PARAMÈTRES COMBINATOIRES

Lorsqu’on est confronté à un figement, on peut s’interroger sur les limites réelles du terme. Ainsi, dans le cas de système d'extraction minière et de traitement des minéraux, les termes envisageables sont :

- système d'extraction minière- système d'extraction - extraction minière- traitement des minéraux- système de traitement des minéraux- système de traitement

Adepte-Nomino permet de paramétrer utilement les critères de combinaison. Il permet même d’accepter de neutraliser des enchâssements ; par exemple, dans importation nette de produit de base, il proposera d’isoler importation de produit de base.

Dès lors pour la collocation incident de navigation maritime en haute mer, il envisagera :

Page 68: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

68

- incident de navigation maritime- incident de navigation- navigation maritime en haute mer- navigation maritime- haute mer- incident de navigation en haute mer- incident maritime en haute mer- incident maritime en mer- incident de navigation en mer- incident en haute mer- navigation maritime en mer- navigation en haute mer- navigation en mer

4.3 Retour à une question initiale : qu’est-ce un terme ?

4.3.1 APPROCHE CONCEPTUELLE (ÉCOLE DE VIENNE, ISO...)

Selon la vision du courant wüsterien, un terme est une « désignation (3.4.1) verbale d'un concept général (3.2.3) dans un domaine (3.1.2) spécifique » (ISO 1087-1 1999 : 3.4.3). Abstraction faite de la nature onomasiologique de cette définition, on en retiendra deux idées sous-jacentes :

• un terme peut avoir toutes sortes de formes et appartenir à n’importe quelle catégorie syntaxique, puisqu’il s’agit d’une « désignation verbale » ;

• cette désignation verbale doit être porteuse de sens, donc pouvoir être définie.

4.3.2 APPROCHE PRAGMATIQUE FONDÉE SUR LES CORPUS

Les stratégies d'identification des termes peuvent être statistiques, linguistiques ou combiner les deux approches. Comme le note Marie-Claude L'Homme (2008 : 192) :

« Les listes générées à la suite d'une extraction automatique renferment toujours des suites de mots qui n'intéressent pas l'utilisateur. Les candidats indésirables sont regroupés sous le générique bruit. Par ailleurs, l'extracteur peut omettre d'inscrire dans la liste des termes qui apparaissent dans le texte dépouillé. Les termes omis sont regroupés sous le générique silence. »

Face à ce constat, nous avons défendu l'idée que dès que l'on se retrouve dans une situation de production terminographique, le retour au tri systématique des microcontextes produits systématiquement par un concordancier restait la méthode la plus productive. Cette méthode renvoie à une question empirique qui ne peut être résolue, pour l'heure, par un algorithme : qu’est-ce qui fait que lisant un texte plus ou moins spécialisé, on identifie telle ou telle suite de caractères comme un terme ? On sait que les réactions dépendent de la personne et le spécialiste n’est pas nécessairement, tant s'en faut, celui qui en détecte le plus.

S’agissant de concevoir et d'alimenter des bases de données terminologiques multilingues utiles à la traduction, on doit considérer comme terme tout mot ou toute suite de mots identifiés comme potentiellement problématique par le traducteur. La question qui se pose alors pour le concepteur de logiciel – et qu’il lui est difficile de formaliser – est : « qu’est-ce qui conduit le traducteur à ouvrir son dictionnaire spécialisé ? » :

Page 69: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

69

- le mot est inconnu- le mot semble avoir un sens inhabituel- le mot a un emploi syntaxique inhabituel (genre, construction, valence…)- la forme du mot donne à penser à un emploi spécialisé- le mot apparaît souvent avec les mêmes collocations- le mot précède ou suit systématiquement un terme connu…

On peut aisément imaginer que face à de tels phénomènes, le traducteur scrupuleux s’interrogera sur la nécessité de traduire ce passage de manière particulière ou non. Ainsi, il va se demander comment traduire des passages attestés N fois et correspondant à des n-grammes pertinents :

- voilier en route libre derrière- droit d'accès à la mer et depuis la mer- régime juridique des eaux archipélagiques- importation nette de produits de base - système d'extraction minière et de traitement des minéraux

…et il aura à chaque fois bien raison de consulter scrupuleusement des dictionnaires et bases de données terminologiques. Là commencera son calvaire sur la route de l’incertitude, car il trouvera peut-être seulement :

- route libre derrière- accès à la mer- régime juridique- archipélagique- produit de base - extraction minière- traitement des minéraux

Sous l’éclairage de la linguistique de corpus, le terme semble donc pouvoir être défini comme le mot ou la suite de mots qui pose un problème de recherche d’équivalence, de compréhension ou d’usage phrastique.

Cette définition n’est, certes, pas la plus orthodoxe, mais elle est celle qui se rapproche sans doute le plus de la réalité quotidienne du traducteur. Ce point de vue rejoint l’opinion nouvellement (et enfin) admise qui voudrait que la terminologie ne soit pas seulement une discipline consacrée à l’élaboration de glossaires. Elle doit aussi fournir des informations sur les collocations dans les textes spécialisés et sur les métamorphoses de termes qui ne sont pas toujours des syntagmes figés.

Exercice : en vous fondant sur un dictionnaire spécialisé et sur un vaste corpus textuel appartenant au même domaine, trouvez pour au moins dix des catégories de l’inventaire qui suit, un terme qui puisse servir d’illustration. Sur le modèle adopté pour Adepte-Nomino, rédigez une fiche d’attestation pour chaque exemple.

- terme simple : magnitude

- terme complexe : calque de situation surface- expression idiomatique : à fleur d'eau- dérivation (préfixale, suffixale, parasynthétique, régressive) : aphotique- composition et confixation (antérieure ou postérieure) : bioluminescence, houlographe- métaphore : - néologisme (lexical ou sémantique) : radome, navarea

Page 70: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

70

- emprunt (lexical ou sémantique), calque, xénisme : bedrock, boomer- troncation : gyro (pour gyrocompas)- abréviation (sigle, acronyme) : GPS (global positioning system), radar (radio détection and

ranging), avurnav. (avis urgent aux navigateurs)- mot-valise : racon (radar beacon)

4.4 Typologie des contextes d'attestation

Le travail de recherche des termes d'un texte peut avoir plusieurs visées. Le traducteur professionnel sera intéressé à évaluer la difficulté d'une traduction pour établir un devis, mais aussi, en cours de travail, à identifier les termes spécialisés à traduire. Le traducteur-terminographe voudra, lui, faire l'inventaire de tous les termes à décrire dans un texte spécialisé rédigé par un locuteur natif et rassembler, pour chacun d'entre eux, un maximum de contextes lui permettant de parfaire son analyse du sens et de l'usage du terme.

À ce stade de recherche des unités terminologiques, on rédige une fiche d'attestation par terme, sans procéder à une analyse autre que celle portant sur les frontières du terme et sans encore regrouper les synonymes, ce qui reviendrait déjà à aborder la question du sens. Si l’on pense avoir trouvé un synonyme dans le texte, on rédige une deuxième fiche d’attestation à son propos et l'on privilégie, bien entendu, les contextes témoignant de la synonymie. In fine, dans le dictionnaire ou la base de données, le terminographe veillera à produire un contexte d'attestation qui constituera, conformément à la tradition lexicographique, une preuve pertinente de l'usage du terme, voire apportera une précision éclairante à son propos.

Dans ce cadre se pose la question du choix d'un ou de plusieurs contextes pertinents. Les ouvrages de référence en terminologie proposent chacun leur typologie, plus ou moins proche les unes des autres, selon des critères plus ou moins cohérents et en fournissant des exemples plus ou moins pertinents.

« contexte

Énoncé dans lequel figure le terme étudié.

Note. – On distingue cinq types de contextes : le contexte définitoire, qui renseigne sur le contenu notionnel d’un terme sans avoir la rigueur d’une définition ; le contexte encyclopédique, qui renseigne sur la nature, l’usage ou un autre aspect de l’objet désigné par un terme, sans le définir ; le contexte associatif, qui permet de rattacher un terme à un domaine particulier ou à un groupe de termes désignant des notions apparentées ; le contexte langagier, qui illustre le fonctionnement d’un terme en discours ; le contexte métalinguistique, où un terme est utilisé de façon autonymique, c’est-à-dire en tant que signe. »

(Boutin-Quesnel et. al. 1985 : 27)

« contexte

texte qui illustre l'usage d'un concept (3.2.1) ou qui atteste l'usage d'une désignation (3.4.1) » (ISO 1087-1 2000 : point 3.6.10).

« a) le contexte définitoire

Page 71: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

71

DESCRIPTION : Contexte qui fournit toute l’information nécessaire concernant la notion, mais qui ne possède pas la rigueur formelle d’une définition.

NOTE : On peut parler de contexte encyclopédique lorsqu’un contexte définitoire est composé d’une longue description sur la notion en question.

EXEMPLE : Contexte définitoire du terme « issage » le « issage» est un ensemble d’opérations visant à produire des tissus en entrelaçant une au plusieurs séries de fils, au moins un fil de chaîne et un fil de trame, à angle droit les uns par rapport aux autres.

b) le contexte explicatif d’une notion.

EXEMPLE : Contexte explicatif du terme « peigne » : le « peigne », qui garde séparés les fils de chaîne, aide à déterminer la largeur de l’étoffe.

c) le contexte associatif

DESCRIPTION : Contexte contenant le minimum d’informations notionnelles nécessaires pour associer la notion à un champ notionnel précis.

EXEMPLE : Contexte associatif du terme «tablier»: La navette qui contient le fil de trame passe d’un côté à l’autre de la foule du métier, et le fil ainsi placé est poussé par le peigne vers les nœuds fixés au tablier.

d) le contexte linguistique

DESCRIPTION : Contexte illustrant la fonction du terme dans le discours, mais qui ne fournit aucune information notionnelle.

NOTE : Les cas où l’occurrence d’un terme n’est pas associée à un discours environnant sont de simples attestations.

EXEMPLE : Les «rectifieurs de surfaces cylindriques» consomment généralement peu d’électricité.

e) le contexte métalinguistique

DESCRIPTION : Contexte consistant en un discours sur le terme, destiné à présenter son emploi autonyme.

NOTE : Le contexte métalinguistique se distingue des autres types de contexte par le fait qu’il constitue une description du terme lui-même. Les autres types de contexte consistent en une description de la notion ou de l’objet auquel se réfère le terme.

EXEMPLE : — Le terme expertise en français, employé au sens de compétence d’expert (expert competence), est un emprunt de l’anglais. — L’obstruction, pratique réputée consistant à mener de très longs débats, peut sérieusement entraver le processus législatif. »

(ISO 12620 1999 : A.5.3)

Le classement typologique est, en fait, un pur exercice intellectuel réputé aider le terminographe à choisir au mieux les contextes qu'il retiendra comme pertinent. La fine distinction de ces contextes

Page 72: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

72

en vertu de top nombreux critères s'avère souvent peu opératoire, voir contre-productive. Le logiciel Adepte-Nomino, qui sert à la rédaction de fiche d'attestation, propose intelligemment au terminologue de classer les contextes dans trois catégories qu'il demeure libre de définir à son gré. Par souci de rationalisation, nous proposons de ne distinguer que quatre grandes catégories de contextes dans les travaux de terminologie : métalinguistique, encyclopédique, associatif, autre.

4.4.1 CONTEXTES MÉTALINGUISTIQUES

Il s'agit, dans notre esprit, de tous les contextes où le terme figure comme autonyme et fait l'objet de la fonction métalinguistique (cf. cours de LFEII). Il peut notamment s'agir des cas suivants :

- l'énoncé contient une forme de définition ;

- l'énoncé précise les conditions d'usage du terme ;

- l'énoncé mentionne une synonymie ;

- l'énoncé mentionne une équivalence ;

- l'énoncé invite à ne pas confondre le terme avec un autre.

4.4.2 CONTEXTES ENCYCLOPÉDIQUES

En s'inspirant de la définition de Boutin-Quesnel et. al. (1985 : 27), on peut, qu'ils renseignent sur la nature, l’usage ou un autre aspect de l’objet ou la classe d'objets concrets ou abstraits ou désigné par un terme, sans le définir selon les canons de la définition étudiés au cours de LFEII. Le contexte encyclopédique fournit des connaissances, des traits non discriminatoires et superflus qui dépassent les traits sémantiques requis par une définition par compréhension.

4.4.3 CONTEXTES ASSOCIATIFS

Ici aussi, la définition des mêmes auteurs est satisfaisante : le contexte associatif « permet de rattacher un terme à un domaine particulier ou à un groupe de termes désignant des notions apparentées ».

4.4.4 AUTRES CONTEXTES

Il s'agit de tous les autres contextes, où l'usage du terme est attesté, sans que l'on puisse en tirer de véritables enseignements d'ordre sémantique. Ces contextes peuvent parfois illustrer adéquatement un fonctionnement phraséologique intéressant qui pourra faire l'objet d'une remarque d'usage : le terme requiert tel type de verbe lorsqu'il est utilisé comme sujet, il est généralement attesté dans un figement phrastique plus important, il est le plus souvent utilisé au pluriel, etc.

4.5 Principales difficultés rencontrées dans le choix des contextes

Dans une communication présentée aux Journées de la linguistique de corpus (Van Campenhoudt 2005), nous avons dressé un tableau des principales difficultés que pose le choix des contextes dans le cadre du travail d'examen demandé pour le présent cours39. Ces difficultés sont à l'image de celles que rencontrent les rares terminographes qui se risquent à fournir des contextes

39. Nous présentons la vedette de chaque fiche d’attestation entre crochets et en caractères gras. Le passage problématique est mis en italiques.

Page 73: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

73

d'attestation. Certaines relèvent d'ailleurs de la problématique générale d'identification des termes décrits au point XXX.

• Assimilation abusive du contexte définitoire avec la définition du dictionnaire ou de l’encyclopédie.

[État côtier] « État qui, en raison de sa situation de riverain de la mer, est habilité à exercer certaines compétences sur les eaux adjacentes et les activités maritimes qui s'y déroulent. » (CILF, Dictionnaire de l'océan, 1989.)

• Le contexte est définitoire pour un autre terme.

[Échancrure] « 2. Aux fins de la Convention, on entend par "baie" une échancrure bien marquée dont la pénétration dans les terres par rapport à sa largeur à l'ouverture est telle que les eaux qu'elle renferme sont cernées par la côte et qu'elle constitue plus qu'une simple inflexion de la côte. » (OHI 1993)

• Le contexte parle simplement du thème évoqué par le terme, mais ne contient aucune attestation.

[Conduite de la recherche scientifique marine] « Les États côtiers, dans l'exercice de leur souveraineté, ont le droit exclusif de réglementer, d'autoriser et de mener des recherches scientifiques marines dans leur mer territoriale. » (Nations unies 1982)

• Le terme est manifestement une variante synonymique.

[Equidistance line] « In plane geometry a perpendicular to a straight line is also a line of equidistance relative to that line. » (IHO 1993)

• Le contexte aligné dans l’autre langue ne contient pas le terme équivalent, car la traduction n’est pas littérale.

[Projection gnomonique] « Mise à part sa propriété fondamentale de représenter les grands cercles par des lignes droites, la projection gnomonique ne convient pas pour la détermination des limites, parce qu'elle n'est pas conforme et que l'échelle radiale augmente rapidement à partir du point de déformation nulle. » (OHI 1993)

[Proyección gnomónica] « Aparte de su capacidad básica de mostrar los círculos máximos como líneas rectas, no es útil para la delimitación de fronteras, puesto que no es conforme, y la escala radial crece rápidamente desde el punto de distorsión cero. » (OHI 1996)

• Le contexte présente le terme avec une coquille.

[Proyección gnomónica] « Un tipo de particular de proyección azimutal muestra los círculos máximos como líneas rectas, se le denomina protección Gnomónica. Consecuentemente, es utilizada principalmente por los aviadores cuya necesidad básica es trazar rumbos a lo largo de grandes distancias, esto ocasiona que las cartas gnomónicas se usen primariamente en escalas pequeñas. » (OHI 1996)

• Le contexte n’est pas assez étendu pour être compréhensible. Ceci peut-être lié à différentes causes : une anaphore est privée de son antécédent (7), un titre est proposé comme contexte (8) ou seule une partie du terme figure dans le contexte (9).

Page 74: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

74

[Ellipsoïde de référence] « Lorsqu'elle subit une projection inverse sur l'ellipsoïde de référence, elle diffère généralement de la courbe géodésique et elle n'est généralement pas une courbe plane. » (OHI 1993)

[Ligne de rhumb] « 1.4.2 Loxodromie (ligne de rhumb) » (OHI 1993)

[Gnomonic projection] « A particular type of azimuthal projection, known as the Gnomonic, has the unique capability of showing great circles as straight lines. It is, consequently, used by navigators wishing to lay off courses over a long distance, and this results in gnomonic charts being primarily used at small scales. » (IHO 1993)

Les termes spécialisés sont souvent des syntagmes complexes. Dès lors que dans une fiche terminologique, le champ « contexte » se doit d’apporter une preuve de l’existence de l’entrée décrite dans l’usage réel, il importe que le passage retenu ne permette pas de douter des frontières du syntagme. Malgré cette précision, il n’est pas rare que l’étudiant tombe dans différents pièges typiques :

• Le terme possède une expansion plus longue et désigne sans doute un hyponyme.

[Projection stéréographique] « Les régions polaires (au-dessus de 65° de latitude) sont représentées sur une projection stéréographique polaire à une échelle de 1:6 000 000. » (OHI 1993)

• Le terme proposé semble correspondre à l’expansion d’un syntagme plus large.

[Droit de poursuite] « 8. Un navire qui a été stoppé ou arrêté en dehors de la mer territoriale dans des circonstances ne justifiant pas l'exercice du droit de poursuite est indemnisé de toute perte ou de tout dommage éventuels. » (OHI 1993)

• La présence d’un déterminant conduit à douter des limites du terme, ce qui appelle au minimum une clarification.

[Eaux intérieures de l’État] « 1. Sous réserve de la partie IV, les eaux situées en deçà de la ligne de base de la mer territoriale font partie des eaux intérieures de l’État. » (Nations unies 1982)

En terminologie, le figement du terme a longtemps été considéré comme un fait avéré, selon une attitude fondée sur la volonté d’adopter les critères lexicologiques d’identification du syntagme figé (cf. cours de LFEII). On se rappellera que les dictionnaires spécialisés multilingues se distinguent, certes, de la lexicographie de la langue générale par l’octroi d’entrées aux syntagmes, mais cette pratique demeure habituellement fondée sur le critère strict de la réussite des tests de lexicalisation et notamment du test de dislocation. Il importe donc, en bonne doctrine, d’éviter d’asseoir l’existence d’un terme sur des contextes où la présence d’un signe de ponctuation (marée de vive eau) ou l’usage de guillemets (ligne de base normale) remettent en cause le figement. Observons que les options de réglage des concordanciers permettent souvent de neutraliser ces caractères, ce que l’on a tendance à perdre de vue lorsqu’on consulte une concordance.

[Marée de vive eau] « D'autres encore utilisent le niveau des plus basses mers, marée de vive eau (PBMMVE), qui est la moyenne des observations des plus basses mers des marées de vive eau sur une période spécifiée. » (OHI 1993)

[Ligne de base normale] « Un haut-fond découvrant peut faire partie de la ligne de base "normale" seulement s'il est situé en totalité ou en partie à une distance du continent ou d'une île ne dépassant pas la largeur de la mer territoriale. » (OHI 1993)

Page 75: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

75

Par ailleurs, les logiciels d’extraction terminologique permettent souvent de modifier les critères de recherche de candidats-termes. Ainsi, on a vu en XXX qu'Adepte-Nomino autorise un paramétrage des critères de combinaison qui permet de neutraliser des enchâssements (cas d'incident de navigation maritime en haute mer). Il convient donc d'être vigilant pour éviter de proposer des contextes qui remettent en cause le figement du terme censément attesté. Plusieurs cas de figure interviennent ici aussi :

• Le syntagme est disloqué.

[Outer limit of the continental shelf] « Subject to this Part, the outer limit lines of the continental shelf and the lines of delimitation drawn in accordance with article 83 shall be shown on charts of a scale or scales adequate for ascertaining their position. » (IHO 1993)

• La construction syntaxique remet en cause le figement.

[Eaux surjacentes] « Ni la présente partie, ni les droits accordés ou exercés en vertu de celle-ci n'affectent le régime juridique des eaux surjacentes à la Zone ou celui de l'espace aérien situé au-dessus de ces eaux. » (Nations unies 1982)

• Un déterminant (ici un hapax dans le corpus) remet en cause le figement.

[Largeur de la mer territoriale] « Tout État a le droit de fixer la largeur de sa mer territoriale, cette largeur ne dépasse pas 12 milles marins mesurés à partir de lignes de base établies conformément à la Convention. » (Nations unies 1982)

A priori, ces contextes ne semblent pas convenir pour attester de l’existence des termes visés. Le censeur est tenté de les déclarer inadéquats en vertu du « dogme » du figement du syntagme. Il est vrai que leur existence avérée témoigne d’une réalité parfois dérangeante pour le dictionnariste : reconnaître aux syntagmes le statut de signes associant signifiant et signifié, n’implique-t-il pas d’admettre que dans le corpus, ces signes présentent une variation du signifiant ? Cette variation, acceptée sous l’angle de la morphologie (flexion), ne concerne-t-elle pas également la syntaxe lexicale (dislocation) ? Force est, par exemple, de reconnaître que dans l’extrait qui suit la dislocation par une épithète à fonction classificatrice (étranger, ennemi, allié…) ne remet pas véritablement en cause l’existence du terme vedette navire à propulsion nucléaire. Il n'en reste toutefois pas moins vrai que ce type de contexte ne peut pas être utilisé involontairement : il doit être cité pour prouver que le terme, attesté maintes fois par ailleurs, est susceptible de tolérer l'insertion de telle ou telle épithète.

[Navire à propulsion nucléaire] « Les navires étrangers à propulsion nucléaire, ainsi que ceux transportant des substances radioactives ou autres substances intrinsèquement dangereuses ou nocives, sont tenus, lorsqu'ils exercent leur droit de passage inoffensif dans la mer territoriale, d'être munis des documents et de prendre les mesures spéciales de précaution prévues par des accords internationaux pour ces navires. » (Nations unies 1982)

Il ne fait aucun doute que le critère référentiel joue un rôle très important dans les choix du terminographe néophyte : il est très courant qu’il propose un contexte contenant une expression du type « …à bord des navires à propulsion classique ou à propulsion nucléaire… » pour prouver l’existence du terme navire à propulsion nucléaire. Si un tel contexte ne peut servir de preuve de l’existence de ce dernier, il serait faux de nier qu’il ne fait pas référence à un tel type de navire.

______________________________________

Page 76: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

76

BIBLIOGRAPHIE

Bourigault (D.), 1994 : LEXTER, un logiciel d'extraction de terminologie. Application à l'acquisition des connaissances à partir de textes, Paris : École des hautes études en sciences sociales (thèse de doctorat).

Castro (E.), 2001 : XML pour le World wide web, Paris : Peachpit (Quickstar visuel), exemples téléchargeables à l’adresse www.informit.fr/rubriques/download.asp.

Mustafa El Hadi (W.) et Chaudiron (S.), 2007 : « L’évaluation des outils d’acquisition de ressources terminologiques : problèmes et enjeux, dans Terminologie & Ontologie : Théories et Applications. Actes de la conférence TOTh 2007. Annecy - 1er juin 2007, Annecy : Institut Porphyre, p. 163-179 (Savoir et connaissance).

Popescu-Bellis (A.), 2003 : Cours XML pour le DESS en TAO et le DEA en TIM : L'impact d'XML pour les technologies multilingues, Genève : Université de Genèvre, www.issco.unige.ch/staff/andrei/xml/index.html.

Roche (Chr.), à paraître :

Timimi (I.), 2007 : « Peut-on faire confiance aux outils de terminologie ? L’évaluation entre un souci de normalisation et une complexité de modélisation », dans, Terminologie & Ontologie : Théories et Applications. Actes de la conférence TOTh 2007. Annecy - 1er juin 2007, Annecy : Institut Porphyre, p. 143-162 (Savoir et connaissance).

Page 77: INSTITUT SUPÉRIEUR DE TRADUCTEURS ET …paulmura.phpnet.org/campus/isti/courses/TERM001/document/Intranet... · 5 Dans la suite du cours, nous allons aborder tour à tour les différentes

77

Table des matières

Table des matières