55
LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU LABORATOIRE D'ANALYSE STA T/ST/QUE DES LANGUES ANCIENNES. Depuis quelques mois, le Laboratoire d'Analyse statistique des Langues anciennes applique aux textes français les méthodes de traitement automatique des langues qu'il a mises au pqint pour le latin et pour le grec. Cet article a pour but de décrire les moyens utilisés et lès programmes élaborés pour une analyse,.morpho- syntaxique automatique du français contemporain. Nous diviserons cet exposé en quatre parties. Nous parlerons d'abord des problèmes posés par l'enregistrement des textes sur un support informatique et nous décrirons les solutions que nous avons adoptées. Dans la deuxième partie, nous préciserons la nature des informations lexicologiques et grammaticales que nous enregistrons à propos de chaque mot d'un texte. Nous exposerons ensuite les procédés automatiques qui nous permettent d'analyser et de lemmatiser les mots d'un texte. Enfin, dans un dernier chapitre, nous décrirons notre programme de levée automa- tique des amphibologies. Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

AU LABORATOIRE D'ANALYSE STA T/ST/QUE DES LANGUES ANCIENNES.

Depuis quelques mois, le Laboratoire d'Analyse statistique des Langues anciennes

applique aux textes français les méthodes de traitement automatique des langues

qu'il a mises au pqint pour le latin et pour le grec. Cet article a pour but de

décrire les moyens utilisés et lès programmes élaborés pour une analyse,.morpho­

syntaxique automatique du français contemporain.

Nous diviserons cet exposé en quatre parties.

Nous parlerons d'abord des problèmes posés par l'enregistrement des textes sur un

support informatique et nous décrirons les solutions que nous avons adoptées.

Dans la deuxième partie, nous préciserons la nature des informations lexicologiques

et grammaticales que nous enregistrons à propos de chaque mot d'un texte.

Nous exposerons ensuite les procédés automatiques qui nous permettent d'analyser

et de lemmatiser les mots d'un texte.

Enfin, dans un dernier chapitre, nous décrirons notre programme de levée automa­tique des amphibologies.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 2: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

1. Enregistrement des textes sur cartes mécanographiques.

A. L'ALPHABET

Le premier problème concerne le choix des informations à enregistrer. Il est

évident que, pour le français, l'on ne peut se limiter è enregistrer les seuls

caractères alphabétiques comme nous le faisons pour le latin.

Les signes diacritiques (ponctuation,trait d'union etc.) et les accents sont

autant d'éléments qui permettent soit de différencier certains mots,

soit de constituer ces expressions complexes si fréquentes dans la langue.

Ainsi les participes passés des verbes en -er ne se peuvent distinguer des formes

personnelles de l'indicatif, impératif et subjonctif que grâce à leur accent. Ainsi

aussi, ce sont les accents qui permettent de distinguer l'adjectif âpres de l'adverbe après.

Cette nécessité où nous étions de tenir compte de tous les signes diacritiques

nous a conduits à résoudre un double problème technique : celui de l'entrée

des données en machine et celui de leur impression définitive après le traite­

ment en ordinateur. En effet, les perforatrices ne sont pas pourvues de tou­

ches pour perforer les lettres avec accents. De même, les imprimantes d'ordina­

teur ne possèdent pas de chaîne standard d'impression de ces lettres. Cela

tient à une double raison : d'abord ces machines ont été conçues pour travail­

ler en anglais, ensuite elles impriment en typographie pauvre, le plus souvent

en capitales. Cependant, nous avons demandé à la société IBM de modifier

une chaîne majuscules-minuscules pour y incorporer les accents. Cette chaine

nous sert à produire des listings de travail et de contrôle.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 3: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Mais pour la production des documents qui doivent être imprimés en offset

nous utilisons le système de perforation et d'impression IBM 870.

Ce système se compose d'une perforatrice connectée à une machine à écrire automatique (IBM 72), équipée d'une sphère d'impression française

qui comporte tous les caractères dont nous avons besoin, qu'il s'agisse des

lettres et des chiffres proprement dits ou qu'il s'agisse de codes de comman­de pour certaines fonctions de la machine.

On trouve dans le tableau ci-dessous, la liste des codes que nous utilisons avec

leur signification lorsque la sphère d'impression se trouve en position majus­

cule et en position minuscule.

Perforation

0 1

2 3 4

5 6

7

8 9 - (skip)

&

%

Majuscule

0

2 3 4

5

6 7

8 9

%

Minuscule

à

é

' (apostrophe)

è

ç

ù

3

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 4: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

La machine à écrire est programmée pour travailler en minuscule. La mise en majuscule est commandée par un code spécial (représenté par J'a commer­cial, perforations : 4- 8) perforé immédiatement avant la lettre qui doit être écrite en majuscule. Voici un exemple : une perforation 2 en colonne 10 sera traduite normalement par J'é (e, accent aigu). Mais si la colonne 9 porte la perforation a commercial, la sphère d'impression se mettra à cet instant en position majuscule et imprimera en colonne 10 Je chiffre 2.

B. LE MOT

Le second problème que nous avons dû résoudre concerne Je mot. Qu'est-ce qu'un mot ? Tot capita, tot sensus. Et les exemples classiques sont chemin de fer et pomme de terre, que les uns considèrent comme un seul mot tandis que les autres en font trois mots distincts.

1) D'une manière générale, nous nous sommes résignés à adopter une position aussi formelle que possible : nous considérons comme un mot la lettre ou Je groupe de lettres compris entre deux blancs typographiques, l'apostrophe jouant Je même rôle qu'un blanc.

2) Un cas particulier est constitué par les expressions où intervient Je trait d'union. Il faut en distinguer deux types.

Le premier est celui où les mots font partie d'une expression figée qui, sémantiquement, a la valeur d'un mot unique. Ainsi : peut-être, c'est­à-dire etc.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 5: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Cette expression est perforée, trait d'union compris, dans une zone unique,

comme s'il s'agissait d'un seul mot.

Dans le second type, chaque mot de l'expression garde sa valeur propre et

le trait d'union n'est que la marque d'un lien entre les termes de l'expres­

sion: il n'est d'ailleurs pratiquement employé que dan.s les inversions.

Ainsi : a-t-il, dit-il etc.

Chaque élément de l'expression est perforé dans une zone propre, de manière que chaque mot de cette expression puisse être analysé séparément.

3) Nous avons rencontré le problème de locutions qui, sans être aussi figées

que les expressions du type peut-être, peuvent difficilement être dissociées

dans l'analyse. Tel est le cas de la locution : de sorte que. On peut en

faire un mot unique, mais que faire dès lors de la variante : de telle sorte que ? Nous avons résolu ce problème en perforant et en analysant séparé­

ment chaque terme de l'expression et en indiquant, pour chaque mot, par

un code spécial en position 60, qu'il s'agit d'une locution complexe.

4) Enfin, les formes composées de la conjugaison nécessitent également un

traitement spécial un peu analogue au cas précédent : les éléments sont

perforés et analysés séparément, puis, dans un stade ultérieur du travail,

le philologue les regroupe et donne à la forme entière l'analyse correcte.

Exemple : La forme verbale a chanté est perforée dans deux cartes, comme

5

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 6: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

s'il s'agissait de deux mots distincts. La reconstitution de l'expression et

son analyse comme forme composée de la conjugaison sont, dans la plupart des cas, l'oeuvre du programme d'analyse. Dans d'autres CéJS, le philologue

doit intervenir.

Les mots à analyser sont enregistrés sur cartes mécanographiques, dans l'ordre

naturel du texte, à raison de 3 mots par carte. Chaque mot peut éventuel­lement être accompagné de codes de ponctuation et, s'il s'agit d'une pièce

de théâtre, de codes spéciaux indiquant chaque rôle.

Voici le dessin d'une carte, avec ses 3 zones de perforation.

Forme

1ère zone : col. 1-20 2e zone : col. 23-42 3e zone : col. 45-64 Code d'un rôle : col. 70

Ponctuation de référence

col. 21

col. 43 col. 65

Ponctuation réelle

col. 22

col. 44 col. 66

Ce tableau montre que nous distinguons deux types de ponctuation. Le

premier,- appelé ponctuation de référence, est destiné à faire calculer par

l'ordinateur les références de chaque mot de l'oeuvre par rapport aux cha­pitres, aux paragraphes, à la phrase ou par rapport à la page et à la ligne.

Le code que nous utilisons est un code alphanumérique dont voici la

signification.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 7: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Une perforation 11 indique le dernier mot d'un chapitre et d'un paragraphe.

Une perforation K indique le dernier mot d'un chapitre, d'un paragraphe

et d'une phrase.

Une perforation 0 indique le dernier mot d'un paragraphe.

Une perforation S indique le dernier mot d'un paragraphe et d'une phrase.

Une perforation 2 indique le dernier mot d'une phrase.

Le second type de ponctuation que nous appelons ponctuation réelle reprend la ponctuation de l'éditeur : virgule, point-virgule, deux points etc.

Elle intervient directement dans l'analyse morphologique du texte. C'est

elle, en effet, qui, dans certains cas, permet à l'ordinateur de choisir pour

les formes amphibologiques l'analyse correcte.

Le dessin de l'enregistrement.

Nous décrivons ici l'enregistrement d'un mot tel qu'il apparaît à l'étape finale

du travail, c'est-à-dire constitué d'\')bord par l'ordinateur au cours d'une analyse

morphologique automatique, puis complété syntaxiquement ou corrigé

par le philologue. En fait, il s'agit des renseignements suivants: lemme,

forme, référence, analyse morphologique et codes de ponctuation. Le tableau

ci-dessous donne les positions de ces divers renseignements dans l'enregistrement.

Col. 1 : code carte

Col. 2-18 : lemme et indice de lemme

Col. 1.9-38 forme

Col. 39-53 : référence : 39-40 : code d'oeuvre

41-43 : numéro du chapitre

44-47 : numéro du §ou du vers

7

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 8: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

CoL 54-64

65

66 67-70

71-75

76-80

48-50 : numéro d'ordre du mot dans le paragraphe

ou dans le vers

51-53 : numéro d'ordre du mot dans la phrase

Analyse f'!lOrpho-syntaxique

ponctuation réelle

ponctuation de référence néant

numéro d'ordre du mot dans l'oeuvre

numéro d'ordre du mot dans liindex.

A. Les conventions de l'analyse

8

1. LE LEMME (position 2 à 18)

Le lemme est la forme du mot telle qu'elle figure au dictionnaire que

nous avons choisi comme référence et qui est le Dictionnaire alphabétique

et analogique de la langue française de P. Robert.

En théorie, la lemmatisation selon ce dictionnaire, ne parait pas poser de

problème. Dans la pratique, elle se heurte à des difficultés qui nous ont

amenés à nous écarter du Robert sur certains points.

a) La plupart des articles du Robert se terminent par une rubrique intitu­

lée "Dérivés". Ainsi on trouve à l'article âpre le dérivé âpreté. Dans la plupart des cas, on trouvera un nouvel article consacré au

dérivé lui-même. Ainsi en va-t-il pour âpreté. Malheureusement, il

existe un certain nombre de cas où un mot est cité uniquement comme

dérivé d'un autre mot et ne possède pas de rubrique propre.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 9: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Voici quelques exemples : fraisier n'est cité que comme dérivé de fraise. Lainage apparaît uniquement comme dérivé de laine. Sous la rubrique

peupler on trouve en dérivation le verbe surpeupler, qui ne fait pas

l'objet d'un article. Par contre, l'adjectif surpeuplé possède son propre

article et présente comme dérivé le verbe surpeupler !

Dans tous ces cas, nous avons considéré les dérivés comme des lemmes à part entière.

b) En ce qui concerne le traitement des participes présents et des parti­

cipes passés adjectivés ou substantivés, le Robert ne possède pas une

doctrine cohérente. Tantôt ces formes app~raissent comme des lemmes

distincts et tantôt elles sont rangées sous les verbes dont elles dérivent.

Ainsi on trouve un lemme assiégeant, adjectif (participe présent de assié­

ger) et substantif, à côté d'un lemme assiéger. Par contre, le substantif

assiégé n'est pas un lemme : il est rangé uniquement sous le verbe

assiéger.

Voici la solution que nous avons adoptée pour remédier à ces incohérences.

Nous avons décidé de codifier au niveau de la forme les emplois adjectivés

ou substantivés des participes, ce qui, au niveau du lemme, nous permet

de les ranger sous le verbe dont ils dépendent.

Ainsi on trouvera l'analyse suivante

ASSIEGER ASSIEGEANT E1059 A

9

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 10: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

lO

Il est cependant évident que nous avons maintenu comme lemmes indépen­

dants, des participes qui dans la langue sont figés dans la catégorie gramma­

ticale de substantif ou d'adjectif.

Ainsi commandant désignant un officier est un substantif et fera l'objet

d'un lemme.

2. L'INDICE DE LEMME (position 18)

Nous appelons"indice de lemme", le code numérique qui a pour but de

distinguer entre eux les lemmes homographes.

a) Ce code procède de notre système de classement des mots : il corres­

pond à la succession alphanumérique des catégories et des sous-catégo­

ries grammaticales dans notre codification. Nous attribuons l'indice 1

au lemme qui se trouve le premier dans cette succession.

Voici quelques exemples.

Le substantif ton porte l'indice 1 parce que les substantifs sont codifiés

A. L'adjectif - pronom possessif ton reçoit ·l'indice 2 parce que les

adjectifs - pronoms sont codifiés D.

Le pronom relatif qui porte l'indice 1 parce que ce pronom est codifié

D4. Par contre, qui pronom interrogatif porte l'indice 2 parce que les

pronoms de cette catégorie sont codifiés D5.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 11: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

b) Lorsque deux lemmes homographes appartiennent à la même catégorie

grammaticale, nous leur attribuons, comme indice de lemme, un chiffre

qui correspond au numéro· d'ordre qu'ils possèdent dans le Robert.

Le substantif son, dans le sens de sensation auditive, porte l'indice 1

parce qu'il est cité en premier lieu par le Robert. Son, déchet de

céréale, recevra l'indice 2.

c) Les verbes être et avoir sont tantôt des verbes au sens plein et, dans

ce cas, ils portent l'indice 2 ; tantôt ils sont des auxiliaires et, dans

ce cas, ils portent l'indice 3.

d) Les noms propres sont suivis de l'indice alphabétique N.

3. L'ANALYSE DE LA FORME

Chaque forme fait l'objet d'une analyse morphologique complète, qui est

enregistrée dans les positions 54 à 63. On trouvera, en annexe, les.

tableaux des codes d'analyse, dont nous donnons ici une description

détaillée.

Position 54

C'est dans cette position que la catégorie grammaticale à laquelle le mot

appartient est inscrite.

Il n'est pas toujours aisé de ranger les mots dans une catégorie déterminée.

On trouve, en effet, fréquemment des adjectifs employés substantivement

11

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 12: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

12

ou adverbialement, des verbes et des adverbes jouant le rôle de substantifs,

des prépositions qui sont aussi adverbes etc. Pour tous ces mots, Robert

note à côté du lemme, les catégories grammaticales possibles du mot.

Ainsi beau est accompagné des mentions : adjectif et nom et il est évi­

dent que la catégorie citée en premier lieu est la plus fréquente.

Comme, techniquement, on ne pouvait enregistrer en mémoire de l'ordi­

nateur .qu'une seule catégorie à propos de chaque mot, nous avons décidé

de rattacher les lemmes à la catégorie grammaticale citée en premier lieu

par le Robert. Dès lors, beau est catalogué comme adjectif et l'ordinateur

l'analysera comme tel. Dans les cas où il s'agira d'une forme substantivée,

ce sera le rôle du philologue de noter (en position 56) cet emploi

particulier.

Position 55

Dans cette position sont enregistrées certaines précisions d'ordre morpho­

logique et syntaxique, pour les catégories grammaticales suivantes :

a) L'adjectif pronom

Nous distinguons ici, comme les grammaires traditionnelles, l'adjectif­

pronom personnel, démonstratif, relatif, interrogatif et indéfini.

Cependant pour des raisons techniques et, en vérité, parce que l'ordi­

nateur ne peut faire la différence, nous ne distinguons pas les emplois

adjectivés des emplois pronominaux des adjectifs-pronoms. Ainsi les

diverses formes de tout seront codifiées D6, quel que soit leur emploi.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 13: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

D'autre part, on sait que les mots en (1) et y peuvent être pronom

personnel ou adverbe. Nous en avons fait des adverbes pronominaux,

suivant en cela la grammaire de Grévisse qui ne fait pas de distinction

fondamentale entre les deux emplois.

b) Le verbe

Nous notons, dans cette position, la conjugaison à laquelle le verbe se

rattache. Notre classification se fonde sur le Nouveau Bescherelle (2) qui distingue 3 groupes : les verbes en -er (type : chanter), codifiés 1.;

les verbes en -ir (type : finir), codifiés 2; les autres verbes réguliers,

codifiés 3. A l'intérieur de ce groupe, Bescherelle distingue plusieurs

sous-groupes, dont nous parlerons plus loin. Nous avons ajouté à cette

classification, les verbes avoir, être et les anomaux tels que gésir, choir qui sont codifiés 6.

c) La conjonction

La coordination est codifiée 1, la subordination codifiée 2.

d) L'article

L'article défini est codifié 1., l'article indéfini et l'article partitif (consi­

déré comme un indéfini) sont codifiés 2.

Position 56

Nous enregistrons, dans cette position la personne et le nombre pour les

formes personnelles de la conjugaison.

.R3

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 14: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

14

Position 57

Cette position est réservée à l'indication du mode.

Position 58

On y trouvera le temps du verbe.

Position 59

Cette position est réservée à l'indication du genre et du nombre, pour les

substantifs, les adjectifs, les adjectifs-pronoms, les participes et les articles.

Tantôt la morphologie fait apparaître nettement les différences de genre et de nombre et tantôt la langue est sur ce point amphibologique : ainsi for­mellement dos peut être singulier ou pluriel, ainsi encore vague peut être masculin ou féminin.

A cause de cette indifférenciation, nous nous sommes limités à indiquer

le genre et le nombre formels des mots, selon la codification suivante, à double entrée.

Genre

Indéterminé

Masculin

Féminin

Indéterminé

~ (3)

2

Nombre

Singulier Pluriel

12 11

A J

B K

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 15: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Dans ce tableau, les lettres correspondent aux cas où les indications de genre et de nombre se combinent. Ainsi chevaux sera codifié J.

Position 60

Comme la position 56 cette position reçoit deux informations différentes

1) On y codifie la voix pour les verbes :

12 est le code de la voix active et 11 celui de la voix passive.

2) On y codifie aussi les locutions selon les distinctions suivantes :

1. Locution nominale

2. Locution adjective

3. Locution pronominale

4. Locution verbale

5. Locution adverbiale

6. Locution prépositionnelle

7. Locution' conjonctive de coordination

8. Locution conjonctive de subordination

Position 61

Cette position est réservée à des indications syntaxiques pour les substan­

tifs et pour les verbes : ces indications sont, du moins au stade actuel de

nos recherches, l'oeuvre du philologue.

15

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 16: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Pour les substantifs, les codes sont les suivants

1. Sujet 2. Attribut 3. Complément attributif 4. Complément d'objet direct 5. Complément d'objet indirect 6. Complément déterminatif 7. Complément circonstanciel 8. Apposition

Pour les verbes, les codes sont :

11. Verbe de proposition subordonnée 12. Verbe de proposition principale.

Position 62

Nous enregistrons dans cette position la catégorie grammaticale de la forme,

lorsqu'elle diffère de la catégorie grammaticale du lemme enregistrée en

position 54 (cf. p. 12).

Position 63-64

Codes de subordination : ces codes sont en cours d'élaboration.

B. Le programme de lemmatisation et d'analyse morpho-syntaxique

Le L.A.S. LA. a réalisé, en 1965, un premier programme d'analyse morpholo­

gique du latin, qui, avec le temps, a été modifié et perfectionné sans cesse.

Dès le départ, ce programme a été conçu pour s'adapter à l'étude de n'importe

quelle langue : sa charpente et sa démarche logique, qui consiste à analyser

le mot à partir de la fin, sont applicables aussi bien au français et aux langues germaniques qu'au latin et au grec.

16

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 17: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Nous avons donc adapté notre programme latin à l'analyse du français.

Nous exposerons d'abord la démarche générale du programme.

L'ordinateur procède à 5 opérations successives.

1. Le premier stade consiste à enregistrer, sur disques magnétiques, le texte perforé selon les conventions décrites précédemment.

Durant cette phase d'enregistrement, chaque forme reçoit un numéro

d'ordre séquentiel destiné au tri du texte qui sera réalisé au cours de la

phase numéro 4.

2. Dans une deuxième étape, les mots-formes du texte sont triés en ordre alphabétique. On obtient ainsi une liste où toutes les formes d'un même mot sont regroupées. Cette opération allège singulièrement la tâche de l'ordinateur, lors de la phase suivante du traitement, qui est à proprement parler l'analyse des mots. Il est, en effet, beaucoup plus simple et beaucoup

plus rapide, dans un texte où l'on trouve 1000 fois la forme sont, de l'ana­

lyser une fois et de recopier chaque fois l'analyse que de recommencer

1000 fois les opérations de consultation des lexiques.

3. Après ces deux étapes préliminaires, l'ordinateur procède à la lemmatisa­tion et à l'analyse des formes.

4. Les formes analysées sont reclassées dans l'ordre du texte, après un tri

portant sur le numéro d'ordre attribué lors du premier traitement.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 18: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

5. Enfin, une dernière sous-routine attribue· à· chaque forme une référence

très précise à partir du code de ponctuation que nous avons décrit plus

haut. Cette référence est constituée du numéro du chapitre, du numéro

de paragraphe, du numéro d'ordre du mot dans le paragraphe et dans la

phrase, puis du numéro d'ordre dans l'oeuvre.

Il est évident que la troisième phase du programme est de loin la plus

importante et la plus complexe.

Elle exige, indépendamment des ordres logiques qui orientent la recherche,

l'enregistrement préalable d'informations générales qui permettront à l'ordi­

nateur d'identifier les formes qu'il est chargé d'analyser. Ces informations

sont, d'une part, un dictionnaire des mots et, d'autre part, une table de

désinences. Nous décrirons d'abord ces deux instruments de travail.

Le dictionnaire

1. Nous ne pouvions songer à enregistrer en mémoire centrale un dictionnaire

complet : la tâche eût été écrasante et d'ailleurs sans grand bénéfice. L'intérêt qu'il y aurait à obtenir l'analyse de mots peu fréquents ne

justifie guère la dépense d'énergie que suppose la constitution d'un

lexique très long.

Nous avons donc choisi de rédiger un dictionnaire fondé sur un vocabulairè

de base ( 4), quitte à enrichir notre lexique d'acquisitions nouvelles au

cours de nos études.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 19: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

2. La formP. dans laquelle les mots sont enregistrés est fonction du principe fondamental qui est à la base de notre système d'analyse.) à savoir la décomposition de la forme en commençant par la fin. Il est donc indispen­sable que l'ordinateur possède pour chaque mot : 1° ce que nous appelons un radical c'est-à-dire la partie du mot qui reste

constante à travers toute la flexion de ce mot, 2°une désinence, c'est-à-dire la lettre ou le groupe de lettres qui modifient

la flexion de ce radical. Il est inutile de dire que ces deux termes ont un sens purement convention­nel sans rapport avec la grammaire. Voici deux exemples. Pour la forme chantera, nous disons que le radical est CHANT et que la désinence est-ERA, 3e personne du singulier de l'indicatif futur simple des verbes du 1er groupe en -er. L'adjectif beau possède un radical BE et les désinences suivantes : -AU, -LLE, -AUX, -LLES.

Ces deux éléments ne sont cep'endant pas suffisants pour permettre l'ana­lyse de chaque mot. Il faut encore que radical et désinence possèdent des codes qui, lorsqu'ils sont identiques, permettent de rattacher celui-là à celle-ci.

De là, la nécessité de 3 types d'unités lexicales.

1) L'unité-radical à sélecteur d'analyse.

Ce type d'unité est utilisé pour les verbes. Il comporte le lemme, suivi éventuellement de son indice.

CHANTER CHANT E1 (verbe du 1er groupe).

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 20: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

2'0

Vient ensuite le radical, accompagné d'un début d'analyse grammaticale que nous appelons sélecteur d'analyse parce qu'il est destiné à choisir, dans le thesaurus des désinences, celles qui sont compatibles avec ce radical.

Ce sélecteur contient deux renseignements codés : la catégorie gramma­ticale codée E (verbe), puis les divers types de conjugaison. Ceux-ci occupent deux positions dans le sélecteur d'analyse :

les verbes en -er sont codés 1 ~, les verbes en -ir, 21) Pour les verbes du 3e groupe, 1a seconde position est réservée à des sous-groupes qui ont été définis en fonction de leurs désinences; les voici :

E3~ DECEVOIR

E4~ FEINDRE E4A SUIVRE (pour les formes du participe) E4E OFFRIR (pour les formes du participe) E41 PENDRE E42 MENTIR E43 CONNAITRE E44 FUIR E45 CUEILLIR E46 VENIR E47 VEN 1 R (pour les formes du passé simple et du subjonctif

1

imparfait) E48 PARAITRE (pour les formes du participe, du passé simple et

du subjonctif imparfait).

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 21: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

2) L'unité-radical à générateur d'analyse

Cette unité sert à l'analyse des substantifs, des adjectifs, des numéraux

et des adjectifs-pronoms variables.

Les unités de ce type diffèrent des unités précédentes, en ceci qu'elles

possèdent, dans un seul enregistrement, tous les éléments qui leur permet­

tent de "générer" l'analyse du mot, en évitant le recours à la table des

désinences. D'une manière générale, ce processus représente une grande

économie de moyens lorsque les désinences sont très spécifiques et ne

s'appliquent, par conséquent, qu'à un nombre restreint de mots : c'est

le cas, par exemple, pour les adjectifs, lorsqu'il y a modification ou redou­

blement de la consonne finale. Ainsi, actif, active; muet, muette.

A ce point de vue, la morphologie du latin est très différente : des

désinences relativement peu nombreuses permettent d'analyser un très

grand nombre de formes et, dans ce cas, le recours à une table de dési­

nences est rentable.

Description de l'unité à générateur.

Elle comporte, outre le lemme et le radical, la catégorie grammaticale du

mot, éventuellement le genre et les désinences pouvant affecter le radical.

Voi,ci les positions de l'enregistrement.

Position 1

2-18

19-38

code distinctif de l'unité à générateur d'analyse

lemme

radical

21

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 22: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

2 2 2 2

54 : catégorie grammaticale

59 : genre

61-65 : désinence masculin singulier

66-70 : désinence masculin pluriel

71-75 : désinence féminin singulier

76-80 : désinence féminin pluriel

Quelques exemples éclaireront la configuration de l'unité : 54 59 61-65 66-70 71-75

HISTOIRE HISTOIRE A 2 b s t'>

PETIT PETIT B th t'> s E

HISTORIQUE HISTORIQUE B 3 t'> s t'> BEAU BE B th AU AUX LLE

76-80

t'>

ES

t'>

LLES

On remarquera que pour les adjectifs petit et beau, le genre en posi­

tion 59 n'est pas indiqué puisqu'il dépend des désinences; c'est l'ordina­

teur qui l'attribuera en même temps que le oombre, en testant les

positions 61 à 80.

Par ailleurs, les adjectifs du type historique, dont le féminin ne se

distingue pas formellement du masculin, reçoivent le code 3, indiquant

un genre indéterminé (ce qui se traduit à l'analyse par l'absence d'indi­

cation de genre).

3) L'unité-forme.

Dans la langue, il existe un certain nombre de mots, les uns à flexion

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 23: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

irrégulière (verbes anomaux), les autres de forme invariable (adverbe,

conjonctions, prépositions, interjections) pour lesquels la décomposition

en radical et désinence est impossible ou inutile.

Pour ces mots, nous avons créé une unité-forme qui ne peut produire

qu'un seul lemme et une seule analyse.

Son schéma est le suivant

Position 1 : ~ 2-18 lemme

19-38 forme

54-59 analyse complète.

Voici trois exemples

54-59

L'S DANS DANS G

L'S ETRE 2 SUIS E6RJ.1

L'S BEAU BEL B A

Par ailleurs, l'expérience nous a montré qu'il était nécessaire de créer

des unités-formes pour certains mots pour lesquels l'ordinateur, obéissant

à une stricte logique, créait de fausses analyses.

L'exemple d'une forme comme savez éclairera ce processus.

L'ordinateur décompose cette forme en un radical SAV- et une désinence

23

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 24: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

24

-EZ, caractéristique de la 2e personne du pluriel de l'indicatif présent

actif et de la 2e personne du pluriel de l'impératif présent actif. Dès

lors, l'ordinateur proposera les 2 analyses possibles dont l'une (impératif)

est fausse. En lui imposant une unité-forme SAVEZ, analysée E 3 K 11 et en arrêtant à ce stade le déroulement du programme par une note additionnelle, nous éliminons l'analyse de l'impératif.

Ordonnance du lexique

Le lexique est enregistré sur disques magnétiques sous la forme d'un

fichier indexé-séquentiel. Un tel fichier peut être comparé à un diction­

naire dans lequel chaque mot serait accessible par une adresse constituée

du numéro de la page, du numéro de la ligne où il se trouve et du mot

lui-même. Le repérage de l'enregistrement se fait grâce à une clé compo­

sée de chiffres aussi bien que de lettres et dont la longueur peut atteindre

256 positions. Cette clé doit être unique dans l'index aussi bien que dans

le fichier, puisqu'elle ne doit jamais permettre d'accéder à plus d'un

enregistrement. D'autre part, en indexé-séquentiel, la lecture d'un enregis­

trement n'est possible que si la clé que l'on a constituée existe dans

l'index. Dans le cas où elle n'y est pas, l'ordinateur tente sans y parvenir

d'exécuter l'instruction de lecture puis saute automatiquement une partie

du programme. La nécessité d'avoir une clé unique et existant réellement

dans le fichier fait que toute lecture exécutée par l'ordinateur conduit

obligatoirement à une réponse exacte sans aucun risque d'erreur et sans

qu'il soit besoin de procéder à des vérifications. On le voit, ce procédé

offre simultanément des avantages de sécurité et de rapidité.

Le mode de consultation du lexique que requiert un fichier indexé-

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 25: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

séquentiel détermine dans une large mesure le classement des unités

lexicales.

Lors de l'enregistrement, ce classement s'est fait d'abord sur l'ordre

alphabétique des radicaux, puis, lorsqu'il y a plusieurs radicaux identiques,

dans l'ordre croissant des codes d'analyse. Ainsi, les substantifs, codifiés

A dans notre système, se trouvent avant les adjectifs codifiés B, les

adjectifs avant les verbes, codifiés E etc. Dans l'exemple ci-dessous,. nous

voyons comment l'ordinateur a classé les deux radicaux CHANT- :

2 CHANT CHANT

9 CHANTER CHANT

A 1 l'> S

E 1

Le classement par catégories grammaticales a pour seul but de faire

produire les diverses analyses d'une même forme dans un ordre gramma­

tical strict, ce qui facilite la tâche du philologue au moment du choix

de l'analyse correcte. Quant à l'ordre alphabétique des radicaux, il joue

un rôle capital dans la constitution et dans la consultation du lexique.

On sait, en effet, que les éléments qui servent de clé dans un fichier

indexé- séquentiel doivent être rangés en ordre croissant avant même la

création du fichier. Or, dans la consultation du lexique, le radical est la

partie la plus importante de la clé.

En ce qui concerne les radicaux identiques, ils ont été distingués, au

niveau de l'indexé-séquentiel de la façon suivante : l'ordinateur lit un

radical et lui attribue l'indice 01, puis il procède à la lecture du radical suivant. Si ce dernier est identique au précédent, il reçoit l'indice 02. Cette

opération se poursuit de la même façon jusqu'à ce qu'un radièal différent

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 26: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

La fonction du tiret est d'indi.quer à l'ordinateur le moment précis

où il doit procéder à une nouvelle décomposition : ceci accélère le

traitement en épargnant des consultafons inutiles du lexique.

Voici un exemple. Au moment d'analyser la forme PORTES, l'ordina­

teur dispose dans son dictionnaire des unités suivantes

2 PORT 9 PORTER

2 PORTE

PORT

PORT

01

02-

PORTE 01-

A E1

A 2

s

s

La première décomposition de la forme découvre un radical PORTE

et une désinence -S qui donne le lemme et l'analyse : PORTE, substan­

tif féminin pluriel. Le tiret en position 41 renvoie le programme

au processus de décomposition qui trouve le radical PORT et la dési­

nence -ES. La première unité PORT ne contenant pas de désinence

-ES, l'ordinateur passe à l'unité suivante et il analysera le mot grâce

à sa table de désinences comme le verbe PORTER, 2ième personne du

singulier de l'indicatif présent. Après quoi, le tiret qu'il a détecté

en 41 arrête la consultation du lexique pour ce radical PORT.

B. La seconde est un code 1 en position 42. Sa fonction est d'empêcher

le processus de décomposition en radical et désinence.

1.- En premier lieu, pour un grand nombre de formes, on peut affirmer

à coup sûr, que la décomposition en radical et désinence n'apportera

aucune analyse nouvelle; c'est pourquoi, un code spécial ( 1 en position

42) arrête le déroulement normal du programme.

27

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 27: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

28

2.- La même technique est applicable lorsqu'une forme possède plusieurs

analyses possibles. Dans ce cas, la dernière unité lexicale examinée

par l'ordinateur, celle qui porte l'indice de lemme le plus élevé, doit

également porter le code 1 en position 42. Voici un exemple.

La forme que peut être analysée de 4 manières différentes. Elle· peut,

en effet, être adjectif-pronom relatif ou interrogatif ou adverbe ou en­

core conjonction. Dans l'enregistrement, les quatre unités lexicales se présentent de la façon suivante

QUE 1

QUE 2

QUE 3

QUE 4

QUE 01

QUE 02

QUE 03

QUE 04 t) 1

D4

D5

F

H2

·A la lecture de la dernière unité, l'ordinateur rencontrant le code 1, interrompt la consultation du lexique.

3.- Enfin, le code 1 permet d'éliminer de fausses analyses, ainsi que

nous l'avons dit précédemment. Un cas curieux éclairera la démarche

de l'ordinateur. Mais est conjonction de coordination et l'ordinateur

le déclare. Cependant, laissé à sa logique interne, il pourrait aller plus

loin et entreprendre la décomposition du mot en MAl - S puis en

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 28: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

MA - IS. Ceci ne donnant rien, il continuerait en décomposant

M - AIS : il trouverait dans ses thesaurus un radical M-, du verbe mouvoir, utilisé pour former le passé simple et le participe passé et

une désinence -AIS, caractéristique de la 1ère et 2e personne du

singulier de l'indicatif imparfait et analysera.

MAIS

MOUVOIR MOUVOIR

MAIS MAIS MAIS

H1

E3 A12 E3 812

Nous avons éliminé de telles erreurs en arrêtant le travail de la machine

grâce au code 1 enregistré dans l'unité-forme MAIS.

C. La troisième contrainte que nous avons imposée à l'ordinateur est

un code 2 en position 42.

1.- Ce code permet à l'ordinateur d'exploiter tous les radicaux identi­

ques, puis d'arrêter dMinitivement le processus de décomposition

et d'ordonner le passage à la forme suivante. Pour un certain

nombre de formes et particulièrement pour les formes longues,

la poursuite de la décomposition au-delà d'un premier radical

ne conduit plus à aucune analyse et constitue une perte de temps. Ainsi, dans le traitement d'une forme telle que concernes, la

~9

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 29: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

décomposition au-delà de .CONCERN - ES est inutile.

2.- Ce code peut, lui aussi, servir à éliminer de fausses analyses.

Ainsi l'ordinateur,. rencontrant la forme vent, l'analyse correctement

d'après l'unité à générateur VENT, comme un substantif masculin

singulier. Après quoi, il décompose la forme lettre par lettre et

aboutit finalement à un radical V et à une désinence -ENT. Or, il

possède en mémoire un radical V, destiné à analyser certaines

formes du verbe voir et une désinence -ENT, caractéristique d'une

3e personne du pluriel. Dès lors, il analyse la forme comme une

3e personne du pluriel de l'indicatif présent actif du verbe voir.

Il est possible d'éviter cette erreur si le radical VENT est affecté

d'un code qui arrête le processus de décomposition.

D. La quatrième contrainte qui élimine de fausses analyses est un code 3

en position 42. Ce code arrête la production d'analyses, pour un

radical donné sans exploitation de tous les radicaux identiques.

Prenons, par exemple, la forme vers.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 30: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Après avoir analysé correctement vers, préposition et vers substan-tif masculin de nombre indéterminé (à la fois, singulier et pluriel), l'ordinateur décompose la forme en un radical VER et une désinence S; il produit deux analyses dont la seconde est fausse : le substantif ver au pluriel et le verbe voir à la 2e personne du singulier de

l'indicatif présent actif. Cette dernière analyse résulte de la combinai­son du radical VER nécessaire à l'interprétation de certaines formes du verbe voir (futur, conditionnel) et de la désinence S (2e personne de l'indicatif présent).

Cette erreur est éliminée par l'addition du code 3 à l'unité lexicale du substantif ver.

E. Un certain nombre de verbes français possèdent des participes passés invariables. Ainsi plaire. Si l'ordinateur ignore cette singularité il analysera plus comme le participe passé masculin pluriel de plaire Un code i en position 43 dans l'unité lexicale de ce type de verbes indique à l'ordinateur que les analyses de participe passé féminin singu· lier ou de participe passé masculin et féminin pluriels sont à éliminer.

La table des désinences

Cette table ne concerne, en fait, que les verbes. Elle contient nécessaire­ment toutes les terminaisons verbales possibles et toutes les analyses

31

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 31: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

morphologiques correspondantes. Cela signifie que toutes les désinences

formellement identiques se trouvent dans la table autant de fois qu'elles

fournissent des analyses différentes.

La longueur d'une désinence est de 22 positions et son schéma est le

suivant :

Position 1 - 3: sélecteur d'analyse

4 - 13 : désinence

14 - 15 : indice de désinence

16 code de fin de groupe

17 - 22 analyse codée de la désinence.

Voici un exemple

E 1 b 01 ONS - E 1 J 11 Verbe du premier groupe en -ER indicatif présent, première personne du

pluriel.

Les positions 1 à 3 reproduisent strictement les positions 54 à 56 des

unités lexicales. C'est sur cette identité que repose tout le système

d'analyse puisque le rôle du sélecteur est d'assurer une première identi­

fication entre un radical et l'une des désinences qui sont compatibles

avec ce radical.

La désinence proprement dite occupe les positions 4 à 13 et elle est

~lignée sur la droite. Le code des positions 14 et 15 (01) joue le même

rôle que l'indice de radical dont nous avons parlé p. 25 ·: il différencie

des désinences identiques.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 32: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

En position 16, se trouve éventuellement un tiret qui a la même fonction

que le tiret en position 41 des unités lexicales : il arrête la consultation

de la table pour une désinence donnée. Enfin, les positions 17 à 22

portent les codes de l'analyse morphologique complète de la désinence.

La position 17 correspond à la position 54 de la forme, décrite p. 23

Ordonnance de la table

Les désinences sont rangées selon un ordre qui résulte de trois classements

hiérarchisés.

1.- Les désinences sont rangées en ordre croissant des sélecteurs d'analyse.

Les désinences des verbes du premier groupe ( E 1) se trouvent en tête

de la table.

2.- A l'intérieur d'un groupe, les désinences sont rangées en ordre

alphabétique.

3.- Dans un même groupe, il existe plusieurs désinences identiques : elles

portent un indice codé 01; 02; 03 etc., selon le même principe que les

radicaux dans le lexique des radicaux. Chaque désinence a, au moins, l'indice 01. Voici un exemple

E 2 -IREZ 01 Verbe en -1 R

E 2 -ISSE 01

Verbe en -1 R

E 2 K 1 3

Verbe du 2e groupe, 2e pers.

plur., indicatif futur simple

E 2 A 3 1 1ère pers. sing., subj. présent

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 33: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

E 2 -ISSE .02 E 2 C 3 1

Verbe en -.1 R 3e pers. sing., subj. présent

E 2 -ISSE 03 E 2 A 3 2

Verbe en -1 R 1ère pers. sing., subj. imparfait

La consultation de la table fait appel, comme la consultation du lexique,

au mode indexé-séquentiel de lecture des fichiers. Ce procédé, on Je

sait, repose sur la constitution d'une clé de lecture qui permet d'identifier

à coup sûr, l'objet recherché.

Les éléments constitutifs de la clé sont :

1.- Le sélecteur d'analyse fourni par J'unité lexicale. 2.- L'indice auquel J'ordinateur attribue systématiquement la valeur 01

au départ d'une consultation de la table. Cet indice s'accroît d'une

unité jusqu'à ce que J'ordinateur rencontre une désinence portant un

tiret en position 16.

3.- La lettre ou Je groupe de lettres que l'ordinateur a séparé de la forme pour détecter un éventuel radical.

Le programme proprement dit

Rappelons que pour procéder à la Jemmatisation et à l'analyse d'une

forme, le programme exécute essentiellement deux opérations : la décom­

position de la forme à partir de la fin, lettre par lettre, la consultation du dictionnaire des radicaux et de la table des désinences.

Le schéma simplifié des opérations est le suivant :

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 34: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

1

'

35

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 35: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

36

Les chiffres de J'ordinogramme se réfèrent aux opérations suivantes :

1.- Décomposition de la forme à partir de la droite

2.- Consultation du dictionnaire 3.- S'il n'y a pas ou s'il n'y a plus d'unité lexicale correspondant au

groupe de lettres isolé comme radical possible, J'ordinateur répète Je

processus de décomposition 4.- Si J'unité lexicale est une unité-forme, l'ordinateur passe immédiate­

ment à J'opération 7 \

5.- Si J'unité est une unité-radical à générateur d'analyse, J'ordinateur exécute J'opération 6

6.- Recherche de la désinence dans les positions 61 à 80 de l'unité à générateur d'analyse et passage à J'opération 7

7.- Production de J'analyse et du lemme

8.- Retour à la consultation du dictionnaire (opération 2)

9.- Cette opération est exécutée. dans les cas où J'ordinateur a lu une

unité lexicale de radical verbal : il cherche alors dans la table les

désinences compatibles avec ce radical. 10.- S'il n'y a pas ou s'il n'y a plus de désinence compatible avec Je

radical, l'ordinateur consulte à nouveau son dictionnaire (opération 2)

11.- Production d'une analyse et d'un lemme et retour à la consultation de la table des désinences (opération 9).

Commentaire

Les données d'entrée dont J'ordinateur dispose sont, nous J'avons dit, les formes d'un texte, enregistrées sur disque, en ordre. alphabétique. La décomposition des formes s'effectue, lettre par lettre, à partir de la

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 36: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

droite. La première lettre isolée est considérée comme une désinence

possible et le reste du mot, comme un radical possible. Il est important ~

de noter que 1'6rdinateur commence son analyse par ce radical, pour

lequel il consulte son dictionnaire. Ce n'est que lorsqu'un radical a été

iso)é que s'effectue la recherche d'une désinence.

Deux zones de mémoire sont nécessaires pour effectuer les coupes succes­

sives que subit une forme : l'une contient le radical et l'autre, la

désinence. •

Voici un exemple.

Zone radical

CHANTAIT CHANTAl CHANTA CHANT

Zone désinence

~ T

IT AIT

L'ordinateur commence par rechercher dans son dictionnaire la forme

entière : chantait. Cette technique se justifie par deux raisons. D'abord, c'est à partir

de la forme entière que nous traitons les mots invariables et les mots

irréguliers : ils sont, tous, représentés dans le dictionnaire par des unités­

formes. En second lieu, il existe de très nombreux mots où la forme

est identique au radical : c'est le cas de la plupart des substantifs. Il

e~t donc très économiqu~ dans les deux cas, de commencer la recherche

d'analyse par la forme entière, sans passer par une recherche de désinence.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 37: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

A partir de la première décomposition,. le traitement par les unités-formes

devient impossible. Seules les unités-radical à sélecteur d'analyse et

celles à générateur interviennent encore. Après chaque consultation du

dictionnaire et de la table des désinences, l'ordinateur reçoit des informa­

tions qui le guident dans son travail. Nous avons parlé longuement de

ces informations qui permettent, soit d'accélérer le travail, soit d'éviter

de fausses analyses.

LE PROGRAMME DE LEVEE DES AMPHIBOLOGIES

Le programme d'analyse morpho-syntaxique décrit dans les pages qui précèdent est, nous l'avons dit, une adaptation de notre programme

d'analyse automatique du latin. A ce titre, il produit pour chaque mot

d'un texte, tous les lemmes et toutes les analyses formellement possibles.

Le rôle du philologue est de choisir l'analyse correcte. Pour alléger sa

tâche et pour accélérer le travail, nous avons voulu confier à la machine

le soin de lever elle-même les amphibologies. En effet, il existe, entre

le français et le latin, une différence fondamentale due à la structure

spécifique des deux la'ngues. En latin, l'ordre des mots, libre quoique

non indifférent, confère à la langue un taux très élevé d'amphibologie

comment l'ordinateur pourrait-il tester des rapports logiques entre les

mots et en déduire des informations sur la morphologie, alors que la

phrase est complètement désarticulée ?

En français, au contraire, dans bien des cas, la séquence des mots

comporte des structures figées ou obéit à des règles strictes sur lesquelles

il est possible de se fonder pour permettre à l'ordinateur d'éliminer

certaines analyses non pertinentes. Au surplus, il existe des mots-pivots,

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 38: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

en général non ambigus, qui exigent .ou, au contraire, excluent dans leur

voisinage la présence de telle ou 'telle forme. Un bon exemple de mots­

pivots est fourni par certaines prépositions qui ne peuvent être suivies

d'un verbe conjugué .

Nous avons donc élaboré un programme qui, à partir d'une série de

règles mises en mémoire, analyse un contexte restreint et résout,dans

une certaine mesure, le problème de l'amphibologie.

Nous ne prétendons pas éliminer toutes les ambiguïtés que présente la

langue, ni même toutes celles qui existent avec les mots fréquents

énumérés dans les pages qui suivent. Simplement, nous établissons un

certain nombre de règles qui, dans certains cas, permettent à l'ordinateur

de donner la bonne analyse · et dans d'autres cas, éliminent des analyses

inadéquates sans cependant donner la solution exacte du problème. Exemple : il la forme. Dans cette expression forme est éliminé en tant

que substantif, mais l'amphibologie subsite au niveau du verbe

où l'ordinateur suggère deux analyses possibles : indicatif et subjonctif.

D'une façon schématique, on peut dire que ce programme opère de la

manière suivante : il enregistre dans l'unité centrale de traitement, un

contexte maximum de 15 mots. Chacun d'eux est accompagné de tous

les lemmes et de toutes les analyses fournies précédemment par la

machine.

La lecture et l'analyse se font à partir du mot-pivot, en prenant en

considération soit les mots qui précèdent, soit les mots qui suivent, soit

l'ensemble du contexte.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 39: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

Voici les règles de levée d'ambiguïté enregistrées en mémoire.

1. L'amphibologie verbe-substantif ou adjectif.

a.- De nombreux verbes à un mode personnel peuvent formellement être

confondus avec des substantifs ou des adjectifs : ferme , fermes,

porte, portes, fait etc. Or, la présence dans le contexte immé-

diat, des pronoms personnels je, tu, il ou de l'indéfini on, qui ne peuvent jamais être que des sujets, permet d'affirmer à coup sûr, que

la forme qui suit est un verbe.

Plusieurs cas peuvent se présenter.

Le mot amphibologique suit immédiatement le pronom personnel ou

n'est séparé de lui que par la négation ne ou/et par un pronom com­

plément (à l'exception d'une des formes de le). Dans ce cas, ce mot

ne peut être qu'un verbe accordé en personne et en nombre avec le

pronom-sujet. ,

Exemples : il ferme la porte

il ne ferme pas la porte

il ne lui ferme pas la porte au nez

il lui ferme la porte au nez

Dans ces quatre cas, le mot ferme reçoit, lors d'un premier traite­ment, 7 analyses

1 FERME

2 3 4

FERME 1

FERME 2

FERMER

FERMER

A B

B & E 1 A 1 1 E 1 C 1 1

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 40: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

5 6

7

FERMER FERMER FERMER

E 1 B 2 1

E 1 A 3 1

E 1 C 3 1

Les analyses 4 et 7, seules compatibles avec la forme il qui précède

immédiatement ou à faible intervalle, sont retenues par, l'ordinateur.

On remarquera qu'il subsiste une amphibologie, mais elle n'est plus

au niveau de la catégorie grammaticale, elle concerne uniquement le

mode.

b.- Le pronom-sujet suit le verbe : ferme-t-il la porte ? L'ordinateur repère l'inversion du sujet grâce aux traits d'union. Ce

signe commande à la machine Lin examen du contexte de la droite

vers la gauche. La présence du t _euphonique n'entrave en rien le

processus.

c.- Les pronoms personnels elle et elles ne permettent de lever l'amphibo­

logie du verbe qui suit immédiatement que lorsqu'ils sont sujets. La

machine reconnaît le verbe comme tel au fait qu'il n'est précédé ni

d'une préposition ni d'un coordonnant ni d'un signe de ponctuation.

d.- Certains déterminants gauches du groupe nominal permettent de lever

l'amphibologie de la forme qui suit (substantif-verbe), que cette forme

suive immédiatement ou qu'elle soit séparée de son déterminant par

un adverbe, un adjectif ou une conjonction de coordination.

Ces déter111inants sont certains articles au, aux, les démonstratifs cet, cette, ces, les possessifs (sans ton ni son) et quelque,

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 41: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

quelques. Dans l'expression cette remarque, remarque reçoit les ana­

lyses formelles suivantes

1 REMARQUE

2 3 4

5 6

REMARQUE

REMARQUER REMARQUER

REMARQUER REMARQUER

REMARQUER

A

E 1 A 1 1

E 1 c 1 1

E 1 B 2 1

E 1 A 3 1

E 1 c 3 1

B

Les analyses 2 à 6 sont éliminées automatiquement parce que l'ordi­

nateur a analysé cette comme déterminant gauche.

e.- A la suite d'une préposition, il est impossible de trouver un verbe à un mode personnel. Par conséquent, toute forme pour laquelle il

pourrait y avoir hésitation entre l'analyse verbe ou substantif est

automatiquement analysée substantif par détection de la préposition.

Il. L'amphibologie pronom - article

Le, 1', la, les peuvent être soit des articles définis, soit des pronoms

personnels compléments.

a.- Ces formes sont toujours pronoms lorsqu'elles précèdent immédiatement

un verbe non amphibologique à un mode personnel. Exemple :

il la regarde.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 42: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

b.- Ces formes sont articles définis, lorsqu'elles ne précèdent immédiatement

ni un verbe non ambigu, ni un adverbe pronominal. Exemple :

la grande porte; dans ce cas-ci,· c'est la présence de l'adjectif qui

lève l'amphibologie.

c.- Dans certains cas, même si la forme du verbe est ambiguë, il est

possible d'atteindre l'analyse correcte pour la forme qui précède.

Exemple : ... la portes ... Dans ce micro-contexte, l'ordinateur

analyse portes, soit comme un substantif féminin pluriel, soit comme

un verbe à la deuxième personne du singulier de l'indicatif présent, ·mais la présence devant portes de la qui ne peut être analysé comme

un article accordé à un substantif au pluriel, impose d'abord l'analyse

de la comme pronom, puis par ricochet,le choix de la nature

verbale pour portes.

d.- Un cas plus particulier est fourni par deux formes également ambiguës, du type : ~.. les portes ... Ici l'ordinateur est incapable , s'il se limite à ces deux mots, de déter­

miner les bonnes analyses, puisque, par rapport l'un à l'autre, les deux

mots sont amphibologiques. La règle, dans ce cas, est d'allonger l'exa­

men du contexte vers la gauche d'une ou de plusieurs formes, jusqu'à rencontrer soit :

1.- un pronom sujet, personf)el ou relatif. Celui-ci permettra de lever

le ·doute. Dans l'exemple choisi, tu les portes ou toi qui les portes, la position de le, /', la, les derrière UIJ pronom et devant

une forme qui pourrait être un verbe, impose l'analyse pronom.

43

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 43: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

A4

' En même temps et par une sorte de retroaction, l'analyse pronom

permet de lever l'ambiguïté de la forme qui suit et qui ne peut

être qu'un verbe.

2.- Une préposition. Dans des expressions du type la porte, les portes, la présence d'une préposition devant l'expression lève

l'amphibologie pour les deux formes.

e.- Aucun au singulier ne peut pas être suivi immédiatement d'un verbe.

En conséquence, le mot qui suit est nécessairement un substantif s'il

y a amphibologie entre verbe et substantif.

Amphibologie substantif - adjectif

Une forme amphibologique de ce type est substantif lorsqu'elle est précédée

d'un article défini ou indéfini, d'un adjectif non ambigu ou d'un pronom

et lorsqu'elle n'est suivie ni d'un substantif ni d'une conjonction de coordi­nation. Exemple : une vague déferla Par contre, cette forme est adjectif, lorsqu'elle est placée entre un détermi­

nant gauche (article, pronom démonstratif etc.) et un substantif non ambigu.

Exemple : une vague résolution. De même, cette forme est adjectif,

lorsqu'elle vient après un substantif non ambigu, sans trait d'union ni virgule

ni conjonction de coordination. Exemple une résolution vague.

Amphibologie substantif - substantif

Certains substantifs sont homonymes mais de genres différents. Ainsi, il y a une tour. et un tour, une voile et un voile. L'analyse du contexte,

s'il s'y trouve un article ou un adjectif, permet de résoudre

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 44: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

1 'amphibologie, puisque l'accord fait apparaître formellement la différence.

Amphibologie verbe - verbe

Dans des expressions du type : il était parti, la veille, l'ordinateur n'a

aucun moyen de distinguer le substantif veille du verbe veiller. Cependant, dans les diverses analyses qu'il donne de la forme, lorsqu'elle

est un verbe, il élimine au moins la première personne du singulier de

l'indicatif et du subjonctif parce qu'il n'existe dans son contexte gauche, ni je, ni qui, ni une coordination verbale.

Amphibologie de certaines formes verbales.

1 mpératif - Subjonctif.

En tête de phrase, précédées ou non de ne ou de ne accompagné d'un

pronom personnel, et non suivies d'un trait d'union, ces formes verbales

sont des formes de l'impératif.

1 e - 2e personne sing.; 1 e - 3e personne sing.

La présence dans le contexte qui précède immédiatement, d'un pronom

personnel sujet ( je, tu, il, on ) ou de qui précédé de ce, moi, toi, permet le choix.

Indicatif - Subjonctif

Si_, entre le début de la phrase et la forme verbale, il n'y a pas de

subordonnant, la forme n'appartient pas au subjonctif. De même, si le

subordonnant est lorsque, quand, parce que, puisque, pendant que. Mais si le subordonnant est quoique ou que précédé de avant, afin, pour, pourvu, sans, quoi, bien, soit ou d'une forme de vouloir, désirer, souhaiter, défendre, empêcher, tolérer, préférer, permettre, craindre, exiger, ordonner, regretter, falloir, la forme appartient au subjonctif.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 45: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

46

Du choix de t'analyse pour quelques mots fréquents.

BIEN

CE

: est adverbe, s'il suit un verbe

: cette forme peut recevoir deux analyses

1.- pronom démonstratif codifié CE 1

2.- adjectif démonstratif codifié CE 2

Le choix s'effectue automatiquement. En effet, ce est pronom

lorsqu'il précède les mots qui et que et lorsqu'il suit immédia­

tement un trait d'union, par exemple, dans l'expression est-ce. Ce est un adjectif lorsqu'il précède immédiatement un adjectif ou un substantif.

CE A TAIN : peut être adjectif ou pronom. Suivi d'un adjectif ou d'un substantif, il est adjectif.

LUI :précédé d'une préposition, suivi d'un verbe qui n'est pas au participe passé ou suivi d'un tiret, il est pronom.

NE : n'admet qu'une seule analyse et constitue, à ce titre, un de ces mots-pivots dont la présence dans un texte permet de lever

l'amphibologie d'une série d'autres mots. Lorsque l'ordinateur

rencontre ne, il cherche dans son contexte de droite un second

élément de négation; si ce second élément est un des mots

suivants : pas, point, plus, que, personne, il t'analyse comme

adverbe, éliminant d'office toutes les autres analyses possibles.

PLUS et :précédés de je (pour plus précédé en outre de tu), ou suivis

PUIS d'un tiret sont verbes. Dans tous les autres cas, ils sont adverbes.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 46: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

QUE : peut avoir 4 analyses différentes

QUE 1 : pronom relatif

QUE 2 : pronom interrogatif QUE 3 : adverbe

QUE 4 : conjonction

Il est pronom relatif dans les cas que nous citerons pour qui.

Il est adverbe, lorsque, dans son contexte gauche, on trouve la négation ne. Il est conjonction :

a.- lorsqu'il est précédé d'un si suivi lui-même d'un adjectif ou d'un adverbe. Dans ce cas, la levée d'amphibologie joue

également pour si qui est adverbe d'intensité.

b.- lorsqu'il est précédé de plus, moins, aussi.

c.- lorsqu'il est précédé de quel, tant, tel (sauf dans l'expression un tel).

d.- lorsqu'il est précédé d'un verbe à un mode personnel ou à i'infinitif.

e.- lorsqu'il est précédé d'un gérondif.

Pour ces deux derniers cas, lorsque l'ordinateur a déjà analysé

que, il ne revient pas en arrière. Prenons l'exemple de l'expres­

sion je ne dis que dutbien ... : QUE a été analysé à hauteur de

ne, comme adverbe. L'ordinateur poursuivant son analyse et

rencontrant que, ne le traite plus.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 47: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

f.- dans la séquence verbe - adjectif - QUE.

g.- lorsqu'il est précédé de ainsi, alors, aussitôt, encore, outre, sitôt, tandis,. après, depuis, dès, malgré, pour, afin, cependant, excepté, maintenant, parce, plutôt, sans, sauf, selon, soit.

h.- lorsqu'il est précédé de de et d'un des mots suivants : façon, manière, même, peur, crainte, sorte.

i.- lorsqu'il est précédé de avant et pendant, à la condition que ces deux mots ne soient pas précédés d'une des formes de

l'article le.

j.- lorsqu'il est précédé de l'expression quelque suivie d'un adjectif, adverbe ou participe.

OUI est pronom relatif ou pronom interrogatif. L'ordinateur retient la première analyse lorsque qui est précédé œ pronoms personnels ou démonstratifs : moi, toi, lui, nous, vous, elles, eux, ce, celui etc.

S' : Cette forme peut être soit la forme élidée du pronom personnel

se·, soit la forme élidée de la conjonction de subordination si. Cette seconde analyse n'est possible que dans le cas où s' précède il ou ils. L'ordinateur la reconnaît par l'examen de

son contexte droit. Dans tous les autres cas, il s'agit du pronom.

SI : Trois analyses sont possibles :

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 48: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

1.- Adverbe d'affirmation

2.- Adverbe d'intensité

3.- Conjonction de subordination.

Lorsque si précède un adjectif, un adverbe ou un participe, il

est adverbe d'intensité.

Lorsqu'il précède un article ou s'il est précédé de comme, il

est conjonction de subordination; dans ce dernier cas, l'ordina­

teur analysera aussi comme, conjonction.

SON, : s'ils sont précédés immédiatement d'une préposition, ils sont

TON adjectifs-pronoms, sauf à la suite de la préposition sans.

sous

S'ils sont suivis immédiatement d'un substantif ou d'un adjectif

et d'un substantif, ils sont adjectifs-pronoms.

: n'est pas préposition si le mot qui suit est préposition, pronom­

sujet ou conjonction et si le mot qui précède est les, des, en, un adjectif ou un pronom.

SUR : n'est pas préposition si le mot qui suit est une préposition, une

AVOIR

ETRE

conjonction de subordination ou un pronom-sujet.

si ces formes sont précédées d'un adjectif ou d'un numéral

il s'agit de substantifs. Si elles sont précédées d'un verbe, POUVOIR : elles sont verbes.

UN peut être un numéral, un pronom indéfini ou un article.

Il est numéral lorsqu'il représente un nombre. L'ordinateur

ne l'analyse comme tel que s'il est précédé d'un autre numéral.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 49: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

VERS

Exemple : vingt et un. Dans les autres cas, l'ordinateur n'a pas les moyens de le

reconnaître. Exemple : page un.

Lorsqu'il est pronom .indéfini, la machine ne l'identifiera que

dans les deux cas suivants :

1.- Sous la forme l'un 2.- Lorsqu'il est accompagné d'un complément partitif, c'est

à dire suivi d'une forme de de (d', des). Exemple : un des deux, un d'entre eux.

Il est article indéfini quand il est suivi d'un substantif ou d'un

déterminant gauche du substantif.

Exemple : une très mauvaise impression.

n'est pas préposition si le mot qui suit est une préposition

ou un pronom obligatoirement sujet et si le mot qui pré-

cède est les, des, en, un adjectif ou un pronom.

Le caractère de ces règles montre bien comment, pour déterminer le choix

entre deux analyses, nous utilisons la position du mot par rapport à son

contexte ainsi que les données que le programme d'analyse a fournies pour

ce mot et pour les mots voisins.

Si l'énumération de ces règles est un inventaire assez fidèle du programme, elle ne rend pas compte de sa complexité. Il s'y ajoute, en effet, un

grand nombre de traitements concernant soit certaines constructions moins

fréquentes impliquant des mots-outils, soit des amphilologies très particu­

lières comme celles de car, nuit, fond, été, avions, sommes, etc. Il eût

été fastidieux de les citer.

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 50: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

En outre, la plupart des règles, surtout celles de portée générale, tiennent compte de bien des modalités qu'il n'était pas possible de détailler ici.

Ces modalités plus complexes que révèlent nos expériences d'analyses nous ont amenés à combler des lacunes, à affiner les traitements. Elles sont aussi parfois de cruelles contraintes. Le programme n'est pas une simple collection d'instru­ctions qui s'additionnent; il s'est créé de telles connexions entre certaines parties du programme qu'une légère modification peut provoquer des dégâts dans d'autres parties de sorte que nous avons été parfois obligé de sacrifier des solutions qui paraissaient séduisantes. Le principe strictement adapté en effet, est de donner la primauté à la sécurité. Aussi, sauf tout à fait excep­tionnellement, nous avons renoncé à un traitement qui, même si dans la ma­jorité des cas il eût fonctionné efficacement, s'est révélé dangereux en quelques occasions très rares, on verra dans l'exemple donné en annexe sous quelle forme se présentent les résultats. Dans son état actuel - nous ne désespérons pas de l'améliorer encore - le programme, appliqué à un texte de la langue courante, fournit environ 90 % d'analyses correctes (5). Si l'on sait que dans un texte de ce gënre, la proportion des formes ambiguës approche des 45 %, on peut estimer le résultat très satisfaisant. Naturellement le travail de la machine doit être vérifié, et surtout complété pour les mots dont l'ambiguité n'a pas été levée; mais qu'est-ce au regard de la codification artisanale complète de tous les mots d'un texte, d'autant plus que cette codification exige une vérification

· plus attentive encore ? (6)

Ùniversité de Liège Laboratoire d'Analyse Statistique des Langues Anciennes 110, Bd de la Sauvenière LIEGE - BELGIQUE

L. DELATTE M. DUCHESNE-DEGEY S. GOVAERTS J. DENOOZ

51

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 51: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

NOTES

(1) Il va de soi que en peut être également préposition.

L'ordinateur est capable de faire la distinction entre les divers emplois.

(2) L'art de conjuguer (Paris 1966).

(3) Le lS représente un blanc typographique et dans ce cas-ci, une absence de

code.

(4) Georges Gougenheim. Dictionnaire Fondamental de la langue française.

Paris, Didier, 1958.

(5) Pour un texte dont la syntaxe est plus complexe, le pourcentage est un peu

moins élevé. Calculé sur les 3000 premiers mots des Méditations Métaphy­siques de Descartes, il atteint 88 %.

(6) Ajoutons que nous disposons aussi d'un programme effectuant la coupe automatique des mots en syllabes; il est d'une grande utilité pou·r toutes les études statistiques. En effet, la syllabe est une unité beaucoup plus ration­nelle que la lettre pour mesurer la longueur du mot, que le mot pour mesurer celle de la phrase ou du texte entier. (cf. Revue 1975 no 2).

52

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 52: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

01 w

54

SUBSTANTIF

ADJECTIF

NUMERAL

ADJ.· PRON.

VERBE

ADVERBE

PREPOSITION

CONJONCTION

INTERJECTION

ARTICLE

ONOMATOPEE

A

B

c

D

E

F

G

H

1

J

K

55 56

Personnel 1 Pos:ses:sif 2 Oëmonstr. 3 Relatif 4

lnterrog. 5 lndêfini 6

le pers. sing. A

1er groupa en ER 1 2e pers. sing. B 2e groupe en 1 R 2 Je pers. sing. c 3<o groupe 3 le pers. plur. J Anomaux 6 2e pers. plur. K

3e P8"- plur. L

Coordin·ation 1

Subordination 2

Défini 1 Indéfini 2 Partitif 3

57 58 59 60 61

'

Masculin 1 Masc. sing. A Masc. plur. J

Féminin 2 Fém. sin~ B Fern. plur. K

Sin~ lier 12 Présent 1

Pluriel Il Indic. 1 Imparfait 2 Imper. 2 ~utur 3 Subjonct. 3 Passé aimple 4 Voix -=:tive 12 Principale 12 Condit. 4 Passé cOmp. 5

Volx pasNo Il Subordonnée Il Participe 5 Plus que p.arf. 6 Infinitif 6 Fut. antêr. 7 f

Pess"é antér. 8

Masc. sing. A

Fém. ~ng. B Sin~ lier 12 Pluriel Il

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 53: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

1 14 1 au au Jl A

1 14 2 nord nord A A

_1 14 3 et et Hl

1 14 4 à à G

1 14 5 l' le 1 Dl &

le 2 Jl &

1 14 6 est est A A

être 2 E6Cll

êtr.e 3 E6Cll

1 14 -7 11 le 1 Dl &

le 2 Jl ·&

1 14 8 horizon horizon A A

1 14 9 s' se Dl

si 3 H2

1 14 10 ouvrait ouvrir -E3Cl2

1 14 11 librement librement F

1 15 1 vers ver A J

vers 1 A 1

veJ;"·s 2 G

1 15 2 le le 1 Dl A

le 2 Jl A

1 15 3 large large B &

1 15 4 mais mais Hl

1 15 5 à à G

1 15 6 11 le 1 Dl &

le 2 Jl &

1 15 7 ouest· ouest A A

1 15 8 il il Dl A

1 15 9 était être 2 E6Cl2

être 3 E6Cl2

1 15 10 barré barrer El056 A

1 15 11 par par G

1 15 12 une un 1 c B

un 2 D6 B

un 3 J2 B

1 16 1 falaise falatse -A B

1 16 2 rocheuse rocheux B B

54

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 54: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

1 14 1 au au Jl A

1 14 2 nord nord A A

1 14 3 et et Hl

1 14 4 a i\ G

1 14 5 l' le 2 JI &

1 le 1 Dl & + 1 14 6 est est A A

~tre 2 E6Cll + être 3 E6C11 +

L 14 7 l' le 2 Jl & ,_ le 1 Dl & +

14 8 horizon horizon A A

L 14 9 s' se Dl

3 si 3 " H2 +

14 10 ouvrait ouvrir E3Cl2

1 14 11 librement lih:tement F

1 15 1 vers ver A J

vers 1 A 1

vers 2 G

1 15 2 le le 2 Jl A

le 1 Dl A +

1 15 3 large large B &

1 15 4 mais rnais Hl

1 15 5 a il G

1 15 6 l' le 2 JI &

le 1 Dl & +

1 15 7 ouest ouest A A

1 15 8 il il Dl A

L 15 9 était barré être ·3 E6C12

4 être 2 E6C12 +

15 10 était barré barrer El.056 A

1 15 11 par par· G

1 15 12 une un 1 c B

5 un 3 J2 B

un 2 b6 B +

1 16 1 falaise falaise A B

1 16 2 rocheuse rocheux B I3

55

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.

Page 55: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE AU …web.philo.ulg.ac.be/.../10/pdf/Annee1977/04/LDelatte.pdf · 2019. 6. 11. · LE TRAITEMENT AUTOMATIQUE DE LA LANGUE FRANCAISE

1 14 1 au au Jl A

1 14 2 nord nord A A

1 14 3 et et Hl

1 14 4 a A G

1 14 5 l 1 le 2 JI ' le 1 Dl ' +

1 14 6 est est A A

être 2 E6Cll + être 3 E6Cll +

~ 14 7 l' le 2 Jl &

l le 1 Dl ' + 14 8 horizon horizon A A

L 14 9 s' se Dl

3 si 3 .. H2 + 14 10 ouvrait ouvrir E3Cl2

1 14 11 librement librement F

1 15 1 vers ver A J

vers 1 A 1

vers 2 G

1 15 2 le le 2 Jl A

le 1 Dl A +

1 15 3 large la:r.ge B &

1 15 4 mais mais Hl

1 15 5 a .'!. G

1 15 6 l' le 2 Jl B.

le 1 Dl & +

1 15 7 ouest ouest A A

1 15 8 il il Dl A

L 15 9 était barr~ être ·3 E6Cl2

~ être 2 E6C12 +

15 10 était barré barrer El.056 A

1 15 11 par par· G

1 15 12 une un 1 c B

5 un 3 J2 B

un 2 D6 B +

1 16 1 falaise falaise A B

1 16 2 rocheuse rocheux D il

55

Extrait de la Revue (R.E.L.O.) XIII, 1 à 4, 1977. C.I.P.L. - Université de Liège - Tous droits réservés.