Lanalyse lexicométrique dal-Imtâ wa l-muânasa de TawÎîdî : Quelques résultats autour de la...
57
L’analyse lexicométrique d’al-’Imtâ‘ wa l-mu’ânasa de TawÎîdî : Quelques résultats autour de la structure lexicale Journées d’études Reconnaissance automatique et exploration Reconnaissance automatique et exploration contextuelle en français et en arabe, dans une contextuelle en français et en arabe, dans une perspective de traduction perspective de traduction Zoubeïr MOUELHI ICAR Université Lumière-Lyon2
Lanalyse lexicométrique dal-Imtâ wa l-muânasa de TawÎîdî : Quelques résultats autour de la structure lexicale Journées détudes Reconnaissance automatique
Lanalyse lexicomtrique dal-Imt wa l-munasa de Tawd : Quelques
rsultats autour de la structure lexicale Journes dtudes
Reconnaissance automatique et exploration contextuelle en franais
et en arabe, dans une perspective de traduction Zouber MOUELHI ICAR
Universit Lumire-Lyon2
Page 2
2 PLAN Les principales caractristiques lexicomtriques La
richesse lexicale Les catgories lexicales
Page 3
3 Au niveau du corpus Les principales caractristiques
lexicomtriques du Imt Au niveau du corpus
Page 4
4 Au niveau des Nuits Les PCLC du Imt Au niveau des Nuits
Page 5
5 Etendues des Nuits Les principales caractristiques
lexicomtriques du Imt Etendues des Nuits
Page 6
6 Distribution des tendues Les principales caractristiques
lexicomtriques du Imt Distribution des tendues
Page 7
7 tendance centrale Des mesures de tendance centrale savoir :
la moyenne arithmtique (= 4 078,47) la mdiane (= 3 115) le mode qui
est ici ltendue maximale (=10 788) dispersion Des mesures de
dispersion savoir : la variance (= 8 715 438,552) lcart-type (= 2
952,19) le coefficient de variation (=0,72) position Des mesures de
position qui sont les quartiles Description statistique Les
principales caractristiques lexicomtriques du Imt Description
statistique
Page 8
8
Page 9
9 Rpartition intertextuelle et gnrique Les principales
caractristiques lexicomtriques du Imt Rpartition intertextuelle et
gnrique
Page 10
10 Les citations potiques Les PCLC du Imt Les citations
potiques
Page 11
11 Les citations coraniques Les PCLC du Imt Les citations
coraniques
Page 12
12 La gamme de frquences Les PCLC du Imt La gamme de
frquences
Page 13
13 Richesse lexicale difficile dfinir Lexicomtrie un
dnominateur commun : lieu de comparaison entre deux ou plusieurs
textes en fonction de leur tendue respective et du nombre de
vocables relevs dans chacun deux [1] [1] Dcrire la structure
lexicale ou la comparer dautres corpus indpendante du contenu
proprit quantitative Notion absolue ou relative ? "Neutralit" du
terme Richesse mieux vaut donc comprendre le mot "richesse" comme
un terme neutre, un peu comme font les physiciens pour qui
"vitesse" ne se confond pas avec "rapidit" [ 2 ] [ 2 ] [1][1]
Nathan Mnard, Mesure de la richesse lexicale. Thorie et
vrifications exprimentales : Etudes stylomtriques et
sociolinguistiques, 1983, p. 16 [2][2] Thoiron, Ph., Richesse
lexicale et classement des textes, dans tudes sur la richesse et la
structure lexicales, 1988, pp. 141-163, p.142.
Page 14
14 Les mthodes de mesure de la richesse lexicale Problmes :
objectivit, comparaison, valuer V en fonction de N, influence de
ltendue sur la RL, existe-t-il un indice/chelle ( thermomtre)?
Solutions multiples : V/N, V1/V et V1/N influence de ltendue
dautres mthodes La mthode de comparaison des indices, la formule de
Guiraud ( ), lindice W de Brunet, la mthode binomiale de Muller et
lindice Vm de Yule-Herdan
Page 15
15 Mthode des indices : Comparaison binaire des textes en
confrontant les 4 indices NVV1V1 q1q1 Texte ANuit
810788196712495,4840,3650 Texte BNuit 59063402652,6650,2206 1111
NVV1V1 q1q1 Texte ANuit 9460710036374,5930,3649 Texte BNuit
4424811338343,7490,2639 0011 Comparaisons binaires = q1 =
Page 16
16 Interprtation des combinaisons dindices Combinaisons
Indicateurs partiels de la richesse lexicale Interprtation
globaleSymbole VV1V1 q1q1 1 - 1 - 1 - 1???? ?? 1 - 1 - 0 0??AA A
plus riche que B + 0 - 0 - 1 1BB?? A moins riche que B - 0 - 0 - 1
0BB?A (A moins riche que B) (-) 0 - 1 - 1 - 0B??A (A moins riche
que B) (-) 1 - 0 - 0 - 1?BA? (A plus riche que B) (+) 1 - 1 - 0 -
1??A? (A plus riche que B) (+) 1 - 0 - 1 - 1?B?? (A moins riche que
B) (-) 1 - 1 - 1 - 0???A ??
18 Rsultat des comparaisons binaires des Nuits selon la mthode
des indices
Page 19
19 Classement de quelques Nuits en fonction de la richesse
lexicale selon la mthode des indices Nuit 02 Nuit 01 Prambule Nuit
14Nuit 03 Nuit 07 Nuit 06Nuit 04 Nuit 15Nuit 09 AB comparaison non
rsolue Nuit 13 AB A est plus riche que B Nuit 2 Nuit 1 Nuit 7 Nuit
13 Nuit 2 Nuit 14 Nuit 15 Prambule Nuit 14 Nuit 15 Prambule Nuit 7
Nuit 13 Prambule Nuit 4 Nuit 9 Nuit 3 Nuit 13 Nuit 3 Nuit 15 Nuit 6
Nuit 9 Nuit 6 Nuit 13
30 Selon la mthode binomiale de Muller (2 / 4) Rduction de
linfluence de ltendue
Page 31
31 Selon la mthode binomiale de Muller (3 / 4)
Page 32
32 Selon la mthode binomiale de Muller (4 / 4)
Page 33
33 Classement des Nuits selon lindice Vm de Yule-Herdan NVV1V1
f f VmVm Nuit 005062141210483,5828,287,890,210 Nuit
0124787034983,5219,065,410,204 Nuit 0231158966493,4822,026,330,212
Nuit 0320046274703,2018,855,900,236 Nuit
04424811338343,7525,006,670,198 Nuit 059063402652,6614,355,390,292
Nuit 067079164411404,3128,676,660,164 Nuit
0725696884643,7318,014,820,184 Nuit
0810788196712495,4828,975,280,119 Nuit
09460710036374,5920,644,490,142 Nuit
109564177210335,4025,494,720,112 Nuit
1324275353424,5414,973,300,143 Nuit 1432718195463,9919,544,890,171
Nuit 1517735103443,4815,534,470,198 Nuit
1612864203133,0615,284,990,244
Page 34
34 Selon lindice Vm de Yule-Herdan (1 / 4) Sous linfluence de N
et de V 1
Page 35
35 Selon lindice Vm de Yule-Herdan (2 / 4) Confirmation de
linfluence de V1 sur lindice Vm en comparant les deux diagrammes de
la richesse lexicale, selon lindice Vm et le quotient V1/V
Page 36
36 Selon lindice Vm de Yule-Herdan (3 / 4)
Page 37
37 Selon lindice Vm de Yule-Herdan (4 / 4)
Page 38
38 BILAN (R. L.) NuitClassement selon : Guiraud ( ) Brunet ( W
) Muller ( Binomiale ) Yule-Herdan ( V m ) Nuit 001115 Nuit 019886
Nuit 026544 Nuit 0310633 Nuit 045357 Nuit 0514521 Nuit 0622711 Nuit
0711 109 Nuit 08371314 Nuit 097141213 Nuit 10491415 Nuit 1315 12
Nuit 148121110 Nuit 15121398 Nuit 16131062 Rcapitulatif des
classements selon les diffrentes mthodes utilises
Page 39
39 BILAN (R. L.) CommunsEcart / MoyContigusEcart / Moy
Guiraud713- 3 Brunet6060 Muller8293 Yule-Herdan2- 471 Moyenne66
Nombre total, pour chaque mthode, des rangs communs et contigus
ceux des autres mthodes
Page 40
40 BILAN (R. L.)
Page 41
41 BILAN (R. L.) Yule-HerdanMullerBrunet Guiraud - 0,364
Corrlation non significative 0,079 Corrlation non significative
0,590 Corrlation significative Brunet 0,409 Corrlation non
significative 0,744 Corrlation significative Muller 0,871
Corrlation significative Corrlation des rangs de Spearman entre les
classements obtenus par les 4 principales mthodes
Page 42
42 BILAN (R. L.)
Page 43
43 BILAN (R. L.) Analyse Factorielle des variables latentes du
classement des 15 nuits par les quatre mthodes de mesure de
richesse lexicale : Reprsentations graphique des mthodes Sur la
base de la contigut Sous linfluence inverse de N et de V1
Page 44
44 Analyse Factorielle des variables latentes du classement des
15 nuits par les quatre mthodes de mesure de richesse lexicale :
Reprsentations graphique des nuits
Page 45
45 BILAN (R. L.) La dispersion des nuits interprte selon laxe
F1
Page 46
46 BILAN (R. L.) La dispersion des nuits interprte selon laxe
F2
Page 47
47 Interprtation globale, selon les deux axes F1 et F2, de la
reprsentation graphique de lanalyse factorielle des variables
latentes
Page 48
48 BILAN (R. L.) Nuit 00 Nuit 01 Nuit 02 Nuit 03 Nuit 04 Nuit
05 Nuit 06 Nuit 07 Nuit 08 Nuit 09 Nuit 10 Nuit 13 Nuit 14 Nuit 15
Nuit 16 Classement, en fonction de la richesse lexicale, des nuits
d' al-Imt wa l- munasa rsultant de la reprsentation graphique de
l'analyse factorielle des variables latentes Plus riche que
Page 49
49 BILAN (R. L.) Mthode "factorielle"Corrlation Guiraud
0,318non significative Brunet 0,872significative Muller
0,882significative Yule-Herdan 0,711significative Corrlation entre
les classements calculs et le classement infr
Page 50
50 Conclusion autour de la R. L. Commencer, tout dabord, par la
mthode des indices. Les cas rsolus (surtout les cas srs) pourront
ouvrir la voie par la suite, aux autres mthodes de mesure (21 / 22
comparaisons rsolues sont confirmes). Sil ne faut choisir quune
seule mthode de mesure de la richesse lexicale, la mthode binomiale
propose par Charles Muller est la plus apprpoprie ("logique
irrprochable" et bien-fond thorique). dfaut dutiliser la mthode
binomiale lindice W de Brunet est fortement recommand (stabilit,
linstar de la loi binomiale). Sinon, lon peut imaginer une
utilisation coinjointe des quatre mthodes. Lanalyse factorielle
pourrait dans ce cas servir doutil daide la prise de dcision dans
le choix de lune ou lautre des mthodes (voire mme dduire un
classement qui soit la rsultante des autres).
Page 51
51 Lexicalit et fonctionnalit Les catgories lexicales Lexicalit
et fonctionnalit
Page 52
52 Lexicalit et fonctionnalit Les catgories lexicales Lexicalit
et fonctionnalit
Page 53
53 Catgories lexicales au niveau du corpus Les catgories
lexicales Catgories lexicales au niveau du corpus / - 714 - 211 -
93 - 89 - 7825 - 2936 - 58 - 148
Page 54
54 Catgories lexicales au niveau du corpus Les catgories
lexicales Catgories lexicales au niveau du corpus
Page 55
55 Catgories lexicales au niveau des nuits Les catgories
lexicales Catgories lexicales au niveau des nuits
Page 56
56 Nuits dficitaires et Nuits excdentaires Les catgories
lexicales Nuits dficitaires et Nuits excdentaires
Page 57
57 Analyse factorielle des correspondances Les catgories
lexicales Analyse factorielle des correspondances