Lanalyse lexicométrique dal-Imtâ wa l-muânasa de TawÎîdî : Quelques résultats autour de la...
Preview:
Citation preview
- Page 1
- Lanalyse lexicomtrique dal-Imt wa l-munasa de Tawd : Quelques
rsultats autour de la structure lexicale Journes dtudes
Reconnaissance automatique et exploration contextuelle en franais
et en arabe, dans une perspective de traduction Zouber MOUELHI ICAR
Universit Lumire-Lyon2
- Page 2
- 2 PLAN Les principales caractristiques lexicomtriques La
richesse lexicale Les catgories lexicales
- Page 3
- 3 Au niveau du corpus Les principales caractristiques
lexicomtriques du Imt Au niveau du corpus
- Page 4
- 4 Au niveau des Nuits Les PCLC du Imt Au niveau des Nuits
- Page 5
- 5 Etendues des Nuits Les principales caractristiques
lexicomtriques du Imt Etendues des Nuits
- Page 6
- 6 Distribution des tendues Les principales caractristiques
lexicomtriques du Imt Distribution des tendues
- Page 7
- 7 tendance centrale Des mesures de tendance centrale savoir :
la moyenne arithmtique (= 4 078,47) la mdiane (= 3 115) le mode qui
est ici ltendue maximale (=10 788) dispersion Des mesures de
dispersion savoir : la variance (= 8 715 438,552) lcart-type (= 2
952,19) le coefficient de variation (=0,72) position Des mesures de
position qui sont les quartiles Description statistique Les
principales caractristiques lexicomtriques du Imt Description
statistique
- Page 8
- 8
- Page 9
- 9 Rpartition intertextuelle et gnrique Les principales
caractristiques lexicomtriques du Imt Rpartition intertextuelle et
gnrique
- Page 10
- 10 Les citations potiques Les PCLC du Imt Les citations
potiques
- Page 11
- 11 Les citations coraniques Les PCLC du Imt Les citations
coraniques
- Page 12
- 12 La gamme de frquences Les PCLC du Imt La gamme de
frquences
- Page 13
- 13 Richesse lexicale difficile dfinir Lexicomtrie un
dnominateur commun : lieu de comparaison entre deux ou plusieurs
textes en fonction de leur tendue respective et du nombre de
vocables relevs dans chacun deux [1] [1] Dcrire la structure
lexicale ou la comparer dautres corpus indpendante du contenu
proprit quantitative Notion absolue ou relative ? "Neutralit" du
terme Richesse mieux vaut donc comprendre le mot "richesse" comme
un terme neutre, un peu comme font les physiciens pour qui
"vitesse" ne se confond pas avec "rapidit" [ 2 ] [ 2 ] [1][1]
Nathan Mnard, Mesure de la richesse lexicale. Thorie et
vrifications exprimentales : Etudes stylomtriques et
sociolinguistiques, 1983, p. 16 [2][2] Thoiron, Ph., Richesse
lexicale et classement des textes, dans tudes sur la richesse et la
structure lexicales, 1988, pp. 141-163, p.142.
- Page 14
- 14 Les mthodes de mesure de la richesse lexicale Problmes :
objectivit, comparaison, valuer V en fonction de N, influence de
ltendue sur la RL, existe-t-il un indice/chelle ( thermomtre)?
Solutions multiples : V/N, V1/V et V1/N influence de ltendue
dautres mthodes La mthode de comparaison des indices, la formule de
Guiraud ( ), lindice W de Brunet, la mthode binomiale de Muller et
lindice Vm de Yule-Herdan
- Page 15
- 15 Mthode des indices : Comparaison binaire des textes en
confrontant les 4 indices NVV1V1 q1q1 Texte ANuit
810788196712495,4840,3650 Texte BNuit 59063402652,6650,2206 1111
NVV1V1 q1q1 Texte ANuit 9460710036374,5930,3649 Texte BNuit
4424811338343,7490,2639 0011 Comparaisons binaires = q1 =
- Page 16
- 16 Interprtation des combinaisons dindices Combinaisons
Indicateurs partiels de la richesse lexicale Interprtation
globaleSymbole VV1V1 q1q1 1 - 1 - 1 - 1???? ?? 1 - 1 - 0 0??AA A
plus riche que B + 0 - 0 - 1 1BB?? A moins riche que B - 0 - 0 - 1
0BB?A (A moins riche que B) (-) 0 - 1 - 1 - 0B??A (A moins riche
que B) (-) 1 - 0 - 0 - 1?BA? (A plus riche que B) (+) 1 - 1 - 0 -
1??A? (A plus riche que B) (+) 1 - 0 - 1 - 1?B?? (A moins riche que
B) (-) 1 - 1 - 1 - 0???A ??
- Page 17
- 17 Valeurs des indices pour chacune des nuits al-Imt wa
l-munasa NuitsNVV1V1 q1q1 Nuit 08 10788196712495,4840,3650 Nuit 10
9564177210335,3970,4170 Nuit 06 7079164411404,3060,3066 Nuit 00
5062141210483,5850,2578 Nuit 09 460710036374,5930,3649 Nuit 04
424811338343,7490,2639 Nuit 14 32718195463,9940,3333 Nuit 02
31158966493,4770,2757 Nuit 07 25696884643,7340,3256 Nuit 01
24787034983,5250,2916 Nuit 13 24275353424,5360,3607 Nuit 03
20046274703,1960,2504 Nuit 15 17735103443,4760,3255 Nuit 16
12864203133,0620,2548 Nuit 05 9063402652,6650,2206
- Page 18
- 18 Rsultat des comparaisons binaires des Nuits selon la mthode
des indices
- Page 19
- 19 Classement de quelques Nuits en fonction de la richesse
lexicale selon la mthode des indices Nuit 02 Nuit 01 Prambule Nuit
14Nuit 03 Nuit 07 Nuit 06Nuit 04 Nuit 15Nuit 09 AB comparaison non
rsolue Nuit 13 AB A est plus riche que B Nuit 2 Nuit 1 Nuit 7 Nuit
13 Nuit 2 Nuit 14 Nuit 15 Prambule Nuit 14 Nuit 15 Prambule Nuit 7
Nuit 13 Prambule Nuit 4 Nuit 9 Nuit 3 Nuit 13 Nuit 3 Nuit 15 Nuit 6
Nuit 9 Nuit 6 Nuit 13
- Page 20
- 20 NuitsNVClassement Nuit 005062141219,846Nuit 00506219,846
Nuit 01247870314,122Nuit 06707919,540 Nuit 02311589616,054Nuit
081078818,938 Nuit 03200462714,006Nuit 10956418,119 Nuit
044248113317,384Nuit 04424817,384 Nuit 0590634011,296Nuit
02311516,054 Nuit 067079164419,540Nuit 09460714,777 Nuit
07256968813,574Nuit 14327114,320 Nuit 0810788196718,938Nuit
01247814,122 Nuit 094607100314,777Nuit 03200414,006 Nuit
109564177218,119Nuit 07256913,574 Nuit 13242753510,860Nuit
15177312,112 Nuit 14327181914,320Nuit 16128611,712 Nuit
15177351012,112Nuit 0590611,296 Nuit 16128642011,712Nuit
13242710,860 Classement des Nuits selon lindice de richesse
lexicale de Guiraud
- Page 21
- 21 Selon la formule de Guiraud (1 / 3)
- Page 22
- 22 Selon la formule de Guiraud (2 / 3) Test de corrlation des
rangs de Spearman
- Page 23
- 23 Selon la formule de Guiraud (3 / 3)
- Page 24
- 24 Classement des Nuits selon lindice W de Brunet NV Classement
WR Nuit 00506214123,48150,287211,5875Nuit 0011,58750,8942 Nuit
0124787033,08800,323812,5640Nuit 0611,94720,8702 Nuit
0231158963,21960,310612,1639Nuit 0412,08750,8608 Nuit
0320046273,02780,330312,3174Nuit 0512,16370,8558 Nuit
04424811333,35220,298312,0875Nuit 0212,16390,8557 Nuit
059063402,72530,366912,1637Nuit 0312,31740,8455 Nuit
06707916443,57380,279811,9472Nuit 0812,42160,8386 Nuit
0725696883,07660,325012,8323Nuit 0112,56400,8291 Nuit
081078819673,68580,271312,4216Nuit 1012,57640,8282 Nuit
09460710033,28260,304613,0616Nuit 1612,59390,8271 Nuit
10956417723,62020,276212,5764Nuit 0712,83230,8112 Nuit
1324275352,94630,339414,0904Nuit 1412,84300,8105 Nuit
1432718193,17020,315412,8430Nuit 1512,93460,8044 Nuit
1517735102,92210,342212,9346Nuit 0913,06160,7959 Nuit
1612864202,82620,353812,5939Nuit 1314,09040,7273
- Page 25
- 25 Selon lindice W de Brunet (1 / 3) Traduit une rduction de
linfluence de ltendue
- Page 26
- 26 Selon lindice W de Brunet (2 / 3)
- Page 27
- 27 Selon lindice W de Brunet (3 / 3)
- Page 28
- 28 Classement des Nuits selon la mthode binomiale de Muller N V
relle V thorique Ecart absolu Ecart rduit Ecart translat Classement
Ecart translat Nuit 00 506214121397,8114,1933,230,4335,43 Nuit
0035,43 Nuit 01 2478703818,02- 115,0226,78- 4,2930,71 Nuit 0533,44
Nuit 02 3115896974,36- 78,3628,84- 2,7232,28 Nuit 0332,32 Nuit 03
2004627693,82- 66,8224,93- 2,6832,32 Nuit 0232,28 Nuit 04
424811331229,17- 96,1731,66- 3,0431,96 Nuit 0431,96 Nuit 05
906340369,14- 29,1418,67- 1,5633,44 Nuit 1631,76 Nuit 06
707916441776,87- 132,8736,09- 3,6831,32 Nuit 0631,32 Nuit 07
2569688841,04- 153,0427,11- 5,6529,35 Nuit 0130,71 Nuit 08
1078819672373,00- 406,0039,07- 10,3924,61 Nuit 1529,96 Nuit 09
460710031304,86- 301,8632,39- 9,3225,68 Nuit 0729,35 Nuit 10
956417722187,81- 415,8138,32- 10,8524,15 Nuit 1428,44 Nuit 13
24275351750,85- 1215,8535,92- 33,851,15 Nuit 0925,68 Nuit 14
32718191011,07- 192,0729,28- 6,5628,44 Nuit 0824,61 Nuit 15
1773510630,37- 120,3723,89- 5,0429,96 Nuit 1024,15 Nuit 16
1286420488,85- 68,8521,28- 3,2431,76 Nuit 131,15 T (N = 61177) T (N
= 5062)T - T p = 0,083q = 0,917
- Page 29
- 29 Selon la mthode binomiale de Muller (1 / 4)
- Page 30
- 30 Selon la mthode binomiale de Muller (2 / 4) Rduction de
linfluence de ltendue
- Page 31
- 31 Selon la mthode binomiale de Muller (3 / 4)
- Page 32
- 32 Selon la mthode binomiale de Muller (4 / 4)
- Page 33
- 33 Classement des Nuits selon lindice Vm de Yule-Herdan NVV1V1
f f VmVm Nuit 005062141210483,5828,287,890,210 Nuit
0124787034983,5219,065,410,204 Nuit 0231158966493,4822,026,330,212
Nuit 0320046274703,2018,855,900,236 Nuit
04424811338343,7525,006,670,198 Nuit 059063402652,6614,355,390,292
Nuit 067079164411404,3128,676,660,164 Nuit
0725696884643,7318,014,820,184 Nuit
0810788196712495,4828,975,280,119 Nuit
09460710036374,5920,644,490,142 Nuit
109564177210335,4025,494,720,112 Nuit
1324275353424,5414,973,300,143 Nuit 1432718195463,9919,544,890,171
Nuit 1517735103443,4815,534,470,198 Nuit
1612864203133,0615,284,990,244
- Page 34
- 34 Selon lindice Vm de Yule-Herdan (1 / 4) Sous linfluence de N
et de V 1
- Page 35
- 35 Selon lindice Vm de Yule-Herdan (2 / 4) Confirmation de
linfluence de V1 sur lindice Vm en comparant les deux diagrammes de
la richesse lexicale, selon lindice Vm et le quotient V1/V
- Page 36
- 36 Selon lindice Vm de Yule-Herdan (3 / 4)
- Page 37
- 37 Selon lindice Vm de Yule-Herdan (4 / 4)
- Page 38
- 38 BILAN (R. L.) NuitClassement selon : Guiraud ( ) Brunet ( W
) Muller ( Binomiale ) Yule-Herdan ( V m ) Nuit 001115 Nuit 019886
Nuit 026544 Nuit 0310633 Nuit 045357 Nuit 0514521 Nuit 0622711 Nuit
0711 109 Nuit 08371314 Nuit 097141213 Nuit 10491415 Nuit 1315 12
Nuit 148121110 Nuit 15121398 Nuit 16131062 Rcapitulatif des
classements selon les diffrentes mthodes utilises
- Page 39
- 39 BILAN (R. L.) CommunsEcart / MoyContigusEcart / Moy
Guiraud713- 3 Brunet6060 Muller8293 Yule-Herdan2- 471 Moyenne66
Nombre total, pour chaque mthode, des rangs communs et contigus
ceux des autres mthodes
- Page 40
- 40 BILAN (R. L.)
- Page 41
- 41 BILAN (R. L.) Yule-HerdanMullerBrunet Guiraud - 0,364
Corrlation non significative 0,079 Corrlation non significative
0,590 Corrlation significative Brunet 0,409 Corrlation non
significative 0,744 Corrlation significative Muller 0,871
Corrlation significative Corrlation des rangs de Spearman entre les
classements obtenus par les 4 principales mthodes
- Page 42
- 42 BILAN (R. L.)
- Page 43
- 43 BILAN (R. L.) Analyse Factorielle des variables latentes du
classement des 15 nuits par les quatre mthodes de mesure de
richesse lexicale : Reprsentations graphique des mthodes Sur la
base de la contigut Sous linfluence inverse de N et de V1
- Page 44
- 44 Analyse Factorielle des variables latentes du classement des
15 nuits par les quatre mthodes de mesure de richesse lexicale :
Reprsentations graphique des nuits
- Page 45
- 45 BILAN (R. L.) La dispersion des nuits interprte selon laxe
F1
- Page 46
- 46 BILAN (R. L.) La dispersion des nuits interprte selon laxe
F2
- Page 47
- 47 Interprtation globale, selon les deux axes F1 et F2, de la
reprsentation graphique de lanalyse factorielle des variables
latentes
- Page 48
- 48 BILAN (R. L.) Nuit 00 Nuit 01 Nuit 02 Nuit 03 Nuit 04 Nuit
05 Nuit 06 Nuit 07 Nuit 08 Nuit 09 Nuit 10 Nuit 13 Nuit 14 Nuit 15
Nuit 16 Classement, en fonction de la richesse lexicale, des nuits
d' al-Imt wa l- munasa rsultant de la reprsentation graphique de
l'analyse factorielle des variables latentes Plus riche que
- Page 49
- 49 BILAN (R. L.) Mthode "factorielle"Corrlation Guiraud
0,318non significative Brunet 0,872significative Muller
0,882significative Yule-Herdan 0,711significative Corrlation entre
les classements calculs et le classement infr
- Page 50
- 50 Conclusion autour de la R. L. Commencer, tout dabord, par la
mthode des indices. Les cas rsolus (surtout les cas srs) pourront
ouvrir la voie par la suite, aux autres mthodes de mesure (21 / 22
comparaisons rsolues sont confirmes). Sil ne faut choisir quune
seule mthode de mesure de la richesse lexicale, la mthode binomiale
propose par Charles Muller est la plus apprpoprie ("logique
irrprochable" et bien-fond thorique). dfaut dutiliser la mthode
binomiale lindice W de Brunet est fortement recommand (stabilit,
linstar de la loi binomiale). Sinon, lon peut imaginer une
utilisation coinjointe des quatre mthodes. Lanalyse factorielle
pourrait dans ce cas servir doutil daide la prise de dcision dans
le choix de lune ou lautre des mthodes (voire mme dduire un
classement qui soit la rsultante des autres).
- Page 51
- 51 Lexicalit et fonctionnalit Les catgories lexicales Lexicalit
et fonctionnalit
- Page 52
- 52 Lexicalit et fonctionnalit Les catgories lexicales Lexicalit
et fonctionnalit
- Page 53
- 53 Catgories lexicales au niveau du corpus Les catgories
lexicales Catgories lexicales au niveau du corpus / - 714 - 211 -
93 - 89 - 7825 - 2936 - 58 - 148
- Page 54
- 54 Catgories lexicales au niveau du corpus Les catgories
lexicales Catgories lexicales au niveau du corpus
- Page 55
- 55 Catgories lexicales au niveau des nuits Les catgories
lexicales Catgories lexicales au niveau des nuits
- Page 56
- 56 Nuits dficitaires et Nuits excdentaires Les catgories
lexicales Nuits dficitaires et Nuits excdentaires
- Page 57
- 57 Analyse factorielle des correspondances Les catgories
lexicales Analyse factorielle des correspondances