23
INF L14 INF L14 Initiation aux statistiques Initiation aux statistiques 4 – Classement et cumul

INF L14 Initiation aux statistiques 4 – Classement et cumul

Embed Size (px)

Citation preview

Page 1: INF L14 Initiation aux statistiques 4 – Classement et cumul

INF L14INF L14Initiation aux statistiquesInitiation aux statistiques

4 – Classement et cumul

Page 2: INF L14 Initiation aux statistiques 4 – Classement et cumul

Classement des Classement des modalitésmodalités

CAT EFFECTIF

ADJADJ 307307

ADVADV 349349

CONJCONJ 305305

DETDET 792792

INTERJINTERJ 44

NOMNOM 10931093

NUMNUM 1616

PREPPREP 539539

PROPRO 632632

VERBEVERBE 896896

Total 4933

Non classées : pas très lisible...

CAT

0

200

400

600

800

1000

1200

ADJ ADV CONJ DET INTERJ NOM NUM PREP PRO VERBE

Page 3: INF L14 Initiation aux statistiques 4 – Classement et cumul

Classement des Classement des modalitésmodalités

CAT EFFECTIF

NOMNOM 10931093

VERBEVERBE 896896

DETDET 792792

PROPRO 632632

PREPPREP 539539

ADVADV 349349

ADJADJ 307307

CONJCONJ 305305

NUMNUM 1616

INTERJINTERJ 44

Total 4933

Classement par fréquences décroissantes

CAT

0

200

400

600

800

1000

1200

NOM VERBE DET PRO PREP ADV ADJ CONJ NUM INTERJ

Page 4: INF L14 Initiation aux statistiques 4 – Classement et cumul

Classement des Classement des modalitésmodalités

CAT EFFECTIF

NOMNOM 10931093

VERBEVERBE 896896

DETDET 792792

PROPRO 632632

PREPPREP 539539

ADVADV 349349

ADJADJ 307307

CONJCONJ 305305

NUMNUM 1616

INTERJINTERJ 44

Total 4933

Polygone de fréquences

CAT

0

200

400

600

800

1000

1200

NOM VERBE DET PRO PREP ADV ADJ CONJ NUM INTERJ

Page 5: INF L14 Initiation aux statistiques 4 – Classement et cumul

Classement des Classement des modalitésmodalités

CAT EFFECTIF

NOMNOM 10931093

VERBEVERBE 896896

DETDET 792792

PROPRO 632632

PREPPREP 539539

ADVADV 349349

ADJADJ 307307

CONJCONJ 305305

NUMNUM 1616

INTERJINTERJ 44

Total 4933

Diagramme en secteurs

CAT

NOM23%

VERBE18%

DET16%

PRO13%

PREP11%

ADV7%

ADJ6%

CONJ6%

NUM0,3%

INTERJ0,1%

Page 6: INF L14 Initiation aux statistiques 4 – Classement et cumul

RangsRangs

RANG CAT EFFECTIF

11 NOMNOM 10931093

22 VERBEVERBE 896896

33 DETDET 792792

44 PROPRO 632632

55 PREPPREP 539539

66 ADVADV 349349

77 ADJADJ 307307

88 CONJCONJ 305305

99 NUMNUM 1616

1010 INTERJINTERJ 44

Page 7: INF L14 Initiation aux statistiques 4 – Classement et cumul

RangsRangsRang Forme Fréq.

1 de 239

2 le 153

3 l' 125

4 la 119

5 et 95

6 est 88

7 que 83

8 d' 82

9 les 79

10 il 62

11 un 61

12 a 58

13 qui 53

14 du 52

15 une 51

16 des 48

17 en 47

18 à 46

19 qu' 46

20 ne 43

21 dans 40

22 on 37

23 plus 34

... ... ...

0

50

100

150

200

250

300

0 200 400 600 800 1000 1200 1400 1600

Rang

Fré

qu

ence

Quand les modalités sont très nombreuses, on utilise plutôt les rangs sur l’axe des abscisses (X), par exemple de 10 en 10, 100 en 100, etc.

Page 8: INF L14 Initiation aux statistiques 4 – Classement et cumul

Changement d’échelleChangement d’échelle

1

10

100

1000

1 10 100 1000 10000

Rang

Fré

qu

ence

Lorsque les modalités sont très nombreuses et les fréquences très inégales on peut utiliser un changement d’échelle des axes (coordonnées logarithmiques).0

50

100

150

200

250

300

0 200 400 600 800 1000 1200 1400 1600

Rang

Fré

qu

ence

Page 9: INF L14 Initiation aux statistiques 4 – Classement et cumul

Loi de ZipfLoi de Zipf George Zipf (1935) s’est George Zipf (1935) s’est

aperçu que cette relation aperçu que cette relation rang-fréquence était une rang-fréquence était une propriété de tous les propriété de tous les textes.textes.

1

10

100

1000

1 10 100 1000 10000

Rang

Fré

qu

ence

Approximativement : rang x fréquence =

constante

Page 10: INF L14 Initiation aux statistiques 4 – Classement et cumul

ExemplesExemplesPhèdre

1

10

100

1000

10000

1 10 100 1000 10000

Gargantua

1

10

100

1000

10000

1 10 100 1000 10000

Notre-Dame de Paris

1

10

100

1000

10000

100000

1 10 100 1000 10000

Alice in Wonderland

1

10

100

1000

10000

100000

1 10 100 1000 10000

Page 11: INF L14 Initiation aux statistiques 4 – Classement et cumul

Fréquences cumuléesFréquences cumulées

CAT EFFECTIF

NOMNOM 10931093

VERBEVERBE 896896

DETDET 792792

PROPRO 632632

PREPPREP 539539

ADVADV 349349

ADJADJ 307307

CONJCONJ 305305

NUMNUM 1616

INTERJINTERJ 44

Total 4933

Etape 1 : Classement par fréquences décroissantes

CAT

0

200

400

600

800

1000

1200

NOM VERBE DET PRO PREP ADV ADJ CONJ NUM INTERJ

Page 12: INF L14 Initiation aux statistiques 4 – Classement et cumul

Fréquences cumuléesFréquences cumuléesCAT EFFECTIF CUMUL

NOMNOM 10931093 10931093

VERBEVERBE 896896 19891989

DETDET 792792 27812781

PROPRO 632632 34133413

PREPPREP 539539 39523952

ADVADV 349349 43014301

ADJADJ 307307 46084608

CONJCONJ 305305 49134913

NUMNUM 1616 49294929

INTERJINTERJ 44 49334933

Total 4933 4933

CAT

0

1000

2000

3000

4000

5000

6000

NOM VERBE DET PRO PREP ADV ADJ CONJ NUM INTERJ

Page 13: INF L14 Initiation aux statistiques 4 – Classement et cumul

Fréquences cumuléesFréquences cumuléesCAT EFFECTIF CUMUL CUMUL%

NOMNOM 10931093 10931093 22,2%22,2%

VERBEVERBE 896896 19891989 40,3%40,3%

DETDET 792792 27812781 56,4%56,4%

PROPRO 632632 34133413 69,2%69,2%

PREPPREP 539539 39523952 80,1%80,1%

ADVADV 349349 43014301 87,2%87,2%

ADJADJ 307307 46084608 93,4%93,4%

CONJCONJ 305305 49134913 99,6%99,6%

NUMNUM 1616 49294929 99,9%99,9%

INTERJINTERJ 44 49334933 100,0%100,0%

Total 4933 4933 100,0¨%

CAT

0%

20%

40%

60%

80%

100%

NOM VERBE DET PRO PREP ADV ADJ CONJ NUM INTERJ

Idem, expression en pourcentages

Page 14: INF L14 Initiation aux statistiques 4 – Classement et cumul

ExempleExemple

Petit PrincePetit Prince 15351 occurrences15351 occurrences 2414 formes2414 formes

Rappel : loi de ZipfRappel : loi de Zipf

Petit Prince

1

10

100

1000

10000

1 10 100 1000 10000

Rang

Fré

qu

ence

Page 15: INF L14 Initiation aux statistiques 4 – Classement et cumul

Fréquences cumuléeFréquences cumulée

EnvironEnviron 50 mots = 50%50 mots = 50% 1000 mots = 1000 mots =

90%90%Petit Prince

0%

50%

100%

0 500 1000 1500 2000 2500 3000

Rang

Fré

qu

ence

cu

mu

lée

90%

Vocabulaire fondamental

Page 16: INF L14 Initiation aux statistiques 4 – Classement et cumul

AgrandissementAgrandissement

Petit Prince

0%

50%

100%

0 50 100 150 200

Rang

Fré

qu

ence

cu

mu

lée

(agrandissement rangs 1 - 200)

52 mots = 50%

Page 17: INF L14 Initiation aux statistiques 4 – Classement et cumul

Mots les plus fréquentsMots les plus fréquents

Rang Forme Cumul Rang Forme Cumul

1 LE 3,0% 27 EN 37,4%

2 DE 5,7% 28 QU' 38,1%

3 IL 8,2% 29 ME 38,8%

4 JE 10,4% 30 QUI 39,5%

5 ET 12,3% 31 POUR 40,1%

6 UN 14,2% 32 BIEN 40,8%

7 EST 16,0% 33 AI 41,4%

8 LES 17,7% 34 SE 41,9%

9 LA 19,1% 35 A 42,5%

10 PETIT 20,4% 36 S' 43,0%

11 PAS 21,6% 37 COMME 43,5%

12 À 22,8% 38 MOI 44,0%

13 NE 24,0% 39 SI 44,5%

14 PRINCE 25,1% 40 DU 45,0%

15 L' 26,2% 41 ON 45,5%

16 QUE 27,3% 42 SUR 45,9%

17 D' 28,3% 43 ELLE 46,4%

18 TU 29,3% 44 ÉTAIT 46,8%

19 J' 30,3% 45 VOUS 47,2%

20 C' 31,3% 46 DANS 47,7%

21 UNE 32,3% 47 LUI 48,1%

22 DIT 33,3% 48 PLANÈTE 48,5%

23 N' 34,2% 49 PLUS 48,9%

24 MAIS 35,1% 50 MON 49,3%

25 DES 36,0% 51 ÇA 49,6%

26 CE 36,8% 52 TOUT 50,0%

Page 18: INF L14 Initiation aux statistiques 4 – Classement et cumul

AntidictionnaireAntidictionnaire

Mots outilsMots outils Mots grammaticauxMots grammaticaux Présents dans tous les textesPrésents dans tous les textes Parmi les plus fréquentsParmi les plus fréquents

Page 19: INF L14 Initiation aux statistiques 4 – Classement et cumul

$£aAàafinahaiaieaientaiesailleursainsiaitalentouraliasallaisallaientallaitallonsallezalorsAp.Apr.aprèsaprès-demainarrièreasassezattenduauaucunaucuneau-dedansau-dehorsau-delàau-dessousau-dessusau-devant...

ExempleExemple

Page 20: INF L14 Initiation aux statistiques 4 – Classement et cumul

Programme DicoProgramme Dico

Page 21: INF L14 Initiation aux statistiques 4 – Classement et cumul

Tous les motsTous les mots

Page 22: INF L14 Initiation aux statistiques 4 – Classement et cumul

FiltréFiltré

On voit apparaître les mots-clés du

texte

Page 23: INF L14 Initiation aux statistiques 4 – Classement et cumul

Termes à retenirTermes à retenir

Rang Coordonnées logarithmiques Loi de Zipf Fréquences cumulées