10
N. Duceux Lycée Paul Doumer Année 2012/13 Page 1 Statistiques descriptives à une variable Introduction Les statistiques descriptives ont pour but de donner une vision d’ensemble d’une population à partir de renseignements collectés sur les individus qui la constituent. On organise les données collectées sous forme de tableaux et de graphiques. On calcule des paramètres tels que le mode, la médiane, la moyenne, l’écart-type, qui permettent de renseigner sur la population de la manière la plus synthétique possible. Moyenne, écart-type Moyenne La moyenne d’une série statistique à caractère quantitatif est un indicateur de centralité ( valeur centrale) ou de position. La moyenne est définie par la formule : est l’effectif total, les effectifs partiels, les valeurs du caractère dans le cas d’une variable discrète, les milieux des classes du caractère dans le cas d’une variable continue. On effectue la somme des valeurs de la variable multipliée par l’effectif correspondant. Cette somme est ensuite divisée par l’effectif total. Si on note la fréquence correspondant à l’effectif partiel , alors et la moyenne peut être obtenue avec la formule suivante : Si l’on considère le cas d’un caractère quantitatif continu, pour calculer la moyenne on détermine d’abord les centres de classe. Exemple On a relevé le taux de cholestérol (en cg/l) dans le sang de 300 personnes présentées dans le tableau ci-dessous. Taux [80 ;120[ [120 ;160[ [160 ;200[ [200 ;240[ [240 ;280[ [280 ;320[ [320 ;360[ Centre de classe Effectifs 7 54 110 72 46 8 3 Fréquences Calculer de deux manières différentes la moyenne.

Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

  • Upload
    vanhanh

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 1

Statistiques descriptives à une variable

Introduction

Les statistiques descriptives ont pour but de donner une vision d’ensemble d’une population à partir

de renseignements collectés sur les individus qui la constituent.

On organise les données collectées sous forme de tableaux et de graphiques. On calcule des

paramètres tels que le mode, la médiane, la moyenne, l’écart-type, qui permettent de renseigner sur la

population de la manière la plus synthétique possible.

Moyenne, écart-type

Moyenne

La moyenne d’une série statistique à caractère quantitatif est un indicateur de centralité (valeur

centrale) ou de position. La moyenne est définie par la formule :

est l’effectif total, les effectifs partiels, les valeurs du caractère dans le cas

d’une variable discrète, les milieux des classes du caractère dans le cas d’une variable continue.

On effectue la somme des valeurs de la variable multipliée par l’effectif correspondant. Cette somme

est ensuite divisée par l’effectif total.

Si on note la fréquence correspondant à l’effectif partiel , alors

et la moyenne peut être

obtenue avec la formule suivante :

Si l’on considère le cas d’un caractère quantitatif continu, pour calculer la moyenne on détermine

d’abord les centres de classe.

Exemple

On a relevé le taux de cholestérol (en cg/l) dans le sang de 300 personnes présentées dans le tableau

ci-dessous.

Taux [80 ;120[ [120 ;160[ [160 ;200[ [200 ;240[ [240 ;280[ [280 ;320[ [320 ;360[

Centre de

classe

Effectifs

7 54 110 72 46 8 3

Fréquences

Calculer de deux manières différentes la moyenne.

Page 2: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 2

Rappel - Mode

C’est la valeur du caractère associé à l’effectif le plus grand.

Dans l’exemple précédent la classe modale est [160 ;200[

Propriétés de la moyenne

1) Soit un nombre réel et une série statistique de valeurs . On considère la série statistique

définie par ayant les valeurs .

Alors .

Cela signifie que s’il y a une augmentation uniforme des valeurs de la variable alors la moyenne est

augmentée de la même valeur.

2) On considère la série statistique définie par ayant les valeurs avec . Alors

Les propriétés 1) et 2) définissent la linéarité de la moyenne.

3) Moyennes partielles

Si une série est partagée en deux séries d’effectifs N et P et de moyennes et alors la moyenne de

la série totale est

Exemple

Une classe contient 28 élèves. Il y a 18 filles et 10 garçons. La moyenne au contrôle est 11,5 pour les

filles et 10 pour les garçons.

1) Quelle est la moyenne de la classe ?

2) Au devoir suivant les filles ont 12 de moyenne et la moyenne de la classe est 11. Quelle est la

moyenne des garçons ?

Interprétation de la moyenne

La moyenne est un premier indicateur d’une série statistique. Elle est très fréquemment utilisée en

économie : salaire moyen, PIB/habitant, PNB/habitant…La moyenne correspond à une répartition

parfaitement égalitaire de la masse à partager.

Si dans une entreprise chaque salarié percevait le salaire moyen, la masse salariale resterait la même.

C’est un indicateur très sensible aux variations des valeurs extrêmes et qui ne rend pas compte des

fluctuations de la variable. Par exemple, si dans une entreprise l’ensemble des 10 salariés ont un

salaire mensuel égal à 2000 euros et le patron a un salaire mensuel de 25000 euros, le salaire moyen

dans l’entreprise est égal à 4091 euros !

Remarque

La moyenne n’est pas en général une valeur prise par la variable.

Page 3: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 3

Écart-type

Pour traduire les fluctuations d’une variable, on a recours à la notion de variance et d’écart-type.

La variance permet de mesurer la dispersion des valeurs du caractère autour de la moyenne.

L’écart-type est une valeur exprimée dans la même unité de mesure que la variable. Il est donné par

la formule où est la variance de la série statistique.

Propriété de l’écart-type

Soit un nombre réel et une série statistique de valeurs . On considère la série statistique

définie par ayant les valeurs . Alors .

Cela signifie que l’écart-type ne change pas si l’on augmente uniformément les valeurs d’une série.

Exemple

Si dans une entreprise, après négociation salariale, les salaires sont augmentés uniformément de 100

euros. Alors, la moyenne des salaires est elle-même augmentée de 100 euros mais la répartition des

salaires ne change pas (augmentation uniforme). La dispersion est inchangée donc l’écart-type reste le

même.

Interprétation de l’écart-type

En général, plus les valeurs sont dispersées autour de la moyenne, plus l’écart-type est grand.

L’écart-type est sensible à la variation des valeurs extrêmes du fait de son lien avec la moyenne.

Exemples

Voici le relevé de notes d’un élève de première au cours du premier trimestre dans différentes

matières.

Histoire 11 12 11 10 9

Mathématiques 16 8 10 6,5 13,5

Anglais 15 15 15 5 5

SES 11 11,5 11 10 11

Calculer la moyenne et l’écart-type des 4 séries de notes. Interpréter les résultats.

La moyenne et l’écart-type constituent un premier résumé de la série statistique étudiée

Page 4: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 4

Médiane, quantiles

Quantiles

Les quantiles permettent d’étudier la répartition d’une série statistique à caractère quantitatif. Ce sont

des caractéristiques de position.

Médiane

La médiane, notée Me, est une valeur de la variable qui partage la population en deux groupes de

même effectif : 50% dans l’un, 50% dans l’autre.

Me est la plus petite valeur de la variable supérieure ou égale à au moins 50 % des données.

Quartiles

Les quartiles, notés , = , , sont 3 valeurs de la variable qui partagent la population en 4

groupes de même effectif. Chaque groupe est en théorie constitué de 25% des effectifs.

est la plus petite valeur de la variable supérieure ou égale à au moins 25 % des données.

est la plus petite valeur de la variable supérieure ou égale à au moins 75 % des données.

Déciles

Les déciles, notés , ,…, , sont 9 valeurs de la variable qui partagent la population en 10 groupes

de même effectif. Chaque groupe est constitué de 10 % des effectifs.

On peut de la même manière définir les 99 centiles qui partagent la population en 100 groupes de

même effectif, chaque groupe étant constitué d’un centième des effectifs.

Écart inter-quantile

L’écart interquartile est la différence . Il contient au moins 50% des observations.

L’écart inter-décile est la différence . Il contient au moins 80% des observations.

Ces écarts inter-quantiles sont des indicateurs de dispersion des valeurs de la série statistique.

Étendue

L’étendue est la différence entre les deux valeurs extrêmes observées.

Interprétation

Les quantiles sont de bons indicateurs de la répartition de la population d’une distribution statistique.

Les intervalles interquartiles et plus généralement inter-quantiles (différence entre la première et la

dernière valeur) sont insensibles aux variations des valeurs extrêmes. Ils améliorent la notion

d’étendue en éliminant les valeurs extrêmes.

Page 5: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 5

La médiane et l’écart interquartile constituent un second résumé d’une série statistique.

Exercice

Un sondage sur un échantillon de mille hommes adultes donne la répartition suivante des pointures :

1) Calculer les paramètres suivants:

La moyenne P , la médiane M , le mode et l’étendue.

2) La direction d’une usine de fabrication de chaussures pour hommes veut définir sa stratégie.

a) Pour la découpe du cuir, le réglage de la machine nécessite de couvrir toutes les pointures.

Quel est le paramètre le plus adapté ?

b) Quel indicateur fournit la pointure nécessitant un temps maximal d’occupation de la machine ?

3) a) Les coûts de production sont tels que la direction n’envisage que la fabrication pour les

pointures représentant au moins 5% de la population. Quelle est alors la nouvelle étendue ? Le

nouveau mode ?

b) Quel est le pourcentage de la population qui ne trouvera pas chaussure à son pied ?

c) Trouver les pointures 1P , 2P et 3P qui permettent de répartir les chaussures fabriquées suivant

le schéma :

Pointure

minimale

25% 1P 25% 2P 25% 3P 25% Poiture

maximale

Puis comparer 2P avec la médiane.

Calcul pratique de la médiane

Cas discret

On trie les valeurs de la série par ordre croissant, chaque valeur apparaissant le nombre de fois

indiqué par son effectif ou bien l’on regroupe les valeurs par ordre croissant dans un tableau, chaque

valeur étant pondérée par l’effectif correspondant.

On distingue deux cas suivant que l’effectif de la population est pair ou impair :

Si l'effectif total est 2n + 1 où n est un entier, la médiane est la valeur classée au rang n+1.

Si l'effectif total est 2n où n est entier, la médiane est la valeur classée au rang n.

Pointure

P 38 39 40 41 42 43 44 45 46 47 48

Effectif 8 56 105 138 163 209 161 123 32 2 3

Page 6: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 6

Exemple

Une machine fabrique des fers cylindriques pour le béton armé de diamètre théorique 25 mm. On

contrôle le fonctionnement de la machine en prélevant un échantillon de 100 pièces au hasard dans la

fabrication. Les mesures des diamètres ont donné les résultats suivants à 0,1 mm près :

Diamètre 24,1 24,3 24,5 24,7 24,9 25,1 25,3 25,5 25,7 25,9

Effectif 1 4 13 24 19 14 10 8 5 2

Effectifs

cumulés

croissants

Compléter le tableau des effectifs cumulés croissants.

En déduire la médiane et les premier et troisième quartiles.

Cas continu

Dans le cas d’un regroupement par classe des données on détermine la classe médiane.

Exemple

Dans une succursale de banque, on a noté le montant des 2000 versements effectués au guichet

pendant la journée.

Montant (en €) ]0 ; 500[ [500 ; 750[ [750 ; 1000[ [1000 ; 1500[ [1500 ; 3000[

Effectif 440 320 400 480 360

La classe médiane est [750 ; 1000[.

Dans tous les cas, on peut déterminer graphiquement la médiane en traçant les courbes des effectifs

cumulés croissants et décroissants. La médiane est leur point d’intersection.

Le tracé de la courbe des effectifs

(ou fréquences) cumulés croissants

permet aussi de déterminer

graphiquement une valeur

approchée des différents quantiles.

D1 D9Q1 Q3Med

500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000-250

20

30

40

50

60

70

80

90

100

-10

0 250

10

x

y

Page 7: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 7

Exemple

On interroge un groupe de 60 lycéens sur leur temps d’écoute quotidien de musique. Les résultats

sont les suivants :

Temps d’écoute en min [0 ; 20[ [20 ; 40[ [40 ; 60[ [60 ; 80[ [80 ; 100[ total

Effectif 15 10 25 7 3 60

Fréquence en %

Fréquence cumulée

croissante en %

Construire le polygone des fréquences cumulées croissantes.

Déterminer graphiquement les quartiles.

Calcul pratique des quartiles et des déciles

Le premier quartile Q1 de la série est la valeur xi dont l’indice i est le plus petit entier supérieur ou égal

à

.

Le deuxième quartile Q2 de la série est la valeur xi dont l’indice i est le plus petit entier supérieur ou

égal à

.

Le troisième quartile Q3 de la série est la valeur xi dont l’indice i est le plus petit entier supérieur ou

égal à

.

Le premier décile D1 de la série est la valeur xi dont l’indice i est le plus petit entier supérieur ou égal à

.

Le neuvième décile D9 de la série est la valeur xi dont l’indice i est le plus petit entier supérieur ou égal

à

.

Exemple 4

La température est relevée chaque heure pendant 4 jours dans une forêt. Les 97 résultats obtenus ont

été triés et sont rassemblés dans le tableau suivant :

Température 14,5 15 15,5 16 16,5 17 17,5 18 18,5 19 19,5

Nombre de fois où

cette température a

été relevée

5 7 10 12 15 10 11 9 7 7 4

Effectifs cumulés 5 12 22 34 49 59 70 79 86 93 97

Page 8: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 8

;

. La médiane est la température correspondant au 49ième relevé. Soit 16,5

donc le premier quartile correspond au 25ième relevé soit

donc le troisième quartile correspond au 73ième relevé soit .

donc le premier décile correspond au 10ième relevé soit 15

donc le neuvième décile correspond au 88ième relevé soit 19

Diagramme en boîte

La représentation graphique de la dispersion d’une série statistique se fait à l’aide de graphiques

appelés « boîte à moustaches » ou « box-plot ».

Pour une catégorie donnée, on construit, en face d’un axe permettant de repérer les quantiles de la

série étudiée, un rectangle dont la longueur est égale à l’intervalle interquartile, la médiane est

représentée par un trait. Deux traits repèrent le premier et neuvième décile. Les observations

n’appartenant pas à l’intervalle interdécile sont représentées à l’aide de points. (On se contente

parfois des valeurs extrêmes).

Exercice

Un entomologiste a fait des relevés sur la taille de 50 sauterelles adultes. Il obtient les résultats

suivants :

33 35 36 36 37 37 37 38 38 38 39 39 39 39 40 40 40 40 40 41 41 41 41 41 41 41 42 42

42 42 42 42 43 43 43 43 44 44 44 44 45 45 45 46 46 47 47 48 48 50

1) Organiser les relevés dans le tableau des effectifs suivants.

Valeurs 33 35 36 37 38 39 40 41 42 43 44 45 46 47 48 50

Effectifs

Effectifs

cumulés

croissants

2) Représenter les données par un diagramme en bâtons

Page 9: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 9

3) Calculer la moyenne de cette série.

4) Déterminer la médiane puis le premier et le troisième quartile.

5) Calculer le premier et le neuvième décile puis tracer le diagramme en boite de la série.

Exemples appliqués à l’économie

Les revenus salariaux des salariés de 25 à 55 ans (en euros 2008)

2002 2003 2004 2005 2006 2007 2008

1er décile (D1) 9 960 9 920 9 940 9 960 10 090 10 290 10 520

2ème décile (D2) 12 270 12 270 12 320 12 380 12 550 12 750 13 120

3ème décile (D3) 14 140 14 180 14 150 14 290 14 480 14 770 15 200

4ème décile (D4) 15 960 15 950 15 940 16 100 16 370 16 650 17 100

Médiane (D5) 17 860 17 810 17 730 18 020 18 280 18 670 18 990

6ème décile (D6) 20 010 19 910 19 920 20 090 20 410 20 880 21 120

7ème décile (D7) 22 680 22 480 22 450 22 650 23 080 23 610 23 790

8ème décile (D8) 26 480 26 270 26 030 26 350 26 890 27 370 27 630

9ème décile (D9) 33 800 33 230 32 830 33 350 34 390 34 850 35 550

Lecture : En 2008, 10 % des individus ont un niveau de vie inférieur à 10 520 euros.

Champ : France métropolitaine, individus dont le revenu déclaré au fisc est positif ou nul et dont la

personne de référence n'est pas étudiante.

Sources : Insee-DGI, enquêtes Revenus fiscaux et sociaux rétropolées 1996 à 2004, Insee-DGFiP-Cnaf-

Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2005 à 2008.

Masse des niveaux de vie détenue par les x % les plus riches en %

Masse des niveaux de vie détenue par : 2003 2004 2005 2006 2007 2008

les 10 % les plus riches 23,4 23,6 23,8 24,3 24,1 24,3

les 20 % les plus riches 37,6 37,6 37,9 38,4 38,2 38,3

les 30 % les plus riches 49,4 49,4 49,6 50,0 49,9 49,8

les 40 % les plus riches 59,6 59,6 59,9 60,2 60,1 60,0

les 50 % les plus riches 68,8 68,8 69,0 69,3 69,3 69,1

les 60 % les plus riches 77,0 76,9 77,2 77,4 77,4 77,3

les 70 % les plus riches 84,3 84,3 84,5 84,7 84,7 84,6

les 80 % les plus riches 90,7 90,7 90,9 91,0 91,0 91,0

les 90 % les plus riches 96,1 96,1 96,3 96,3 96,3 96,3

Page 10: Statistiques descriptives à une variableespacemath.weebly.com/uploads/1/8/8/8/18888388/statistiques... · On organise les données collectées sous forme de tableaux et de graphiques

N. Duceux – Lycée Paul Doumer – Année 2012/13 Page 10

Lecture : En 2008, les individus qui font partie des 10 % les plus riches (en niveau de vie)

détiennent 24,3 % de la masse totale des niveaux de vie.

Note : Ces indicateurs appartiennent à la liste des indicateurs d'inégalité préconisés par le groupe de

travail "Niveaux de vie et inégalités sociales"

du CNIS. Ceux en gras sont des indicateurs dits "indicateurs de base".

Champ : France métropolitaine, individus dont le revenu déclaré au fisc est positif ou nul et dont

la personne de référence n'est pas étudiante.

Sources : Insee-DGI, enquêtes Revenus fiscaux et sociaux rétropolées 1996 à 2004, Insee-DGFiP-Cnaf-

Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2005 à 2008.

Niveau de vie des individus. Comparaison entre la moyenne et la médiane (En euros 2008/an)

Année Moyenne Médiane

2000 19 740 16 980

2001 20 220 17 400

2002 20 710 17 860

2003 20 590 17 810

2004 20 570 17 730

2005 20 810 18 020

2006 21 320 18 280

2007 21 670 18 670

2008 22 110 18 990

Lecture : En 2008, Le salaire moyen en France est de 22110 euros soit 1842,5 euros par mois et le

salaire médian est de 18990 soit 1582,5 euros par mois. 50% de la population vit avec un salaire

mensuel inférieur ou égal à 1582,5 euros bien que le salaire moyen soit de 1842,5 euros. La plus

grande valeur du salaire moyen traduit l’influence des salaires les plus importants dans le calcul de la

moyenne.

Champ : personnes vivant en France métropolitaine dans un ménage dont le revenu déclaré au fisc est

positif ou nul et dont la personne

de référence n'est pas étudiante.

Sources : Insee-DGI, enquêtes Revenus fiscaux 1970 à 1990, Insee-DGI, enquêtes Revenus fiscaux et

sociaux rétropolées 1996 à 2004,

Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux de 2005 à 2008