HSE118 Eléments de statistique descriptive 2ième partie

Preview:

Citation preview

HSE118

Outils en mathématiques et statistiques

pour la santé-sécurité au travail et

l'environnement

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

l'environnement

Eléments de statistique descriptive

2ème partie(Environ 40 minutes)

1Eléments de statistique descriptive

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

1- Caractéristique d'une distribution statistique

Sommaire

2- Indicateurs de position

3- Indicateurs de dispersion

4- Exemple

2Eléments de statistique descriptive

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

1- Caractéristique d'une distribution statistique

� But : Résumer de manière quantitative une distribution statistique

Indicateurs ?

3Eléments de statistique descriptive

� Définitions objectives d'indicateurs indépendants de l'observateur.

� Utiliser toutes les observations dans le calcul des indicateurs.

George Udny Yule

1871-1951

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

1- Caractéristique d'une distribution statistique

� Avoir une signification concrète des indicateurs compris par des non

spécialistes.

� Les indicateurs doivent être simples à calculer.

� Les indicateurs doivent être peu sensibles aux fluctuations

d'échantillonnage.

4Eléments de statistique descriptive

d'échantillonnage.

� Les indicateurs doivent se prêter aux opérations mathématiques

simples.

� Indicateur de position

� Indicateur de dispersion

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

1- Caractéristique d'une distribution statistique

� Les indicateurs de position donnent un ordre de grandeur de la

tendance centrale de la variable étudiée.

� Les indicateurs de dispersion donnent des informations sur la façon

dont les individus se répartissent autour de la tendance centrale.

5Eléments de statistique descriptive

Type de la variable Tendance centrale Dispersion

Nominale Mode

Ordinale Mode, médiane, quantiles Ecart interquartile

Discrète Mode, médiane, quantiles, moyenneEtendue, Ecart-type, écart

interquartile

Continue Mode, médiane, quantiles, moyenneEtendue, Ecart-type, écart

interquartile

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� Le mode : définitions

2- Indicateurs de position

� X est une variable nominale, ordinale ou discrète

Le mode de la distribution statistique associée est la modalité de X la plus

représentée, celle pour laquelle l'effectif est le plus grand.

6Eléments de statistique descriptive

représentée, celle pour laquelle l'effectif est le plus grand.

� X est une variable continue

Le mode de la distribution statistique associée est la classe, appelée classe

modale, dont la hauteur dans l'histogramme est la plus élevée.

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� Le mode : exemple pour une variable nominale

2- Indicateurs de position

classement

7Eléments de statistique descriptive

Mode= Italie

Emissions de gaz à effet de serre par pays en 2011

en ktCO2/an (source : AEE).

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� Le mode : exemple pour une variable continue

2- Indicateurs de position

8Eléments de statistique descriptive

Classe modale= [30 40[

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La médiane : définitions

2- Indicateurs de position

� La médiane (Me) est la valeur de la variable telle que le nombre

d'observations supérieures ou égales à cette valeur est égal au nombre

d'observations strictement inférieures à cette valeur.

9Eléments de statistique descriptive

� La médiane de la distribution de X se calcule de différentes façon suivant le

type de X.

xi

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La médiane : calcul pour une variable discrète

2- Indicateurs de position

� Si la fréquence cumulée en xi-1 est < 0,5 et celle de xi est > 0,5 alors la

médiane vaut xi.

= <xini

fi

Fi

10Eléments de statistique descriptive

� Si la fréquence cumulée en xi-1 est égale à 0,5 alors la médiane vaut xi.

2 0 24 0 5, ,F = <

3 0 53 0 5, ,F = >Me= 3

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La médiane : calcul pour une variable continue

2- Indicateurs de position

� Les variables sont réparties en classes [ai-1 ai[

• Si F(ai-1) < 0,5 et si F(ai) > 0,5 alors la classe médiane est [ai-1 ai[

et on calcule la médiane par interpolation linéaire sur l'intervalle

11Eléments de statistique descriptive

et on calcule la médiane par interpolation linéaire sur l'intervalle

[ai-1 ai[ :

Avec F la fonction de répartition de X.

( ) ( )( ) ( )

11 1

1

0 5, ii i i

i i

F aMe a a a

F a F a−

− −−

−= + −

• Si F(ai-1) = 0,5 alors la médiane vaut ai-1

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La médiane : calcul pour une variable continue

2- Indicateurs de position

� Exemple

Classes ni fi Fi

[0 1,5 [ 0 0 0

ai-1 =1,8 et ai=1,9

F(a ) = F(1,8) = 0,49 < 0,5

12Eléments de statistique descriptive

[0 1,5 [ 0 0 0

[1,5 1,6 [ 10 0,03 0,03

[1,6 1,7 [ 32 0,09 0,12

[1,7 1,8 [ 130 0,37 0,49

[1,8 1,9 [ 174 0,49 0,98

[1,9 2,0 [ 8 0,02 1,00

[2,0 2,5[ 8 0,02 1,00

( ) ( )( ) ( )

11 1

1

0 5, ii i i

i i

F aMe a a a

F a F a−

− −−

−= + −

( ) 0 5 0 491 8 1 9 1 8

0 98 0 49

, ,, , ,

, ,Me

−= + −−

1 802= ,Me

F(ai-1) = F(1,8) = 0,49 < 0,5

F(ai) = F(1,9) = 0,98 > 0,5

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� Les quantiles : définitions

2- Indicateurs de position

� Le quantile est la généralisation de la médiane. Soit 0 1αααα< <

Si et on définit le quantile d'ordre par :( )iF a αααα>1( )iF a αααα− < Qαααααααα

( ) ( )F aαααα −−= + −

13Eléments de statistique descriptive

( ) ( )( ) ( )

11 1

1

ii i i

i i

F aQ a a a

F a F aαααα

αααα −− −

−= + −

Les quantiles les plus utilisés sont :

� Les quartiles : Q1 (= Q0,25), Q2 (=Q0,5) qui est la médiane, et Q3 (=Q0,75)

� Les déciles : D1 (= Q0,10), D2 (=Q0,20), D3 (=Q0,30), …

� Les centiles : C1 (= Q0,01), C2 (=Q0,02) et C3 (=Q0,03), …

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� Les quantiles : exemples

2- Indicateurs de position

Calcul de Q0,25 = Q1 premier quartile

ai-1 =19 et ai=23

14Eléments de statistique descriptive

( )0 25

0 25 0 1819 23 19 19 8

0 53 0 18,

, ,,

, ,Q

−= + − =−

( ) ( )( ) ( )

11 1

1

ii i i

i i

F aQ a a a

F a F aαααα

αααα −− −

−= + −

F(ai-1) = F(19) = 0,18 < 0,25

F(ai) = F(23) = 0,53 > 0,25

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� Les quantiles : exemples

2- Indicateurs de position

Calcul de Q0,75 = Q3 troisième quartile

ai-1 =30 et ai=34

15Eléments de statistique descriptive

( )0 75

0 75 0 6630 34 30 31 7

0 87 0 66,

, ,,

, ,Q

−= + − =−

( ) ( )( ) ( )

11 1

1

ii i i

i i

F aQ a a a

F a F aαααα

αααα −− −

−= + −

F(ai-1) = F(30) = 0,66 < 0,75

F(ai) = F(34) = 0,87 > 0,75

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� Les quantiles : exemples

2- Indicateurs de position

Calcul de D7=Q0,70 septième décile

ai-1 =30 et ai=34

16Eléments de statistique descriptive

( )7 0 7

0 7 0 6630 34 30 30 8

0 87 0 66,

, ,,

, ,D Q

−= = + − =−

( ) ( )( ) ( )

11 1

1

ii i i

i i

F aQ a a a

F a F aαααα

αααα −− −

−= + −

F(ai-1) = F(30) = 0,66 < 0,70

F(ai) = F(34) = 0,87 > 0,70

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La moyenne arithmétique : définitions

2- Indicateurs de position

x� Si X est une variable quantitative discrète, donnée par sa distribution

d'effectifs (xi,ni), i=1,2,…,k alors la moyenne arithmétique se calcule selon

l'expression :

1 1 k k

17Eléments de statistique descriptive

• ( )1 1 2 2 3 31

1 1...

k

k k i ii

x n x n x n x n x n xN N =

= + + + + = ∑1

k

ii

N n=

=∑

x� Si X est une variable quantitative continue rangée en classes [ai-1 ai[ alors la

moyenne arithmétique se calcule selon l'expression :

• ( )1 1 2 2 3 31

1 1...

k

k k i ii

x n c n c n c n c n cN N =

= + + + + = ∑ 1

2i i

i

a ac − +=

� NB : Dans chacun des calculs, les effectifs ni peuvent être remplacés par les

fréquences fi

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La moyenne arithmétique : exemple pour une variable discrète

2- Indicateurs de position

xini

18Eléments de statistique descriptive

( )1

1 130 2 31 3 45 6 37 4

50... , /

k

i ii

x n x km hN =

= = × + × + + × =∑

( )1

2 3 3 6 50...k

ii

N n=

= = + + + + =∑

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La moyenne arithmétique : exemple pour une variable continue

2- Indicateurs de position

1

2i i

i

a ac − +=

1

16 1917 5,c

+= = 2

19 2321 0,c

+= =

19Eléments de statistique descriptive

( )1

1 115 17 5 30 21 0 3 43 5 25 7

85, , ... , ,

k

i ii

x n c keurosN =

= = × + × + + × =∑

3

23 3026 5

2,c

+= = 4

30 3432 0

2,c

+= =

5

34 4037 0

2,c

+= = 6

40 5743 5

2,c

+= =85N =

22 7: ,NB Me keuros=

1 17 52

,c = = 2 21 02

,c = =

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� L'étendue

3- Indicateurs de dispersion

� L'étendue E d'une distribution statistique est la différence entre la plus

grande modalité du caractère et la plus petite modalité.

20Eléments de statistique descriptive

Etendue : E=45-30 = 15

Etendue : E=57-16 = 41

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� L'écart interquartile

3- Indicateurs de dispersion

� L'écart interquartile IQ = distance entre le 1er et le 3ième quartile : Q0,75 - Q0,25

� L'écart interquartile représente les valeurs extrêmes d'une dispersion de 50%

des effectifs autour de la médiane.

21Eléments de statistique descriptive

des effectifs autour de la médiane.

1 19 8,Q =

3 31 7,Q =11 9,IQ =

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La variance et l'écart-type

3- Indicateurs de dispersion

� Pour une variable discrète, on a :

�La variance Var(X) est la moyenne des carrés des écarts à la moyenne.

22Eléments de statistique descriptive

• ( ) ( )2 22

1 1

1 1( )

k k

i i i ii i

Var X n x x n x xN N= =

= − = − ∑ ∑

� Pour une variable continue rangée en classes [ai-1 ai[ on a:

( ) ( )2 22

1 1

1 1( )

k k

i i i ii i

Var X n c x n c xN N= =

= − = − ∑ ∑

� Dans chaque cas on définit l'écart-type ( ) ( )X VAR xσσσσ =

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La variance et l'écart-type : exemple pour une variable discrète

3- Indicateurs de dispersion

xini

23Eléments de statistique descriptive

( ) ( ) ( )( )2 2 2

1

1 12 30 37 4 6 45 37 4 20 7

50( ) . , ... . , ,

k

i ii

Var X n x xN =

= − = − + + − = ∑

50N =

37 4,x =

4 55( ) , /Var X km hσσσσ = =

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La variance et l'écart-type : exemple pour une variable continue

3- Indicateurs de dispersion

85N =

25 7,x =

24Eléments de statistique descriptive

7 2( ) ,Var X keurosσσσσ = =

( ) ( ) ( )( )2 2 2

1

1 115 17 5 25 7 3 43 5 25 7 51 4

85( ) . , , ... . , , ,

k

i ii

Var X n c xN =

= − = − + + − = ∑

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

4- Exemple

� La boite de dispersion d'une distribution statistique

se construit de la façon suivante :

� La boite de dispersion ("box-plot") : définition

John Wilder Tukey

1915-2000

25Eléments de statistique descriptive

• Porter sur un axe gradué la médiane, puis le premier et le troisième

quartile (Q0,25 et Q0,75) de la distribution.

• Construire autour de l'axe, et centré sur l'axe, un rectangle de hauteur

arbitraire et de largeur correspondant aux deux quartiles. La médiane

est repérée par un trait plein dont la hauteur est celle du rectangle.

1915-2000

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La boite de dispersion ("box-plot") : définition

4- Exemple

• Porter de chaque côté des quartiles une longueur égale à 1,5 fois

l'intervalle interquartile et on marque, par un trait orthogonal à l'axe

prolongé par ces points, les modalités observées les plus proches des

points obtenus (vers les quartiles), c'est l'intervalle [d1 d3].

26Eléments de statistique descriptive

points obtenus (vers les quartiles), c'est l'intervalle [d1 d3].

• On repère toutes les autres valeurs observées de la modalité

extérieure à l'intervalle [d1 d3] précédent. Ces valeurs sont dites

aberrantes (outliers).

0 Q0,25 Q0,75Me

IQ 1,5.IQ1,5.IQ

d1 d3

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La boite de dispersion ("box-plot") : exemple

4- Exemple

27Eléments de statistique descriptive

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La boite de dispersion ("box-plot") : exemple

4- Exemple

28Eléments de statistique descriptive

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La boite de dispersion ("box-plot") : exemple

4- Exemple

Calcul de Q0,25 = Q1 premier quartile

ai-1 =20 et ai=30

29Eléments de statistique descriptive

( )0 25

0 25 0 0320 30 20

0 31 0 03

−= + −−,

, ,, ,

Q( ) ( )( ) ( )

11 1

1

ii i i

i i

F aQ a a a

F a F aαααα

αααα −− −

−= + −

F(ai-1) = F(20) = 0,03 < 0,25

F(ai) = F(30) = 0,31 > 0,25

1 27 9= ,Q

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La boite de dispersion ("box-plot") : exemple

4- Exemple

Calcul de Q0,75 = Q3 troisième quartile

ai-1 =30 et ai=40

30Eléments de statistique descriptive

( )0 75

0 75 0 0330 40 30

0 78 0 31

−= + −−,

, ,, ,

Q( ) ( )( ) ( )

11 1

1

ii i i

i i

F aQ a a a

F a F aαααα

αααα −− −

−= + −

3 39 4= ,Q

F(ai-1) = F(30) = 0,31 < 0,75

F(ai) = F(40) = 0,78 > 0,75

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La boite de dispersion ("box-plot") : exemple

4- Exemple

Calcul de Q0,5 = Q2 = Me (médiane)

ai-1 =30 et ai=40

31Eléments de statistique descriptive

( )0 5

0 50 0 0330 40 30

0 78 0 31

−= + −−,

, ,, ,

Q( ) ( )( ) ( )

11 1

1

ii i i

i i

F aQ a a a

F a F aαααα

αααα −− −

−= + −

34 0= ,Me

F(ai-1) = F(30) = 0,31 < 0,50

F(ai) = F(40) = 0,78 > 0,50

HSE118 – Outils en mathématiques et statistiques pour la santé-sécurité au travail et l'environnement

Eléments de statistique descriptive 2ème partie

� La boite de dispersion ("box-plot") : exemple

4- Exemple

60

50

40 39,4

56,7d3=54,7

32Eléments de statistique descriptive

1 27 9= ,Q

3 39 4= ,Q

11 5 1 5 17 3= ⇒ =, , . ,IQ IQ

34 0= ,Me

1 1 5 10 6 1 12 3− = ⇒ =, . , ,Q IQ d

3 1 5 56 7 3 54 7+ = ⇒ =, . , ,Q IQ d

12 3=min ,

54 7=max ,

42 4= ,E

0

10

30

40

20

27,9

39,4

34,0 IQ=17,3

10,6d1=12,3

Recommended