35
1 Description et estimation Étude d’une variable numérique, Étude d’une moyenne

1 Description et estimation Étude dune variable numérique, Étude dune moyenne

Embed Size (px)

Citation preview

Page 1: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

1

Description et estimation

Étude d’une variable numérique,Étude d’une moyenne

Page 2: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

2

Cas Rola-Cola

Les données

consommation boisson achat goût pour le de boisson consommation préférée préalable sucre au cola de chips_________ _________ ____________ ____________ ____________

2 2 1 4 2 1 1 2 8 11 2 2 3 2 1 1 1 2 10 11 1 2 1 7 5 1 1 3 6 7 2 2 1 4 4

.

.

. 1 2 2 5 5 1 1 3 3 1 2 2 1 11 9 1 1 3 9 11 1 2 1 6 8 2 2 3 2 0 1 1 2 5 7

Boisson préférée1 = Rola-Cola2 = Koka-Cola

Achat préalablede Rola-Cola1 = oui2 = non

Goût Sucre1 = oui2= indifférent3 = non

n = 40 personnes

Page 3: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

3

Définitions

Population : Ensemble des individus (objets de l’étude) auxquels on s’intéresse.

N = Taille de la population

Échantillon : Une partie de la population

n = Taille de l ’échantillon

Échantillon représentatif : - Chaque individu de la population a exactement la

même probabilité d’appartenir à l ’échantillon.- La taille n de l’échantillon est suffisamment élevée. Elle dépend de l’homogénéité de la population et de la

précision souhaitée.

Page 4: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

4

Étude d’une variable numérique X

Une variable numérique X prend des valeurs x1,…, xi,…, xN sur une population et x1,…, xi,…, xn sur un échantillon.

Elle est résumée par des statistiques de tendance centrale (moyenne, médiane) et de dispersion (variance, écart-type).

La dispersion de X est visualisée par la boîte-à-moustache et l’histogramme.

Page 5: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

5

Moyenne et écart-type

Population E chantillon E ffectif N n M oyenne

N

iix

N 1

1

μ de estimation

1

1

n

iix

nx

V ariance

N

iix

N 1

22 )(1

2

1

22

σ de estimation

)(1

1

n

ii xx

ns

É cart-type 2 2ss

Page 6: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

6

Commentaire

1) Plus la taille n de l’échantillon est grande, alors plus les chances que soit

proche de sont élevées.

2) Plus l’écart-type (s !!!) est petit, alors plus les chances que soitproche de sont élevées.

x

x

Page 7: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

7

Rola-Cola : Résultats statistiques

Descriptive Statistics

40

1

13

5.88

2.97

8.830

N

Minimum

Maximum

Mean

Std. Deviation

Variance

consommation deboisson au cola

Statistics

consommation de boisson au cola3.50

5.50

8.00

25

50

75

Percentiles

Page 8: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

8

(x1,…, xn)*

S2

Propriétés des estimations de et 2

222 S de Moyenne)S(E

X de Moyenne)X(E

Ensemble detous les échantillonspossibles

(u1,…, un)*

Xn

ii 1

1x x

n

n2 2ii 1

1s (x x)

n 1

2

2

X et S sont des

estimateurs sans biais

de et

Page 9: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

9

Médiane M

La médiane M partage l’échantillon ordonné en deux parties égales

nxxx 21

x1 … x20 x21 … x40

22120 xx

M

Page 10: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

10

Échantillon Rola-Cola ordonné

Consommation de boisson NUMÉRO au cola________ ____________

1 1 2 2 3 2 4 2 5 2 6 3 7 3 8 3 9 3 10 3 11 4 12 4 13 4 14 4 15 4 16 5 17 5 18 5 19 5 20 5

Consommation de boisson NUMÉRO au cola________ ____________ 21 6 22 6 23 6 24 6 25 7 26 7 27 7 28 7 29 7 30 8 31 8 32 8 33 9 34 9 35 9 36 10 37 10 38 11 39 12 40 13

Page 11: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

11

Quartiles Q1, Q2, Q3

Les quartiles Q1, Q2, Q3 partagent l’échantillon ordonné en quatre parties égales

x1 … x10 x11 … x20 x21 … x30 x31 … x40

Q1Q2 = M Q3

25% 25% 25% 25%

Page 12: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

12

Rola-Cola : Boîte-à-Moustache

Consommation de boissons au cola

Q4

14131211109876543210

Minimum

Q1Médiane Q3

Maximum

Page 13: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

13

Détection des observations atypiques (Outliers)

La longueur de chaque moustachedoit être inférieure à

)(5.1 13 QQ

Exemple :

Max = 13 (Obs n°12)remplacé par Max = 15

Consommation de boisson au cola

16

14

12

10

8

6

4

2

0

12

Page 14: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

14

Rola-Cola : Boîte-à-moustache multiple

131314N =

goût pour le sucre

pas d'accordindifferentd'accordco

nsom

mat

ion

de b

oiss

on a

u co

la

14

12

10

8

6

4

2

0

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne semble pas dépendrepas du goût pour le sucre.

Page 15: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

15

Rola-Cola:Histogramme

consommation de boisson au cola

1412108642

12

10

8

6

4

2

0

Std. Dev = 2.97

Mean = 6

N = 40.001

2

5

8

9

10

5

Page 16: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

16

Rola-Cola :Graphique des histogrammes

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.

[Population Pyramide]

Page 17: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

17

Rola-Cola :Graphique des histogrammes

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.

[Histogram / Panel by rows]

Page 18: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

18

Loi normale (ou de Laplace-Gauss)

Page 19: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

LAPLACE à Beaumont-en-Auge

Page 20: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

20

Loi normale (ou de Laplace-Gauss)

Page 21: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

21

Loi normale N(,)

Une variable aléatoire X suitune loi normale N(, ) si,pour toute valeur de x,

X

Simulation d'une loi normale N(6,3)3000

2000

1000

0

Std. Dev = 3.00

Mean = 6.0

N = 20736.00Résultats :

- Moyenne de X = - Variance de X = 2

- 95% des valeurs de X sont comprises entre - 1.96 et + 1.96

x

x 2

)t(

dte2

1)xX(Prob

2

2

Page 22: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne
Page 23: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

23

Soit X la durée du trajet Paris-HEC à 7 heures du

matin.

On suppose que X suit une loi normale N(,).

En général, la durée du trajet est comprise entre

30 et 50 minutes. Déterminer la moyenne et l’écart-type .

Exercice 1

Page 24: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

24

Précision de l’estimation

Quel est l’ordre de grandeur de

l’écart entre et auquel on peut

s’attendre ?

Quelle est la précision de l’estimation

de la moyenne de la population à

l’aide de la moyenne empirique ?

x

x

Page 25: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

25

Ensemble detous les échantillonspossibles

(u1,…, un)* (x1,…, xn)

*

X

x

S2 s2

XT

S/ n

xt

s / n

Un résultat très utile

Page 26: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

26

Loi de Student

Si X N(, ) alors :

XT

S/ n

suit une loi de Student à n-1 degrés de liberté [notée t(n-1)].

Gosset (1876-1937) invented the t -test to handle small samples for quality control in brewing while working at Guiness in Dublin.He wrote under the name "Student".

Page 27: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

Soit X la consommation de boisson au cola.

La population étudiée est disponible dans le fichier « rola-cola

population.sav »

Visualiser l’histogramme et la loi normale associée à cette population.

On suppose que X suit une loi normale N(,). Donner les valeurs de

et .

Tirer un échantillon de taille 40 :

Indiquer SET SEED=RANDOM pour obtenir un échantillon différent à

chaque tirage.

Calculer la moyenne et l’écart-type de l’échantillon et la statistique t.

Exercice 2

Page 28: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

28

Fractile de la loi de Student

Loi de Student à 39 degrés de liberté

t

543210-1-2-3-4-5

f(t)

.5

.4

.3

.2

.1

0.0

Loi t(n-1)

1 ( 1)t n

Calculer (Table 4) :- t0.975(39) =- t0.975() =1-

fractile d'ordre 1 d'une loi de

Student à n-1 degrés de liberté

=

( 1) (0,1)

lorsque

t n N

n

Page 29: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

Fractiles de laloi de Student

Page 30: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

30

Il y a (1-)100 chances sur 100 pour que l’intervalle

contienne , où est le fractile d’ordre

de la loi de Student à n-1 degrés de liberté. La formule est exacte si X suit une loi normale.

Sinon, c’est une bonne approximation dès que n 30.

]n

s)1n(t x,

n

s)1n(t x[

21

21

Précision del’estimationde au niveau1-

Intervalle de confiancede la moyenne au niveau 1-

)1(2

1

nt

21

Page 31: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

31

Rola-Cola :Consommation de boissons au cola

Descriptives

5.88 .47

4.92

6.83

5.75

5.50

8.830

2.97

1

13

12

4.75

.504 .374

-.375 .733

Mean

Lower Bound

Upper Bound

95% ConfidenceInterval for Mean

5% Trimmed Mean

Median

Variance

Std. Deviation

Minimum

Maximum

Range

Interquartile Range

Skewness

Kurtosis

consommation deboisson au cola

Statistic Std. Error

Page 32: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

32

Précision de l’estimation de par au degré de confiance 1 -

La quantité

est la précision de l’estimation de par au degré de confiance 1 - .

La précision est la demi-largeur de l’intervalle de confiance.

n

s)1n(t

21

x

x

Page 33: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

33

Taille de l’échantillon permettant d’obtenir une précision souhaitée c au niveau de confiance 1 -

n = taille de l’échantillon à définirs = futur écart-type observé

Problème : Trouver n tel que

cn

s)1n(t

21

Page 34: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

34

Solution approchée

On remplace dans la formule

s par la dernière estimation disponible

et par .

cn

s)1n(t

21

)1n(t2

1

)(t

21

Page 35: 1 Description et estimation Étude dune variable numérique, Étude dune moyenne

35

Rola-Cola :Graphique des intervalles de confiance

1624N =

boisson préférée

koka-colarola-cola

95%

CI c

onso

mm

atio

n de

chi

ps

10

8

6

4

2

0131314N =

goût pour le sucre

pas d'accordindifferentd'accord

95%

CI c

onso

mm

atio

n de

boi

sson

au

cola

9

8

7

6

5

4

3

2

La consommation de chipsdépend de la boisson préférée.

La consommation de boissonsau cola ne dépend pas du goûtpour le sucre.