16
Echantillonnage & estimation SØance 10 S.Herrmann (UBFC) Echantillonnage et estimation 1 / 16

Echantillonnage & estimationleurent.perso.math.cnrs.fr/stats_ps1//transparents... · 2018-04-03 · S.Herrmann (UBFC) Echantillonnage et estimation 14 / 16. 1 OnévalueleniveaudestressX

  • Upload
    vukhanh

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Echantillonnage& estimation

Séance 10

S.Herrmann (UBFC) Echantillonnage et estimation 1 / 16

Rappel du principe général (échantillonnage de moyenne)

Grand échantillon.

Si n ≥ 30, alors Mn ∼ N(µ;

se√n − 1

)= N

(µ;

se√n

)

−6 −4 −2 0 2 4 60

0.1

0.2

0.3

0.4 d.d.l = 100

d.d.l = 1

d.d.l = 2d.d.l = 5 Petit échantillon.

Si n < 30 et si X suit une loinormale, alors

Tn =Mn − µ

Sn

√n − 1

∼ Student(n − 1)

Une loi de Student à (n − 1)degrés de liberté (d.d.l)

S.Herrmann (UBFC) Echantillonnage et estimation 2 / 16

Cas d’une moyenne : estimation

La moyenne µ de la variable statistique X pour la population totale est inconnue.

Principe : grand échantillon n ≥ 30

1 Dans la table de la loi normale, chercher zα tel que F (zα) = 1− α2 .

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005zα 1, 645 1, 960 2, 054 2, 326 2, 575 2, 807

2 Avec la confiance c = 1− α, on affirme que µ se trouve dans l’intervalle :

Iα(µ) = [me − aα,me + aα] où aα = zα.se√n − 1

= zα.se√n

S.Herrmann (UBFC) Echantillonnage et estimation 3 / 16

Dans le cas d’un petit échantillon E (n < 30) la loi de probabilité de référenceest la loi de Student à (n − 1) d.d.l (taille de l’échantillon n).

−tα tα

Aire : 1− α

Aire : α

N (0; 1)

Student(1)

Soit Tn une variable aléatoire qui suit une loi de Student à (n − 1) d.d.l.On se donne une confiance c = 1− α (souvent c = 95%).

But : trouver tα tel que

P[−tα ≤ Tn ≤ tα] = 1− α.

S.Herrmann (UBFC) Echantillonnage et estimation 4 / 16

Trouver tα tel queP[−tα ≤ Tn ≤ tα] = 1− α.

revient à trouver tα tel queP[Tn ≥ tα] = α/2,

Relation entre la probabilité p = P[Tn ≥ tα] et la confiance c .

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025

Table inverse de la loi de Student

p = P[Tn ≥ tα] . . . 0, 05 0, 04 0, 03 0, 025 . . .

d.d.l. 1 . . . 6, 3138 7, 9158 10, 5789 12, 7062 . . .d.d.l. 2 . . . 2, 9200 3, 3198 3, 8964 4, 3027 . . .d.d.l. 3 . . . 2, 3534 2, 6054 2, 9505 3, 1824 . . .

Exemple : Pour une loi de Student à 2 degrés de liberté, on a

P[−4, 3027 ≤ T3 ≤ 4, 3027] = 0, 95.

De manière générale, tα se lit donc dans la table inverse de la loi de Student.S.Herrmann (UBFC) Echantillonnage et estimation 5 / 16

Idée de l’estimation de la moyenne

Le principe est le même pour un grand échantillon ou un petit: seule la loi deprobabilité est différente. Lorsque n < 30 et X suit une loi normale

Tn =Xn − µSn

√n − 1 ∼ Student(n − 1).

Si µ est connu, avec confiance 1−α,

|Tn| ≤ tα.

Ainsi |Xn − µ| ≤ tαSn√n − 1

.

Si µ est inconnu, alors on mesureme et se sur un échantillon et

|me − µ| ≤ tαse√n − 1

,

avec une confiance 1− α.

L’intervalle de confiance Iα(µ) est:[me − tα

se√n − 1

;me + tαse√n − 1

]Intervalles de confiancesimilaires entre petiteou grande taille.

Seule différence :zα (loi normale)tα (Student)

S.Herrmann (UBFC) Echantillonnage et estimation 6 / 16

Récapitulatif : petit échantillon n < 30 et X suit une loi normale

1 Dans la table de la loi de Student, chercher tα tel que

P[−tα 6 Tn 6 tα] = c .

Cela revient à lire sur la table de Student la valeur tα avec p = α2 pour

n − 1 degrés de liberté (d.d.l).

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025

2 Avec la confiance c = 1− α, on peut affirmer que µ se trouve dansl’intervalle :

Iα(µ) = [me − aα,me + aα] où aα = tα.se√n − 1

= tα.se√n

S.Herrmann (UBFC) Echantillonnage et estimation 7 / 16

Etude de cas : estime de soi et personnalité évitante

Au sein d’un échantillon de 25 individus ayant une personnalité évitante, le scoremoyen d’estime de soi est me = 31, 16 et l’écart-type est se = 5, 57. Enadmettant que les scores varient selon une loi normale, donner uneestimation du score moyen avec une confiance de 95%.

Petit échantillon : n = 25 < 30. Icic = 95% et α = 0, 05. On lit dans latable de la loi de Student à 24 d.d.lt0,05 = 2, 0639.la marge de l’estimation est

a0,05 = t0,05se√n − 1

= 2, 0639× 5, 57√24≈ 2, 34.

L’intervalle de confiance de µ:

[me − a0,05;me + a0,05] = [31, 16− 2, 34; 31, 16+ 2, 34] = [28, 82; 33, 5]S.Herrmann (UBFC) Echantillonnage et estimation 8 / 16

Discussion autour de la taille de l’échantillon

Dans l’exemple, la précision est

a0,05 ≈ 2, 34.

L’estimation de la moyenne est préciseà 2,34 près.

Augmenter la taille de l’échantillon,c’est augmenter la précision.

Pour avoir une précision inférieure à h,

on passe d’un petit à un grandéchantillon (si E est petit audépart)puis on utilise la marge suivante:

aα = zαse√n − 1

.

Taille minimale pour une précision h

Pour un précision h avec uneconfiance 1− α, la condition est:

n > z2α

s2e

h2 .

Il est nécessaire d’avoir un échantillonde référence !

Application à l’étude de cas (person-nalités évitantes) pour une précision deh = 0, 5 avec une confiance de 95%

n > 1, 962 × 5, 572

0, 52 ≈ 476, 7

Echantillon de taille 477 au minimum.

S.Herrmann (UBFC) Echantillonnage et estimation 9 / 16

5. Cas d’une variance : échantillonnage et estimation

Pour une variance, on se restreint à l’estimation. Dans la population française,le temps moyen de sommeil par jour est 7h 47 min (soit 118 jours par an) etl’écart-type est de 1,2 h.

Etude de cas : temps de sommeil

On s’intéresse à la population des étudiants enL1 et on cherche à savoir si leur temps desommeil est plus homogène que dans lapopulation francaise. Pour un échantillon E de30 étudiants de L1, on trouve me = 6, 36 (soit6h 21min 36s) et se = 1, 34 h.

Vn représente la variance d’un échantillon de taille n choisi au hasardσ2 la variance de la population P et µ sa moyenneme , se les moyennes et écart-types experimentaux observés sur unéchantillon particulier.

Ici me = 6, 36 et se = 1, 34.

S.Herrmann (UBFC) Echantillonnage et estimation 10 / 16

Echantillonnage

Si la variable statistique X (ici temps desommeil par personne et par jour) suitune loi normale N (µ;σ) alors

Y =nVn

σ2 ∼ χ2(n − 1)

Une loi du khi-deux à (n-1) d.d.l.

La variable Y ne prend que des valeurs positives puisqu’il s’agit d’un rapport devariance. La densité a une forme qui dépend du nombre de degrés de libertés.

0

0.1

0.2

0 1 2 3 4 5 6 7 8 9

1

Il est peu probable que Vn

et σ2 soient très éloignésl’un de l’autre.

La densité n’est pas symétrique...

S.Herrmann (UBFC) Echantillonnage et estimation 11 / 16

Description de la loi du Khi-deux χ2

Pour un risque α donné (confiance c = 1− α), il existe x1 et x2 qui satisfont :x1 < x2, P[Y ≤ x1] = P[Y ≥ x2] = α/2.

x1 x2

Aire : 1− α

Aire : q = α/2 Aire : p = α/2

Avec confiance 1− α, on a x1 ≤ Y ≤ x2

x1 ≤nVn

σ2 ≤ x2√Vn

√n

x2≤ σ ≤

√Vn

√n

x1

En observant l’échantillon E , onconnaît se et ainsi l’intervalle deconfiance est

Iα(σ) =[se√

nx2

; se√

nx1

]S.Herrmann (UBFC) Echantillonnage et estimation 12 / 16

Récapitulatif : estimation d’un écart-type lorsque X suit une loi normale

Soit se et se l’écart type et l’écart type corrigé de l’échantillon.1 On cherche dans la table inverse de la loi du χ2 à n − 1 ddl les valeurs :

x1 lu pour q =α

2=

1− c

2x2 lu pour p =

α

2=

1− c

2

Ce qui revient à lire sur la table du χ2 de la façon suivante :

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005Dans la table, p ou q = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025

2 Avec la confiance c = 1− α, on peut affirmer que σ se trouve dansl’intervalle :

Iα(σ) =[se

√n

x2, se

√n

x1

]=[se

√n − 1x2

, se

√n − 1x1

]

S.Herrmann (UBFC) Echantillonnage et estimation 13 / 16

Etude de cas : temps de sommeil

On s’intéresse à la population des étudiants enL1 et on cherche à savoir si leur temps desommeil est plus homogène que dans lapopulation francaise. Pour un échantillon E de30 étudiants de L1, on trouve me = 6, 36 (soit6h 21min 36s) et se = 1, 34 h.

30 individus: loi du χ2 à29 d.d.l.choix d’une confiancec = 95% c-à-d un risqueα = 5% de se tromper.lecture de x1 et x2 dansla table inverse

q . . . 0, 025 . . . 0, 975 . . .p . . . 0, 975 . . . 0, 025 . . .

. . . . . . . . . . . . . . . . . .d .d .l . 28 . . . 15, 31 . . . 44, 46 . . .d .d .l . 29 . . . 16, 05 . . . 45, 72 . . .. . . . . . . . . . . . . . . . . .

Avec confiance c = 95%, σ appartient à

I0,05(σ) =[1, 34×

√30

45, 72; 1, 34×

√30

16, 05

]

On a l’intervalle de confiance:

I0,05(σ) ≈ [1, 09; 1, 83].

Sur l’ensemble de la pop.française, l’écart-type est de1, 2h qui appartient à I0,05(σ).

On ne peut pas assurer quel’écart-type parmi les étudiantssoit supérieur à celui de la pop-ulation générale française.

S.Herrmann (UBFC) Echantillonnage et estimation 14 / 16

1 On évalue le niveau de stress X d’un échantillon d’habitants d’un mêmequartier d’habitation péri-urbain. Parmi les 125 habitants intérrogés, 17d’entre eux subissent un niveau de stress supérieur à 120. Parmi lapopulation française péri-urbaine, quelle est la proportion d’habitants quiressentent un tel niveau de stress ?

Estim. p Gd E corr. cont. pe = 0, 1417 marge zα

√pe(1−pe)

125

2 Il y a en France 357 000 hommes et 685 000 femmes qui sont enseignants.Sur les 22 enseignants du lycée Stanislas qu’elle est la probabilité qu’il y aitmoins de 5 hommes ?

Echant. nPn Pt E corr. cont. p = 0, 3426 loi binomiale

3 Sur les 200 enseignants choisis au hasard pour une étude statistique, qu’elleest la probabilité qu’il y ait moins de 50 hommes ?

Echant. Pn Gd E corr. cont. p = 0, 3426 loi normale

S.Herrmann (UBFC) Echantillonnage et estimation 15 / 16

4 On considère un échantillon de 35 foyers de Bourgogne, leur revenu moyenest 1679 euros. Quel est le revenu moyen par foyer en Bourgogne ?

Estim. µ Gd E corr. cont. me = 1679 marge zαse√n − 1

5 On considère un échantillon de 25 foyers belges, leur revenu moyen est 1880euros. Quel est le revenu moyen par foyer en Belgique ?

Estim. µ Pt E corr. cont. me = 1880 marge tαse√n − 1

6 On considère un groupe de 75 adolescents de 15 ans. On fait une étude deleur QI standard. Le QI moyen est 98 et l’écart-type 14. Quel estl’écart-type pour le QI d’un adolescent choisi au hasard dans la populationfrançaise ?

Estim. σ Pt Gd E corr. cont. se = 14 Iα(σ) =[se√

75x2; se√

75x1

]

S.Herrmann (UBFC) Echantillonnage et estimation 16 / 16