15
Statistiques pour les Sciences de la Vie et de lEnvironnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC Chapitre 3 Introduction à la Statistique Inférentielle Chap 3. 1. Introduction 2. Fluctuations déchant. 3. Estimation 4. Intervalle de fluctuation dune moyenne empirique 5. Intervalle de confiance dune moyenne théorique 1. Introduction aux méthodes statistiques Schéma de lurne: i X Population cible, N individus Variable aléatoire X, Loi P Variable aléatoire, réalisation de X (ou mesure X de lindividu i) On peut compliquer ce schéma pour un problème multivarié: Revient à considérer une variable ayant plusieurs composantes. ) ,..., , ( ,... 1 , 2 1 k c X X X X k c X X = = = On peut alors calculer les moments de la population: Moyenne théorique: Variance: = = N i i X N 1 1 μ ( ) = = N i i X N 1 2 2 1 μ σ

Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Chapitre 3

Introduction à la Statistique

Inférentielle

Chap 3.

1.  Introduction 2.  Fluctuations d’échant. 3.  Estimation 4.  Intervalle de fluctuation d’une moyenne empirique 5.  Intervalle de confiance d’une moyenne théorique

1.  Introduction aux méthodes statistiques

Schéma de l’urne:

iX

Population cible, N individus Variable aléatoire X, Loi P

Variable aléatoire, réalisation de X (ou mesure X de l’individu i)

On peut compliquer ce schéma pour un problème multivarié:

Revient à considérer une variable ayant plusieurs composantes. ),...,,(,...1,

21 k

c

XXXXkcXX

=

==

On peut alors calculer les moments de la population: Moyenne théorique: Variance:

∑=

=N

iiXN

1

1µ ( )∑

=

−=N

iiXN

1

22 1µσ

Page 2: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Statistique descriptive ou exploratoire ou analyse des données: Description de la distribution de ces variables en population. Suppose que l’on dispose de toutes les valeurs de la population.

Principaux paramètres caractérisant les distributions (variables discrètes ou continues): •  Moyenne •  Variance è Permettent comparaisons entre les groupes •  Distribution elle-même

Cas discret: histogramme

Cas continu: fonction densité

Page 3: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Souvent difficile d’accéder à l’ensemble de la population. On doit alors se baser sur une partie de cette population: l’échantillon.

Population cible, N individus Variable aléatoire X, Loi P

N

k

XXXXXXXX

,...,,,),...,,(

321

21=

nXXX ,...,, 21

On considère ici que les variables de l’échantillon : •  sont extraites de la population de manière indépendante; •  sont identiquement distribuées.

Le même loi de probabilité s’applique: loi P, dépendant d’un paramètre inconnu θ, paramètre de population ou paramètre théorique. Estimation des paramètres θ de P == S.

Page 4: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

. . .

Population cible

Population des échantillons

possible

Extraction des k échantillons

possibles

)(

)(...)()(

,...,,...,...,,,...,,

2

1

,2,1,

,22,21,2

,12,11,1

XS

XS

XSXS

XXX

XXXXXX

n

nk

n

n

nkkk

n

n

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

⎟⎟⎟⎟

⎜⎜⎜⎜

Loi de X Population décrite par

Statistique: Loi de S

Distribution d’échantillonnage

de S

( )NN XXX ,...,,θθ 21=estimation

Page 5: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Démarche probabiliste: démarche déductive partant de la population, connaissant sa distribution, vers les observations. On parle de calcul de probabilités. On parlera d’intervalle de pari, de calcul de risque, etc ... Démarche Statistique: démarche inductive : partant d’une partie de la population appelé échantillon, on estimera des paramètres inconnus de cette population, et d’une manière plus générale, on essayera de répondre à des questions inférentielles sur cette population observée qu’en partie ...

Page 6: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Chap 3.

1.  Introduction 2.  Fluctuations d’échant. 3.  Estimation 4.  Intervalle de fluctuation moy. empirique 5.  Intervalle de confiance moy. théorique

2.  Fluctuations d’échantillonnage

Considérons une variable aléatoire X suivant une loi f dans une population donnée. n-échantillon: échantillon de taille n regroupant un ensemble de variables aléatoires indépendantes et identiquement distribuées, de même loi f que X. En pratique: X1,X2,...,Xn( ) == observations réalisées

2)()( σµ == ii XVARXE ; Fluctuations d’une moyenne empirique

Fluctuations d’une variance empirique

nXVARXEX

nX

n

ii

2

1

)()(1 σµ ==⇒= ∑

=

;

avec

( ) 22

1

22 )1

(1σ=

−⇒−= ∑

=

SnnEXX

nS

n

ii

Page 7: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Théorème Central-Limite (TCL) Sous les hypothèses précédentes, on montre que ∀  distribution sous-jacente, pour de grands échantillons: distribution d’échantillonnage connue = la loi normale.

En pratique, on considère que la moyenne échantillonnage suit une loi normale

( ) )1,0(/

Nn

XZ n ⎯⎯⎯ →⎯−

= ∞→

σ

µMoyenne échantillonnage standardisée

),(~2

nNX σµ

Page 8: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Chap 3.

1.  Introduction 2.  Fluctuations d’échant. 3.  Estimation 4.  Intervalle de fluctuation moy. empirique 5.  Intervalle de confiance moy. théorique

3.  Estimation

Observations: Echantillon n individus nXXX ,...,, 21

Paramètre empirique )(XS n

Population cible, N individus Variable aléatoire X, Loi P

NXXXX ,...,,, 321

)(θθ XN=P de paramètre

Démarche statistique: estimer un paramètre théorique (ou paramètre en population ou paramètre de la distrib. théorique) à l’aide d’un échantillon de n observations issues de cette population.

On supposera vérifiée l’hypothèse d’échantillonnage aléatoire simple.

Exemple:

FsX ,, 2 estimateurs de PXX ,, 2σµ

Page 9: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

3.1 Estimateur naturel ou estimateur fonctionnel

Estimateur naturel: estimateur qui se calcule dans l’échantillon de la même manière que dans la population. Exemple:

N

XN

ii∑

== 1µMoyenne théorique en population:

n

XX

n

ii∑

== 1Moyenne empirique, estimateur naturel de µ:

De même: variance empirique S2 estimera de façon naturelle la variance théorique σ2.

Page 10: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

3.2 Biais d’un estimateur

Soit S(X) un estimateur d’un paramètre θ.

Biais de S: ( ) ( )[ ] θθ −= XSEb Calculé en utilisant la distribution d’échantillonnage de S.

Applications:

•  Biais d’une moyenne empirique = 0, moyenne empirique est donc un estimateur sans biais de la moyenne théorique; •  Biais d’une variance empirique, Variance empirique, estimateur naturel: •  Estimateur de la variance: préférable d’utiliser

( ) 22

−=nnSE Estimateur biaisé

( )2

221

2

2

11σ≈⎟⎟

⎞⎜⎜⎝

−=

=∑= SES

nn

n

XXS

n

ii

donc et Considéré comme un estimateur non biaisé

Estimateur sans biais: S(X), fonction des observations Xi, est un estimateur sans biais du paramètre θ si et seulement si E(S(X))= θ. On préférera tjs un estimateur de biais inférieur, si possible nul, et de variance minimale.

Page 11: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

3.3 Variance d’un estimateur

Variance d’un estimateur S(X) d’un paramètre θ connu = variance de sa distribution d’échantillonnage

( )( )[ ]2)()())(( XSEXSEXSVar −=

Si S(X) est un estimateur sans biais de θ alors

( )[ ]2)())(( θ−= XSEXSVar

Entre deux estimateurs de θ, l’un non-biaisé et l’autre biaisé, on choisira celui qui dont la variance est la plus faible, c’est-à-dire celui qui, dans l’échantillon, s’écartera en moyenne le moins du paramètre. Un estimateur est dit optimal s’il est celui parmi les estimateurs sans biais qui a la variance minimum.

Page 12: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

3.3 Estimateur consistent

Considérons un échantillon constitué par toute la population: n=N; Estimateur consistent si il est alors égal au paramètre en population:

NN XS θ=)(Note: toujours le cas des estimateurs naturels.

Estimateur est dit convergent si lorsque n à ∞ (échantillon de la taille de la population entière):

Note: il suffit pour cela qu’il soit sans biais.

θ=)(XSn

Page 13: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Chap 3.

1.  Introduction 2.  Fluctuations d’échant. 3.  Estimation 4.  Intervalle de fluctuation moy. empirique 5.  Intervalle de confiance moy. théorique

4.  Intervalle de fluctuation d’une moyenne

empirique La variance permet de quantifier la dispersion d’une variable. On s’intéresse maintenant ici aux fluctuations d’échantillonnage résultant de la dispersion de la variable.

Donner l’intervalle de fluctuation d’une variable == donner dans quel intervalle les valeurs de l’échantillon (ou les valeurs de paramètres (moyenne, variance…) calculés à partir de cet échantillon) doivent se situer. Cet intervalle ne peut être qu’approché. C’est donc un problème probabiliste!

L’intervalle de fluctuation (ou de variation) d’une moyenne empirique (observée) d’une variable X est caractérisée par: •  Une distribution normale N(µ,σ2) avec µ et σ connus. •  Une distribution qcq si n>30 (grand échantillon). = intervalle fixe vérifiant α−=∈ 1)( fIXP

⎥⎥⎦

⎢⎢⎣

⎡+−=

−−2

12

1, αα

σµ

σµ e

ne

nI f

Où e1-α/2 = quantile défini par

(Z variable normale centrée réduite)

),N(1, 2

21

21

σµααα ≈−=⎟⎟

⎜⎜

⎥⎥⎦

⎢⎢⎣

⎡+−∈

−−ZeeZP avec

Page 14: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Intervalle de fluctuation (ou de variation) d’une proportion observée P0 d’une variable binaire X distribuée suivant une loi de Bernouilli de probabilité π = intervalle fixe vérifiant

α−=∈ 1)( 0 fIPP

⎥⎥⎦

⎢⎢⎣

⎡ −+

−−=

−−2

100

02

100

0)1(

,)1(

ααππ

πππ

π en

en

I f

Valable si

5)1(5

00

0

≥−

ππ

π

nn

Page 15: Introduction aux méthodes statistiquessturquet/teaching_data/mu001/...5. Intervalle de confiance d’une moyenne théorique Intervalle de confiance d’une moyenne théorique d’une

Statistiques pour les Sciences de la Vie et de l’Environnement (Chap. 3) Solène Turquety, LMD/IPSL, UPMC

Chap 3.

1.  Introduction 2.  Fluctuations d’échant. 3.  Estimation 4.  Intervalle de fluctuation moy. empirique 5.  Intervalle de confiance moy. théorique

5.  Intervalle de confiance d’une moyenne théorique

Intervalle de confiance d’une moyenne théorique d’une variable X suivant une distribution normale N(µ,σ2) avec σ connue. = intervalle fixe vérifiant αµ −=∍ 1)( cIPConstruit à partir de l’intervalle de fluctuation:

ασ

µσ

ασ

µσ

µ

α

αα

αα

−=⎟⎟

⎜⎜

⎛+≤≤−⇔

−=⎟⎟

⎜⎜

⎛+≤≤−⇔

−=∈

−−

−−

1

1

1)(

21

21

21

21

en

Xen

XP

en

Xen

P

IXP f

( )

⎥⎥⎦

⎢⎢⎣

⎡+−=

−=∍

−−2

12

1,

1

αασσ

αµ

en

Xen

XI

IP

c

c

ou