92
Echantillonnage Echantillonnage L’échantillonnage L’échantillonnage Jean-Sébastien Jean-Sébastien Pierre Pierre UMR 6553 UMR 6553 20/01/2009 20/01/2009

Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Embed Size (px)

Citation preview

Page 1: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

L’échantillonnageL’échantillonnage

Jean-Sébastien PierreJean-Sébastien Pierre

UMR 6553UMR 6553

20/01/200920/01/2009

Page 2: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

PlanPlan 1. Introduction1. Introduction 2. L’échantillonnage aléatoire2. L’échantillonnage aléatoire

SimpleSimple Séquentiel en deux étapesSéquentiel en deux étapes

3. L’échantillonnage stratifié3. L’échantillonnage stratifié Mise en œuvre et analyseMise en œuvre et analyse OptimisationOptimisation

4. L’échantillonnage en grappes4. L’échantillonnage en grappes Mise en œuvre et analyseMise en œuvre et analyse OptimisationOptimisation

Page 3: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

IntroductionIntroduction

« Pas de modèle sans échantillon, pas d’échantillon sans modèle « Pas de modèle sans échantillon, pas d’échantillon sans modèle »»

Un professionnel du prêt-à-porterUn professionnel du prêt-à-porter

« Les tissus, disponibles en quantité limitée, ne peuvent être ni « Les tissus, disponibles en quantité limitée, ne peuvent être ni repris ni échangés.repris ni échangés.

Par contre vous pouvez obtenir un échantillon de chacun des Par contre vous pouvez obtenir un échantillon de chacun des tissus pour un prix modique. »tissus pour un prix modique. »

La boutique A&A, http://www.a-et-a.com/ La boutique A&A, http://www.a-et-a.com/

Page 4: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le dictionnaire Robert Le dictionnaire Robert

1. Vx Étalon de mesure. (1636) Mod. Type réglementaire de certains 1. Vx Étalon de mesure. (1636) Mod. Type réglementaire de certains matériaux de construction. matériaux de construction. Bois d'échantillon. Brique, pavé d'échantillon. Bois d'échantillon. Brique, pavé d'échantillon. — Mar. — Mar. Bâtiment de fort, de petit, de faible échantillon, Bâtiment de fort, de petit, de faible échantillon, suivant la largeur suivant la largeur et l'épaisseur des pièces de construction. et l'épaisseur des pièces de construction.

2. (1407) Cour. Petite quantité d'une marchandise qu'on montre pour 2. (1407) Cour. Petite quantité d'une marchandise qu'on montre pour donner une idée de l'ensemble. donner une idée de l'ensemble. Les échantillons d'une gamme de Les échantillons d'une gamme de produits. Échantillons de vin, de café. Un cahier d'échantillons produits. Échantillons de vin, de café. Un cahier d'échantillons (d'étoffe).(d'étoffe). Une palette d'échantillons Une palette d'échantillons (de peinture).(de peinture). Boîte, jeux d'échantillons à Boîte, jeux d'échantillons à usage commercial. usage commercial. Þ Þ collectioncollection, , présentoirprésentoir. . « Il étale ses échantillons, « Il étale ses échantillons, lentement, devant le client » lentement, devant le client » ((MauroisMaurois)). « Quel danger, quelle folie de . « Quel danger, quelle folie de choisir sur des échantillons » choisir sur des échantillons » ((SarrauteSarraute)). .

Spécimen remarquable d'une espèce, d'un genre. Þ Spécimen remarquable d'une espèce, d'un genre. Þ représentantreprésentant. . « Une très jolie servante, charmant échantillon de la beauté des « Une très jolie servante, charmant échantillon de la beauté des femmes de Malaga » femmes de Malaga » ((GautierGautier)). .

Fig. Aperçu. Fig. Aperçu. « Je voulus lui donner un échantillon de mon talent » « Je voulus lui donner un échantillon de mon talent » ((RousseauRousseau)). . Þ Þ exempleexemple. .

3. Spécialt (Statist.) Fraction d'une population destinée à être étudiée par 3. Spécialt (Statist.) Fraction d'une population destinée à être étudiée par sondage. sondage. panelpanel. .

4. Inform. Élément d'une suite discrète résultant de l'échantillonnage 4. Inform. Élément d'une suite discrète résultant de l'échantillonnage d'une grandeur analogique.d'une grandeur analogique.

Page 5: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Pourquoi Pourquoi échantillonner ?échantillonner ?

Impossibilité d’accéder Impossibilité d’accéder À tous les individus d’une À tous les individus d’une

populationpopulation À la totalité d’une aireÀ la totalité d’une aire

=> On procède donc par => On procède donc par inférenceinférence EchantillonnageEchantillonnage SondageSondage

Page 6: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Deux grandes stratégiesDeux grandes stratégies

AléatoireAléatoire SimpleSimple StratifiéStratifié En grappe ou par degrésEn grappe ou par degrés

SystématiqueSystématique Transects et grillesTransects et grilles Décimation/quantisationDécimation/quantisation Échantillonnage temporelÉchantillonnage temporel

Page 7: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Limites du coursLimites du cours

On se limitera à l’échantillonnage On se limitera à l’échantillonnage aléatoirealéatoire

Les problèmes de Les problèmes de l’échantillonnage systématique l’échantillonnage systématique seront abordés dans d’autes UE seront abordés dans d’autes UE à propos de à propos de La statistique spatialeLa statistique spatiale L’analyse des séries chronologiquesL’analyse des séries chronologiques

Page 8: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

2. L’échantillonnage 2. L’échantillonnage aléatoirealéatoire

SimpleSimple

Séquentiel en deux Séquentiel en deux étapesétapes

Page 9: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Echantillonnage Echantillonnage aléatoire simplealéatoire simple

DéfinitionDéfinition Les individus de la population sont tous Les individus de la population sont tous

équivalentséquivalents Le nombre d’individus à échantillonner est Le nombre d’individus à échantillonner est

déterminé à l’avancedéterminé à l’avance Chaque individu de la population a la même Chaque individu de la population a la même

probabilité probabilité a prioria priori d’être choisi d’être choisi Le choix d’un individu ne favorise ni ne Le choix d’un individu ne favorise ni ne

défavorise le choix ultérieur d’aucun autre défavorise le choix ultérieur d’aucun autre individu de la population (tirages individu de la population (tirages indépendants)indépendants)

Page 10: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Les individus ou unités Les individus ou unités d’échantillonnaged’échantillonnage

NaturelsNaturels Animaux, plantes individualiséesAnimaux, plantes individualisées

ArbitrairesArbitraires Unités de surface, de volume, de poidsUnités de surface, de volume, de poids

0.25 m0.25 m22 de prairie de prairie 1dm1dm3 3 d’eau dans un étangd’eau dans un étang 1k de sol1k de sol

Attention alors !Attention alors ! Population biologiquePopulation biologique Population statistiquePopulation statistique

Page 11: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Deux mode de tirageDeux mode de tirage

Avec remiseAvec remise Ou non exhaustifOu non exhaustif La probabilité de sélection reste La probabilité de sélection reste

constante au cours de constante au cours de l’échantillonnagel’échantillonnage

Sans remiseSans remise Ou exhaustifOu exhaustif La probabilité de sélection s’accroît au La probabilité de sélection s’accroît au

cours de l’échantillonnagecours de l’échantillonnage

Page 12: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Une approximationUne approximation

Dans les très grandes populations, Dans les très grandes populations, on considère souvent on considère souvent l’échantillonnage comme avec l’échantillonnage comme avec remise, même lorsqu’il n’y a pas remise, même lorsqu’il n’y a pas remiseremise

Dans les populations plus petites, il Dans les populations plus petites, il y aura lieu de prendre en compte y aura lieu de prendre en compte le le taux de sondagetaux de sondage f = n/N f = n/N

Page 13: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le modèle statistiqueLe modèle statistique

^

E

2

2

x-

Page 14: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Les paramètres de Les paramètres de l’échantillonl’échantillon

Moyenne de Moyenne de l’échantillon :l’échantillon :

Variance de Variance de

l’échantillon :l’échantillon :

xn

xii

n

1

1

sn

x xii

n2

1

21

( )

Page 15: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Paramètres et Paramètres et estimateursestimateurs

La moyenne est un La moyenne est un estimateur estimateur sans biais sans biais de la moyenne de la de la moyenne de la populationpopulation

La variance sLa variance s2 2 est un estimateur est un estimateur biaisé par défautbiaisé par défaut (mais (mais asymptotiquement asymptotiquement sans biais) de sans biais) de la variance de la population la variance de la population

E x

2 2E s

Page 16: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Voir annexe polycopiéeVoir annexe polycopiée

Page 17: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le biaisLe biais

0 5000 10000 15000 20000 25000

4.0

4.5

5.0

n

sComparaison des deux estimateurs sur un même échantillon

Page 18: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le biaisLe biais

0 20 40 60 80 100

510

15

20

25

scale

lvar

Page 19: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

La précision La précision d’échantillonnaged’échantillonnage

Quelle connaissance Quelle connaissance avons nous de la avons nous de la moyenne de la moyenne de la

population ?population ?

Page 20: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Les mesures de Les mesures de précisionprécision

La varianceLa variance Incommode (exprimée dans le carré des Incommode (exprimée dans le carré des

unités)unités) L’erreur standardL’erreur standard

Utilisée par les anglo-saxonsUtilisée par les anglo-saxons Le coefficient de variationLe coefficient de variation

Utilisé par les agronomesUtilisé par les agronomes Le ½ intervalle de confianceLe ½ intervalle de confiance

C’est un véritable encadrementC’est un véritable encadrement

Page 21: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

La précision est La précision est

Proportionnelle à l’écart-type de la Proportionnelle à l’écart-type de la moyenne (en général de l’estimateur) moyenne (en général de l’estimateur) ou ou erreur standard sur la moyenne erreur standard sur la moyenne

Comment la calcule-t-on ?Comment la calcule-t-on ? Population infiniePopulation infinie Ou tirage avec remiseOu tirage avec remise

Population finie Population finie Et tirage sans remiseEt tirage sans remise

mn

1m fn

Page 22: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

estimateursestimateurs

Population infiniePopulation infinie Ou tirage non Ou tirage non

exhaustifexhaustif

Population finiePopulation finie Et tirage Et tirage

exhaustifexhaustif

ˆˆm

n

ˆˆ 1m f

n

Page 23: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le demi intervalle de Le demi intervalle de confianceconfiance

On sait « encadrer » la moyenne On sait « encadrer » la moyenne avec une probabilité d’erreur avec une probabilité d’erreur définie par l’intervalle de définie par l’intervalle de confiance (voir annexe)confiance (voir annexe)

Ou, si Ou, si nn < 30 < 30

2 2

ˆ ˆ,cI x z x z

n na a

s sé ù= - +ê ú

ê úë û

1

2 2

1 ˆ ˆ, n

ncI x t x t

n na a

s s-

-é ùê ú= - +ê úë û

Page 24: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Précision absolue et Précision absolue et relativerelative

La quantité :La quantité :

Ou, pour n>30Ou, pour n>30

Sera utilisée comme « précision Sera utilisée comme « précision absolue » La quantité absolue » La quantité

Sera nommée : « précision relativeSera nommée : « précision relative

2

1 ˆnd tna

s-=

2

ˆd z

na

s=

reld

dx

=

Page 25: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Un exempleUn exemple

La taille du parasitoïde La taille du parasitoïde leptomastix dactylopiileptomastix dactylopii

Page 26: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

L’animalL’animal

Page 27: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

L’échantillonL’échantillon

On a prélevé au hasard 50 individus On a prélevé au hasard 50 individus femelles à partir de cochenilles du femelles à partir de cochenilles du manioc provenant d’un champ du manioc provenant d’un champ du congo (données André Biassangama)congo (données André Biassangama)

> print(biassang)> print(biassang) numer tail long fec stratenumer tail long fec strate1 1 0.63 29 52 11 1 0.63 29 52 12 2 0.75 25 56 12 2 0.75 25 56 13 12 0.85 31 57 13 12 0.85 31 57 1……………………………………………………………………………………………………………………………………………………48 29 2.72 39 115 248 29 2.72 39 115 249 32 2.84 39 119 249 32 2.84 39 119 250 31 2.92 37 121 250 31 2.92 37 121 2

Page 28: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Exemple : taille de Exemple : taille de leptomastixleptomastix

> attach(biassang)> attach(biassang) # définition du jeu de données# définition du jeu de données> sd<-sqrt(var(tail)/n)> sd<-sqrt(var(tail)/n) # calcul de l’erreur standard# calcul de l’erreur standard> qnorm(1-0.025)> qnorm(1-0.025) # calcul de z (alpha/2)# calcul de z (alpha/2)[1] 1.959964[1] 1.959964> d<-sd*qnorm(1-0.025)> d<-sd*qnorm(1-0.025) # précision absolue# précision absolue> d> d[1] 0.1474185[1] 0.1474185> mean(tail)> mean(tail) # taille moyenne (mm)# taille moyenne (mm)[1] 1.7818[1] 1.7818> mean(tail)-d> mean(tail)-d # borne inférieure# borne inférieure[1] 1.634382[1] 1.634382> mean(tail)+d> mean(tail)+d # borne supérieure# borne supérieure[1] 1.929218[1] 1.929218

Page 29: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Encadrement de la Encadrement de la moyenne :moyenne :

La taille moyenne de la population La taille moyenne de la population d de la population des femelles du d de la population des femelles du parasitoïde parasitoïde Leptomastix dactylopii Leptomastix dactylopii est estimée à 1.78 mmest estimée à 1.78 mm

On peut affirmer – avec 5% des On peut affirmer – avec 5% des chances de se tromper – qu’elle est chances de se tromper – qu’elle est comprise entre 1.63 et 1.93 mmcomprise entre 1.63 et 1.93 mm

Page 30: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

La précision absolue et La précision absolue et relative relative

La moyenne est connue à plus ou La moyenne est connue à plus ou moins 0.15 mm prèsmoins 0.15 mm près

C’est à dire à 8.3% prèsC’est à dire à 8.3% près

> d/(mean(tail))*100> d/(mean(tail))*100

[1] 8.273571[1] 8.273571

Page 31: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Contrôler la précision Contrôler la précision d’échantillonnaged’échantillonnage

La base du travail La base du travail pratiquepratique

Page 32: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Comment évolue la Comment évolue la précision ?précision ?

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0 50 100 150 200 250 300 350 400

Effectif de l'échantillon (n)

Précision relative

0.1

0.2

0.5

1

Page 33: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le gain marginal de Le gain marginal de précisionprécision

La dérivée de la précision relative donne le gain La dérivée de la précision relative donne le gain marginal par unité supplémentaire marginal par unité supplémentaire d’échantillonnage.d’échantillonnage.

Gain marginal de précision

-5

-4

-3

-2

-1

0

1

2 4 6 8 10 12 14 16 18 20

Série1

Série2

Série3

Série4

Page 34: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Calculer l’effectif Calculer l’effectif nécessairenécessaire

1. Définir l’objectif à atteindre1. Définir l’objectif à atteindre Le risque Le risque accepté (le plus souvent accepté (le plus souvent

0.05)0.05) La précision absolue ou relative désiréeLa précision absolue ou relative désirée

2. Déterminer la variance de la 2. Déterminer la variance de la populationpopulation On a souvent besoin d’un pré-On a souvent besoin d’un pré-

échantillonnageéchantillonnage 3. Déterminer 3. Déterminer nn

Page 35: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Un paradoxe !Un paradoxe !

« Pour faire un bon échantillonnage « Pour faire un bon échantillonnage faites en d’abord un mauvais »faites en d’abord un mauvais »

(J.S. Pierre, pensées)(J.S. Pierre, pensées)

Page 36: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

La détermination de La détermination de nn

De la définition de la précisionDe la définition de la précision

On déduit :On déduit :2

ˆd z

na

22

22

ˆn z

da

Page 37: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Et si on parlait argent ?Et si on parlait argent ?

On définit :On définit : L’effort d’échantillonnage : c’est L’effort d’échantillonnage : c’est nn Le coût de prise en charge de l’échantillonnage Le coût de prise en charge de l’échantillonnage CCoo

Fabrication des cadres, pièges, Fabrication des cadres, pièges, coût du trajet, affrètement d’un coût du trajet, affrètement d’un bateau, etc…bateau, etc…

Le coût unitaire de prélèvement d’un individu Le coût unitaire de prélèvement d’un individu cc

Mesuré en temps de travail, en Mesuré en temps de travail, en euros, en litres de fuel (chalutier) euros, en litres de fuel (chalutier) etc…etc…

Le coût total de l’échantillonnage : Le coût total de l’échantillonnage : 0TC C nc= +

Page 38: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

OptimisationOptimisation

Stratégies de type « minimax »Stratégies de type « minimax » Maximiser l’information Maximiser l’information

(minimiser la précision)(minimiser la précision) En minimisant, ou au moins en En minimisant, ou au moins en

maîtrisant les coûtsmaîtrisant les coûts Pas de solution universellePas de solution universelle

Page 39: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Exemple Exemple

La taille moyenne de la La taille moyenne de la population de population de Leptomastix Leptomastix est est connue à 8.3% près avec un connue à 8.3% près avec un échantillon de 50 femelleséchantillon de 50 femelles

Quel échantillon est nécessaire Quel échantillon est nécessaire pour atteindre une précision de pour atteindre une précision de 5% sur cette moyenne ?5% sur cette moyenne ?

Page 40: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

SolutionSolution Ecrivons la formule de la précision Ecrivons la formule de la précision

relativerelative

On cherche à résoudre l’inégalité :On cherche à résoudre l’inégalité :

Donc :Donc :

2r

zd

x n

as=

20.05 0.05r

zd

x n

as£ Þ £

2 2

2 2 2 2

2 20.00250.0025

z zn

x n x

a as s£ Þ ³

Page 41: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Numériquement :Numériquement :

On prendra On prendra n=n=137137 CommenterCommenter

2

2

2 2

2

2

ˆ

0.00251.96

ˆ 0.2829

1.71818

136.908

zn

xz

x

n

a

a

s

s

³

=

=

=

³

Page 42: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

L’échantillonnage L’échantillonnage séquentiel en deux séquentiel en deux

étapesétapes

Doit-on refaire un Doit-on refaire un échantillon de 137 échantillon de 137

individus ?individus ?

Page 43: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Non !Non !

Il est licite de compléter Il est licite de compléter l’échantillon de 50 individus à l’échantillon de 50 individus à 137137

C’est à dire d’aller prélever aux C’est à dire d’aller prélever aux hasard 137 - 50 = 87 nouveaux hasard 137 - 50 = 87 nouveaux individusindividus

Cette procédure s’appelle : Cette procédure s’appelle : « échantillonnage séquentiel en « échantillonnage séquentiel en deux étapes »deux étapes »

Page 44: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

OuvertureOuverture

Un échantillonnage est dit Un échantillonnage est dit séquentiel séquentiel s’il est s’il est conduit par conduit par étapesétapes jusqu’à un critère d’arrêt. jusqu’à un critère d’arrêt.

L’échantillon est alors dit L’échantillon est alors dit informatif informatif il il renseigne au fur et à mesure sur la précision renseigne au fur et à mesure sur la précision atteinte ou sur d’autres critères d’arrêtatteinte ou sur d’autres critères d’arrêt

Deux types principaux :Deux types principaux : Echantillonnage séquentiel à précision fixéeEchantillonnage séquentiel à précision fixée Echantillonnage décisionnelEchantillonnage décisionnel

Voir par exemple le livre de Frontier : Voir par exemple le livre de Frontier : stratégies d’échantillonnage en écologiestratégies d’échantillonnage en écologie

Page 45: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

3. L’échantillonnage 3. L’échantillonnage stratifiéstratifié

Du bon usage des Du bon usage des stratesstrates

Page 46: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Que faire si la variance Que faire si la variance des individus est des individus est

élevée ?élevée ? L’obtention d’une bonne précision L’obtention d’une bonne précision

est alors extrêmement coûteuseest alors extrêmement coûteuse Mais la population est peut-être Mais la population est peut-être

très hétérogène ? très hétérogène ? On peut alors la diviser en On peut alors la diviser en sous sous

populationspopulations plus homogènes plus homogènes On gagne alors beaucoup de On gagne alors beaucoup de

précisionprécision

Page 47: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Mise en oeuvreMise en oeuvre

Le modèle statistique Le modèle statistique changechange

Page 48: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Une nouvelle vision de Une nouvelle vision de la populationla population

Et des paramètresEt des paramètres

S1

S2 S3

Page 49: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Définition des stratesDéfinition des strates

Les strates forment une Les strates forment une partitionpartition de la population de la population

C’est à dire que leurs C’est à dire que leurs intersections sont deux à deux intersections sont deux à deux vides (elles sont disjointes)vides (elles sont disjointes)

Leur réunion est la population Leur réunion est la population totaletotale

Page 50: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Hypothèse :Hypothèse :

Les variances « intra » sont Les variances « intra » sont inférieures à la variance totaleinférieures à la variance totale

2 21

2 22

2 23

s s

s s

s s

<

<

<

Page 51: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Les poids des stratesLes poids des strates

A chaque strate est affectée un A chaque strate est affectée un poids : la proportion de la poids : la proportion de la population totale qu’elle population totale qu’elle représentereprésente

ww11,,ww22,,ww33, en général , en général wwii

1

1

ii

p

ii

Nw

N

w=

=

Page 52: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

L’échantillon stratifiéL’échantillon stratifié

On tire un échantillon aléatoire simple On tire un échantillon aléatoire simple de taille de taille nnii dans la strate dans la strate ii..

L’échantillon complet est de taille L’échantillon complet est de taille nn On appelle On appelle allocation allocation le poids de la le poids de la

strate strate i i dans l’échantillondans l’échantillon Si le poids de la strate dans Si le poids de la strate dans

l’échantillon est égal au poids de la l’échantillon est égal au poids de la strate dans la population on dit que strate dans la population on dit que l’allocation est l’allocation est proportionnelleproportionnelle

Page 53: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

L’estimateur stratifiéL’estimateur stratifié

On nomme On nomme xxij ij la valeur mesurée la valeur mesurée sur le sur le jj ième individu de la strate ième individu de la strate ii

On note On note xxi. i. la moyenne du sous-la moyenne du sous-échantillon de la strate échantillon de la strate ii

On a le choix entre deux On a le choix entre deux estimateurs de la moyenne de la estimateurs de la moyenne de la population :population :

1 1

1..

ip n

iji j

x xn = =

= å å .1

p

i ii

x wx=

= å

Page 54: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Comparaison. a) biaisComparaison. a) biais

Le premier estimateur est biaisé, Le premier estimateur est biaisé, sauf si l’allocation est sauf si l’allocation est proportionnelleproportionnelle

Le second est sans biais à partir Le second est sans biais à partir du moment où le poids des du moment où le poids des strates dans la population est strates dans la population est connu sans erreurconnu sans erreur

Page 55: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Comparaison. b) Comparaison. b) variance, précisionvariance, précision

Le second estimateur est de Le second estimateur est de variance inférieure au premiervariance inférieure au premier

( ) ( )2 2

2 21 1 1

1..

ip n p

ij ii j i

Var x Var x nnn n

s s

= = =

= = =å å å

( ) ( )2

2 2.

1 1i i

p pi

iii i

Var x wVar x wns

= =

= =å å

Page 56: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

OptimisationOptimisation

On va optimiser On va optimiser l’allocation sous une l’allocation sous une contrainte de coûtcontrainte de coût

Page 57: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Fonction de coûtFonction de coût

Coût de prise en charge + coût Coût de prise en charge + coût de prélèvement des unités de de prélèvement des unités de chaque strate :chaque strate :

C C n CT i i

i

m

0

1

.

Page 58: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le problèmeLe problème

Minimiser la variance Minimiser la variance de l’estimateur de l’estimateur

Par rapport aux Par rapport aux nnii

Sous la contrainte Sous la contrainte

Problème de Problème de minimisation sous minimisation sous contraintecontrainte

C C n CT i i

i

m

0

1

.

( )2

2

1i

mi

ii

Var x wns

=

= å

Page 59: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Technique du Technique du LagrangienLagrangien

Ou du multiplicateur de LagrangeOu du multiplicateur de Lagrange Voir annexe 2Voir annexe 2 On trouve :On trouve :

.

.i i

i

i

wn

C

2 2

1

0

. .m

i i ii

T

w C

C C

Page 60: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Intervalle de confiance Intervalle de confiance et précisionet précision

L’estimateur stratifié de la L’estimateur stratifié de la moyenne est distribué comme un moyenne est distribué comme un t t à à n-m n-m degrés de libertédegrés de liberté

D’où l’intervalle de confiance :D’où l’intervalle de confiance :

Et la précision Et la précision

2 2

2 22 2

1 1

ˆ ˆ,

i i

m mn m n mi i

i ii i

x t w x t wn na a

s sm - -

= =

é ùê úÎ - +ê úê úë û

å å

Page 61: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Application à Application à LeptomastixLeptomastix

La strate 1 représente 70% des La strate 1 représente 70% des hôtes dans la nature, la strate 2 hôtes dans la nature, la strate 2 30%30%

Corriger l’estimation de la Corriger l’estimation de la moyenne de la populationmoyenne de la population

Estimer son intervalle de Estimer son intervalle de confiance et sa précisionconfiance et sa précision

L’allocation est-elle optimale ?L’allocation est-elle optimale ?

Page 62: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Intérêt des stratesIntérêt des strates

Comment juger de l’intérêt de la Comment juger de l’intérêt de la stratification ?stratification ?

Par analyse de variancePar analyse de variance Une technique qui permet de Une technique qui permet de

comparer la variance inter-strate avec comparer la variance inter-strate avec la variance intra-stratela variance intra-strate

Plus le Plus le F F est grand, plus la est grand, plus la stratification est intéressantestratification est intéressante

A l’inverse, si F est non significatif, la A l’inverse, si F est non significatif, la stratification est dépourvue d’intérêtstratification est dépourvue d’intérêt

Page 63: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

ExempleExemple

Taille de Taille de LeptomastixLeptomastix > attach(biassang)> attach(biassang)

> anova(lm(tail~strate),test="F")> anova(lm(tail~strate),test="F")

Analysis of Variance TableAnalysis of Variance Table

Response: tailResponse: tail

Df Sum Sq Mean Sq F value Pr(>F) Df Sum Sq Mean Sq F value Pr(>F)

strate 1 8.5617 8.5617 77.559 1.367e-11 ***strate 1 8.5617 8.5617 77.559 1.367e-11 ***

Residuals 48 5.2987 0.1104 Residuals 48 5.2987 0.1104

------

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 1

Page 64: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Contrôle graphiqueContrôle graphique

1 2

1.0

1.5

2.0

2.5

3.0

Effet des strates, taille de leptomastix

Page 65: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

4. L’échantillonnage en 4. L’échantillonnage en grappesgrappes

Ou échantillonnage du Ou échantillonnage du premier degrépremier degré

(échantillonnage par (échantillonnage par degrés)degrés)

Page 66: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

DéfinitionDéfinition

La population peut être subdivisé en La population peut être subdivisé en unités primaires ou grappesunités primaires ou grappes

Chaque grappe contient un certain Chaque grappe contient un certain nombre d’individus ou grainsnombre d’individus ou grains

Le tirage au hasard s’effectue en Le tirage au hasard s’effectue en deux phasesdeux phases Choix de Choix de mm grappes grappes Choix de Choix de nn grains par grappe grains par grappe

Analogie : strates très nombreuses, Analogie : strates très nombreuses, on ne peut les sonder touteson ne peut les sonder toutes

Page 67: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Image de la population Image de la population et du tirageet du tirage

Grappe sondée

Grappe non sondée

Grain sondé

Grain non sondé

Page 68: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Un schéma hiérarchiqueUn schéma hiérarchique

1 2 3

1 2 3 1 2 1 2 3

Population

Grappes

Grains

Page 69: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

A est une variable aléatoire attachée A est une variable aléatoire attachée à la grappe, d’espérance nulle et de à la grappe, d’espérance nulle et de variance (variance intergrappes)variance (variance intergrappes)

est une variable aléatoire attachée est une variable aléatoire attachée à chaque grain, d’espérance nulle et à chaque grain, d’espérance nulle et de variance (variance résiduelle ou de variance (variance résiduelle ou intra grappe)intra grappe)

Par ailleurs, les Ai et Par ailleurs, les Ai et ij sont ij sont indépendantsindépendants

2.1. Modèle statistique2.1. Modèle statistique

ijiij Ay

2A

2R

Page 70: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

2.2. Estimateurs2.2. Estimateurs

On se limitera au cas simple où On se limitera au cas simple où les grappes sont d’effectifs égaux, les grappes sont d’effectifs égaux, et où on tire un nombre constant et où on tire un nombre constant de grains par grappe. Dans ces de grains par grappe. Dans ces conditions la moyenne générale conditions la moyenne générale de l’échantillon :de l’échantillon :

est un estimateur sans biais de est un estimateur sans biais de µµ

m

1i

n

1jij.. y

m.n

1y

Page 71: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Démonstration : Démonstration :

Il suffit d’appliquer le modèle :Il suffit d’appliquer le modèle :

..1 1

1( ) ( )

.

m n

iji j

E y E ynm = =

= å å

1 1 1 1

0 0

1 1( ) ( )

. .

m n m n

i iji j i j

E A Enm nm

m e m= = = =

= =

= + + =å å å å1444444442444444443 1444444442444444443

1 1

1( )

.

m n

i iji j

E Anm

m e= =

= + +å å

Page 72: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Sa varianceSa variance

Dépend à la fois de et de  Dépend à la fois de et de  2A 2

R

.. 2 21 1

1( ) ( )

.

m n

iji j

Var y Var yn m = =

æ ö÷ç ÷= ç ÷ç ÷÷çè øå å

2 21 1

1.

m n

i iji j

Var An m

m e= =

æ ö÷ç ÷= + +ç ÷ç ÷÷çè øå å

2

2 2 2 21 1 1

1 10 . ( )

. .R

m m n

i iji i j

Var nA Varn m n m

s

e= = =

=

æ ö÷ç= + +÷ç ÷÷çè øå å å 144424443

2

2 21

1..

mR

ii

Var n Anmn ms

=

æ ö÷ç= +÷ç ÷÷çè øå2

2

21

1( )

.A

mR

ii

Var Anmm

s

s

= =

= +å 144424443

Page 73: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

FinalementFinalement

L’échantillonnage du premier degré est L’échantillonnage du premier degré est d’autant moins précis que les grappes sont d’autant moins précis que les grappes sont plus différentes les unes des autres. Sans plus différentes les unes des autres. Sans considérations de coût, si le produit n.m est considérations de coût, si le produit n.m est fixé, la précision est optimale pour n=1 (un fixé, la précision est optimale pour n=1 (un seul grain par grappe). On voit bien les seul grain par grappe). On voit bien les limites de cette stratégie : il est alors limites de cette stratégie : il est alors impossible d’estimer impossible d’estimer

( )2 2..

1( ) .

. A RVar y nnm

s s= +

Page 74: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Grappes et analyse de Grappes et analyse de variancevariance

Modèle d’analyse de variance aléatoireModèle d’analyse de variance aléatoire Un Un FF important signifie que les grappes important signifie que les grappes

sont très différentes entre elles, sont très différentes entre elles, relativement homogènes au niveau intrarelativement homogènes au niveau intra

Incite à faire porter l’effort sur les Incite à faire porter l’effort sur les grappes plutôt que sur les grainsgrappes plutôt que sur les grains

Estimation des composantes de la Estimation des composantes de la variancevariance

Page 75: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Analyse de varianceAnalyse de variance

SourceSource SCESCE dldl CMCM FF

TotalTotal nm-1nm-1 SCESCETT/(/(nmnm-1)-1)

Inter (B)Inter (B) m-1m-1 SCESCEBB/(/(m-m-1)1) CMCMBB/CM/CMWW

Intra Intra (W)(W) nm-mnm-m SCESCEWW/(/(nm-mnm-m))

2

1 1

..m n

iji j

y y

2

.1

..m

ii

n y y

2

.1 1

m n

ij ii j

y y

Page 76: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

OptimisationOptimisation

Page 77: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Le problème Le problème d’optimisationd’optimisation

Minimiser la variance de la moyenneMinimiser la variance de la moyenne En déterminant à l’avance le coût En déterminant à l’avance le coût

total de l’opérationtotal de l’opération Combien de grappes ?Combien de grappes ? Combien de grains par grappe ?Combien de grains par grappe ?

Il faut déterminerIl faut déterminer Le coût de prise en charge d’une Le coût de prise en charge d’une

grappegrappe Le coût de prélèvement d’un grainLe coût de prélèvement d’un grain

Page 78: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

On forme le lagrangienOn forme le lagrangien

Sous la fonction de coût :Sous la fonction de coût :

( ) ( ) ( )2 20 1 2

1, , .

. A R TL n m n C C mc nmcnm

l s s l= + + - - -

0 1 2TC C mc nmc= + +

Page 79: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Dérivation par rapport à Dérivation par rapport à nn et et mm

( )

2

22

2 2

1 22 2

0.

0.

R

A R

Lmc

n n mL

c ncm m nm

sl

s sl

ì ¶ïï =- + =ï ¶ïïíï ¶ï =- - + - =ïï ¶ïî2

22

2 .Rm

c ns

l=

( )2 21

22

A R

R

n ncn

cs s

s

++ =

212

22

R

A

cn

css

=

Page 80: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Et finalement :Et finalement :

Evidemment, on en déduit Evidemment, on en déduit m m à à partir de la fonction de coûtpartir de la fonction de coût

21

22

R

A

cn

css

=Grappe chère

Grain cher

Grains variables

Grappes variables

+ de grains/grappe

+ de grappes

+ de grains/grappe

+ de grappes

Page 81: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

BilanBilan

On ne fait pas un échantillonnage en On ne fait pas un échantillonnage en grappes pour gagner de la précisiongrappes pour gagner de la précision

En général, au contraire, on en perd En général, au contraire, on en perd par rapport à l’échantillonnage par rapport à l’échantillonnage aléatoire simplealéatoire simple

On l’adopte pour sa commodité et son On l’adopte pour sa commodité et son faible coûtfaible coût

N’oubliez pas de l’optimiser dès que N’oubliez pas de l’optimiser dès que vous avez de l’information sur les vous avez de l’information sur les deux composantes de la variance !deux composantes de la variance !

Page 82: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

5. Autres plans 5. Autres plans d’échantillonnaged’échantillonnage

Echantillonnage par degrés, Echantillonnage par degrés, échantillonnage en différentes échantillonnage en différentes occasions, échantillonnage par occasions, échantillonnage par

régressionrégression

Page 83: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Echantillonnage par Echantillonnage par degrésdegrés

Généralisation de l’échantillonnage en Généralisation de l’échantillonnage en grappesgrappes

Echantillonnage en grappe = Echantillonnage en grappe = échantillonnage du premier degrééchantillonnage du premier degré

Echantillonnage du second degré :Echantillonnage du second degré : On tire au hasard des unités primairesOn tire au hasard des unités primaires Dans chaque unité primaire on tire au hasard Dans chaque unité primaire on tire au hasard

des unités secondairesdes unités secondaires Dans chaque unité secondaire des unités Dans chaque unité secondaire des unités

tertiaires (grains)tertiaires (grains) En anglais : En anglais : cluster samplingcluster sampling

Page 84: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

ExempleExemple Etude de la croissance des brochets au Etude de la croissance des brochets au

Canada :Canada : Unités primaires = lacsUnités primaires = lacs Unités secondaires = barquesUnités secondaires = barques Unités tertiaires = brochets (grains)Unités tertiaires = brochets (grains)

Analyse :Analyse : Analyse de variance hiérarchisée (nested)Analyse de variance hiérarchisée (nested) Estimation des composantes de la varianceEstimation des composantes de la variance Ici : trois composantesIci : trois composantes

Entre lacsEntre lacs Entre barquesEntre barques Entre brochets (résiduelle)Entre brochets (résiduelle)

Page 85: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Echantillonnage à Echantillonnage à différentes occasionsdifférentes occasions

On tire au hasard un certain nombre On tire au hasard un certain nombre d’individus dans une populationd’individus dans une population

On les repèreOn les repère On mesure une caractéristique On mesure une caractéristique

plusieurs fois (occasions)plusieurs fois (occasions) Exemples : croissance sur des Exemples : croissance sur des

animaux ou plantes marquéesanimaux ou plantes marquées Analyse : « mesures répétées » Analyse : « mesures répétées »

(repeated measures)(repeated measures)

Page 86: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Echantillonnage par Echantillonnage par régressionrégression

On mesure une caractéristique peu On mesure une caractéristique peu coûteuse coûteuse x x sur un très grand nombre sur un très grand nombre NN d’individusd’individus

Sur un sous-échantillon aléatoire de taille Sur un sous-échantillon aléatoire de taille nn, on mesure une autre caractéristique, , on mesure une autre caractéristique, très coûteuse, très coûteuse, yy

Ce sous échantillon permet d’estimer le Ce sous échantillon permet d’estimer le coefficient de corrélation entre les deux coefficient de corrélation entre les deux caractéristiquescaractéristiques

L’estimation précise de la moyenne de L’estimation précise de la moyenne de x x permet alors de corriger la moyenne depermet alors de corriger la moyenne de y y

Page 87: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

ExempleExemple

Chez Chez Leptomastix dactylopii Leptomastix dactylopii on on mesure :mesure : La taille sur 1000 individusLa taille sur 1000 individus La taille et la fécondité sur 50 La taille et la fécondité sur 50

d’entre euxd’entre eux

Page 88: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

ExempleExemple> mean(tail)> mean(tail) # Echantillon de 50# Echantillon de 50[1] 1.7818[1] 1.7818> mean(tail2)> mean(tail2) # Echantillon de 1000# Echantillon de 1000[1] 1.971004[1] 1.971004> lm(fec~tail)->m1 # Régression fécondité / taille> lm(fec~tail)->m1 # Régression fécondité / taille> m1> m1

Call:Call:lm(formula = fec ~ tail)lm(formula = fec ~ tail)

Coefficients:Coefficients:(Intercept) tail (Intercept) tail 22.41 34.33 22.41 34.33

> mean(fec)> mean(fec) # Echantillon de 50# Echantillon de 50[1] 83.58[1] 83.58> mean(tail2)-mean(tail)->bt> mean(tail2)-mean(tail)->bt # Biais sur la taille# Biais sur la taille> bt*m1$coeff[2]+mean(fec)> bt*m1$coeff[2]+mean(fec) # Correction du biais fécondité# Correction du biais fécondité[1] 90.07582 [1] 90.07582 > >

Page 89: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Variance de l’estimateur Variance de l’estimateur par régressionpar régression

On le donne ci dessous sans On le donne ci dessous sans démonstration :démonstration :

22(1 )y

ns

r-

Variance habituelle

Coefficient de corrélation entre x et y

Page 90: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

Suite de l’exempleSuite de l’exemple> # Variance de la moyenne fécondité> # Variance de la moyenne fécondité> var(fec)/50> var(fec)/50[1] 7.28089[1] 7.28089> #correction par la corrélation avec la taille> #correction par la corrélation avec la taille> cor(tail,fec)> cor(tail,fec)[1] 0.9570068[1] 0.9570068> (1-cor(tail,fec))*var(fec)/50> (1-cor(tail,fec))*var(fec)/50[1] 0.3130290[1] 0.3130290> v<-(1-cor(tail,fec))*var(fec)/50> v<-(1-cor(tail,fec))*var(fec)/50> # Erreur standard> # Erreur standard> sqrt(v)> sqrt(v)[1] 0.5594899[1] 0.5594899> # précision> # précision> sqrt(v)*1.96> sqrt(v)*1.96[1] 1.096600[1] 1.096600> #précision relative> #précision relative> sqrt(v)*1.96/mean(fec)*100> sqrt(v)*1.96/mean(fec)*100[1] 1.312037 [1] 1.312037 # 1.31% grace à la mesure des 1000 tailles# 1.31% grace à la mesure des 1000 tailles> >

Page 91: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

ConclusionsConclusions

En forme de conseilsEn forme de conseils

Page 92: Léchantillonnage Jean-Sébastien Pierre UMR 6553 20/01/2009

Ech

an

tillon

nag

eEch

an

tillon

nag

e

ConclusionsConclusions

Connaître les plans types est Connaître les plans types est fondamentalfondamental

Il est essentiel de savoir définir Il est essentiel de savoir définir Ses objectifs (précision, erreur de décision)Ses objectifs (précision, erreur de décision) Ses moyensSes moyens

L’optimisation permet de gagner du L’optimisation permet de gagner du temps et de l’argenttemps et de l’argent

Faites Faites simple simple et si possible et si possible standardstandard Evitez les plans « astucieux » qu’on ne sait Evitez les plans « astucieux » qu’on ne sait

pas traiter ou qui se révèlent coûteuxpas traiter ou qui se révèlent coûteux