31
Méthodologie et traitement d'une enquête L3 Econométrie M. Fournier Ch 2 – L'échantillonnage * A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire * Remerciements : F. Kohler, Université Paris V.

Méthodologie et traitement d'une enquête - Econometrieeconometrie.ish-lyon.cnrs.fr/IMG/pdf/L3_-_Chapitre_2_-_Notes_de... · Méthodologie et traitement d'une enquête L3 Econométrie

Embed Size (px)

Citation preview

Méthodologie et

traitement d'une enquête

L3 Econométrie

M. Fournier

Ch 2 – L'échantillonnage*

A. Définition de l'échantillon

B. L'échantillonnage aléatoire

C. L'échantillonnage non aléatoire

* Remerciements : F. Kohler, Université Paris V.

Ch 2 – L'échantillonnage

A. Définition de l'échantillon

B. L'échantillonnage aléatoire

C. L'échantillonnage non aléatoire

A. La base de sondage

Base de sondage = Population observée

(NB : différente de la population cible)

Deux types de bases de sondage :– Les nomenclatures

– Les bases de sondage indirectes

A. Les nomenclatures

Liste de noms et d’adresses qui donnentdirectement accès à des unités

Exemples :• Fichier clients• Fichier adhérents• Registres municipaux

A. Les bases de sondage

indirectes

Liste de « lieux » (géographiques ou non)qui donnent accès indirectement à desunités

Exemples :• Service d'une entreprise• Quartier d'une ville• Sortie de bureau de vote

A. Qualité de la base de

sondage

Exhaustivité : Aucun membre de lapopulation observée ne doit en être exclu

Unicité : Aucun « individu » ne doit y êtrereprésenté plusieurs fois

Actualité : Elle doit être « à jour »

NB : C'est le socle de l'enquête. Un biais àce niveau se répercute sur la totalité dutravail

A. Définition des unités de

l'enquête

L’unité d’échantillonnage Unité de la base de sondage

L’unité déclarante Unité qui fournit l’information qu’exige

l’enquête

L’unité d’analyse ou de référence C’est l’unité au sujet de laquelle l’information

est fournie

A. Exemples d'unités de

l'enquête

Enquête menée sur les nouveau-nés Unité d’échantillonnage :

Le ménage

Unité déclarante Le membre de la famille qui répond à l'enquête (l’un

des deux parents, la grand-mère, la nounou, etc.)

Unité d’analyse Le nouveau-né

A. Taille de l'échantillon

et degré de précision

Les résultats obtenus sur un échantillonne sont que des estimateurs des valeursrecherchées

Le degré de précision de ces estimateursdépend :

– De la taille de l'échantillon

– Du mode d'échantillonnage

A. La taille de l’échantillon

Une procédure d'échantillonnage esttoujours un compromis entre :

– le degré de précision

– le budget– le temps disponible– les contraintes logistiques

La nature de ce compromis dépend– de la taille et de la dispersion de la population

– du mode d'enquête et de la procédured'échantillonnage

Méthodes aléatoires

(probabiliste)

Chaque unité a une

probabilité non nulle

d’être sélectionnée

Méthodes non

aléatoires

(non probabiliste)

Deux approches pour

construire un échantillon

Ch 2 – L'échantillonnage

A. Définition de l'échantillon

B. L'échantillonnage aléatoire

C. L'échantillonnage non aléatoire

B. Les méthodes

d'échantillonnage aléatoire

B1. L’échantillonnage aléatoire simple

B2. L’échantillonnage systématique

B3. L’échantillonnage stratifié

B4. L’échantillonnage en grappes

B5. L’échantillonnage à plusieurs degrés

B6. L’échantillonnage en plusieurs phases

B. Les méthodes

d'échantillonnage aléatoire

B1. L’échantillonnage aléatoire simple

B2. L’échantillonnage systématique

B3. L’échantillonnage stratifié

B4. L’échantillonnage en grappes

B5. L’échantillonnage à plusieurs degrés

B6. L’échantillonnage en plusieurs phases

B1. L’échantillonnage

aléatoire simple

Chaque « individu » de la based'échantillonnage a la même probabilité d'être sélectionné pour figurer dansl’échantillon

Ce choix peut se faire avec remise ou sansremise : Avec remise : un individu peut être sélectionné

plusieurs fois Sans remise (cas le plus courant) : un

individu ne peut être sélectionné plus d'une fois

B1. L’échantillonnage

aléatoire simple

Avantages : – « Représentativité » statistique (par le

tirage aléatoire) assurée lorsque la taillede l'échantillon est grande

– Simplicité

Inconvénients :– Nécessite un accès exhaustif à la base

d'échantillonnage

– La représentativité n'est pas assurée si lataille de l'échantillon est faible

B1. Procédure SI :

échantillonnage sans remise

Une procédure simple pour obtenir unéchantillon de taille n :

1. On aloue aléatoirement un réel« random » (compris entre 0 et 1) àchaque individu

2. On trie les individus par la variablerandom et on sélectionne les n premiersindividus de la liste triée

B1. SI sous Excel

Données individuelles en lignes :1. insérer d'une nouvelle colonne2. dans cette colonne, tireraléatoirement un nombre compris entre0 et 1 pour chaque ligne par la fonction« =ALEA() »3. trier la base selon les valeurs de lanouvelle colonne4. sélectionner les n premiers individus

B1. Nombre d’échantillon

différents possibles

Si l’on note n la taille de l’échantillon et N la taille de la population.

→ Tirage avec remise :

→ Tirage sans remise :

On appelle la fraction de sondage

CN

n =N !

n ! N−n!

Nn

f =n

N

B1. Moyenne empirique et

échantillonnage SI

La moyenne empirique d'une variable Xsur l'échantillon

est un estimateur sans biais de lamoyenne de X, de variance :

X=∑

1

n

X i

n

Var X =1−n

N1

n

∑1

n

X i− X 2

n−1=1− f

Var X

n

B1. Moyenne empirique

pour un SI

La précision de l'estimateur augmente :

– avec la taille de l'échantillon,

– avec la fraction de sondage Si l'on a une estimation de Var(X), on

peut déterminer n de sorte à atteindreun niveau désiré de précision pour X

Var X =1− f Var X

n

B1. Proportions empiriques

pour un SI

Les proportions empiriques pour unevariable muette I sur l'échantillon

sont des estimateurs sans biais desproportions de variance :

p=∑

1

n

I i

n

Var p=1− f p 1− p

n−1

B1. Proportions empiriques

pour un SI

La précision de l'estimateur d'uneproportion augmente avec :

– La taille de l'échantillon

– La fraction de sondage La précision en points de % (Variance

et Ecart type) est plus faible pourdes proportions proches de 50%

NB : x (1-x) a son max en x = 1/2

Var p=1− f p 1− p

n−1

B1. Proportions empiriques

pour un SI

Pour un ordre de grandeur de laproportion attendue, on peutdéterminer n de sorte à atteindre leniveau désiré de précision pour p

Var p=1− f p 1− p

n−1

B1. Proportions empiriques

pour un SI

On a le plus souvent :– f « petit »

– N « grand »

Exercice : Pour p ≈ 50% et f ≈ 0, quel n faut il si on veut avoir un intervalle deconfiance d'une amplitude de 2 pointsde pourcentage ?

Var p≈p 1− p

n

B1. Proportions empiriques

pour un SI

Intervalle de confiance d'amplitude 0,002%à 95% (sous hypothèse de normalité) :

[0,5−1,96 .0,51−0,5

n;0,51,96.0,51−0,5

n ]1,96 .

0,5

n=0,01

n=[1,96 .0,5

0,01 ]2

1=9606

B1. Proportions empiriques

pour un SI

Intervalle de confiance pour un échantillonde 1000 individus et une proportion = 52 % :

[0,52−1,96 .0,52 .0,48

1000;0,521,96 .0,52 . 0,48

1000 ]p∈[0,49 ;0,55 ]

B. Les méthodes

d'échantillonnage aléatoire

B1. L’échantillonnage aléatoire simple

B2. L’échantillonnage systématique

B3. L’échantillonnage stratifié

B4. L’échantillonnage en grappes

B5. L’échantillonnage à plusieurs degrés

B6. L’échantillonnage en plusieurs phases

B2. L’échantillonnage

systématique

Chaque individu de la base de sondageest numéroté de 1 jusqu’à N (son rang)

L’entier voisin de N/n est noté r et appeléraison de sondage ou pas de sondage

On choisit au hasard un entier naturel d entre 1 et r (point de départ)

On sélectionne l'échantillon des individusde rang d + i.r (d+r , d+2r, d+3r, d+4r...)

B2. L’échantillonnage

systématique

Avantages : – Facile à mettre en oeuvre (un seul

individu est choisi au hasard)

– Bonne répartition de l’échantillondans l’ensemble de la liste

– Si l'ordre des individus dans la basede sondage est distribuéealéatoirement, mêmes résultats quele SI

– Très utilisé en contrôle de qualité

B2. L’échantillonnage

systématique

Désavantages : – Les données peuvent être biaisées à

cause de la périodicité (pas de 12pour des données annuelles, de 7,pour des données quotidiennes...)

– Pas un échantillonnage aléatoire siles individus ne sont pas rangésaléatoirement dans la base desondage

B. Les méthodes

d'échantillonnage aléatoire

B1. L’échantillonnage aléatoire simple

B2. L’échantillonnage systématique

B3. L’échantillonnage stratifié

B4. L’échantillonnage en grappes

B5. L’échantillonnage à plusieurs degrés

B6. L’échantillonnage en plusieurs phases

B3. L’échantillonnage

stratifié (STSI)

Démarche de sélection :1. On subdivise la population en strates(groupes relativement homogènes) qui sontmutuellement exclusives

2. On choisit un mode de répartition del'échantillon total entre les strates

3.Dans chacune des strates, on tire au hasard(SI) le nombre choisi d’individus

B3. L’échantillonnage

stratifié

Les variables de stratification doivent être :- Simples à utiliser

- Faciles à observer

- Étroitement reliées au thème de l’enquête

B3. L’échantillonnage

stratifié

Avantages : – Assure une certaine représentativité

– Limite le risque d'échantillons« extrêmes »

– Peut augmenter la précision

Désavantages : – Nécessite des informations sur et

dans la base de sondage

Exemple : Répartition géographique

B3. Estimateurs en

échantillonnage stratifié

Estimateur d'une proportion à partir de S échantillons de taille n

s tirés aléatoirement

dans S strates de taille Ns :

→ Variance de cet estimateur :

NB : fraction de sondage pour la strate s :

pstr=∑s=1

S N s

Nps

Var pstr =∑s=1

S

N s

N 2

1− f sps 1− ps

ns

f s=ns

N s

B3. Estimateurs en

échantillonnage stratifié

Estimateur de la moyenne de X à partir de S échantillons de taille n

s tirés aléatoirement

dans S strates de taille Ns :

→ Variance de cet estimateur :

NB : fraction de sondage pour la strate s :

X str=∑s=1

S N s

NX s

Var X str =∑s=1

S

N s

N 2

1− f sVars X ns

f s=ns

N s

B3. Echantillonnage stratifié

Développements

L’échantillonnage stratifié permet de réduire lavariance des estimateurs grâce à l'informationqui définit les strates

Il existe diverses procédures d'allocation des n unités de l'échantillon dans les différentesstrates

– Allocation égale ( ) – Allocation proportionnelle ( )– Allocation puissance– Allocation optimale

ns=Ctef s=ns /N s=Cte

B3. Variance d'une moyenne

(allocation proportionnelle)

Echantillonnage stratifié (fs ≈ 0) :

Echantillonnage aléatoire (décomposition de lavariance) :

→ si les valeurs moyennessont différentes entre les strates

Var X SI =∑s=1

S ns

n n−1 Xs− X

2

∑s=1

S ns−1nsn n−1

Vars X ns

Var X str =∑s=1

S

N s

N 2 Vars X ns

=∑s=1

S

nsn 2 Vars X ns

Var X str Var X SI

B. Les méthodes

d'échantillonnage aléatoire

B1. L’échantillonnage aléatoire simple

B2. L’échantillonnage systématique

B3. L’échantillonnage stratifié

B4. L’échantillonnage en grappes

B5. L’échantillonnage à plusieurs degrés

B6. L’échantillonnage en plusieurs phases

B4. L’échantillonnage par

grappes

On sélectionne au hasard un certain nombred'unités primaires (grappes) pour représenter lapopulation.

On sélectionne tous les individus des grappeschoisies

Exemple :– Sélection au hasard de 20 écoles primaires

sur le département du Rhône (grappes)

– Enquêtes auprès de tous les enseignants deces écoles

B4. L’échantillonnage par

grappes

Avantages : – Ne nécessite pas une liste globale de la

population mais seulement des grappes.– Coûts logistiques réduits (déplacement,

logement des enquêteurs, etc.)– Coûts de suivi et de supervision réduits

Désavantage : – Moindre précision– Moindre variabilité (autocorrélation)– Perte de contrôle sur la taille finale de

l’échantillon.

B. Les méthodes

d'échantillonnage aléatoire

B1. L’échantillonnage aléatoire simple

B2. L’échantillonnage systématique

B3. L’échantillonnage stratifié

B4. L’échantillonnage en grappes

B5. L’échantillonnage à plusieurs

degrés

B6. L’échantillonnage en plusieurs phases

B5. L’échantillonnage à

plusieurs degrés

Première étape : Echantillonnage par grappes→ Nouvelle base de sondage

Deuxième étape : Echantillonnage aléatoire simple(SI) sur chaque grappe

→ Echantillon

NB : Les grappes peuvent elles-mêmes être définies enplusieurs étapes (vrai également pour B5)

Exemple :- Echantillon aléatoire de villes françaises- Au sein des villes, échantillon aléatoire de quartiers- Dans chaque quartier de chaque ville on fait unéchantillonnage SI de ménages

B5. L’échantillonnage à

plusieurs degrés

Avantages : – Mêmes avantages que l'échantillonnage

par grappes (coûts, etc.)

– Possibilité de contrôler la taille del’échantillon final

Désavantage : – Précision des résultats

B5. L’échantillonnage par

grappes à plusieurs degrés

Souvent utilisé pour les enquêtes « face à face »– Arbitrage coût – qualité– Imposé par la logistique (choix de quartiers

dans une ville, de villages dans undépartement, etc.)

Parfois implicitement utilisé :– Observations individuelles à partir

d'enquêtes ménages (grappe = ménage)– Observation salariales ou produit à partir

d'enquêtes entreprises (grappe =entreprise)

B5. L’échantillonnage par

grappes à plusieurs degrés

Question de compréhension : Explicitez clairement la différence entrel'échantillonnage par grappes à plusieurs degréset l'échantillonnage par strates

B. Les méthodes

d'échantillonnage aléatoire

B1. L’échantillonnage aléatoire simple

B2. L’échantillonnage systématique

B3. L’échantillonnage stratifié

B4. L’échantillonnage en grappes

B5. L’échantillonnage à plusieurs degrés

B6. L’échantillonnage en plusieurs

phases

B6. L’échantillonnage à

plusieurs phases

Phase 1 : Les données de base sontcollectées auprès d’un échantillon degrande taille

Phase 2 : – Les informations collectées en première

phase sont utilisées pour définir laprocédure d'échantillonnage d'un sous-échantillon

– Des données détaillées sont collectées surle sous-échantillon

B6. L’échantillonnage à

plusieurs phases

Exemple : Analyse des pratiques sportives

Phase 1 :

Echantillon aléatoire de grande taille comprenanttrès peu de questions dont :

– Pratiquez-vous un sport ?– Si oui, lequel

Phase 2 :

– Echantillonnage SI ou par strates (en utilisantles informations collectées en phase 1)

– Questionnaire complet (uniquement auprès desportifs)

B. L’échantillonnage

aléatoire - Conclusions

Le mode d'échantillonnage doit être choisi enfonction :

– De la question– Du budget

Pour chaque mode d'échantillonnage il existedes mesures de la précision des estimateurs :

→ Permet de définir la taille minimale del'échantillon pour une précision donnée

→ Permet anticiper le degré de précisionpour une taille d'échantillon donnée

Ch 2 – L'échantillonnage

A. Définition de l'échantillon

B. L'échantillonnage aléatoire

C. L'échantillonnage non

aléatoire

D. Les erreurs

C. Méthodes empirique ou

non aléatoires

Les méthodes non aléatoires sont des méthodes où :– La probabilité d'être enquêté n'est pas contrôlée

– L'échantillon final ne peut être considéré commeun échantillon aléatoire

ATTENTION : Beaucoup de ces méthodes sontbasées sur « le hasard »

!!! Au hasard ≠ Aléatoire !!!!

→ Ce sont des méthodes généralement peu fiables

C. Méthodes empirique ou

non aléatoires

Elles sont souvent utilisées Pour des études exploratoires Lorsque le budget est très limité Quand il est impossible ou non

envisageable d’utiliser la méthodealéatoire.

C. Méthodes non aléatoires

l’échantillonnage à l’aveuglette ou decommodité : « comme ça vient »

– Ex : les interviews dans la rue (hasard ≠ aléatoire !)

L’échantillonnage de volontaires : – Ex : Expériences médicales ou

psychologiques

L’échantillonnage au jugé : en fonction de« l’idée qu’on se fait » de la composition de lapopulation

– Ex : Clients « types » en marketing

C. Méthodes non aléatoires

La méthode des itinéraires : On impose àl'enquêteur un certain itinéraire en indiquant lespoints où il doit faire remplir un questionnaire

L’échantillonnage par quotas (aka « échantillonnage dirigé » ou « par choixraisonné ») : On demande aux enquêteurs defaire un nombre d’entrevues dans divers groupesétablis en fonction du secteur géographique, del’âge, du sexe ou d’autres caractéristiques…L’enquêteur doit respecter son quota.

C. La méthode des quotas

Largement utilisée dans les enquêtes d’opinion etles études de marché :

– Ne suppose pas de liste des individus de lapopulation

– Quotas définis à partir d'informationspubliques (répartition de la population parsexe, age, zones géographiques, CSP, etc.)

– Permet d'obtenir un échantillon« représentatif » de la population

– « Peut permettre » une bonne précision desmesures

C. La méthode des quotas

MAIS :– La « représentativité » porte uniquement sur

la structure selon les variables quidéfinissent les quotas : les autresdimensions sont ignorées et la structure decorrélation n'est pas assurée...

– La qualité dépend très fortement du contrôledes enquêteurs :

• RDC et 1er étages sur-représentés• Enquêtes concentrées sur des « îlots »• etc.

Pour en savoir plus

Les techniques de sondage P. Ardilly,édition TECHNIP 1994

http://www.unu.edu/unupress/food2/UIN12F/uin12f0c.htm

Méthodes non aléatoires

Avantages : – Moins coûteuses– Plus faciles à réaliser

Désavantages: – Faible qualité– Biais d'enquêteurs sur des quotas par

groupes (« 60 ans et plus » : plus facile detrouver un 60 qu'un 105...,Surreprésentation des RDC et 1er étages)

– Pas d'expression théorique de laprécision des mesures