14
Théorie de l’échantillonnage (STT-6005) Problème de la non- réponse (SSW, Chapitre 15) Version: 10 mars 2004

Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

Embed Size (px)

Citation preview

Page 1: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

Théorie de l’échantillonnage (STT-6005)

Problème de la non-réponse

(SSW, Chapitre 15)

Version: 10 mars 2004

Page 2: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

2

Non-réponse

Problème survenant dans plusieurs sondages. Peut varier considérablement dans le temps,

même pour un même sondage effectué à plusieurs reprises dans le temps.

Pour la contrôler: entraînement des interviewers, déroulement de l’entrevue (longueur de l’entrevue, choix et formulation des questions, etc.)

Page 3: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

3

Exemples de non-réponse

Incapacité de contacter un individu, un ménage, ou de manière générale une unité.

La personne peut décider de ne pas répondre; refus catégorique; incompréhension (langue, analphabétisme)

Idéalement, l’interviewer tente d’obtenir de l’information démographique sur le non-répondant (âge?, sexe?, ethnie?, lieu de résidence: rural/urbain?)

Page 4: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

4

Effets de la non-réponse

Biais potentiel dans les estimateurs des paramètres de la population.

La non-réponse est particulièrement grave car la volonté de réponse est souvent liée à la variable d’intérêt y.

Page 5: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

5

Facteurs principaux qui font que le biais est petit:

Moyenne chez les non-répondants est similaire à la moyenne chez les répondants.

Taux de non-réponse est raisonnablement petit. (Pour EPA = enquête population active, taux de non-réponse est d’environ 7%; 5% et moins est « acceptable ».)

Page 6: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

6

Taux de non-réponse en pratique

Enquête de la population active: autour de 10%.

Moins de 10% est bon en général. Souvent 30% et plus. Mesure de non-réponse si plus de deux

variables?

Page 7: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

Exemple

Échantillon s

Non-échantillonné, partie U-s

Réponse aux deux questions.

y zX XX X… …X XX N.D.

N.D. X… …X N.D.

N.D. N.D.N.D. N.D.… …

N.D. N.D.N.D. N.D.N.D. N.D.N.D. N.D.… …

N.D. N.D.

Réponse à une question mais pas aux deux. (non-réponse par item)

Non-réponse aux deux questions. (non-réponse par unité)

Page 8: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

8

Formalisation de la non-réponse pour une variable y

Contexte: On sélectionne s dans U avec probabilité p(s), avec k > 0 et kl > 0.

Après la collecte des données, yk est disponible seulement pour les unités pour

et Dans une telle situation, nous sommes en

présence de données manquantes ou de la non-réponse.

rk sr

Page 9: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

9

Illustration du problème de biais: Enquête sur le revenu, où tous les hauts revenus ont une probabilité de répondre plus faible.

Ceci implique une sous-représentativité des hauts revenus dans .

Si tirage SI (n parmi N): Si on considère comme estimateur

où m est le nb de répondants:

sr

s ks yn

y1

r kr y

my

1

Ur yyE

Page 10: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

10

Techniques pour contrôler le problème de la non-réponse

Sous-échantillonnage des non-répondants. Techniques de réponses randomisées. Techniques basées sur la modélisation de la non-

réponse. Imputation. Substitution de dossiers analogues (qui partagent

certaines caractérisques avec les unités non-répondantes).

Technique de redressement. On remplace 1/k par autre chose.

Page 11: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

11

On connaît

On impute

On obtient ainsi un ensemble de données complétées:

Imputation: on pose des valeurs plausibles pour les valeurs manquantes

skxk ,

Bxx

yxy k

s k

s k

kk

r

r ˆˆ

rsky

rky

k

k

,

Page 12: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

12

Autre exemples d’imputation

Hot Deck: On choisit au hasard une valeur déjà obtenue pour remplir les trous.

Cold Deck: Utilisation de données provenant de sources externes.

Imputation par la moyenne: Chacun des trous est remplacé par la valeur moyenne des répondants.

Imputation utilisant des modèles: par le ratio, par la régression, etc.

Page 13: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

13

Repondération comme une méthode d’ajustement pour la non-réponse

On accepte la non-réponse. On ne tente pas d’imputer. Cependant, on cherche à redresser

l’échantillon de répondants. On a besoin cependant d’information auxiliaire,

permettant un découpage en catégories (exemple: âge, sexe)

Page 14: Théorie de léchantillonnage (STT-6005) Problème de la non-réponse (SSW, Chapitre 15) Version: 10 mars 2004

STT-6005; Théorie de l'échantillonnage; Hiver 2004

14

Mécanisme de réponse

Permet de modéliser la non-réponse. On considère un échantillon s choisi dans U

selon un plan p avec les k et kl usuels. L’échantillon des répondants r est pris dans s

selon un mécanisme de réponse inconnu. Cette façon d’aborder le problème est une

application directe de la théorie d’échantillonnage en 2 phases.