Upload
auguste-duhamel
View
102
Download
0
Embed Size (px)
Citation preview
Théorie de l’échantillonnage (STT-6005)
Problème de la non-réponse
(SSW, Chapitre 15)
Version: 10 mars 2004
STT-6005; Théorie de l'échantillonnage; Hiver 2004
2
Non-réponse
Problème survenant dans plusieurs sondages. Peut varier considérablement dans le temps,
même pour un même sondage effectué à plusieurs reprises dans le temps.
Pour la contrôler: entraînement des interviewers, déroulement de l’entrevue (longueur de l’entrevue, choix et formulation des questions, etc.)
STT-6005; Théorie de l'échantillonnage; Hiver 2004
3
Exemples de non-réponse
Incapacité de contacter un individu, un ménage, ou de manière générale une unité.
La personne peut décider de ne pas répondre; refus catégorique; incompréhension (langue, analphabétisme)
Idéalement, l’interviewer tente d’obtenir de l’information démographique sur le non-répondant (âge?, sexe?, ethnie?, lieu de résidence: rural/urbain?)
STT-6005; Théorie de l'échantillonnage; Hiver 2004
4
Effets de la non-réponse
Biais potentiel dans les estimateurs des paramètres de la population.
La non-réponse est particulièrement grave car la volonté de réponse est souvent liée à la variable d’intérêt y.
STT-6005; Théorie de l'échantillonnage; Hiver 2004
5
Facteurs principaux qui font que le biais est petit:
Moyenne chez les non-répondants est similaire à la moyenne chez les répondants.
Taux de non-réponse est raisonnablement petit. (Pour EPA = enquête population active, taux de non-réponse est d’environ 7%; 5% et moins est « acceptable ».)
STT-6005; Théorie de l'échantillonnage; Hiver 2004
6
Taux de non-réponse en pratique
Enquête de la population active: autour de 10%.
Moins de 10% est bon en général. Souvent 30% et plus. Mesure de non-réponse si plus de deux
variables?
Exemple
Échantillon s
Non-échantillonné, partie U-s
Réponse aux deux questions.
y zX XX X… …X XX N.D.
N.D. X… …X N.D.
N.D. N.D.N.D. N.D.… …
N.D. N.D.N.D. N.D.N.D. N.D.N.D. N.D.… …
N.D. N.D.
Réponse à une question mais pas aux deux. (non-réponse par item)
Non-réponse aux deux questions. (non-réponse par unité)
STT-6005; Théorie de l'échantillonnage; Hiver 2004
8
Formalisation de la non-réponse pour une variable y
Contexte: On sélectionne s dans U avec probabilité p(s), avec k > 0 et kl > 0.
Après la collecte des données, yk est disponible seulement pour les unités pour
et Dans une telle situation, nous sommes en
présence de données manquantes ou de la non-réponse.
rk sr
STT-6005; Théorie de l'échantillonnage; Hiver 2004
9
Illustration du problème de biais: Enquête sur le revenu, où tous les hauts revenus ont une probabilité de répondre plus faible.
Ceci implique une sous-représentativité des hauts revenus dans .
Si tirage SI (n parmi N): Si on considère comme estimateur
où m est le nb de répondants:
sr
s ks yn
y1
r kr y
my
1
Ur yyE
STT-6005; Théorie de l'échantillonnage; Hiver 2004
10
Techniques pour contrôler le problème de la non-réponse
Sous-échantillonnage des non-répondants. Techniques de réponses randomisées. Techniques basées sur la modélisation de la non-
réponse. Imputation. Substitution de dossiers analogues (qui partagent
certaines caractérisques avec les unités non-répondantes).
Technique de redressement. On remplace 1/k par autre chose.
STT-6005; Théorie de l'échantillonnage; Hiver 2004
11
On connaît
On impute
On obtient ainsi un ensemble de données complétées:
Imputation: on pose des valeurs plausibles pour les valeurs manquantes
skxk ,
Bxx
yxy k
s k
s k
kk
r
r ˆˆ
rsky
rky
k
k
,ˆ
,
STT-6005; Théorie de l'échantillonnage; Hiver 2004
12
Autre exemples d’imputation
Hot Deck: On choisit au hasard une valeur déjà obtenue pour remplir les trous.
Cold Deck: Utilisation de données provenant de sources externes.
Imputation par la moyenne: Chacun des trous est remplacé par la valeur moyenne des répondants.
Imputation utilisant des modèles: par le ratio, par la régression, etc.
STT-6005; Théorie de l'échantillonnage; Hiver 2004
13
Repondération comme une méthode d’ajustement pour la non-réponse
On accepte la non-réponse. On ne tente pas d’imputer. Cependant, on cherche à redresser
l’échantillon de répondants. On a besoin cependant d’information auxiliaire,
permettant un découpage en catégories (exemple: âge, sexe)
STT-6005; Théorie de l'échantillonnage; Hiver 2004
14
Mécanisme de réponse
Permet de modéliser la non-réponse. On considère un échantillon s choisi dans U
selon un plan p avec les k et kl usuels. L’échantillon des répondants r est pris dans s
selon un mécanisme de réponse inconnu. Cette façon d’aborder le problème est une
application directe de la théorie d’échantillonnage en 2 phases.