Carl-Erik Särndal Université d’Örebro Statistique Suède

Preview:

DESCRIPTION

Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse. Carl-Erik Särndal Université d’Örebro Statistique Suède. 7e Colloque francophone sur les sondages Rennes , 2012. 2012-11-06. Face à la non-réponse : - PowerPoint PPT Presentation

Citation preview

Réponse équilibrée et ajustement des estimations:

Deux étapes dans le traitement de la non-réponse

Carl-Erik Särndal

Université d’Örebro

Statistique Suède

2012-11-06

7e Colloque francophone sur les sondagesRennes , 2012

.

Face à la non-réponse :

deux types d’activités

(a) au « stade collecte (des données) »

(b) au « stade estimation », collecte ayant été terminée

Les étapes (a) et (b) ne sont pas indépendantes . Nous examinerons les deux, et leur interaction

.

• Collecte des données: Évolue sur une période de temps (des jours, semaines). Aspect dynamique. Objectif: obtenir à la fin un ensemble de répondants bien équilibré

• Estimation: Objectif: Ajustement pour réduire le biais qui affecte néanmoins les estimations (malgré un certain équilibrage).

.

• Collecte des données• Estimation

Les deux activités dépendent intégralement de l’accès aux variables auxiliaires

Plus on en a, mieux c’est

En Scandinavie, on est bien équipé

Les idées pour cette présentation

Collecte adaptive (Responsive design, USA, Canada) Europe:

Statistics Netherlands (projet RISQ; représentativité) Statistics Sweden (réponse équilibrée) : projet en collaboration avec Peter Lundquist

Points de départ:

Les variables d’intérêt (variables y) : affectées par une non-réponse non-aléatoire (même conditionnellement sur vecteur auxiliaire x)

• Estimations plus ou moins baisées• Le biais ne sera jamais entièrement éliminé• La non-réponse ignorable (MAR) n’existe pas.

Points de départ:

Les variables auxiliaires (variables x) jouent un rôle primordial. Connues pour les unités de l’échantillon s (répondants et non-répondants), peut-être pour toute la population

Vecteur x multivarié

Points de départ: En Scandinavie, aux Pays-Bas et de plus en plus ailleurs

Une multitude de variables auxiliaires disponibles ,

surtout pour les enquêtes sur ménages et individus :

Sources : Les registres administratifs

Nécessité de choisir “les meilleures”.

Exemple, Suède :

• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Périodes sans emploi• Urbain/rural• Occupation et beaucoup d’autres

Enquête sur ménages et individus, parmi les variables auxiliaires potentielles:

.

Je vous présente une théorie pour ce qui est pour nous, en Scandinavie, une réalité,

chez vous, c’est peut-être différent …

Les étapes de ma présentation

1. La notion de maléquilibre (ang.: imbalance) 2. Stade collecte : surveiller et intervenir 3. Partager le travail et les ressources :

collecte vis-à-vis estimation4. Stade estimation : réduction du biais

Population U = {1, …, k , ..., N}

Échantillon probabiliste s (s U)

1. La notion de mal-équilibre

.

Proba d’inclusion de l’unité k :

Poids d’échantillonnage de k :

kkd π/1

Population U = {1, …, k , ..., N} Échantillon probabiliste s Ensemble des répondants r r s U

Sélectionnés mais non-répondants: s – r

La non-réponse arrive

r s kk ddP /Taux de réponse

pondéré : dk = 1/k

La (les) variable(s) d’intérêt y

continue ou catégorique

Usrrkyk ;pourOn observe valeur

.

emploisans si1 kyk sinon0; ky

par exemple

r yd kk

k θ

1

Pondération désirable mais hypothétique

Y

Serait sans biais pour le total de y, mais inutilisable

proba de réponse k inconnu, tout unité k :

.

Introduisons

Les concepts d’équilibre et de distance reposant sur des variables auxiliaires

(Mais la variable d’intérêt yk pour k r seulement)

r s U

Vecteur auxiliaire xk de dimension J 1

connu k s, ou bien pour

tout k U

;

),,...,...,(:vecteurEn 1 Jj DDDD

jsjrj xxD

moyennerépondants

Contraster les répondants avec l’échantillon entier

Pour la variable xj , calculer

moyenneéchantillon entier

sr xxD

;

Comparer répondants avec l’échantillon entier

Le vecteur des différences , dim. J 1

r kr kkr dd /xx

s ks kks dd /; xx

pondéré : dk = 1/k

Répondants égaux (en moyenne) à l’échantillon tout entier

Réponse équilibrée :

0xxD

nechantillorepondantssr

Désirable, mais difficile à réaliser entièrement

Objectif pour la collecte : un niveau d’équilibre élevé

néanmoins, au stade estimation, un ajustement s’impose

.

: réponse mal équilibrée

D étant vectoriel, on forme une mesure uni-variée du maléquilibre (ang: imbalance)

s ks kkks dd /xxΣ

DΣD 1 s )()( 1srssr xxΣxx

,

Matrice J J de pondération, non-singulier :

0xxD sr,tNormalemen

Exemple, la Suède :

• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Période(s) sans emploi• Urbain/rural• Occupation

Vecteur x composé de :

dimension souvent 40 ou plus

Notation :

IMB = imbalance = maléquilibre

DΣD 1 sIMB

IMB est une mesure descriptive - parmi d’autres également possibles -

de l’ensemble r des répondants, tel qu’il se présente à un certain moment

de la collecte des données.

.

)()( 1srssr xxΣxx

Remarquer :

dépend de

(i) la composition du vecteur auxiliaire xk

(ii) la composition de r , étant donné s

DΣD 1 sIMB

),( srIMB kx serait notation plus complète

Mais par simplicité, utilisons IMB tout court

)()( 1srssr xxΣxx

Propriété : Pour réponse r et échantillon s fixés ,

ajouter plus de variables au vecteur x

fera augmenter IMB

Un vecteur x plus grand donne plus de maléquilibre, naturellement, car davantage de variables pour lesquelles les moyennes doivent concorder.

Le vecteur trivial xk = 1 donne IMB = 0

mais c’est un vecteur dépourvu d’intérêt

.

La pondération avec s

nous permet de poser une borne supérieure simple pour

le maléquilibre DΣD 1 sIMB

Pour toute réalisation (s, r) et vecteur xk ,

11

0 P

IMB

20% non-response : 0 IMB 0.25

50% non-response : 0 IMB 1

IMB n’est pas numériquement grand

Mais IMB = 0.20 indique maléquilibre considérable comparablement à IMB = 0 (équilibre parfait)

P = taux de réponse

La notion de distance

entre répondants r and non-répondants nr = s - r

Relation simple avec maléquilibre IMB :

2/11 )}(){( rsrsrsrnrrdist

xxΣxx

IMBP

dist nrr

1

1

P = taux de réponse

La distance

Par exemple, 40% non-réponse, et maléquilibre 16.0IMB

1 nrrdist

IMBP

dist nrr

1

1

)1(

1

PPdist nrr

peu importe r, s et choix de vecteur x

Par ex., non-réponse 50% dist 2

Pour nos données, dist rarement 0.5

mais varie selon le choix du vecteur x

Propritété :

2. Stade collecte: surveiller et intervenir(un aspect de « Responsive Design »)

Optique dynamique : Surveiller la collecte des données, vue en fonction du temps (les jours, les tentatives de contact);

Envisager des interventions ou altérations dans un plan original.

Surveiller et modifier la collecte

Optique dynamique : Une série d’ensembles de répondants emboités, fonctions du point temporel a

...... )()2()1( arrr

Pour simplicité r dénotera n’importe lequel de ces ensembles

Tirage aléatoire simple de personnes dans le registre de la population suédoise.Interviews par téléphone.Les tentatives de contact sont enregistrées par le dispositif WinDATINous analysons ici un sous-échantillon de taille 8,220

Exemple d’application:

Enquête sur les Conditions de Vie , Suède 2009

ECV2009

tributaire du EU-SILC

.

Tentatives de contact enregistrées par WinDATI.

Période collecte ordinaire: 3 semaines; pour beaucoup d’unités, > 30 tentatives; à la fin de cette période, taux de réponse P = 60.4 %

Période des suivis (follow-up), 3 semaines , taux de réponse ultime P = 67.4%

Enquête sur les conditions de vie, Suède 2009(ECV2009)

.

Collecte ordinaire> 30 tentatives pour bon nombre d’unités

Collecte suiviesouvent > 10 tentatives

Toutes ces tentatives … 53258, au total Est-que cela vaut la peine ? Fortement douteux.

.

)()( 1srssr xxΣxx

Pour le fichier ECV2009, calculonsle maléquilibre

et la distance rép/non-rép

DΣD 1sIMB

2/11 )}(){( rsrsrsrnrrdist

xxΣxx

IMBP

1

1

sur vecteur x = (educ owner origin); dim = 23 = 8

.

3 variables binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)

x = (educ owner origin); dim = 2 2 2 = 8

Fichier ECV2009 tel quel

Tentative Taux rép.

100 Pdistr/nr

100 IMB

no.1 ordin 12.8 0.233 4.13

no. 5 ordin 44.3 0.310 2.99

no.12 ordin 57.7 0.394 2.78

Fin ordin 60.4 0.417 2.72

no. 1 fol-up 61.4 0.418 2.61

no.4 fol-up 64.6 0.435 2.37

Final 67.4 0.471 2.36

La distance augmente sans cesse. Comment est-ce possible ?

Fichier ECV2009 :

La distance augmente

de 0.310 tentative no. 5à 0.471 fin collecte

Répondants de moins en moins semblables aux non-répondants ...

C’est troublant …Mais dites-vous, cela dépend du vecteur x choisi …

IMBP

dist nrr

1

1

.

Durant la phase collecte, comment réduire le maléquilibre ?

Quelles interventions pouvons nous apporter à la collecte?

Quelles modifications dans un plan original, pour pouvoir terminer avec

un ensemble de répondants plus approprié?

Pour répondre à ces questions , il faudrait effectuer des expériences dans la collecte des données de la ECV.

.

Faute d’ expériences réelles, nous effectuons des “expériences rétrospectives” dans le fichier ECV2009

On considère la collecte terminée dans un sous-groupe ayant atteint un certain taux de réponse

comme 55% ou 60% ou 65%

Cela possible avec le fichier ECV2009

.

.

Ainsi, dans ces expériences, on rejette volontairement une partie des données du fichier ECV2009 (pour que le reste soit plus équilibré et avoir un IMB moindre)

.

.

Les groupes définis par le vecteur connu k s

x = (educ owner origin)de dimension = 2 2 2 = 8

On sait que ces groupes diffèrent dans leur disposition à répondre

ECV2009

.

Résultats d’une de ces expériences rétrospectives: Considérer collecte terminée dans un group ayant atteint un taux de réponse de 60%

les 23 = 8 groupes définis par le vecteurx = (educ owner origin)

ECV2009

.

Expérience rétrospective : collecte terminée dans un groupe si son taux réponse > 60%

Tentative Taux rép.

100 Pdistr/nr

100 IMB

7 ordin 50.9 0.357 3.07

8 ordin 52.5 0.353 2.81

9 ordin 53.8 0.341 2.49

15 ordin 56.0 0.287 1.59

3 fol-up 58.6 0.252 1.09

Final 58.9 0.220 0.82

La distance maintenant décroissante, comme on souhaite

Comparaison au point Final (collecte terminée)

Moins de réponses (58.9% vs. 67.4%) Mais distance très réduite (0.22 vs. 0.42)

.

ECV tel quel 67.4 2.36 0.417

Expérience 58.9 0.82 0.220(interventionpar groupes)

Taux rép.100 P 100 IMB distance

Non seulement économise-t-on sur le nombre de tentatives (réduction d’environ 15%)mais la distance diminue aussi (répondants et non-répondants plus semblables)

.

.

3. Collecte vis-à-vis estimation Comment partager les ressources ?

Quelle utilisation doit-on faire de l’information auxiliaire disponible?

Quand faut-il agir, et dans quelle mesure ?• stade collecte ou bien• stade estimation ou les deux ?

On se rend compte alors que les variables auxiliaires (nombreuses)

doivent être regroupés en deux catégories :

• Celles qu’on utilise lors du stade collecte, pour une surveillance• Celles qu’on utilise, la collecte terminée,

lors du stade estimation

.

Le vecteur surveillance xa

contient les variables x destinées à surveiller

et diriger la collecte de données,

pour s’assurer à la fin d’un ensemble de répondants bien équilibré, qui

ressemble fortement à l’échantillon probabiliste s.

.

D’autres variables auxiliaires, quoique disponibles, demeurent inactives lors de la collecte ;

Ce vecteur supplémentaire xb

prend de l’importance au stade estimation

pour calculer les poids de calage.

.

C’est un fait : Certaines unités faciles à rejoindre ou à faire participer,

d’autres plus dures, et cela dépendamment de leurs caractéristiques

observables (leurs données auxiliaires)

.

.Le contexte dynamique:

A tout point de la collecte, toute unité k s est caractérisée par son

Intensité de réponse (ang.: Response Propensity)

par rapport au vecteur surveillance choisi xa

s s akakakkakkkak dIdP xxxx 1)()(ˆ

Interprétation : Régression de l’indicateur de réponse Ik = 1 si réponse ; 0 sinon, sur xak

Intensité de réponse

Peut se calculer à n’importe quel point de la collecte, pour k s

sak

ks k P

Pd

d2

2

)1ˆ

(1

:)variationde(coeffrelativevariance

s s akakakkakkkak dIdP xxxx 1)()(ˆ

Pd

d

d

PdP

s k

r k

s k

s akkas

ˆ

ˆ:moyenne

P étant le taux de réponse réussi à ce point de la collecte

où IMBa est le mal-équilibre de xa

c’est-à-dire la valeur de

calculée sur x = xa

On découvre une relation entre maléquilibre et

intensité de réponse

s s akakakkakkkak dIdP xxxx 1)()(ˆ

)()( 1srssrIMB xxΣxx

aak IMBP )ˆ(variationde coeff.

.

.

La relation :

entre intensité de réponse et maléquilibre est logique :

Plus les intensités de réponse varient, plus il doit y avoir maléquilibre,

à un moment donné de la collecte.

.

aak IMBP )ˆ(variationcoeff

Note mathématique: Nous considérons ici la famille de

vecteurs x tels que :

On peut spécifier vecteur tel que

)1,....,1,1(prendre

skk allfor1xμ

)0,1(prendre,),1(Si kk xx

)0,...,1,...,0(Si kx

La majorité des vecteurs d’importance sont de cette espèce, par exemple

OO

Disponible pour ECV2009 :

multitude variables auxiliaires potentielles

Prenons un exemple

Retour à l’Enquête Conditions de Vie, Suède (ECV2009)

.

.

Exemple : On a retenu les variables auxiliaires suivantes (toutes catégoriques) :

.

Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)

Par 4 groupes :Age

.

))(( SexeCivilAgePhoneOriginOwnEduc x

Préalablement analyser le fichier ECV2009 tel quel, pour maléquilibre et distance ,avec le vecteur (de toutes les variables de la liste)

.

.

dim(x) = 23+ 1 + (4 – 1) + 1 + 1 = 14

Fichier ECV2009 tel quel (aucune intervention)

TentativeTaux rép.

100×Pdistr|nr 100×IMB

8 ordinaire 53.0 0.515 5.85

Fin ordin. 60.4 0.552 4.79

3 follow-up 63.8 0.581 4.43

Final 67.4 0.623 4.14

La distance rép/non-rép augmente sans cesse

))(( SexeCivilAgePhoneOriginOwnEduc x

Faire mieux: Expériences rétrospectives

Préciser un vecteur xa de surveillance pour

effectuer des interventions « après coup » dans ECV2009 :

Considérer les tentatives de contact terminées

pour des unités « ne valant plus la peine d’être poursuivies »

Procédure

Arrêter les efforts de contact pour les unités ayant intensité élevée.

Du coup, quand on continue avec celles qui restent, ils vont successivement atteindre une intensité de réponse plus élevée.

akP

.

.

.

Vecteur de surveillance : Comment le choisir ?

Options :• Affecter toutes les variables de la liste

au vecteur xa de surveillance

• Affecter une partie des variables à la surveillance, laisser les autres pour l’estimation

.

Liste des variables auxiliaires retenues :

.

Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)

Par 4 groupes :Age

.

.

))(( SexeCivilAgePhoneOriginOwnerEduca x

Dim(xa ) = 23+1 + 3 + 1 + 1 = 14

Nombre de valeurs possibles de xa = nombre de

propriétés reconnues chez les unités = 256

Affecter toutes les variables à la surveillance

1bx

Procédure

A chacun de J points définis à l’avance, mettre de côté (ne plus poursuivre) une partie, 1/(J+1), des unités,

celles ayant des valeurs élevées de l’intensité akP

OO

xa de dim.14 (toutes les var. x) , aucun xb

TentativeTaux rép.

100×Pdistr|nr

100×

IMBa 

8 ordinaire 53.0 0.515 5.85  

Fin ordin. 58.6 0.473 3.85  

3 follow-up 60.0 0.446 3.18  

Final 60.5 0.418 2.72  

Reduction du nombre de tentatives : 16.1%

Distance diminue ; bon signe.

Alternativement,affecter seulement une partie des variables

à la surveillance ; retenir les autres pour l’estimation (inactives au stade collecte)

82dim);( 3 OriginOwnEducax

.

7dim);( SexeCivilAgePhonebx

.

Conséquence : IMB et distr/nr plus élevés,

comparativement à la surveillance sur toutes les variables x de la liste.

.

Donnéesfinales

taux rép. 100P

distr/nr IMBab

ECV2009tel quel; aucunesurveillance

67.4 0.623 4.14

Surveiller

sur une partie xa

de dim 8

60.8 0.513 3.45

Surveillersur toutes

xa de dim 14

60.5 0.418 2.72

.

Comparaison, 3 différentes collectes de données

Surveillance plus serrée distance diminue

Donnéesfinales

IMBab

(total)

IMBb

(marg)

IMBa/b

(cond)ECV2009tel quel ; aucunesurveillance

4.14 2.77 1.37

Surveillersur une partie

xa de dim 8

3.45 3.04 0.41

Surveillersur toutes

xa de dim 14

2.72 2.17 0.55

.

Maléquilibre total, marginal , conditionnel

)( SexeCivilAgePhoneb x

4. Stade estimation : ajustement pour non-réponse

yk disponible k r seulement

La situation est changée : r est désormais fixé plus possible d’améliorer sa composition ; faut l’accepter tel quel pour l’estimation

Objectif: Construire un vecteur x puissant

r s Uréponse échantillon population

.

Disponible : Liste de variables auxiliaires (nombreux)

Objectif: construire un vecteur x pour un calcul des poids de calage

réduire autant que possible le biais des estimations

car il y en a, malgré un certain équilibrage lors du collecte des données

Comment choisir, dans une manière « stepwise » ou autrement, les variables x à retenir ?

« Prendre les meilleurs d'abord » est une solution.

Les variables y sont nombreuses, ce qui complique le choix des variables x . Celles qui sont bonnes pour une certaine y ne l’est peut-être pas pour les autres.

Pour la théorie nous examinons une seule variable y.

OO

U s r population échantillon répondants

yk observé k r seulement

Estimateurs de

r kkkCAL ymdY par calage; moins biaisé

s kkFUL ydY sans biais mais irréalisable

par expansion; tres biaisédrs kEXP ydY ;)(ˆ

U kyY

r kkk ymdCALY

Estimateur calage de

avec poids de calage

Propriété calage des poids dkmk

colonnerangee

xxxx ks r kkkkkk ddm

1))(

s kkr kkk dmd xx

U kyY

0 FULY

Quand xk devient plus puissant, étant donne r et s :

ajustement

EXPCAL YY ˆˆ

CALEXP YY ˆˆ

EXPY

.

Ajustement

s’éloigne de l’estimation rudimentaire CALY

grandit

0

FULY

CALYEXPYs’éloigne de

pour se rapprocher de

EXPYCALYFULY

(très biaisé)

(sans biais)

diminuantFULEXP

CALEXP

YY

YYˆˆ

ˆˆ1biaisduratio

Pour r et s fixés :

La tendance lorsque x devient plus puissant :

OO

L’intuition nous dit : plus il y a du maléquilibre, plus il faudra ajuster les estimations. C’est ainsi.

.

.

Ajustement standardisé :

y

CALEXP

SN

YYStAdj

ˆˆ

Sy = écart-type de y, calculé sur la réponse r

ou IMB est le maléquilibre

Ry,x et RDC des coefficients de corrélation

y

CALEXP

SN

YYStAdj

ˆ

ˆˆ

CDy RRIMB ,, x

Une analyse montre que StAdj se décompose en 3 facteurs :

.

L’importance de l’ajustement dépend (en partie) du maléquilibre IMB subsistant encore malgré les efforts de l’équilibrage au stade collecte)

Pas de maléquilibre pas d’ajustement

y

CALEXP

SN

YYStAdj

ˆ

ˆˆCDy RRIMB ,, x

1avonsNous , xyR 1; D,C

R

3.00souventet IMB

%82.08.05.0

yEXPCAL SN

Y

N

Y 08.0

ˆ

ˆ

ˆ

ˆ

StAdjex.Par

CDy RRIMBStAdj ,, x

OO

ajustement = 0.08 écarts-type

Estimation ajustée

Conclusion:

Comment « optimiser » le partage d’une quantité de variables x , entre les deux étapes, surveillance de la collecte et estimation.

Serait-ce possible ? .

.

.

Bibliographie

Groves, R.M. and Heeringa, S.G. (2006). Responsive design for household surveys: tools for actively controlling survey errors and costs. Journal of the Royal Statistical Society: Series A, 169.

Bethlehem, J., Cobben, F. and Schouten, B. (2011). Handbook of Nonresponse in Household Surveys. New York: Wiley.

Schouten, B., Cobben, F. and Bethlehem, J. (2009). Indicators for the representativeness of survey response. Survey Methodology, 35, 101-113.

Schouten, B., Shlomo, N. and Skinner, C. (2011). Indicators for monitoring and improving representativeness of response. Journal of Official Statistics, 27, 231-253.

Särndal, C.E. and Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York: Wiley.Särndal, C.E. (2011a). Dealing with Survey Nonresponse in Data Collection, in Estimation (Morris Hansen

lecture). Journal of Official Statistics, 27, 1-21.Särndal, C.E. (2011b). Three factors to signal nonresponse bias, with applications to categorical auxiliary

variables. International Statistical Review, 79, 233-254.Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design with applications to the Swedish Living

Conditions Survey. Report 2011:1, Statistics Sweden

Merci de votre attention

.