86
Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université d’Örebro Statistique Suède 2012-11-06 7e Colloque francophone sur les sondages Rennes , 2012

Carl-Erik Särndal Université d’Örebro Statistique Suède

Embed Size (px)

DESCRIPTION

Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse. Carl-Erik Särndal Université d’Örebro Statistique Suède. 7e Colloque francophone sur les sondages Rennes , 2012. 2012-11-06. Face à la non-réponse : - PowerPoint PPT Presentation

Citation preview

Page 1: Carl-Erik Särndal Université d’Örebro Statistique Suède

Réponse équilibrée et ajustement des estimations:

Deux étapes dans le traitement de la non-réponse

Carl-Erik Särndal

Université d’Örebro

Statistique Suède

2012-11-06

7e Colloque francophone sur les sondagesRennes , 2012

Page 2: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Face à la non-réponse :

deux types d’activités

(a) au « stade collecte (des données) »

(b) au « stade estimation », collecte ayant été terminée

Les étapes (a) et (b) ne sont pas indépendantes . Nous examinerons les deux, et leur interaction

Page 3: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

• Collecte des données: Évolue sur une période de temps (des jours, semaines). Aspect dynamique. Objectif: obtenir à la fin un ensemble de répondants bien équilibré

• Estimation: Objectif: Ajustement pour réduire le biais qui affecte néanmoins les estimations (malgré un certain équilibrage).

Page 4: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

• Collecte des données• Estimation

Les deux activités dépendent intégralement de l’accès aux variables auxiliaires

Plus on en a, mieux c’est

En Scandinavie, on est bien équipé

Page 5: Carl-Erik Särndal Université d’Örebro Statistique Suède

Les idées pour cette présentation

Collecte adaptive (Responsive design, USA, Canada) Europe:

Statistics Netherlands (projet RISQ; représentativité) Statistics Sweden (réponse équilibrée) : projet en collaboration avec Peter Lundquist

Page 6: Carl-Erik Särndal Université d’Örebro Statistique Suède

Points de départ:

Les variables d’intérêt (variables y) : affectées par une non-réponse non-aléatoire (même conditionnellement sur vecteur auxiliaire x)

• Estimations plus ou moins baisées• Le biais ne sera jamais entièrement éliminé• La non-réponse ignorable (MAR) n’existe pas.

Page 7: Carl-Erik Särndal Université d’Örebro Statistique Suède

Points de départ:

Les variables auxiliaires (variables x) jouent un rôle primordial. Connues pour les unités de l’échantillon s (répondants et non-répondants), peut-être pour toute la population

Vecteur x multivarié

Page 8: Carl-Erik Särndal Université d’Örebro Statistique Suède

Points de départ: En Scandinavie, aux Pays-Bas et de plus en plus ailleurs

Une multitude de variables auxiliaires disponibles ,

surtout pour les enquêtes sur ménages et individus :

Sources : Les registres administratifs

Nécessité de choisir “les meilleures”.

Page 9: Carl-Erik Särndal Université d’Örebro Statistique Suède

Exemple, Suède :

• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Périodes sans emploi• Urbain/rural• Occupation et beaucoup d’autres

Enquête sur ménages et individus, parmi les variables auxiliaires potentielles:

Page 10: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Je vous présente une théorie pour ce qui est pour nous, en Scandinavie, une réalité,

chez vous, c’est peut-être différent …

Page 11: Carl-Erik Särndal Université d’Örebro Statistique Suède

Les étapes de ma présentation

1. La notion de maléquilibre (ang.: imbalance) 2. Stade collecte : surveiller et intervenir 3. Partager le travail et les ressources :

collecte vis-à-vis estimation4. Stade estimation : réduction du biais

Page 12: Carl-Erik Särndal Université d’Örebro Statistique Suède

Population U = {1, …, k , ..., N}

Échantillon probabiliste s (s U)

1. La notion de mal-équilibre

.

Proba d’inclusion de l’unité k :

Poids d’échantillonnage de k :

kkd π/1

Page 13: Carl-Erik Särndal Université d’Örebro Statistique Suède

Population U = {1, …, k , ..., N} Échantillon probabiliste s Ensemble des répondants r r s U

Sélectionnés mais non-répondants: s – r

La non-réponse arrive

r s kk ddP /Taux de réponse

pondéré : dk = 1/k

Page 14: Carl-Erik Särndal Université d’Örebro Statistique Suède

La (les) variable(s) d’intérêt y

continue ou catégorique

Usrrkyk ;pourOn observe valeur

.

emploisans si1 kyk sinon0; ky

par exemple

Page 15: Carl-Erik Särndal Université d’Örebro Statistique Suède

r yd kk

k θ

1

Pondération désirable mais hypothétique

Y

Serait sans biais pour le total de y, mais inutilisable

proba de réponse k inconnu, tout unité k :

.

Page 16: Carl-Erik Särndal Université d’Örebro Statistique Suède

Introduisons

Les concepts d’équilibre et de distance reposant sur des variables auxiliaires

(Mais la variable d’intérêt yk pour k r seulement)

r s U

Vecteur auxiliaire xk de dimension J 1

connu k s, ou bien pour

tout k U

Page 17: Carl-Erik Särndal Université d’Örebro Statistique Suède

;

),,...,...,(:vecteurEn 1 Jj DDDD

jsjrj xxD

moyennerépondants

Contraster les répondants avec l’échantillon entier

Pour la variable xj , calculer

moyenneéchantillon entier

Page 18: Carl-Erik Särndal Université d’Örebro Statistique Suède

sr xxD

;

Comparer répondants avec l’échantillon entier

Le vecteur des différences , dim. J 1

r kr kkr dd /xx

s ks kks dd /; xx

pondéré : dk = 1/k

Page 19: Carl-Erik Särndal Université d’Örebro Statistique Suède

Répondants égaux (en moyenne) à l’échantillon tout entier

Réponse équilibrée :

0xxD

nechantillorepondantssr

Désirable, mais difficile à réaliser entièrement

Objectif pour la collecte : un niveau d’équilibre élevé

néanmoins, au stade estimation, un ajustement s’impose

.

Page 20: Carl-Erik Särndal Université d’Örebro Statistique Suède

: réponse mal équilibrée

D étant vectoriel, on forme une mesure uni-variée du maléquilibre (ang: imbalance)

s ks kkks dd /xxΣ

DΣD 1 s )()( 1srssr xxΣxx

,

Matrice J J de pondération, non-singulier :

0xxD sr,tNormalemen

Page 21: Carl-Erik Särndal Université d’Örebro Statistique Suède

Exemple, la Suède :

• Pays d’origine• Revenu• Age• Sexe• Statut civil• Région• Taille de ménage• Période(s) sans emploi• Urbain/rural• Occupation

Vecteur x composé de :

dimension souvent 40 ou plus

Page 22: Carl-Erik Särndal Université d’Örebro Statistique Suède

Notation :

IMB = imbalance = maléquilibre

DΣD 1 sIMB

IMB est une mesure descriptive - parmi d’autres également possibles -

de l’ensemble r des répondants, tel qu’il se présente à un certain moment

de la collecte des données.

.

)()( 1srssr xxΣxx

Page 23: Carl-Erik Särndal Université d’Örebro Statistique Suède

Remarquer :

dépend de

(i) la composition du vecteur auxiliaire xk

(ii) la composition de r , étant donné s

DΣD 1 sIMB

),( srIMB kx serait notation plus complète

Mais par simplicité, utilisons IMB tout court

)()( 1srssr xxΣxx

Page 24: Carl-Erik Särndal Université d’Örebro Statistique Suède

Propriété : Pour réponse r et échantillon s fixés ,

ajouter plus de variables au vecteur x

fera augmenter IMB

Un vecteur x plus grand donne plus de maléquilibre, naturellement, car davantage de variables pour lesquelles les moyennes doivent concorder.

Le vecteur trivial xk = 1 donne IMB = 0

mais c’est un vecteur dépourvu d’intérêt

.

Page 25: Carl-Erik Särndal Université d’Örebro Statistique Suède

La pondération avec s

nous permet de poser une borne supérieure simple pour

le maléquilibre DΣD 1 sIMB

Page 26: Carl-Erik Särndal Université d’Örebro Statistique Suède

Pour toute réalisation (s, r) et vecteur xk ,

11

0 P

IMB

20% non-response : 0 IMB 0.25

50% non-response : 0 IMB 1

IMB n’est pas numériquement grand

Mais IMB = 0.20 indique maléquilibre considérable comparablement à IMB = 0 (équilibre parfait)

P = taux de réponse

Page 27: Carl-Erik Särndal Université d’Örebro Statistique Suède

La notion de distance

entre répondants r and non-répondants nr = s - r

Relation simple avec maléquilibre IMB :

2/11 )}(){( rsrsrsrnrrdist

xxΣxx

IMBP

dist nrr

1

1

P = taux de réponse

Page 28: Carl-Erik Särndal Université d’Örebro Statistique Suède

La distance

Par exemple, 40% non-réponse, et maléquilibre 16.0IMB

1 nrrdist

IMBP

dist nrr

1

1

Page 29: Carl-Erik Särndal Université d’Örebro Statistique Suède

)1(

1

PPdist nrr

peu importe r, s et choix de vecteur x

Par ex., non-réponse 50% dist 2

Pour nos données, dist rarement 0.5

mais varie selon le choix du vecteur x

Propritété :

Page 30: Carl-Erik Särndal Université d’Örebro Statistique Suède

2. Stade collecte: surveiller et intervenir(un aspect de « Responsive Design »)

Optique dynamique : Surveiller la collecte des données, vue en fonction du temps (les jours, les tentatives de contact);

Envisager des interventions ou altérations dans un plan original.

Page 31: Carl-Erik Särndal Université d’Örebro Statistique Suède

Surveiller et modifier la collecte

Optique dynamique : Une série d’ensembles de répondants emboités, fonctions du point temporel a

...... )()2()1( arrr

Pour simplicité r dénotera n’importe lequel de ces ensembles

Page 32: Carl-Erik Särndal Université d’Örebro Statistique Suède

Tirage aléatoire simple de personnes dans le registre de la population suédoise.Interviews par téléphone.Les tentatives de contact sont enregistrées par le dispositif WinDATINous analysons ici un sous-échantillon de taille 8,220

Exemple d’application:

Enquête sur les Conditions de Vie , Suède 2009

ECV2009

tributaire du EU-SILC

.

Page 33: Carl-Erik Särndal Université d’Örebro Statistique Suède

Tentatives de contact enregistrées par WinDATI.

Période collecte ordinaire: 3 semaines; pour beaucoup d’unités, > 30 tentatives; à la fin de cette période, taux de réponse P = 60.4 %

Période des suivis (follow-up), 3 semaines , taux de réponse ultime P = 67.4%

Enquête sur les conditions de vie, Suède 2009(ECV2009)

.

Page 34: Carl-Erik Särndal Université d’Örebro Statistique Suède

Collecte ordinaire> 30 tentatives pour bon nombre d’unités

Collecte suiviesouvent > 10 tentatives

Toutes ces tentatives … 53258, au total Est-que cela vaut la peine ? Fortement douteux.

.

Page 35: Carl-Erik Särndal Université d’Örebro Statistique Suède

)()( 1srssr xxΣxx

Pour le fichier ECV2009, calculonsle maléquilibre

et la distance rép/non-rép

DΣD 1sIMB

2/11 )}(){( rsrsrsrnrrdist

xxΣxx

IMBP

1

1

sur vecteur x = (educ owner origin); dim = 23 = 8

Page 36: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

3 variables binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)

x = (educ owner origin); dim = 2 2 2 = 8

Page 37: Carl-Erik Särndal Université d’Örebro Statistique Suède

Fichier ECV2009 tel quel

Tentative Taux rép.

100 Pdistr/nr

100 IMB

no.1 ordin 12.8 0.233 4.13

no. 5 ordin 44.3 0.310 2.99

no.12 ordin 57.7 0.394 2.78

Fin ordin 60.4 0.417 2.72

no. 1 fol-up 61.4 0.418 2.61

no.4 fol-up 64.6 0.435 2.37

Final 67.4 0.471 2.36

La distance augmente sans cesse. Comment est-ce possible ?

Page 38: Carl-Erik Särndal Université d’Örebro Statistique Suède

Fichier ECV2009 :

La distance augmente

de 0.310 tentative no. 5à 0.471 fin collecte

Répondants de moins en moins semblables aux non-répondants ...

C’est troublant …Mais dites-vous, cela dépend du vecteur x choisi …

IMBP

dist nrr

1

1

Page 39: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Durant la phase collecte, comment réduire le maléquilibre ?

Quelles interventions pouvons nous apporter à la collecte?

Quelles modifications dans un plan original, pour pouvoir terminer avec

un ensemble de répondants plus approprié?

Page 40: Carl-Erik Särndal Université d’Örebro Statistique Suède

Pour répondre à ces questions , il faudrait effectuer des expériences dans la collecte des données de la ECV.

.

Page 41: Carl-Erik Särndal Université d’Örebro Statistique Suède

Faute d’ expériences réelles, nous effectuons des “expériences rétrospectives” dans le fichier ECV2009

On considère la collecte terminée dans un sous-groupe ayant atteint un certain taux de réponse

comme 55% ou 60% ou 65%

Cela possible avec le fichier ECV2009

.

.

Page 42: Carl-Erik Särndal Université d’Örebro Statistique Suède

Ainsi, dans ces expériences, on rejette volontairement une partie des données du fichier ECV2009 (pour que le reste soit plus équilibré et avoir un IMB moindre)

.

.

Page 43: Carl-Erik Särndal Université d’Örebro Statistique Suède

Les groupes définis par le vecteur connu k s

x = (educ owner origin)de dimension = 2 2 2 = 8

On sait que ces groupes diffèrent dans leur disposition à répondre

ECV2009

.

Page 44: Carl-Erik Särndal Université d’Örebro Statistique Suède

Résultats d’une de ces expériences rétrospectives: Considérer collecte terminée dans un group ayant atteint un taux de réponse de 60%

les 23 = 8 groupes définis par le vecteurx = (educ owner origin)

ECV2009

.

Page 45: Carl-Erik Särndal Université d’Örebro Statistique Suède

Expérience rétrospective : collecte terminée dans un groupe si son taux réponse > 60%

Tentative Taux rép.

100 Pdistr/nr

100 IMB

7 ordin 50.9 0.357 3.07

8 ordin 52.5 0.353 2.81

9 ordin 53.8 0.341 2.49

15 ordin 56.0 0.287 1.59

3 fol-up 58.6 0.252 1.09

Final 58.9 0.220 0.82

La distance maintenant décroissante, comme on souhaite

Page 46: Carl-Erik Särndal Université d’Örebro Statistique Suède

Comparaison au point Final (collecte terminée)

Moins de réponses (58.9% vs. 67.4%) Mais distance très réduite (0.22 vs. 0.42)

.

ECV tel quel 67.4 2.36 0.417

Expérience 58.9 0.82 0.220(interventionpar groupes)

Taux rép.100 P 100 IMB distance

Page 47: Carl-Erik Särndal Université d’Örebro Statistique Suède

Non seulement économise-t-on sur le nombre de tentatives (réduction d’environ 15%)mais la distance diminue aussi (répondants et non-répondants plus semblables)

.

.

Page 48: Carl-Erik Särndal Université d’Örebro Statistique Suède

3. Collecte vis-à-vis estimation Comment partager les ressources ?

Quelle utilisation doit-on faire de l’information auxiliaire disponible?

Quand faut-il agir, et dans quelle mesure ?• stade collecte ou bien• stade estimation ou les deux ?

Page 49: Carl-Erik Särndal Université d’Örebro Statistique Suède

On se rend compte alors que les variables auxiliaires (nombreuses)

doivent être regroupés en deux catégories :

• Celles qu’on utilise lors du stade collecte, pour une surveillance• Celles qu’on utilise, la collecte terminée,

lors du stade estimation

Page 50: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Le vecteur surveillance xa

contient les variables x destinées à surveiller

et diriger la collecte de données,

pour s’assurer à la fin d’un ensemble de répondants bien équilibré, qui

ressemble fortement à l’échantillon probabiliste s.

Page 51: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

D’autres variables auxiliaires, quoique disponibles, demeurent inactives lors de la collecte ;

Ce vecteur supplémentaire xb

prend de l’importance au stade estimation

pour calculer les poids de calage.

Page 52: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

C’est un fait : Certaines unités faciles à rejoindre ou à faire participer,

d’autres plus dures, et cela dépendamment de leurs caractéristiques

observables (leurs données auxiliaires)

.

Page 53: Carl-Erik Särndal Université d’Örebro Statistique Suède

.Le contexte dynamique:

A tout point de la collecte, toute unité k s est caractérisée par son

Intensité de réponse (ang.: Response Propensity)

par rapport au vecteur surveillance choisi xa

s s akakakkakkkak dIdP xxxx 1)()(ˆ

Interprétation : Régression de l’indicateur de réponse Ik = 1 si réponse ; 0 sinon, sur xak

Page 54: Carl-Erik Särndal Université d’Örebro Statistique Suède

Intensité de réponse

Peut se calculer à n’importe quel point de la collecte, pour k s

sak

ks k P

Pd

d2

2

)1ˆ

(1

:)variationde(coeffrelativevariance

s s akakakkakkkak dIdP xxxx 1)()(ˆ

Pd

d

d

PdP

s k

r k

s k

s akkas

ˆ

ˆ:moyenne

P étant le taux de réponse réussi à ce point de la collecte

Page 55: Carl-Erik Särndal Université d’Örebro Statistique Suède

où IMBa est le mal-équilibre de xa

c’est-à-dire la valeur de

calculée sur x = xa

On découvre une relation entre maléquilibre et

intensité de réponse

s s akakakkakkkak dIdP xxxx 1)()(ˆ

)()( 1srssrIMB xxΣxx

aak IMBP )ˆ(variationde coeff.

.

Page 56: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

La relation :

entre intensité de réponse et maléquilibre est logique :

Plus les intensités de réponse varient, plus il doit y avoir maléquilibre,

à un moment donné de la collecte.

.

aak IMBP )ˆ(variationcoeff

Page 57: Carl-Erik Särndal Université d’Örebro Statistique Suède

Note mathématique: Nous considérons ici la famille de

vecteurs x tels que :

On peut spécifier vecteur tel que

)1,....,1,1(prendre

skk allfor1xμ

)0,1(prendre,),1(Si kk xx

)0,...,1,...,0(Si kx

La majorité des vecteurs d’importance sont de cette espèce, par exemple

OO

Page 58: Carl-Erik Särndal Université d’Örebro Statistique Suède

Disponible pour ECV2009 :

multitude variables auxiliaires potentielles

Prenons un exemple

Retour à l’Enquête Conditions de Vie, Suède (ECV2009)

.

Page 59: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Exemple : On a retenu les variables auxiliaires suivantes (toutes catégoriques) :

.

Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)

Par 4 groupes :Age

Page 60: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

))(( SexeCivilAgePhoneOriginOwnEduc x

Préalablement analyser le fichier ECV2009 tel quel, pour maléquilibre et distance ,avec le vecteur (de toutes les variables de la liste)

.

.

dim(x) = 23+ 1 + (4 – 1) + 1 + 1 = 14

Page 61: Carl-Erik Särndal Université d’Örebro Statistique Suède

Fichier ECV2009 tel quel (aucune intervention)

TentativeTaux rép.

100×Pdistr|nr 100×IMB

8 ordinaire 53.0 0.515 5.85

Fin ordin. 60.4 0.552 4.79

3 follow-up 63.8 0.581 4.43

Final 67.4 0.623 4.14

La distance rép/non-rép augmente sans cesse

))(( SexeCivilAgePhoneOriginOwnEduc x

Page 62: Carl-Erik Särndal Université d’Örebro Statistique Suède

Faire mieux: Expériences rétrospectives

Préciser un vecteur xa de surveillance pour

effectuer des interventions « après coup » dans ECV2009 :

Considérer les tentatives de contact terminées

pour des unités « ne valant plus la peine d’être poursuivies »

Page 63: Carl-Erik Särndal Université d’Örebro Statistique Suède

Procédure

Arrêter les efforts de contact pour les unités ayant intensité élevée.

Du coup, quand on continue avec celles qui restent, ils vont successivement atteindre une intensité de réponse plus élevée.

akP

Page 64: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

.

.

Vecteur de surveillance : Comment le choisir ?

Options :• Affecter toutes les variables de la liste

au vecteur xa de surveillance

• Affecter une partie des variables à la surveillance, laisser les autres pour l’estimation

Page 65: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Liste des variables auxiliaires retenues :

.

Binaires :Éduc (élevée ou non)Own (propriétaire ou non)Origine (suédois ou non)Phone (téléphone ou non)Civil (marié ou non)Sexe (homme ou femme)

Par 4 groupes :Age

Page 66: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

.

))(( SexeCivilAgePhoneOriginOwnerEduca x

Dim(xa ) = 23+1 + 3 + 1 + 1 = 14

Nombre de valeurs possibles de xa = nombre de

propriétés reconnues chez les unités = 256

Affecter toutes les variables à la surveillance

1bx

Page 67: Carl-Erik Särndal Université d’Örebro Statistique Suède

Procédure

A chacun de J points définis à l’avance, mettre de côté (ne plus poursuivre) une partie, 1/(J+1), des unités,

celles ayant des valeurs élevées de l’intensité akP

OO

Page 68: Carl-Erik Särndal Université d’Örebro Statistique Suède

xa de dim.14 (toutes les var. x) , aucun xb

TentativeTaux rép.

100×Pdistr|nr

100×

IMBa 

8 ordinaire 53.0 0.515 5.85  

Fin ordin. 58.6 0.473 3.85  

3 follow-up 60.0 0.446 3.18  

Final 60.5 0.418 2.72  

Reduction du nombre de tentatives : 16.1%

Distance diminue ; bon signe.

Page 69: Carl-Erik Särndal Université d’Örebro Statistique Suède

Alternativement,affecter seulement une partie des variables

à la surveillance ; retenir les autres pour l’estimation (inactives au stade collecte)

82dim);( 3 OriginOwnEducax

.

7dim);( SexeCivilAgePhonebx

.

Conséquence : IMB et distr/nr plus élevés,

comparativement à la surveillance sur toutes les variables x de la liste.

Page 70: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Donnéesfinales

taux rép. 100P

distr/nr IMBab

ECV2009tel quel; aucunesurveillance

67.4 0.623 4.14

Surveiller

sur une partie xa

de dim 8

60.8 0.513 3.45

Surveillersur toutes

xa de dim 14

60.5 0.418 2.72

.

Comparaison, 3 différentes collectes de données

Surveillance plus serrée distance diminue

Page 71: Carl-Erik Särndal Université d’Örebro Statistique Suède

Donnéesfinales

IMBab

(total)

IMBb

(marg)

IMBa/b

(cond)ECV2009tel quel ; aucunesurveillance

4.14 2.77 1.37

Surveillersur une partie

xa de dim 8

3.45 3.04 0.41

Surveillersur toutes

xa de dim 14

2.72 2.17 0.55

.

Maléquilibre total, marginal , conditionnel

)( SexeCivilAgePhoneb x

Page 72: Carl-Erik Särndal Université d’Örebro Statistique Suède

4. Stade estimation : ajustement pour non-réponse

yk disponible k r seulement

La situation est changée : r est désormais fixé plus possible d’améliorer sa composition ; faut l’accepter tel quel pour l’estimation

Objectif: Construire un vecteur x puissant

r s Uréponse échantillon population

Page 73: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Disponible : Liste de variables auxiliaires (nombreux)

Objectif: construire un vecteur x pour un calcul des poids de calage

réduire autant que possible le biais des estimations

car il y en a, malgré un certain équilibrage lors du collecte des données

Page 74: Carl-Erik Särndal Université d’Örebro Statistique Suède

Comment choisir, dans une manière « stepwise » ou autrement, les variables x à retenir ?

« Prendre les meilleurs d'abord » est une solution.

Les variables y sont nombreuses, ce qui complique le choix des variables x . Celles qui sont bonnes pour une certaine y ne l’est peut-être pas pour les autres.

Pour la théorie nous examinons une seule variable y.

OO

Page 75: Carl-Erik Särndal Université d’Örebro Statistique Suède

U s r population échantillon répondants

yk observé k r seulement

Estimateurs de

r kkkCAL ymdY par calage; moins biaisé

s kkFUL ydY sans biais mais irréalisable

par expansion; tres biaisédrs kEXP ydY ;)(ˆ

U kyY

Page 76: Carl-Erik Särndal Université d’Örebro Statistique Suède

r kkk ymdCALY

Estimateur calage de

avec poids de calage

Propriété calage des poids dkmk

colonnerangee

xxxx ks r kkkkkk ddm

1))(

s kkr kkk dmd xx

U kyY

Page 77: Carl-Erik Särndal Université d’Örebro Statistique Suède

0 FULY

Quand xk devient plus puissant, étant donne r et s :

ajustement

EXPCAL YY ˆˆ

CALEXP YY ˆˆ

EXPY

.

Ajustement

s’éloigne de l’estimation rudimentaire CALY

grandit

Page 78: Carl-Erik Särndal Université d’Örebro Statistique Suède

0

FULY

CALYEXPYs’éloigne de

pour se rapprocher de

EXPYCALYFULY

(très biaisé)

(sans biais)

diminuantFULEXP

CALEXP

YY

YYˆˆ

ˆˆ1biaisduratio

Pour r et s fixés :

La tendance lorsque x devient plus puissant :

OO

Page 79: Carl-Erik Särndal Université d’Örebro Statistique Suède

L’intuition nous dit : plus il y a du maléquilibre, plus il faudra ajuster les estimations. C’est ainsi.

.

.

Page 80: Carl-Erik Särndal Université d’Örebro Statistique Suède

Ajustement standardisé :

y

CALEXP

SN

YYStAdj

ˆˆ

Sy = écart-type de y, calculé sur la réponse r

Page 81: Carl-Erik Särndal Université d’Örebro Statistique Suède

ou IMB est le maléquilibre

Ry,x et RDC des coefficients de corrélation

y

CALEXP

SN

YYStAdj

ˆ

ˆˆ

CDy RRIMB ,, x

Une analyse montre que StAdj se décompose en 3 facteurs :

Page 82: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

L’importance de l’ajustement dépend (en partie) du maléquilibre IMB subsistant encore malgré les efforts de l’équilibrage au stade collecte)

Pas de maléquilibre pas d’ajustement

y

CALEXP

SN

YYStAdj

ˆ

ˆˆCDy RRIMB ,, x

Page 83: Carl-Erik Särndal Université d’Örebro Statistique Suède

1avonsNous , xyR 1; D,C

R

3.00souventet IMB

%82.08.05.0

yEXPCAL SN

Y

N

Y 08.0

ˆ

ˆ

ˆ

ˆ

StAdjex.Par

CDy RRIMBStAdj ,, x

OO

ajustement = 0.08 écarts-type

Estimation ajustée

Page 84: Carl-Erik Särndal Université d’Örebro Statistique Suède

Conclusion:

Comment « optimiser » le partage d’une quantité de variables x , entre les deux étapes, surveillance de la collecte et estimation.

Serait-ce possible ? .

.

Page 85: Carl-Erik Särndal Université d’Örebro Statistique Suède

.

Bibliographie

Groves, R.M. and Heeringa, S.G. (2006). Responsive design for household surveys: tools for actively controlling survey errors and costs. Journal of the Royal Statistical Society: Series A, 169.

Bethlehem, J., Cobben, F. and Schouten, B. (2011). Handbook of Nonresponse in Household Surveys. New York: Wiley.

Schouten, B., Cobben, F. and Bethlehem, J. (2009). Indicators for the representativeness of survey response. Survey Methodology, 35, 101-113.

Schouten, B., Shlomo, N. and Skinner, C. (2011). Indicators for monitoring and improving representativeness of response. Journal of Official Statistics, 27, 231-253.

Särndal, C.E. and Lundström, S. (2005). Estimation in Surveys with Nonresponse. New York: Wiley.Särndal, C.E. (2011a). Dealing with Survey Nonresponse in Data Collection, in Estimation (Morris Hansen

lecture). Journal of Official Statistics, 27, 1-21.Särndal, C.E. (2011b). Three factors to signal nonresponse bias, with applications to categorical auxiliary

variables. International Statistical Review, 79, 233-254.Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design with applications to the Swedish Living

Conditions Survey. Report 2011:1, Statistics Sweden

Page 86: Carl-Erik Särndal Université d’Örebro Statistique Suède

Merci de votre attention

.