25
Imputation ´ equilibr´ ee pour la non-r´ eponse en fromage suisse Audrey-Anne Vall´ ee et Yves Till´ e Universit´ e de Neuchˆ atel Journ´ ees de m´ ethodologie statistique de l’Insee 14 juin 2018 Paris

Imputation équilibrée pour la non-réponse en fromage suisse

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Imputation équilibrée pour la non-réponse en fromage suisse

Imputation equilibree pour la non-reponse enfromage suisse

Audrey-Anne Valleeet

Yves Tille

Universite de Neuchatel

Journees de methodologie statistique de l’Insee14 juin 2018

Paris

Page 2: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse partielleNon-reponse en fromage suisse

Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse

ContexteNon-reponse en fromage suisseExigences

Matrice de probabilites d’imputation

Matrice d’imputation

Imputation

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 1 / 19

Page 3: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse partielleNon-reponse en fromage suisse

Non-reponse partielle

I Une seule variable est sujette a la non-reponse.

Sexe Taille PoidsH 175 68F 160 55H 180 ?F 165 ?

I Toutes les variables de l’enquete sont sujettes a la non-reponse.

Sexe Taille Pt=1 Pt=2 Pt=3

H 175 68 67 68F 160 55 58 ?H 180 70 ? ?F 165 ? ? ?

Monotone

Sexe Taille PoidsH 175 68F 160 ?H ? 70? 165 ?

Non-Monotone

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 2 / 19

Page 4: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse partielleNon-reponse en fromage suisse

Non-reponse partielle

I Une seule variable est sujette a la non-reponse.

Sexe Taille PoidsH 175 68F 160 55H 180 ?F 165 ?

I Toutes les variables de l’enquete sont sujettes a la non-reponse.

Sexe Taille Pt=1 Pt=2 Pt=3

H 175 68 67 68F 160 55 58 ?H 180 70 ? ?F 165 ? ? ?

Monotone

Sexe Taille PoidsH 175 68F 160 ?H ? 70? 165 ?

Non-Monotone

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 2 / 19

Page 5: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse partielleNon-reponse en fromage suisse

Non-reponse en fromage suisse

Non-reponse en fromage suisse (non-monotone)

Toutes les variables d’une enquete contiennent des valeursmanquantes sans schema particulier.

Traitements

I Methodes d’imputation par donneur (Andridge et Little, 2010;Judkins, 1997).

I Methodes d’imputation iteratives: une sequence de modeles deregression entre les variables (Raghunathan et coll., 2001).

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 3 / 19

Page 6: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse partielleNon-reponse en fromage suisse

Non-reponse en fromage suisse

Proprietes souhaitees d’une methode d’imputationI Preserver les distributions des variables;I Preserver les relations entre les variables;I Imputer par des valeurs realistes.

Imputation equilibree par les K plus proches voisins (Hasler et Tille, 2016)

I Imputation pour une variable;I Methode par donneur (aleatoire);

– Variables continues et categorielles;– Qu’un donneur par non-repondant;

I Imputation par donneurs proches (voisins);I Echantillonnage equilibre;I Si les valeurs observees etaient imputees, les estimations des totaux imputes

et des totaux des valeurs connues devraient etre les memes.

→ Developpons cette methode pour la non-reponse en fromage suisse !

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 4 / 19

Page 7: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse partielleNon-reponse en fromage suisse

Non-reponse en fromage suisse

Proprietes souhaitees d’une methode d’imputationI Preserver les distributions des variables;I Preserver les relations entre les variables;I Imputer par des valeurs realistes.

Imputation equilibree par les K plus proches voisins (Hasler et Tille, 2016)

I Imputation pour une variable;I Methode par donneur (aleatoire);

– Variables continues et categorielles;– Qu’un donneur par non-repondant;

I Imputation par donneurs proches (voisins);I Echantillonnage equilibre;I Si les valeurs observees etaient imputees, les estimations des totaux imputes

et des totaux des valeurs connues devraient etre les memes.

→ Developpons cette methode pour la non-reponse en fromage suisse !

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 4 / 19

Page 8: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse partielleNon-reponse en fromage suisse

Non-reponse en fromage suisse

Proprietes souhaitees d’une methode d’imputationI Preserver les distributions des variables;I Preserver les relations entre les variables;I Imputer par des valeurs realistes.

Imputation equilibree par les K plus proches voisins (Hasler et Tille, 2016)

I Imputation pour une variable;I Methode par donneur (aleatoire);

– Variables continues et categorielles;– Qu’un donneur par non-repondant;

I Imputation par donneurs proches (voisins);I Echantillonnage equilibre;I Si les valeurs observees etaient imputees, les estimations des totaux imputes

et des totaux des valeurs connues devraient etre les memes.

→ Developpons cette methode pour la non-reponse en fromage suisse !

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 4 / 19

Page 9: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse en fromage suisseExigences

Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse

ContexteNon-reponse en fromage suisseExigences

Matrice de probabilites d’imputation

Matrice d’imputation

Imputation

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 5 / 19

Page 10: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse en fromage suisseExigences

Non-reponse en fromage suisse

I Population U de taille N.

I J variables d’interet,xk = (xk1, . . . , xkj , . . . , xkJ)>.

I Echantillon s de taille n.

I πk , probabilite d’inclusion de l’unite k .

I sr ⊂ s, nr unites completement observees.

I sm = s − sr , nm = n− nr unites avec valeursmanquantes.

I Non-reponse non monotone.

} nm

} nr

Variables1 2 3

1

...

k

...

n

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 6 / 19

Page 11: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Non-reponse en fromage suisseExigences

Exigences de la methode d’imputation

(i) Methode par donneur: choisir les donneurs parmi sr .

(ii) Un seul donneur par unite.

(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes.

(iv) Si les valeurs observees des non-repondants etaient imputees,l’estimateur du total de toutes les valeurs observees devraient resterinchanges.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 7 / 19

Page 12: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse

ContexteNon-reponse en fromage suisseExigences

Matrice de probabilites d’imputation

Matrice d’imputation

Imputation

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 8 / 19

Page 13: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice de probabilites d’imputation(i) Methode par donneur: choisir les donneurs parmi sr :

Matrice de probabilites d’imputation ψ = (ψik), ou (i , k) ∈ sr × sm.I ψik : probabilite que le repondant i donne ses valeurs au non-repondant

k;I ψik ≥ 0.

ψ =

ψ11 ψ12 ψ13

ψ21 ψ22 ψ23

ψ31 ψ32 ψ33

=

0 0.5 0.50.5 0.5 00.5 0 0.5

(ii) Un seul donneur par unite non-repondante:∑i∈sr

ψik = 1.

(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes:

ψik = 0 si i /∈ kpp(k)

ou kpp(`) = {j ∈ sr | rang(d(j , `)) ≤ K} et d(., .) est une fonction de distance.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 9 / 19

Page 14: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice de probabilites d’imputation

(i) Methode par donneur: choisir les donneurs parmi sr :Matrice de probabilites d’imputation ψ = (ψik), ou (i , k) ∈ sr × sm.

I ψik : probabilite que le repondant i donne ses valeurs au non-repondantk;

I ψik ≥ 0.

(ii) Un seul donneur par unite non-repondante:∑i∈sr

ψik = 1.

(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes:

ψik = 0 si i /∈ kpp(k)

ou kpp(`) = {j ∈ sr | rang(d(j , `)) ≤ K} et d(., .) est une fonction de distance.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 9 / 19

Page 15: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice de probabilites d’imputation

(i) Methode par donneur: choisir les donneurs parmi sr :Matrice de probabilites d’imputation ψ = (ψik), ou (i , k) ∈ sr × sm.

I ψik : probabilite que le repondant i donne ses valeurs au non-repondantk;

I ψik ≥ 0.

(ii) Un seul donneur par unite non-repondante:∑i∈sr

ψik = 1.

(iii) Donneur selectionne parmi les K plus proches voisins de l’unite avecdes valeurs manquantes:

ψik = 0 si i /∈ kpp(k)

ou kpp(`) = {j ∈ sr | rang(d(j , `)) ≤ K} et d(., .) est une fonction de distance.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 9 / 19

Page 16: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice de probabilites d’imputation

(iv) Si les valeurs observees des non-repondants etaient imputees,l’estimateur du total de toutes les valeurs observees devraient resterinchanges:Pour j = 1, . . . , J, ∑

k∈smdk rkj

∑i∈sr

ψikxij︸ ︷︷ ︸x∗kj

=∑k∈sm

dk rkjxkj ,

ou d` = 1/π` et r`j vaut 1 si l’unite ` a repondu a la variable j , 0 sinon.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 10 / 19

Page 17: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice de probabilites d’imputation

(iv) Pour j = 1, . . . , J,∑k∈sm

dk rkj∑i∈sr

ψikxij =∑k∈sm

dk rkjxkj .

Sexe Taille0 1751 1600 ?? 165

0 165

Sexe Taille0 1751 1600 1751 160

0 160

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 11 / 19

Page 18: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice de probabilites d’imputation

(iv) Pour j = 1, . . . , J, ∑k∈sm

dk rkj∑i∈sr

ψikxij =∑k∈sm

dk rkjxkj

∑i∈sr

( ∑k∈sm

dk rkjψik

)rijxij =

∑k∈sm

dk rkjxkj .

Algorithme: ψik calcules par calage:

Poids initiaux ψ0ik =

{1K si i ∈ kpp(k),

0 sinon.

Itererations : Caler, normaliser.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 12 / 19

Page 19: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse

ContexteNon-reponse en fromage suisseExigences

Matrice de probabilites d’imputation

Matrice d’imputation

Imputation

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 13 / 19

Page 20: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice d’imputation

Matrice de probabilites d’imputation

ψ =

0 0.5 0.50.5 0.5 00.5 0 0.5

Matrice d’imputation

φ =

0 1 11 0 00 0 0

I φik : 1 si l’unite i est choisie comme donneur pour l’unite k, 0 sinon.I Un seul donneur est par non-repondant,

∑i∈sr

φik = 1.

I Exigence (iv): donneurs doivent etre choisis de facon a respecter

∑k∈sm

∑i∈sr

φik dk rkjxij =∑k∈sm

∑i∈sr

ψik dk rkjxij

(=∑k∈sm

dk rkjxkj

).

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 14 / 19

Page 21: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Matrice d’imputation

Exigence (iv): donneurs doivent etre choisis de facon a respecter∑k∈sm

∑i∈sr

φik dk rkjxij =∑k∈sm

∑i∈sr

ψik dk rkjxij .

I Echantillonnage stratifie equilibre (Chauvet, 2009; Hasler et Tille, 2014);I nm strates (non-repondants) formees;I Un donneur est choisi par strate.I Probabilite d’inclusion utilisee dans l’echantillonnage stratifie equilibre estψik ;

I Variable d’equilibrage associee est ψik dk rkjxij .

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 15 / 19

Page 22: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Introduction - Non-reponse en fromage suisseNon-reponse partielleNon-reponse en fromage suisse

ContexteNon-reponse en fromage suisseExigences

Matrice de probabilites d’imputation

Matrice d’imputation

Imputation

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 16 / 19

Page 23: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Imputation

Valeur imputee: x∗kj =∑i∈sr

φikxij

Total impute: Xj =∑k∈sr

dkxkj +∑k∈sm

rkjdkxkj +∑k∈sm

(1− rkj)dkx∗kj

Variante deterministe: x∗kj =∑i∈sr

ψikxij .

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 17 / 19

Page 24: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Discussion

I Determination de K (pas trop grand).

I Methode pour variables qualitative/quantitatives.

I Possibilite de forcer ψik = 0 pour une raison quelconque.

I Modeles et principes.

I Programme en R.

I Estimation de la variance.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 18 / 19

Page 25: Imputation équilibrée pour la non-réponse en fromage suisse

Introduction - Non-reponse en fromage suisseContexte

Matrice de probabilites d’imputationMatrice d’imputation

Imputation

Andridge, R. R. et Little, R. J. A. (2010). A review of dot deck imputation for surveynon-response. International Statistical Review, 78, 40–64.

Chauvet, G. (2009). Stratified balanced sampling. Survey Methodology, 35, 115–119.

Hasler, C. et Tille, Y. (2014). Fast balanced sampling for highly stratified population.Computational Statistics and Data Analysis, 74, 81–94.

Hasler, C. et Tille, Y. (2016). Balanced k-nearest neighbor imputation. Statistics,105, 11–23.

Judkins, D. R. (1997). Imputing for Swiss cheese patterns of missing data. InProceedings of Statistics Canada Symposium, 97. Statistics Canada.

Raghunathan, T. E., Lepkowski, J. M., van Hoewyk, J. et Solenberger, P. W. (2001).A multivariate technique for multiply imputing missing values using a sequence ofregression models. Survey Methodology, 27, 85–95.

Audrey-Anne Vallee et Yves Tille Inputation equilibree pour fromage suisse 19 / 19