Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Les donnees manquantes en statistique
N. MEYER
Laboratoire de Biostatistique -Faculte de Medecine
Dep. Sante Publique CHU - STRASBOURG
Seminaire de Statistique - 7 novembre 2006
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Importance du probleme
Les donnees manquantes
Frequentes voire inevitables
Concernent toutes les bases de donnees (BDD)
... et toutes les variables de ces BDD.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Donnee manquante
Definition :Soit une variable aleatoire X quelconque. Une donnee manquante(DM) xm est une donnee pour laquelle la valeur X = x estinconnue. On ne dispose pas de la valeur de X pour le sujet i .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Classification methodologique des DM
Origine materielle des DM :
La valeur de xi n’a pas ete mesuree (oubli...)
la valeur mesuree mais perdue ou pas ete notee
la valeur mesuree, note consideree comme non utilisable :donnees jugees aberrantes et erreurs manifeste
la donnee mesuree mais pas disponible : (( Ne Sait Pas ))
censure (1) la valeur < ou > limites de detection de l’outil
censure (2) des etudes de survie : a part
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Classification par rapport a l’unite statistique
Typologie des DM par rapports aux unites statistiquesLa donnee est manquante en raison de :
non reponse de l’unite statistique : aucune mesure n’estobtenue pour l’unite statistique
non reponse pour l’item : seule manque la mesure sur lavariable X consideree.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Un exemple sur une variable
variable X , n-echantillon dont m valeurs manquantes
↘ taille de l’echantillon de n a n −m = np , de m/n %
on peut estimer m et s2 sur les n −m presents
valide que si np valeurs sous-echantillon aleatoire des nle fait d’etre manquant ne depend pas de la valeur(manquante)
Pr(xi : ∗) = p,∀i .sinon il y a un biais
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Effet des manquants : Un exemple (1)
BiaisPerte de Puissance
on tire 1000 valeurs d’une v.a. gaussienne centree reduite
on verifie sa moyenne et sa variance et on trace l’histogrammedes valeurs
on supprime aleatoirement 250 valeurs sur l’ensemble desvaleurs du vecteur
on verifie que la moyenne et la variance du sous-echantillonsont proches des valeurs de l’echantillon de depart
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Effet des manquants : Un exemple (2)
On retire ensuite des valeurs surtout dans les valeurs basses del’echantillon : on retire 225 valeurs parmi les valeurs basses et25 parmi les valeurs hautes.
on calcule la moyenne et la variance de l’echantillon et ontrace son histogramme. On verifie que les estimations desparametres sont biaises.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
la forme de la distribution obervee sur les donnees completesn’est pas forcement la forme de la distribution complete.
en presence de donnees manquantes : biais ? importance ?
la distribution observee sur le sous-echantillon complet est-ellerepresentative de la forme de la distribution dans lapopulation ?
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Autres exemple
Voir simulations sur R.modifications des parametres selon les manquants.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Situation bivariee : Les elements
Soit deux V.A. X et Y , n realisations.
X est completement observee
Y comporte des valeurs manquantes.
les deux V.A. X et Y soit qualitative soit quantitative sansperte de generalite.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Situation bivariee
sujet X Y
1 x1 y1
. . . . . . . . .ii xi yi
. . . . . . . . .i + 1 xi+1 *. . . . . . . . .n xn *
Tab.: Tableau pour la classification de LR
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Les trois cas possibles
(1) La probabilite d’avoir une valeur manquante est independantede X et de Y
Pr(D : Mqt |obs,mqt) = Pr(D : Mqt)
(2) La probabilite d’avoir une valeur manquante depend de Xmais pas de Y
Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs)
(3) La probabilite d’avoir une valeur manquante depend de X etde Y
Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs,mqt)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Premier cas
La probabilite d’avoir une valeur manquante est independante de Xet de Y
les valeurs manquantes sont Manquantes AleatoirementMissing at random : MAR
les donnees observees sont Observees AleatoirementObserved at random : OAR
↪→ les donnees sont manquantes completement aleatoirementMissing Completely at Random : MCAR
les valeurs Y observees : sous-echantillon aleatoire de Y
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Deuxieme cas
La probabilite d’avoir une valeur manquante depend de X mais pasde Y
on dit que le donnees sont manquantes aleatoirementMissing at Random : MAR
les valeurs observees de Y ne sont pas forcement unsous-echantillon aleatoire des valeurs echantillonnees de Ymais elles sont un sous-echantillon aleatoire de Y dans dessous-classes definies par les valeurs de X .
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Troisieme cas
La probabilite d’avoir une valeur manquante depend de X et de Y
les valeurs ne sont ni manquantes aleatoirement (non MAR)
ni obervees aleatoirement (non OAR)
les donnees sont manquants non aleatoire : M Not AR(MNAR)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
voir exemples de manquants selon X et Y dans R.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Consequences
cas MCAR et MAR le mecanisme des manquants peut etreignore pour les methodes d’inference basees sur lavraisemblance.
Dans le cas MCAR, il peut-etre ignore a la fois pour lesapproches basees sur la vraisemblance et pour les approchesbasees sur l’echantillonage.
Dans le cas MCAR le mecanisme ne peut pas etre ignore.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Quelques exemples classiques
le revenu ou le fait de payer des impot est une informationdont la frequence de reponse varie avec le niveau du revenu oule fait ou non de payer des impots.
les aidants des personnes agees dependantes, pour savoir si lapersonne aidee represente une charge, la presence d’unereponse depend de la valeur de la reponse
consommation d’alcool est souvent d’autant plus minimiseeque cette consommation est forte.
dans les dossiers medicaux, la probabilite qu’un symptomenegatif soit note est plus faible que la probabilite qu’unsymptome positif soit note.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Encore des exemples
Soit deux V.A. continues, une est sujette a non-reponse. Lavariable X completement observee est l’age et la variable Yincompletement observee est le revenu.Si la probabilite que le revenu soit manquant est independante del’age et du revenu du sujet, alors les donnees sont de type MCAR(OAR + MAR).
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Encore des exemples
Si la probabilite que le revenu soit manquant depend de l’age de lapersonne interrogee mais pas de son revenu, alors les DM sontmanquantes aleatoirement (ne dependent pas du revenu) mais ellesne sont pas observees aleatoirement (dependent de l’age) : ellessont donc de type MAR.Si la probabilite que le revenu soit manquant depend de l’age de lapersonne et de son revenu, les DM ne sont pas manquantesaleatoirement (dependent du revenu) et ne sont pas observeesaleatoirement (dependent de l’age) : elles sont donc de typeMNAR.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
L’interet de cette classification
Prendre en compte le mecanisme des manquants dansl’analyse.
Si on s’interesse uniquement a la distribution marginale de X(l’age), les donnees de Y et le mecanisme des manquants n’aaucune importance.
Si on souhaite avoir une estimation conditionnelle de la valeurde Y sachant X (par exemple la repartition des revenus enfonction de l’age), alors l’analyse sur les n −m valeurscompletes est satisfaisante si les donnees sont MAR ou si ellessont MCAR.
Si on s’interesse a la distribution marginale de Y (moyennedes revenus), alors une analyse basee sur les unites completesest biaisee sauf si les donnees sont de type MCAR.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
Si donnees MNAR, les estimations portant sur la distributionmarginale de Y et sur la distribution conditionnelle de Y sachantX sont biaisees et necessitent une modelisation des valeursmanquantes. Dans les autres cas, la modelisation n’est pasnecessaire meme si des methodes adaptees a l’analyse statistiqueen presence de DM doivent etre utilisees.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Classification methodologique des DMEffet des manquantsClassification de Little et Rubin
reprendre les exemples sur l’impact des manquants dans R.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Methode d’analyse
methode du cas complet
X deux V.A. X1 et X2, n-echantillon.
m1 et m2 valeurs mqt. sur X1 et X2.
Le nombre m de sujets ayant au moins une donnee manquante
max (m1,m2) ≤ m ≤ m1 + m2
Le nombre nc de sujets complets est egale a n −m.
Donc en general nc < nombre de sujets complets pour X1 oupour X2 et :
la plupart du temps on perd plus de valeurs que le nombre reelde valeurs manquantes
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
methode du cas complet : avantages
facilite les comparaisons entre analyses uni- et multivariees
si on retire les memes sujets d’une analyse a l’autre
pas-a-pas ascendants : differents si logiciel ou fait soi-meme
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Methode du cas complet : inconvenients
biais
perte de puissance
perte de cas rapidement considerable
si 10 variables avec 10% de manquants
0, 910 cas complets = 34,8%
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Methode du cas disponible
on utilise pour chaque sous-analyse l’ensemble des cascomplets
avantage : nb max de sujets a chaque analyse
inconvenients : nb variables d’une analyse a l’autre
Y = α1 + βX1 et Y = α1 + βX2
portent sur des sujets differents
ACP : matrice de covariance mal conformee
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Les methodes d’imputation
methodes tres nombreuses
consiste a substituer une valeur a la valeur manquante.
methodes (( seduisantes et dangereuses )) (Rubin)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Les methodes simples
(... et mauvaises)
LOCF : Last Observation Caried Forward
ajouter une categorie pour les DM
moyenne non conditionnelle
moyenne conditionnelle (Buck) (par bloc ou pas)
imputation + alea
simples mais inconvenients +++ / overfitting /ad hoc
estimations d’IC tres difficiles
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Les methodes dans les enquetes
cold deck : source exterieur, limites + + +
hot deck
substitution : tirage au sort d’une nouvelle unite
difficile si stratification a posteriori
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Methodes basees sur une enumeration des possibilites
Pour des donnees qualitatives + + : table 1ou2× 2enumerer toute les solutions possibles (liste de p)
etude de sensibilite : enumerer toute les possibilites dans ungraphique, methode de Shadish
enumerer et combiner : faire une hypothese sur la repartitiondes DM
on fixe θ = θm
pour chaque combinaison de manquants, queues dedistribution (Fisher)
on combine les resultats pour avoir une inference globale
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Etude de sensibilite : Shadish
Stent: % of missing allocated to good outcome (n=24)
Ang
iopl
asty
: % o
f mis
sing
allo
cate
d to
goo
d ou
tcom
e (n
=30
)
0 20 40 60 80 100
020
4060
8010
0
Extreme favouring S
Extreme favouring A All allocated to good
All allocated to poor
Significant difference (p<0.05)
No significant difference (p>0.05)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Methode de Delucchi
Pour des donnees qualitatives : table 2× 2si on a m valeurs manquantes dans l’une des deux variables
on peut imputer les valeurs de m + 1 manieres
ce qui donne m + 1 tests
a partir desquels on conclut
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Methode de NM : Delucchi pondere
Pour des donnees qualitatives : table 2× 2, test de Fisher
si on a m valeurs manquantes dans l’une des deux variables
on peut imputer les valeurs de m + 1 manieres
avec proba de chaque configuration sous parametre θ
ce qui donne m + 1 tests de Fisher pondere
on conclut par un test pondere par la Pr(configurationm)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Maximisation de la vraisemblance
Marche bien pour MAR, moins pour MCAR et pas pour MNARVoir exemple dans feuille Excel pour une proportion et une table2× 2
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Solutions a part
litterature + + + ad hoc + + +
algorithme NIPALS voir modeles PLS
qui suppose quand meme des hypotheses fortes sur les DM
! ne pas avoir de DM ! !
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
L’Imputation Multiple : la star !
l’imputation simple est unique
la donnee imputee est considere comme une donnee observee
ne tient pas compte de l’incertitude sup. liee aux manquants
d’ou l’idee de faire plusieurs imputations differentes
on substitue plusieurs valeurs a chaque DM
on analyse en tenant compte de cette multiplicite
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Les etapes d’une imputation multiple
on analyse la matrice des donnees pour en deduire un modelepour les DM
on realise entre M = 3 et 10 imputations
pour obtenir 3 a 10 jeux de donnees completes
on calcule le parametre d’interet pour chaque jeu
on combine les M imputations pour avoir une inferencequi tienne compte de l’incertitude supplementaire liee aux DM
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Formules pour l’IM M estimations ponctuelles pour le vecteur deparametre θ.Si gaussien, moyenne et ecart-type :
Q (t) = Q(Yobs ,Y(t)miss), t = 1, . . . ,m
etU (t) = U (t)(Yobs ,Y
(t)miss), t = 1, . . . ,m
On calcule ensuite :
Q =1m
m∑t=1
Q (t)
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Formules pour l’IM (suite)
La Var. globale a deux composantes :(1) variance intra-imputation
U =1m
m∑t=1
U (t)
(2) La variance inter-imputation vaut :
B =1
m − 1
m∑t=1
(Q (t) − Q)2
La variance totale vaut :
T = U + (1 + m−1)B
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Formules pour l’IM (suite)
A partir de ces equations, on peut realiser des tests :
Q − Q√T 2
; tν
avec :
ν = (m − 1)[1 +
U(1 + m−1)B
]2
→ intervalles de confiances.Ces statistiques tiennent compte de l’incertitude suppl. liees auxDM.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Exemple : voir feuille Excel
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
L’IM : avantages
souple + +
donne des resultats valides
robuste aux ecarts de specification du modele
M peut etre faible : 3, 5, pas plus de 10.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
L’IM : inconvenients (limites)
⇒ le recours a des logiciels
repose sur le modele (mais les autres methodes aussi)
si les effectifs sont faibles → variantes particulieres
Par ailleurs
aspects bayesiens → utiliser WinBUGS
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
La solution bayesienne
Les donnees manquantes sont issues d’une distribution a priori
souplesse + + +
⇒ faire des hypotheses sur les DM
mais toute les methodes en font
similitudes avec les donnees aberrantes
voir exemple de prog. Bugs de NM.
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple
Les logiciels
MINITAB : rien pour les DM
SPSS : module mais pas dans la base
SAS : differentes fonctions + PROC MI
S+ / R : CAT,MIX, NORM
A part : SIMCA : cartographie des manquants / R
WinBUGS
N. MEYER Donnees manquantes
IntroductionDefinitions
Les methodes d’analyseConclusion
Conclusion
DM : un probleme sans vraie solution
il faut toujours faire des hypotheses
ou faire une etude de sensibilite
qui ne conclut pas
le mieux : IM
encore mieux : bayesien
encore encore mieux : ne pas avoir de DM
N. MEYER Donnees manquantes