48
Les donn´ ees manquantes en statistique N. MEYER Laboratoire de Biostatistique -Facult´ e de M´ edecine ep. Sant´ e Publique CHU - STRASBOURG eminaire de Statistique - 7 novembre 2006 N. MEYER Donn´ ees manquantes

Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

Les donnees manquantes en statistique

N. MEYER

Laboratoire de Biostatistique -Faculte de Medecine

Dep. Sante Publique CHU - STRASBOURG

Seminaire de Statistique - 7 novembre 2006

N. MEYER Donnees manquantes

Page 2: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Importance du probleme

Les donnees manquantes

Frequentes voire inevitables

Concernent toutes les bases de donnees (BDD)

... et toutes les variables de ces BDD.

N. MEYER Donnees manquantes

Page 3: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Donnee manquante

Definition :Soit une variable aleatoire X quelconque. Une donnee manquante(DM) xm est une donnee pour laquelle la valeur X = x estinconnue. On ne dispose pas de la valeur de X pour le sujet i .

N. MEYER Donnees manquantes

Page 4: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Classification methodologique des DM

Origine materielle des DM :

La valeur de xi n’a pas ete mesuree (oubli...)

la valeur mesuree mais perdue ou pas ete notee

la valeur mesuree, note consideree comme non utilisable :donnees jugees aberrantes et erreurs manifeste

la donnee mesuree mais pas disponible : (( Ne Sait Pas ))

censure (1) la valeur < ou > limites de detection de l’outil

censure (2) des etudes de survie : a part

N. MEYER Donnees manquantes

Page 5: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Classification par rapport a l’unite statistique

Typologie des DM par rapports aux unites statistiquesLa donnee est manquante en raison de :

non reponse de l’unite statistique : aucune mesure n’estobtenue pour l’unite statistique

non reponse pour l’item : seule manque la mesure sur lavariable X consideree.

N. MEYER Donnees manquantes

Page 6: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Un exemple sur une variable

variable X , n-echantillon dont m valeurs manquantes

↘ taille de l’echantillon de n a n −m = np , de m/n %

on peut estimer m et s2 sur les n −m presents

valide que si np valeurs sous-echantillon aleatoire des nle fait d’etre manquant ne depend pas de la valeur(manquante)

Pr(xi : ∗) = p,∀i .sinon il y a un biais

N. MEYER Donnees manquantes

Page 7: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Effet des manquants : Un exemple (1)

BiaisPerte de Puissance

on tire 1000 valeurs d’une v.a. gaussienne centree reduite

on verifie sa moyenne et sa variance et on trace l’histogrammedes valeurs

on supprime aleatoirement 250 valeurs sur l’ensemble desvaleurs du vecteur

on verifie que la moyenne et la variance du sous-echantillonsont proches des valeurs de l’echantillon de depart

N. MEYER Donnees manquantes

Page 8: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Effet des manquants : Un exemple (2)

On retire ensuite des valeurs surtout dans les valeurs basses del’echantillon : on retire 225 valeurs parmi les valeurs basses et25 parmi les valeurs hautes.

on calcule la moyenne et la variance de l’echantillon et ontrace son histogramme. On verifie que les estimations desparametres sont biaises.

N. MEYER Donnees manquantes

Page 9: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

la forme de la distribution obervee sur les donnees completesn’est pas forcement la forme de la distribution complete.

en presence de donnees manquantes : biais ? importance ?

la distribution observee sur le sous-echantillon complet est-ellerepresentative de la forme de la distribution dans lapopulation ?

N. MEYER Donnees manquantes

Page 10: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Autres exemple

Voir simulations sur R.modifications des parametres selon les manquants.

N. MEYER Donnees manquantes

Page 11: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Situation bivariee : Les elements

Soit deux V.A. X et Y , n realisations.

X est completement observee

Y comporte des valeurs manquantes.

les deux V.A. X et Y soit qualitative soit quantitative sansperte de generalite.

N. MEYER Donnees manquantes

Page 12: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Situation bivariee

sujet X Y

1 x1 y1

. . . . . . . . .ii xi yi

. . . . . . . . .i + 1 xi+1 *. . . . . . . . .n xn *

Tab.: Tableau pour la classification de LR

N. MEYER Donnees manquantes

Page 13: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Les trois cas possibles

(1) La probabilite d’avoir une valeur manquante est independantede X et de Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt)

(2) La probabilite d’avoir une valeur manquante depend de Xmais pas de Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs)

(3) La probabilite d’avoir une valeur manquante depend de X etde Y

Pr(D : Mqt |obs,mqt) = Pr(D : Mqt |obs,mqt)

N. MEYER Donnees manquantes

Page 14: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Premier cas

La probabilite d’avoir une valeur manquante est independante de Xet de Y

les valeurs manquantes sont Manquantes AleatoirementMissing at random : MAR

les donnees observees sont Observees AleatoirementObserved at random : OAR

↪→ les donnees sont manquantes completement aleatoirementMissing Completely at Random : MCAR

les valeurs Y observees : sous-echantillon aleatoire de Y

N. MEYER Donnees manquantes

Page 15: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Deuxieme cas

La probabilite d’avoir une valeur manquante depend de X mais pasde Y

on dit que le donnees sont manquantes aleatoirementMissing at Random : MAR

les valeurs observees de Y ne sont pas forcement unsous-echantillon aleatoire des valeurs echantillonnees de Ymais elles sont un sous-echantillon aleatoire de Y dans dessous-classes definies par les valeurs de X .

N. MEYER Donnees manquantes

Page 16: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Troisieme cas

La probabilite d’avoir une valeur manquante depend de X et de Y

les valeurs ne sont ni manquantes aleatoirement (non MAR)

ni obervees aleatoirement (non OAR)

les donnees sont manquants non aleatoire : M Not AR(MNAR)

N. MEYER Donnees manquantes

Page 17: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

voir exemples de manquants selon X et Y dans R.

N. MEYER Donnees manquantes

Page 18: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Consequences

cas MCAR et MAR le mecanisme des manquants peut etreignore pour les methodes d’inference basees sur lavraisemblance.

Dans le cas MCAR, il peut-etre ignore a la fois pour lesapproches basees sur la vraisemblance et pour les approchesbasees sur l’echantillonage.

Dans le cas MCAR le mecanisme ne peut pas etre ignore.

N. MEYER Donnees manquantes

Page 19: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Quelques exemples classiques

le revenu ou le fait de payer des impot est une informationdont la frequence de reponse varie avec le niveau du revenu oule fait ou non de payer des impots.

les aidants des personnes agees dependantes, pour savoir si lapersonne aidee represente une charge, la presence d’unereponse depend de la valeur de la reponse

consommation d’alcool est souvent d’autant plus minimiseeque cette consommation est forte.

dans les dossiers medicaux, la probabilite qu’un symptomenegatif soit note est plus faible que la probabilite qu’unsymptome positif soit note.

N. MEYER Donnees manquantes

Page 20: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Encore des exemples

Soit deux V.A. continues, une est sujette a non-reponse. Lavariable X completement observee est l’age et la variable Yincompletement observee est le revenu.Si la probabilite que le revenu soit manquant est independante del’age et du revenu du sujet, alors les donnees sont de type MCAR(OAR + MAR).

N. MEYER Donnees manquantes

Page 21: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Encore des exemples

Si la probabilite que le revenu soit manquant depend de l’age de lapersonne interrogee mais pas de son revenu, alors les DM sontmanquantes aleatoirement (ne dependent pas du revenu) mais ellesne sont pas observees aleatoirement (dependent de l’age) : ellessont donc de type MAR.Si la probabilite que le revenu soit manquant depend de l’age de lapersonne et de son revenu, les DM ne sont pas manquantesaleatoirement (dependent du revenu) et ne sont pas observeesaleatoirement (dependent de l’age) : elles sont donc de typeMNAR.

N. MEYER Donnees manquantes

Page 22: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

L’interet de cette classification

Prendre en compte le mecanisme des manquants dansl’analyse.

Si on s’interesse uniquement a la distribution marginale de X(l’age), les donnees de Y et le mecanisme des manquants n’aaucune importance.

Si on souhaite avoir une estimation conditionnelle de la valeurde Y sachant X (par exemple la repartition des revenus enfonction de l’age), alors l’analyse sur les n −m valeurscompletes est satisfaisante si les donnees sont MAR ou si ellessont MCAR.

Si on s’interesse a la distribution marginale de Y (moyennedes revenus), alors une analyse basee sur les unites completesest biaisee sauf si les donnees sont de type MCAR.

N. MEYER Donnees manquantes

Page 23: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

Si donnees MNAR, les estimations portant sur la distributionmarginale de Y et sur la distribution conditionnelle de Y sachantX sont biaisees et necessitent une modelisation des valeursmanquantes. Dans les autres cas, la modelisation n’est pasnecessaire meme si des methodes adaptees a l’analyse statistiqueen presence de DM doivent etre utilisees.

N. MEYER Donnees manquantes

Page 24: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Classification methodologique des DMEffet des manquantsClassification de Little et Rubin

reprendre les exemples sur l’impact des manquants dans R.

N. MEYER Donnees manquantes

Page 25: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Methode d’analyse

methode du cas complet

X deux V.A. X1 et X2, n-echantillon.

m1 et m2 valeurs mqt. sur X1 et X2.

Le nombre m de sujets ayant au moins une donnee manquante

max (m1,m2) ≤ m ≤ m1 + m2

Le nombre nc de sujets complets est egale a n −m.

Donc en general nc < nombre de sujets complets pour X1 oupour X2 et :

la plupart du temps on perd plus de valeurs que le nombre reelde valeurs manquantes

N. MEYER Donnees manquantes

Page 26: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

methode du cas complet : avantages

facilite les comparaisons entre analyses uni- et multivariees

si on retire les memes sujets d’une analyse a l’autre

pas-a-pas ascendants : differents si logiciel ou fait soi-meme

N. MEYER Donnees manquantes

Page 27: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Methode du cas complet : inconvenients

biais

perte de puissance

perte de cas rapidement considerable

si 10 variables avec 10% de manquants

0, 910 cas complets = 34,8%

N. MEYER Donnees manquantes

Page 28: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Methode du cas disponible

on utilise pour chaque sous-analyse l’ensemble des cascomplets

avantage : nb max de sujets a chaque analyse

inconvenients : nb variables d’une analyse a l’autre

Y = α1 + βX1 et Y = α1 + βX2

portent sur des sujets differents

ACP : matrice de covariance mal conformee

N. MEYER Donnees manquantes

Page 29: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Les methodes d’imputation

methodes tres nombreuses

consiste a substituer une valeur a la valeur manquante.

methodes (( seduisantes et dangereuses )) (Rubin)

N. MEYER Donnees manquantes

Page 30: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Les methodes simples

(... et mauvaises)

LOCF : Last Observation Caried Forward

ajouter une categorie pour les DM

moyenne non conditionnelle

moyenne conditionnelle (Buck) (par bloc ou pas)

imputation + alea

simples mais inconvenients +++ / overfitting /ad hoc

estimations d’IC tres difficiles

N. MEYER Donnees manquantes

Page 31: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Les methodes dans les enquetes

cold deck : source exterieur, limites + + +

hot deck

substitution : tirage au sort d’une nouvelle unite

difficile si stratification a posteriori

N. MEYER Donnees manquantes

Page 32: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Methodes basees sur une enumeration des possibilites

Pour des donnees qualitatives + + : table 1ou2× 2enumerer toute les solutions possibles (liste de p)

etude de sensibilite : enumerer toute les possibilites dans ungraphique, methode de Shadish

enumerer et combiner : faire une hypothese sur la repartitiondes DM

on fixe θ = θm

pour chaque combinaison de manquants, queues dedistribution (Fisher)

on combine les resultats pour avoir une inference globale

N. MEYER Donnees manquantes

Page 33: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Etude de sensibilite : Shadish

Stent: % of missing allocated to good outcome (n=24)

Ang

iopl

asty

: % o

f mis

sing

allo

cate

d to

goo

d ou

tcom

e (n

=30

)

0 20 40 60 80 100

020

4060

8010

0

Extreme favouring S

Extreme favouring A All allocated to good

All allocated to poor

Significant difference (p<0.05)

No significant difference (p>0.05)

N. MEYER Donnees manquantes

Page 34: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Methode de Delucchi

Pour des donnees qualitatives : table 2× 2si on a m valeurs manquantes dans l’une des deux variables

on peut imputer les valeurs de m + 1 manieres

ce qui donne m + 1 tests

a partir desquels on conclut

N. MEYER Donnees manquantes

Page 35: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Methode de NM : Delucchi pondere

Pour des donnees qualitatives : table 2× 2, test de Fisher

si on a m valeurs manquantes dans l’une des deux variables

on peut imputer les valeurs de m + 1 manieres

avec proba de chaque configuration sous parametre θ

ce qui donne m + 1 tests de Fisher pondere

on conclut par un test pondere par la Pr(configurationm)

N. MEYER Donnees manquantes

Page 36: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Maximisation de la vraisemblance

Marche bien pour MAR, moins pour MCAR et pas pour MNARVoir exemple dans feuille Excel pour une proportion et une table2× 2

N. MEYER Donnees manquantes

Page 37: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Solutions a part

litterature + + + ad hoc + + +

algorithme NIPALS voir modeles PLS

qui suppose quand meme des hypotheses fortes sur les DM

! ne pas avoir de DM ! !

N. MEYER Donnees manquantes

Page 38: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

L’Imputation Multiple : la star !

l’imputation simple est unique

la donnee imputee est considere comme une donnee observee

ne tient pas compte de l’incertitude sup. liee aux manquants

d’ou l’idee de faire plusieurs imputations differentes

on substitue plusieurs valeurs a chaque DM

on analyse en tenant compte de cette multiplicite

N. MEYER Donnees manquantes

Page 39: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Les etapes d’une imputation multiple

on analyse la matrice des donnees pour en deduire un modelepour les DM

on realise entre M = 3 et 10 imputations

pour obtenir 3 a 10 jeux de donnees completes

on calcule le parametre d’interet pour chaque jeu

on combine les M imputations pour avoir une inferencequi tienne compte de l’incertitude supplementaire liee aux DM

N. MEYER Donnees manquantes

Page 40: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Formules pour l’IM M estimations ponctuelles pour le vecteur deparametre θ.Si gaussien, moyenne et ecart-type :

Q (t) = Q(Yobs ,Y(t)miss), t = 1, . . . ,m

etU (t) = U (t)(Yobs ,Y

(t)miss), t = 1, . . . ,m

On calcule ensuite :

Q =1m

m∑t=1

Q (t)

N. MEYER Donnees manquantes

Page 41: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Formules pour l’IM (suite)

La Var. globale a deux composantes :(1) variance intra-imputation

U =1m

m∑t=1

U (t)

(2) La variance inter-imputation vaut :

B =1

m − 1

m∑t=1

(Q (t) − Q)2

La variance totale vaut :

T = U + (1 + m−1)B

N. MEYER Donnees manquantes

Page 42: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Formules pour l’IM (suite)

A partir de ces equations, on peut realiser des tests :

Q − Q√T 2

; tν

avec :

ν = (m − 1)[1 +

U(1 + m−1)B

]2

→ intervalles de confiances.Ces statistiques tiennent compte de l’incertitude suppl. liees auxDM.

N. MEYER Donnees manquantes

Page 43: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Exemple : voir feuille Excel

N. MEYER Donnees manquantes

Page 44: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

L’IM : avantages

souple + +

donne des resultats valides

robuste aux ecarts de specification du modele

M peut etre faible : 3, 5, pas plus de 10.

N. MEYER Donnees manquantes

Page 45: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

L’IM : inconvenients (limites)

⇒ le recours a des logiciels

repose sur le modele (mais les autres methodes aussi)

si les effectifs sont faibles → variantes particulieres

Par ailleurs

aspects bayesiens → utiliser WinBUGS

N. MEYER Donnees manquantes

Page 46: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

La solution bayesienne

Les donnees manquantes sont issues d’une distribution a priori

souplesse + + +

⇒ faire des hypotheses sur les DM

mais toute les methodes en font

similitudes avec les donnees aberrantes

voir exemple de prog. Bugs de NM.

N. MEYER Donnees manquantes

Page 47: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Les methodes sans modelisationImputation simpleEnumerationML par EMImputation Multiple

Les logiciels

MINITAB : rien pour les DM

SPSS : module mais pas dans la base

SAS : differentes fonctions + PROC MI

S+ / R : CAT,MIX, NORM

A part : SIMCA : cartographie des manquants / R

WinBUGS

N. MEYER Donnees manquantes

Page 48: Les données manquantes en statistiqueudsmed.u-strasbg.fr/labiostat/IMG/pdf/Nicolas_MEYER...on tire 1000 valeurs d’une v.a. gaussienne centr´ee r´eduite on v´erifie sa moyenne

IntroductionDefinitions

Les methodes d’analyseConclusion

Conclusion

DM : un probleme sans vraie solution

il faut toujours faire des hypotheses

ou faire une etude de sensibilite

qui ne conclut pas

le mieux : IM

encore mieux : bayesien

encore encore mieux : ne pas avoir de DM

N. MEYER Donnees manquantes