Download pdf - Présentation de la méthode de la vraisemblance empirique€¦ · Rappels de statistique paramétrique Vraisemblance empirique (cadre iid) : deux approches Cadres d’application,

Rappels de statistique paramétriqueVraisemblance empirique (cadre iid) : deux approches

Cadres d’application, avantages, exemples

Présentation de la méthode dela vraisemblance empirique

J.Worms

J.Worms Introduction à la vraisemblance empirique



Plan de l’exposé

1 Rappels de statistique paramétriqueModèles paramétriques et vraisemblanceRapport des maxima de vraisemblance

2 Vraisemblance empirique (cadre iid) : deux approchesApproche NPMLE (max de vraisemblancenon-paramétrique)Approche Minimum de Contraste

3 Cadres d’application, avantages, exemples




Modèles paramétriques et vraisemblanceRapport des maxima de vraisemblance








Modèle paramétrique

X1, . . . ,Xn i.i.d. → Rp définies sur (Ω,A), de loi µ

Modèle paramétrique :

µ ∈ P := µθ : θ ∈ Θ

Objectif : estimer θ−→ région de confiance ou test concernant θ ou g(θ)

Moyen fréquent : exploiter normalité asymp. de l’estimateur θ

Question usuelle : qualité du procédé en non-asymptotique








µ ∈ P := µθ : θ ∈ Θ











µ ∈ P := µθ : θ ∈ Θ











µ ∈ P := µθ : θ ∈ Θ











µ ∈ P := µθ : θ ∈ Θ








Maximum de vraisemblance

Paramètre fini-dimensionnel : θ ∈ Θ avec dim Θ = k <∞

Modèle dominé et vraisemblance

dµθ = fθdm (∀θ)

L(θ) :=∏n

i=1 fθ(Xi)

Sous de “bonnes” conditions, L(θ) est maximisée en un uniqueθ appelé estimateur du maximum de vraisemblance (EMV) de θ.









L(θ) :=∏n

i=1 fθ(Xi)










L(θ) :=∏n

i=1 fθ(Xi)






Sous certaines conditions de régularité sur le modèle dominé,l’EMV est unique et asymptotiquement normal sous Pθ (∀θ)

√n(θ − θ)

L−→ Nk (0, I−1θ )

où Iθ est la matrice d’information de Fisher.

å Région de confiance (ellipsoïdale)θ ∈ Θ

/n t (θ − θ)Iθ(θ − θ) ≤ r

où r est tq P[χ2(k) ≥ r ] = α.

å Test de H0 : “θ = θ0”région critique de niv. asymp. α =

n t (θ − θ0)Iθ0(θ − θ0) ≥ r






√n(θ − θ)

L−→ Nk (0, I−1θ )



/n t (θ − θ)Iθ(θ − θ) ≤ r



n t (θ − θ0)Iθ0(θ − θ0) ≥ r






√n(θ − θ)

L−→ Nk (0, I−1θ )



/n t (θ − θ)Iθ(θ − θ) ≤ r



n t (θ − θ0)Iθ0(θ − θ0) ≥ r












Test du rapport des maxima de vraisemblance

Théorème (Wilks, 1938)Si Θ0 ⊂ Θ, dim Θ = k, dim Θ0 = l , et

LR0 :=supθ∈Θ0

L(θ)

supθ∈Θ L(θ)

alors, sous H0 : “θ ∈ Θ0”, quand n→∞

−2 log LR0L−→ χ2(k − l)

d’où la région critique de niveau asymp. α

−2 log LR0 ≥ r où P[χ2(k − l) ≥ r ] = α





Région de confiance par inversion du LRT

CorollaireUne région de confiance pour θ (de niv. asymp. 1− α) est

θ ∈ Θ

/− 2 log LR(θ) ≤ r

où LR(θ) :=

L(θ)

L(θ)

et P[χ2(k) ≥ r ] = α.

vs région de Wald, région plus difficile à déterminer enpratique...

mais souvent meilleure pour n faible (proba de couvertureplus proche du niveau annoncé)

et ne nécessitant aucune estimation de varianceasymptotique







θ ∈ Θ

/− 2 log LR(θ) ≤ r

où LR(θ) :=

L(θ)

L(θ)

et P[χ2(k) ≥ r ] = α.










θ ∈ Θ

/− 2 log LR(θ) ≤ r

où LR(θ) :=

L(θ)

L(θ)

et P[χ2(k) ≥ r ] = α.










θ ∈ Θ

/− 2 log LR(θ) ≤ r

où LR(θ) :=

L(θ)

L(θ)

et P[χ2(k) ≥ r ] = α.








Sortir de la modélisation paramétrique ?

Maximum de Vraisemblance =

méthodologie très répandue, très étudiéepropriétés plaisantes (efficacité, invariance partransformation, ...)

mais sortir de la modélisation paramétrique est toujoursdésirable

des travaux existent sur la généralisation de lanotion de vraisemblance en non-paramétrique(paramètre θ = ∞-dimensionnel), mais sontparsemés de nombreuses difficultés (fonctiond’influence, détermination et estimation de lavariance asymptotique,...)





Sortir de la modélisation paramétrique ?

Maximum de Vraisemblance =

méthodologie très répandue, très étudiéepropriétés plaisantes (efficacité, invariance partransformation, ...)

mais sortir de la modélisation paramétrique est toujoursdésirable

des travaux existent sur la généralisation de lanotion de vraisemblance en non-paramétrique(paramètre θ = ∞-dimensionnel), mais sontparsemés de nombreuses difficultés (fonctiond’influence, détermination et estimation de lavariance asymptotique,...)




Approche NPMLE (max de vraisemblance non-paramétrique)Approche Minimum de Contraste








Vraisemblance non-paramétrique

On observe tjrs (X1, . . . ,Xn) iid → Rp de loi µ

Modèle statistique : µ ∈ P = ∪θ∈ΘPθ oùPθ = lois ν sur Rp vérifiant une condition relative à θ

à 2 paramètres

la loi µ, paramètre∞-dimensionnelθ = θ(µ), vu comme fonction de µ

Définition

NPL(ν) :=n∏

i=1

ν(Xi)

=n∏

i=1

pi si ν =∑n

i=1 piδXi








à 2 paramètres


Définition

NPL(ν) :=n∏

i=1

ν(Xi)

=n∏

i=1

pi si ν =∑n

i=1 piδXi








à 2 paramètres


Définition

NPL(ν) :=n∏

i=1

ν(Xi)

=n∏

i=1

pi si ν =∑n

i=1 piδXi








à 2 paramètres


Définition

NPL(ν) :=n∏

i=1

ν(Xi)

=n∏

i=1

pi si ν =∑n

i=1 piδXi






La mesure empirique

µn :=1n

n∑i=1

δXi

maximise NPL(·) sur l’espace des probas sur Rp.(Kiefer & Wolfowitz, 1956)

On veut maximiser NPL(·) sur l’ensemble P = ∪θ∈ΘPθ où

Pθ :=ν/

Eν(g(X , θ)) = 0

et g : (Rp,Θ)→ Rq

å moment condition model : modèle semiparamétriqueå q est le nombre de contraintes imposées sur θ






La mesure empirique

µn :=1n

n∑i=1

δXi



Pθ :=ν/

Eν(g(X , θ)) = 0








La mesure empirique

µn :=1n

n∑i=1

δXi



Pθ :=ν/

Eν(g(X , θ)) = 0







Vraisemblance empirique

DéfinitionOn définit la vraisemblance empirique de θ ayant observé(X1, . . . ,Xn), par

EL(θ) := supν∈PθNPL(ν).

L’EMVE de θ = θ(µ) est défini comme

θEL ∈ arg maxθ∈ΘEL(θ)

Si Sn désigne le simplexe de Rn, on a donc

θEL ∈ arg maxθ

sup(pi )∈Sn

∏ni=1 pi

/ ∑ni=1 pi g(Xi , θ) = 0

Remarque : θ 7→ EL(θ) est une vraisemblance profilée.











θEL ∈ arg maxθ

sup(pi )∈Sn

∏ni=1 pi

/ ∑ni=1 pi g(Xi , θ) = 0












θEL ∈ arg maxθ

sup(pi )∈Sn

∏ni=1 pi

/ ∑ni=1 pi g(Xi , θ) = 0












θEL ∈ arg maxθ

sup(pi )∈Sn

∏ni=1 pi

/ ∑ni=1 pi g(Xi , θ) = 0






Calcul des estimateurs du MVE

Proposition

L’EMVE de θ = θ(µ) vérifie

θEL ∈ arg maxθ∈Θ

−∑n

i=1 log(1+ < λ(θ),g(Xi , θ) >)

où λ(θ) désigne une solution dans Rq de∑ni=1(1+ < λ,g(Xi , θ) >)−1 g(Xi , θ) = 0

Si l’on pose pi := 1n (1+ < λ(θEL),g(Xi , θEL) >)−1 alors

µEL :=∑n

i=1 pi δXi

est l’EMVE de la loi µ sous-jacente.





Calcul des estimateurs du MVE

Proposition

L’EMVE de θ = θ(µ) vérifie

θEL ∈ arg maxθ∈Θ

−∑n

i=1 log(1+ < λ(θ),g(Xi , θ) >)

où λ(θ) désigne une solution dans Rq de∑ni=1(1+ < λ,g(Xi , θ) >)−1 g(Xi , θ) = 0

Si l’on pose pi := 1n (1+ < λ(θEL),g(Xi , θEL) >)−1 alors

µEL :=∑n

i=1 pi δXi

est l’EMVE de la loi µ sous-jacente.





Expression de ces estimateurs ?

Dans le cas simple où g(x , θ) = x − θ (i.e. θ = Eµ(X )), onconstate que

θEL =

X n

et µEL =

µn !

(avec λ(X n) = 0 donc pi = 1/n).

Dans le cas général, si∑ni=1 g(Xi , θ) = 0

admet une solution θ (qui est donc un M-estimateur de θ), alorson constate de la même façon que

θEL = θ et µEL = µn

Quel intérêt alors cette “méthode” présente-t-elle ? ?







θEL = X n et µEL = µn !


































Rapport de vraisemblance empirique

On introduit le rapport de vraisemblance empirique

ELR(θ) :=supν∈Pθ

NPL(ν)

supν NPL(ν)=EL(θ)

n−n

qui, comme on vient de le voir, coïncide souvent avecl’expression naturelle

ELR(θ) =EL(θ)

EL(θEL)

Ceci donne

ELR(θ) = sup(pi )

∏ni=1(npi)

/(pi) ∈ Sn ,

∑ni=1 pi g(Xi , θ) = 0

=

∏ni=1(1+ < λ(θ),g(Xi , θ) >)−1








NPL(ν)


n−n


ELR(θ) =EL(θ)

EL(θEL)

Ceci donne

ELR(θ) = sup(pi )

∏ni=1(npi)

/(pi) ∈ Sn ,

∑ni=1 pi g(Xi , θ) = 0

=

∏ni=1(1+ < λ(θ),g(Xi , θ) >)−1








NPL(ν)


n−n


ELR(θ) =EL(θ)

EL(θEL)

Ceci donne

ELR(θ) = sup(pi )

∏ni=1(npi)

/(pi) ∈ Sn ,

∑ni=1 pi g(Xi , θ) = 0

=

∏ni=1(1+ < λ(θ),g(Xi , θ) >)−1





Analogue vraisemblance empirique du LRT

Dans le cas où g(x , θ) = x − θ (i.e. θ = Eµ(X )), on a

Théorème (Owen, 1991)

Si θ0 = Eµ(X ) et Σ = Covµ(X ) est de rang q ≥ 1, alors

−2 log ELR(θ0)L−→ χ2(q)

donc Cr ,n :=θ ∈ Rp / − 2 log ELR(θ) ≤ r

est un convexe de Rp qui constitue une région de confiance deniveau asymptotique 1− α = P[χ2(q) ≤ r ] pour θ.De plus, si E ( ‖X‖4 ) <∞, alors∣∣∣Pµ(µ ∈ Cr ,n )− P(χ2(q) ≤ r)

∣∣∣ = o(n−1/2)

Rem : −2 log ELR(θ0) = 2∑n

i=1 log(1+ < λ(θ0),g(Xi , θ0) >)J.Worms Introduction à la vraisemblance empirique











∣∣∣ = o(n−1/2)













∣∣∣ = o(n−1/2)






Pour le modèle à condition de moments général, où q ≥ k

µ ∈ P = ∪θPθ où Pθ :=ν/

Eν(g(X , θ)) = 0

Qin & Lawless (1994) prouvent la normalité asymptotique√

n(θEL − θ)L−→ N (0, (D′SD)−1) (quand µ ∈ Pθ)

où

D = Eµ[∇θg(X , θ(µ))] + conditions de régularité sur gS = Eµ[g(X , θ(µ))g(X , θ(µ))t ] supposée définie positive.

Ils établissent également la convergence en loi

−2 log ELR(θ)L−→ χ2(k)

quand Eµ[g(X , θ)] = 0, et donnent d’autres résultats dans lecadre particulier où q > k (risque de suridentification de θ).





Pour le modèle à condition de moments général, où q ≥ k

µ ∈ P = ∪θPθ où Pθ :=ν/

Eν(g(X , θ)) = 0

Qin & Lawless (1994) prouvent la normalité asymptotique√

n(θEL − θ)L−→ N (0, (D′SD)−1) (quand µ ∈ Pθ)

où

D = Eµ[∇θg(X , θ(µ))] + conditions de régularité sur gS = Eµ[g(X , θ(µ))g(X , θ(µ))t ] supposée définie positive.

Ils établissent également la convergence en loi

−2 log ELR(θ)L−→ χ2(k)

quand Eµ[g(X , θ)] = 0, et donnent d’autres résultats dans lecadre particulier où q > k (risque de suridentification de θ).












Rappels sur la divergence de Kullback-Leibler

Si µ et ν sont deux mesures de probabilité sur un mêmeespace, on définit

K (µ, ν) =

∫ dµdν log dµ

dν dν = −∫

log dνdµ dµ si µ << ν

∞ sinon

encore appelée entropie relative de µ par rapport à ν.

µn désignant la mesure empirique associée à (Xi)i=1..non a donc

K (µn, ν) =

−1

n∑n

i=1 log(npi) si ν =∑n

i=1 piδXi et pi > 0 (∀i)∞ sinon





Rappels sur la divergence de Kullback-Leibler

Si µ et ν sont deux mesures de probabilité sur un mêmeespace, on définit

K (µ, ν) =

∫ dµdν log dµ

dν dν = −∫

log dνdµ dµ si µ << ν

∞ sinon

encore appelée entropie relative de µ par rapport à ν.

µn désignant la mesure empirique associée à (Xi)i=1..non a donc

K (µn, ν) =

−1

n∑n

i=1 log(npi) si ν =∑n

i=1 piδXi et pi > 0 (∀i)∞ sinon





L’EMVE vu comme un estimateur du minimum decontraste

On a

−2 log ELR(θ)

= −2n sup 1

n∑n

1 log(npi)/

(pi) ∈ Sn et∑n

1pig(Xi , θ) = 0

= 2n inf

K (µn, ν)/

Eν(g(X , θ)) = 0

= 2n infν∈Pθ

K (µn, ν)

Ainsi

maximiser EL(θ) = minimiser K (µn, ν) pour ν ∈ P

d’autres choix de divergence ?avantage de celle de Kullback ?






On a

−2 log ELR(θ)

= −2n sup 1

n∑n

1 log(npi)/

(pi) ∈ Sn et∑n

1pig(Xi , θ) = 0

= 2n inf

K (µn, ν)/

Eν(g(X , θ)) = 0

= 2n infν∈Pθ

K (µn, ν)

Ainsi








On a

−2 log ELR(θ)

= −2n sup 1

n∑n

1 log(npi)/

(pi) ∈ Sn et∑n

1pig(Xi , θ) = 0

= 2n inf

K (µn, ν)/

Eν(g(X , θ)) = 0

= 2n infν∈Pθ

K (µn, ν)

Ainsi












Estimation de paramètres fonctionnels

Pour l’estimation de paramètres fonctionnels généraux

θ = T (µ)

(i.e. pas seulement définis par Eµ( g(X , θ) ) = 0), il suffit deposer

EL(θ) := supν<<µn

∏ni=1(dν/dµn)(Xi)

/T (ν) = θ

−1

n log ELR(θ) = supν<<µn

K (µn, ν)

/T (ν) = θ

Dans ce cadre, des travaux existent sous l’hypothèse de ladifférentiabilité au sens de Fréchet ou de Hadamard, de lafonctionnelle T (voir Owen (1988), Bertail (2006) par exemple).




Estimation de paramètres fonctionnels

Pour l’estimation de paramètres fonctionnels généraux

θ = T (µ)

(i.e. pas seulement définis par Eµ( g(X , θ) ) = 0), il suffit deposer

EL(θ) := supν<<µn

∏ni=1(dν/dµn)(Xi)

/T (ν) = θ

−1

n log ELR(θ) = supν<<µn

K (µn, ν)

/T (ν) = θ

Dans ce cadre, des travaux existent sous l’hypothèse de ladifférentiabilité au sens de Fréchet ou de Hadamard, de lafonctionnelle T (voir Owen (1988), Bertail (2006) par exemple).




Quelques cadres d’application de la méthode EL

modèles de mélange

estimation de quantiles

modèles linéaires, GLMs, partiellement linéaires

modèles de régression non-paramétrique

tests non-paramétrique d’adéquation, de symétrie,...

statistique de données censurées

théorie des sondages

...




Intéret de la méthode

Ü propriétés du LRT mais en semi-paramétrique !

Ü les régions de confiance résultantes ont un “degréd’asymétrie” automatiquement adapté aux données
















Intéret de la méthode (suite)

Ü les régions de confiance résultantes peuvent être“corrigées au sens de Bartlett”

Ü efficacité asymptotique non paramétrique atteinte parl’EMVE et par des fonctionnelles de l’EMVE de µ

ξ = Eµ(Ψ(θ(µ),X )) ξ =∑n

i=1piΨ(θEL,Xi)

Ü prise en compte facile de contraintes sur le paramètre







ξ = Eµ(Ψ(θ(µ),X )) ξ =∑n

i=1piΨ(θEL,Xi)








ξ = Eµ(Ψ(θ(µ),X )) ξ =∑n

i=1piΨ(θEL,Xi)








ξ = Eµ(Ψ(θ(µ),X )) ξ =∑n

i=1piΨ(θEL,Xi)








ξ = Eµ(Ψ(θ(µ),X )) ξ =∑n

i=1piΨ(θEL,Xi)





Domaines d’application économétrie

biostats (analyse de survie)


Annexe Bibliographie

Quelques références

Art OwenEmpirical Likelihood.Chapman & Hall/CRC, 2001.

P. BertailEmpirical likelihood in some semiparametric models.Bernoulli, 12 (2) : 299–331, 2006.

J.H. Einmal & I.W. McKeageEmpirical likelihood based hypothesis testing.Bernoulli, 9(2) : 267–290, 2003.

S. Chen & P. HallSmoothed empirical likelihood confidence intervalsfor quantiles.Annals of Statistics, 21(3) : 1166–1181, 1993.

Y. KitamuraEmpirical likelihood methods in econometrics : theoryand practice.Cowles Foundation discussion paper, Working Paperno1569, 2006.

Y. KitamuraEmpirical likelihood methods with weakly dependentprocesses.Annals of Statistics, 25(5) : 2084–2102, 1997.

A. B. OwenEmpirical likelihood ratio confidence intervals for asingle functional.Biometrika, 75(2) : 237–249, 1988.

A. B. OwenEmpirical likelihood ratio confidence regions.Annals of Statistics, 18(1) : 90–120, 1990.

A. B. OwenEmpirical likelihood for linear models.Annals of Statistics, 19(4) : 1725–1747, 1991.

Y. S. Qin & J. LawlessEmpirical likelihood and general estimatingequations.Annals of Statistics, 22(1) : 300–325, 1994.

G.Qin & M.TsaoEmpirical likelihood based inference for the derivativeof the nonparametric regression functionBernoulli, 11(4) : 715–735, 2005.

S. S. WilksThe large-sample distribution of the likelihood ratio fortesting composite hypotheses.Annals of Mathematical Statistics, 9 : 60–62, 1938.