40
Exercices de statistiques mathématiques Guillaume Lecué 15 septembre 2016 Table des matières 1 Rappels de probabilités 1 2 Vraisemblance, EMV, IC, Information de Fisher 15 3 Tests 22 4 Modèle de régression 26 5 Examen du lundi 26 octobre 2015 32 6 Rattrapage 2015-2016 36 1 Rappels de probabilités ********************** Exercice 1.1 (Théorème de la limite centrale) Soit (X n ) n une suite de variables aléatoires i.i.d. centrées de variance σ 2 > 1. Soit Z n = 1 σ n n X j =1 X j . Par le théorème de la limite centrale, cette variable converge en loi vers la loi normale centrée réduite, c’est-à-dire, pour tout t R, on a lim n+E[e itZn ]= e - t 2 2 . L’objet de cet exercice est de montrer que la suite Z n ne peut pas converger en probabilité. 1. Calculer la fonction caractéristique de Z 2n - Z n et montrer que cette différence converge en loi. 2. En étudiant P(|Z 2n - Z n |≥ ), montrer que Z n ne converge pas en probabilité. ********************** Correction de l’exercice 1.1 L’objectif de cet exercice est de manipuler les différents types de convergence. On commence donc par rappeler les différentes convergences en probabilités. Soit (X n ) une suite de variables aléatoires et X une autre variable aléatoire. On dit que : 1

Exercices de statistiques mathématiques€¦ · Exercices de statistiques mathématiques ... n et montrer que cette différence convergeenloi. 2.EnétudiantP(jZ 2n Z nj ),montrerqueZ

  • Upload
    others

  • View
    23

  • Download
    2

Embed Size (px)

Citation preview

Exercices de statistiques mathématiques

Guillaume Lecué

15 septembre 2016

Table des matières

1 Rappels de probabilités 1

2 Vraisemblance, EMV, IC, Information de Fisher 15

3 Tests 22

4 Modèle de régression 26

5 Examen du lundi 26 octobre 2015 32

6 Rattrapage 2015-2016 36

1 Rappels de probabilités

**********************Exercice 1.1 (Théorème de la limite centrale)Soit (Xn)n une suite de variables aléatoires i.i.d. centrées de variance σ2 > 1. Soit

Zn =1

σ√n

n∑j=1

Xj .

Par le théorème de la limite centrale, cette variable converge en loi vers la loi normalecentrée réduite, c’est-à-dire, pour tout t ∈ R, on a limn→+∞ E[eitZn ] = e−

t2

2 . L’objet de cetexercice est de montrer que la suite Zn ne peut pas converger en probabilité.

1. Calculer la fonction caractéristique de Z2n − Zn et montrer que cette différenceconverge en loi.

2. En étudiant P(|Z2n − Zn| ≥ ε), montrer que Zn ne converge pas en probabilité.

**********************

Correction de l’exercice 1.1 L’objectif de cet exercice est de manipuler les différents types deconvergence. On commence donc par rappeler les différentes convergences en probabilités. Soit (Xn)

une suite de variables aléatoires et X une autre variable aléatoire. On dit que :

1

ENSAE Statistiques mathématiques

— (Xn) converge presque surement vers X quand ω ∈ Ω : limXn(ω) = X(ω) est de mesure 1 (onvérifiera que cet ensemble est bien mesurable).

— (Xn) converge en probabilité vers X quand pour tout ε > 0, P[|Xn −X| ≥ ε

]→ 0 quand n tend

vers +∞.

— (Xn) converge en loi vers X quand pour toute fonction continue bornée f on a Ef(Xn)→ Ef(X).

— si p ≥ 1, on dit que (Xn) converge dans Lp vers X quand E|Xn − X|p → 0 quand n tend vers+∞.

On a les implications suivantes :

[cv presque sure] (1)=⇒

[cv en proba] (2)=⇒

[cv en loi]

(3) ⇑[cv dans Lp]

Démo et contre-exemple de “(1)=⇒

” : Soit ε > 0. On a Xn → X ⊂ liminfn|Xn−X| ≤ ε. En

passant, au complémentaire, on a :

0 ≤ limsupn P[|Xn −X| > ε

]≤ P[limsupn|Xn −X| > ε]

= P[(

liminfn|Xn −X| ≤ ε)c] ≤ 0.

Il n’y a pas équivalence dans “(1) ⇒”. Voici une exemple d’une suite qui converge en probabilitémais pas presque surement : (Xn) des v.a. indépendantes telles que

P[Xn = 1] =1

net P[Xn = 0] = 1− 1

n.

La suite (Xn) converge en probabilité vers 0 car pour tout n, on P[|Xn| > ε] = P[Xn = 1] = 1/n. Maiselle ne converge pas presque surement vers car on a

∑n P(Xn = 1) = ∞ donc d’après le “second

lemme de Borel-Cantelli” (les événements (Xn = 1) sont indépendants), on a P[limsupnXn = 1] =

1. Notamment, (Xn) ne converge pas presque surement vers 0.Démo et contre-exemple de “(2)

=⇒” : Soit f une fonction continue bornée. Soit ε > 0 et Nε ∈ N

tel que P[|f(Xn) − f(X)| ≥ ε

]≤ ε (on rappel que si f est continue et (Xn) converge en probabilité

vers X alors (f(Xn)) converge en probabilité vers f(X)). On a donc∣∣Ef(Xn)− Ef(X)∣∣ ≤ ∣∣E(f(Xn)− f(X))I(|f(Xn)− f(X)| ≥ ε)

∣∣+∣∣E(f(Xn)− f(X))I(|f(Xn)− f(X)| < ε)

∣∣≤ 2 ‖f‖∞ P

[|f(Xn)− f(X)| ≥ ε

]+ ε ≤

(2 ‖f‖∞ + 1

)ε.

La réciproque est trivialement fausse. Il suffit de prendre la suite stationnaire (Xn) où pour tout n,Xn = g où g est une gaussienne. Comme g est symmétrique, −g est aussi distribuée comme g. Donc(Xn) converge en loi vers g et donc aussi vers −g. Par contre |Xn − (−g)| = 2|g| ne converge pas enprobabilité vers 0. Donc (Xn) ne converge par vers −g en probabilité.

Démo et contre-exemple de “(3) ⇑” : D’après l’inégalité de Markov, P[|Xn − X ≥ ε|

]≤

ε−pE|Xn − X|p. Pour le contre-exemple, on prend Xn de loi (n−1δn2 + (1 − n−1)δ0). On a P[|Xn| ≥

1 RAPPELS DE PROBABILITÉS 2

ENSAE Statistiques mathématiques

ε] ≤ n−1 donc (Xn) converge en probabilité mais E|Xn| = n donc (Xn) ne converge pas dans L1 vers0.

Correction de l’exercice

1. Pour tout t ∈ R, on a par indépendance

E exp(it(Z2n − Zn)) = E exp( it

σ√n

( 1√2− 1) n∑j=1

Zj

)E exp

( it

σ√

2n

2n∑j=n+1

Zj

).

En appliquant le TCL sur chacun des membres du produit, quand n tend vers l’infini, on obtientque (Z2n−Zn)n tend vers une loi dont la fonction caractéristique est t 7→ exp

(− t2(2−

√2)/2

),

c’est donc une Gaussienne centrée de variance√

2−√

2.

2. Supposons que (Zn) converge en probabilité. Alors il existe une variable aléatoire Z telle quepour tout ε > 0, on a P[|Zn − Z| > ε]→ 0. Soit ε > 0, on a

|Z2n − Zn| ≥ 2ε ⊂ |Zn − Z| ≥ ε ∪ |Z2n − Z| ≥ ε.

Alors, par une borne de l’union :

P[|Z2n − Zn| ≥ 2ε

]≤ P

[|Zn − Z| ≥ ε

]+ P

[|Z2n − Z| ≥ ε

]et donc en passant à la limite, on obtient P

[|Z2n−Zn| ≥ 2ε

]→ 0. Donc (Z2n−Zn)n converge en

probabilité vers 0. En particulier, cette suite converge en loi vers 0. Ce qui est en contradictionavec 1..

**********************

Exercice 1.2 (Lemme de Slutsky)

1. Donner un exemple de suites (Xn) et (Yn) telles que Xnloi→ X et Yn

loi→ Y , mais Xn + Yn

ne converge pas en loi vers X + Y .

2. Soient (Xn), (Yn) deux suites de variables aléatoires réelles, X et Y des variablesaléatoires réelles, telles que

(i) Xnloi→ X et Yn

P→ Y ,

(ii) Y est indépendante de (Xn) et X.

Montrer que le couple (Xn, Yn) converge en loi vers (X,Y ).

3. En déduire que si (Xn) et (Yn) sont deux suites de variables aléatoires réelles tellesque (Xn) converge en loi vers une limite X et (Yn) converge en probabilité vers uneconstante c, alors (Xn + Yn) converge en loi vers X + c et (Xn Yn) converge en loi verscX.

**********************

Correction de l’exercice 1.2

1 RAPPELS DE PROBABILITÉS 3

ENSAE Statistiques mathématiques

1. Soit (δn) une suite de v.a. i.i.d. de Bernoulli de moyenne 1/2 (càd P[δn = 0] = P[δn = 1] =

1/2,∀n). D’après le TCL, on sait que

Xn :=2√n

n∑i=1

(δi − 1/2

) N (0, 1).

On le démontre facilement, en utilisant le Théorème de Levy et en voyant que quand n tend versl’infini, pour tout t ∈ R,

E exp( 2it√

n

( n∑i=1

(δi − 1/2

)))=((1

2

)(exp

(−it√n

)+ exp

( it√n

)))n=(

1− t2

2n+O

( t3

n3/2

))n−→ exp

(−t22

).

Soit g une variable Gaussienne standard. Comme g est symmétrique, −g est aussi une GaussienneStandard. On a donc, (Xn) converge en loi vers g et aussi (Xn) converge en loi vers −g. Mais(Xn+Xn) converge en loi vers 2g 6= g+(−g) = 0. Cet exercice souligne le fait que la convergenceen loi est une convergence des lois de distribution et non des variables aléatoires elles mêmes.

2. On note par Cb(R) l’ensemble des fonctions continues bornées sur R. Pour montrer que (Xn, Yn)

converge en loi vers (X,Y ), il suffit de prouver que pour tout f, g ∈ Cb(R), on a Ef(Xn)g(Yn)→Ef(X)g(Y ) quand n tend vers l’infini. Par ailleurs, on sait que si (Yn) converge en probablitévers Y et si g est continue alors (g(Yn)) converge en probabilité vers g(Y ).

Soit f, g ∈ Cb(R) et ε > 0. Soit Nε ∈ N tel que pour tout n ≥ Nε,

P[|g(Yn)− g(Y )| ≥ ε

]≤ ε and

∣∣Ef(Xn)− Ef(X)∣∣ ≤ ε.

On a pour tout n ≥ Nε, par indépendance de g(Y ) avec f(Xn) et f(X),∣∣Ef(Xn)g(Yn)− Ef(X)g(Y )∣∣ ≤ ∣∣Ef(Xn)(g(Yn)− g(Y ))I(|g(Yn)− g(Y )| ≥ ε)

∣∣+∣∣Ef(Xn)(g(Yn)− g(Y ))I(|g(Yn)− g(Y )| < ε)

∣∣+∣∣Eg(Y )(f(Xn)− f(X))

∣∣≤ 2 ‖f‖∞ ‖g‖∞ P

[|g(Yn)− g(Y )| ≥ ε

]+ ‖f‖∞ ε+

∣∣Eg(Y )Ef(Xn)− Ef(X)∣∣

≤(2 ‖f‖∞ ‖g‖∞ + ‖f‖∞ + ‖g‖∞

)ε.

3. Comme (Yn) converge en probabilité vers Y = c p.p. qui est indépendante de toutes variablesaléatoires, on peut appliquer la question 2. :

((Xn, Yn)

)converge en probabilité vers (X, c).

Notamment, comme les applications somme et produit sont des fonctions continues de R2 dansR, on voit que (Xn + Yn) converge en loi vers X + c ainsi que (XnYn) converge en loi vers cX.

**********************

Exercice 1.3 (Convergence dans Lp)Soit (Xn) une suite de variables aléatoires réelles bornées par une même constante.

Montrer que si (Xn) converge en probabilité, alors Xn converge dans Lp pour tout p ≥ 1.

**********************

1 RAPPELS DE PROBABILITÉS 4

ENSAE Statistiques mathématiques

Correction de l’exercice 1.3 Pour cet exercice, on va démontrer un résultat plus fort. On rappelqu’une suite (Xn) est équi-intégrable quand

lima→+∞

supn∈N

E[|Xn|I(|Xn| > a)

]= 0.

Soit p ≥ 1 et (Xn) une suite d’éléments de Lp. On montre que les deux assertions suivantes sontéquivalentes :

1. la suite (Xn) converge dans Lp.

2. la suite (Xn) converge en probabilité et la suite (|Xn|p) est équi-intégrable.

b) implique a) : On montre d’abord que si (Yn) est équi-intégrable alors elle est équi-continue :càd pour tout ε > 0, il existe η > 0 tel que si P(A) ≤ η alors supn∈N E

[|Yn|1A

]≤ ε. Soit ε > 0 et

a0 > 0 tel que pour tout a ≥ a0 et tout n ∈ N, E[|Xn|I(|Xn| > a)

]≤ ε. On a pour tout ensemble

mesurable A, tout n ∈ N et tout a ≥ a0,

E[|Xn|1A

]= E

[|Xn|I(A ∩ |Xn| ≤ a)

]+ E

[|Xn|I(A ∩ |Xn| > a)

]≤ aP(A) + E

[|Xn|I(|Xn| > a)

]≤ aP(A) + ε.

On en déduit que (Yn) est bien équi-continue.Soit ε > 0. Pour tout q, r ∈ N, on a

E|Xr −Xq|p ≤ E[|Xr −Xq|pI(|Xr −Xq|p ≤ ε)

]+ 2p−1E

[(|Xr|p + |Xq|p

)I(|Xr −Xq|p > ε)

]≤ ε+ 2p−1E

[(|Xr|p + |Xq|p

)I(|Xr −Xq|p > ε)

].

Comme (|Xn|p) est équi-continue, il existe η > 0 tel que pour tout A tel que P[A] ≤ η, on a

supr∈N

E[|Xr|p1A

]+ sup

q∈NE[|Xq|p1A

]≤ ε/2p−1.

Comme (Xn) converge en probabilité, il existe un Nε tel que pour tout r, q ≥ Nε, P[|Xr − Xq| ≥

ε1/p]≤ η. On en déduit, que limsupr,q E|Xr −Xq|p ≤ 2ε pour tout r, q ≥ Nε. Alors (Xn) est une suite

de Cauchy dans Lp, qui est complet, donc elle est convergente dans Lp.a) implique b) : Par Markov, on a pour tout ε > 0,

P[|Xn −X| ≥ ε

]≤ ε−pE|Xn −X|p.

Soit Nε ∈ N tel que pour tout n ≥ Nε, E|Xn −X|p ≤ ε/2p−1. L’inégalité de Markov donne

P[|Xn|p > a

]≤ a−1E|Xn|p ≤ Ba−1 ≤ ε.

où B majore uniformément la suite (E|Xn|p) (qui est bien bornée vue que c’est une suite convergente).Soit a0 > 0 tel que supn∈N P[|Xn|p > a0] ≤ η où η est tel que E

[|X|p1A

]≤ ε/2p−1 pour tout A tel que

P(A) ≤ η (par définition X ∈ Lp). On a donc pour n ≥ Nε et tout a ≥ a0,

E[|Xn|pI(|Xn|p > a)

]≤ 2p−1E

[|Xn −X|pI(|Xn|p > a)

]+ 2p−1E

[|X|pI(|Xn|p > a)

]≤ ε.

De plus, il est facile de voir que toute famille finie de variables aléatoires est équi-intégrable. C’est lecas pour (Xn : 1 ≤ n ≤ Nε).

1 RAPPELS DE PROBABILITÉS 5

ENSAE Statistiques mathématiques

**********************

Exercice 1.4 (Loi conditionnelle)Soit X une variable aléatoire qui suit une loi Gamma (2, λ) de densité

f (x) = λ2xe−λx1[0,+∞)(x)

et soit Y une variable aléatoire dont la loi conditionnelle à X = x est uniforme sur [0, x] .

1. Donner la loi jointe de (X,Y ).

2. Donner la loi marginale de Y et montrer que Y est indépendant de X − Y .

**********************

Correction de l’exercice 1.4

1. Soit f une fonction continue bornée sur R2. On a

Ef(X,Y ) =

∫R

(∫Rf(x, y)dPY |X=x(y)

)dPX(x)

=

∫ ∞0

(∫ x

0f(x, y)

dy

x

)λ2xe−λxdx =

∫R2

f(x, y)1[0,x](y)1R+(x)λ2e−λxdxdy.

Donc la loi jointe du couple (X,Y ) a une densité donnée pour tout x, y ∈ R par

f (X,Y )(x, y) = 1[0,x](y)1R+(x)λ2e−λx

2. La loi marginale de Y a pour densité : pour tout y ∈ R,

fY (y) =

∫Rf (X,Y )(x, y)dx = 1y≥0

∫ ∞y

λ2e−λxdx = λe−λy1y≥0.

Soit f et g deux fonctions continues bornée. Un changement de variable x− y → t donne

Ef(Y )g(X − Y ) =

∫R2

f(y)g(x− y)1[0,x](y)1R+(x)λ2e−λxdxdy

=

∫Rf(y)1y≥0

(∫ ∞y

g(x− y)λ2e−λxdx)dy =

∫Rf(y)1y≥0

(∫ ∞0

g(t)λ2e−λ(t+y)dt)dy

=(∫

Rf(y)1y≥0λe

−λydy)(∫

Rg(t)1t≥0λe

−λtdt)

= Ef(Y )Eg(X − Y )

(pour avoir la loi de X−Y , il suffit de prendre f ≡ 1 dans le calcul précédent). Donc Y et X−Ysont bien indépendants.

**********************

Exercice 1.5 (Estimateur de la variance)Soient X1, . . . , Xn des variables aléatoires i.i.d., Xi ∼ f(· − θ), où f est une densité de

probabilité sur R symétrique dont on note µk =∫R x

kf(x) dx les moments d’ordre k = 2 etk = 4. On note Xn = 1

n

∑ni=1Xi. Montrer que l’estimateur 1

n

∑ni=1(Xi − Xn)2 de la variance

des Xi vérifie un théorème central limite.

Indication : on montrera d’abord que l’on peut se ramener au cas où θ = 0, puis onexprimera l’estimateur comme une transformation de Sn = 1

n

∑ni=1X

2i et de Xn.

1 RAPPELS DE PROBABILITÉS 6

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 1.5 On commence par quelques remarques préliminaires :

a) Comme n−1∑n

i=1(Xi−Xn)2 est invariant par translation desXi et que siX ∼ f(·−θ) et Y ∼ f(·)alors X ∼ Y + θ, on peut donc supposer que θ = 0. Notamment comme f est symmétrique, ona EXi = 0, ∀i.

b) On note σ2n := n−1∑n

i=1(Xi − Xn)2. On a :

σ2n =1

n

n∑i=1

X2i −

( 1

n

n∑i=1

Xi

)2= X2

n −Xn.

(On écrit σ2n = EI(XI − EIXI

)2.)c) On remarque d’abord que σ2n n’est pas un estimateur sans biais de la variance :

Eσ2n = EX2 − E( 1

n

n∑i=1

Xi

)2= EX2 − 1

n2

∑i,j

EXiXj

=(

1− 1

n

)(EX2 −

(EX)2)

=n− 1

nvar(X).

Par la LFGN, la suite (σ2n) converge presque surement vers σ2.

On considère la décomposition suivante :

√n(σ2n − σ2

)=√n(X2

n − EX2)−√n(Xn

)2.

Par le TCL, on a :

√n(X2

n − EX2) N

(0,E

(X2 − EX2

)2) et E(X2 − EX2)2

= µ4 − µ22.

Par ailleurs,(√nXn

)converge en loi vers une Gaussienne et (Xn) converge en probabilité vers 0. Alors

d’après Slutsky,(√n(Xn

)2) converge en loi vers 0, elle converge donc aussi en probabilité vers 0. Onapplique une seconde fois Slutsky :

(√n(X2

n − EX2))

converge en loi vers N(0,E

(X2 − EX2

)2) et(√n(Xn

)2) converge en probabilité vers 0. On en déduit que

√n(σ2n − σ2

) N

(0,E

(X2 − EX2

)2).

**********************

Exercice 1.6 (Stabilisation de la variance)On dispose d’un échantillon X1, . . . , Xn i.i.d. de loi de Bernoulli de paramètre 0 < θ < 1.

1. On note Xn la moyenne empirique des Xi. Appliquer la loi forte des grands nombreset le TCL dans ce modèle.

2. Cherchez une fonction g telle que√n(g(Xn)−g(θ)) converge en loi vers Z de loi N (0, 1).

3. On note zα le quantile d’ordre 1 − α/2 de la loi normale standard. En déduire unintervalle de confiance In,α fonction de zα, n, Xn tel que limn→∞ P(θ ∈ In,α) = 1− α.

1 RAPPELS DE PROBABILITÉS 7

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 1.6

1. La LFGN dit que(Xn

)converge presque surement vers EX1 = θ. Le TCL dit que

((√n/σ)

(Xn−

EX))

converge en loi vers une Gaussienne centrée réduite où σ =√θ(1− θ).

2. D’après le TCL :√n(Xn − θ

) σg.

On dit que Xn est asymptotiquement normale de moyenne θ et de variance asymptotique σ2.On peut alors appliquer la Proposition 1.10 (Méthode delta) du cours (en fait, on applique uneversion plus faible de ce résultat qu’on peut trouver page 26 au théorème 3.1 de [van der Vaart,asymptotic Statistics]) : si (ζn) est asymptotiquement normale de moyenne asymptotique θ et devariance asymptotique σ2 et si g : D ⊂ R 7→ R est une fonction différentiable en θ, alors (g(ζn))

est aussi asymptotiquement normale et on a :

√n(g(ζn)− g(θ)

) N (0, σ2

(g′(θ)

)2). (1)

Dans notre cas, on cherche à trouver g tel que (g(Xn)) est asymptotiquement normal de moyenneasymptotique 0 et de variance asymptotique θ(1−θ)

(g′(θ)

)2= 1. On est donc amener à résoudre

l’équation :

∀θ ∈ (0, 1), g′(θ) =1√

θ(1− θ).

L’ensemble des solutions de cette équation est donnée, à une constante absolue additive près,par g : θ ∈ [0, 1] 7→ 2arcsin(

√x) (on rappel que (arcsinx)′ = (1 − x2)−1/2,∀x ∈ [−1, 1]). Cette

fonction est continûment différentiable en tout θ ∈ (0, 1), alors d’après Proposition 1.10 (voir(1)), on a

√n(g(Xn)− g(θ)

) N (0, 1).

(On rappelle que g a été choisit tel que θ(1− θ)(g′(θ)

)2= 1 pour tout θ ∈ (0, 1)).

3. Pour tout α[0, 2], le quantile d’ordre 1 − α/2 de la gaussienne est l’unique réel tel que P[g ∈(−∞, qα] = 1− α/2. On a

P[θ ∈ In,α

]= P

[∣∣∣√n(g(Xn)− g(θ))∣∣∣ ≤ zα] −→ P[g ∈ [−zα, zα]] = 1− α

pourIn,α =

[sin2

(g(Xn)− zα√

n

), sin2

(g(Xn) +

zα√n

)]**********************

Exercice 1.7 (Les statistiques d’ordre)Soient X1, . . . , Xn des variables aléatoires i.i.d. de fonction de répartition F . On suppose

que F admet une densité f par rapport à la mesure de Lebesgue. On note X(1) ≤ X(2) ≤. . . ≤ X(n) les variables aléatoires X1, . . . , Xn réordonnées par ordre croissant.

1. Donner l’expression de la loi de la statistique d’ordre (X(1), . . . , X(n)) en fonction def .

1 RAPPELS DE PROBABILITÉS 8

ENSAE Statistiques mathématiques

2. Déterminer la fonction de répartition Fk(x) puis la densité fk(x) de X(k).

3. Sans utiliser les résultats des questions précédentes, calculer les fonctions de répar-tition de X(1), X(n), du couple (X(1), X(n)) et la loi de la statistique W = X(n)−X(1) (onappelle W étendue). Les variables X(1) et X(n) sont–elles indépendantes ?

**********************

Correction de l’exercice 1.7

1. Comme les Xi ont des densités par rapport à Lebesgues, on a Xi 6= Xj λ−p.p.. Alors p.p.

f(X(1), . . . , X(n)) =∑

σ∈P(n)

f(Xσ(1), . . . , Xσ(n))I(Xσ(1) < · · · < Xσ(n)).

Soit σ ∈ P(n). Comme les Xi sont i.i.d., on voit que (Xσ(1), . . . , Xσ(n))> ∼ (X1, . . . , Xn)>. Alors,

pour tout f ∈ Cb(Rn),

Ef(Xσ(1), . . . , Xσ(n))I(Xσ(1) < · · · < Xσ(n)) = Ef(X1, . . . , Xn)I(X1 < · · · < Xn)

=

∫Rn

f(x1, . . . , xn)(

Πni=1f(xi)

)I(x1 < · · · < xn)dx1 · · · dxn.

On en déduit que la loi de (X(1), . . . , X(n)) admet une densité par rapport à Lebesgue donnéepar

f(x1, . . . , xn) = n!(

Πni=1f(xi)

)I(x1 < · · · < xn).

2. On calcul la fonction de répartition de X(k). Soit t ∈ R,

P[X(k) ≤ t] = P[∃I ⊂ 1, . . . , n : |I| ≥ k, ∀i ∈ I,Xi ≤ t

]= P[M ≥ k]

où M =∑n

i=1 I(Xi ≤ t) est une multinomiale de paramétre n et P[X1 ≤ t] = F (t). On a donc

P[X(k) ≤ t] =n∑j=k

(n

j

)F (t)j(1− F (t))n−j .

Comme F est absoluement continue la cdf de X(k) l’est aussi. Donc X(k) admet une densité parrapport à Lebesgues donnée par :

f(t) =n∑j=k

(n

j

)(jf(t)F (t)j−1(1− F (t))n−j + (n− j)F (t)j(−f(t))(1− F (t))n−j−1

)=

n!

(k − 1)!(n− k)!F (t)k−1(1− F (t))n−k.

3. La fonction de répartition de X(1) vérifie :

1− FX(1)(t) = P[X(1) > t] = P[X1 > t, . . . ,Xn > t] =

(P[X1 > t]

)n=(1− F (t)

)n.

La fonction de répartition de X(n) est donnée par :

FX(n)(t) = P[X(n) ≤ t] = P[X1 ≤ t, . . . ,Xn ≤ t] =

(P[X1 ≤ t]

)n=(F (t)

)n.

1 RAPPELS DE PROBABILITÉS 9

ENSAE Statistiques mathématiques

Pour la fonction de répartition du couple (X(1), X(n)), on calcul la répartition du couple (X(1), X(n))

dans le quadrant inférieur droit. On a pour tout x, y réels :

P[X(1) > x,X(n) ≤ y] = P[x < X1 ≤ y, . . . , x < Xn ≤ y]

=(P[x < X1 ≤ y]

)n= I(x ≤ y)

(F (y)− F (x)

)n.

On a :P[X(1) > x,X(n) ≤ y] + P[X(1) ≤ x,X(n) ≤ y] = P[X(n) ≤ y] = F (y)n.

Alors,F (x, y) = P[X(1) ≤ x,X(n) ≤ y] = F (y)n − I(x ≤ y)

(F (y)− F (x)

)n.

La densité de (X(1), X(n)) est donnée par

f(x, y) =∂2F

∂x∂y(x, y) = n(n− 1)I(x ≤ y)f(x)f(y)

(F (y)− F (x)

)n−2.

La loi de la statistique W = X(n) −X(1) est donnée par ce qui suit. Soit f ∈ Cb(R), on a

Ef(W ) =

∫R2

f(y − x)dP(X(1),X(n))(x, y)

= n(n− 1)

∫R2

f(y − x)I(x ≤ y)(F (y)− F (x)

)n−2dxdy

=

∫ ∞0

f(u)(n(n− 1)

∫R

(F (u+ x)− F (x)

)n−2dx)du.

Alors W a pour densité

u 7→ I(u ≥ 0)n(n− 1)

∫R

(F (u+ x)− F (x)

)n−2dx.

Les variables X(1) et X(n) sont indépendantes si et seulement si pour tout x et y, on a

F (y)n − I(x ≤ y)(F (y)− F (x)

)n= P[X(1) ≤ x,X(n) ≤ y]

= P[X(1) ≤ x]P[X(n) ≤ y] =(

1− (1− F (x))n)F (y)n.

Il faut donc I(x ≤ y)(F (y)−F (x)

)n=(F (y)−F (y)F (x)

)n pour tout x, y. Ce qui n’est pas vraien générale.

**********************

Exercice 1.8 (Durée de vie)Un système fonctionne en utilisant deux machines de types différents. Les durées de vie

X1 et X2 des deux machines suivent des lois exponentielles de paramètres λ1 et λ2. Lesvariables aléatoires X1 et X2 sont supposées indépendantes.

1. Montrer queX

Loi= E(λ)⇔ ∀x > 0,P(X > x) = exp(−λx).

1 RAPPELS DE PROBABILITÉS 10

ENSAE Statistiques mathématiques

2. Calculer la probabilité pour que le système ne tombe pas en panne avant la date t.En déduire la loi de la durée de vie Z du système. Calculer la probabilité pour quela panne du système soit due à une défaillance de la machine 1.

3. Soit I = 1 si la panne du système est due à une défaillance de la machine 1, I = 0

sinon. Calculer P(Z > t; I = δ), pour tout t ≥ 0 et δ ∈ 0, 1. En déduire que Z et Isont indépendantes.

4. On dispose de n systèmes identiques et fonctionnant indépendamment les uns desautres dont on observe les durées de vie Z1, . . . , Zn.(a) Écrire le modèle statistique correspondant. A-t-on suffisamment d’informationpour estimer λ1 et λ2 ?(b) Si on observe à la fois les durées de vie des systèmes et la cause de la défaillance(machine 1 ou 2), a-t-on alors suffisamment d’information pour estimer λ1 et λ2 ?

5. On considère maintenant un seul système utilisant une machine de type 1 et unemachine de type 2, mais on suppose que l’on dispose d’un stock de n1 machinesde type 1, de durées de vie X1

1 , . . . , Xn11 et d’un stock de n2 machines de type 2, de

durées de vie X12 , . . . , X

n22 . Quand une machine tombe en panne, on la remplace par

une machine du même type, tant que le stock de machines de ce type n’est pasépuisé. Quand cela arrive, on dit que le système lui-même est en panne. On notetoujours Z la durée de vie du système. Le cas n1 = n2 = 1 correspond donc aux troispremières questions.(a) Montrer que la densité de la somme U de k variables indépendantes qui suiventune loi exponentielle de même paramètre λ s’écrit, pour x ≥ 0 :

fU (x) =λk

(k − 1)!xk−1exp(−λx).

(b) Écrire Z en fonction des Xji et en déduire P(Z ≥ t) en fonction n1, n2, λ1, λ2 et t.

**********************

Correction de l’exercice 1.8

1. Par définition, une v.a.r. suit une loi exponentielle E(λ) quand elle admet une densité de la formfλ : x ∈ R 7→ λ exp(−λx)I(x > 0). Si X ∼ E(λ) alors, pour tout x > 0,

P[X > x] =

∫ ∞x

λ exp(−λx)dx = exp(−λx).

Réciproquement, siX est une v.a.r. telle que pour tout x > 0 ,1−FX(x) = P[X > x] = exp(−λx).Alors X est portée sur R+ et comme FX est dérivable, X admet une densité donnée par F ′X càdx 7→ λ exp(−λx)I(x > 0). C’est donc une variable exponentielle.

2. On note par Z la durée de vie du systéme. On a donc Z > t ssi X1 > t et X2 > t et donc parindépendance

P[Z > t] = P[X1 > t ∩ X2 > t] = P[X1 > t]P[X2 > t] = exp(− (λ1 + λ2)t

).

1 RAPPELS DE PROBABILITÉS 11

ENSAE Statistiques mathématiques

Donc Z ∼ E(λ1 + λ2). Par ailleurs, la machine sera en panne due à l’élément 1 quand X1 < X2.On calcul P[X1 < X2] :

P[X1 < X2] = EI(X1 < X2) =

∫R2+

I(x1 < x2)fλ1(x1)fλ2(x2)dx1dx2

=

∫ ∞0

fλ1(x1)(∫ ∞

x1

fλ2(x2)dx2

)dx1 =

∫ ∞0

fλ1(x1) exp(−λ2x1)dx1

=

∫ ∞0

λ1 exp(− (λ1 + λ2)x1

)dx1 =

λ1λ1 + λ2

.

3. [I = 1 ssi X1 < X2] et [I = 0 ssi X1 > X2]. On a

P[Z > t ∩ I = 1] = P[X1 ∧X2 > t ∩ X1 < X2] = P[t < X1 < X2]

=

∫ ∞t

λ1 exp(− (λ1 + λ2)x1

)dx1 =

λ1λ1 + λ2

exp(−(λ1 + λ2)t) = P[Z > t]P[I = 1]

Par symmétrie,

P[Z > t|I = 0] = P[X1 ∧X2 > t|X1 > X2] = P[X1 > X2 > t]

=λ2

λ2 + λ1exp

(− (λ1 + λ2)t

)= P[I = 0]P[Z > t].

On en déduit que Z et I sont indépendantes.

4. a) Le modéle statistique est E(λ1 + λ2)⊗n : λ1, λ2 > 0. Ce modèle n’est pas identifiable en le

paramétre (λ1, λ2).

4. b) On observe (X1i ∧X2i, Ii) ou Ii = 1 si X1i < X2i et Ii = 0 sinon. On peut estimer la moyenne deZ par n−1

∑ni=1 Zi et on peut estimer la moyenne de I par n−1

∑ni=1 Ii. On peut donc estimer

λ1 + λ2 et λ1/(λ1 + λ2). On peut donc estimer λ1 et λ2.

**********************

Exercice 1.9 (Lemme de Fatou)si (fn) est une suite de fonctions measurables alors∫

liminfn fn ≤ liminfn

∫fn.

En déduire que si (An) est une suite d’événements alors

limsupn P(An) ≤ P(limsupnAn),

où on rappelle que limsupnAn = ∩N ∪n≥N An.

**********************

Correction de l’exercice 1.9

1. Pour tout n ∈ N, on note gn = infp≥n fp. La suite (gn) est monotone et converge presque surementvers liminfn fn. Le théorème de convergence monotone donne :

limn

∫gn =

∫limngn =

∫liminfn fn.

1 RAPPELS DE PROBABILITÉS 12

ENSAE Statistiques mathématiques

Par ailleurs, on a pour tout n ∈ N,∫gn =

∫infp≥n

fp ≤ infp≥n

∫infp≥n

fp.

Par convergence des deux membres, on peut passer à la limite et obtenir le résultat.

2. On utilise le lemme de Fatou pour fn = 1 − 1An = 1Acn. On a liminfn fn = 1liminfn Ac

net(

liminfnAcn

)c= limsupnAn donc

1− P[limsupnAn] = P[liminfnAcn] ≤ liminfn P[Acn].

**********************

Exercice 1.10 (la loi du 0− 1 de Kolmogorov)Soit (σn) une suite de tribus indépendantes. La tribu asymptotique est σ∞ = ∩nσ

(∪p≥nσp

).

La loi du 0− 1 de Kolmogorov dit que pour tout A ∈ σ∞, P[A] ∈ 0, 1.

**********************

Correction de l’exercice 1.10 On note αn = σ(∪p≥n σp

)et βn = σ

(∪p<n σp

). Les deux tribus αn

et βn sont indépendantes. Comme σ∞ ⊂ αn alors σ∞ est indépendantes de βn pour tout n. Notamment,σ∞ est indépendante de ∪n∈Nβn et donc de σ

(∪n βn

)= σ

(∪n σn

)= α0. Or σ∞ ⊂ α0 donc σ∞ est

indépendante d’elle même. En particulier, si A ∈ σ∞ alors P[A] = P[A]P[A] donc P[A] ∈ 0, 1.

**********************

Exercice 1.11 (convergence en loi vers une constante)La convergence en loi vers une constante implique la convergence en proba : On supposeXn c alors (Xn) converge en probabilité vers c.

**********************

Correction de l’exercice 1.11 On peut démontrer que (Yn) converge en loi vers Y si et seulementsi pour tout Borélien A PY -continue (càd P[∂A] = 0), on a PYn [A]→ PY [A].

Soit ε > 0. On a δc(B(c, ε)

)= 0. Alors PXn

[B(c, ε)

]→ δc(B(c, ε)) = 1. Donc P[|Xn − c| ≤ ε]→ 1.

C’est donc une convergence en probabilité vers c.

**********************

Exercice 1.12 (lemmes de Borel-Cantelli)

1. Le premier lemme de Borel-Cantelli dit que si (An) est une suite d’événements telleque

∑n P[An] <∞ alors P[limsupnAn] = 0.

2. Le deuxième lemme de Borel-Cantelli dit que si (An) est une suite d’événementsindépendants tels que

∑n P[An] =∞ alors P[limsupnAn] = 1.

**********************

1 RAPPELS DE PROBABILITÉS 13

ENSAE Statistiques mathématiques

Correction de l’exercice 1.12

1. On note Bn = ∪p≥nAp. On a P[Bn] ≤∑

p≥n P[Ap]. Alors par hypothèse,(P[Bn]

)tend vers 0 en

décroissant. Par convergence monotone, limn P[Bn] = P[limnBn] = P[infnBn] = P[liminfnAn].Donc P[liminf An] = 0.

2. Comme limsupnAn =(

liminfnAcn

)c, il suffit de montrer que P[liminfnAcn] = 0. On note Bn =

∩p≥nAp. La suite (Bn) est croissante et converge presque surement vers liminfnAcn. Alors, par

convergence monotone,(P[Bn]

)converge vers P[liminfnA

cn]. Par ailleurs, comme log(1−x) ≤ −x

pour x ∈ [0, 1),

P[Bn] = P[∩p≥nAcp] = Πp≥nP[Acp] = Πp≥n(1− P[Ap]

)= exp

(∑p≥n

log(1− P[Ap]

))≤ exp

(−∑p≥n

P[Ap])

= 0.

On en déduit le résultat.

**********************

Exercice 1.13 (L’asymptotique normalité implique la converge en probabilité)Soit (rn) une suite de réels positifs tendant vers +∞. Soit (ζn) une suite de v.a.r. telleque rn(ζn − µ) ζ. Alors (ζn) converge en probabilité vers µ.

**********************

Correction de l’exercice 1.13 On dit qu’une suite de v.a.r. (ζn) est tendue quand pour tout ε > 0,il existe Mε > 0 tel que pour tout n,P[|ζn| ≥ Mε] ≤ ε. Si une suite converge en probabilité alors elleest tendue. (Car on peut approcher la fonction I(· ∈ [−Mε,Mε]) par une suite croissante de fonctionscontinues bornées). Alors (rn(ζn − µ)) est tendue. Soit ε > 0 et Mε > 0 tels que supn∈N P[|ζn − µ| ≥Mε/rn] ≤ ε. Ce qui implique la convergence en probabilité car (rn) tend vers +∞.

**********************

Exercice 1.14 (quartile)Soit la loi de probabilité de densité f(x) = 2xI0 ≤ x ≤ 1.

1. Trouver les quartiles (y compris la médiane) de cette loi.

2. Considérons un échantillon i.i.d. (X1, . . . , Xn) de cette loi. Soit Fn la fonction derépartition empirique associée. Donner la loi limite de

√n(Fn(1/2)−1/4)/Fn(3/4) quand

n→∞., où Fn est la fonction de répartition empirique.

**********************

Correction de l’exercice 1.14

1. q1/4 = 1/2, q1/2 = 1/√

2 et q3/4 =√

3/2

2. Le tCL donne :√n(Fn(1/2)− F (1/2)

) N (0, F (1/2)(1− F (1/2)))

1 RAPPELS DE PROBABILITÉS 14

ENSAE Statistiques mathématiques

et la LFGN : Fn(3/4)p.s.−→ F (3/4). Comme F (1/2) = 1/4 et F (3/4) = 9/16, on obtient

√n(Fn(1/2)− F (1/2)

)Fn(3/4)

N(0,

16

27

)2 Vraisemblance, EMV, IC, Information de Fisher

**********************Exercice 2.1 (Modèle probit)Nous disposons d’une information relative au comportement de remboursement ou de

non-remboursement d’emprunteurs :

Yi =

1 si l’emprunteur i rembourse,0 si l’emprunteur i est défaillant.

Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Y ∗i nor-male, d’espérance m et de variance σ2, que l’on appellera « capacité de remboursementde l’individu i », telle que :

Yi =

1 si Y ∗i > 0,

0 si Y ∗i ≤ 0.

On note Φ la fonction de répartition de la loi normale N (0, 1).

1. Exprimer la loi de Yi en fonction de Φ.

2. Les paramètres m et σ2 sont-ils identifiables ?

**********************

Correction de l’exercice 2.1

1. On calcul la loi de Y tel que Y = 1 quand Y ∗ ≥ 0 et Y = 0 quand Y ∗ < 0 où Y ∗ ∼ N (m,σ2).La loi de Y est donnée par P[Y ∗ ≥ 0]δ1 +P[Y ∗ < 0]δ0. On note par ϕ la densité d’une gaussienneN (0, 1), en particulier, on a Φ(x) =

∫ x−∞ ϕ(t)dt. Le changement de variable (x−m)/σ → t donne

P[Y ∗ < 0] =

∫ 0

−∞ϕ(x−m

σ

)dxσ

=

∫ −m/σ−∞

ϕ(t)dt = Φ(−mσ

).

La loi de Y est donc (1− Φ(−m/σ2))δ1 + Φ(−m/σ2)δ0.

2. Les paramétres m et σ2 ne sont pas identifiable vu que n’importe quels couples (m1, σ21) et

(m2, σ22) tels que m1/σ

21 = m2/σ

22 donne la même loi pour Y .

**********************

Exercice 2.2 (Répartition de génotypes dans une population)Quand les fréquences de gènes sont en équilibre, les génotypes AA, Aa et aa se mani-

festent dans une population avec probabilités (1− θ)2, 2θ(1− θ) et θ2 respectivement, où θ

est un paramètre inconnu. Plato et al. (1964) ont publié les données suivantes sur le typede haptoglobine dans un échantillon de 190 personnes :

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 15

ENSAE Statistiques mathématiques

Type de haptoglobine Hp-AA Hp-Aa Hp-aaeffectifs 10 68 112

1. Comment interpréter le paramètre θ ? Proposez un modèle statistique pour ce pro-blème.

2. Calculez l’estimateur du maximum de vraisemblance θn de θ.

3. Donnez la loi asymptotique de√n(θn − θ).

4. Proposez un intervalle de confiance de niveau asymptotique 95% pour θ.

**********************

Correction de l’exercice 2.2

1. On propose deux modèlisations pour ces données. Seule la deuxième sera utilisée pour le traite-ment mathématique du problème.

Modèle 1 : On modèlise ce problème par une famille de n couples (δ(1)1 , δ

(2)1 ), . . . , (δ

(1)n , δ

(2)n ) où

les δ(j)i , i = 1, . . . , n, j = 1, 2 sont i.i.d. Bernoulli sur A, a de paramétre θ. On dit que δ(j)i = a

quand l’alléle a est présent chez l’individu i au gène numéro 2. On a donc bien le probabilitésdu génotype AA qui est (1 − θ)2, Aa qui est de probabilité 2θ(1 − θ) et aa qui est θ2. Dans cemodèle θ est la probabilité d’avoir l’alléle a pour chacun des deux gènes.

Modèle 2 : On peut modèliser ce problème par une famille de n variables aléatoires X1, . . . , Xn

i.i.d. à valeurs dans AA,Aa, aa telles que P[X = AA] = (1 − θ)2, P[X = Aa] = 2θ(1 − θ) etP[X = aa] = θ2. On choisit ce modèle pour la suite. On peut voir que X = δ(1), δ(2). Donc θs’interprète comme étant la probabilité d’avoir l’alléle a pour chacun des deux gènes.

2. Dans le modèle 2, la loi de X est Pθ = (1 − θ)2δAA + 2θ(1 − θ)δAa + θ2δaa, elle admet unedensité fθ par rapport à la mesure δAA + δAa + δaa qui est définie sur AA,Aa, aa donnée parfθ(AA) = (1− θ)2, fθ(Aa) = 2θ(1− θ) et fθ(aa) = θ2. La Log-vraisemblance est donnée par

L :θ ∈ (0, 1) 7−→n∑i=1

log fθ(Xi)

= Nn(AA) log[(1− θ)2] +Nn(Aa) log[2θ(1− θ)] +Nn(aa) log[θ2]

oùNn() est le nombre de génotypes dans l’échantillon X1, . . . , Xn. On a pour tout θ ∈ (0, 1),

L′(θ) =2n

θ− 1

θ(1− θ)[2Nn(AA) +Nn(Aa)

].

Alors l’estimateur du maximum de vraisemblance est donné par

θn = 1− 1

2n

[2Nn(AA) +Nn(Aa)

].

Ici, on a θn = 1− 22/95 ≈ 0.77.

3. On peut appliquere le TCL ou la méthode générale du cours sur la normalité asymptpotique desEMV. Pour le TCL, on a directement que

√n(θ − θn

)=√n( 1

n

n∑i=1

(I(Xi = AA) + (1/2)I(Xi = Aa)

)− (1− θ)

) N

(0,θ − θ2

2

)

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 16

ENSAE Statistiques mathématiques

carE(I(X = AA) + (1/2)I(Z = Aa)

)= (1− θ)2 + θ(1− θ) = 1− θ

et

E(I(X = AA) + (1/2)I(Z = Aa)

)2= 1− 3θ

2+θ2

2

alors

var(I(X = AA) + (1/2)I(Z = Aa)) =θ − θ2

2.

4. On applique la méthode Delta. On chercher une fonction g telle que pour tout θ ∈ (0, 1), on a :

g′(θ)2θ − θ2

2= 1

alors g(θ) = 2√

2arcsin(√θ). On applique la méthode Delta : (

√n(g(θn)− g(θ))) converge en loi

vers N (0, 1). Alors si P[|G| ≤ zα] = 1−α, où G est Gaussienne Standard, on aura, quand n tendvers ∞,

P[θn ∈ g−1

([g(θ)− zα/

√n, g(θ) + zα/

√n])]→ 1− α.

**********************

Exercice 2.3 (Modèle d’autorégression)On considère les observations X1, . . . , Xn, où les Xi sont issus du modèle d’autorégression

d’ordred 1 :Xi = θXi−1 + ξi, i = 1, . . . , n, X0 = 0, (2)

où ξi i.i.d. de loi normale N (0, σ2) et θ ∈ R.

1. Explicitez l’expérience statistique associèe à la donnée (X1, . . . , Xn).

2. Calculez l’estimateur du maximum de vraisemblance θn de θ pour ce modèle.

**********************

Correction de l’exercice 2.3

1. Une expérience statistiques est un triplet de la forme :

E =(Z,Z, Pθ : θ ∈ Θ

)où Z est l’espace des observations, Z est la tribu sur l’espace des observations et Pθ : θ ∈ Θ estle modèle : c’est l’ensemble des mesures de probabilités dont on suppose a priori que les donnéessont issues.

Ici, on a Z = Rn qui est muni de sa tribu des Boréliens Z. Le modèle est donné par l’équationd’autorégression : Xi = θXi−1+ζi où ζi sont i.i.d. N (0, σ2). Pour le modèle, on suppose connu σ2.Ainsi le modèle est seulement paramétré par θ (sinon, il serait paramétré par (θ, σ2)). La loi Pθ estdonc la loi de (X1, X2, . . . , Xn) sous l’hypothèse "AR(1)" de l’équation 2. On a PXi|Xi−1,...,X1

θ =

PXi|Xi−1

θ ∼ N (θXi, σ2). On montre par récurrence que

Pθ = P(X1,...,Xn)θ = fθ.λ

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 17

ENSAE Statistiques mathématiques

où λ est la mesure de Lebesgues sur Rn et fθ est une fonction de densité définie sur Rn pour tout(x1, . . . , xn) ∈ Rn par :

fθ(x1, . . . , xn) = f(x1)f(x2 − θx1)f(x3 − θx2) · · · f(xn − θxn−1)

où f est la densité d’une Gaussienne de moyenne nulle et de variance σ2. Pour la recurrence, onutilise l’identité P(X,Y ) = PX ⊗ PY |X .

2. La fonction de Log-vraisemblance est donnée par :

L :

R → Rθ 7→ log fθ(X1, . . . , Xn) = log f(X1) +

∑n−1i=1 log f(Xi+1 − θXi).

où f(x) = (σ√

2π)−1/2 exp(− x2/(2σ2)

). Alors pour tout θ,

L(θ) =−n log

(σ√

2π)

2− X2

1

2σ2+n−1∑i=1

(Xi+1 − θXi)2

2σ2

et aussi

L′(θ) =

n−1∑i=1

−Xi(Xi+1 − θXi)

σ2= σ−2

n−1∑i=1

X2i −

n−1∑i=1

XiXi−1

).

Alors l’EMV est donné par :

θn =( n−1∑i=1

XiXi−1

)/( n−1∑i=1

X2i

).

**********************

Exercice 2.4 (Durées de connection)On peut modéliser la durée d’une connection sur le site www.Cpascher.com par une loi

gamma(2, 1/θ) de densitéθ−2xe−x/θ1[0,+∞[(x).

Pour fixer vos tarifs publicitaires, vous voulez estimer le paramètre θ à partir d’un échan-tillon X1, . . . , Xn de n durées de connexion. On vous donne Eθ(Xi) = 2θ et varθ(Xi) = 2θ2.

1. Calculez l’estimateur du maximum de vraisemblance θn de θ.

2. Que vaut E(θn) ? Quelle est la variance de θn ?

**********************

Correction de l’exercice 2.4

1. On note par fθ la densité donnée pour tout x ∈ R, par fθ(x) = θ−2xe−x/θI(x ≥ 0). La log-vraisemblance du modèle est la fonction L : θ ∈ R∗+ 7−→

∑ni=1 log fθ(Xi). On a pour tout θ > 0,

L(θ) = −2n log θ +n∑i=1

logXi −n

θXn,

où Xn = n−1∑

iXi. Alors L′(θ) = −2nθ−1+nθ−2Xn et donc θn ∈ argmaxθ>0L(θ) = (1/2)Xn.

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 18

ENSAE Statistiques mathématiques

2. Eθn = θ. Pour la variance, on a

var(θn) =1

4nvar(X1) =

EX2 − (EX)2

4n=

2θ2

4n.

**********************

Exercice 2.5 (Taux de défaillance)Une chaîne de production doit garantir une qualité minimale de ses produits. En parti-

culier, elle doit garantir que la proportion θ des produits défaillants reste inférieure à untaux fixé par le client. Un échantillon de n produits est prélevé et analysé. On note θn laproportion de produits défectueux dans l’échantillon.

1. Proposer un modèle statistique pour ce problème. Quelle est la loi de nθn ?

2. Quelle information donne la loi des grand nombres et le théorème centrale limite surle comportement asymptotique de θn ?

3. On donne P(N > 1.64) = 5% pour N ∼ N (0, 1). En déduire εn (dépendant de n et θ)tel que P(θ ≥ θn + εn)

n→∞→ 5%.

4. La valeur εn précédente dépend de θ. A l’aide du lemme de Slutsky, donner ε′n nedépendant que de n et θn tel que P(θ ≥ θn + ε′n)

n→∞→ 5%.

**********************

Correction de l’exercice 2.5

1. On modélise ce problème par une famille de n variables de Bernoulli δ1, . . . , δn i.i.d. telle queP[δi = 1] = θ = 1 − P[δi = 0]. Où δi = 1 signifie que le i-iéme produit prélevé est défaillant etδi = 0 signifie qu’il n’est pas défaillant. On a donc θn = 1

n

∑ni=1 δi. En particulier, nθ =

∑ni=1 δi

donc pour tout 0 ≤ k ≤ n,

P[nθn = k

]=

(n

k

)θk(1− θ)n−k.

On reconnaît la loi d’une multinomiale de paramétre n, θ.

2. La loi des grands nombres assure que (θn) converge presque surement vers Eδ = θ. Commevar(δ) = Eδ2 − (Eδ)2 = θ − θ2, le TCL dit que

√n(θn − θ) N (0, (θ − θ2)).

3. Le TCL dit que, quand n tend vers l’infini,

P[θ ≥ θn + ε

√θ − θ2n

]= P

[√ n

θ − θ2(θ − θn) ≥ ε

]−→ P[g ≥ ε].

Si on choisit ε > 0 tel que P[g ≥ ε] = 5%, on obtient le résultat pour εn =√

(θ − θ2)/nε.

4. La fonction x 7→√

1/(x− x2) est continue sur (0, 1) alors si θ ∈ (0, 1), comme θn converge presquesurement vers θ, il existe un N ∈ N tel que pour tout n ≥ N , θn ∈ (0, 1) p.s. et donc (f(θn))n≥N

est p.s. définie et elle converge vers f(θ) presque surement. Comme√n(θ − θn) converge en loi

vers N (0, θ− θ2) et (f(θn))n≥N converge presque surement vers f(θ), on en déduit par le lemme

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 19

ENSAE Statistiques mathématiques

de Slutsky que(f(θn)

√n(θ− θn)

)n≥N converge en loi vers f(θ)N (0, θ−θ2) = N (0, 1). On définit

la suite de v.a. (ε′n) par

ε′n =

√θn − θ2nn

ε.

On a alors :P[θ ≥ θn + ε′n

]= P

[f(θn)

√n(θ − θn) ≥ ε

]−→ P[g ≥ ε] = 5%.

**********************

Exercice 2.6 (Cas des défaillances rares)La chaîne produit des composants électroniques utilisés dans le secteur aéronautique. Le

taux de défaillance doit donc être très bas. En particulier, comme la taille de l’échantillonne peut être très grosse (question de coût), il est attendu que θ soir du même ordrede grandeur que 1/n. On supposera donc par la suite que la proportion de composantsdéfectueux est θn = λ/n pour un certain λ > 0 et on cherche à estimer λ par λn = nθn. Lavaleur λ est supposée indépendante de n (le cas intéressant est quand λ est petit).

1. Quelle est la limite de P(λn = k) lorsque n→ +∞ ? En déduire que λn converge en loivers une variable de Poisson de paramètre λ.

2. On suppose qu’il y a une proportion θn = 3/n de composants défectueux. Sachantque P(Z = 0) ≈ 5% pour Z de loi de Poisson de paramètre 3, montrer que P(θn >

θn + 2/n) ≈ 5% pour n grand.

**********************

Correction de l’exercice 2.6

1. On rappel qu’une variable de Poisson Z de paramétre λ est portée par N telle que pour toutk ∈ N, P[Z = k] = (λk/k!)e−λ. On note par δ1, . . . , δn des Bernoulli de paramétre θ = λ/n. Pourtout 0 ≤ k ≤ n, on a

P[λn = k] = P[ n∑i=1

δi = k]

=

(n

k

)θk(1− θ)n−k =

(n

k

)(λn

)k(1− λ

n

)n−k=

n!

k!(n− k)!

(1− λ

n

)n(nλ− 1)−k

=λk

k!

(1− λ

n

)n n!

(n− k)!(n− λ)−k.

Comme (1 − λ/n)n tend vers e−λ, il suffit de prouver que n!(n−k)!(n − λ)−k tend vers 1 quand n

tend vers +∞. La formule de Stirling est : quand n tend vers +∞, n! ∼√

2πn(ne

)n. Alors, on a

n!

(n− k)!(n− λ)−k ∼

(1 +

k

n− k

)ne−k(n− λn− k

)kqui converge bien vers 1. Donc λn converge en loi vers une variable de Poisson de paramétre λ.

2. Comme λn converge en loi vers une Poisson de paramétre 3. On a en particulier, quand n tendvers l’infini,

P[θn > θn + 2/n] = P[1 > λn] −→ P[Z = 0] ≈ 5%.

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 20

ENSAE Statistiques mathématiques

**********************

Exercice 2.7 (Information de Fisher : entraînement)Dans les modèles suivants, calculer l’information de Fisher associée aux n observations (sielle est bien définie), l’estimateur du maximum de vraisemblance et sa loi asymptotique :

1. X1, . . . , Xni.i.d∼ B(θ).

2. X1, . . . , Xni.i.d∼ N (m, v).

3. X1, . . . , Xni.i.d∼ U [0, θ].

**********************

Correction de l’exercice 2.7 On rappelle les formules du cours pour le calcul de l’information deFisher :

In(θ) = nI1(θ) = nEθ∇θ log f(θ,X)∇ log f(θ,X)> = −nEθ∇2θ log f(θ,X) = −n∇2

aD(a, θ)|a=θ

où D(a, θ) = Eθ[log f(a,X)]. En utilisant une des trois formules précédentes, on obtient dans lesdifférents modèles :

1. modèle de Bernoulli :In(θ) =

n

θ(1− θ).

L’EMV est ici la moyenne empirique et on vérifie bien qu’il est asymptotiquement normal devariance asymptotique l’inverse de l’information de Fisher (grâce au TCL).

2. modèle Gaussien (moyenne et variance inconnues) :

In(m, v) =

(nv 0

0 n2v2

).

L’EMV est ici (Xn, σ2n) oùXn = 1

n

∑iXi et σ2n = 1

n

∑i(Xi−Xn)2. L’EMV est asymptotiquement

normal (soit parce que le modèle est régulier, soit en appliquant le TCL, méthode Delta et Slutskyen dimension 2) de variance asymptotique l’inverse de l’info de Fisher.

3. modèle uniforme : ce modèle n’est pas régulier – en particulier l’info de Fisher n’est pas défi-nie (de manière classique). On peut néanmoins calculer, l’EMV qui est θ mv

n = maxiXi et soncomportement asymptotique en étudiant sa fonction de répartition :

Pθ[n(θ − θ mv

n )

θ> x

]= Pθ

[∀i = 1, . . . , n :

n(θ −Xi)

θ> x

]=

1 si x < 0(

1− xn

)nquand 0 < x < n

0 sinon

car pour tout i, sous Pθ, (θ −Xi)/θ ∼ U([0, 1]). Alors quand n→∞, on obtient :

limn→+∞

Pθ[n(θ − θ mv

n )

θ> x

]=

1 si x < 0

exp(−x) quand x > 0

doncn(θ − θ mv

n )

θ E(1)

où E(1) est une loi exponentielle de paramètre 1.

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 21

ENSAE Statistiques mathématiques

3 Tests

**********************Exercice 3.1 (Test de Neyman-Pearson)Chercher la région de rejet du test de Neyman-Pearson dans les cas suivants.

1. Loi exponentielle E(θ). Test de θ = θ0 contre θ = θ1 avec θ1 > θ0.

2. Loi de Bernoulli B(θ). Test de θ = θ0 contre θ = θ1 pour θ1 > θ0. Quel problèmerencontre-t-on dans ce cas ?

**********************

Correction de l’exercice 3.1

1. La vraisemblance en θ du modèle est

L(θ, (Xi)i) =

n∏i=1

θ exp(−θXi) = θn exp(− θ

∑i

Xi

).

Le rapport de vraisemblance est

L(θ0, (Xi)i)

L(θ1, (Xi)i)= exp

(− (θ0 − θ1)

∑i

Xi

).

Le rapport de vraisemblance est donc une fonction croissante de Xn (on a ici θ1 > θ0). Alors, letest de Neyman-Pearson de niveau α est de la forme :

ϕα((Xi)i) =

H0 quand Xn ≥ tαH1 sinon

où tα est un seuil à choisir tel quePθ0 [Xn < tα] = α.

On sait qu’une telle solution existe car Xn est une v.a.r. admettant une densité par rapport à lamesure de Lebesgue. Néanmoins, cette quantité reste difficile à calculer, on préféra alors fixer leseuil de manière asymptotique vue que Xn est asymptotiquement Gaussien (par le TCL).

2. Comme précédemment, il suffit de calculer la vraisemblance et le rapport de vraisemblance dansce modèle. On a pour la vraisemblance :

L(θ, (Xi)i) =

n∏i=1

θXi(1− θ)1−Xi .

Le rapport de vraisemblance est

L(θ0, (Xi)i)

L(θ1, (Xi)i)=(θ0θ1

)∑iXi(1− θ0

1− θ1

)∑i(1−Xi)

.

Le rapport de vraisemblance est donc une fonction décroissante de Xn (on a ici θ1 > θ0). Alors,le test de Neyman-Pearson de niveau α est de la forme :

ϕα((Xi)i) =

H0 quand Xn ≤ tαH1 sinon

3 TESTS 22

ENSAE Statistiques mathématiques

où tα est un seuil à choisir tel quePθ0 [Xn > tα] = α.

Ici, cette équation n’admet pas nécessairement de solution car Xn est une variable discrète. Dansce cas, on peut avoir recours à des tests “randomizés” (hors programme), mais on préférera fixerle seuil tα de manière asymptotique vue que Xn est asymptotiquement Gaussien.

**********************

Exercice 3.2 (Test de Wald)Lors des essais d’un type d’appareils ménagers, une association de consommateurs envi-

sage les 3 issues suivantes : fonctionnement normal, mauvais fonctionnement et défaillance.Les probabilités de fonctionnement normal et de défaillance sont égales à p2 et à (1− p)2

respectivement, où p ∈]0, 1[ est un paramètre inconnu. Pour un échantillon de n = 200

appareils, on a observé que 112 appareils fonctionnent normalement, 12 sont défaillantset 76 fonctionnent mal. A partir de ces données, on cherche à inférer le paramètre p.

1. Proposer un modèle statistique pour ce problème.

2. Chercher l’estimateur du maximum de vraisemblance pn de p. Montrer qu’il estconsistant et donner la loi limite de

√n(pn − p) quand n→∞.

3. À l’aide du test de Wald, tester l’hypothèse que p = 1/2 contre l’alternative p 6= 1/2

(on donnera la forme de la région critique et la p-value du test). On suppose connuesles valeurs de la fonction de répartition de la loi normale standard.

**********************

Correction de l’exercice 3.2

1. C’est le modèle d’échantillonnage P⊗np : 0 < p < 1 où

Pp = p2δN + 2p(1− p)δMF + (1− p)2δD

où N signifie normal, MF signifie mauvais fonctionnement et D signifie défaillant.

2. On note par #N, #MF, #D le nombre d’appareils dans chacune des trois catégories. On a #MF =

n−#N −#D.

La vraisemblance en p du modèle est

L(p, (Xi)i) =

n∏i=1

[p2I(Xi = N) + 2p(1− p)I(Xi = MF ) + (1− p)2I(Xi = D)

]= (p2)#N [2p(1− p)]#MF [(1− p)2]#D.

et la log-vraisemblance est

`n(p, (Xi)i) = log( p

1− p

)[#N −#D] + (#D −#N) log 2 + n log[2p(1− p)].

En étudiant la fonction de log-vraisemblance, on voit que la vraisemblance est maximale en

pn =1

2

(#N −#D

n+ 1),

3 TESTS 23

ENSAE Statistiques mathématiques

qui est donc l’estimateur du maximum de vraisemblance. Par la loi forte des grands nombres, ona :

#N

n−→

n→+∞p2, et

#D

n−→

n→+∞(1− p)2

et donc pn −→n→+∞

p, càd pn est consistant. L’étude du comportement asymptotique de pn sedéduit du TCL :

#N −#D

n=

1

n

n∑i=1

I(Xi = N)− I(Xi = D) :=1

n

n∑i=1

Zi

et√n(Zn − EZ1

) N (0,VarZ1). On obtient alors :

√n(pn − p

)=

√n

2

(Zn − EZ1

) N

(0,p(1− p)

2

)3. On considère le problème de test

H0 : p =1

2contre H1 : p 6= 1

2.

La forme du test de Wald pour ce problème de test est

ϕα((Xi)i) =

H0 quand Tn ≤ tαH1 sinon

où tα est un seuil à choisir tel que le niveau asymptotique du test est α et la statistique du testTn est donnée ici par :

Tn =√

8n|pn − 1/2|.

Sous H0, on a Tn N (0, 1). On prend alors tα = qN (0,1)1−α/2 .

Sous H1, on a Tn −→n→+∞

+∞ donc le test est consistant.

(rem. : le test de Wald utilise T 2n pour statistique du test (ce qui fait intervenir une χ2(1) en loi

limite). Mais, en dimension d = 1, on peut utiliser directement Tn, les deux tests sont identiques :dans le premier cas la zone de rejet est T 2

n > qχ2(1)1−α et dans le deuxième cas elle vaut Tn > q

N (0,1)1−α/2 .

Ces deux zones sont identiques.

Numériquement, on obtient pn = 0.5∗ ((112−12)/200+1) = 0.75 et Tn =√

200 ∗ 8|0.75−1/2| =10. La p-value est P[|g| > 10] qui est très petite ; on va donc rejeter avec confiance.

**********************

Exercice 3.3 (Test de support)

Soient X1, . . . , Xn de loi U [0, θ] et M = max(Xi), 1 ≤ i ≤ n. On cherche à tester H0 : θ = 1

contre H1 : θ > 1.

1. Pourquoi ne peut-on pas utiliser ici le test de Neyman-Pearson ?

2. On propose le test suivant : on rejette H0 lorsque M > c (c constante donnée).Calculer la fonction de puissance.

3 TESTS 24

ENSAE Statistiques mathématiques

3. Quelle valeur prendre pour c pour obtenir un niveau de 5% ?

4. Si n = 20 et que la valeur observée de M est 0.96, que vaut la p-value ? quelle conclu-sion tirer sur H0 ? Même question pour Mobs = 1.04.

**********************

Correction de l’exercice 3.3

1. Les densités n’ont pas même support. Le rapport de vraisemblance n’est donc pas défini.

2. La puissance d’un test est l’application qui mesure "le rejet à raison" : θ ∈ Θ1 → Pθ[rejet]. Etantdonné la zone de rejet considérée ici, la fonction puissance est donnée pour tout θ > 1 par

Pθ[maxXi > c] =

0 si c ≥ θ1 si c ≤ 0

1−(cθ )n sinon.

3. Pour avoir un niveau α ∈ (0, 1), il suffit de choisir c tel que Pθ=1[maxiXi > c] = α càd c =

(1− α)1/n. Pour α = 0.05, on prend c = (0.95)1/n.

4. Pour n = 20 et M = 0.96 la p-value vaut P1[maxiXi > 0.96] ≈ 0.56 : on va accepter H0. PourM = 1.04, la p-value vaut P1[maxiXi > 1.04] = 0 on rejete donc avec un très haut niveau deconfiance (c’est normal de rejeter vu qu’au moins un des Xi est plus grand que 1).

**********************

Exercice 3.4 (Peut-on retarder sa mort ?)On prétend couramment que les mourants peuvent retarder leur décès jusqu’à certains

événements importants. Pour tester cette théorie, Philips et King (1988, article parudans The Lancet, prestigieux journal médical) ont collecté des données de décès auxenvirons d’une fête religieuse juive. Sur 1919 décès, 922 (resp. 997) ont eu lieu la semaineprécédente (resp. suivante). Comment utiliser de telles données pour tester cette théoriegrâce à un test asymptotique ?

**********************

Correction de l’exercice 3.4

1. On modèlise ce problème par le modèle d’échantillonnage X1, . . . , Xni.i.d.∼ B(p) où

Xi =

1 si décés avant la fête0 sinon

p est donc la probabilité de décéder avant la fête.

2. Pour la construction du test, le choix des hypothèses est très important. L’idèe est de choisir leshypothèses telles que quand on rejette alors on obtient une information qui a de l’intérêt. Ici,on choisit les hypothèses telles que si on rejette alors on pourra dire que “les mourants peuvent

3 TESTS 25

ENSAE Statistiques mathématiques

retarder leur décés jusqu’à un certain événement important”. On choisit alors le problème detest :

H0 : p =1

2contre H1 : p <

1

2

3. La famille de Bernoulli est une famille à rapport de vraisemblance monotone : le rapport devraisemblance dépend de manière monotone de la moyenne empirique Xn. On va donc utiliser lamoyenne empirique pour construire la statistique de test. On considère le test

ϕα((Xi)i) =

H0 quand Tn ≥ tαH1 sinon

où Tn =√n(Xn−1/2).

— Sous H1 : pour tout p < 1/2, sous Pp, Tn tend p.s. vers −∞ (c’est pour ça qu’on a choisitcette forme de test).

— Pour le calcul du seuil tα, on veut :

limsupn→+∞

P1/2[Tn < tα] = α.

Sous p = 1/2 : Tn N (0, 1/4), on prend alors tα = qN (0,1)α /2.

4. numériquement, on obtient 2Tn = 2√

1919(922/1919 − 1/2

)≈ −1.712. La p-value du test est

P[g < −1.712] = 0.04 où g ∼ N (0, 1). On rejette donc l’hypothèse avec confiance. On en déduitque les gens “peuvent retarder leur mort”.

4 Modèle de régression

**********************Exercice 4.1 (Modèle de régression multiple)On considère le modèle de regression multiple

y = θ0e+Xθ + ξ, où E[ξ] = 0, E[ξξT ] = σ2In, e = (1, 1, . . . , 1)T

avec X une matrice n × k de rang k et y, ξ des vecteurs de Rn. Les paramètres θ0 ∈ R etθ ∈ Rk sont inconnus. On note θ0 et θ les estimateurs des moindres carrés de θ0 et θ.

1. On note y = θ0e+Xθ. Montrer que ¯y = y, où y (resp. ¯y) est la moyenne des yi (resp.des yi). En déduire que y = θ0 + Xθ où X = 1

neTX =

(X1, . . . , Xk

).

2. Montrer l’équation d’analyse de la variance :

‖y − ye‖2 = ‖y − y‖2 + ‖y − ye‖2.

En déduire que le coefficient de détermination

R2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

est toujours inférieur à 1.

4 MODÈLE DE RÉGRESSION 26

ENSAE Statistiques mathématiques

3. Supposons que Z = [e,X] est de rang k + 1. Calculez en fonction de Z la matrice decovariance de (θ0, θ). Comment accède-t-on à Var(θj), pour j = 0, . . . , p ?

4. On suppose dorénavant que θ0 = 0 et donc

y = Xθ + ξ, E[ξ] = 0, E[ξξT ] = σ2In.

L’estimateur des moindres carrés θ dans ce modèle est-il égal à θ ?

5. A-t-on la relation ¯y = y ? Que dire du R2 dans ce modèle ?

**********************

Correction de l’exercice 4.1

1. Par définition, l’estimateur des moindres carrés est donné par :

(θ0, θ)> ∈ argmin(θ′0,θ′)>∈R×Rk

∥∥y − θ′0e−Xθ′∥∥2 .Alors y = θ0e+Xθ est la projection orthogonale de y sur vect(e,X(1), · · · , X(k)) oùX(1), · · · , X(k)

sont les vecteurs colonnes de X. En particulier, pour tout θ′0 ∈ R, θ′ ∈ Rk, on a⟨y − y, θ′0e+Xθ′

⟩= 0.

En particulier, pour θ′0 = 1, θ′ = 0, on a⟨y − y, e

⟩= 0 et comme y = n−1

⟨y, e⟩(de même

¯y = n−1⟨y, e⟩), on a bien y = ¯y. De plus,

¯y = n−1⟨y, e⟩

= n−1⟨θ0e+Xθ, e

⟩= θ0 + Xθ

où X =(X(1), · · · , X(k)

).

2. ye est un élément de vect(e,X(1), · · · , X(k)). Comme y est le projeté orthogonal de y sur cetespace, on voit que y − y est orthogonal à ye− y. par Pythagore, on a

‖y − ye‖22 = ‖y − y‖22 + ‖y − ye‖22 .

On a donc

R2 =‖y − ye‖22‖y − ye‖22

≤ 1.

1. R2 = 1 signifie que y est dans vect(e,X(1), · · · , X(k)) (modèle sans bruit).

2. R2 = 0 signifie que y = ye. Donc y est orthogonal à vect(X(1), · · · , X(k)). AlorsX(1), · · · , X(k)

sont des mauvaises variables pour expliquer ou prédire y.

3. Soit Proj l’opérateur de projection sur vect(e,X(1), · · · , X(k)). On a Z(θ0, θ

)>= Proj(y). On a

pour tout θ′0 ∈ R, θ′ ∈ Rk,⟨y − Z

(θ0, θ

)>, Z(θ′0, θ

′)>⟩ = 0. Par ailleurs,⟨y − Z

(θ0, θ

)>, Z(θ′0, θ

′)>⟩ =⟨Z>y − Z>Z

(θ0, θ

)>,(θ′0, θ

′)>⟩.Donc Z>y = Z>Z

(θ0, θ

)>. Comme la matrice carrée Z>Z de taille k + 1 est de rang k + 1, elleest de rang plein donc inversible. Alors

(Z>Z

)−1Z>y =

(θ0, θ

)>.4 MODÈLE DE RÉGRESSION 27

ENSAE Statistiques mathématiques

On peux aussi voir que

(θ0, θ)> ∈ argminθ′0∈R,θ′Rk

∥∥y − θ′0e−Xθ′∥∥2 .Alors, (θ0, θ)

> minimise la fonction convexe F (u) = ‖y − Zu‖22 sur Rk+1. Alors (θ0, θ)> est

solution de F ′(u) = 0 càd Z>(y − Zu) = 0. Donc(Z>Z

)−1Z>y =

(θ0, θ

)>.La matrice de covariance de Θ := (θ0, θ)

> est donnée par

Σ = E[(

Θ− EΘ)(

Θ− EΘ)>]

.

L’espérance de Θ est donnée par

EΘ = E(Z>Z

)−1Z>y =

(Z>Z

)−1Z>Z

(θ0, θ

)>=(θ0, θ

)>.

On en déduit que (étant donné que Eζζ> = σ2In)

Σ = E(Z>Z

)−1Zζζ>Z

(Z>Z

)−1= σ2

(Z>Z

)−1.

Pour tout j = 0, . . . , k,

var(θj) = var(⟨ej ,(θ0, θ

)>⟩)= σ2e>j

(Z>Z

)−1ej = σ2

(Z>Z

)−1jj.

4. On a θ =(X>X

)−1X>y càd, θ est le projeté de y sur vect(X(1), . . . , X(k)). En général θ 6= θ

sauf quand e est orthogonal à vect(X(1), . . . , X(k)).

5. Si e /∈ vect(X(1), . . . , X(k)) alors on n’a pas⟨e, y − y

⟩= 0 donc y 6= ¯y. Dans ce modèle R2 n’a

pas de sens.

**********************

Exercice 4.2 (Régression Ridge)On considère le modèle de regression

Y(n,1)

= X(n,k)

θ(k,1)

+ ξ(n,1)

.

On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξT ] = σ2In,

1. On suppose que k > n. Que dire de l’estimation par moindres carrés ?

2. On appelle estimateur Ridge regression de paramètre de régularisation λ > 0 l’esti-mateur

θλ = arg minθ∈Rk

‖Y −Xθ‖2 + λ‖θ‖2

.

Exprimez θλ en fonction de X, Y et λ. Cet estimateur est-il défini pour k > n ?

3. Calculez la moyenne et la matrice de covariance de l’estimateur Ridge. Est-il sansbiais ?

4. On suppose maintenant que k = 1, ce qui correspond au modèle de régression simple.Montrer qu’il existe une valeur de λ telle que le risque de l’estimateur Ridge deparamètre λ est inférieur au risque de l’estimateur des MC.

4 MODÈLE DE RÉGRESSION 28

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 4.2 On peut voir la régression Ridge, comme une relaxation de la mé-thode MC dans le cas où les variables explicatives sont colinéaires (càd quand il y a de la redondanced’information dans les variables explicatives). Pour définir l’EMC de manière unique, on a besoin queX>X soit inversible. Dans ce cas θMC =

(X>X

)−1X>Y . Comme ker(X>X) = kerX, on a voit que

X>X est inversible si et seulement si les colonnes de X ne sont pas colinéaires. D’un point de vue sta-tistiques, des colonnes de X linéairement dépendantes signifie qu’il y a de la redondance d’informationparmi les variables explicatives. Par ailleurs, quand X>X est inversible mais que son conditionement(ratio plus grande valeur singulière sur plus petite valeur singulière) est grand alors un calcul effectifde l’EMC est difficile. On va donc considérer, un estimateur qui “régularise” l’EMC ou “conditionne”la matrice de Gram X>X. Pour cela, on va inverser X>X + λIk et ainsi considérer l’estimateur Ridge

θλ =(X>X + λIk

)−1X>Y.

Cet estimateur n’est plus sans biais mais il peut améliorer le risque quadratique de l’EMC. On peutvoir ça comme un compromis biais variance : on perd un peu sur l’espérance mais on gagne sur lavariance dans l’égalité

E(θλ)2

=(Eθλ − Eθ

)2+ var(θλ).

On doit aussi faire en sorte de bien choisir λ > 0. Ceci introduit le problème de la sélection deparamétre en statistique (et notamment la méthode de validation croisée).

1. Quand k > n, la matrice X : Rk 7→ Rn a un noyau et comme ker(X>X) = kerX, la matrice X>Xn’est plus inversible. On sait que l’EMC est défini comme solution de l’équation X>Xθ = X>Y

qui admet une infinité de solution (un espace affine dirigé par ker(X>X)). L’EMC n’est doncpas uniquement défini. On peut alors choisir parmi cet ensemble infini de solutions, une ayantcertaines propriétés supplémentaires. On va chercher celle ayant une petite norme 2.

2. On introduit la fonction

F (θ) = ‖Y −Xθ‖22 + λ ‖θ‖22 , ∀θ ∈ Rk.

Cette fonction est strictement convexe et tend vers l’infini quand ‖θ‖2 tend vers l’infini donc elleadmet un unique minimum θλ qui est solution de l’équation ∆F (θλ) = 0 càd −2X>(Y −Xθλ) +

2λθ = 0. On a doncθλ =

(X>X + λIk

)−1X>Y.

3. Le biais de l’ER est donné par :

Eθλ =(X>X + λIk

)−1X>θ

qui est différent de θ en général. Alors l’ER est en général un estimateur biaisé. La matrice decovariance est donnée par :

var(θλ) = (X>X + λk)−1

X>Eζζ>X(X>X + λk)−1

= σ2(X>X + λk)−1

X>X(X>X + λk)−1

.

4 MODÈLE DE RÉGRESSION 29

ENSAE Statistiques mathématiques

4. Pour k = 1, on écrit Y = Xθ + ζ où X est un vecteur de Rn. Dans ce cas X>X = ‖X‖22 alorsl’EMC et l’ER sont donnés par :

θ = θMC =

⟨X,Y

⟩‖X‖22

et θλ = θER =

⟨X,Y

⟩‖X‖22 + λ

.

Le risque quadratique de l’EMC est

E(θ − θ)2 = var(θ) = Eθ2 − (Eθ)2 =E⟨X,Y

⟩2‖X‖42

− θ2

=E⟨X,Xθ + ζ

⟩‖X‖22

− θ2 =σ2

‖X‖22.

La décomposition biais-variance du risque quadratique de l’ER donne :

E(θλ − θ

)2=(Eθλ − Eθ

)2+ var(θλ) =

( ‖X‖22 θ‖X‖22 + λ

− θ)2

+σ2 ‖X‖22(‖X‖22 + λ

)2 .En posant µ = λ/ ‖X‖22, on est amené à chercher µ > 0 tel que

( 1

1 + µ− 1)2θ2 +

(σ2/ ‖X‖22

)(1 + µ

)2 <(σ2/ ‖X‖22

)(3)

càd µ(θ2 −

(σ2/ ‖X‖22

))< 2(σ2/ ‖X‖22

). Si θ2 ‖X‖22 > σ2 alors pour tout λ tel que

λ <2σ2 ‖X‖22

θ2 ‖X‖22 − σ2,

le risque quadratique de l’ER est moindre que celui de l’EMC. Quand θ2 ‖X‖22 < σ2 alors pourtout λ > 0, le risque quadratique de l’ER est moindre que celui de l’EMC.

Le ratio θ2/σ2 (et en général pour tout k, ‖θ‖22 /σ2) est appelé le “signal sur bruit”. Quand ilest grand (θ2/σ2 > ‖X‖−22 ), il faut choisir λ assez petit et quand il est petit, l’ER est toujoursmeilleur (en terme de risque quadratique) que l’EMC pour n’importe quel λ.

**********************

Exercice 4.3 (Théorème de Gauss-Markov)On considère le modèle de regression

Y(n,1)

= X(n,k)

θ(k,1)

+ ξ(n,1)

.

On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξT ] = σ2In, Rang(X) = k. Onnote θ l’estimateur des MC de θ.

1. Montrer que θ est sans biais et expliciter sa matrice de covariance.

2. Soit θ un estimateur de θ linÈaire en Y , i.e., θ = LY pour une matrice L ∈ Rk×n

déterministe. Donner une condition nÈcessaire et suffisante sur L pour que θ soitsans biais. On supposera maintenant cette hypothËse vÈrifiÈe.

4 MODÈLE DE RÉGRESSION 30

ENSAE Statistiques mathématiques

3. Calculer la matrice de covariance de θ. En posant ∆ = L− (XTX)−1XT montrer que∆X = 0 et cov(θ) = cov(θ) + σ2∆∆T . En déduire que

E[(θ − θ)(θ − θ)T ] ≥ E[(θ − θ)(θ − θ)T ] (inégalité au sens matriciel).

4. En passant au risques quadratiques E[‖θ − θ‖2

]et E

[‖θ − θ‖2

], en déduire que l’es-

timateur des MC est optimal dans la classe de tous les estimateurs linéaires sansbiais.

**********************

Correction de l’exercice 4.3

1. Par définition, θ minimise F (u) = ‖y −Xu‖22 donc θ =(X>X

)>X>y. On remarque que

rang(X) = k donc n ≥ k et X est injective (donc X>X esy inversible : en effet, X>X est symmé-trique donc diagonalisable et si λ est une valeur propre de vecteur propre u alors ‖Xu‖22 = λ ‖u‖22,donc λ 6= 0 donc X>X est inversible).

On a donc Eθ =(X>X

)−1X>Ey =

(X>X

)−1X>Xθ = θ. Donc θ est bien un estimateur sans

biais. La matrice de covariance de θ est donnée par

Σ := E(θ − Eθ

)(θ − Eθ

)>=(X>X

)−1X>Eζζ>X

(X>X

)>= σ2

(X>X

)−12. On a ELY = LXθ. Pour que θ = LY soit sans biais, il faut et il suffit que LXθ = θ. Ceci étant

vrai pour tout θ, on doit avoir LX = Ik.

3. Σ = E((θ − θ)(θ − θ)>

)= Lvar(Y )L> = σ2LL>. Comme LX = Ik, on a :

∆X = LX −(X>X

)−1X>X = Ik − Ik = 0

et la covariance de θ est donnée par :

var(θ) = var(∆Y + θ) = var(∆Y ) + var(θ) + cov(θ,∆Y ) + cov(∆Y, θ)

σ2∆∆> + var(θ) + cov(θ,∆Y ) + cov(∆Y, θ).

Par ailleurs, comme ∆X = 0, on a E∆Y = 0 et

cov(∆Y, θ) = E[∆Y θ>

]= ∆E

[(Xθ + ζ)ζ>X(X>X)−1

]= 0

car Eζζ> = σ2In. De même cov(θ,∆Y ) = 0. On en déduit que

var(θ) = var(θ) + σ2∆∆> var(θ).

4. On a ∥∥∥θ − θ∥∥∥22

=k∑j=1

(θj − θj)2 =k∑j=1

e>j (θ − θ)(θ − θ)>ej

alors

E∥∥∥θ − θ∥∥∥2

2=

k∑j=1

ejvar(θ)ej

4 MODÈLE DE RÉGRESSION 31

ENSAE Statistiques mathématiques

de même E∥∥∥θ − θ∥∥∥2

2=∑k

j=1 ejvar(θ)ej . Mais d’après 3., on a var(θ) var(θ). Notamment, pour

tout j, e>j var(θ)ej e>j var(θ)ej . On a donc

E∥∥∥θ − θ∥∥∥2

2≥ E

∥∥∥θ − θ∥∥∥22.

5 Examen du lundi 26 octobre 2015

**********************Exercice 5.1 (Estimation de la variance et borne de Cramer-Rao)On considère le modèle d’échantillonnage X1, . . . , Xn

i.i.d.∼ N (0, θ) où θ > 0 (la variance)est le paramètre inconnu à estimer.

1. Calculer l’information de Fisher en θ > 0 contenue dans ce n-échantillon.

2. Déterminer l’estimateur du maximum de vraisemblance θ mvn de θ.

3. Calculer le biais b(θ) = Eθ θ mvn −θ et le risque quadratique Rθ(θ mv

n ) = Eθ(θ mvn −θ)2 de θ mv

n .

4. Rappeler la borne de Cramer-Rao pour ce problème. En déduire, que θ mvn atteint la

borne de Cramer-Rao parmi tous les estimateurs sans biais.

Rappel : si g ∼ N (0, 1) alors Eg4 = 3.

**********************

Correction de l’exercice 5.1

1. Soit θ > 0. L’information de Fisher contenue dans un n-échantillon vaut n fois celle contenuedans une seule donnée : In(θ) = nI1(θ). L’information de Fisher dans une donnée est :

I1(θ) = Eθ[(∂θ log f(θ,X)

)2]= Eθ

[(−1

2θ+X2

2θ2

)2]=

VarX2

4θ4=

1

2θ2.

2. La fonction de vraisemblance en θ > 0 est

L(θ, (Xi)i

)=( 1

2πθ

)n/2exp

(− −1

n∑i=1

X2i

)et donc la log-vraisemblance est

`n(θ, (Xi)i

)= −n

2log(2πθ)− 1

n∑i=1

X2i .

En étudiant la fonction `n, on voit que l’EMV est θ mvn = 1

n

∑ni=1X

2i .

3. la biais de θ mvn est b(θ) = Eθ θ mv

n −θ = EθX21 − θ = 0 (car EX1 = 0 donc VarX1 = EX2

1 ). Sonrisque quadratique est

Rθ(θmvn ) = Eθ(θ mv

n −θ)2 = Eθ( 1

n

n∑i=1

X2i − θ

)2=

VarX21

n=

2θ2

n.

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 32

ENSAE Statistiques mathématiques

4. La borne de Cramer-Rao dit que si θ est un estimateur de θ et si b(θ) = Eθθ − θ est le biais decet estimateur alors :

Eθ(θ − θ

)2 ≥ (1 + b′(θ))2

In(θ)+ b(θ)2.

En particulier, si θ est sans biais alors b(θ) = 0 et Rθ(θ) ≥ In(θ)−1 = 2θ2/n. Or le risquequadratique de θ mv

n est égal à 2θ2/n donc θ mvn atteint la borne de Cramer-Rao parmi tous les

estimateurs sans biais.

**********************

Exercice 5.2 (Estimateur on-line de la moyenne)Dans le modèle d’échantillonnage X1, . . . , Xn où E|X1| <∞, on note EX1 = θ ; construire :

1. un estimatuer batch de la moyenne θ

2. un estimateur on-line de la moyenne θ

**********************

Correction de l’exercice 5.2

1. Un estimateur batch est donné par la moyenne empirique Xn

2. Un estimateur on-line est donné par l’algorithme de Robbins-Monro pour les fonctions

f(x,X) = x−X et F (x) = Ef(x,X) = x− EX.

Comme x = EX est l’unique zéro de F , on est naturellement amené à considérer une méthodede Newton stochastique :

xk+1 = xk − ηn(xk −Xk+1).

xn est donc un estimateur on-line de la moyenne.

**********************

Exercice 5.3 (Deux échantillons gaussiens)On observe X1, . . . , Xm

i.i.d.∼ N (µ1, v) et Y1, . . . , Yni.i.d.∼ N (µ2, v) deux échantillons Gaus-

siens ayant même variance v mais des moyennes différentes. On suppose que les deuxéchantillons sont indépendants entre eux.

1. Calculer la vraisemblance en (µ1, µ2, v) de l’observation (X1, . . . , Xm, Y1, . . . , Yn).

2. En déduire l’estimateur du maximum de vraisemblance de (µ1, µ2, v).

3. On suppose dorénavant dans toutes les questions qui suivent que m = n. Calculer l’in-formation de Fisher en (µ1, µ2, v) contenue dans le n-échantillon (X1, Y1), . . . , (Xn, Yn).

4. On suppose que le modèle est régulier ; donner le comportement asymptotique del’estimateur du maximum de vraisemblance.

5. Donner un test de niveau α consistant pour le problème de test

H0 : µ1 = 0 contre H1 : µ1 6= 0

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 33

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 5.3

1. La vraisemblance est

L((µ1, µ2, v), (Xi)i, (Yj)j

)= (2πv)−m/2 exp

(− 1

2v

m∑i=1

(Xi−µ1)2)×(2πv)−n/2 exp

(− 1

2v

n∑j=1

(Yj−µ2)2)

2. On voit que le gradient de la log-vraisemblance admet un seul et unique zéro donné par Xm Xm

Y n

v

où Xm =1

m

m∑i=1

Xi, Y n =1

n

n∑j=1

Yj et v =1

n+m

[ m∑i=1

(Xi −Xm)2 +n∑j=1

(Yj − Y n)2].

De plus la Hessienne de la log-vraisemblance en ce point est telle que

∇2`n(Xm, Y n, v) =

−mv 0 0

0 −nv 0

0 0 −(m+n)v2

≺ 0

Donc le point (Xm, Y n, v) est un maximum local. Par ailleurs, il n’y a qu’un seul maximum local,c’est donc un maximum global. C’est donc l’EMV.

3. La densité (par rapport à la mesure de Lebesgue sur R2) du couple (X,Y ) est

f((µ1, µ2, v), (x, y)

)=

1√2πv

exp(−(x− µ1)2

2v

) 1√2πv

exp(−(y − µ2)2

2v

)=

1

2πvexp

(−1

2v

((x− µ1)2 + (y − µ2)2

)).

La matrice d’information de Fisher en (µ1, µ2, v) pour une observation (X1, Y1) est donnée par

I1(µ1, µ2, v) = E(µ1,µ2,v)

[∇ log f

((µ1, µ2, v), (X,Y )

)∇ log f

((µ1, µ2, v), (X,Y )

)>]= −E(µ1,µ2,v)

[∇2 log f

((µ1, µ2, v), (X,Y )

)]=

1v 0 0

0 1v 0

0 0 1v2

4. Le modèle étant régulier, l’EMV est asymptotiquement normal de matrice de covariance asymp-

totique égale à l’inverse de la matrice d’information de Fisher :

√n

Xm

Y n

v

− µ1

µ2

v

N3

(0, I1(µ1, µ2, v)−1

)= N3

0,

v 0 0

0 v 0

0 0 v2

5. On a√n(Xm−µ1

) N (0, v) et v p.s.−→ v alors par le lemme de Slutsky,

√n(Xm−µ1

)√v

N (0, 1).

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 34

ENSAE Statistiques mathématiques

On considère le test

ϕα =

H0 si Tn ≤ tαH1 sinon

où tα = qN (0,1)1−α/2 et

Tn =

√n|Xm |√

v.

Le test est de niveau asymptotique α car sous H0, Tn converge en loi vers |g| où g ∼ N (0, 1) et,il est consistant, car sous H1, Tn tends vers +∞ p.s..

**********************

Exercice 5.4 (Ceinture de sécurité)Une enquête sur l’influence de la ceinture de sécurité a donné les résultats suivants : sur

10.779 conducteurs ayant subit un accident l’enquête rapporte les effectifs dans le tableauqui suit selon la gravité et le port au non de la ceinture de sécurité :

nature des blessures port de la ceinture pas de ceinturegraves ou fatales 5 141

blessures sérieuses 25 330

peu ou pas de blessures 1229 9049

On souhaite répondre à la question : la ceinture de sécurité a-t’elle une influence surla gravité des blessures lors d’un accident ?

1. Modéliser ces données.

2. Définir un problème de test permettant de répondre à la question.

3. Construire un test de niveau asymptotique α = 0.05, consistant pour ce problème.

4. Comparer la p-value de ce test à 0, 001. Répondre à la question d’origine et donnerun niveau de confiance sur votre décision.

On rappel les quantiles d’ordre 1− α d’une χ2(2) :

α 0,999 0,995 0,99 0,98 0,95 0,9 0,8 0,2 0,1

qχ2(2)1−α 0,0020 0,0100 0,0201 0,0404 0,1026 0,2107 0,4463 3,2189 4,6052

α 0,05 0,02 0,01 0,005 0,001

qχ2(2)1−α 5,9915 7,8240 9,2103 10,5966 13,8155

**********************

Correction de l’exercice 5.4

1. On modélise ces données par le modèle d’échantillonnage de n couples (X1, Y1), . . . , (Xn, Yn) oùpour tout 1 ≤ i ≤ n, Xi correspond à la gravité du ième accident et Yi au port ou non de laceinture :

a) Xi ∈ graves ou fatales, blessures sérieuses, peu ou pas de blessures

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 35

ENSAE Statistiques mathématiques

b) Yi ∈ port de la ceinture, pas de ceinture

2. On veut tester si le port de la ceinture est indépendant de la gravité des blessures de l’accident.On va donc faire un test d’indépendance entre X et Y . On considère le problème de test suivant :

H0 : ‘X et Y sont indépendantes‘ contre H1 : ‘X et Y ne sont pas indépendantes‘

3. On considère le test d’indépendance du χ2 de niveau asymptotique α :

ϕα((Xi, Yi)i) =

H0 si Tn ≤ tαH1 sinon

où tα = qχ2(2)1−α (la degrés vient de (2− 1)(3− 1) = 2) et Tn = nχ2((p

(n)`,`′)`,`′ , (p

(n)`,• × p

(n)•,`′)`,`′)) où

p(n)`,`′ =

1

n

n∑i=1

I((Xi, Yi) = (`, `′)), p(n)`,• =

1

n

n∑i=1

I(Xi = `) et p(n)•,`′ =1

n

n∑i=1

I(Yi = `′)

pour tout ` ∈ graves ou fatales, blessures sérieuses, peu ou pas de blessureset `′ ∈ port de la ceinture, pas de ceinture. On sait que ce test est consistant (d’après lecours). Par ailleurs, pour α = 0, 05, on a d’après la table qχ

2(2)1−α = 5, 99.

4. On a

Tn =(5− 17, 05)2

17, 05+ · · ·+ (9049− 9077, 52)2

9077, 52= 17, 81.

Alors la p-value du test est plus petite que 0, 001, on a va donc rejeter et on a un très haut niveaude confiance en cette décision. On peut alors affirmer que le port de la ceinture de sécurité et lanature des blessures sont dépendants.

6 Rattrapage 2015-2016

**********************Exercice 6.1 (Modèle d’uniforme perturbées)Soit le modèle d’échantillonnage X1, . . . , Xn

i.i.d.∼ Pθ pour θ ∈] − 1, 1[ où Pθ est une loiadmettant une densité par rapport à la mesure de Lebesgue donnée par

f(θ, x) =dPθdλ

(x) = (1− θ)I(−1/2 < x < 0) + (1 + θ)I(0 < x < 1/2).

On pose

Yn = cardi : Xi > 0 =

n∑i=1

I(Xi > 0).

a) Préliminaires

1. Donner l’expérience statistique associée à ces données.

2. Calculer Pθ([0, 1/2]), la moyenne EθX1 et la variance Var(X1).

3. Donner la loi de Yn, sa moyenne et sa variance.

6 RATTRAPAGE 2015-2016 36

ENSAE Statistiques mathématiques

4. Vérifier quef(θ, x) = (1− θ)1−I(0<x<1/2)(1 + θ)I(0<x<1/2).

En déduire l’expression de la vraisemblance de l’échantillon en θ en fonction deYn.

5. Calculer l’information de Fisher sur θ contenue dans un n-échantillon de cemodèle.

b) Estimation de θ

1. Proposer un estimateur des moments de θ en fonction de Yn.

2. Montrer que l’estimateur du maximum de vraisemblance vaut θ mvn = 2

nYn − 1.

3. Etudier les propriétés de θ mvn : biais, variance, consistance.

4. Comparer le risque quadratique de θ mvn et la borne de Cramer-Rao. En déduire

que θ mvn atteint la borne de Cramer-Rao parmi tous les estimateurs sans biais.

5. Montrer que sous Pθ,√n(θ mvn −θ

)converge en loi vers N (0, 1− θ2).

6. Etudier le comportement asymptotique de√n(θ mvn −θ

)√1− θ mv

n

2.

7. Construire un intervalle de confiance pour θ de niveau asymptotique α = 0.95

centré en θ mvn et de longueur proportionnelle à n−1/2.

c) Tests

1. On considère le problème de test :

H0 : θ = 0 contre H1 : θ = 1/2

Sous quelles condition existe-t’il un test de Neyman-Pearson de niveau α (on neconsidère ici que les tests non randomizés). Dans ce cas, existe-t’il un test demême niveau plus puissant ?

2. Pour le même problème de test, construire un test de niveau asymptotique α.Etudier sa puissance.

3. On considère le problème de test :

H0 : θ = 0 contre H1 : θ 6= 0

Construire un test de niveau asymptotique α. Etudier sa consistance.

d) Application

On considère un n-échantillon U1, . . . , Uni.i.d.∼ U([−1/2, 1/2]). Un phénomène aléatoire

perturbe les observations des Ui : pour chaque i = 1, . . . , n, la quantité |Ui| est observéeavec probabilité θ ∈ [0, 1) sinon c’est Ui qui est observée. Ces perturbations sontindépendantes entres elles et indépendantes des Ui. On note X1, . . . , Xn l’échantillonfinalement observé après perturbation.

6 RATTRAPAGE 2015-2016 37

ENSAE Statistiques mathématiques

1. Déterminer la loi de X1.

2. Proposer une méthode d’estimation de θ.

3. Construire un test de niveau asymptotique α consistant permettant de décidersi un tel phénomène de perturbation s’est produit.

4. La loi des Ui n’étant plus uniforme, que suffit-il de connaître sur elle pour quece test reste valable ?

**********************

Correction de l’exercice 6.1

a) 1. L’expérience statistique associée aux données est celle d’un n-échantillon dans un modèledominé par la mesure de Lebesgue :(

R,B(R), Pθ : θ ∈ Θ)⊗n

.

2.

Pθ([0, 1/2]) =1 + θ

2,EθX1 = (1−θ)

∫ 0

−1/2xdx+(1+θ)

∫ 1/2

0xdx =

θ

4et Varθ(X1) =

1

12− θ

2

16

3. Yn est le nombre de succès dans une expérience de n réalisation d’une binomiale de moyenneP[X1 > 0] = (1+θ)/2. C’est donc une multinomiale de paramètreM(n, (1+θ)/2) càd pourtout 0 ≤ k ≤ n, on a

P[Yn = k] =

(n

k

)(1 + θ

2

)k(1− θ2

)n−kOn au aussi EθYn = n(1 + θ)/2 et Varθ Yn = n(1− θ2)/4.

4. On vérifie directement l’égalité en regardant les cas −1/2 < x < 0 et 0 < x < 1/2. Lavraisemblance s’obtient alors comme suit :

L(θ, (Xi)i) =n∏i=1

(1− θ)1−I(0<Xi<1/2)(1 + θ)I(0<Xi<1/2) = (1− θ)n(1 + θ

1− θ

)Yn.

5. L’information de Fisher d’un n-échantillon est In(θ) = nI1(θ) et celle contenue dans uneseule donnée est

I1(θ) = Eθ(∂θ log f(θ,X))2

où log f(θ, x) = log(1− θ)I(−1/2 < x < 0) + log(1 + θ)I(0 < x < 1/2). Alors

∂θ log f(θ, x) =−1

1− θI(−1/2 < x < 0) +

1

1 + θI(0 < x < 1/2).

Donc

I1(θ) = Eθ[ 1

(1− θ)2I(−1/2 < X < 0) +

1

(1 + θ)2I(0 < X < 1/2)

]=

1

(1− θ)2P(−1/2 < X < 0) +

1

(1 + θ)2P(0 < X < 1/2)

=1

(1− θ)21− θ

2+

1

(1 + θ)21 + θ

2=

1

2(1− θ)+

1

2(1 + θ)=

1

1− θ2.

On a donc In(θ) = n/(1− θ2).

6 RATTRAPAGE 2015-2016 38

ENSAE Statistiques mathématiques

b) 1. On a Pθ[X1 > 0] = (1 + θ)/2. L’estimateur des moments d’ordre 1 est θ tel que Yn/n =

(1 + θ)/2 càd

θ = 2Ynn− 1.

2. D’après la question 4 de la partie précédente, la log-vraisemblance est

θ ∈]− 1, 1[7→ n log(1− θ) + Yn log(1 + θ

1− θ

),

elle est maximale en θ mvn = 2(Yn/n)− 1.

3. Eθ θ mvn = 2P[X > 0] − 1 = θ ; donc θ mv

n est sans biais. La variance de l’estimateur est iciégale à son risque quadratique et on a :

Varθ(θmvn ) = (4/n) Varθ(I(X > 0)) = (4/n)Pθ[X > 0]Pθ[X < 0] = (1− θ2)/n.

De plus, la loi forte des grands nombres dit que Ynp.s.−→ Pθ[X > 0] donc θ mv

np.s.−→ θ. Donc

θ mvn est un estimateur fortement consistant.

4. Si θ est un estimateur sans bias de θ alors la borne de Cramer-Rao dit que son risquequadratique vérifie Rθ(θ) ≥ In(θ)−1 = (1− θ2)/n. Par ailleurs, le risque quadratique de θ mv

n

vaut aussi (1− θ2)/n (et θ mvn est sans biais), donc θ mv

n atteint bien la borne de Cramer-Raoparmi tous les estimateurs sans biais.

5. On écrit θ mvn comme une moyenne empirique : θ mv

n = 1n

∑ni=1(2I(Xi > 0)− 1). On applique

le TCL :√n(θ mvn −θ

) N (0,Varθ(2I(X > 0)− 1)) = N (0, 1− θ2)

car Varθ(2I(X > 0)− 1) = 4 Varθ(I(X > 0)) = 4Pθ[X > 0]Pθ[X < 0] = 1− θ2.

6. En utilisant le résultat de convergence de la question précédente, la consistance de θ mvn et

le lemme de Slutsky, on obtient que√n(θ mvn −θ

)√1− θ mv

n

2 N (0, 1).

7. On déduit de la question précédente un intervalle de confiance de niveau asymptotique α :Pθ[θ ∈ In,α]→ 1− α où

In,α =[θ mvn ±q

N (0,1)1−α/2

√1− θ mv

n

2

n

]c) 1. Le rapport de vraisemblance pour 0 = θ0 < θ1 = 1/2 est :

L(θ0, (Xi)i

)L(θ1, (Xi)i

) =(1− θ0

1− θ1

)n((1 + θ0)(1− θ1)(1− θ0)(1 + θ1)

)Yn.

Comme θ0 < θ1, le rapport de vraisemblance est une fonction croissante de Yn, le test deNeyman-Pearson de niveau α est donc de la forme

ϕα =

H0 si Yn/n ≤ tαH1 sinon

6 RATTRAPAGE 2015-2016 39

ENSAE Statistiques mathématiques

Ce test sera exactement de niveau α s’il existe tα tel que

Pθ0 [Yn/n > tα] = α.

Cette condition n’est pas toujours satisfaite car Yn est une variable aléatoire discrète.

2. D’après le TCL, sous H0,√n(Yn/n− 1/2

) N (0, 1/4). Il suffit alors de fixer le seuil dans

le test précédent tel que 2√n(tα−1/2

)= qN (0,1)1−α pour avoir un test de niveau asymptotique

α. Sous H1, Yn/np.s.−→ 3/4, on en déduit que la puissance du test tends vers 1. Donc le test

est consistant.

3. On considère

ϕα =

H0 si

√n| θ mv

n | ≤ tαH1 sinon

où tα = qN (0,1)1−α/2 . Sous H0,

√n| θ mv

n | |g| où g ∼ N (0, 1) et sous H1,√n| θ mv

n |p.s.−→ +∞.

Donc le test est de niveau asymptotique α et il est consistant.

d) 1. On note δi la variable aléatoire indiquant la présence de perturbation dans l’observation i,càd δi = 1 avec probabilité θ et 0 sinon. Par hypothèse les δi sont i.i.d. B(θ) et indépendantesde Ui. La loi de X1 est donnée par : si f est une fonction continue à support compact sur Ralors

Ef(X1) = Ef(|Ui|)δi + f(Ui)(1− δi) = Ef(|Ui|)θ + f(Ui)(1− θ) =

∫ 1/2

−1/2

[f(|u|)θ + f(u)(1− θ)

]du

= 2θ

∫ 1/2

0f(u)du+

∫ 1/2

−1/2f(u)(1− θ)du = (1− θ)

∫ 0

−1/2f(u)du+ (1 + θ)

∫ 1/2

0f(u)du.

Donc X1 est une variable admettant f(θ, ·) pour densité.

2. On va alors estimer θ par θ mvn = 2Yn/n− 1

3. On va considérer le problème de test de la question 3 de la partie c). On décide donc qu’ily aura perturbation si

√n| θ mv

n | > qN (0,1)1−α/2 .

4. Le test ne dépend que de P[X > 0]. Donc pour toute loi telle que Pθ[X > 0] = (1 + θ)/2,on aura les mêmes résultats.

6 RATTRAPAGE 2015-2016 40