Transcript

Statistique mathématique pour le Master 1Cours de l’ENS Cachan Bretagne

Benoît Cadre

4 juin 2010

2

Table des matières

1 Modélisation statistique 51.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Principe fondamental de la statistique . . . . . . . . . . . . . . . 71.3 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4 Domination dans un modèle statistique . . . . . . . . . . . . . . . 111.5 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.6 Construction des estimateurs . . . . . . . . . . . . . . . . . . . . 14

2 Principes de l’inférence statistique 172.1 Critères de performance en moyenne . . . . . . . . . . . . . . . . 172.2 Critères de performance asymptotique . . . . . . . . . . . . . . . 212.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . 23

2.3.1 Intervalle de confiance pour une taille d’échantillon finie . 242.3.2 Intervalle de confiance asymptotique . . . . . . . . . . . . 25

3 Vraisemblance 293.1 Le concept de vraisemblance . . . . . . . . . . . . . . . . . . . . 293.2 Consistance de l’EMV . . . . . . . . . . . . . . . . . . . . . . . 313.3 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . 353.4 Normalité asymptotique de l’EMV . . . . . . . . . . . . . . . . . 39

4 Classification des statistiques 434.1 Estimateurs efficaces . . . . . . . . . . . . . . . . . . . . . . . . 434.2 Statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . . . 464.3 Statistiques complètes . . . . . . . . . . . . . . . . . . . . . . . . 51

5 Test statistique 555.1 Problème de test . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3

4 TABLE DES MATIÈRES

5.2 Erreurs d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.3 Comparaison des tests . . . . . . . . . . . . . . . . . . . . . . . . 605.4 Optimalité dans les tests simples . . . . . . . . . . . . . . . . . . 625.5 Optimalité dans les tests composites . . . . . . . . . . . . . . . . 655.6 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 66

6 Statistique des échantillons gaussiens 696.1 Projection de vecteurs gaussiens . . . . . . . . . . . . . . . . . . 696.2 Tests sur les paramètres . . . . . . . . . . . . . . . . . . . . . . . 716.3 Comparaison de 2 échantillons . . . . . . . . . . . . . . . . . . . 736.4 Modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . 74

6.4.1 Le problème et sa formulation vectorielle . . . . . . . . . 746.4.2 Statistique de test . . . . . . . . . . . . . . . . . . . . . . 75

Chapitre 1

Modélisation statistique

1.1 Un exemple

Une pièce a une probabilité p0 ∈]0,1[ de tomber sur "pile". Sur les 1000 lan-cers réalisés indépendamment les uns des autres, on compte 520 "pile" et 480"face". On est donc tenté de conclure que p0 ≈ 0.52. Cependant, de la même ma-nière qu’il est sans intérêt de donner une valeur approchée d’une intégrale sanspréciser l’erreur d’approximation, ce résultat n’a que peu de valeur, car il ne nousrenseigne pas sur l’erreur commise.

Nous allons examiner de quelle manière la construction d’un modèle permetde combler cette lacune. On note x1, · · · ,xn les résultats des n = 1000 lancers depièce, avec la convention suivante : xi = 1 si le i-ème lancer a donné "pile", et 0dans le cas contraire. Le principe de base de l’estimation statistique est de considé-rer que x1, · · · ,xn est une réalisation de la loi B(p0)⊗n, si pour chaque p ∈ [0,1],B(p) désigne la loi de Bernouilli de paramètre p (i.e. B(p) = pδ1 +(1− p)δ0,avec δ0 et δ1 les mesures de Dirac en 0 et 1). En l’absence d’informations sur lavaleur de p0, on ne peut en fait que supposer que x1, · · · ,xn est une réalisation del’une des lois B(p)⊗n, p ∈]0,1[.

De cet ensemble de probabilités, appelé modèle statistique, on cherche à dé-duire la valeur de p qui s’ajuste le mieux aux observations x1, · · · ,xn. Une réponseraisonnable est basée sur l’intuition suivante : compte tenu des informations donton dispose, la meilleure approximation de p0 que l’on puisse donner est une valeur

5

6 CHAPITRE 1. MODÉLISATION STATISTIQUE

qui maximise la fonction

p 7→B(p)⊗n(x1, · · · ,xn) =n

∏i=1

B(p)(xi) = p∑ni=1 xi (1− p)n−∑

ni=1 xi .

C’est le principe de construction d’une valeur approchée -on parlera d’estimateur-de p0 par maximisation de la vraisemblance. Selon ce principe, la valeur quis’ajuste le mieux aux observations est la moyenne empirique des observations :

xn =1n

n

∑i=1

xi.

On retrouve ainsi la valeur xn = 0.52 du début.

L’introduction d’un modèle nous permet en plus de donner une erreur dansl’approximation. Soit p ∈]0,1[, et X1, · · · ,Xn des v.a. i.i.d. sur l’espace probabilisé(Ω ,F ,P) de loi commune B(p). On peut calculer le risque quadratique, c’est-à-dire le carré de la distance L2 entre la cible p et l’estimateur Xn = (1/n)∑

ni=1 Xi

obtenu par le principe de maximisation de la vraisemblance :

E(Xn− p)2 =1n

EX1(1−EX1) =1n

p(1− p).

Comme p(1− p) ≤ 1/4, l’erreur quadratique moyenne commise est donc majo-rée par 1/(2

√n)≈ 0.016. Cependant, si le résultat donne des informations sur la

qualité de l’approximation, ce n’est qu’une évaluation en moyenne, qui ne dépenddonc pas des observations.

Bien d’autres principes peuvent être envisagés pour préciser la qualité de l’ap-proximation. Par exemple, supposons que l’on veuille construire un intervalle danslequel p0 doit se trouver, avec une probabilité de 0.95 par exemple. Le principede construction est le suivant : pour chaque p ∈]0,1[, on cherche dans un premiertemps un intervalle de confiance par excès I(X1, · · · ,Xn) construit avec la suite dev.a. X1, · · · ,Xn tel que

P(p ∈ I(X1, · · · ,Xn))≥ 0.95.

On peut alors conclure, avec les observations x1, · · · ,xn, que p0 ∈ I(x1, · · · ,xn),avec une probabilité de 95% au moins. Dans l’exemple qui nous intéresse, l’in-égalité de Bienaymé-Tchebytchev nous donne, pour tout ε > 0 :

P(|Xn− p| ≥ ε)≤ var(Xn)ε2 =

var(X1)nε2 =

p(1− p)nε2 ≤ 1

4nε2 .

1.2. PRINCIPE FONDAMENTAL DE LA STATISTIQUE 7

De ce fait, P(|Xn− p| ≥ ε)≤ 0.05 au moins si 1/(4nε2)≤ 0.05 soit, tous calculsfaits, si ε ≥ 0.07. Par suite,

P(p ∈ [Xn−0.07, Xn +0.07])≥ 0.95.

En utilisant les observations x1, · · · ,xn on a xn = 0.52, et donc p0 ∈ [0.45,0.59]avec une probabilité 0.95 au moins. Le moins que l’on dire ici est que cette infor-mation est peu satisfaisante, eu égard au grand nombre d’observations !

Comment améliorer ces résultats ? Si la question posée est "la pièce est-elleéquilibrée ?", l’intervalle ci-dessus ne permet pas de donner une réponse ; dès lors,quelle stratégie de décision envisager ? L’objet de ce cours est de donner quelqueséléments de réponse à ces questions. Dans un premier temps, il convient de fixerles objectifs de l’inférence statistique, ainsi que le contexte mathématique.

1.2 Principe fondamental de la statistiqueLe phénomène aléatoire fournit n observations x1, · · · ,xn de l’espace topologiqueH . Celles-ci sont supposées être les réalisations d’une loi Q0 sur l’espace proba-bilisable (H ,B(H )). Le principe de base de l’inférence statistique est d’utiliserces n observations pour en déduire des informations sur Q0. Cette approche est-elle raisonnable ? De manière plus ambitieuse, est-il possible de reconstruire unapproximation de Q0 à partir des observations x1, · · · ,xn ? Nous allons voir quela réponse est affirmative, au moins dans le cas où le phénomène aléatoire globalconsiste en n phénomènes indépendants et régis par la même loi.

Au préalable, rappelons que la suite de probabilités (νn)n sur Rd convergeétroitement vers ν si, pour chaque fonction f : Rd → R continue bornée, on a :∫

Rdf dνn→

∫Rd

f dν .

Le critère de convergence de Lévy nous affirme que (νn)n converge étroitementvers ν si, pour chaque t ∈ Rd , la suite (νn(t))n converge vers ν(t), où ν désignela tranformée de Fourier de ν , i.e. la fonction

ν : t 7→∫

Rdexp(itT x)ν(dx),

et idem pour νn.

8 CHAPITRE 1. MODÉLISATION STATISTIQUE

Dans la suite, δx désigne la mesure de Dirac en x ∈ Rd .

Théorème [VARADARAJAN] Soient X1,X2, · · · des v.a.i.i.d. sur (Ω ,F ,P) à va-leurs dans Rk, de loi commune µ . On note µn la mesure empirique des n premièresv.a., i.e.

µn =1n

n

∑i=1

δXi.

Alors, P-p.s., la suite de mesures (µn)n converge étroitement vers µ .

Preuve Pour simplifier la preuve, on suppose que X1 est intégrable. D’après lecritére de Lévy, il suffit de montrer que

P(∀t ∈ Rd : µn(t)−→ µ(t)

)= 1,

si µn et µ désignent les transformées de Fourier de µn et µ . Or, la loi forte desgrands nombres nous montre que pour tout t ∈ Rd , l’événement

Ω(t) = µn(t)−→ µ(t)

est de probabilité. Soit T ⊂ Rd un ensemble dénombrable dense, et

Ω0 =⋂t∈T

Ω(t)⋂⋂1

n

n

∑j=1‖X j‖ −→ E‖X1‖

,

où ‖.‖ désigne la norme euclidienne de Rd . Comme X1 est intégrable et T estdénombrable, on a P(Ω0) = 1 d’après la loi forte des grands nombres et carP(Ω(t)) = 1 pour tout t. Fixons t ∈ Rd et ω ∈ Ω0. On choisit une suite (tp)pde T telle que tp → t, et on note pour tout s ∈ Rd , µω

n (s) la réalisation en ω deµn(s), i.e.

µωn (s) =

1n

n

∑j=1

exp(isT X j(ω)).

Soit p fixé. On a :

|µωn (t)− µ(t)| ≤ |µω

n (t)− µωn (tp)|+ |µω

n (tp)− µ(tp)|+ |µ(tp)− µ(t)|

≤ ‖t− tp‖

(1n

n

∑j=1‖X j(ω)‖+E‖X1‖

)+ |µω

n (tp)− µ(tp)|

1.3. MODÈLE STATISTIQUE 9

Par suite, pour tout p :

limsupn|µω

n (t)− µ(t)| ≤ 2‖t− tp‖E‖X1‖.

En faisant enfin tendre p vers l’infini, on peut en déduire que pour tout ω ∈Ω0 ettout t ∈ Rd , µω

n (t)→ µ(t). Comme P(Ω0) = 1, le résultat est démontré.

Reprenons le contexte où les observations (x1, · · · ,xn) ∈H n sont issues de nphénomènes aléatoires indépendants et régis par la même loi Q0 sur H = Rd . Lethéorème de Varadarajan montre que si (X1, · · · ,Xn) suit la loi Q⊗n

0 alors la mesureempirique

1n

n

∑i=1

δXi

est proche de la mesure Q0, lorsque n est assez grand. Autrement dit, en multi-pliant les expériences, la mesure discrète

1n

n

∑i=1

δxi

est proche de la mesure Q0. Ce résultat donne un appui théorique à la démarchestatistique consistant à tenter de reconstruire la mesure théorique Q0 à l’aide desobservations x1, · · · ,xn. Toute démarche en statistique inférentielle asymptotiqueest basée sur ce théorème, qui mérite donc son titre de "Théorème fondamental dela statistique".

1.3 Modèle statistiqueFormalisons le concept de modèle statistique vu dans la section 1.1. Dans ce cadre,l’espace des observations était 0,1n.

Définitions Un modèle statistique est un couple (H n,P), où H est l’espace-supposé topologique- de chaque observation, et P est une famille de lois de pro-babilités sur H n muni de sa tribu borélienne. Le modèle statistique (H n,P) estparamétré par Θ si P = Pθθ∈Θ

L’expérience aléatoire sous-jacente fournit n observations (x1, · · · ,xn) ∈H n

du même phénomène aléatoire, qui est régit par la loi inconnue P0. Le principe

10 CHAPITRE 1. MODÉLISATION STATISTIQUE

de base de la statistique est de considérer que (x1, · · · ,xn) est régit par l’une deslois d’un modèle P , avec P0 ∈P . Cette étape de modélisation étant achevée, ils’agira de chercher quelle loi de ce modèle s’ajuste le mieux aux observations.

Par exemple, lorsque les expériences ont été menées indépendamment les unesdes autres, l’observation (x1, · · · ,xn) est régie par la loi P0 = Q⊗n

0 , et le modèle sta-tistique est un ensemble de probabilités sur H n contenant Q⊗n

0 .

A noter, donc : à l’inverse du probabiliste, le statisticien travaille plutôt surl’espace des observations, qui constitue un cadre d’étude plus naturel. Par ailleurs,le statisticien ne suppose pas que la loi des observations est connue, à l’inverse duprobabiliste.

Exemple En utilisant des observations indépendantes x1, · · · ,xn de la durée de viede n ampoules du même type, on veut connaître la loi suivie par la durée de vie dece type d’ampoule. La 1ère étape consiste à définir le modèle statistique associé,dont l’espace des observations est Rn

+. Du point de vue de la modélisation, il estraisonnable d’affirmer qu’une v.a. X sur (Ω ,F ,P) qui représente la durée de viede l’ampoule est sans mémoire, i.e.

L (X− t|X ≥ t) = L (X), ∀t ≥ 0.

Cette propriété signifie que l’ampoule "ne se souvient pas d’avoir vieilli". Parailleurs, on peut aussi supposer que la loi de X est à densité par rapport à la me-sure de Lebesgue. On sait alors qu’il existe λ > 0 tel que X ∼ E (λ ). Comme lesobservations des durées de vie sont indépendantes, x1, · · · ,xn est une réalisationd’une loi E (λ0)⊗n, pour un certain λ0 > 0 qu’il s’agira de trouver. Le modèle sta-tistique associé à cette expérience aléatoire est donc (Rn

+,E (λ )⊗nλ>0). Nousverrons dans la suite comment trouver une valeur de λ qui s’ajuste aux observa-tions.

Dans l’exemple de la section 1.1, comme les lancers de pièce sont indépen-dants, la loi dont sont issues les résultats de l’expérience est clairement l’une deslois du modèle P = B(p)⊗n, p ∈]0,1[. Remarquons aussi que l’applicationp 7→B(p)⊗n est injective : cette propriété, appelée identifiabilité, ôte tout ambi-guité dans le modèle, en permettant d’associer à des observations une, et une seuleloi du modèle.

Définitions Soit P = Pθθ∈Θ un modèle statistique.

1.4. DOMINATION DANS UN MODÈLE STATISTIQUE 11

1. Il est dit identifiable si l’application θ 7→ Pθ définie sur Θ est injective.2. Il est dit paramétrique si il existe d ∈ N tel que Θ ⊂ Rd . Sinon, il est non

paramétrique.

Le modèle statistique N(m,σ2);m ∈ R,σ > 0 est paramétrique et identi-fiable, mais N(m,σ2);m ∈R,σ 6= 0, qui est aussi paramétrique, n’est pas iden-tifiable car N(m,σ2) = N(m,(−σ)2). Par ailleurs, le modèle constitué de toutesles lois à densité est non paramétrique.

On s’intéressera dans ce cours aux modèles paramétriques. Cette restrictionconfère au modèle un atout majeur : en limitant l’espace des probabilités à explo-rer, elle permet d’obtenir de meilleurs résultats quantitatifs.

1.4 Domination dans un modèle statistique

Soit le modèle statistique paramétrique (H n,P), avec un espace d’observationsindividuelles H ⊂ Rk.

Rappelons que, pour 2 mesures σ -finies µ et ν sur Rp, µ est absolument conti-nue par rapport à ν , et on note µ ν , si pour tout A∈B(Rp) tel que ν(A) = 0, ona µ(A) = 0. Dans ce cas, le théorème de Radon-Nikodym nous donne l’existenced’une fonction mesurable f et ν-p.p. positive, appelée densité de µ par rapport àν , telle que dµ = f dν . Si ν est la mesure de Lebesgue, on parle plus simplementde la densité de µ . Enfin, si µ est bornée, f est ν-intégrable.

Définition Le modèle statistique (H n,P) est dit dominé si il existe une mesureσ -finie µ telle que P µ pour chaque P ∈P . La mesure µ est appelée mesuredominante du modèle.

Les modèles N(m,σ2);m ∈ R,σ > 0 et B(p)⊗n; p ∈]0,1[ sont domi-nés : une mesure dominante du premier est la mesure de Lebesgue sur R, alorsqu’une mesure dominante du second est (δ0 + δ1)⊗n. De manière plus générale,les exemples de modèles dominés que nous rencontrerons le seront soit par rap-port à une mesure de comptage, soit par rapport à une mesure de Lebesgue.

Théorème Supposons que (H n,P) est dominé, et notons conv(P) son convexi-

12 CHAPITRE 1. MODÉLISATION STATISTIQUE

fié, i.e.

conv(P) =

∑n

anPn, avec Pk ∈P, ak ≥ 0 et ∑n

an = 1

.

Alors, il existe une probabilité de conv(P) qui domine P .

Preuve Soit µ une mesure dominante. On note C l’ensemble des événements Ctels que µ(C) > 0 et tels qu’il existe PC ∈ conv(P) dont la densité fC par rapportà µ vérifie fC > 0 µ-p.p. sur C. Choisissons (Cn)n≥1, une suite de C , telle que :

limn→∞

µ(Cn) = supC∈C

µ(C)≤+∞.

On note PCn la probabilité associée à chaque Cn, et fCn la densité associée. Onpose :

Cs =⋃n≥1

Cn, f = ∑n≥1

2−n fCn .

La probabilité Q telle que dQ = f dµ , qui est dans conv(P), admet f pour den-sité par rapport à µ . Comme µ(Cs) > 0 et f > 0 µ-p.p. sur Cs, on a Cs ∈ C . Parailleurs, on a aussi µ(Cs) = supC∈C µ(C).

Montrons maintenant que Q domine P . Soit P ∈P , de densité p par rapportà µ , et A un événement tel que Q(A) = 0. Comme 0 = Q(A∩Cs) =

∫A∩Cs

f dµ etque f > 0 µ-p.p. sur Cs, on a µ(A∩Cs) = 0, d’où P(A∩Cs) = 0 car P µ . Parailleurs, P(Cc

s ) = 0. En effet, il est clair que Cs ⊂ f + p > 0 µ-p.p., et comme f + p > 0 ∈ C , la propriété de maximalité de Cs montre que Cs = f + p >0 µ-p.p. Comme P µ , on a aussi Cs = f + p > 0 P-p.p. et donc P(Cc

s ) =P( f + p = 0) ≤ P(p = 0) =

∫p=0 pdµ = 0. En remarquant finalement que

A ⊂ (A∩Cs)∪Ccs , on en déduit que P(A) = 0, c’est-à-dire que P Q. Comme

Q ∈ conv(P), le théorème est démontré.

1.5 EstimationSoit le modèle statistique paramétrique (H n,Pθθ∈Θ ), avec un espace d’ob-servations individuelles H ⊂ Rk et un espace de paramètres Θ ⊂ Rd . Dans cemodèle, le paramètre d’intérêt est θ . Si les n expériences du phénomène sont in-dépendantes, on a alors Pθ = Q⊗n

θpour chaque θ ∈Θ .

1.5. ESTIMATION 13

Dans un soucis de simplicité, on se limitera dans tout le cours au cas où leparamètre d’intérêt est θ , étant entendu que les définitions et la plupart des pro-priétés qui suivent s’adaptent sans difficulté au cas où le paramètre d’intérêt estune fonction borélienne de θ .

Définition Un échantillon de loi Pθ est une v.a. canonique sur (H n,Pθ ).

On rappelle qu’une v.a. canonique (X1, · · · ,Xn) sur (H n,Pθ ) est une v.a. quivérifie pour chaque i = 1, · · · ,n :

Xi : (x1, · · · ,xn) ∈H n 7→ xi ∈H .

La taille de l’échantillon est le nombre d’expériences aléatoires. Dans l’exemplede la section 1.1, la taille de l’échantillon est n = 1000, et une suite X1, · · · ,Xn dev.a.i.i.d. issues de la loi B(p) constitue, après concaténation, un échantillon de laloi B(p)⊗n. A l’aide de cette modélisation stochastique, l’enjeu est de construireune fonction de l’échantillon, qui fournira l’information sur le paramètre inconnu,noté p0 dans la section 1.1. Ceci nous amène à la notion d’estimateur, qui est unequantité censé être proche du paramètre. Différentes notions de proximité serontabordées au chapitre 2.

Définitions1. Une statistique est une v.a. définie sur H n indépendante de θ , i.e. une

fonction borélienne définie sur H n indépendante de θ .2. Un estimateur (de θ ) est une statistique à valeurs dans un sur-ensemble de

Θ .

Remarque Un échantillon de loi Pθ étant une v.a. canonique (X1, · · · ,Xn), il s’en-suit qu’une statistique s’écrit aussi :

g(.) = g(X1, · · · ,Xn).

On utilisera l’une ou l’autre de ces représentations, selon le contexte. Par exemple,pour insister sur le fait que la statistique dépend de l’échantillon, on utilisera lareprésentation g(X1, · · · ,Xn). Pour distinguer une statistique d’un estimateur, onnotera ce dernier avec un chapeau.

Dans l’exemple de la section 1.1, si (X1, · · · ,Xn) est un échantillon de la loiB(p)⊗n, X1 et Xn sont des estimateurs de p. Ces 2 estimateurs n’ont évidemment

14 CHAPITRE 1. MODÉLISATION STATISTIQUE

pas le même intérêt ; la terminologie du chapitre 2 permettra d’entreprendre unepremière classification.

1.6 Construction des estimateursSoit le modèle statistique paramétrique (H n,Q⊗n

θθ∈Θ ), avec un espace d’ob-

servations individuelles H ⊂ Rk et un espace de paramètres Θ ⊂ Rd .

Pour construire un estimateur raisonnable, on utilise en général l’une ou l’autredes 2 procédures suivantes : le principe de la vraisemblance maximale, qui feral’objet du chapitre 3, ou une méthode ad hoc dans laquelle, par le calcul, on ob-serve tout d’abord ce que représente le paramètre θ pour la loi Qθ , puis on enconstruit une version empirique.

Examinons en détail la 2ème méthode. Dans un premier temps, on regarde ceque ce paramètre représente pour la loi Qθ , puis on remplace la mesure Qθ par saversion empirique. Supposons par exemple que θ =

∫H f dQθ , pour une certaine

fonction connue f ∈ L1(Qθ ). En vertu de la loi des grands nombres, un estimateurraisonnable sera :

θ =1n

n

∑i=1

f (Xi).

Un tel procédé de construction s’appelle méthode des moments, bien qu’il neconcerne pas nécessairement les moments de la loi Qθ . Bien entendu, ce n’estqu’un procédé de construction, et rien ne nous assure en général qu’un estimateurconstruit de la sorte ait de bonnes propriétés statistiques. Néanmoins, on retrouvedes estimateurs naturels. Par exemple, si θ représente la moyenne de la loi Qθ ,l’estimateur construit par cette méthode sera la moyenne empirique :

Xn =1n

n

∑i=1

Xi.

Par ailleurs, si θ représente la variance de la loi Qθ , l’estimateur sera la varianceempirique :

σ2 =

1n

n

∑i=1

(Xi− Xn)2.

D’autres procédés de construction d’estimateurs sont envisageables, en fonction

1.6. CONSTRUCTION DES ESTIMATEURS 15

du modèle statistique étudié.

Exemples1. Dans le modèle (Rn

+,E (λ )⊗nλ>0), le paramètre λ représente l’inversede la moyenne de la loi E (λ ). Un estimateur naturel de λ , construit avecl’échantillon (X1, · · · ,Xn) de la loi E (λ )⊗n est donc

λ =1

Xn.

2. Dans le modèle (Rn+,U ([0,θ ])⊗nθ>0), θ représente le maximum des

valeurs prises par une réalisation de la loi U ([0,θ ]). L’estimateur naturelconstruit avec l’échantillon (X1, · · · ,Xn) de la loi U ([0,θ ])⊗n est donc

θ = max1≤i≤n

Xi.

Un autre estimateur, construit cette fois avec la mesure empirique est, parexemple,

θ =12

Xn.

16 CHAPITRE 1. MODÉLISATION STATISTIQUE

Chapitre 2

Principes de l’inférence statistique

On s’intéresse ici à des critères de performance des estimateurs, posant ainsi lesbases de l’inférence statistique.

Le modèle statistique considéré est (H n,Pθθ∈Θ ), avec H ⊂Rk et Θ ⊂Rd .Rappelons que, pour simplifier les écritures, on suppose que le paramètre d’inté-rêt, i.e. le paramètre que l’on souhaite estimer avec les observations, est θ . Dansce qui suit, toutes les définitions et les résultats généraux s’étendent au cas où leparamètre d’intérêt est une fonction g(θ) de θ .

On désignera par Eθ la moyenne sous la loi Pθ : sous la propriété d’intégrabi-lité adéquate,

Eθ g(.) = Eθ g(X1, · · · ,Xn) =∫H n

g(x)Pθ (dx),

pour g : H n→ R et (X1, · · · ,Xn) un échantillon de loi Pθ .

2.1 Critères de performance en moyenneLa première propriété que l’on puisse exiger d’un estimateur est qu’il se com-porte en moyenne comme son paramètre cible. C’est le concept de biais, décritci-dessous.

Dorénavant, on dira qu’une statistique θ est d’ordre p si θ ∈ Lp(Pθ ) pourchaque θ ∈Θ .

17

18 CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE

Définitions Soit θ un estimateur d’ordre 1.1. Le biais de θ en θ est Eθ θ −θ ;2. θ est sans biais lorsque son biais est nul en chaque θ ∈Θ .3. θ est asymptotiquement sans biais si pour chaque θ ∈Θ , limn→∞ Eθ θ = θ .

Pour revenir à l’exemple de la section 1.1, lorsque (X1, · · · ,Xn) est un échan-tillon de la loi B(p)⊗n, les 2 estimateurs X1 et Xn sont sans biais.

La proximité entre l’estimateur et sa cible peut être évaluée grâce à la distanceL2 entre les 2 quantités. Dans ce qui suit, ‖.‖ désigne la norme euclidienne de Rd .

Définitions Soit θ un estimateur d’ordre 2.1. Le risque quadratique de θ sous Pθ est

R(θ ; θ) = Eθ‖θ −θ‖2.

2. Soit θ ′ un autre estimateur d’ordre 2. On dit que θ est préférable à θ ′

lorsque pour chaque θ ∈Θ , R(θ ; θ)≤R(θ ; θ ′).3. Supposons que θ est sans biais. On dit que θ est de variance uniformément

minimum parmi les estimateurs sans biais (VUMSB) si il est préférable àtout autre estimateur sans biais d’ordre 2.

L’existence d’un estimateur VUMSB n’est en général pas acquise. Nous re-viendrons sur ce problème dans la partie 4.3.

Dans la section 1.1, on a remarqué que lorsque (X1, · · · ,Xn) est un échantillonde la loi B(p)⊗n, R(p; Xn) = p(1− p)/n. Ainsi, à mesure que l’on acquiert del’information en multipliant les expériences aléatoires, l’estimateur Xn gagne enprécision. Ce n’est pas le cas pour l’estimateur X1, dont le risque quadratique vautR(p;X1) = p(1− p). Comme on pouvait s’y attendre, Xn est donc préférable àX1. En fait, Xn est VUMSB. Pour le montrer, considérons un estimateur sans biaisquelconque ϕ := ϕ(X1, · · · ,Xn), et notons :

L(p;X1, · · · ,Xn) = pnXn(1− p)n−nXn, etK(p) = lnL(p;X1, · · · ,Xn).

On remarque dans un premier temps que :

EpK′(p) = Ep

(1p

nXn−1

1− p(n−nXn)

)= 0.

2.1. CRITÈRES DE PERFORMANCE EN MOYENNE 19

Par suite, si varp et covp désignent la variance et la covariance sous la loi B(p)⊗n :

covp(ϕ,K′(p)) = EpϕK′(p) = ∑i1,··· ,in∈0,1

ϕ(i1, · · · in)L′(p; i1, · · · , in)

=d

dpEpϕ = 1,

car ϕ est sans biais. Comme, d’après l’inégalité de Cauchy-Schwarz,(covp(ϕ,K′(p))

)2 ≤ varp(ϕ)varp(K′(p)),

on a doncvarp(ϕ)≥ 1

varp(K′(p)).

Or,

varp(K′(p)) = varp

(1p

nXn +1

1− pnXn

)=

n2

p2(1− p)2 varp (Xn)

=n

p(1− p)= (R(p; Xn))

−1. (2.1.1)

On a donc obtenuR(p; ϕ) = varp(ϕ)≥R(p; Xn),

c’est-à-dire que Xn est VUMSB. Cette preuve, qui peut sembler ici miraculeuse,sera formalisée dans les sections 3.3 et 4.1.

Exercice [CAS OÙ LE PARAMÈTRE D’INTÉRÊT EST UNE FONCTION DE θ ] Soitle modèle statistique (Rn,Q⊗n

θθ∈Θ ) tel que pour chaque θ ∈Θ , Qθ admet un

moment d’ordre 2. Pour un échantillon (X1, · · · ,Xn) de loi Q⊗nθ

, on note :

Xn =1n

n

∑i=1

Xi, et S2n =

1n−1

n

∑i=1

(Xi− Xn)2.

Montrer que Xn et S2n sont des estimateurs sans biais de la moyenne et de la va-

riance de la loi Qθ , respectivement.

On note dorénavant, pour deux vecteurs aléatoires X ,Y de carrés intégrableset à valeurs dans Rd :

Kθ (X ,Y ) = Eθ (X−Eθ X)T (Y −EθY ) = Eθ XTY −Eθ XT EθY etVθ (X) = Kθ (X ,X) = Eθ‖X−Eθ X‖2.

20 CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE

Noter que Kθ (X ,Y ) = Kθ (Y,X). Par ailleurs, Kθ et Vθ ne représentent pas la co-variance et la variance sous la loi Pθ (respectivement notées covθ et varθ ), sauflorsque d = 1.

Proposition [DÉCOMPOSITION BIAIS-VARIANCE] Soit θ un estimateur d’ordre2. On a alors la décomposition :

R(θ ; θ) = ‖Eθ θ −θ‖2 +Vθ (θ).

Pour un risque donné, abaisser le biais revient donc à augmenter la variation,et réciproquement.

Preuve On a :

R(θ ; θ) = Eθ‖(θ −Eθ θ)+(Eθ θ −θ)‖2

= Eθ‖θ −Eθ θ‖2 +‖Eθ θ −θ‖2 +2Eθ (θ −Eθ θ)T (Eθ θ −θ).

Le résultat en découle, car Eθ (θ −Eθ θ) = 0 et Vθ (θ) = Eθ‖θ −Eθ θ‖2.

Proposition Soit θ un estimateur d’ordre 2. Alors, θ est VUMSB si, et seulementsi, pour tout estimateur ϕ d’ordre 2 tel que Eθ ϕ = 0 pour chaque θ ∈Θ , on a :

Kθ (ϕ, θ) = 0, ∀θ ∈Θ .

Preuve Pour toute la preuve, fixons θ ∈Θ . Supposons que θ est VUMSB. Soit ϕ

une statistique d’ordre 2 telle que Eθ ϕ = 0. Pour tout α ∈ R, l’estimateur ϕα =θ +αϕ est sans biais. Comme θ est sans biais et VUMSB, on a alors :

Vθ (θ) = R(θ ; θ)≤R(θ ; ϕα) = Vθ (ϕα) = Vθ (θ)+2αKθ (θ , ϕ)+α2Vθ (ϕ).

Par suite, on a pour tout α ∈ R :

2αKθ (θ , ϕ)+α2Vθ (ϕ)≥ 0.

Ce polynôme en α ne peut garder un signe positif que si Kθ (θ , ϕ) = 0.

2.2. CRITÈRES DE PERFORMANCE ASYMPTOTIQUE 21

Réciproquement, tout estimateur sans biais ψ tel que ψ ∈ L2(Pθ ) s’écrit ψ =θ − ϕ , où ϕ = θ − ψ est une statistique telle que Eθ ϕ = 0 et ϕ ∈ L2(Pθ ). Parhypothèse, on a alors Kθ (θ , ϕ) = 0 et la statistique ψ vérifie donc :

R(θ ; ψ) = Vθ (θ − ϕ) = Vθ (θ)+Vθ (ϕ)−2Kθ (θ , ϕ)= Vθ (θ)+Vθ (ϕ)≥Vθ (θ) = R(θ ; θ),

ce qui montre que θ est VUMSB.

Théorème Soient θ et θ ′ des estimateurs VUMSB. Alors, pour chaque θ ∈ Θ ,θ = θ ′ Pθ -p.s.

Preuve Fixons θ ∈Θ . Comme la statistique ϕ = θ − θ ′ vérifie les hypothèses duthéorème précédent, on a :

Vθ (θ − θ′) = Eθ (θ − θ ′)T (θ − θ ′)

= Eθ (θ − θ ′)T (θ −θ)−Eθ (θ − θ ′)T (θ ′−θ)= Kθ (θ − θ ′, θ)−Kθ (θ − θ ′, θ ′) = 0,

ce qui montre que θ = θ ′ Pθ -p.s., car θ et θ ′ sont sans biais.

2.2 Critères de performance asymptotiqueA mesure que la taille n de l’échantillon croît, l’échantillon contient de plus enplus d’informations sur la vraie valeur du paramètre. On est alors amené à s’inté-resser aux propriétés asymptotiques des estimateurs. Dans la suite, sauf mentionexplicite du contraire, toute propriété de convergence sera entendue pour une tailled’échantillon n qui tend vers l’infini.

Définition On dit que l’estimateur θ est consistant lorsque pour chaque θ ∈Θ ,

θPθ−→ θ .

Dans l’exemple de la section 1.1, l’estimateur Xn construit avec un échantillon

(X1, · · · ,Xn) de loi B(p)⊗n est consistant, car XnB(p)⊗n

−→ p pour chaque p ∈]0,1[.

Remarque Un estimateur peut être asymptotiquement sans biais sans être consis-tant. De même, un estimateur peut être consistant sans être asymptotiquement

22 CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE

sans biais. Pour se convaincre du second point par exemple, considérons le mo-dèle statistique (Rn,N(m,1)⊗nm∈]0,1[), et l’estimateur m issu de l’échantillon(X1, · · · ,Xn) de la loi N(m,1)⊗n, pour m ∈]0,1[ :

m = Xn +1

F(−√

n)1Xn≤0,

où F désigne la fonction de répartition de la loi N(0,1). Comme m > 0, la loi

faible des grands nombres montre que m Pm−→ m, si Pm = N(m,1)⊗n. Par ailleurs,comme Xn ∼ N(m,1/n) :

Pm(Xn ≤ 0) =1√2π

∫ −m√

n

−∞

e−t2/2dt ≥ F(−√

n),

car m≤ 1. Donc Emm≥ m+1, et m n’est pas asymptotiquement sans biais.

Exercice [CAS OÙ LE PARAMÈTRE D’INTÉRÊT EST UNE FONCTION DE θ ] Soitle modèle statistique (Rn,Q⊗n

θθ∈Θ ) tel que pour chaque θ ∈Θ , Qθ admet un

moment d’ordre 2. Pour un échantillon (X1, · · · ,Xn) de loi Q⊗nθ

, on note :

σ2n =

1n

n

∑i=1

(Xi− Xn)2.

Montrer que σ2n est un estimateur biaisé de la variance de Qθ , mais qu’il est

asymptotiquement sans biais et consistant.

Cette propriété ne doit être vue que comme une propriété minimale que doitsatisfaire un estimateur raisonnablement constitué. Cependant, elle ne permet pasde préciser l’erreur commise. C’est précisémment l’objet de la définition qui suit.

Définitions Soit (vn)n une suite de réels positifs telle que vn → ∞. On dit quel’estimateur θ est :

1. de vitesse (vn)n si, pour chaque θ ∈ Θ , il existe une loi `(θ) telle que

vn(θ −θ)L /Pθ−→ `(θ).

2. asymptotiquement normal si, en outre, les lois `(θ) sont gaussiennes.

La performance d’un estimateur est notamment évaluée sur sa vitesse car, pourune précision donnée, plus la vitesse est rapide, moins la taille de l’échantillon

2.3. INTERVALLES DE CONFIANCE 23

doit être importante. Néanmoins, il ne faut pas oublier qu’un estimateur perfor-mant doit aussi pouvoir être calculé via un algorithme de complexité raisonnable.Comme, en principe, ces 2 contraintes s’opposent, il est important de savoir réali-ser un compromis entre ces exigences.

Remarque Un estimateur qui possède la propriété 1. de la définition ci-dessus estconsistant. En effet, fixons θ ∈Θ . On suppose pour simplifier que (vn)n est crois-sante, et que `(θ) est une loi sans atomes (sinon, il suffit de travailler sur l’en-semble des points de continuité de la fonction de répartition de la loi de ‖`(θ)‖ ; àtoutes fins utiles, rappelons que l’ensemble des points de discontinuité d’une v.a.r.est au plus dénombrable). Pour chaque ε > 0, on a

Pθ (‖θ −θ‖ ≥ ε)≤ Pθ (vn‖θ −θ‖ ≥ vpε),

pour tout p≤ n. On en déduit que pour tout p,

limsupn→∞

Pθ (‖θ −θ‖ ≥ ε)≤ Pθ (‖`(θ)‖ ≥ vpε).

En faisant finalement tendre p vers +∞, on peut conclure que θPθ−→ θ .

Dans l’exemple de la section 1.1, on a vu que l’estimateur Xn construit avec unéchantillon (X1, · · · ,Xn) de loi B(p)⊗n est asymptotiquement normal, de vitesse√

n, car pour chaque p ∈ [0,1],

√n(Xn− p)

L /B(p)⊗n

−→ N(0, p(1− p)).

Exercice Soit le modèle statistique (Rn,U ([θ ,θ + 1])⊗nθ∈[0,1]). Construire etétudier des estimateurs du paramètre θ , en utilisant les statistiques mini≤n Xi,maxi≤n Xi et Xn issues d’un échantillon (X1, · · · ,Xn) de la loi U ([θ ,θ +1])⊗n.

2.3 Intervalles de confianceNous avons déjà vu, dans la section 1.1, un exemple de construction d’intervalle deconfiance. L’objectif de cette section est d’en rappeler le principe, sans toutefoisrentrer dans un formalisme excessif, qui pourrait être préjudiciable à la compré-hension de la démarche.

Dans cette section, le modèle statistique est (H n,Pθθ∈Θ ), avec Θ ⊂ R.L’observation (x1, · · · ,xn) ∈H n est issue d’une loi Pθ0 , avec θ0 ∈Θ inconnu.

24 CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE

2.3.1 Intervalle de confiance pour une taille d’échantillon finieOn fixe α ∈]0,1[.

Définition Soit Tn une fonction définie sur H n et à valeurs dans les intervalles deR telle que pour chaque θ ∈Θ :

Pθ (θ ∈ Tn(.)) = (resp. ≥)1−α.

Tn(x1, · · · ,xn) s’appelle intervalle de confiance (resp. par excès) pour θ0, au ni-veau de confiance 1−α .

Ainsi, θ0 ∈ Tn(x1, · · · ,xn) avec une Pθ0-probabilité (resp. au moins) 1−α . Onpeut remarquer d’emblée qu’un intervalle de confiance est d’autant plus intéres-sant qu’il est de longueur faible, pour un niveau de confiance élevé. Comme ces 2exigences s’opposent, il est impératif de réaliser un compromis.

Exemple Considérons le cas d’un modèle statistique Pθθ∈Θ = Q⊗nθθ∈Θ pour

lequel∫H x2Qθ (dx)≤ 1 et θ =

∫H xQθ (dx) pour tout θ ∈Θ . Soit (X1, · · · ,Xn) un

échantillon de la loi Q⊗nθ

. D’après l’inégalité de Bienaymé-Tchebytchev :

Pθ (|Xn−θ |> t)≤ varθ (Xn)t2 =

varθ (X1)nt2 ≤ 1

nt2 , ∀t > 0.

Si t vérifie (nt2)−1 ≤ α , on a donc

Pθ (|Xn−θ |> t)≤ α.

Pour un tel t, [xn− t, xn + t] est donc un intervalle de confiance par excès pour θ0,au niveau de confiance 1−α . On peut trouver des intervalles de confiance plusprécis en utilisant, au lieu de l’inégalité de Bienaymé-Tchebytchev, une inégalitéexponentielle (inégalité de Bernstein, inégalité de Hoeffding, ...), forcément plusprécise.

Souvent, l’un des ingrédients de base pour construire un intervalle de confianceest le quantile d’une loi sur R.

Définition-Proposition Soit F la fonction de répartition d’une loi ν sur R. Lequantile d’ordre r ∈]0,1[ de la loi ν est défini par

qr = infx ∈ R : F(x)≥ r.

2.3. INTERVALLES DE CONFIANCE 25

Si F est continue, F(qr) = r. Si, de plus, F est strictement croissante, alors qr estl’unique solution de l’équation F(.) = r.

Preuve Il suffit de remarquer que, comme F est croissante et continue à droite,F(q−r )≤ r ≤ F(qr), si F(q−r ) est la limite à gauche de F en qr.

Exemple Considérons le modèle statistique N(m,1)⊗nm∈R. Pour (X1, · · · ,Xn)un échantillon de la loi Pm = N(m,1)⊗n, on a

√n(Xn−m) ∼ N(0,1). Soit t0 le

quantile d’ordre 1−α/2 de la loi N(0,1) : si Φ est la fonction de répartition dela loi N(0,1), on sait que Φ(t0) = 1−α/2. Comme la loi N(0,1) possède unedensité paire :

Pm(√

n |Xn−m| ≤ t0)

= 2Φ(t0)−1 = 1−α.

Si les observations x1, · · · ,xn sont régies par la loi N(m0,1), [xn− t0/√

n, xn +t0/√

n] est un intervalle de confiance pour m0, au niveau 1−α .

Si l’obtention d’une telle propriété est hors d’atteinte, ou si Tn est trop com-plexe pour pouvoir être utilisé, on se retranche sur une propriété asymptotique.

2.3.2 Intervalle de confiance asymptotiqueSoit α ∈]0,1[.

Définition Soit, pour chaque n, Tn une fonction définie sur H n et à valeurs dansles intervalles de R telle que pour chaque θ ∈Θ :

Pθ (θ ∈ Tn(.))−→ 1−α.

Tn(x1, · · ·xn) s’appelle intervalle de confiance asymptotique pour θ0 au niveau deconfiance 1−α .

Exemple Supposons par exemple que θ est un estimateur asymptotiquement nor-mal, de vitesse (vn)n : pour chaque θ ∈Θ ,

vn(θ −θ)L /Pθ−→ N(0,1). (2.3.1)

Notons q1−α/2 et qα/2 les quantiles d’ordre 1−α/2 et α/2 de la loi N(0,1). Parsymétrie de la loi N(0,1), q1−α/2 =−qα/2. Si q = q1−α/2 > 0, alors :

(−q≤ vn(θ −θ)≤ q

)−→ 1−α.

26 CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE

L’intervalle de confiance asymptotique au niveau 1−α est donc :[θ(x1, · · · ,xn)−

qvn

; θ(x1, · · · ,xn)+qvn

].

Pour la construction des intervalles de confiance asymptotiques, le lemme deSlutsky (au programme du L3) est souvent utile.

Lemme [SLUTSKY] Soient (Xn)n et (Yn)n des suites de v.a.r. sur (Ω ,F ,P). Si il

existe une v.a.r. Y et un réel a tels que XnP−→ a et Yn

L /P−→ Y , alors (Xn,Yn)L /P−→

(X ,Y ). En particulier, XnYnL /P−→ aY et Xn +Yn

L /P−→ a+Y .

Exemple Supposons à nouveau que θ est un estimateur asymptotiquement nor-mal, de vitesse (vn)n : pour chaque θ ∈Θ , il existe σ2

θ> 0 tel que

vn(θ −θ)L /Pθ−→ N(0,σ2

θ ). (2.3.2)

Soit σ un estimateur consistant de σθ . On a recours au lemme de Slutsky pour endéduire de (2.3.2) que pour chaque θ ∈Θ :

vnθ −θ

σ

L /Pθ−→ N(0,1).

Par suite, avec les notations de l’exemple précédent :

(−q≤ vn

θ −θ

σ≤ q

)−→ 1−α,

ou bien, avec une écriture équivalente :

(θ ∈

[θ − σq

vn; θ +

σqvn

])−→ 1−α.

Comme les quantités θ et σ qui interviennent dans cet intervalle peuvent être cal-culées pour les observations x1, · · · ,xn, cette propriété nous donne l’intervalle deconfiance asymptotique recherché.

2.3. INTERVALLES DE CONFIANCE 27

La δ -méthode est aussi souvent utilisée pour la construction d’intervalle de confianceasymptotiques.

Lemme [δ -MÉTHODE] Soit (Xn)n une suite de v.a.r. sur (Ω ,F ,P), g : R→ Rune fonction continûment dérivable en x0 et (vn)n une suite de réels tendant vers

+∞. Si vn(Xn− x0)L /P−→ X, alors vn(g(Xn)−g(x0))

L /P−→ g′(x0)X.

Preuve D’après la formule de Taylor-Lagrange, il existe ξn compris entre x0 et Xntel que

g(Xn) = g(x0)+(Xn− x0)g′(ξn).

Comme g′ est continue en x0 et (Xn)n converge en probabilité vers x0, on a donc

vn(g(Xn)−g(x0)) = vn(Xn− x0)g′(ξn)L /P−→ g′(x0)X ,

d’après le lemme de Slutsky.

Exemple Supposons que l’on veuille construire un intervalle de confiance asymp-totique au niveau 1−α pour le paramètre λ , dans le modèle E (λ )⊗nλ>0. Soit(X1, · · · ,Xn) un échantillon de la loi E (λ )⊗n. D’après le théorème de la limitecentrale :

√n(

Xn−1λ

)L /E (λ )⊗n

−→ N(0,1/λ2).

On a recours à la δ -méthode pour en déduire que

√n(

1Xn−λ

)L /E (λ )⊗n

−→ 1λ 2 N(0,1/λ

2) =1

λ 3 N(0,1).

Finalement, en utilisant l’estimateur consistant 1/Xn, le lemme de Slutsky nousdonne

X−3n√

n(

1Xn−λ

)L /E (λ )⊗n

−→ N(0,1).

L’intervalle de confiance asymptotique s’en déduit facilement.

28 CHAPITRE 2. PRINCIPES DE L’INFÉRENCE STATISTIQUE

Chapitre 3

Vraisemblance

La méthode de construction des estimateurs par maximisation de la vraisemblanceest sans doute la plus répandue. Le principe de la construction est intuitivementévident : il s’agit de choisir comme estimateur le paramètre pour lequel l’obser-vation est la plus probable, ou la plus vraisemblable ...

Dans tout le chapitre, l’espace des observations individuelles est H ⊂ Rk, etl’espace des paramètres est Θ ⊂ Rd .

3.1 Le concept de vraisemblanceDéfinition On appelle vraisemblance du modèle statistique (H n,Pθθ∈Θ ) do-miné par µ toute application L : H n×Θ → R+ telle que, pour chaque θ ∈Θ ,l’application partielle L(.;θ) : H n→ R+ soit un élément de la classe d’équiva-lence de la densité de Pθ par rapport à µ .

Remarque La vraisemblance, dont l’existence est acquise grâce au théorème deRadon-Nikodym, dépend donc du choix de la mesure dominante du modèle, quin’est pas unique. De plus, en raison du fait que que chaque densité dPθ/dµ n’estunique qu’à une équivalence près, une vraisemblance elle-même n’est pas unique.Malgré cela, nous parlerons de "la" vraisemblance, sachant que, dans la pratique,le choix d’une vraisemblance s’impose souvent par ses propriétés analytiques.

Exemples1. Dans le modèle statistique (0,1n,B(p)⊗np∈]0,1[) de la section 1.1, qui

29

30 CHAPITRE 3. VRAISEMBLANCE

est dominé par la mesure (δ0 +δ1)⊗n, la vraisemblance L s’exprime par :

L(x1, · · · ,xn; p) = B(p)⊗n(x1, · · · ,xn) = p∑ni=1 xi (1− p)n−∑

ni=1 xi ,

pour p ∈]0,1[ et x1, · · · ,xn ∈ 0,1.2. Dans le modèle (Rn,N(m,σ2)⊗nm∈R,σ∈R?

+), qui est dominé par la me-

sure de Lebesgue sur Rn, la vraisemblance est :

L(x1, · · · ,xn;m,σ2) =1

(√

2πσ2)nexp(−∑

ni=1(xi−m)2

2σ2

),

pour xi ∈ R, m ∈ R et σ ∈ R?+.

Dans le cadre de modèles statistiques issus d’observations indépendantes, l’ex-pression naturelle de la vraisemblance est simple, comme le montre la propositionci-dessous.

Proposition Soit (H ,Qθθ∈Θ ) un modèle statistique dominé par la mesure µ ,et de vraisemblance L. Alors, la fonction

Ln : H n×Θ → R

(x1, · · · ,xn,θ) 7→n

∏i=1

L(xi;θ),

est la vraisemblance du modèle (H n,Q⊗nθθ∈Θ ) pour la mesure dominante µ⊗n.

Preuve Il suffit de remarquer que, pour chaque θ ∈Θ ,

n

∏i=1

L(xi;θ),

est une version de la densité de Q⊗nθ

par rapport à µ⊗n.

Reprenons l’exemple de la section 1.1. Les lancers de la pièce ont fourniune suite d’observations x1, · · · ,xn ∈ 0,1. Il est naturel de considérer que laloi B(p0) qui régit ces observations est la loi qui apporte la plus forte proba-bilité à cette réalisation. C’est ainsi que, pour donner une valeur approchée dela vraie valeur du paramètre, on est amené à maximiser en p la vraisemblanceL(x1, · · · ,xn; p) : l’idée sous-jacente est que la valeur de p obtenue est celle qui

3.2. CONSISTANCE DE L’EMV 31

s’ajuste le mieux aux observations. C’est cette observation qui motive le conceptde maximum de vraisemblance.

Définition Soit (H n,Pθθ∈Θ ) un modèle statistique dominé, et L la vraisem-blance associée. Un estimateur du maximum de vraisemblance (EMV) est unestatistique g à valeurs dans Θ qui vérifie :

L(x;g(x)) = supθ∈Θ

L(x;θ), ∀x ∈H n.

Ainsi, si (X1, · · · ,Xn) est un échantillon de la loi Pθ , l’EMV (de θ ) est g(X1, · · · ,Xn).

Bien entendu, ni l’existence, ni l’unicité des EMV ne sont en général pas ac-quises.

Dans le modèle statistique issu d’observations indépendantes de la propositionprécédente, on préfère calculer l’EMV en maximisant la "log-vraisemblance" -c’est-à-dire le logarithme de la vraisemblance- plutôt que la vraisemblance, carcelle-ci s’exprime comme :

lnLn(x1, · · · ,xn;θ) =n

∑i=1

lnL(xi;θ).

L’intérêt pratique est clair, l’étape de maximisation étant en principe plus facile àmener.

Exemple L’EMV du modèle statistique (Rn,N(m,1)⊗nm∈R) est la moyenneempirique.

3.2 Consistance de l’EMVL’un des outils de base pour l’étude des EMV est décrit ci-dessous :

Définition-Proposition Soit (H n,Pθθ∈Θ ) un modèle statistique identifiableet dominé par µ , de vraisemblance L. Pour chaque α,θ ∈ Θ , on suppose quelnL(.;α) ∈ L1(Pθ ). On note :

K(α,θ) =−Eθ lnL(.;α)L(.;θ)

32 CHAPITRE 3. VRAISEMBLANCE

l’information de Kullback entre les lois Pα et Pθ . Alors, K(α,θ) ≥ 0 et de plusK(α,θ) = 0⇔ α = θ .

Preuve Tout d’abord, il est clair que K(θ ,θ) = 0. Soient donc α 6= θ . Comme lafonction t 7→ − ln t définie sur R?

+ est convexe, on a avec l’inégalité de Jensen :

K(α,θ) = −∫H n

lnL(.;α)L(.;θ)

dPθ

≥ − ln∫H n

L(.;α)L(.;θ)

dPθ =− ln∫H n

L(.;α)dµ = 0.

Supposons que K(α,θ) = 0. On est alors dans un cas d’égalité dans l’inégalitéde Jensen. Comme t 7→ − ln t définie sur R?

+ est strictement convexe, on en dé-duit qu’il existe C ∈ R+ tel que L(.;α) = CL(.;θ) Pθ -p.s. Or, Pα est absolumentcontinue par rapport à Pθ , de densité L(.;α)/L(.;θ). Par suite, pour tout borélienA⊂H n,

Pα(A) =∫

AL(.;α)dµ =

∫A

L(.;α)L(.;θ)

dPθ = CPθ (A).

On en déduit tout d’abord que C = 1 (prendre A = H n), puis que Pθ = Pα , ce quicontredit l’identifiabilité du modèle.

Cette propriété de l’information de Kullback permet d’identifier le paramètreinconnu θ en tant que seule solution de l’équation K(.,θ) = 0. C’est en ce sensque l’information de Kullback donne des informations sur le modèle.

A priori, il n’y a pas de raison pour qu’un EMV soit consistant, comme enatteste l’exemple suivant :

Exemple Soit (Rn,C (θ)⊗nθ>0) un modèle statistique, où C (θ) désigne la loisur R, de densité

θ

π

1θ 2 + x2 , x ∈ R.

Notons (X1, · · · ,Xn) un échantillon de la loi C (θ)⊗n, avec θ > 0. Un simple calculnous montre que l’EMV θ est la seule solution de l’équation ϕn(.) = 1/2, où l’ona noté

ϕn(α) =1n

n

∑i=1

11+(Xi/α)2 , α > 0.

3.2. CONSISTANCE DE L’EMV 33

Par ailleurs, on vérifie facilement que pour tous α1,α2 > 0 :

|ϕn(α1)−ϕn(α2)| ≤ |α21 −α

22 |

1n

n

∑i=1

1α2

1 +X2i.

Par l’absurde, supposons que θ est consistant. La loi des grands nombres et cetteinégalité nous montrent que

ϕn(θ)C (θ)⊗n

−→ Eθ

11+(X/θ)2

pour chaque θ > 0. Par suite,

11+(X/θ)2 =

12, ∀θ > 0,

ce qui est impossible car le terme de gauche tend vers 1 lorsque θ → ∞.

Il est donc nécessaire de donner des conditions suffisantes de consistance desEMV.

Théorème Soit (H ,Qθθ∈Θ ) un modèle statistique identifiable et dominé, devraisemblance L. On suppose que Θ est compact, et que :

(i) ∀x ∈H , lnL(x; .) est continu sur Θ ;(ii) ∀θ ∈Θ , il existe H ∈ L1(Qθ ) telle que supα∈Θ | lnL(.;α)| ≤ H.

On note θ l’EMV de θ associé à la vraisemblance

Ln(x1, · · · ,xn;θ) =n

∏i=1

L(xi;θ)

du modèle (H n,Q⊗nθθ∈Θ ). Alors, θ est consistant.

Preuve On fixe θ ∈Θ et on note Pθ = Q⊗nθ

. Soit (X1, · · · ,Xn) un échantillon de laloi Pθ et, pour chaque α ∈Θ :

Un(α) = −1n

lnLn(X1, · · · ,Xn;α) =−1n

n

∑i=1

lnL(Xi;α)

U(α) = −Eθ lnL(.;α).

Remarquons que Un(θ) = infΘ Un et, par hypothèse, que U est continue. D’après

la loi des grands nombres, UnPθ−→ U ponctuellement ; nous allons tout d’abord

34 CHAPITRE 3. VRAISEMBLANCE

montrer que cette convergence est en fait uniforme. Pour tout η > 0, on désignepar g(.,η) la fonction définie pour chaque x ∈H n par

g(x,η) = sup‖α−β‖≤η

| lnL(x;α)− lnL(x;β )|.

On fixe maintenant ε > 0. Comme g(.,η)≤ 2H avec H ∈ L1(Pθ ) et g(x,η)→ 0 siη→ 0 pour tout x ∈H n, on a Eθ g(.,η) < ε/3 d’après le théorème de Lebesgue,pour une certaine valeur de η que nous fixons dorénavant. On recouvre le compactΘ par N boules fermées de Θ de rayon η :

Θ =N⋃

j=1

B(θ j,η).

On a dans un premier temps :

supΘ

|Un−U | ≤ maxj=1,··· ,N

supB(θ j,η)

|Un−Un(θ j)|+ maxj=1,··· ,N

|Un(θ j)−U(θ j)|

+ maxj=1,··· ,N

supB(θ j,η)

|U(θ j)−U |

≤ 1n

n

∑i=1

g(Xi,η)+ maxj=1,··· ,N

|Un(θ j)−U(θ j)|+Eθ g(.,η).

On en déduit dans un second temps que, puisque Eθ g(.,η) < ε/3 :

(supΘ

|Un−U | ≥ ε

)≤ Pθ

(1n

n

∑i=1

g(Xi,η)+ maxj=1,··· ,N

|Un(θ j)−U(θ j)| ≥ 2ε/3

)

≤ Pθ

(max

j=1,··· ,N|Un(θ j)−U(θ j)| ≥ ε/3

)+Pθ

(1n

n

∑i=1

g(Xi,η)≥ ε/3

).

Or, d’après la la loi des grands nombres, on a à la fois :

maxj=1,··· ,N

|Un(θ j)−U(θ j)|Pθ−→ 0 et

1n

n

∑i=1

g(Xi,η)Pθ−→ Eθ g(.,η) < ε/3.

Ces observations nous permettent de déduire que supΘ |Un−U | Pθ−→ 0. En parti-culier,

Un(θ) = infΘ

UnPθ−→ inf

ΘU. (3.2.1)

3.3. INFORMATION DE FISHER 35

Comme Θ est compact et U est continue, il existe t ∈Θ tel que U(t) = infΘ U .Par suite :

Un(θ)−Un(θ)Pθ−→U(t)−U(θ) = K(t,θ).

De plus,Un(θ)−Un(θ) = inf

ΘUn−Un(θ)≤ 0.

On a donc K(t,θ)≤ 0, ce qui montre que K(t,θ) = 0 d’où t = θ . D’après (3.2.1),

Un(θ)Pθ−→U(θ) et, puisque Un converge uniformément vers U en probabilité, on

en déduit que

K(θ ,θ) = U(θ)−U(θ)Pθ−→ 0.

Soit ε > 0. Il existe γ > 0 tel que si α ∈Θ vérifie ‖α−θ‖ ≥ ε , alors K(α,θ)≥ γ .Par conséquent,

(‖θ −θ‖ ≥ ε

)≤ Pθ

(K(θ ,θ)≥ γ

)−→ 0,

donc θ tend vers θ en probabilité.

3.3 Information de FisherDans le cadre d’un modèle statistique (H n,Pθθ∈Θ ) de vraisemblance L telleque pour chaque x ∈H n, lnL(x; .) ∈ C 1, la fonction score au point θ définie par

x 7→ ∇ lnL(x;θ),

et dans laquelle ∇ désigne le gradient par rapport à θ , évalue la variabilité du mo-dèle. C’est une notion intrinsèque au modèle, en ce sens qu’elle ne dépend ni dela mesure dominante, ni de la vraisemblance. C’est ce qui justifie la définition quisuit.

Par convention, dès que l’on parle de gradient (resp. hessienne), il est sous-entendu que la fonction est de classe C 1 (resp. C 2).

Définition Soit (H n,Pθθ∈Θ ) un modèle statistique dominé de vraisemblanceL. On suppose que Θ est ouvert, et que pour chaque θ ∈Θ : ∇ lnL(.;θ)∈ L2(Pθ ).

36 CHAPITRE 3. VRAISEMBLANCE

On appelle information de Fisher la fonction

I : θ 7→ varθ (∇ lnL(.;θ)) =(

covθ

(∂

∂θilnL(.;θ),

∂θ jlnL(.;θ)

))i, j=1,··· ,d

.

Lorsque nous parlerons d’information de Fisher, il sera sous-entendu que leshypothèses imposées dans cette définition seront satisfaites.

L’information de Fisher est donc une fonction à valeurs dans l’ensemble desmatrices semi-définies positives qui évalue le pouvoir de discrimination du mo-dèle entre 2 valeurs proches du paramètre d’intérêt. En effet, on voit directementdans le cas d = 1 que I(θ) grand traduit une grande variation de la nature desprobabilités du modèle au voisinage de Pθ , d’où une discrimination de la vraievaleur du paramètre inconnu facilitée. A l’inverse, si I(θ) est petit, la loi est trèspiquée : c’est mauvais, car on est amené à rechercher le maximum de la vraisem-blance dans une région très vaste. Ce sont ces propriétés de I(θ) qui fournissentune information sur le modèle.

Pour illustrer ces affirmations, reprenons le modèle de la section 1.1, pourlequel la vraisemblance vaut, si p ∈]0,1[ et x1, · · · ,xn ∈ 0,1 :

L(x1, · · · ,xn; p) = p∑ni=1 xi (1− p)n−∑

ni=1 xi .

On a déjà vu dans la relation (2.1.1) que :

I(p) = varp (∇ lnL(.; p)) =n

p(1− p).

Dans ce modèle, l’incertitude est faible pour p proche de 0 et 1 alors qu’elle estgrande pour p = 1/2. Ceci se traduit bien par une information I(p) maximale pourp proche de 0 et 1, et minimale pour p = 1/2.

Dans une situation d’échantillonage i.i.d., l’information de Fisher est pro-portionnelle à la taille de l’échantillon. Cette propriété, que nous montrons ci-dessous, légitime encore plus ce concept en tant que mesure d’une quantité d’in-formation.

Proposition Soit (H ,Qθθ∈Θ ) un modèle statistique dominé d’information deFisher I. Alors, l’information de Fisher In du modèle (H n,Q⊗n

θθ∈Θ ) vaut In(θ)=

3.3. INFORMATION DE FISHER 37

nI(θ) pour chaque θ ∈Θ .

Preuve Si L désigne la vraisemblance du modèle (H ,Qθθ∈Θ ), la vraisem-blance Ln du modèle (H n,Q⊗n

θθ∈Θ ) est :

Ln(x1, · · · ,xn;θ) =n

∏i=1

L(xi;θ).

Le score de ce dernier modèle est donc :

∇ lnLn(x1, · · · ,xn;θ) =n

∑i=1

∇ lnL(xi;θ).

Si (X1, · · · ,Xn) est un échantillon de la loi Pθ = Q⊗nθ

, on a alors par indépendance :

In(θ) = varθ

(n

∑i=1

∇ lnL(Xi;θ)

)=

n

∑i=1

varθ (∇ lnL(Xi;θ)) = nI(θ).

Du point de vue des calculs, on se réfèrera souvent à la proposition qui suit,dont l’objectif principal est de donner une forme simplifiée pour la matrice d’in-formation de Fisher. Dans la suite, ∇2g(θ) désigne la matrice Hessienne de g :Θ → R évaluée en θ ∈Θ .

Proposition Soit (H n,Pθθ∈Θ ) un modèle statistique dominé par µ , de vrai-semblance L et d’information de Fisher I. Soit θ ∈Θ . On suppose qu’il existe unvoisinage V ⊂Θ de θ tel que supα∈V ‖∇L(.;α)‖ ∈ L1(µ). Alors :

(i) Eθ ∇ lnL(.;θ) = 0.(ii) si, en outre, supα∈V ‖∇2L(.;α)‖ ∈ L1(µ), on a I(θ) =−Eθ ∇2 lnL(.;θ).

Les conditions de cette proposition ne sont pas aussi restrictives qu’elle peuventle sembler, car elle sont satisfaites par bon nombre de modèles statistiques. Commenous allons le voir, il s’agit essentiellement de donner des conditions pour fairepasser l’opération de dérivation sous une intégrale.

Preuve On commence par remarquer que, sous la condition supα∈V ‖∇L(.;α)‖ ∈L1(µ), on a d’après le théorème de Lebesgue :∫

H n∇L(x;θ)µ(dx) = ∇

∫H n

L(x;θ)µ(dx) = 0.

38 CHAPITRE 3. VRAISEMBLANCE

Par suite,

Eθ ∇ lnL(.;θ) =∫H n

(∇ lnL(x;θ))L(x;θ)µ(dx) =∫H n

∇L(x;θ)µ(dx) = 0,

d’où (i). Pour montrer (ii), on remarque dans un premier temps que d’après (i),

I(θ) =(

covθ

(∂

∂θilnL(.;θ),

∂θ jlnL(.;θ)

))i, j=1,··· ,d

=(

∂θilnL(.;θ)

∂θ jlnL(.;θ)

)i, j=1,··· ,d

. (3.3.1)

Soit alors i, j = 1, · · · ,d. Pour x ∈H n, on a

∂ 2

∂θi∂θ jlnL(x;θ) =

(∂ 2

∂θi∂θ jL(x;θ)

)L(x;θ)

(∂

∂θiL(x;θ)

)(∂

∂θ jL(x;θ)

)L2(x;θ)

.

Il est bon de remarquer que chacune des expressions qui interviennent dans lemembre de droite est une fonction de x qui est dans L1(Pθ ) : c’est clair pour le 1erterme car ∇2L(.;θ)∈ L1(µ) ; c’est vrai aussi pour le 2nd membre sous la conditiond’existence de l’information de Fisher, i.e. ∇ lnL(.;θ) ∈ L2(Pθ ). Le théorème deLebesgue montre que sous l’hypothèse supα∈V ‖∇2L(.;α)‖ ∈ L1(µ), on a :∫

H n

∂ 2

∂θi∂θ jL(x;θ)µ(dx) =

∂ 2

∂θi∂θ j

∫H n

L(x;θ)µ(dx) = 0.

Par suite,

∂ 2

∂θi∂θ jlnL(.;θ) =

∫H n

(∂ 2

∂θi∂θ jlnL(x;θ)

)L(x;θ)µ(dx)

= −∫H n

(∂

∂θiL(x;θ)

)(∂

∂θ jL(x;θ)

)1

L(x;θ)µ(dx)

= −Eθ

∂θilnL(.;θ)

∂θ jlnL(.;θ).

D’après (3.3.1), cette dernière quantité coincide avec −I(θ)i j, d’où (ii).

Cette proposition légitime la définition qui suit.

Définition On dit que le modèle statistique dominé (H n,Pθθ∈Θ ) dominé et devraisemblance L est régulier si pour chaque θ ∈Θ :

3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV 39

(i) son information de Fisher en θ existe et est inversible ;(ii) Eθ ∇ lnL(.;θ) = 0 et I(θ) =−Eθ ∇2 lnL(.;θ).

La proposition précédente nous donne donc des conditions suffisantes de ré-gularité d’un modèle. A nouveau, il est entendu dans cette définition que lesconditions d’existence de l’information de Fisher sont satisfaites. De même, onn’évoque l’espérance d’une v.a. que lorsque celle-ci existe.

3.4 Normalité asymptotique de l’EMVThéorème Soit (H ,Qθθ∈Θ ) un modèle dominé régulier, de vraisemblance Let d’information de Fisher I tel que, pour chaque θ ∈Θ , il existe un voisinageV ⊂Θ de θ avec supα∈V ‖∇2 lnL(.;α)‖ ∈ L1(Pθ ). On note θ l’EMV de θ associéà la vraisemblance

Ln(x1, · · · ,xn;θ) =n

∏i=1

L(xi;θ)

du modèle (H n,Q⊗nθθ∈Θ ). Si θ est consistant, alors il est asymptotiquement

normal, de vitesse√

n et de variance asymptotique I(θ)−1 :

√n(θ −θ

) L /Q⊗nθ−→ N(0, I(θ)−1), ∀θ ∈Θ .

Remarque Si les conditions de régularité du modèle ne sont certainement pasoptimales pour garantir un tel résultat, il n’en reste pas moins qu’il est néces-saire d’imposer une certaine régularité. Considérons en effet le cas du modèle(Rn

+,U ([0,θ ])⊗nθ>0). Sa vraisemblance Ln s’écrit pour θ > 0 :

Ln(x1, · · · ,xn;θ) =

θ−n si 0≤ x1, · · · ,xn ≤ θ ;0 sinon.

L’EMV calculé à partir d’un échantillon (X1, · · · ,Xn) de loi U ([0,θ ])⊗n est doncθ = max1≤i≤n Xi. Calculons maintenant sa vitesse de convergence. En adoptant lanotation Pθ = U ([0,θ ])⊗n, on a pour chaque 0 < t < nθ :

(n(θ − θ

)≤ t)

= 1−Pθ

(max

1≤i≤nXi < θ − t

n

)= 1−

(1− t

)n.

40 CHAPITRE 3. VRAISEMBLANCE

Comme la limite est 1− exp(−t/θ) dès que t > 0, on a donc montré que

n(θ − θ

) L /Pθ−→ E (1/θ).

Ainsi, dans cet exemple de modèle non régulier, ni la vitesse de l’EMV, ni la loilimite, ne correspondent à celles du théorème.

Preuve On fixe θ ∈ Θ et on pose Pθ = Q⊗nθ

. Dans la suite, (X1, · · · ,Xn) est unéchantillon de loi Pθ . Pour chaque α ∈Θ , on note :

Ln(α) = lnLn(X1, · · · ,Xn;α) =n

∑i=1

lnL(Xi;α).

Comme θ maximise Ln, un développement de Taylor avec reste intégral nousdonne :

0 = ∇Ln(θ) = ∇Ln(θ)+(∫ 1

0∇

2Ln(θ + t(θ −θ)

)dt)

(θ −θ). (3.4.1)

Nous examinons séparément chacun des termes qui interviennent dans cette rela-tion. Rappelons que, puisque le modèle est régulier,

Eθ ∇ lnL(.;θ) = 0.

Par ailleurs, varθ (∇ lnL(.;θ)) = I(θ). Donc, d’après le théorème de la limite cen-trale :

1√n

∇Ln(θ) =1√n

n

∑i=1

∇ lnL(Xi;θ)L /Pθ−→ N(0, I(θ)). (3.4.2)

Montrons maintenant que :

1n

∫ 1

0∇

2Ln(θ + t(θ −θ)

)dt

Pθ−→−I(θ)

Notons, pour chaque x ∈H n et r > 0 :

σ(x,r) = sup‖α−θ‖≤r

‖∇2 lnL(x;α)−∇2 lnL(x;θ)‖.

Or, σ(.,r) ∈ L1(Pθ ) pour r assez petit et de plus, lnL(x; .) ∈ C 2 pour chaquex ∈H n. Fixons ε > 0. D’après le théorème de Lebesgue, il existe r > 0 tel queEθ σ(.,r) < ε/2. Par ailleurs, comme

1n

∫ 1

0∇

2Ln(θ + t(θ −θ)

)dt =

1n

n

∑i=1

∫ 1

0∇

2 lnL(Xi;θ + t(θ −θ)

)dt,

3.4. NORMALITÉ ASYMPTOTIQUE DE L’EMV 41

on obtient :

(∥∥∥∥1n

∫ 1

0∇

2Ln(θ + t(θ −θ)

)dt + I(θ)

∥∥∥∥≥ ε

)≤ Pθ

(∥∥∥∥∥1n

n

∑i=1

∫ 1

0

[∇

2 lnL(Xi;θ + t(θ −θ)

)−∇

2 lnL(Xi;θ)]

dt

∥∥∥∥∥≥ ε

2

)

+Pθ

(∥∥∥∥∥1n

n

∑i=1

∇2 lnL(Xi;θ)+ I(θ)

∥∥∥∥∥≥ ε

2

)

≤ Pθ

(1n

n

∑i=1

σ(Xi,r)≥ε

2

)+Pθ

(‖θ −θ‖ ≥ r

)+Pθ

(∥∥∥∥∥1n

n

∑i=1

∇2 lnL(Xi;θ)+ I(θ)

∥∥∥∥∥≥ ε

2

).

Le passage à la dernière inégalité a été obtenu par une intersection avec l’évé-nement ‖θ − θ‖ < r. Or, Eθ σ(.,r) < ε/2 et Eθ ∇2 lnL(.;θ) = −I(θ) car lemodèle est régulier. Comme θ est consistant, on a donc, d’après la loi des grandsnombres :

1n

∫ 1

0∇

2Ln(θ + t(θ −θ)

)dt

Pθ−→−I(θ).

En particulier, I(θ) étant inversible,

(1n

∫ 1

0∇

2Ln(θ + t(θ −θ)

)dt inversible

)−→ 1.

Or, sur ce dernier événement, d’après (3.4.1) :

√n(θ −θ) =− 1√

n

(1n

∫ 1

0∇

2Ln(θ + t(θ −θ)

)dt)−1

∇Ln(θ).

En réunissant toutes les pièces, on en déduit de (3.4.2) que

√n(θ −θ

) L /Pθ−→ I(θ)−1N(0, I(θ)) = N(0, I(θ)−1),

d’où le théorème.

42 CHAPITRE 3. VRAISEMBLANCE

Chapitre 4

Classification des statistiques

Comme dans tout domaine des mathématiques, classer les objets en fonction depropriétés communes est un moyen efficace pour entreprendre leurs études.

4.1 Estimateurs efficacesOn suppose dans cette section que l’espace des paramètres Θ ⊂ R est un ouvert,que H ⊂Rk et que (H n,Pθθ∈Θ ) est un modèle statistique régulier dominé parµ , de vraisemblance L et d’information de Fisher I.

Dans la section 2.1, nous nous sommes intéressés à des bornes du risque qua-dratique, et donc de la variance, dans la famille des estimateurs sans biais. Nouspoursuivons ici dans cette étude. Avant tout, nous aurons besoin de la définitionsuivante qui prendra tout son sens avec l’inégalité de Cramer-Rao.

Définition On dit que θ est un estimateur régulier si il est d’ordre 2 et

∫H n

θ(.)L(.;θ)dµ =∫H n

θ(.)∇L(.;θ)dµ.

L’intérêt de cette définition réside dans la remarque suivante : sous les nota-tions de cette définition, si l’estimateur régulier θ est sans biais, alors∫

H nθ(.)∇L(.;θ)dµ = ∇Eθ θ(.) = 1.

Comme le montre le résultat qui suit, le risque quadratique est uniformémentminoré dans la famille des estimateurs réguliers et sans biais, nous donnant ainsi

43

44 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES

une vitesse seuil qu’il serait illusoire de vouloir améliorer.

Théorème [CRAMER-RAO] Pour tout estimateur θ régulier et sans biais, on a :

R(θ , θ)≥ I(θ)−1, ∀θ ∈Θ .

Le terme I(θ)−1 s’appelle borne de Cramer-Rao.

Preuve Soit θ ∈Θ . L’inégalité de Cauchy-Schwarz nous donne :

R(θ , θ) = varθ (θ)≥(covθ

(θ ,∇ lnL(.;θ)

))2

varθ (∇ lnL(.;θ)). (4.1.1)

Par définition de I(θ), il suffit donc de montrer que covθ

(θ ,∇ lnL(.;θ)

)= 1.

Comme θ est régulier et sans biais, on a∫H n

θ(x)∇L(x;θ)µ(dx) = 1.

Par ailleurs, Eθ ∇ lnL(.;θ) = 0 car le modèle est régulier. En conséquence :

covθ

(θ ,∇ lnL(.;θ)

)=

∫H n

θ(x)∇L(x;θ)L(x;θ)

Pθ (dx)

=∫H n

θ(x)∇L(x;θ)µ(dx)

= 1,

d’où le théorème.

Reprenons l’exemple du modèle statistique (0,1n,B(p)⊗np∈]0,1[) de lasection 1.1. Nous avons montré dans la section 2.1 que l’estimateur Xn construità partir d’un échantillon (X1, · · · ,Xn) de la loi B(p)⊗n est VUMSB, ce qui s’ex-prime par la propriété :

varp(θ) = R(p; θ)≥R(p; Xn) = varp(Xn) =p(1− p)

n,

pour tout autre estimateur sans biais θ . Un simple calcul nous montre aussi quel’information de Fisher de ce modèle est précisément

I(p) =n

p(1− p).

4.1. ESTIMATEURS EFFICACES 45

Ainsi, la borne de l’inégalité de Cramer-Rao, communément appelée borne deCramer-Rao, est atteinte. Cette remarque donne tout son sens à la définition quisuit :

Définition Un estimateur sans biais d’ordre 2 est dit uniformément efficace si ilatteint la borne de Cramer-Rao du modèle.

Si tout estimateur uniformément efficace est VUMSB, la réciproque n’est pasvraie, et ces 2 notions ne sont donc pas les mêmes. La proposition suivante nousmontre qu’il est possible de décrire les estimateurs uniformément efficaces.

Proposition Soit θ un estimateur régulier et sans biais. Alors, θ est uniformémentefficace si, et seulement si, il existe une fonction ψ : Θ → R telle que

∀θ ∈Θ , θ = θ +ψ(θ)∇ lnL(.;θ) Pθ − p.s.

Preuve Soit θ ∈Θ . D’après (4.1.1), θ est uniformément efficace si et seulementsi

varθ (θ)varθ (∇ lnL(.;θ)) =(covθ (θ ,∇ lnL(.;θ)

)2.

On est donc dans un cas d’égalité dans l’inégalité de Cauchy-Schwarz, ce quisignifie qu’il existe ψ(θ) tel que

θ −Eθ θ = ψ(θ)(∇ lnL(.;θ)−Eθ ∇ lnL(.;θ)) Pθ − p.s.

Comme θ est sans biais et ∇ lnL(.;θ) est Pθ -centrée, la proposition est prouvée.

Bien sûr, cette proposition est un "miroir aux alouettes", dans la mesure oùl’estimateur uniformément efficace est alors décrit via le paramètre inconnu θ . Enfait, l’intérêt d’une telle représentation réside dans le fait que l’on peut quelque-fois en déduire qu’un estimateur est uniformément efficace. On peut ainsi facile-ment retrouver le fait que la moyenne empirique est l’estimateur VUMSB dans lemodèle statistique (0,1n,B(p)⊗np∈]0,1[). Pour changer d’exemple, considé-rons plutôt le modèle statistique (Rn,N(m,σ2)⊗nσ>0), avec m ∈ R connu. Si(X1, · · · ,Xn) est un échantillon de la loi N(m,σ2)⊗n, l’estimateur

σ2 =1n

n

∑i=1

(Xi−m)2

46 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES

est sans biais -car m est connu- et régulier. Par ailleurs, la vraisemblance L s’écrit,pour σ > 0 et x1, · · · ,xn ∈ R :

L(x1, · · · ,xn;σ2) =

1(2πσ2)n/2 exp

(− 1

2σ2

n

∑i=1

(xi−m)2

).

Par suite, sa log-vraisemblance vérifie :

∂σ2 lnL(x1, · · · ,xn;σ2) =

−n2σ2 +

12σ4

n

∑i=1

(xi−m)2

=n

2σ4

(1n

n

∑i=1

(xi−m)2−σ2

).

On en déduit de la proposition précédente que σ2 est uniformément efficace.

4.2 Statistiques exhaustivesDans cette partie, le modèle statistique étudié est (H n,Pθθ∈Θ ), avec H ⊂ Rk

et Θ ⊂ Rd .

Le principe d’exhaustivité d’une statistique est un principe de réduction des don-nées, qui est basé sur la notion de loi conditionnelle. Dans la suite, LPθ

(Z1|Z2)désigne la loi conditionnelle, sous Pθ , de Z1 sachant Z2.

Définition La statistique g est dite exhaustive si, pour chaque θ ∈Θ ,

LPθ(X1, · · · ,Xn|g(X1, · · · ,Xn))

ne dépend pas de θ , où (X1, · · · ,Xn) est un échantillon de loi Pθ .

En clair, l’échantillon n’apporte pas plus d’information sur la valeur du pa-ramètre inconnu qu’une statistique exhaustive. Autrement dit, une statistique ex-haustive élimine toute l’information superflue dans l’échantillon, en ne retenantque la partie informative sur le paramètre inconnu.

Reprenons le cas du modèle (0,1n,B(p)⊗np∈]0,1[) introduit dans la sec-tion 1.1. L’ordre dans lequel sont observés les tirages de "pile" ou "face" n’ap-porte aucune information supplémentaire sur le paramètre inconnu. Du coup, on

4.2. STATISTIQUES EXHAUSTIVES 47

peut résumer la suite des observations x1, · · · ,xn par leur somme x1 + · · ·+ xn,ce qui indique que l’estimateur Xn issu de l’échantillon (X1, · · · ,Xn) de la loiB(p)⊗n est exhaustif. Faisons le calcul pour étayer cette intuition. Pour chaquey1, · · · ,yn ∈ 0,1 et z ∈ 0, · · · ,n tels que y1 + · · ·+ yn = z :

B(p)⊗n(

X1 = y1, · · · ,Xn = yn

∣∣∣nXn = z)

=B(p)⊗n

(X1 = y1, · · · ,Xn = yn

)B(p)⊗n(nXn = z)

=pz(1− p)n−z

Czn pz(1− p)n−z =

1Cz

n.

Sous B(p)⊗n, la loi de (X1, · · · ,Xn) sachant nXn est donc la loi uniforme sur l’en-semble y ∈ 0,1n : y1 + · · ·+ yn = nXn. Cette loi ne dépend pas du paramètrep, donc Xn est une statistique exhaustive : toute l’information sur p contenue dansl’échantillon (X1, · · · ,Xn) est en fait contenue dans Xn.

Le théorème ci-dessous nous donne une caractérisation simple de l’exhausti-vité.

Théorème [NEYMAN-FISHER] Supposons que le modèle (H n,Pθθ∈Θ ) est do-miné par µ . Une statistique g à valeurs dans Rq est exhaustive si, et seulement si,il existe 2 applications boréliennes ψ : Rq×Θ →R+ et γ : H n→R+ telles quela vraisemblance L pour µ s’écrit :

L(x;θ) = ψ(g(x),θ)γ(x),∀(x,θ) ∈H n×Θ .

Il est alors très facile de montrer avec ce théorème qu’une statistique est ex-haustive. Par exemple, la moyenne empirique est une statistique exhaustive dans lemodèle (Rn,N(m,1)⊗nm∈R), car la vraisemblance pour la mesure de Lebesguesur Rn vaut

L(x;m) =

exp(−1

2n(xn−m)2

) 1

(2π)n/2 exp

(−1

2

n

∑i=1

(xi− xn)2

),

pour tout x = (x1, · · · ,xn)T ∈ Rn et m ∈ R.

Preuve On a vu en dans la section 1.4 qu’il existe, dans le convexifié de Pθθ∈Θ ,une probabilité qui domine le modèle statistique. Pour simplifier la preuve, on va

48 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES

supposer que la mesure dominante µ est cette mesure, i.e.

µ = ∑n

anPθn,

avec (θn)n ⊂ Θ et (an)n ⊂ [0,1] tel que ∑n an = 1. Dans ce cadre, nous allonsmontrer que g est exhaustive si, et seulement si

L(x;θ) = ψ(g(x),θ) ∀(x,θ) ∈H n×Θ , (4.2.1)

pour une fonction mesurable ψ : Rq×Θ → R+. Au préalable, remarquons quela loi Pθ g−1 de g est absolument continue par rapport à µ g−1, et de densitéϕ(.,θ) = Eµ [L(.;θ) |g = .], si Eµ désigne l’espérance sous µ . En effet, on a pourtout A ∈B(Rq) :

Pθ g−1(A) = Pθ (g ∈ A) =∫

g−1(A)L(.;θ)dµ =

∫g−1(A)

Eµ [L(.;θ) |g]dµ

=∫

AEµ [L(.;θ) |g = x]µ g−1(dx).

d’après le théorème de transfert et par définition de l’espérance conditionnelle.

On suppose tout d’abord que L se factorise comme dans (4.2.1). Soit θ ∈Θ .Comme Pθ g−1 est la loi de g, il faut montrer que pour tout A ∈B(Rq) et toutB ∈B(H n) :

Pθ (g ∈ A∩B) =∫

AK(x,B)Pθ g−1(dx),

avec K un noyau indépendant de θ . Pour tout A ∈B(Rq) et B ∈B(H n) :

Pθ (g ∈ A∩B) =∫H n

1B 1A g(.)ψ(g(.),θ)dµ

=∫H n

Eµ [1B 1A g(.)ψ(g(.),θ) |g] dµ

=∫H n

µ(B |g)1A g(.)ψ(g(.),θ)dµ

=∫

Rqµ(B |g = x)1A(x)ψ(x,θ)µ g−1(dx),

où on a noté µ(B |g) = Eµ [1B |g]. Pour la dernière chaîne d’égalités, on a utilisésuccessivement la définition de l’espérance conditionnelle et l’une de ses proprié-tés fondamentales (Eµ [XY |G ] = XEµ [Y |G ] si X est G -mesurable, dès que XY et

4.2. STATISTIQUES EXHAUSTIVES 49

Y sont dans L1(µ)), puis le théorème de transfert. Comme Eµ [L(.;θ) |g = .] =ψ(.,θ) est la densité de Pθ g−1 par rapport à µ g−1, on a donc obtenu :

Pθ (g ∈ A∩B) =∫

Aµ(B |g = x)ψ(x,θ)µ g−1(dx)

=∫

Aµ(B |g = x)Pθ g−1(dx)

Le noyau de transition K(x,B) = µ(B |g = x) associé à la loi conditionnelle sousPθ de l’échantillon sachant g est indépendant de θ , c’est-à-dire que g est une sta-tistique exhaustive.

Supposons maintenant que g est exhaustive. Soit θ ∈Θ . Comme g est exhaus-tive, la loi conditionnelle Pθ (. |g = .) est indépendante de θ ; notons-là P(. |g = .).Alors, pour tout B ∈B(H n) et x ∈ Rq :

µ(B |g = x) = ∑n

anPθn(B |g = x) = P(B |g = x),

i.e. les lois conditionnelles P(. |g = .) et µ(. |g = .) sont les mêmes µ g−1-p.s.Par suite, pour tous A ∈B(Rq) et B ∈B(H n) :

Pθ (g ∈ A∩B) =∫

AP(B |g = x)Pθ g−1(dx)

=∫

Aµ(B |g = x)ϕ(x,θ)µ g−1(dx),

car ϕ(.,θ) = Eµ [L(.;θ) |g = .] est la densité de Pθ g−1 par rapport à µ g−1. Parailleurs, on a aussi par définition de l’espérance conditionnelle :

Pθ (g ∈ A∩B) =∫

g−1(A)1B L(.;θ)dµ =

∫A

Eµ [1B L(.;θ) |g = x]µ g−1(dx).

Ces égalités étant vraies pour tout A ∈B(Rq), on en déduit que µ g−1-p.s. :

Eµ [1B ϕ(g(.),θ) |g = .] = µ(B |g = .)ϕ(.,θ) = Eµ [1B L(.;θ) |g = .].

Par suite, on a µ-p.s. :

[1B (ϕ(g(.),θ)−L(.;θ))

∣∣∣g]= 0,

50 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES

et donc, en particulier, pour tout B ∈B(H n) :

Eµ [1B (ϕ(g(.),θ)−L(.;θ))] = 0.

Ceci étant vrai pour tout B ∈B(H n), on a bien L(.;θ) = ϕ(g(.),θ) µ-p.s., d’oùla factorisation (4.2.1)

Une fois caractérisé par des moyens simples, on remarque -comme on pouvaits’y attendre- que le concept d’exhaustivité permet d’améliorer un estimateur, enterme de risque. C’est l’objet du théorème ci-dessous.

Théorème [RAO-BLACKWELL] Soit g une statistique, et θ un estimateur d’ordre2. Si g est exhaustive, alors la statistique Eθ [θ |g] est un estimateur préférable àθ , et de même biais que θ .

Preuve On fixe θ ∈Θ . Comme g est exhaustive, Eθ [θ |g], qui ne dépend pas deθ , est donc un estimateur. Notons-le η . Comme

Eθ η = Eθ Eθ [θ |g] = Eθ θ ,

les 2 estimateurs ont même biais. Par ailleurs,

Vθ (θ) = Eθ

∥∥(θ − η)+(η−Eθ θ)∥∥2

= Eθ‖θ − η‖2 +Vθ (η)+2Eθ

(θ − η

)T(η−Eθ η) ,

où l’on a utilisé le fait que θ et η ont même biais. Or,

[(θ − η

)T(η−Eθ η)

∣∣∣g] = Eθ

[θ − η |g

]T(η−Eθ η)

= (η− η)T (η−Eθ η)= 0,

ce qui montre que

(θ − η

)T(η−Eθ η) = Eθ Eθ

[(θ − η

)T(η−Eθ η)

∣∣∣g]= 0.

Donc, Vθ (θ)≥Vθ (η) d’où, d’après la décomposition Biais-Variance :

R(θ , η) = ‖Eθ η−θ‖2 +Vθ (η)≤ ‖Eθ θ −θ‖2 +Vθ (θ) = R(θ , θ),

4.3. STATISTIQUES COMPLÈTES 51

ce qui nous donne le résultat.

Reprenons le cas du modèle (0,1n,B(p)⊗np∈]0,1[) introduit dans la sec-tion 1.1. Lorsque (X1, · · · ,Xn) est un échantillon de la loi Pp = B(p)⊗n, on sait queX1 est un estimateur sans biais, et que Xn lui est préférable. Nous allons retrouverce résultat en utilisant le théorème de Rao-Blackwell. On a déjà montré que Xnest une statistique exhaustive. D’après le théorème de Rao-Blackwell, Ep[X1|Xn]est donc un estimateur préférable à X1. Or, comme X1, · · · ,Xn sont i.i.d., on a pourtout j ∈ 1, · · · ,n et A ∈B(R) :∫

Xn∈AEp[X1|Xn]dPp =

∫Xn∈A

X1dPp =∫Xn∈A

X jdPp

=∫Xn∈A

Ep[X j|Xn]dPp.

Ceci étant vrai pour chaque A ∈B(R), on en déduit de l’unicité de l’espéranceconditionnelle que Ep[X1|Xn] = Ep[X j|Xn] Pp-p.s. Par suite :

Ep[X1|Xn] =1n

n

∑j=1

Ep[X j|Xn] = Ep[Xn|Xn] = Xn, Pp− p.s.

L’estimateur préférable construit avec le théorème de Rao-Blackwell n’est autreque l’inévitable moyenne empirique !

4.3 Statistiques complètes

Dans cette partie, le modèle statistique étudié est (H n,Pθθ∈Θ ), avec H ⊂ Rk

et Θ ⊂ Rd . Dans la suite, on note aussi :

L =

f : H n→ R : f ∈ L1(Pθ ) ∀θ ∈Θ

Définition On dit qu’une statistique g à valeurs dans Rq est complète si, pourtoute fonction ξ : Rq→ R telle que ξ g ∈ L :

Eθ ξ g(.) = 0, ∀θ ∈Θ =⇒ ξ g = 0 Pθ − p.s., ∀θ ∈Θ .

De plus, lorsque g = Id, le modèle statistique est dit complet.

52 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES

Exemple Le modèle binomial (0, · · · , `,B(`,θ)θ∈]0,1[) est complet. En effet,soit ξ une fonction numérique d’intégrale nulle sous Pθ = B(`,θ), et ceci pourchaque θ ∈]0,1[. Alors,

0 =`

∑k=0

ξ (k)Ck`θ

k(1−θ)`−k = (1−θ)``

∑k=0

ξ (k)Ck`

1−θ

)k

.

Comme cette égalité est valable pour tout θ ∈]0,1[, il en résulte que ξ = 0 sur0, · · · , `, donc ξ = 0 Pθ -p.s., i.e. le modèle binomial est complet.

Le concept prend tout son sens grâce au résultat suivant :

Théorème [LEHMANN-SCHEFFÉ] Soit θ un estimateur sans biais d’ordre 2. Sig est une statistique exhaustive complète, alors la statistique Eθ [θ |g] est l’uniqueestimateur VUMSB.

Preuve Soit θ ′ un autre estimateur sans biais et tel que θ ′ ∈ L2(Pθ ) pour chaqueθ ∈Θ . On fixe θ ∈Θ , et on note

η = Eθ [θ |g] et η′ = Eθ [θ ′|g].

Par exhaustivité de g, η et η ′ sont des estimateurs. En outre, ils sont sans biais etdans L2(Pθ ). D’après le lemme de Doob, il existe une fonction borélienne ξ telleque η−η ′ = ξ g. Donc, comme η et η ′ sont sans biais :

0 = Eθ (η−η′) = Eθ ξ g,

ce qui montre que η −η ′ = ξ g = 0 Pθ -p.s. car g est une statistique complète.Pour finir, on remarque que d’après l’inégalité de Jensen pour les espérancesconditionnelles (appliquée à la fonction convexe x 7→ ‖x‖2) :

R(θ ;η) = R(θ ;η′) = Vθ (η ′) = Eθ‖Eθ [θ ′|g]−θ‖2

≤ Eθ Eθ [‖θ ′−θ‖2|g] = Vθ (θ ′) = R(θ ; θ′),

ce qui entraîne que η est VUMSB.

Ainsi, dès que l’on dispose d’une statistique complète, tout estimateur sansbiais, même déraisonnable, suffit pour déterminer l’estimateur VUMSB. Pourillustrer cette affirmation, reprenons le modèle (0,1n,B(p)⊗np∈]0,1[) de la

4.3. STATISTIQUES COMPLÈTES 53

section 1.1. Nous allons à nouveau montrer, cette fois à l’aide du théorème deLehmann-Scheffé, que l’estimateur Xn construit avec l’échantillon (X1, · · · ,Xn)de la loi Pp = B(p)⊗n est VUMSB. Comme X1 est un estimateur sans biais, queXn est une statistique exhaustive et que Ep[X1|Xn] = Xn, il reste à prouver que Xnest une statistique complète. Sous Pp, la loi de nXn est B(n, p). Donc, pour chaquefonction ξ à valeurs réelles,

Epξ (Xn) =n

∑k=0

ξ

(kn

)Ck

n pk(1− p)n−k.

Si Epξ (Xn) = 0 pour chaque p ∈]0,1[, on a alors ξ (k/n) = 0 pour chaque k ∈0, · · · ,n et donc ξ (Xn) = 0 Pp-p.s. Par suite, Xn est une statistique complète.

54 CHAPITRE 4. CLASSIFICATION DES STATISTIQUES

Chapitre 5

Test statistique

Reprenons la problématique de la section 1.1. Au niveau de confiance 95%, l’in-tervalle de confiance obtenu pour la valeur de p0 (la probabilité que la pièce tombesur pile) est [0.45,0.59]. On n’est donc pas en mesure de préciser si la pièce estou non équilibrée : un intervalle de confiance ne fournit pas, en général, une pro-cédure de décision.

L’objet de ce chapitre est de construire une procédure de décision, le test sta-tistique. Il faut avoir à l’esprit que, outre le fait que cette procédure doit rendreune décision, elle doit aussi garder un contrôle sur ses propres erreurs.

On considère dans ce chapitre un modèle statistique (H n,Pθθ∈Θ ). Il fautnoter que ni H , ni Θ n’est spécifié.

5.1 Problème de test

Pour une raison ou une autre, on est amené à penser que la vraie valeur du para-mètre θ , i.e. celle qui est issue de l’observation x1, · · · ,xn, se trouve dans un sous-ensemble Θ0 de Θ . On formule alors une hypothèse, appelée hypothèse nulle, etnotée H0 : θ ∈ Θ0. Cependant, cette hypothèse peut malgré tout être fausse, eton est amené à introduire l’hypothèse alternative H1 : θ ∈Θ1, avec Θ1 ⊂Θ c

0 . Unproblème de test est la confrontation de l’hypothèse nulle H0 contre l’hypothèsealternative H1.

A ce niveau, il convient de formuler 2 observations :

55

56 CHAPITRE 5. TEST STATISTIQUE

. Θ1 n’est pas nécessairement égal à Θ c0 : ceci illustre le fait que, dans un

problème de test, il faut choisir une hypothèse alternative qui, en cas derejet de H0, présente plus de pertinence que H0 ;

. dissymétrie entre H0 et H1, car le test est construit à partir de la présomp-tion que H0 est vraie. De même que dans un procès aux assises, il y a pré-somption d’innocence, dans un problème de test, il y a présomption de H0.Comme dans un procès où il faut alors prouver avec certitude que le détenuest coupable pour le condamner, le corollaire de ce principe est qu’il fautmontrer que H0 est peu probable pour la rejeter. De ce point de vue, la dé-cision la plus convaincante est donc de rejeter H0 !

A l’instar des estimateurs, toute procédure de décision sur un problème de testest élaborée à partir d’une observation (x1, · · · ,xn) ∈H n. Un test peut alors êtrereprésenté par une fonction de l’observation, qui vaut 0 lorsque celle-ci conduit àaccepter H0 et qui vaut 1 dans le cas contraire.

Définition Un test pur est une statistique T à valeurs dans 0,1 : pour l’obser-vation x∈H n, si T (x) = 0 alors H0 est acceptée ; si T (x) = 1 alors H0 est rejetée.La zone de rejet (resp. d’acceptation) du test est T−1(1) (resp. T−1(0).

Un test pur correspond donc à une décision binaire, qui ne correspond généra-lement pas à la complexité des situations envisagées. Considérons en effet le casd’un problème de test H0 : θ = 0 contre H1 : θ 6= 0 (i.e. Θ0 = 0 et Θ1 = R?).Pour une observation menant à une valeur estimée de θ non nulle, mais prochede 0, doit-on pour autant considérer que H1 est vraie ? Pour assouplir la naturedu test, on est amené à utiliser une statistique de test T prenant ses valeurs dansl’intervalle [0,1].

Définition Un test stochastique est une statistique T à valeurs dans [0,1] : pourl’observation x∈H n, T (x) est la probabilité de rejeter H0. La zone de rejet (resp.d’acceptation) du test est T−1(1) (resp. T−1(0). La zone d’hésitation du testest T−1(]0,1[).

Par défaut, un test est considéré comme étant stochastique, et sa décision estrendue par un lancer de pièce ! Plus précisémment, examinons de quelle manièrerendre une décision dans le cadre d’un tel test :

5.2. ERREURS D’UN TEST 57

PROCÉDURE DE DÉCISION D’UN TEST. Soit T un test stochastique. Pour l’obser-vation x, T (x) est la probabilité de rejeter H0. On réalise alors un tirage aléatoiredans 0,1 selon une loi B(T (x)) : si le résultat du tirage est 0, on décide que H0est acceptée ; sinon, H0 est rejetée.

5.2 Erreurs d’un testUn test doit être construit à partir d’une erreur fixée au préalable. Le 1er type d’er-reur que l’on peut dégager est la probabilité de rejeter H0 à tort :

Définition Soit T un test stochastique. Son risque (ou erreur) de 1ère espèce estl’application qui, à chaque θ ∈Θ0, donne la probabilité de rendre la mauvaisedécision :

Θ0 → [0,1]θ 7→ Eθ T.

On dit que le test est de niveau (resp. de seuil) α si la probabilité maximale derejeter H0 à tort, i.e. l’erreur de 1ère espèce maximale supθ∈Θ0

Eθ T , est égale(resp. inférieure) à α .

Si le niveau du test est suffisamment proche de 0 (en pratique inférieur à 5%),la décision de rejeter H0 est donc convaincante.

Exemple Considérons le modèle statistique (Rn,N(θ ,1)⊗nθ∈R). Pour un para-mètre θ0 ∈ R fixé, on veut construire un test pur de niveau α pour le problème detest H0 : θ ≤ θ0 contre H1 : θ > θ0. Soit θ ∈R fixé, et (X1, · · · ,Xn) un échantillonde loi Pθ = N(θ ,1)⊗n. On utilise la statistique de test

√n(Xn−θ) dont la loi est

N(0,1). Notons z(α) le quantile d’ordre 1−α de la loi N(0,1), et

R =(y1, · · · ,yn) ∈ Rn :

√n(yn−θ0)≥ z(α)

.

Alors, pour chaque θ ≤ θ0 :

Pθ (R) = Pθ

(√n(Xn−θ)+

√n(θ −θ0)≥ z(α)

)≤ Pθ

(√n(Xn−θ)≥ z(α)

)= α,

avec égalité lorsque θ = θ0. Par suite, le test T = 1R est de niveau α .

58 CHAPITRE 5. TEST STATISTIQUE

Pour un test de niveau suffisamment proche de 0, la décision d’accepter H0peut être sujette à caution : le test nul, i.e. T ≡ 0, pour lequel H0 est toujours choi-sie, possède un niveau nul. Un tel test n’est pas informatif, car il conclut toujoursà accepter H0, ceci même si elle n’est pas vraie. Cette observation nous amène àdistinguer un autre type d’erreur, la probabilité d’accepter H0 à tort :

Définition Soit T un test stochastique. Son risque (ou erreur) de 2ème espèce estl’application qui, à chaque θ ∈Θ1, donne la probabilité de rendre la mauvaisedécision :

Θ1 → [0,1]θ 7→ 1−Eθ T.

Comme l’erreur de 1ère espèce, l’erreur de 2ème espèce se doit d’être faible.Un autre concept équivalent est fréquemment utilisé, la probabilité d’accepter H1à raison.

Définition Soit T un test stochastique. Sa puissance est l’application qui, à chaqueθ ∈Θ1, donne la probabilité de rendre la bonne décision :

Θ1 → [0,1]θ 7→ Eθ T.

Le test nul, qui possède un niveau nul, a en revanche un risque de 2ème espècemaximal (il vaut 1) et une puissance nulle. En général, diminuer l’erreur de 1èreespèce se fait au détriment de l’erreur de 2ème espèce, qui a alors tendance à aug-menter. Il est donc important de s’orienter vers un compromis entre ces 2 typesd’erreurs. De même que dans un procès aux assises, où le principe de présomptiond’innocence du prévenu conduit l’avocat général à devoir étayer ses accusationsde manière (quasi) irréfutable, le principe de présomption sur H0 conduit à mi-nimiser en priorité le niveau du test en imposant qu’il ne dépasse pas une valeurfixée. Puis, le test est construit de telle sorte que son erreur de 2ème espèce soitminimale. Cette démarche en deux temps porte le nom de principe de Neyman.

Exemple Reprenons le modèle statistique (Rn,N(θ ,1)⊗nθ∈R). Pour θ0 ∈ Rfixé, on a construit un test pur de niveau α pour le problème de test H0 : θ ≤ θ0

5.2. ERREURS D’UN TEST 59

contre H1 : θ > θ0. Celui-ci est associé à la région de rejet

R =(y1, · · · ,yn) ∈ Rn :

√n(yn−θ0)≥ z(α)

,

avec z(α) le quantile d’ordre 1−α de la loi N(0,1). Soit θ ∈R fixé, et (X1, · · · ,Xn)un échantillon de loi Pθ = N(θ ,1)⊗n. Si N est une variable aléatoire sur (Ω ,F ,P)de loi N(0,1), Xn et θ +N/

√n ont même loi. Par suite,

Pθ (R) = Pθ

(√n(Xn−θ0)≥ z(α)

)= P

(√n(

θ +1√n

N−θ0

)≥ z(α)

)= P

(√n(θ −θ0)+N ≥ z(α)

).

Si T = 1R est le test pur, la fonction puissance θ 7→ Eθ T = Pθ (R) définie sur]θ0,∞[ est donc croissante, minorée par α et tend vers 1 lorsque θ tend vers l’in-fini.

Exemple Reprenons le modèle statistique (0,1n,B(p)⊗np∈]0,1[) de la section1.1. Supposons que l’on veuille décider si oui ou non la pièce est équilibrée, ens’appuyant sur les observations x1, · · · ,xn telles que xn = 0.52. Ces observations,qui sont régies par la loi B(p0) nous indiquent que, si la pièce n’est pas équilibrée,l’alternative raisonnable est que p0 > 1/2. On envisage donc de construire un testpur de H0 : p = 1/2 contre H1 : p > 1/2 au seuil 5%. Soit t ∈ R et une région derejet du type :

R = (z1, · · · ,zn) ∈ 0,1n : zn > t.Le test pur qui est associé à cette région de rejet est T = 1R. Pour un échantillon(X1, · · · ,Xn) de la loi P1/2 = B(1/2)⊗n :

E1/2T = P1/2(Xn > t)

= P1/2(2√

n(Xn−1/2) > 2√

n(t−1/2))

= 1−F(2√

n(t−1/2))+O(n−1/2),

si F est la fonction de répartition de la loi N(0,1), en vertu de l’inégalité de Berry-Essèen. Les valeurs de la fonction de répartition de la loi N(0,1) sont tabulées :on trouve alors, pour les valeurs de t telles que 2

√n(t−1/2)≥ 1.64 i.e. t ≥ 0.53

car n = 1000, que1−F

(2√

n(t−1/2))≤ 5%.

En négligeant le terme en O(n−1/2), on obtient E1/2T ≤ 5%. Autrement dit, pourles régions de rejet :

R = (z1, · · · ,zn) ∈ 0,1n : zn > t,

60 CHAPITRE 5. TEST STATISTIQUE

avec t ≥ 0.53, le test T = 1R est de seuil 5%. Par ailleurs, la valeur t = 0.53 donnele test de puissance maximale. En conclusion, le test T = 1R avec

R = (z1, · · · ,zn) ∈ 0,1n : zn > t,

est de seuil 5% et de puissance maximale. Avec la valeur de xn = 0.52, l’obser-vation (x1, · · · ,xn) /∈ R c’est-à-dire qu’on est amené à accepter H0 au niveau 5% :il est donc envisageable, au vu des observations, de considérer que la pièce estéquilibrée.

5.3 Comparaison des tests

Pour un test T , une puissance trop faible signifie que l’on peut trouver dans Θ1 unpoint θ pour lequel Eθ T est faible. Lorsque cette dernière valeur est plus petiteque le niveau du test, on se retrouve dans la situation paradoxale où la probabilitéd’accepter H1 à raison est plus petite que la probabilité d’accepter H1 à tort ! Dansun tel contexte, le test ne sépare pas bien les hypothèses H0 et H1. La notion detest sans biais formalise cet écueil qu’il convient d’éviter.

Définition Un test stochastique T de seuil α est dit sans biais si pour tout θ ∈Θ1,on a α ≤ Eθ T .

Rien ne nous certifie, en général, qu’un test sans biais existe. Nous reviendronssur ce problème crucial de la théorie des tests dans la section suivante.

Exemple Pour chaque θ ∈ R, on note Qθ la loi de densité

exp(−(x−θ))1[θ ,∞[(x).

On souhaite tester H0 : θ ≤ 0 contre H1 : θ > 0 au niveau α ∈]0,1[, dans lemodèle statistique (Rn,Q⊗n

θθ∈R). Le test T = 1R associé à la région de rejet

R =

(x1, · · · ,xn) ∈ Rn : mini=1,··· ,n

xi ≥−lnα

n

est un test pur pour H0 contre H1, de niveau α et sans biais. Pour θ ∈ R, notons

5.3. COMPARAISON DES TESTS 61

Pθ = Q⊗nθ

et (X1, · · · ,Xn) un échantillon de loi Pθ . Si θ ≤ 0 :

Eθ T = Pθ

(min

i=1,··· ,nXi ≥−

lnα

n

)=[

(X1 ≥−

lnα

n

)]n

=[∫

− lnα/ne−(t−θ)dt

]n

= α enθ ≤ α,

avec égalité si θ = 0, i.e. le test T est de niveau α . De plus, si θ > 0, on a :

Eθ T =[

(X1 ≥−

lnα

n

)]n

=[∫

max(θ ,− lnα/n)e−(t−θ)dt

]n

.

Selon que θ est plus grand ou plus petit que − lnα/n, Eθ T vaut 1 ou αenθ .Comme θ > 0, Eθ T > α , et T est donc un test sans biais.

Définition Soit α ∈ [0,1]. On dit qu’un test T de seuil α est uniformément pluspuissant parmis tous les tests de seuil α (UPPα) si, pour tout autre test T ′ de seuilα , on a Eθ T ≥ Eθ T ′ pour chaque θ ∈Θ1.

La notion d’optimalité envisagée est claire, un test UPP étant de puissancemaximale pour un niveau fixé. En revanche, la question plus délicate de la carac-térisation des tests UPP fera l’objet de la section suivante. Examinons d’embléequelques propriétés évidentes des tests UPP.

Proposition Soit α ∈ [0,1]. Un test T de seuil α et UPPα est sans biais.

Preuve Soit T ′ le test tel que T ′ ≡ α . Comme T est UPPα , pour tout θ ∈Θ1, ona Eθ T ≥ Eθ T ′ = α . Donc T est sans biais.

Proposition Soient α ∈ [0,1], T un test et ζ une statistique exhaustive. AlorsEθ [T |ζ ] est un test de même puissance et niveau que T . En particulier, Eθ [T |ζ ]est UPPα si T est UPPα .

Preuve Il suffit de remarquer que, pour chaque θ ∈Θ , Eθ [T |ζ ] est une statistiqueindépendante de θ par exhaustivité de ζ et que Eθ T = Eθ Eθ [T |ζ ].

62 CHAPITRE 5. TEST STATISTIQUE

5.4 Optimalité dans les tests simplesDans toute la section, on suppose que le modèle statistique (H n,Pθθ∈Θ ) estdominé par µ , et de vraisemblance L. On fixe aussi 2 paramètres θ0 6= θ1 ∈Θ , eton s’intéresse au problème de test simple suivant :

H0 : θ = θ0 contre H1 : θ = θ1.

Nous allons étudier, pour ce problème de test simple, des conditions nécessaires etsuffisantes pour qu’un test soit UPP. Du fait de leur caractère fondateur dans toutela théorie des tests, et afin de faire mention de leurs auteurs, ces résultats sont re-groupés sous la dénomination de "lemme fondamental de Neyman-Pearson".

On considère la famille des tests T suivante : T ∈ T si il existe k ∈ R+ etγ : H n→ [0,1] mesurable tels que pour chaque x ∈H n :

T (x) =

1 si L(x;θ1) > kL(x;θ0);γ(x) si L(x;θ1) = kL(x;θ0);0 si L(x;θ1) < kL(x;θ0),

L’ensemble T s’appelle famille des tests de Neyman-Pearson. L’ensemble Tcest le sous-ensemble de T constitué des tests pour lesquels la fonctions γ estconstante. Il convient de remarquer qu’un test de Neyman-Pearson associé à unefonction γ ≡ 0 est un test pur.

Il est essentiel de remarquer l’aspect constructif des résultats qui suivent, tousles tests considérés faisant partie de la famille T .

Le 1er résultat est relatif à l’existence d’un test UPP. Il nous montre qu’il existetoujours un test de Tc de niveau donné.

Théorème Soit α ∈]0,1[.1. Il existe un test de Tc de niveau α ;2. Si un test de Tc est de niveau α , alors il est UPPα .

Preuve

1. Un test T ∈Tc associé aux paramètres k et γ est de niveau α si

α = Eθ0T = Pθ0 (L(.;θ1) > kL(.;θ0))+ γPθ0 (L(.;θ1) = kL(.;θ0)) .

5.4. OPTIMALITÉ DANS LES TESTS SIMPLES 63

Il suffit donc de trouver (k,γ) ∈R+× [0,1] vérifiant l’égalité précédente. CommePθ0(L(.;θ0) 6= 0) = 1, on peut écrire :

Pθ0

(L(.;θ1)L(.;θ0)

> k)

+ γPθ0

(L(.;θ1)L(.;θ0)

= k)

= α. (5.4.1)

Notons k0 un réel qui vérifie

Pθ0

(L(.;θ1)L(.;θ0)

> k0

)≤ α ≤ Pθ0

(L(.;θ1)L(.;θ0)

≥ k0

).

Un tel réel existe car t 7→ Pθ0(L(.;θ1)/L(.;θ0) > t) est décroissante. Dans le casoù Pθ0(L(.;θ1)/L(.;θ0) = k0) = 0, tout couple (k0,γ) vérifie (5.4.1). Dans le cascontraire, le couple (k0,γ0) avec

γ0 =α−Pθ0

(L(.;θ1)L(.;θ0)

> k0

)Pθ0

(L(.;θ1)L(.;θ0)

= k0

) ,

vérifie (5.4.1). Ainsi, il existe T ∈Tc de niveau α .

2. Soit T ? ∈ Tc un test de niveau α . On note (k,γ) les paramètres associés à T ?

et, pour simplifier, on suppose que γ ∈]0,1[. Soit T un test de seuil α . On a alorsles inclusions :

T ?−T > 0 ⊂ T ? > 0 ⊂ L(.;θ1)≥ kL(.;θ0) car γ > 0;T ?−T < 0 ⊂ T ? < 1 ⊂ L(.;θ1)≤ kL(.;θ0) car γ < 1.

Par suite, pour tout x ∈H n, (T ?(x)−T (x))(L(x;θ1)− kL(x;θ0))≥ 0, et donc

(T ?(x)−T (x))L(x;θ1)≥ k(T ?(x)−T (x))L(x;θ0). (5.4.2)

On en déduit alors que

Eθ1T ?−Eθ1T = Eθ1(T?−T ) =

∫H n

(T ?−T )L(.;θ1)dµ

≥ k∫H n

(T ?−T )L(.;θ0)dµ = k(Eθ0T ?−Eθ0T

).

Or, comme T ? est de niveau α et T de seuil α , Eθ0T ? = α ≥ Eθ0T d’où Eθ1T ? ≥Eθ1T , i.e. T ? est UPPα .

64 CHAPITRE 5. TEST STATISTIQUE

Le 2nd résultat, en nous montrant que la famille des tests de Neyman-Pearsonest suffisamment riche, nous donne des conditions nécessaires pour qu’un test soitUPP.

Théorème Soient α ∈]0,1[ et T un test UPPα . Il existe T ′ ∈ T tel que T = T ′

µ-p.p.

Preuve Soit T ? ∈ Tc un test de niveau α et UPPα . On note (k,γ) ∈ R+× [0,1]les paramètres associés au test T ? ∈Tc. Pour simplifier, on suppose que γ ∈]0,1[ ;dans ce cas, on a vu dans la preuve du théorème précédent (cf inégalité 5.4.2) que

R := (T ?−T )(L(.;θ1)− kL(.;θ0))≥ 0.

Par l’absurde, supposons que µ(R > 0) > 0. Alors,∫H n

Rdµ =∫R>0

Rdµ > 0

et, par suite : ∫H n

(T ?−T )L(.;θ1)dµ > k∫H n

(T ?−T )L(.;θ0)dµ.

Comme T ? est de niveau α et T est de seuil α ,∫H n

(T ?−T )L(.;θ0)dµ = Eθ0T ?−Eθ0T ≥ 0,

ce qui montre que

Eθ1T ?−Eθ1T =∫H n

(T ?−T )L(.;θ1)dµ > 0.

Or, puisque T et T ? sont UPPα , Eθ1T ? = Eθ1T d’où la contradiction. Il s’ensuitque µ(R > 0) = 0 soit, comme R≥ 0 : R = 0 µ-p.p. Ainsi,

T = T ?µ−p.p. sur L(.;θ1) 6= kL(.;θ0).

Définissons maintenant le test T ′ tel que pour x ∈H n :

T ′(x) =

T ?(x) si L(x;θ1) 6= kL(x;θ0);T (x) si L(x;θ1) = kL(x;θ0),

Alors, T ′ ∈T et T = T ′ µ-p.p., d’où le théorème.

5.5. OPTIMALITÉ DANS LES TESTS COMPOSITES 65

5.5 Optimalité dans les tests composites

Le contexte de la section précédente, en ne traitant que le cas d’un problème detest simple, est très restrictif. Néanmoins, il est possible de l’étendre au cas d’hy-pothèses dites composites. Soient Θ0,Θ1 ⊂Θ avec Θ0∩Θ1 = /0. Le problème detest que nous allons étudier est :

H0 : θ ∈Θ0 contre H1 : θ ∈Θ1.

Puisque nous allons faire appel à des résultats du type Neyman-Pearson, noussupposons aussi que le modèle statistique (H n,Pθθ∈Θ ) est dominé par µ , et devraisemblance L.

Théorème Soit T un test de niveau α ∈]0,1[ tel qu’il existe θ0 ∈ Θ0 vérifiantEθ0T = α . Si, pour tout θ1 ∈Θ1, il existe un test Tθ1 ∈ Tc de H ′0 : θ = θ0 contreH ′1 : θ = θ1 vérifiant T = Tθ1 , alors T est UPPα .

Preuve Fixons θ1 ∈Θ1. Comme Eθ0T = α , pour le problème de test simple

H ′0 : θ = θ0 contre H ′1 : θ = θ1,

le test T est de niveau α . Comme T = Tθ1 ∈Tc, T est UPPα dans le problème detest de H ′0 contre H ′1.

Soit maintenant T ? un test de H0 contre H1 de seuil α . Alors, T ? est de seuilα pour le problème de test de H ′0 contre H ′1 car

Eθ0T ? ≤ supθ∈Θ0

Eθ T ? ≤ α.

Or, T est UPPα dans le problème de test de H ′0 contre H ′1, donc Eθ1T ≥ Eθ1T ?.Comme θ1 a été choisi arbitrairement dans Θ1, on en déduit que T est UPPα dansle problème de test de H0 contre H1.

Exemple Reprenons le modèle statistique (Rn,N(θ ,1)⊗nθ∈R). On a vu que,dans le problème de test de H0 : θ ≤ θ0 contre H1 : θ > θ0, le test T = 1R derégion de rejet

R =(x1, · · · ,xn) ∈ Rn :

√n(xn−θ0) > z(α)

,

66 CHAPITRE 5. TEST STATISTIQUE

où z(α) est le quantile d’ordre 1−α de la loi N(0,1), est un test de niveau α .Nous allons montrer que ce test est UPPα en utilisant le théorème précédent.

On remarque tout d’abord que Eθ0T = Pθ0(R) = α . Fixons maintenant θ1 > θ0.Pour tout θ ∈ R et x = (x1, · · · ,xn)T ∈ Rn, on a l’écriture

L(x;θ) =

exp(−n

2(xn−θ)2

) 1(2π)n/2 exp

(−1

2

n

∑i=1

(xi− xn)2

).

On en déduit la forme suivante pour le rapport des vraisemblances :

L(x;θ1)L(x;θ0)

= exp[−n

2((xn−θ1)2− (xn−θ0)2)]

= exp[√

n(θ1−θ0)(√

n(xn−θ0)−√

n2

(θ1−θ0))]

.

Par suite, pour tout k > 0 :

L(x;θ1)L(x;θ0)

> k ⇐⇒√

n(xn−θ0) >lnk√

n(θ1−θ0)+√

n2

(θ1−θ0).

Choisissons maintenant k0 > 0 tel que

z(α) =lnk0√

n(θ1−θ0)+√

n2

(θ1−θ0),

et notons Tθ1 le test de Tc associé aux paramètres (k0,0), i.e.

Tθ1 = 1L(.;θ1)>k0L(.;θ0).

On a alors T = Tθ1 . D’après le théorème précédent, T est donc UPPα .

5.6 Tests asymptotiquesComme les lois à distance finie ne sont pas toujours évidentes à obtenir, on est

amené, à l’instar des intervalles de confiance asymptotiques, à définir la notion detest asymptotique.

On considère le problème de test de H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1, avecΘ0,Θ1 ⊂Θ et Θ0∩Θ1 = /0. Le modèle statistique (H n,Pθθ∈Θ ) dépend de n :

5.6. TESTS ASYMPTOTIQUES 67

dans le cadre des tests asymptotiques, on fait donc apparaître la taille n de l’échan-tillon dans la notation du test.

Définition Un test asymptotique de seuil α ∈]0,1[ est la donnée d’une suite detests (Tn)n tels que

supθ∈Θ0

limsupn

Eθ Tn ≤ α.

La procédure de décision est alors calquée sur celle des tests à taille d’échan-tillon finie. La seule différence notable est qu’un test asymptotique est construitpour contrôler l’erreur de 1ère espèce, mais seulement asymptotiquement.

Définition Un test asymptotique (Tn)n est dit convergent si

∀θ ∈Θ1 : limn

Eθ Tn = 1.

68 CHAPITRE 5. TEST STATISTIQUE

Chapitre 6

Statistique des échantillonsgaussiens

L’étude statistique des échantillons gaussiens est basée sur 2 résultats fondamen-taux portant sur la nature particulière de la projection vecteurs gaussiens. Danstout ce chapitre, Nd(m,Σ) désigne une loi gaussienne sur Rd , de moyenne m ∈Rd

et de matrice de variance Σ ∈Md(R).

6.1 Projection de vecteurs gaussiensToutes les variables aléatoires de cette section sont implicitement définies sur unespace probabilisé (Ω ,F ,P).

Le théorème ci-dessous est essentiel dans toute la théorie des modèles gaus-siens. On rappelle que la loi de Chi 2 à d degrés de liberté, notée χ2

d , est la loide la somme des carrés de d v.a.r.i.i.d. de lois N1(0,1). Par ailleurs, ‖.‖ désignetoujours la norme euclidienne.

Théorème [COCHRAN] Soit X ∼ Nn(0,σ2Id) avec σ > 0, et L1⊕ ·· · ⊕ Lp unedécomposition de Rn en sous-espaces orthogonaux de dimensions r1, · · · ,rp. Lesprojections orthogonales π1, · · · ,πp de X sur L1, · · · ,Lp sont des vecteurs gaus-siens indépendants, et pour chaque i = 1, · · · , p :

1σ2‖πi‖2 ∼ χ

2ri.

69

70 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS

Preuve Soit (eij)i, j une base orthonormée de Rn telle que pour chaque i = 1, · · · , p,

(eij) j=1,··· ,ri est une base orthonormée de Li. Pour chaque i = 1, · · · , p, on a :

πi =ri

∑j=1

(XT eij)e

ij.

Les vecteurs (eij)i, j étant orthogonaux, pour tout i 6= k, la matrice de covariance

entre πi et πk, i.e.

cov(πi,πk) = E(πi−Eπi)(πk−Eπk)T = Eπiπ

Tk = 0.

Comme (π1 · · ·πp)T est un vecteur gaussien (toute combinaison linéaire des v.a.r.(XT ei

j)i, j est gaussienne), π1, · · · ,πp sont donc des vecteurs gaussiens indépen-dants, d’où le premier point.

Fixons i = 1, · · · , p, et calculons tout d’abord, pour tout j = 1, · · · ,ri, la loi dela v.a.r. XT ei

j. Il est clair que XT eij est une v.a.r. gaussienne centrée, comme com-

binaison linéaire des composantes d’un vecteur gaussien centré. De plus, commeles composantes du vecteur X = (X1 · · ·Xn)T sont i.i.d. de loi N1(0,σ2),

var(XT eij) =

n

∑k=1

var(Xk)(eij(k))

2 = σ2‖ei

j‖2 = σ2,

où l’on a noté eij = (ei

j(1) · · ·eij(n))T . Par suite, XT ei

j ∼ N1(0,σ2). D’autre part,comme le vecteur aléatoire (XT ei

1 · · ·XT eiri)T est gaussien (car toute combinaison

linéaire de ses composantes est une v.a.r. gaussienne), il suffit de montrer quepour tout j 6= j′, cov(XT ei

j,XT ei

j′) = 0 pour en déduire que XT ei1, · · · ,XT ei

risont

indépendantes. Or, si j 6= j′ :

cov(XT eij,X

T eij′) = E(XT ei

j)(XT ei

j′) =n

∑k,k′=1

E(XkXk′)eij(k)e

ij′(k′)

=n

∑k=1

E(X2k )ei

j(k)eij(k) = σ

2(eij)

T eij′ = 0.

Nous avons donc montré que les v.a.r. (XT eij/σ2) j sont i.i.d., de même loi N1(0,1).

Par suite,1

σ2‖πi‖2 =ri

∑j=1

(XT eij

σ

)2

∼ χ2ri,

6.2. TESTS SUR LES PARAMÈTRES 71

d’où le théorème.

La loi de Student à n degrés de liberté, notée Tn, est la loi du quotient√

nX/√

Y ,où X ⊥⊥ Y , X ∼ N1(0,1) et Y ∼ χ2

n .

Théorème [FISHER] Soient X = (X1, · · · ,Xn)T ∼Nn(m,σ2Id) et m = (m, · · · ,m)T

avec σ > 0 et m ∈ R. On note

Xn =1n

n

∑i=1

Xi et S2n =

1n−1

n

∑i=1

(Xi− Xn)2.

Alors,(i) Xn ⊥⊥ Sn ;(ii) (n−1)S2

n/σ2 ∼ χ2n−1 ;

(iii)√

n(Xn−m)/Sn ∼ Tn−1.

Remarques

(a) Le résultat en (iii) est à comparer au résultat classique :√

n(Xn−m)/σ ∼N1(0,1).

(b) D’après la loi forte des grands nombres, Sn→ σ p.s. Par suite, l’assertion (iii),le théorème de la limite centrale unidimensionnel et le lemme de Slutsky montrentque Tn converge en loi vers la loi N1(0,1).

Preuve Pour simplifier, on considère le cas m = 0 et σ = 1. Soit L le s.e.v. deRn engendré par e = (1, · · · ,1)T . Le projecteur orthogonal P sur L est la matricen× n dont tous les coefficients valent 1/n. On a alors PX = Xne et (Id−P)X =(X1− Xn, · · · ,Xn− Xn)T . Comme (Id−P)X est la projection orthogonale de X surl’orthogonal de L, on déduit du théorème de Cochran que PX ⊥⊥ (Id−P)X , eten particulier que Xn ⊥⊥ S2

n, d’où (i). De plus, (n− 1)S2n = ‖(Id−P)X‖2 ∼ χ2

n−1d’après le théorème de Cochran, d’où (ii). Enfin, (iii) est conséquence du fait que√

n(Xn−m)/σ et (n−1)S2n/σ2 sont indépendantes, et de lois respectives N1(0,1)

et χ2n−1.

6.2 Tests sur les paramètresOn se donne dans cette partie un modèle statistique (Rn,N1(m,σ2)⊗nm∈R,σ>0).Le but est de construire des tests ou des intervalles de confiance sur la valeur desparamètres m0 et σ2

0 d’un échantillon x1, · · · ,xn issu de la loi N1(m0,σ20 ). Comme

72 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS

on l’a vu dans les chapitres précédents, il faut alors construire une statistique dontla loi ne dépend pas des paramètres inconnus du modèle.

Notons (X1, · · · ,Xn) un échantillon de loi Pm,σ = N1(m,σ2)⊗n. On sait alorsque

√n

Xn−mσ2 ∼ N1(0,1).

Cependant, cette statistique, en faisant intervenir simultanément les 2 paramètresinconnus m et σ , n’est pas utilisable. On se tourne alors vers le théorème de Fisher,qui nous donne les égalités en loi :

(n−1)S2

nσ2 ∼ χ

2n−1 et

√n

Xn−mSn

∼ Tn−1.

L’utilisation de ces statistiques permet de construire facilement des intervalles deconfiance pour les valeurs de m0 et σ0, à partir des valeurs observées x1, · · · ,xn.

Considérons par exemple le problème de test H0 : m≥m1 contre H1 : m < m1au niveau α , avec m1 un réel fixé. Si tn−1(α) est le quantile d’ordre α de la loiTn−1, on a sous H0 :

Pm,σ

(Xn < m1 + tn−1(α)

Sn√n

)≥ Pm,σ

(Xn < m+ tn−1(α)

Sn√n

)= Pm,σ

(√n

Xn−mSn

< tn−1(α))

= α.

Notons pour chaque y = (y1, · · · ,yn) ∈ Rn,

yn =1n

n

∑i=1

yi et s2n(y) =

1n−1

n

∑i=1

(yi− yn)2.

Le test de Student est le test pur de région de rejet

Rmoy =

y = (y1, · · · ,yn) ∈ Rn : yn < m1 + tn−1(α)sn(y)√

n

.

Ce test est de niveau α , et la procédure de décision est définie ainsi : on accepteH0 au niveau α si (x1 · · ·xn)T /∈ Rmoy.

6.3. COMPARAISON DE 2 ÉCHANTILLONS 73

Etudions maintenant le problème de test de H0 : σ ≥ σ1 contre H1 : σ < σ1au niveau α , avec σ1 > 0 fixé. Si χn−1(α) est le quantile d’ordre α de la loi χ2

n−1,on a sous H0 :

Pm,σ

(S2

n <χn−1(α)

n−1σ

21

)≥ Pm,σ

(S2

n <χn−1(α)

n−1σ

2)

= Pm,σ

((n−1)

S2n

σ2 < χn−1(α))

= 1−α.

Le test de Fisher est le test pur de région de rejet

Rvar =

y = (y1, · · · ,yn) ∈ Rn : s2n(y) <

χn−1(α)n−1

σ21

.

Ce test est de niveau α , et la procédure de décision est définie ainsi : on accepteH0 au niveau α si (x1 · · ·xn)T /∈ Rvar.

6.3 Comparaison de 2 échantillonsOn suppose dans cette partie que l’on a 2 suites indépendantes d’observations in-dépendantes x = (x1, · · · ,xn) et y = (y1, · · · ,yp), chacune issue de l’une des loisdes modèles statistiques N1(m,σ2)⊗nm∈R,σ>0 et N1(m,σ2)⊗pm∈R,σ>0. Onsuppose que ces suites d’observations ont même variance (c’est l’hypothèse dited’homoscédasticité), et on veut construire un test pur portant sur l’égalité desmoyennes des suites x et y.

Si m1 et m2 représentent les moyennes de chaqun des 2 échantillons, le pro-blème de test s’exprime donc H0 : m1 = m2 contre H1 : m1 6= m2, dont nous allonsconstruire un test pur au niveau α . Notons X un échantillon (X1, · · · ,Xn) de la loiN1(m1,σ

2)⊗n et Y un échantillon (Y1, · · · ,Yp) de la loi N1(m1,σ2)⊗p. Compte tenu

des hypothèses expérimentales, on peut supposer que X et Y sont indépendantes.De plus, S2

n(X) et S2p(Y ) désignent les variances empiriques sans biais de X et Y .

Introduisons la statistique

Q =(Xn− Yp)− (m1−m2)√

1n + 1

p

.

74 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS

Puisque XT et Y T sont 2 vecteurs gaussiens indépendants, Q est une v.a.r. gaus-sienne, comme combinaison linéaire d’un vecteur gaussien. Il est clair que Q estcentrée, et on montre facilement que la variance de Q est σ2. En conséquence,Q∼ N1(0,σ2). Cependant, σ est en général un paramètre inconnu, donc la statis-tique Q n’est pas utilisable directement pour construire un test statistique.

Notons alorsW 2 = (n−1)S2

n(X)+(p−1)S2p(Y ).

D’après le théorème de Fisher, (n−1)S2n(X)∼σ2χ2

n−1 et (p−1)S2p(Y )∼σ2χ2

p−1.Comme, par ailleurs, S2

n(X)⊥⊥ S2p(Y ), on a donc W 2∼σ2χ2

n+p−2. De plus, W ⊥⊥Qd’après le théorème de Fisher. Par définition de la loi de Student, on a donc

M =√

n+ p−2QW∼ Tn+p−2.

Comme la loi de M est libre, i.e. elle ne dépend pas de paramètres inconnus, lastatistique de test à utiliser est M. Désignons par tn+p−2(α) le quantile d’ordre1−α/2 de la loi Tn+p−2. En utilisant le fait que la loi de Student est symétrique,on vérifie comme dans la section précédente que, avec des notations évidentes,l’ensemble(xy)T ∈ Rn+p :

|xn− yp|√(n−1)s2

n(x)+(p−1)s2p(y)≥

√1n + 1

p

n+ p−2tn+p−2(α)

est une région de rejet pour tester H0 contre H1, au niveau α .

Supposons maintenant que l’on veuille tester l’égalité des moyennes dans 3échantillons gaussiens indépendants. On peut bien sûr reprendre la méthodologieprécédente, et réaliser 2 tests d’égalité de moyenne. Mais alors, le niveau du testglobal ainsi construit est de l’ordre de la somme des niveaux des 2 tests. Pouréviter cette perte de niveau, il faut adopter une démarche radicalement différente,comme nous allons le constater dans la section qui suit.

6.4 Modèle linéaire gaussien

6.4.1 Le problème et sa formulation vectorielleOn suppose dans cette section que l’on dispose de k jeux indépendants d’observa-tions indépendantes x1, · · · ,xk. On est encore dans le cadre d’un modèle gaussien,

6.4. MODÈLE LINÉAIRE GAUSSIEN 75

car pour tout i, xi est une observation du modèle statistique N1(m,σ2)⊗nim∈R,σ>0.Comme dans la section précédente, on impose l’hypothèse d’homoscédasticité dumodèle, i.e. les variances de chacun des jeux d’observations sont les mêmes. L’ob-jectif est de construire un test pur portant sur l’égalité des moyennes de ces k jeuxd’observations.

Sous l’hypothèse d’homoscédasticité, on peut introduire les échantillons in-dépendants X1 ∼N1(m1,σ

2)⊗n1, · · · ,Xk ∼N1(mk,σ2)⊗nk pour construire la statis-

tique de test. Le problème de test s’exprime donc par

H0 : m1 = · · ·= mk contre H1 : il existe i 6= j tel que mi 6= m j.

Dans cette formulation, m1, · · · ,mk sont des paramètres réels et σ > 0.

Soit n = n1 + · · ·+nk, n0 = 0 et, pour chaque i = 1, · · · ,k,

Ii =n1+···+ni

∑j=n1+···+ni−1+1

e j,

où, pour tout j = 1, · · · ,n, e j est le j-ème vecteur de la base canonique de Rn.Notons alors

µ =k

∑i=1

mi Ii,

E l’espace vectoriel engendré par les vecteurs I1, · · · , Ik, et H le sous-espace vec-toriel de Rn engendré par le vecteur (1 · · ·1)T . Avec cette écriture, le problème detest s’énonce ainsi :

H0 : µ ∈ H contre H1 : µ ∈ E \H.

6.4.2 Statistique de testDans la suite, zF désigne la projection orthogonale de z ∈ Rn sur le sous-espacevectoriel F . Si X = (X1 · · ·Xk)T , on a la décomposition :

X = µ + ε,

où ε ∼ Nn(0, Id). Cette formulation porte le nom de modèle linéaire gaussien.Dans ce cadre, on observe que :

76 CHAPITRE 6. STATISTIQUE DES ÉCHANTILLONS GAUSSIENS

. XE = µ +εE car µ ∈ E. En particulier, XE−µ est la projection orthogonalede ε sur E ;

. X −XE = ε − εE est la projection orthogonale de ε sur l’orthogonal de E.Cette quantité ne contient pas d’information sur la valeur de µ , mais ellecontient des informations sur la dispersion des observations.

En exploitant ces constatations, on obtient directement avec le théorème deCochran :

Proposition(i) XE est un estimateur sans biais de µ ;(ii) XE ⊥⊥ X−XE ;(iii) ‖X−XE‖2∼σ2χ2

n−k. En particulier, ‖X−XE‖2/(n−k) est un estimateursans biais de σ2 ;

(iv) ‖XE −µ‖2 ∼ σ2χ2k .

Sous H0, XH = µ + εH et donc XE −XH = εE − εH . Le théorème de Cochranappliqué au vecteur gaussien ε nous montre alors que

‖XE −XH‖2 ∼ σ2χ

2k−1, et XE = ε− εE ⊥⊥ XE −XH .

La loi de Fisher de paramètres (i, j), notée F(i, j), est définie comme suit :

F(i, j)∼ ji

UV

, si U ⊥⊥V, et U ∼ χ2i , V ∼ χ

2j .

D’après la proposition précédente et les observations ci-dessus, sous H0, on connaîtdonc la loi de la statistique

F =n− kk−1

‖XE −XH‖2

‖X−XE‖2 ∼ F(k−1,n− k).

Pour construire la région de rejet, on observe que, si P désigne la loi de X , on asous H0,

P(F ≥ f (α)) = α,

si f (α) désigne le quantile d’ordre 1−α de la loi F(k− 1,n− k). La région derejet

R =

z ∈ Rn :n− kk−1

‖zE − zH‖2

‖z− zE‖2 ≥ f (α)

6.4. MODÈLE LINÉAIRE GAUSSIEN 77

défini donc un test pur de H0 contre H1, au niveau α .

Concaténons les jeux d’observations x1, · · · ,xk pour obtenir un vecteur x deRn. Plus précisémment, x = (x1 · · ·xn)T est le vecteur de Rn tel que

x =k

∑i=1

ni

∑j=1

xi( j)en1+···+ni−1+ j,

si, pour chaque i = 1, · · · ,k, xi = (xi(1), · · · ,xi(ni))T . La procédure de décisions’énonce alors ainsi : on accepte H0 au niveau α si x /∈ R.


Recommended