Statistique Inférentielle Avancée

  • Upload
    medo-zn

  • View
    96

  • Download
    0

Embed Size (px)

DESCRIPTION

Le but du cours de Statistique Inferentielle Avancee (SIA) est d'approfondir et d'etendreces notions, en allant plus loin dans la theorie mathematique sous-jacente.

Citation preview

  • Ensimag - 2e`me annee

    55 60 65 70 75

    0 .0

    0 .2

    0 .4

    0 .6

    0 .8

    1 .0

    Statistique Inferentielle Avancee

    Notes de cours

    Olivier Gaudoin

  • 2

  • Table des matie`res

    1 Introduction 7

    2 Concepts de linference statistique 9

    2.1 Le mode`le statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2 Mode`le parametrique ou non parametrique . . . . . . . . . . . . . . . . . . 10

    2.3 Fonction de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.4 Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.5 Exhaustivite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.6 La famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    3 Estimation parametrique optimale 23

    3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.2 Reduction de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.3 Completude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.4 Lestimation sans biais et de variance minimale . . . . . . . . . . . . . . . 28

    3.5 Information de Fisher et efficacite . . . . . . . . . . . . . . . . . . . . . . . 29

    3.5.1 Score et matrice dinformation . . . . . . . . . . . . . . . . . . . . . 30

    3.5.2 Information et exhaustivite . . . . . . . . . . . . . . . . . . . . . . 32

    3.5.3 Borne de Cramer-Rao et efficacite . . . . . . . . . . . . . . . . . . . 33

    4 Maximum de vraisemblance et estimation bayesienne 37

    4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    4.2 Proprietes asymptotiques de lestimateur de maximum de vraisemblance . 37

    4.3 Intervalles de confiance asymptotiques . . . . . . . . . . . . . . . . . . . . 41

    4.3.1 Cas dun parame`tre reel . . . . . . . . . . . . . . . . . . . . . . . . 41

    4.3.2 Cas dun parame`tre vectoriel . . . . . . . . . . . . . . . . . . . . . . 44

    4.4 Estimation bayesienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    4.4.1 Principe de la methode . . . . . . . . . . . . . . . . . . . . . . . . . 44

    4.4.2 Exemple du controle de qualite . . . . . . . . . . . . . . . . . . . . 46

    5 Tests dhypothe`ses optimaux 49

    5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.2 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.3 Tests dhypothe`ses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    5.4 Tests dhypothe`ses composites . . . . . . . . . . . . . . . . . . . . . . . . . 55

    5.5 Test du rapport des vraisemblances maximales . . . . . . . . . . . . . . . . 56

  • 4 TABLE DES MATIE`RES

    6 Estimation non parametrique de quantites reelles 59

    6.1 Les outils de la statistique non parametrique . . . . . . . . . . . . . . . . . 59

    6.1.1 Statistiques dordre et de rang . . . . . . . . . . . . . . . . . . . . . 59

    6.1.2 Loi de probabilite empirique . . . . . . . . . . . . . . . . . . . . . . 64

    6.2 Estimation de lesperance dun echantillon . . . . . . . . . . . . . . . . . . 65

    6.2.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 65

    6.2.2 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 65

    6.3 Estimation de la variance dun echantillon . . . . . . . . . . . . . . . . . . 67

    6.3.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 67

    6.3.2 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 67

    6.3.3 Lien entre moyenne et variance empiriques . . . . . . . . . . . . . . 68

    6.4 Estimation des moments de tous ordres . . . . . . . . . . . . . . . . . . . . 68

    6.5 Estimation des quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    6.5.1 Proprietes des quantiles empiriques . . . . . . . . . . . . . . . . . . 69

    6.5.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 70

    6.5.3 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 70

    6.6 Lois asymptotiques des extremes . . . . . . . . . . . . . . . . . . . . . . . 71

    7 Estimation fonctionnelle 73

    7.1 Estimation de la fonction de repartition . . . . . . . . . . . . . . . . . . . . 74

    7.1.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . 74

    7.1.2 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 76

    7.2 Estimation de la densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    7.2.1 Rappels sur les histogrammes . . . . . . . . . . . . . . . . . . . . . 77

    7.2.2 La methode du noyau . . . . . . . . . . . . . . . . . . . . . . . . . 78

    8 Tests dadequation bases sur la fonction de repartition empirique 83

    8.1 Problematique des tests dadequation . . . . . . . . . . . . . . . . . . . . . 83

    8.2 Rappels sur les graphes de probabilite . . . . . . . . . . . . . . . . . . . . . 84

    8.3 Cas dune loi entie`rement specifiee . . . . . . . . . . . . . . . . . . . . . . . 85

    8.4 Cas dune famille de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    9 Tests non parametriques sur un echantillon 91

    9.1 Tests dechantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    9.1.1 Le test de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    9.1.2 Le test de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    9.2 Tests sur lesperance et la mediane . . . . . . . . . . . . . . . . . . . . . . 95

    9.2.1 Tests asymptotiques sur lesperance . . . . . . . . . . . . . . . . . . 95

    9.2.2 Tests sur la mediane . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    10 Tests non parametriques sur plusieurs echantillons 101

    10.1 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . 101

    10.2 Tests de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    10.2.1 Le test de la mediane . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    10.2.2 Le test de Wilcoxon-Mann-Whitney . . . . . . . . . . . . . . . . . . 104

    10.2.3 Le test de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . 105

  • TABLE DES MATIE`RES 5

    11 Annexe A : Rappels de probabilites pour la statistique 10711.1 Variables aleatoires reelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    11.1.1 Loi de probabilite dune variable aleatoire . . . . . . . . . . . . . . 10711.1.2 Variables aleatoires discre`tes et continues . . . . . . . . . . . . . . . 10811.1.3 Moments et quantiles dune variable aleatoire reelle . . . . . . . . . 109

    11.2 Vecteurs aleatoires reels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11011.2.1 Loi de probabilite dun vecteur aleatoire . . . . . . . . . . . . . . . 11011.2.2 Esperance et matrice de covariance dun vecteur aleatoire . . . . . . 111

    11.3 Convergences et applications . . . . . . . . . . . . . . . . . . . . . . . . . . 11211.4 Quelques resultats sur quelques lois de probabilite usuelles . . . . . . . . . 113

    11.4.1 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11311.4.2 Loi geometrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11411.4.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11411.4.4 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11411.4.5 Loi gamma et loi du chi-2 . . . . . . . . . . . . . . . . . . . . . . . 11411.4.6 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11511.4.7 Lois de Student et de Fisher-Snedecor . . . . . . . . . . . . . . . . . 116

    12 Annexe B : Lois de probabilite usuelles 11712.1 Caracteristiques des lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . 117

    12.1.1 Variables aleatoires reelles discre`tes . . . . . . . . . . . . . . . . . . 11712.1.2 Variables aleatoires reelles continues . . . . . . . . . . . . . . . . . . 11812.1.3 Vecteurs aleatoires dans INd et dans IRd . . . . . . . . . . . . . . . . 119

    12.2 Tables de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12012.2.1 Table 1 de la loi normale centree reduite . . . . . . . . . . . . . . . 12012.2.2 Table 2 de la loi normale centree reduite . . . . . . . . . . . . . . . 12112.2.3 Table de la loi du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 12212.2.4 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . 12312.2.5 Tables de la loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . 124

    13 Annexe C : Introduction a` R 12713.1 Les bases de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12713.2 Commandes pour les deux premiers TD en R . . . . . . . . . . . . . . . . . 12813.3 Quelques commandes utiles de R . . . . . . . . . . . . . . . . . . . . . . . . 12913.4 Les lois de probabilite usuelles en R . . . . . . . . . . . . . . . . . . . . . . 13013.5 Les principaux tests dhypothe`ses en R . . . . . . . . . . . . . . . . . . . . 13213.6 Les graphiques dans R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

    13.6.1 Graphique simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13213.6.2 Autres fonctions graphiques . . . . . . . . . . . . . . . . . . . . . . 13313.6.3 Parametrage de la commande plot . . . . . . . . . . . . . . . . . . . 134

    Bibliographie 135

  • 6 TABLE DES MATIE`RES

  • Chapitre 1

    Introduction

    Comme son nom lindique, le cours de premier semestre de Principes et Methodes Sta-tistiques (PMS) a presente les principes et les methodes de base dune analyse statistiquede donnees. On peut resumer rapidement son contenu de la facon suivante :

    Statistique descriptive : le but est de decrire et resumer linformation contenuedans les donnees a` laide de representations graphiques (diagrammes en batons, his-togrammes, graphes de probabilite) et dindicateurs statistiques (moyenne, variance,mediane, quantiles, ...). Tous les exemples vus portent sur des donnees unidimen-sionnelles. Lextension a` des descriptions de donnees multidimensionnelles sera vuedans le cours dAnalyse Statistique Multidimensionnelle (ASM).

    Statistique inferentielle : le but est de faire des previsions et prendre des decisionsau vu des donnees. Nous avons vu deux grandes categories de methodes :

    Lestimation, ponctuelle et par intervalles de confiance, avec la methode desmoments et la methode du maximum de vraisemblance.

    Les tests dhypothe`ses, avec les tests parametriques sur un ou deux echantillonset les tests du 2.

    Le but du cours de Statistique Inferentielle Avancee (SIA) est dapprofondir et detendreces notions, en allant plus loin dans la theorie mathematique sous-jacente.

    Nous commencerons par donner des concepts generaux sur linference statistique, enintroduisant la notion de mode`le statistique. Puis nous etudierons des proprietes dop-timalite des notions deja` etudiees : comment trouver un estimateur optimal ? Quest-cequun test optimal et comment le trouver ? Nous etudierons une nouvelle methode des-timation, lestimation bayesienne, qui ouvre un champ tre`s important de la statistiquemoderne.

    Nous distinguerons la statistique parametrique, qui suppose lexistence dun mode`leconnu avec des parame`tres inconnus, et la statistique non parametrique, qui ne faitpas ces hypothe`ses. Dans ce contexte, nous verrons comment estimer des fonctions derepartition et des densites de probabilite.

    Enfin, nous etudierons des tests non parametriques, permettant de determiner sides observations sont independantes et de meme loi ou presentent une tendance, de testerune moyenne ou de comparer des echantillons sans faire dhypothe`ses sur un mode`le sous-jacent, ou de tester ladequation dun mode`le.

  • 8 Chapitre 1 - Introduction

    Nous etablirons des proprietes sur des parame`tres a` plusieurs dimensions (avec lanotion de matrice dinformation au lieu de celle de quantite dinformation) et etudieronsdes resultats asymptotiques (optimalite asymptotique de lestimateur de maximum devraisemblance).

  • Chapitre 2

    Concepts de linference statistique

    2.1 Le mode`le statistique

    Un mode`le statistique est un objet mathematique associe a` lobservation de donneesissues dun phenome`ne aleatoire.

    Une experience statistique consiste a` recueillir une observation x dun element aleatoireX, a` valeurs dans un espace X et dont on ne connait pas exactement la loi de probabiliteP . Des considerations de modelisation du phenome`ne observe ame`nent a` admettre que Pappartient a` une famille P de lois de probabilite possibles.

    Definition 1 : Le mode`le statistique (ou la structure statistique) associe a` cetteexperience est le triplet (X ,A,P), ou` : X est lespace des observations, ensemble de toutes les observations possibles. A est la tribu des eve`nements observables associee. P est une famille de lois de probabilites possibles definie sur A.

    Linteret de cette notion de mode`le statistique est quelle permet de traiter avec lememe formalisme tous les types dobservations possibles.

    On dit que le mode`le est discret quand X est fini ou denombrable. Dans ce cas, latribu A est lensemble des parties de X : A = P(X ). Cest le cas quand lelement aleatoireobserve X a une loi de probabilite discre`te.

    On dit que le mode`le est continu quand X IRp et P P , P admet une densite(par rapport a` la mesure de Lebesgue) dans IRp. Dans ce cas, A est la tribu des boreliensde X (tribu engendree par les ouverts de X ) : A = B(X ).

    On peut aussi envisager des mode`les ni continus ni discrets, par exemple si lobservationa certains elements continus et dautres discrets. X et A sont alors plus complexes.

    Le cas le plus frequent, celui qui a ete principalement vu en PMS, est celui ou` lelementaleatoire observe est constitue de variables aleatoires independantes et de meme loi (i.i.d.) :X = (X1, . . . , Xn), ou` les Xi sont i.i.d. On dit que lon a alors un mode`le dechantillon.Dans ce cas, par convention, si on note (X ,A,P) le mode`le correspondant a` un echantillonde taille 1, on notera (X ,A,P)n le mode`le correspondant a` un echantillon de taille n.

  • 10 Chapitre 2 - Concepts de linference statistique

    Exemple 1 : ampoules. Lexemple de reference du cours de PMS a consiste a` recueillirles durees de vie, supposees independantes et de meme loi exponentielle, de n ampouleselectriques. Lobservation est de la forme x = (x1, . . . , xn), ou` les xi sont des realisationsde variables aleatoires Xi independantes et de meme loi exponentielle de parame`tre inconnu.

    Pour tout i, xi IR+, donc lespace des observations est X = IR+n . Alors la tribuassociee est A = B(IR+n). Le mode`le est continu. Comme on admet que la loi est ex-ponentielle mais que son parame`tre est inconnu, lensemble des lois de probabilites pos-sibles pour chaque Xi est

    {exp(); IR+}. Comme les Xi sont independantes, la loi

    de probabilite du vecteur (X1, . . . , Xn) est la loi produit P ={exp()n; IR+}, en-

    semble des lois de probabilite des vecteurs aleatoires de taille n dont les composantes sontindependantes et de meme loi exponentielle de parame`tre inconnu.

    Finalement, le mode`le statistique associe est :(IR+

    n

    ,B(IR+n),{exp()n; IR+})quon peut aussi ecrire, dapre`s la convention enoncee :(

    IR+,B(IR+),{exp(); IR+})n .Exemple 2 : controle de qualite. Une chane de production produit un tre`s grand nombrede pie`ces et on sinteresse a` la proportion inconnue de pie`ces defectueuses. Pour lestimer,on prele`ve independamment n pie`ces dans la production et on les controle. Lobservationest x = (x1, . . . , xn), ou` :

    xi =

    {1 si la ie`me pie`ce est defectueuse0 sinon

    Par consequent, lespace des observations est X = {0, 1}n. Il est fini, donc le mode`leest discret et A = P ({0, 1}n). Les Xi sont independants et de meme loi de Bernoulli B(p),ou` p = P (Xi = 1) est la probabilite quune pie`ce soit defectueuse.

    Alors le mode`le statistique peut secrire :({0, 1}n,P ({0, 1}n) ,{B(p)n; p [0, 1]})ou

    ({0, 1},P ({0, 1}) , {B(p); p [0, 1]})n .

    Remarque : Quand lelement aleatoireX est numerique, il admet une fonction de repartitionF . La fonction de repartition caracterisant une loi de probabilite, lensemble P des lois deprobabilite possibles pour X est en bijection avec lensemble F des fonctions de repartitionpossibles. Aussi le mode`le statistique peut dans ce cas etre note (X ,A,F) au lieu de(X ,A,P).

    2.2 Mode`le parametrique ou non parametrique

    Un mode`le parametrique est un mode`le ou` lon suppose que le type de loi de X estconnu, mais quil depend dun parame`tre inconnu, de dimension d. Alors, la famille delois de probabilite possibles pour X peut secrire P = {P ; IRd}.

  • 2.3 Fonction de vraisemblance 11

    Cest evidemment le cas des deux exemples. Le proble`me principal est alors de fairede linference statistique sur : lestimer, ponctuellement ou par regions de confiance(intervalles si d = 1), et effectuer des tests dhypothe`ses portant sur . On fait alors de lastatistique parametrique.

    Un mode`le non parametrique est un mode`le ou` P ne peut pas se mettre sous laforme ci-dessus. Par exemple, P peut etre : lensemble des lois de probabilite continues sur IR, lensemble des lois de probabilite dont le support est [0, 1], lensemble des lois de probabilite sur IR symetriques par rapport a` lorigine, etc...Dans ce cadre, il est possible de determiner des estimations, des intervalles de confiance,

    deffectuer des tests dhypothe`ses. Mais les objets sur lesquels portent ces proceduresstatistiques ne sont plus des parame`tres de lois de probabilite. On peut vouloir estimer desquantites reelles comme lesperance et la variance des observations. On a vu en PMS quonpouvait utiliser la moyenne et la variance empirique des donnees. On peut aussi vouloirestimer des fonctions, comme la fonction de repartition et la densite des observations. Ona vu en PMS quun histogramme est une estimation de densite.

    En termes de tests dhypothe`ses, on peut effectuer des tests sur la valeur duneesperance, tester si les observations sont independantes, si elles presentent une croissance,si elles proviennent dune loi normale, tester si plusieurs echantillons proviennent de lameme loi, etc... On fait alors de la statistique non parametrique.

    De manie`re generale, la statistique non parametrique regroupe lensemble des methodesstatistiques qui permettent de tirer de linformation pertinente de donnees sans faire lhy-pothe`se que la loi de probabilite de ces observations appartient a` une famille parametreeconnue.

    Un des proble`mes de la statistique parametrique est le risque derreur du a` un mau-vais choix de mode`le. Par exemple, on a vu en PMS dans lexercice sur les niveaux debruit a` Montreal, que lon obtient des resultats aberrants si on effectue des calculs ensupposant que des observations sont de loi exponentielle, alors quen fait elles sont de loinormale. Lavantage de la statistique non parametrique est de ne pas etre soumise a` cetalea. En revanche, si les observations sont bien issues dun mode`le precis, les methodesstatistiques parametriques qui utilisent ce mode`le seront plus performantes que celles quine lutilisent pas. Il est donc egalement important detablir des methodes permettant dedeterminer si des observations sont issues ou non de tel ou tel mode`le parametrique, lestests dadequation.

    2.3 Fonction de vraisemblance

    Dans un mode`le parametrique, la fonction de vraisemblance joue un role fondamental.Nous navons vu en PMS que le cas des mode`les dechantillon, en traitant separement lecas des lois discre`tes et des lois continues.

    Pour un mode`le dechantillon discret, lelement aleatoire observe estX = (X1, . . . , Xn),ou` les Xi sont independantes et de meme loi discre`te. Alors la fonction de vraisemblance

  • 12 Chapitre 2 - Concepts de linference statistique

    est :

    L(;x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn; ) =ni=1

    P (Xi = xi; ).

    Pour un mode`le dechantillon continu, lelement aleatoire observe estX = (X1, . . . , Xn),ou` les Xi sont independantes et de meme loi continue. Alors la fonction de vraisemblanceest :

    L(;x1, . . . , xn) = f(X1,...,Xn)(x1, . . . , xn; ) =ni=1

    fXi(xi; ).

    Pour definir une fonction de vraisemblance valable dans nimporte quel mode`le statis-tique, pas forcement dechantillon et pas forcement discret ou continu, il faut utiliser desnotions de theorie de la mesure.

    Rappels :

    Une mesure sur (X ,A) est -finie si et seulement si il existe une suite {An}n1deve`nements de A telle que n1An = X et n 1, (An) < + (X est uneunion denombrable deve`nements de mesure finie).

    P est absolument continue par rapport a` si et seulement si :

    A A, (A) = 0 P(A) = 0.

    On conside`re un mode`le parametrique quelconque (X ,A, {P ; }). On supposeraquil existe une mesure -finie sur (X ,A) telle que , la loi de P est absolumentcontinue par rapport a` (on dit que est la mesure dominante du mode`le). Alorsle theore`me de Radon-Nikodyn assure que P admet une densite par rapport a` . Cettedensite est appelee fonction de vraisemblance du mode`le.

    Definition 2 La fonction de vraisemblance du mode`le (X ,A, {P ; }) est lafonction de definie par :

    A A, P(A) = P (X A; ) =A

    L(;x) d(x).

    Plus generalement, pour toute fonction integrable, on a :

    E [(X)] =

    X(x)L(;x) d(x).

    En toute rigueur, L nest definie qua` une -equivalence pre`s. Mais dans la pratique,il ny a pas dambiguite, aussi parle-t-on bien de la fonction de vraisemblance.

    Cas des mode`les continus. Si X est un vecteur aleatoire admettant une densite fX(x; )(par rapport a` la mesure de Lebesgue), on sait bien que P (X A; ) =

    AfX(x; ) dx.

    Donc la mesure dominante est la mesure de Lebesgue et la fonction de vraisemblance estL(;x) = fX(x; ).

  • 2.4 Statistiques 13

    Cas des mode`les discrets. Si X est un vecteur aleatoire de loi discre`te, definie par lesprobabilites elementaires P (X = x; ), alors :

    P (X A; ) =xA

    P (X = x; ) =

    A

    P (X = x; ) dd(x)

    ou` d est la mesure de denombrement sur X : d(A) = card(A) etAf(x) dd(x) =

    xA f(x). Donc la fonction de vraisemblance est bien L(;x) = P (X = x; ).Lavantage de cette definition generale est quelle permet de traiter des cas plus aty-

    piques que les mode`les dechantillon discrets ou continus.

    Exemple. Une experience aleatoire conduit a` observer la realisation dun couple de va-riables aleatoires X = (Y,N), ou` Y est une variable aleatoire reelle (continue) et N estune variable aleatoire entie`re (discre`te). Y et N ne sont pas forcement independantes.Admettons que leur loi conjointe depende dun parame`tre .

    Pour calculer la vraisemblance, qui permettra destimer , il faut etre capable decalculer des grandeurs du type P ((Y,N) A1 A2; ) = P ([Y A1] [N A2]; ), ou`A1 est un intervalle de IR et A2 est une partie de IN. On a :

    P ([Y A1] [N A2]; ) =nA2

    P ([Y A1] [N = n]; )

    =

    A2

    P ([Y A1] [N = n]; ) dd(n)

    =

    A2

    P (Y A1|N = n; ) P (N = n; ) dd(n)

    =

    A2

    A1

    fY |N=n(y; ) dy P (N = n; ) dd(n)

    =

    A1A2

    fY |N=n(y; )P (N = n; ) dy dd(n)

    =

    A1A2

    fY |N=n(y; )P (N = n; ) dL d(y;n)

    ce qui prouve que la fonction de vraisemblance est :

    L(;x) = L(; y, n) = fY |N=n(y; )P (N = n; ).

    et que la mesure dominante est la mesure produit Ld, ou` L est la mesure de Lebesguesur IR et d est la mesure de denombrement sur IN.

    2.4 Statistiques

    En PMS, on a defini une statistique comme une fonction des observations, t(x). Dansun mode`le parametrique, cette fonction ne doit pas dependre du parame`tre inconnu .Autrement dit, elle doit etre mesurable. La definition formelle dune statistique est lasuivante.

  • 14 Chapitre 2 - Concepts de linference statistique

    Definition 3 Dans un mode`le statistique (X ,A,P), une statistique est une applicationmesurable t de (X ,A) dans un espace Y muni dune tribu B.

    Rappel : une application t de (X ,A) dans (Y ,B) est mesurable si et seulement si B B,leve`nement t1(B) = [t(X) B] est dans A, cest-a`-dire A, t(A) = B A A.Concre`tement, cela signifie que lon peut calculer la probabilite de tout eve`nement de laforme [t(X) B], donc t ne doit pas dependre de parame`tres inconnus.

    Puisque x est une realisation de lelement aleatoire X, t(x) est une realisation delelement aleatoire T = t(X).

    Definition 4 La loi de probabilite PT de T est appelee loi image par t et le mode`le(Y ,B, {PT ;P P}) est le mode`le image par t de (X ,A,P).

    Exemple des ampoules. Le mode`le est(IR+,B(IR+),{exp(); IR+})n.X = (X1, . . . , Xn),

    ou` les Xi sont des variables aleatoires independantes et de meme loi exp(). On sait

    qualors T =ni=1

    Xi est de loi gamma G(n, ). Donc la loi image par t(x) =ni=1

    xi est la

    loi G(n, ) et le mode`le image est le mode`le(IR+,B(IR+),{G(n, ); IR+}).

    Remarquons que le mode`le image est de dimension 1 alors que le mode`le initial etait

    de dimension n. Autrement dit, la statistique t(x) =ni=1

    xi est un resume des observations

    x = (x1, . . . , xn). On retrouvera cette notion ulterieurement.

    Definition 5 Soit (X ,A, {P ; }) un mode`le statistique parametrique. Si la fonctionde vraisemblance admet un maximum unique au point (x), alors lapplication x 7 (x)est appelee statistique de maximum de vraisemblance. (X) est lestimateur demaximum de vraisemblance de au vu de X.

    2.5 Exhaustivite

    On conside`re un mode`le statistique parametrique (X ,A,{P ; IRd}). On cher-che a` obtenir le maximum de connaissance possible sur le parame`tre a` partir de lob-servation x X . Souvent, x est un vecteur (x1, . . . , xn) et n est tre`s grand. Il est alorsinteressant de reduire les donnees en les resumant par une statistique t(x) de dimensiontre`s inferieure a` n. Il est logique de sattendre a` ce que le resume t(x) des observationscontienne moins dinformation sur que lensemble des donnees initiales. Or il existe desstatistiques qui resument les observations tout en conservant lintegralite de linformationsur , les statistiques exhaustives.

    Definition 6 Une statistique t est exhaustive pour si et seulement si la loi de proba-bilite conditionnelle de X sachant [T = t] ne depend pas de .

  • 2.5 Exhaustivite 15

    Justification. Si la loi de X sachant [T = t] ne depend pas de , cela signifie que, quandon connait le resume de lobservation t(x), la connaissance de la totalite de lobservationx napporte aucun renseignement supplementaire sur . Donc la totalite de linformationsur est contenue dans t(x). Par consequent, il faut sattendre a` ne se servir que de t(x)(au lieu de x tout entier) pour estimer .

    Exemple du controle de qualite. Le mode`le est ({0, 1},P ({0, 1}) , {B(p); p [0, 1]})n. x =(x1, . . . , xn), ou`

    xi =

    {1 si la ie`me pie`ce est defectueuse0 sinon

    Les Xi sont des variables aleatoires independantes et de meme loi B(p), ou` p est laprobabilite quune pie`ce soit defectueuse.

    Il semble evident que, pour avoir toute linformation sur p, il est inutile de savoir, pourchaque pie`ce controlee, si elle est defectueuse ou pas. Il suffit de connatre le pourcentage(ou le nombre total) de pie`ces defectueuses. Dailleurs on a vu en PMS que lestimateur

    optimal (ESBVM) de p etait bien la proportion de pie`ces defectueuses pn =1

    n

    ni=1

    Xi.

    On doit donc sattendre a` ce que pn(x) =1

    n

    ni=1

    xi soit une statistique exhaustive. Pour

    des raisons de simplicite decriture, on va plutot montrer que le nombre total de pie`ces

    defectueuses t(x) =ni=1

    xi est une statistique exhaustive.

    On sait que T =ni=1

    Xi est de loi binomiale B(n, p). Alors :

    P (X = x|T = t) = P (X1 = x1, . . . , Xn = xn|ni=1

    Xi = t)

    =

    P

    (X1 = x1, . . . , Xn = xn,

    ni=1

    Xi = t

    )P

    (ni=1

    Xi = t

    )

    =

    0 si

    ni=1

    xi 6= tP (X1 = x1, . . . , Xn = xn)

    P

    (ni=1

    Xi = t

    ) si ni=1

    xi = t

    P (Xi = xi) =

    {p si xi = 1

    1 p si xi = 0 = pxi(1 p)1xi

    et comme les Xi sont independants, on a :

    P (X1 = x1, . . . , Xn = xn)

    P

    (ni=1

    Xi = t

    ) =ni=1

    P (Xi = xi)

    P (T = t)=

    ni=1

    pxi(1 p)1xi

    Ctn pt (1 p)nt

  • 16 Chapitre 2 - Concepts de linference statistique

    =p

    ni=1

    xi(1 p)n

    ni=1

    xi

    Ctn pt (1 p)nt =

    1

    Ctnsi

    ni=1

    xi = t

    Donc P (X = x|T = t) =

    0 si

    ni=1

    xi 6= t1

    Ctnsi

    ni=1

    xi = t.

    On reconnait la loi uniforme sur

    {(x1, . . . , xn) {0, 1}n;

    ni=1

    xi = t

    }.

    La loi conditionnelle de X sachant [T = t] ne depend pas de p, donc t(x) =ni=1

    xi est

    une statistique exhaustive pour p.

    La verification de la propriete definissant les statistiques exhaustives netant pasforcement facile, il est plus pratique dutiliser le theore`me de Fisher-Neyman, qui ca-racterise tre`s simplement lexhaustivite.

    Theore`me 1 . Theore`me de factorisation de Fisher-Neyman. Pour quune statis-tique t soit exhaustive pour , il faut et il suffit quil existe deux fonctions mesurables g eth telles que :

    x X , , L(;x) = g (t(x); ) h(x).

    Demonstration. Effectuons la demonstration dans le cas dun mode`le discret. On a doncL(;x) = P (X = x; ).() Si t est exhaustive, P (X = x|T = t) ne depend pas de . Par consequent :

    L(;x) = P (X = x; ) = P (X = x t(X) = t(x); )= P (X = x T = t(x); ) = P (X = x|T = t(x))P (T = t(x); )= h(x)P (T = t(x); )

    qui est bien de la forme g (t(x); ) h(x).

    () On suppose que L(;x) = P (X = x; ) = g (t(x); ) h(x). Il faut montrer qualorsP (X = x|T = t) ne depend pas de . On a :

    P (X = x|T = t0; ) = P (X = x T = t0; )P (T = t0; )

    =P (X = x t(X) = t0; )

    P (T = t0; )

    =

    0 si t(x) 6= t0P (X = x; )P (T = t0; )

    si t(x) = t0

    Or P (T = t0; ) = P (t(X) = t0; ) =

    y;t(y)=t0

    P (X = y; ).

    Donc, pour t(x) = t0, on a :

    P (X = x|T = t0; ) = P (X = x; )y;t(y)=t0

    P (X = y; )=

    g (t(x); ) h(x)y;t(y)=t0

    g (t(y); ) h(y)

  • 2.5 Exhaustivite 17

    =g (t0; ) h(x)

    y;t(y)=t0

    g (t0; ) h(y)=

    h(x)y;t(y)=t0

    h(y)

    qui ne depend pas de . Donc t est exhaustive, dou` le theore`me.

    Exemple 1 : controle de qualite. On a vu que :

    L(p;x1, . . . , xn) =ni=1

    pxi(1 p)1xi = pni=1

    xi(1 p)n

    ni=1

    xi.

    Cest de la forme g(ni=1

    xi; p), donc on retrouve immediatement queni=1

    xi est une sta-

    tistique exhaustive.

    Exemple 2 : echantillon de loi normale N (m;2). On suppose que X = (X1, . . . , Xn), ou`les Xi sont independantes et de meme loi N (m;2). La vraisemblance est :

    L(m,2;x1, . . . , xn) =ni=1

    fXi(xi;m,

    2)

    =ni=1

    1

    2pie(xi m)

    2

    22

    =1(

    2pi)n e

    1

    22

    ni=1

    (xi m)2

    =1(

    2pi)n e

    1

    22

    [ni=1

    x2i 2mni=1

    xi + nm2

    ]

    qui est de la forme g

    ((ni=1

    xi,ni=1

    x2i );m,2

    ). Donc le couple

    (ni=1

    xi,ni=1

    x2i

    )est une sta-

    tistique exhaustive pour le parame`tre = (m,2) dun echantillon de loi normale.

    Propriete 1 Si t est exhaustive et si t = s, alors s est exhaustive.

    Demonstration. t est exhaustive donc

    L(;x) = g (t(x); ) h(x) = g ([s(x)]; ) h(x) = G (s(x); ) h(x)donc s est exhaustive.

    Exemple : echantillon de loi normale.

    (ni=1

    xi,ni=1

    x2i

    )= (xn, s

    2n), donc (xn, s

    2n) est une

    statistique exhaustive pour (m,2) (cest la statistique de maximum de vraisemblance).

    Remarque : Si t est exhaustive, t ne lest pas forcement ! Par exemple, (xn, s2n) = xnnest pas exhaustive pour (m,2).

    Propriete 2 Si t est une statistique exhaustive et si est la statistique de maximum devraisemblance, alors il existe une fonction telle que = t.

  • 18 Chapitre 2 - Concepts de linference statistique

    Demonstration. t est exhaustive donc L(;x) = g (t(x); ) h(x). h nintervient pas dansla maximisation de cette fonction par rapport a` , donc la statistique de maximum devraisemblance ne depend de x qua` travers t(x). Par consequent, il existe une fonction telle que = t.

    Cest bien le cas de la loi normale avec t(x) =

    (ni=1

    xi,ni=1

    x2i

    )et (x) = (xn, s

    2n).

    La statistique de maximum de vraisemblance est fonction dune statistique exhaustive,mais elle nest pas forcement exhaustive elle-meme.

    En fait, on peut caracteriser facilement les lois de probabilite pour lesquelles lesmode`les dechantillon admettent une statistique exhaustive : celles qui appartiennent a` lafamille exponentielle.

    2.6 La famille exponentielle

    Definition 7 Soit X une variable aleatoire reelle, dont la loi de probabilite depend dunparame`tre IRd. On dit que la loi de X appartient a` la famille exponentielle si etseulement si P (X = x; ) (cas discret) ou fX(x; ) (cas continu) est de la forme :

    e

    dj=1

    aj(x)j() + b(x) + ()

    La plupart des lois usuelles appartiennent a` la famille exponentielle :

    Loi de Bernoulli B(p) :

    P (X = x; p) =

    {p si x = 1

    1 p si x = 0 = px(1 p)1x = ex ln p+ (1 x) ln(1 p)

    = ex[ln p ln(1 p)] + ln(1 p) = ex ln

    p

    1 p + ln(1 p)

    qui est de la forme souhaitee avec d = 1, a(x) = x, (p) = lnp

    1 p , b(x) = 0 et(p) = ln(1 p). Loi exponentielle exp() :

    fX(x;) = ex = ex+ ln

    qui est de la forme souhaitee avec d = 1, a(x) = x, () = , b(x) = 0 et() = ln.

    Loi normale N (m,2) :

    fX(x;m,2

    )=

    1

    2pie(xm)

    2

    22 = e x

    2

    22+mx

    2 m

    2

    22 ln

    2pi

  • 2.6 La famille exponentielle 19

    qui est de la forme souhaitee avec d = 2, a1(x) = x2, 1(m,

    2) = 122

    , a2(x) = x,

    2(m,2) =

    m

    2, b(x) = 0 et (m,2) = m

    22 ln2pi.

    Mais par exemple, la loi de WeibullW(, ) nappartient pas a` la famille exponentielle :

    fX (x; , ) = x1

    e(x

    )= ex

    + ( 1) lnx ln + ln

    Le terme x fait quex

    ne peut pas etre mis sous la forme a(x)(, ), donc la loi de

    Weibull nappartient pas a` la famille exponentielle.

    Le lien entre famille exponentielle et exhaustivite est donne par le theore`me de Dar-mois :

    Theore`me 2 . Theore`me de Darmois. Dans un mode`le dechantillon (X ,A, {P ; IRd})n, ou` le support de la loi des observations ne depend pas de , il existe une sta-tistique exhaustive si et seulement si cette loi appartient a` la famille exponentielle. Alors

    t(x) =

    (ni=1

    a1(xi), . . . ,ni=1

    ad(xi)

    )est une statistique exhaustive.

    Demonstration. On effectue la demonstration pour des lois continues.

    () Si la loi des observations appartient a` la famille exponentielle, la fonction de vrai-semblance est :

    L(;x1, . . . , xn) =ni=1

    fXi(xi; ) =ni=1

    e

    dj=1

    aj(xi)j() + b(xi) + ()

    = e

    ni=1

    dj=1

    aj(xi)j() +ni=1

    b(xi) + n()

    = e

    dj=1

    j()ni=1

    aj(xi) +ni=1

    b(xi) + n()

    Le theore`me de Fisher-Neyman permet alors den deduire que t(x) =

    (ni=1

    a1(xi), . . . ,ni=1

    ad(xi)

    )est une statistique exhaustive pour .

    () Montrons la reciproque pour d = 1, cest-a`-dire IR. On suppose quil existe unestatistique exhaustive t. Alors :

    L(;x1, . . . , xn) =ni=1

    f(xi; ) = g (t(x1, . . . , xn); ) h(x1, . . . , xn)

  • 20 Chapitre 2 - Concepts de linference statistique

    Il faut montrer qualors forcement f(x; ) est de la forme e a(x)() + b(x) + (). Ona :

    lnL(;x1, . . . , xn) =ni=1

    ln f(xi; ) = ln g (t(x1, . . . , xn); ) + lnh(x1, . . . , xn)

    Et comme h ne depend pas de :

    lnL(;x1, . . . , xn) =

    ni=1

    ln f(xi; ) =

    ln g (t(x1, . . . , xn); )

    Pour un i quelconque fixe dans {1, . . . , n}, on a :

    2

    xilnL(;x1, . . . , xn) =

    2

    xiln f(xi; ) =

    2

    xiln g (t(x1, . . . , xn); )

    =

    xit(x1, . . . , xn)

    2

    yln g(y; )|y=t(x1,...,xn)

    Pour i et j distincts, on obtient donc :

    2

    xiln f(xi; )

    2

    xjln f(xj; )

    =

    xit(x1, . . . , xn)

    2

    yln g(y; )|y=t(x1,...,xn)

    xjt(x1, . . . , xn)

    2

    yln g(y; )|y=t(x1,...,xn)

    =

    xit(x1, . . . , xn)

    xjt(x1, . . . , xn)

    qui ne depend pas de . On est donc dans la situation dune fonction telle que(x; )

    (y; )ne depend pas de . Alors forcement (x; ) est de la forme (x; ) = u(x)v(). Par

    consequent, on a2

    xln f(x; ) = u(x)v().

    Dou`

    ln f(x; ) = a(x)v() + w() et ln f(x; ) = a(x)() + () + b(x).

    Finalement, la densite est bien de la forme f(x; ) = e a(x)() + b(x) + ().

    Pour finir ce chapitre, appliquons le theore`me de Darmois aux lois usuelles.

    Loi de Bernoulli B(p) : a(x) = x, donc on retrouve le fait queni=1

    xi est une statistique

    exhaustive. LESBVM de p est une fonction de cette statistique : pn =1

    n

    ni=1

    Xi.

    Loi exponentielle exp() : a(x) = x, doncni=1

    xi est une statistique exhaustive.

    LESBVM de est une fonction de cette statistique : n =n 1ni=1

    Xi

    .

  • 2.6 La famille exponentielle 21

    Loi normale N (m,2) : a1(x) = x2 et a2(x) = x, donc on retrouve le fait que(ni=1

    x2i ,ni=1

    xi

    )ou (xn, s

    2n) est une statistique exhaustive.

    Loi de Weibull W(, ). Elle nappartient pas a` la famille exponentielle, donc ilny a pas de statistique exhaustive. Cela peut se voir autrement en ecrivant lavraisemblance :

    L(, ;x1, . . . , xn) =ni=1

    x1i

    e(xi

    )=

    n

    n

    [ni=1

    x1i

    ]e

    1

    ni=1

    xi

    Elle ne peut pas etre factorisee sous la forme du theore`me de Fisher-Neymang (t(x1, . . . , xn); , ) h(x1, . . . , xn), sauf si on prend t(x1, . . . , xn) = (x1, . . . , xn).Autrement dit, on ne peut pas resumer lensemble des donnees en conservant latotalite de linformation sur les parame`tres.

    Remarque : on a relie la notion dexhaustivite a` celle dinformation sans definir precisementlinformation. Il y a en fait un lien entre lexhaustivite et linformation de Fisher, commeon le verra plus tard.

  • 22 Chapitre 2 - Concepts de linference statistique

  • Chapitre 3

    Estimation parametrique optimale

    3.1 Introduction

    On se place dans un mode`le statistique parametrique (X ,A, {P ; IRd}

    ). Oncherche a` estimer au mieux le parame`tre a` partir de lobservation x a` laide dunestatistique t(x). Lestimateur T = t(X) doit verifier certaines proprietes pour etre debonne qualite. Il est sans biais si E(T ) = . Quand IR (d = 1), on a vu quil fallaitque lerreur quadratique moyenne EQM(T ) = E [(T )2] soit la plus petite possible.Quand T est sans biais, EQM(T ) = V ar(T ). Donc pour IR, un estimateur optimalsera un estimateur sans biais et de variance minimale (ESBVM).

    En PMS, nous avons vu quun estimateur sans biais et efficace (sa variance est egalea` la borne de Cramer-Rao) etait forcement un ESBVM, mais nous navons pas donnede procedure generale permettant de trouver un ESBVM. Cest le but essentiel de cechapitre. Cela necessite dutiliser la notion dexhaustivite, vue au chapitre precedent, etde completude, que nous allons introduire.

    Les resultats seront dabord introduits dans le cas simple ou` est de dimension 1(sections 3.2. a` 3.4.), puis nous regarderons le cas ou` est de dimension d quelconque enabordant la notion dinformation de Fisher.

    3.2 Reduction de la variance

    Le theore`me suivant permet, a` partir dun estimateur sans biais, de construire unautre estimateur sans biais de variance inferieure, pour peu quil existe une statistiqueexhaustive.

    Theore`me 3 . Theore`me de Rao-Blackwell. Sil existe une statistique exhaustive Tet un estimateur sans biais de , alors Z = E[ |T ] est un estimateur sans biais de ,de variance inferieure a` celle de .

    Rappels.

    E[Y |X] est une variable aleatoire fonction deX. E[Y |X = x] en est une realisation. Theore`me de lesperance totale : E [E[Y |X]] = E(Y ). Pour toute fonction mesurable, E[(X) |X] = (X).

  • 24 Chapitre 3 - Estimation parametrique optimale

    Pour toute fonction mesurable, E[(X)Y |X] = (X)E[Y |X].Demonstration. Comme T est exhaustive, la loi de X sachant T ne depend pas de , donccelle de sachant T non plus. Par consequent, E[ |T = t] ne depend pas de , doncz(x) = E[ |T = t(x)] est bien une statistique. Ce resultat est indispensable puisque, siZ dependait de , on ne pourrait pas lutiliser pour estimer .

    Dapre`s le theore`me de lesperance totale, E(Z) = E[E[ |T ]

    ]= E(). Donc si est

    un estimateur sans biais de , Z est aussi un estimateur sans biais de . La variance de est :

    V ar() = E[( E())2

    ]= E

    [( )2

    ]= E

    [( Z + Z )2

    ]= E

    [( Z)2

    ]+ E

    [(Z )2]+ 2E [( Z)(Z )] .

    Les 3 termes de cette somme verifient :

    1. E[( Z)2

    ] 0.

    2. E [(Z )2] = E [(Z E(Z))2] = V ar(Z).

    3. E[( Z)(Z )

    ]= E

    [( Z)Z

    ] E( Z) = E

    [( Z)Z

    ]car E( Z) = E() E(Z) = = 0.

    Enfin :

    E[( Z)Z

    ]= E

    [E[( Z)Z |T

    ]]dapre`s le theore`me de lesperance totale

    = E[E[( E[ |T ])E[ |T ] |T

    ]]= E

    [E[ |T ]E

    [ E[ |T ] |T

    ]]= E

    [E[ |T ]

    [E[ |T ] E[ |T ]

    ]]= 0.

    Dou` V ar() = E[( Z)2

    ]+ V ar(Z), ce qui prouve que V ar(Z) V ar(), dou` le

    theore`me.

    Exemple des ampoules. Mode`le dechantillon de loi exponentielle. On souhaite estimer lafiabilite dune ampoule a` linstant x, cest-a`-dire la probabilite quelle fonctionne toujoursau bout dune duree x :

    R(x) = P (Xi > x) = ex.

  • 3.2 Reduction de la variance 25

    On sait que lestimateur de maximum de vraisemblance de est n = 1/Xn =

    n/ni=1

    Xi, donc lestimateur de maximum de vraisemblance de R(x) est :

    Rn(x) = enx = e

    nx/ni=1

    Xi.

    On a dit en PMS (mais sans le prouver) que lESBVM de est n = (n 1)/ni=1

    Xi,

    donc on peut aussi proposer destimer R(x) par Rn(x) = e(n1)x/

    ni=1

    Xi.

    Mais le biais de ces estimateurs est difficile a` calculer. En effet, etant donne queni=1

    Xi

    est de loi G(n, ), on a par exemple :

    E[Rn(x)

    ]=

    +0

    enx/yn

    (n 1)! ey yn1 dy

    quon ne sait pas calculer.

    Une autre solution consiste a` estimer la probabilite quune ampoule fonctionne toujoursa` linstant x par le pourcentage dampoules observees qui fonctionnent toujours a` linstantx. Cest ce quon appelle la fiabilite empirique :

    IRn(x) = 1 IFn(x) = 1n

    ni=1

    11{Xi>x}.

    Les proprietes de cet estimateur sont faciles a` etablir. En effet, les Yi = 11{Xi>x}sont des variables aleatoires independantes et de meme loi de Bernoulli B (P (Yi = 1)) =B (P (Xi > x)) = B (R(x)).

    La fiabilite empirique nest autre que la moyenne empirique des Yi : IRn(x) = Y n.Donc on sait que IRn(x) est un estimateur sans biais et convergent de E(Yi) = R(x) :

    E [IRn(x)] = R(x) et V ar [IRn(x)] =V ar(Yi)

    n=R(x) [1R(x)]

    n.

    On a vu que t(x) =ni=1

    xi etait une statistique exhaustive pour . Par consequent, le

    theore`me de Rao-Blackwell permet daffirmer que Z = E

    [IRn(x) |

    ni=1

    Xi

    ]est un estima-

    teur sans biais de R(x), de variance inferieure a` celle de IRn(x).

    Soit z(x, t) = E

    [IRn(x) |

    ni=1

    Xi = t

    ]

    = E

    [1

    n

    nj=1

    11{Xj>x} |ni=1

    Xi = t

    ]

    =1

    n

    nj=1

    E

    [11{Xj>x} |

    ni=1

    Xi = t

    ]

  • 26 Chapitre 3 - Estimation parametrique optimale

    = E

    [11{X1>x} |

    ni=1

    Xi = t

    ]

    car les Xi sont interchangeables, donc toutes les esperances sont egales

    = P(X1 > x |

    ni=1

    Xi = t).

    Comme les Xi sont positives, il est impossible que lon ait a` la fois X1 > x etni=1

    Xi = t

    quand t x. On fera donc le calcul sous lhypothe`se t > x et on rajoutera a` la finlindicatrice 11{t>x}. On a :

    P(X1 > x |

    ni=1

    Xi = t)

    =

    +x

    fX1 |

    ni=1

    Xi=t(u) du

    avec :

    fX1 |

    ni=1

    Xi=t(u) =

    f(X1,

    ni=1

    Xi)(u, t)

    f ni=1

    Xi(t)

    =

    f(X1,

    ni=2

    Xi)(u, t u)

    f ni=1

    Xi(t)

    Pour les memes raisons que precedemment, le numerateur est nul quand t u. Doncdans lintegrale, la borne sup est en fait t au lieu de +.

    Pour u < t, on a :

    fX1 |

    ni=1

    Xi=t(u) =

    fX1(u) f ni=2

    Xi(t u)

    f ni=1

    Xi(t)

    car X1 etni=2

    Xi sont independantes. Commeni=2

    Xi est de loi G(n 1, ), on a :

    fX1 |

    ni=1

    Xi=t(u) =

    eun1

    (n 2)! e(tu) (t u)n2

    n

    (n 1)! et tn1

    = (n 1) (t u)n2

    tn1

    Dou` :

    P(X1 > x |

    ni=1

    Xi = t)

    =

    tx

    (n 1) (t u)n2

    tn1du =

    1

    tn1[(t u)n1]t

    x

    =(t x)n1tn1

    =(

    1 xt

    )n1, avec x < t.

    Donc finalement z(x, t) =(

    1 xt

    )n111{t>x} et lestimateur recherche est :

    Z =(1 xn

    i=1

    Xi

    )n111{ni=1

    Xi>x}.

  • 3.3 Completude 27

    Autant les estimateurs Rn(x), Rn(x) et IRn(x) semblent naturels, autant celui-ci nestpas intuitif. Pourtant, cest le meilleur des 4.

    On a vu quon pouvait diminuer la variance dun estimateur sans biais, mais peut-on atteindre la variance minimale ? Pour le determiner, on doit introduire la notion destatistique comple`te.

    3.3 Completude

    Definition 8 Une statistique t est comple`te ou totale si et seulement si pour toutefonction mesurable , on a :

    E [(T )] = 0, = 0 presque partout sur le support de la loi de T, cest-a`-direpartout sauf sur un ensemble de mesure nulle.

    Exemple 1 : controle de qualite. X = (X1, . . . , Xn), ou` les Xi sont i.i.d. de loi de Bernoulli

    B(p). On sait que t(x1, . . . , xn) =ni=1

    xi est une statistique exhaustive pour p. Est-elle

    comple`te ?

    On sait que T =ni=1

    Xi est de loi binomiale B(n, p), donc :

    E [(T )] =nk=0

    (k)P (T = k) =nk=0

    (k)Ckn pk(1 p)nk.

    Il faut montrer que

    nk=0

    (k)Ckn pk(1 p)nk = 0, p [0, 1] k {0, . . . , n}, (k) = 0.

    En effet, comme le support de T est fini, doit etre nulle partout sur le support.

    Ornk=0

    (k)Ckn pk(1 p)nk = (1 p)n

    nk=0

    (k)Ckn

    (p

    1 p)k

    .

    Soit =p

    1 p . On a :

    nk=0

    (k)Ckn pk(1 p)nk = 0, p [0, 1]

    nk=0

    (k)Ckn k = 0, IR+.

    Cest un polynome de degre n en qui est identiquement nul, donc tous ses coefficientssont nuls. Par consequent, k {0, . . . , n}, (k)Ckn = 0 et donc k {0, . . . , n}, (k) =0, ce qui prouve que t(x1, . . . , xn) =

    ni=1

    xi est une statistique comple`te.

    Exemple 2 : ampoules. X = (X1, . . . , Xn), ou` les Xi sont i.i.d. de loi exponentielle exp().

    On sait que t(x1, . . . , xn) =ni=1

    xi est une statistique exhaustive pour . Est-elle comple`te ?

  • 28 Chapitre 3 - Estimation parametrique optimale

    On sait que T =ni=1

    Xi est de loi gamma G(n, ), donc :

    E [(T )] =

    +0

    (y)n

    (n 1)! ey yn1 dy.

    E [(T )] = 0, IR+ +

    0

    (y) yn1 ey dy = 0, IR+.

    Or cette integrale est la transformee de Laplace de la fonction (y) yn1 au point .Comme la transformee de Laplace est injective, la seule fonction dont la transformee soit0 est la fonction nulle.

    Donc on a y IR+, (y) yn1 = 0, dou` y IR+, (y) = 0. nest peut-etre pasnulle en 0, mais elle est nulle presque partout sur IR+, support de la loi G(n, ). Par

    consequent, t(x1, . . . , xn) =ni=1

    xi est une statistique comple`te.

    3.4 Lestimation sans biais et de variance minimale

    Les notions dexhaustivite et de completude permettent de trouver un ESBVM de a` partir dun estimateur sans biais.

    Theore`me 4 . Theore`me de Lehmann-Scheffe. Si est un estimateur sans biais de et t est une statistique exhaustive et comple`te, alors Z = E[ |T ] est lunique estimateursans biais de , de variance minimale parmi tous les estimateurs sans biais de .

    Demonstration. Dapre`s le theore`me de Rao-Blackwell, si un estimateur sans biais nestpas fonction de la statistique exhaustive T , on peut toujours trouver un autre estimateursans biais de , de variance inferieure, qui soit fonction de T : Z = E[ |T ]. Donc unESBVM est forcement fonction de T .

    Supposons quil existe 2 estimateurs sans biais fonction de T , 1(T ) et 2(T ).

    E[1(T )

    ]= E

    [2(T )

    ]= donc , E

    [1(T ) 2(T )

    ]= E

    [(1 2)(T )

    ]= 0.

    Comme t est comple`te, on en deduit que 1 2 = 0 presque partout, dou` 1 = 2presque partout. Il nexiste donc quun seul estimateur sans biais fonction de T et cetestimateur est de variance minimale.

    Corollaire 1 . Pour trouver un estimateur optimal, il suffit de trouver un estimateursans biais fonction dune statistique exhaustive et comple`te.

    Exemple 1 : controle de qualite. pn = Xn =1

    n

    ni=1

    Xi est un estimateur sans biais de p,

    fonction de la statistique exhaustive et comple`teni=1

    Xi, donc cest lESBVM de p.

  • 3.5 Information de Fisher et efficacite 29

    Cela conforte lintuition : la meilleure facon destimer la probabilite quune pie`ce soitdefectueuse, cest de prendre le pourcentage de pie`ces defectueuses dans le lot controle.

    Exemple 2 : ampoules. Lestimateur de maximum de vraisemblance de est n = n/ni=1

    Xi.

    On a vu quil etait biaise et que n = (n 1)/ni=1

    Xi etait sans biais. On a affirme en

    PMS que n etait lESBVM de , sans pouvoir le justifier. On sait maintenant que cestparce que n est un estimateur sans biais fonction de la statistique exhaustive et comple`teni=1

    Xi.

    Propriete 3 Le theore`me de Lehmann-Scheffe reste valable si on remplace par (),ou` est une fonction mesurable quelconque. Autrement dit, lESBVM de () est unestimateur sans biais de () fonction dune statistique exhaustive et comple`te.

    Dans lexemple des ampoules, on a vu que Z =(1 xn

    i=1

    Xi

    )n111{ni=1

    Xi>x}est un esti-

    mateur sans biais de R(x) = ex. Comme il est fonction de la statistique exhaustive et

    comple`teni=1

    Xi, cela signifie que Z est lESBVM de R(x). IRn(x) est aussi un estimateur

    sans biais de R(x), mais comme il nest pas fonction deni=1

    Xi, ce nest pas lESBVM.

    Theore`me 5 Dans un mode`le dechantillon ou` la loi des observations appartient a` la

    famille exponentielle, si () est bijective, alors la statistique exhaustiveni=1

    a(xi) est

    comple`te.

    Ce theore`me permet de retrouver directement queni=1

    xi est comple`te dans les exemples

    du controle de qualite et des ampoules.

    3.5 Information de Fisher et efficacite

    On a dit quune statistique exhaustive contenait autant dinformation sur que lob-servation x toute entie`re, mais on na pas defini ce quetait linformation sur un parame`tre.Il y a en fait plusieurs facons de la definir. On ne parlera ici que de linformation de Fisher,mais on pourrait aussi parler de linformation de Kullback ou de Shannon. Intuitivement,linformation mesure la capacite de lobservation a` estimer avec precision le parame`tre .

    En PMS, on a defini la quantite dinformation de Fisher dans le cas de mode`les pa-rametriques dechantillon, pour un parame`tre de dimension 1 :

    In() = V ar[

    lnL(;X1, . . . , Xn)

    ]= E

    [(

    lnL(;X1, . . . , Xn)

    )2]= E

    [2

    2lnL(;X1, . . . , Xn)

    ]

  • 30 Chapitre 3 - Estimation parametrique optimale

    Linteret principal de la quantite dinformation est quelle fournit une borne inferieurepour la variance de nimporte quel estimateur sans biais de , grace a` linegalite FDCR :pour nimporte quelle statistique T ,

    V ar(T )

    [

    E(T )

    ]2In()

    En particulier, si T est un estimateur sans biais de , alors V ar(T ) 1In() .

    Un estimateur efficace est un estimateur pour lequel linegalite FDCR est une egalite.Si un estimateur sans biais est efficace, alors il est forcement de variance minimale et savariance est egale a` la borne de Cramer-Rao 1/In().

    Dans cette section, nous allons approfondir cette notion dinformation de Fisher, encommencant par la definir pour un parame`tre de dimension d quelconque.

    3.5.1 Score et matrice dinformation

    On se place dans un mode`le parametrique (X ,A, {P ; IRd}

    ). Le parame`tre

    secrit donc =

    1...d

    .Quand on estime un parame`tre de dimension d, les notions usuelles liees a` lestimation

    secrivent sous forme vectorielle. Par exemple :

    Le vecteur aleatoire T =

    T1...Td

    est un estimateur sans biais de si E(T ) = , cequi secrit vectoriellement

    E(T1)...E(Td)

    = 1...

    d

    ou` j {1, . . . , d}, E(Tj) = j. Lerreur quadratique moyenne de lestimateur T est

    E[||T ||2] = d

    j=1

    E[(Tj j

    )2]

    Les theore`mes de Rao-Blackwell et Lehmann-Scheffe se generalisent en remplacantla notion de variance par celle derreur quadratique moyenne : on reduit lEQMen prenant lesperance conditionnelle a` une statistique exhaustive et on a lEQMminimale si cette statistique est comple`te.

    Pour pouvoir traiter a` la fois les mode`les discrets et continus, nous allons revenir a`la definition generale de la fonction de vraisemblance. Soit la mesure de reference. On

  • 3.5 Information de Fisher et efficacite 31

    rappelle que la vraisemblance L(, x) verifie :

    A A, , P (X A; ) =A

    L(;x) d(x)

    et pour toute fonction integrable :

    E [(X)] =

    X(x)L(;x) d(x).

    Pour definir les notions qui vont suivre, on a besoin de faire les hypothe`ses suivantes :

    Le support de P ne depend pas de (ce qui, par exemple, exclut la loi uniformesur [0, ]).

    , x,L(;x) > 0. lnL(;x) est derivable 2 fois par rapport a` chaque composante j de . On peut deriver 2 fois sous le signe somme par rapport a` chaque composante de :

    pour toute fonction mesurable g et tous j et k dans {1, . . . , d},

    j

    A

    g(x)L(;x) d(x) =A

    g(x)

    jL(;x) d(x)

    et2

    jk

    A

    g(x)L(;x) d(x) =A

    g(x)2

    jkL(;x) d(x).

    Sous ces hypothe`ses, on peut definir les quantites suivantes.

    Definition 9 Le score est le gradient de la log-vraisemblance :

    Z(;X) = lnL(;X) =

    Z1(;X)...Zd(;X)

    ou` j {1, . . . , d}, Zj(;X) =

    jlnL(;X).

    Le score est un vecteur aleatoire de dimension d. Quand IR, cest simplement lavariable aleatoire Z(;X) =

    lnL(;X). Lestimateur de maximum de vraisemblance

    de est la valeur de qui annule le score : Z(;X) = 0.

    Definition 10 La matrice dinformation de Fisher I() est la matrice de covariancedu score, de terme general

    Ijk() = Cov[Zj(;X);Zk(;X)

    ].

  • 32 Chapitre 3 - Estimation parametrique optimale

    Quand IR, on retrouve bien I() = V ar[Z(;X)] = V ar[

    lnL(;X)

    ].

    Propriete 4 Le score est centre : E[Z(;X)] = 0.

    Demonstration. j {1, . . . , d},

    E[Zj(;X)] = E

    [

    jlnL(;X)

    ]=

    X

    jlnL(;x)L(;x) d(x)

    =

    X

    jL(;x)L(;x) L(;x) d(x) =

    X

    jL(;x) d(x)

    =

    j

    XL(;x) d(x) dapre`s les hypothe`ses effectuees

    =

    jP (X X ) =

    j1 = 0

    On en deduit que :

    Ijk() = Cov[Zj(;X);Zk(;X)

    ]= E

    [Zj(;X)Zk(;X)

    ] E[Zj(;X)]E[Zk(;X)]= E

    [Zj(;X)Zk(;X)

    ]= E

    [

    jlnL(;X)

    klnL(;X)

    ]

    Pour IR, on retrouve que I() = E[(

    lnL(;X)

    )2].

    De la meme manie`re, on montre que Ijk() = E[

    2

    jklnL(;X)

    ].

    Propriete 5 Pour les mode`les dechantillon de taille n, la matrice dinformation estnotee In() et verifie In() = nI1().

    Cette propriete traduit lidee naturelle que, dans un echantillon, chaque observationporte la meme quantite dinformation sur , et que la quantite dinformation est additive.La demonstration de ce resultat est similaire a` celle effectuee en PMS p. 43.

    3.5.2 Information et exhaustivite

    Definition 11 La quantite dinformation dune statistique t, It(), est la quantitedinformation du mode`le image par t.

    Si on resume les donnees x par une statistique t(x), on a dit quon sattendait a` perdrede linformation, sauf si la statistique est exhaustive. Cest exactement ce qui se passe etqui se traduit de la facon suivante. On presente le resultat pour IR pour simplifier.

    Propriete 6 .Degradation de linformation : pour toute statistique t, It() I().Information et exhaustivite : It() = I() t est exhaustive.

  • 3.5 Information de Fisher et efficacite 33

    3.5.3 Borne de Cramer-Rao et efficacite

    Linegalite FDCR vue plus haut pour IR sexprime en fait pour de dimensionquelconque.

    Theore`me 6 . Inegalite de Frechet-Darmois-Cramer-Rao (FDCR). On conside`reun mode`le parametrique (X ,A,{P ; IRd}) verifiant les hypothe`ses de cette sec-tion et tel que la matrice dinformation I() soit inversible.

    Soit t une statistique a` valeurs dans IRq, T la matrice de covariance de T et la

    matrice de terme general ij =

    jE(Ti), 1 i q, 1 j d.

    Alors IRd, la matrice T I1() t est semi-definie positive.

    Rappel : La matrice M est semi-definie positive si et seulement si x 6= 0, txMx 0.

    Quand d = q = 1, T = V ar(T ) et =

    E(T ). Alors on obtient :

    V ar(T )

    [

    E(T )

    ]2I() 0.

    Cest bien le resultat attendu.

    Demonstration. Demontrons le theore`me pour d = q = 1. On a :

    Cov[T ;Z(;X)

    ]= E

    [TZ(;X)

    ] E[T ]E[Z(;X)]= E

    [TZ(;X)

    ]car le score est centre

    = E

    [T

    lnL(;X)

    ]=

    Xt(x)

    lnL(;x)L(;x) d(x)

    =

    Xt(x)

    L(;x) d(x) =

    Xt(x)L(;x) d(x)

    =

    E(T ).

    Linegalite de Cauchy-Schwarz permet decrire :

    Cov[T ;Z(;X)

    ]2 V ar(T )V ar[Z(;X)]Dou` :

    V ar(T ) Cov[T ;Z(;X)

    ]2V ar

    [Z(;X)

    ] =[

    E(T )

    ]2I() .

    Quand IRd, linegalite FDCR appliquee aux termes diagonaux de T permetdobtenir une borne inferieure pour la variance de chaque composante de T :

  • 34 Chapitre 3 - Estimation parametrique optimale

    Propriete 7 i {1, . . . , q}, on a :

    V ar(Ti) dj=1

    dk=1

    I1jk ()E(Ti)

    j

    E(Ti)

    k.

    En particulier, si T est un estimateur sans biais de , on a pour tout i, E(Ti) = i. DoncE(Ti)

    j= ij =

    {1 si i = j0 sinon

    , dou` V ar(Ti) I1ii (), qui est la borne de Cramer-Rao.

    Lestimateur T est efficace si linegalite FDCR est une egalite.

    Definition 12 Un estimateur sans biais T est efficace si et seulement si T = I1().Alors, pour tout i, V ar(Ti) = I1ii ().

    Le dernier theore`me de ce chapitre donne une condition dexistence dun estimateurefficace dans les mode`les dechantillon, liee a` la famille exponentielle.

    Theore`me 7 Dans un mode`le dechantillon (X ,A,{P ; IRd})n, la borne de Cra-mer-Rao ne peut etre atteinte que si P appartient a` la famille exponentielle. La vraisem-blance secrit :

    L(;x1, . . . , xn) = e

    ni=1

    dj=1

    aj(xi)j() +ni=1

    b(xi) + n()

    Alors, a` une transformation lineaire pre`s, la seule fonction de qui peut etre estimeeefficacement est h() = A1()(), ou` A() est la matrice de terme generiqueAij() =

    i()

    j.

    Quand IR, on a simplement h() = ()()

    . On montre alors en plus que lestima-

    teur efficace de h() est T =1

    n

    ni=1

    a(Xi) et la variance minimale est V ar(T ) =h()n()

    .

    Exemple des ampoules : echantillon de la loi exp().

    fX(x;) = ex = ex+ ln.

    La loi exponentielle appartient a` la famille exponentielle avec d = 1, a(x) = x, () =, b(x) = 0 et () = ln.

    Alors h() = ()()

    = 1/1 =1

    . Donc on peut estimer efficacement 1/ mais pas

    . Cest bien ce quon avait vu : n = (n 1)/ni=1

    Xi est lESBVM de , mais il nest pas

    efficace.

  • 3.5 Information de Fisher et efficacite 35

    Lestimateur efficace de h() =1

    est

    1

    n

    ni=1

    a(Xi) = Xn et la variance minimale est

    V ar(Xn) =h()n()

    =1/2n(1) =

    1

    n2.

    Cest logique car1

    = E(X),

    1

    2= V ar(X), E(Xn) = E(X) et V ar(Xn) =

    V ar(X)

    n.

  • 36 Chapitre 3 - Estimation parametrique optimale

  • Chapitre 4

    Maximum de vraisemblance etestimation bayesienne

    4.1 Introduction

    On se place dans ce chapitre dans un mode`le parametrique (X ,A,{P ; IRd}).Le chapitre precedent sest interesse a` la qualite des estimateurs de dans ces mode`les :variance minimale et efficacite. Mais au prealable, il faut disposer de methodes permettantdobtenir de tels estimateurs. On a vu en PMS la methode des moments et la methodedu maximum de vraisemblance. Il existe de tre`s nombreuses autres methodes destima-tion. Nous verrons dans ce chapitre une troisie`me methode, de plus en plus populaire,lestimation bayesienne. Mais dabord nous allons approfondir les proprietes des estima-teurs de maximum de vraisemblance, en nous interessant a` leurs proprietes asymptotiques.Les resultats etablis permettront en particulier de construire des intervalles de confianceasymptotiques pour les parame`tres du mode`le sous-jacent.

    4.2 Proprietes asymptotiques de lestimateur de maxi-

    mum de vraisemblance

    Rappelons que si la fonction de vraisemblance L(;x) admet un maximum unique aupoint (x), alors lapplication x 7 (x) est appelee statistique de maximum de vraisem-blance et (X) est lestimateur de maximum de vraisemblance (EMV) de . Dans la suite,on notera plus simplement cet estimateur. On a donc :

    = arg maxL(;X).

    Comme dhabitude, on prefe`rera maximiser le logarithme de la vraisemblance :

    = arg max

    lnL(;X).

    Dans la plupart des cas, on maximisera la log-vraisemblance en annulant sa deriveepar rapport a` chaque composante de . Mais on a vu (voir le cas de la loi uniforme)que cette methode ne fonctionnait pas toujours. Nous allons nous placer dans ce chapitredans le cas ou` cette methode va fonctionner. Il faut pour cela faire les memes hypothe`ses

  • 38 Chapitre 4 - Maximum de vraisemblance et estimation bayesienne

    (derivabilite, integration,...) que celles qui ont ete introduites dans la section 3.5.1 pourdefinir la matrice dinformation. Dans ces conditions, lEMV est solution du syste`medes equations de vraisemblance :

    j {1, . . . , d}, j

    lnL(;X) = 0.

    Mais comme le score est defini par Z(;X) = lnL(;X), est finalement la valeurde qui annule le score :

    Z(;X) = 0.

    Nous allons maintenant enoncer les proprietes asymptotiques de lEMV, vues en PMSpour IR, pour un parame`tre de dimension d quelconque. Nous nous interessons iciuniquement aux mode`les dechantillon, mais il existe des resultats analogues pour denombreux autres mode`les. Pour un echantillon de taille n, lEMV sera note n, le scoreZn(;X) et la matrice dinformation In().

    Theore`me 8 Dans un mode`le parametrique dechantillon (X ,A,{P ; IRd})nverifiant les hypothe`ses annoncees, on a :

    n (n ) L Nd

    (0, I11 ()

    )ou` I1() est la matrice dinformation de Fisher pour un echantillon de taille 1 et Nd estla loi normale dans IRd.

    Interpretation : Comme E[n] tend vers , lEMV est asymptotiquement sans biais.Comme la matrice de covariance de n est asymptotiquement equivalente a` la borne deCramer-Rao [nI1]1() = I1n (), lEMV est asymptotiquement efficace. Enfin, lEMV estasymptotiquement gaussien. De plus, la vitesse de convergence de n vers est 1/

    n, ce

    qui signifie que la variance de chaque composante de n tend vers 0 comme 1/n. Il save`reque la plupart des autres estimateurs convergent moins vite. Par ailleurs, n convergeegalement presque surement vers .

    Demonstration : Nous allons montrer le resultat pour un parame`tre reel (d = 1). Alorsla quantite dinformation est simplement un reel In(), et comme on est dans un mode`ledechantillon, In() = nI1().

    Par commodite decriture, on suppose que la loi sous-jacente est continue, de densite

    f . Alors la vraisemblance secrit L(;x) = L(;x1, . . . , xn) =ni=1

    f(xi; ) et le score est :

    Zn(;X) =

    lnL(;X) =

    ni=1

    ln f(Xi; ).

    On a deja` vu que E [Zn(;X)] = 0 et :

    In() = V ar [Zn(;X)] = E[2

    2lnL(;X)

    ]= E

    [

    Zn(;X)

    ].

    En particulier, I1() = V ar[

    ln f(X1; )

    ]= E

    [2

    2ln f(X1; )

    ].

  • 4.2 Proprietes asymptotiques de lestimateur de maximum de vraisemblance39

    Les variables aleatoires

    ln f(Xi; ) sont independantes, de meme loi, centrees et de

    variance I1().Pour eviter des confusions decriture, on va noter dans la suite 0 la vraie valeur du

    parame`tre .

    Le theore`me des accroissements finis permet decrire quil existe un n dans]min(n, 0),

    max(n, 0)[

    tel que :

    Zn(n;X) = Zn(0;X) + (n 0)

    Zn(;X)n .Or Zn(n;X) = 0. Multiplions par 1/

    n.

    1nZn(0;X) +

    1n

    (n 0)

    Zn(;X)n = 0ou

    1nZn(0;X) +

    n (n 0)

    1

    nZn(;X)n = 0.

    Or :

    1

    nZn(;X)n = 1n Zn(;X)n 1n Zn(;X)0+ 1n Zn(;X)0+I1(0)I1(0).

    On pose :

    An =

    1

    nZn(;X)0 + I1(0)

    =1

    n

    ni=1

    2

    2ln f(Xi; )0 E

    [2

    2ln f(X1; )

    ]0 .Comme les Xi sont independantes et de meme loi, la loi des grands nombres permet

    daffirmer que :

    1

    n

    ni=1

    2

    2ln f(Xi; )0 PS E

    [2

    2ln f(X1; )

    ]0donc An

    PS 0. On pose :

    Bn =

    1

    nZn(;X)n 1n Zn(;X)0 .

    Puisque nPS 0 et n

    ]min(n, 0),max(n, 0)

    [, on a forcement n

    PS 0, doncBn

    PS 0.

    Dou`1nZn(0;X) +

    n (n 0) [Bn + An I1(0)] = 0, avec An PS 0 et Bn PS

    0.

  • 40 Chapitre 4 - Maximum de vraisemblance et estimation bayesienne

    De plus, le theore`me central-limite applique aux

    ln f(Xi; ) secrit :

    ni=1

    ln f(Xi; ) 0nI1()

    =Zn(;X)nI1()

    L N (0, 1).

    Finalement,n (n 0) =

    1nZn(0;X)

    I1(0)Bn An a meme limite en loi queZn(0;X)nI1(0)

    =Zn(0;X)I1(0)nI1(0) , cest-a`-dire la loi N

    (0,

    1

    I1(0))

    , dou` le resultat.

    Si au lieu destimer directement , on veut estimer une fonction de , on sait que (n)est lestimateur de maximum de vraisemblance de (). Les proprietes de cet estimateursont donnees par le theore`me suivant. Il porte le nom de methode delta car ce resultatfournit une methode pour construire des intervalles de confiance asymptotiques.

    Theore`me 9 . Methode delta. Si est une fonction de IRd dans IRq derivable parrapport a` chaque composante de , on a :

    n[(n) ()

    ] L Nq (0,()I11 ()t())ou` () est la matrice de terme general ij() =

    ji(), 1 i q, 1 j d.

    Demonstration pour d = q = 1. Dans ce cas, () = (), donc le resultat secrit :

    n[(n) ()

    ] L N (0, ()2I1())

    On le montre facilement a` laide du theore`me des accroissements finis. Il existe n dans]min(n, ),max(n, )

    [tel que :

    (n) = () + (n )(n).

    Doncn[(n) ()

    ]=n(n )(n). Comme

    n(n ) L N

    (0,

    1

    I1())

    et (n) (), on a bien le resultat ci-dessus. Exemple des ampoules. X1, . . . , Xn sont independantes et de meme loi exp(). Linforma-tion de Fisher est :

    I1() = V ar[

    ln f(X;)

    ]= V ar

    [

    lneX

    ]= V ar

    [

    (ln X)

    ]= V ar

    [1

    X

    ]= V ar(X) =

    1

    2

  • 4.3 Intervalles de confiance asymptotiques 41

    LEMV de est n =1

    Xn=

    nni=1

    Xi

    . Le resultat asymptotique sur lEMV secrit :

    n(n ) L N

    (0, I11 ()

    )= N (0, 2).

    Donc V ar(nn) = nV ar(n) tend vers

    2, dou` V ar(n) 2/n quand n tend verslinfini. Or en PMS, on a vu que V ar(n) =

    n22

    (n 1)2(n 2), qui est bien equivalent a`2/n.

    LEMV de R(x) = () = ex est Rn(x) = enx. On a vu quon ne pouvait pascalculer son biais et sa variance pour n fini. Mais la methode delta montre que Rn(x) estasymptotiquement sans biais et que sa variance asymptotique est :

    V aras

    (Rn(x)

    )=()2

    nI1() =x2e2x

    n/2=2x2

    ne2x.

    4.3 Intervalles de confiance asymptotiques

    On a vu en PMS que la meilleure facon de determiner un intervalle de confiance pourun parame`tre reel dun mode`le parametrique, est de trouver une fonction pivotale, fonctiondes observations et du parame`tre, dont la loi de probabilite ne depend pas du parame`tre.Mais il nest pas forcement facile de trouver une telle fonction. Nous allons voir dans cettesection que les proprietes asymptotiques de lestimateur de maximum de vraisemblancepermettent de determiner assez facilement des intervalles de confiance asymptotiques pourdes fonctions presque quelconques des parame`tres.

    Si IR, un intervalle de confiance (exact) de seuil pour est un intervalle aleatoire[Y, Z] qui a une probabilite 1 de contenir . Comme on se place dans le cadre demode`les dechantillon de taille n, on notera [Yn, Zn] lintervalle de confiance. On a doncP ( [Yn, Zn]) = 1 .

    Definition 13 [Yn, Zn] est un intervalle de confiance asymptotique de seuil pour siet seulement si :

    limn+

    P ( [Yn, Zn]) = 1 .

    Dans la pratique, si on sait calculer un intervalle de confiance exact, on na pas besoinde calculer un intervalle de confiance asymptotique. Mais quand on ne sait pas calculerun intervalle de confiance exact, on utilise un intervalle de confiance asymptotique : si nest suffisamment grand, P ( [Yn, Zn]) ne devrait pas etre trop eloigne de 1 .

    4.3.1 Cas dun parame`tre reel

    Si IR, I1() est un reel et le resultat asymptotique sur lEMV secrit :n (n

    )L N

    (0,

    1

    I1())

    ounI1() (n ) L N (0, 1).

  • 42 Chapitre 4 - Maximum de vraisemblance et estimation bayesienne

    Le termenI1() (n ) est une fonction pivotale asymptotique : fonction de et

    des observations (par lintermediaire de n), dont la loi asymptotique ne depend pas de .Dapre`s les proprietes usuelles de la loi N (0, 1), on a donc :

    limn+

    P(u

    nI1() (n ) +u

    )= 1

    = limn+

    P

    (n u

    nI1() n + u

    nI1()

    ).

    Donc

    [n u

    nI1(), n +

    unI1()

    ]est un intervalle de confiance asymptotique de

    seuil pour . Mais cet intervalle est inutilisable a` cause du terme I1() qui est inconnu.Lidee naturelle est de le remplacer par I1(n). Pour savoir quel est limpact de cettetransformation, il faut utiliser le resultat suivant.

    Theore`me 10 .Theore`me de Slutsky. Soit {Un}n1 une suite de variables aleatoiresconvergeant en loi et {Vn}n1 une suite de variables aleatoires convergeant en probabilitevers une constante c. Alors pour toute fonction continue g, la suite {g(Un, Vn)}n1 a memelimite en loi que la suite {g(Un, c)}n1.

    Ici, on pose Un =n (n ) L N

    (0,

    1

    I1())

    .

    On sait que nPS , donc

    I1(n) PS

    I1(). Comme la convergence presque sureentrane la convergence en probabilite, on a egalement

    I1(n) P

    I1().Soit g(u, v) = uv, Vn =

    I1(n) et c =

    I1(). Le theore`me de Slutsky per-met decrire que g(Un, Vn) =

    nI1(n) (n ) a meme limite en loi que g(Un, c) =

    nI1() (n ), doncnI1(n) (n ) L N (0, 1).

    Alors, en appliquant la meme demarche que precedemment, on obtient la proprietesuivante.

    Propriete 8 Un intervalle de confiance asymptotique de seuil pour est :n unI1(n)

    , n +unI1(n)

    .Exemple 1 : controle de qualite. X1, . . . , Xn sont independantes et de meme loi B(p). On avu en PMS que In(p) = nI1(p) = n

    p(1 p) . Donc un intervalle de confiance asymptotiquede seuil pour p est :[

    pn upn(1 pn)

    n, pn + u

    pn(1 pn)

    n

    ].

  • 4.3 Intervalles de confiance asymptotiques 43

    Ce resultat avait ete obtenu en PMS (propriete 9) par une methode bien differente.

    Exemple 2 : ampoules. X1, . . . , Xn sont independantes et de meme loi exp(). In() =nI1() = n

    2. Donc un intervalle de confiance asymptotique de seuil pour est :

    [n u n

    n, n + u

    nn

    ]=

    [n

    (1 u

    n

    ), n

    (1 +

    un

    )].

    Rappelons que lintervalle de confiance exact est :[n

    z2n,1/22n

    , nz2n,/2

    2n

    ].

    Pour n grand, les deux intervalles de confiance sont equivalents.

    Interessons-nous maintenant a` des intervalles de confiance asymptotiques pour unefonction () du parame`tre , ou` IR et est continue et derivable. Le resultat de lamethode delta secrit :

    n[(n) ()

    ] L N (0, ()2I1())

    ou : nI1()|()|

    [(n) ()

    ] L N (0, 1).On peut encore appliquer le theore`me de Slutsky et on obtient le resultat suivant.

    Propriete 9 Un intervalle de confiance asymptotique de seuil pour () est :(n) u |(n)|nI1(n)

    , (n) + u|(n)|nI1(n)

    .

    Exemple des ampoules.X1, . . . , Xn sont independantes et de meme loi exp(). Lestimateur

    de maximum de vraisemblance de R(x) = () = ex est enx. On a vu que

    ()2

    nI1() =2x2

    ne2x.

    Donc un intervalle de confiance asymptotique de seuil pour R(x) est :[enx u nx

    nenx, enx + u

    nxnenx

    ].

  • 44 Chapitre 4 - Maximum de vraisemblance et estimation bayesienne

    4.3.2 Cas dun parame`tre vectoriel

    Si IRd, on a : n (n ) L Nd

    (0, I11 ()

    ).

    I1() est une matrice symetrique definie positive, donc on peut en prendre la racinecarree et ecrire :

    n I1/21 () (n ) L Nd (0, Id) .ou` Id est la matrice identite.

    Sous des conditions de regularite (continuite des composantes de I1() par rapporta` chaque composante de ), on peut appliquer une version vectorielle du theore`me deSlutsky et on obtient :

    n I1/21 (n) (n ) L Nd (0, Id) .

    De meme, le resultat de la methode delta secrit :

    n[(n) ()

    ] L Nq (0,()I11 ()t())ou :

    n[()I11 ()t()

    ]1/2 [(n) ()

    ] L Nq (0, Id) .Sous des conditions de regularite, on a alors :

    n[(n)I11 (n)t(n)

    ]1/2 [(n) ()

    ] L Nq (0, Id)ce qui permet de donner des intervalles de confiance asymptotiques pour chaque compo-sante de ().

    4.4 Estimation bayesienne

    4.4.1 Principe de la methode

    La philosophie de la methode destimation bayesienne est tre`s differente de cellesdes methodes vues jusque la`. Dans les methodes du maximum de vraisemblance ou desmoments, le parame`tre est inconnu mais constant, deterministe. Lestimation est meneeen considerant quon ignore tout de , mis a` part son ensemble de definition.

    Or parfois, on dispose dune connaissance partielle sur . Cette information, dite apriori, peut provenir dexperiences similaires effectuees auparavant ou davis dexpertsdu phenome`ne etudie qui peuvent anticiper le resultat de lexperience. Le principe delestimation bayesienne est de considerer que le parame`tre est en fait la realisationdune variable aleatoire, et dintegrer dans sa loi de probabilite toutes les informations apriori dont on dispose sur lui.

    Soit T la variable aleatoire dont est une realisation. La loi de probabilite de T estappelee loi a priori. En general, cette loi est supposee continue et admettre une densitefT () (quon note aussi usuellement pi()).

  • 4.4 Estimation bayesienne 45

    Les donnees observees x vont maintenant etre considerees comme etant issues de laloi conditionnelle de X sachant [T = ]. Cela signifie que la fonction de vraisemblancesecrit :

    L(;x) =

    P (X = x|T = ) si le mode`le est discret

    fX|T=(x) si le mode`le est continu

    La loi de X, appelee loi marginale, est alors obtenue de la facon suivante :

    Mode`le discret : P (X = x) = P (X = x|T = ) fT () d Mode`le continu : fX(x) =

    fX|T=(x) fT () d

    On peut resumer les deux cas en un seul en disant que la vraisemblance marginaleou vraisemblance predictive est :

    L(x) =L(;x) fT () d.

    Estimer dans ce contexte va consister a` enrichir la priori sur (exprime par fT ())a` laide de linformation apportee par lobservation x. On est alors amenes a` sinteresser a`la loi conditionnelle de T sachant [X = x], appelee loi a posteriori. Les caracteristiquesde cette loi sont determinees grace a` la formule de Bayes :

    P (B|A) = P (B A)P (A)

    =P (A|B)P (B)

    P (A)

    dou` le nom destimation bayesienne.

    La loi a posteriori est determinee par sa densite :

    Mode`le discret : fT |X=x() = P (X = x|T = )fT ()P (X = x)

    =P (X = x|T = )fT ()P (X = x|T = u) fT (u) du .

    Mode`le continu : fT |X=x() =fX|T=(x) fT ()

    fX(x)=

    fX|T=(x) fT ()fX|T=u(x) fT (u) du

    .

    On resume les deux cas en un seul en disant que la densite a posteriori ou vrai-semblance a posteriori est :

    fT |X=x() =L(;x) fT () L(u;x) fT (u) du = L(;x) fT ()L(x) .

    La loi a posteriori prend en compte a` la fois linformation a priori et celle fourniepar les donnees. On lutilise donc pour estimer . On peut prendre comme estimateur lamediane ou le mode de la loi a posteriori, mais la facon la plus courante de proceder estde prendre lesperance de la loi a posteriori :

    B = E[T |X].Pour IR, lestimation bayesienne correspondante est donc :

    E[T |X = x] = fT |X=x() d =

    L(;x) fT () d L(;x) fT () d .

  • 46 Chapitre 4 - Maximum de vraisemblance et estimation bayesienne

    Elle necessite donc le calcul de deux integrales. Cest evidemment un avantage si onpeut les calculer explicitement. Ce sera le cas si les lois a priori et a posteriori appartiennenta` la meme famille. On dit alors que ce sont des lois conjuguees. Mais une loi a priori quirefle`te de facon realiste linformation a priori sur naura pas forcement ces proprietes.Dans ce cas, les integrales nont pas dexpression explicite. Pour les calculer, on utilise alorsdes methodes de simulation de Monte-Carlo (methodes MCMC). Lestimation bayesienneest alors couteuse en temps de calcul. Les algorithmes de calcul les plus connus sont lesechantillonneurs de Gibbs et dHastings-Metropolis.

    Les parame`tres de la loi a priori sont appeles les hyperparame`tres. Ils sont determinespar la connaissance a priori que lon a sur , donc ce sont normalement des quantitesconnues. Mais on peut pousser la logique bayesienne un cran plus loin en considerantque ces hyperparame`tres sont inconnus. On peut alors les estimer en maximisant la vrai-semblance marginale. Lestimateur bayesien obtenu avec la loi a priori estimee est alorsappele estimateur bayesien empirique.

    Puisque lon connat la loi a posteriori de T sachant [X = x], on est capables decalculer des intervalles [y, z] tels que P (y T z|X = x) = 1 . [y, z] fournit unencadrement du parame`tre avec un certain niveau de confiance. Le concept est prochede celui dintervalle de confiance, mais il est different. De tels intervalles sont appelesintervalles de credibilite. On peut les utiliser pour mesurer la precision de lestimationbayesienne de .

    Dans la densite a posteriori

    fT |X=x() =L(;x) fT () L(u;x) fT (u) du,

    on constate que lon peut multiplier fT () par une constante sans changer le resultat.Aussi on peut sautoriser a` prendre pour fT () une fonction qui nest pas forcementune densite de probabilite. On a alors ce quon appelle des lois a priori impropres. Bienque surprenante, cette demarche permet daboutir a` des estimateurs bayesiens simples etcoherents.

    4.4.2 Exemple du controle de qualite

    Les donnees sont des variables aleatoires X1, . . . , Xn independantes et de meme loi deBernoulli B(p). Xi vaut 1 si la ie`me pie`ce est defectueuse et 0 sinon.

    On cherche a` estimer la proportion p de pie`ces defectueuses. Il est naturel de sattendrea` ce que cette proportion soit faible si la machine est de bonne qualite. Il est egalementpossible que des experts soient capables de donner un ordre de grandeur de cette propor-tion. Pour tenir compte de cette information, il faut choisir une loi a priori pour p dontle support est [0, 1], et qui soit concentree sur les petites valeurs. Cest le cas par exemplede certaines lois beta.

    On va donc supposer que la loi a priori pour p est la loi beta de premie`re espe`ce 1(a, b)dont la densite est :

    fP (p) =1

    (a, b)pa1(1 p)b1 11[0,1](p)

    ou` (a, b) =(a)(b)

    (a+ b).

  • 4.4 Estimation bayesienne 47

    Lesperance et la variance de cette loi sont :

    E(P ) =a

    a+ bet V ar(P ) =

    ab

    (a+ b)2(a+ b+ 1).

    La connaissance a priori sur p peut se traduire par une valeur moyenne et une varia-bilite, qui permettent de donner des valeurs aux hyperparame`tres a et b.

    La vraisemblance habituelle est maintenant consideree comme la densite (par rapporta` la mesure de denombrement) de X sachant [P = p]. Autrement dit :

    L(p;x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn|P = p) = pni=1

    xi(1 p)n

    ni=1

    xi.

    La vraisemblance marginale est :

    L(x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn)=

    P (X1 = x1, . . . , Xn = xn|P = p) fP (p)dp

    =

    10

    p

    ni=1

    xi(1 p)n

    ni=1

    xi 1

    (a, b)pa1(1 p)b1 dp

    =1

    (a, b)

    10

    p

    ni=1

    xi+a1(1 p)n

    ni=1

    xi+b1dp

    =

    (ni=1

    xi + a, nni=1

    xi + b

    )(a, b)

    10

    p

    ni=1

    xi+a1(1 p)n

    ni=1

    xi+b1

    (ni=1

    xi + a, nni=1

    xi + b

    ) dp

    =

    (ni=1

    xi + a, nni=1

    xi + b

    )(a, b)

    10

    f1(

    ni=1

    xi+a,nni=1

    xi+b)(p) dp

    =

    (ni=1

    xi + a, nni=1

    xi + b

    )(a, b)

    La loi a posteriori est determinee par sa densite :

    fP |X1=x1,...,Xn=xn(p) =P (X1 = x1, . . . , Xn = xn|P = p)fP (p)

    P (X1 = x1, . . . , Xn = xn)

    =(a, b)

    (ni=1

    xi + a, nni=1

    xi + b

    ) 1(a, b)

    p

    ni=1

    xi+a1(1 p)n

    ni=1

    xi+b1

    =1

    (ni=1

    xi + a, nni=1

    xi + b

    ) p ni=1xi+a1(1 p)n ni=1xi+b1 pour p [0, 1].

    On reconnat la densite de la loi 1(ni=1

    xi + a, nni=1

    xi + b). Lestimateur bayesien est

  • 48 Chapitre 4 - Maximum de vraisemblance et estimation bayesienne

    lesperance de cette loi, dou` finalement :

    pB =

    ni=1

    Xi + a

    ni=1

    Xi + a+ nni=1

    Xi + b=

    ni=1

    Xi + a

    n+ a+ b.

    Rappelons que lestimateur de maximum de vraisemblance usuel est :

    pn = Xn =1

    n

    ni=1

    Xi.

    On constate que les 2 estimateurs sont equivalents quand on a beaucoup de donnees.Quand on a peu de donnees, la difference peut etre importante et depend du choix de lapriori. Cest logique : cest precisement quand on a peu de donnees quil est interessantde compenser ce manque par de linformation a priori. A la limite, si on na pas du toutde donnees (n = 0), on peut quand meme estimer p. En effet, dans ce cas lestimateur

    bayesien est pB =a

    a+ b. Cest lesperance de la loi a priori. Cest logique puisquen

    labsence de donnees, la seule base pour faire une estimation est linformation a priori.Plus on a dobservations, plus le poids de linformation a priori diminue. La subtilite delestimation bayesienne est dans le dosage entre les poids respectifs des observations et delinformation a priori.

    Lignorance comple`te sur p consiste a` prendre comme loi a priori la loi uniforme sur[0, 1], qui nest autre que la loi 1(1, 1). Alors lestimateur bayesien est ;

    pB =

    ni=1

    Xi + 1

    n+ 2,

    qui est tre`s proche de lEMV.On constate que les lois a priori et a posteriori sont toutes les deux des lois beta.

    Cest ce quon a appele des lois conjuguees. Cest cette propriete qui permet davoir desestimateurs bayesiens explicites.

  • Chapitre 5

    Tests dhypothe`ses optimaux

    5.1 Introduction

    Les principes generaux des tests dhypothe`ses ont ete introduits dans le cours de PMS.Rappelons les rapidement.

    Un test dhypothe`ses a pour but de trancher, au vu dobservations, entre une hy-pothe`se nulle H0, et une hypothe`se alternative H1.

    Le seuil du test est la probabilite maximale de lerreur de premie`re espe`ce, erreurqui consiste a` rejeter H0 a` tort (conclure H1 alors que H0 est vraie). La valeur de est fixee par lutilisateur en fonction de la gravite des consequences de lerreur depremie`re espe`ce.

    La puissance est liee a` la probabilite de rejeter H0 a` raison. Sa definition dependde la nature du test (test dhypothe`ses simples ou dhypothe`ses composites).

    La region critique W est lensemble des valeurs des observations pour lesquelles onrejettera H0.

    En PMS, on a determine les regions critiques essentiellement a` laide du bon sens ou delintuition, ou en utilisant la dualite entre tests dhypothe`ses et intervalles de confiance.Nous allons donner dans ce chapitre un procede systematique de construction de testsdhypothe`ses parametriques.

    Comme on ne peut pas minimiser les deux risques derreur en meme temps, on a choiside privilegier lerreur de premie`re espe`ce, cest-a`-dire de construire des tests en fixant leseuil . A fixe, le meilleur des tests possibles est celui qui minimisera la probabilite delerreur de deuxie`me espe`ce, ou maximisera la puissance. Nous donnerons dans ce chapitreles moyens de determiner des tests optimaux.

    Mais pour commencer, nous allons proposer une definition plus formelle des testsdhypothe`ses, qui va permettre delargir le cadre vu en PMS.

    5.2 Definitions

    On se place dans un mode`le statistique (X ,A,P). Lobservation x est la realisationdun element aleatoire X de loi P P . Les hypothe`ses que lon peut effectuer sur cette

  • 50 Chapitre 5 - Tests dhypothe`ses optimaux

    observation portent sur la nature de la loi P .Donc on peut ecrire que les hypothe`ses dun test sont de la forme H0 : P P0 et

    H1 : P P1, ou` P0 et P1 sont des parties de P . Au vu de x, on doit decider sil estplus raisonnable de considerer que P P0 ou que P P1.

    Definition 14 Un test dhypothe`ses de H0 : P P0 contre H1 : P P1 est unestatistique

    : X [0, 1]x 7 (x) = probabilite de rejeter H0 au profit de H1 quand lobservation est x.

    Definition 15 Un test dhypothe`ses est deterministe si et seulement si est une indi-catrice : (x) = 11W (x). Autrement dit, on rejettera H0 si x W et on ne rejettera pasH0 si x / W .

    On voit que lon retrouve ici la notion de region critique. Tous les tests vus enPMS sont deterministes. Mais la definition proposee ici est plus large : un test nest pasforcement une indicatrice, donc on peut imaginer des tests pour lesquels la valeur delobservation x ne permet pas immediatement de trancher entre H0 et H1. On va voirquil est indispensable de definir un test de cette facon si on veut etre capables de traiterloptimalite des tests.

    Une hypothe`se est simple si elle est reduite a` un singleton : P = P0. Une hypothe`seest composite ou multiple quand elle nest pas simple : P P0 ou` P0 nest pas reduita` un singleton.

    5.3 Tests dhypothe`ses simples

    Un test dhypothe`ses simples est un test dans lequel H0 et H1 sont simples. Cestdonc un test de H0 : P = P0 contre H1 : P = P1.

    Definition 16 Le seuil du test est = EP0 [(X)] et la puissance du test est =EP1 [(X)].

    Explication : Le seuil du test est la probabilite de rejeter a` tort H0, cest-a`-dire la proba-bilite de decider que la loi de X est P1 alors quen fait la loi de X est P0. Or on a definile test de sorte que (x) soit la probabilite de rejeter H0 quand lobservation est x. Pourobtenir , il faut donc considerer (x) pour toutes les valeurs possibles