Statistique Bayésienne Notes de cours - crest.fr .Statistique Bayésienne Notes de cours JudithRousseau1

  • View
    215

  • Download
    0

Embed Size (px)

Text of Statistique Bayésienne Notes de cours - crest.fr .Statistique Bayésienne Notes de cours...

  • Troisime anne2009 2010

    Statistique BaysienneNotes de cours

    Judith Rousseau 1rousseau@ceremade.dauphine.fr

    1. Ce support de cours a t rdig par Mathias Andr et Alexis Eidelman, lves en 2008 2009 puis relu et corrig par Julyan Arbel, correspondant de statistiques. Il sappuie notammentsur louvrage de rfrence de la statistique baysienne, disponible dans toute bonne bibliothque :Le Choix Baysien - Principes et pratique de Christian P. Robert [2].

    mailto:rousseau@ceremade.dauphine.fr

  • Table des matires

    1 Introduction : Les principes baysiens 11.1 Linfrence baysienne . . . . . . . . . . . . . . . . . . . . . . 11.2 Extension aux lois impropres . . . . . . . . . . . . . . . . . . 21.3 Extension aux modles non domins . . . . . . . . . . . . . . 4

    2 Une introduction la thorie de la dcision 52.1 Fonction de perte et risque . . . . . . . . . . . . . . . . . . . . 52.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Fonction de perte intrinsque . . . . . . . . . . . . . . . . . . 82.4 Admissibilit et minimaxit . . . . . . . . . . . . . . . . . . . 11

    2.4.1 Admissibilit . . . . . . . . . . . . . . . . . . . . . . . 112.4.2 Minimaxit . . . . . . . . . . . . . . . . . . . . . . . . 13

    3 Estimation ponctuelle 153.1 Estimateur du maximum a posteriori . . . . . . . . . . . . . . 153.2 Importance de la statistique exhaustive . . . . . . . . . . . . . 163.3 Prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.4 Modle Gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 173.5 Mesure derreur . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    4 Tests et rgions de confiance 214.1 Rgion de confiance . . . . . . . . . . . . . . . . . . . . . . . . 21

    4.1.1 Dfinitions . . . . . . . . . . . . . . . . . . . . . . . . 214.1.2 Calcul de rgion hpd . . . . . . . . . . . . . . . . . . 24

    4.2 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2.1 Approche par la fonction de perte de type 01 . . . . 264.2.2 Facteur de Bayes . . . . . . . . . . . . . . . . . . . . . 284.2.3 Variations autour du facteur de Bayes . . . . . . . . . 304.2.4 Proprits asymptotiques des facteurs de Bayes . . . . 314.2.5 Calcul du facteur de Bayes . . . . . . . . . . . . . . . 34

    5 Proprits asymptotiques des approches baysiennes 355.1 Thorie gnrale . . . . . . . . . . . . . . . . . . . . . . . . . 355.2 Normalit asymptotique de la loi a posteriori . . . . . . . . . 37

  • ii TABLE DES MATIRES

    6 Dtermination de lois a priori 396.1 Lois subjectives . . . . . . . . . . . . . . . . . . . . . . . . . . 396.2 Approche partiellement informative . . . . . . . . . . . . . . . 40

    6.2.1 Maximum dentropie . . . . . . . . . . . . . . . . . . . 406.2.2 Familles conjugues . . . . . . . . . . . . . . . . . . . . 41

    6.3 Approche non informative . . . . . . . . . . . . . . . . . . . . 436.3.1 Lois de Jeffreys et Bernardo . . . . . . . . . . . . . . . 446.3.2 Loi a priori de concordance (matching priors) . . . . 45

    7 Mthodes numriques 477.1 Approches indpendantes . . . . . . . . . . . . . . . . . . . . 477.2 Mthodes mcmc . . . . . . . . . . . . . . . . . . . . . . . . . 48

    7.2.1 Algorithme Hasting-Metropolis . . . . . . . . . . . . . 487.2.2 Algorithme de type Gibbs . . . . . . . . . . . . . . . . 49

    Conclusion 50

    Bibliographie 50

  • Chapitre 1

    Introduction : Les principesbaysiens

    1.1 Linfrence baysienne

    Dfinition 1.1.1 Modle classiqueOn se place dans un espace probabilis paramtrique classique :

    X (X ,B, {P, })

    X dsigne lespace des donnes, celui des paramtres . Le but de lanalysestatistique est de faire de linfrence sur , cest--dire dcrire un phnomnepass ou venir dans un cadre probabiliste.

    Lide centrale de lanalyse baysienne est de considrer le paramtreinconnu comme alatoire : lespace des paramtres est muni dune pro-babilit tel que (,A, ) est un espace probabilis. Nous noterons . est appele loi a priori. Intuitivement et en termes informationnels, elledtermine ce quon sait et ce quon ne sait pas avant dobserver X.

    Dfinition 1.1.2 Modle dominLe modle est dit domin sil existe une mesure commune dominante , cest--dire pour tout , P admet une densit par rapport : 1

    f(X|) = dPd

    Cette fonction `() = f(X|), vue comme une fonction de une foisquon a observ un tirage de X, est appele vraisemblance du modle. Cestla loi de X conditionnellement .

    1. Pour des mesures -finies et en vertu du thorme de Radon-Nikodym, ceci estquivalent tre absolument continue par rapport .

  • 2 Introduction : Les principes baysiens

    Dfinition 1.1.3 Loi jointe et loi a posterioriDans le cas dun modle domin, la loi jointe de (X, ) scrit (X, ) =f(X|)d() = f(X|)()d(), la dernire galit tant valable dans lecas absolument continu par rapport , la mesure de Lebesgue 2. La loi aposteriori est dfinie par sa densit :

    d(|X) = f(X|)d() f(X|)d()

    (1.1)

    La quantitm(X) =

    f(X|)d() est la loi marginale deX et est uneconstante de normalisation de la loi a posteriori, indpendante de . Noustravaillerons donc trs rgulirement une constante multiplicative prs :(X|) f(X|)(). Nous ajoutons que par construction la loi a posterioriest absolument continue par rapport la loi a priori .

    Exemple 1.1 Dans le cas gaussien, variance connue : X N(, 2) et = (2 connnu) :

    () =e

    (0)2

    22

    2

    (|X) e(X)2

    22 e(0)

    2

    22

    (|X) exp(1

    2(

    12

    +12

    )( (X

    2+02

    )(12

    +12

    )1))

    Ainsi

    (|X) N(X 2

    2 + 2+ 0

    2

    2 + 2,22

    2 + 2)

    On remarque sur cet exemple que la loi a posteriori est plus resserre (poin-te) que la loi a priori. Cela savre tre intuitif : la loi a posteriori estla loi de en ayant une information supplmentaire savoir la donne deX, lincertitude sur ne peut donc que diminuer, en dautres termes la va-riance diminue. En considrant Xn = 1n

    ni=1Xi dans le cas indpendant et

    identiquement distribu, la loi a posteriori se centre sur Xn avec un nombredobservations qui augmente. Dans ce cas, elle se rapproche du maximum devraisemblance.

    1.2 Extension aux lois impropres

    Nous gnralisons lapproche prcdente aux lois a priori impropres, cequi est notamment utile dans les modles non-informatifs.

    2. B est la tribu borlienne dans Rp.

  • 1.2 Extension aux lois impropres 3

    Dfinition 1.2.1 Loi impropreUne loi impropre est une mesure -finie 3 qui vrifie

    ()d() = +.

    Lutilisation dune loi a priori impropre peut sembler saugrenue maiscela peut savrer particulirement intressant. Il est ainsi envisageable detravailler avec une loi normale centre grande variance pour approcherune loi uniforme sur R ; avec de bonnes proprits, il est judicieux (etprconis !) de travailler alors avec une loi impropre, la mesure de Lebesguepar exemple. Cependant une telle loi est utile du moins tant que la loi aposteriori existe. Aussi, on se limite aux lois impropres telles que :

    m(X) =

    f(X|)d() 1 lensemble des vecteurs quine vrifient pas cette proprit est de mesure nulle et donc naffecte pas lafinitude de lintgrale dfinie ci-dessus. Il est possible de donner une interpr-tation intuitive du rsultat prcdent. Pour estimer la dispersion (variance),au moins deux observations sont ncessaires. Linterprtation est peut-tre unpeu moins vidente en ce qui concerne la deuxime remarque mais elle restecohrente si toutes les observations sont gales. Linfrence sur conduitalors considrer ce paramtre comme nul ; dans un tel cas, la distribution a

    3. Cela peut tre dfini dans un cas gnral sans -finitude mais, comme nous allonsle voir, sans grand intrt. . .

    4. Dans ce cas, est la mesure de Lebesgue.

  • 4 Introduction : Les principes baysiens

    priori (, 2) = 12

    nest pas dfinie, il nest donc pas classique de la choisirde cette forme.

    Dans le cas o est une mesure impropre -finie, on considre = c ,cette constante arbitraire doit tre sans influence pour tre cohrent. Cestbien le cas car c se simplifie haut et bas dans lquation (1.1) dfinissant laloi a posteriori de telle sorte que d(|X) = d(|X).

    En conclusion, lusage de lois impropres a priori est justifi si la loi aposteriori est propre (non impropre 5) car elle ne dpend pas de constantemultiplicative de la loi a priori. Ceci est rapprocher du principe de vraisem-blance indiqu par Christian Robert. Dune manire plus gnrale, linfrencebaysienne se base sur (|X).

    1.3 Extension aux modles non domins

    Le paramtre a jusqu prsent t choisi parmi les lments de Rd avecd fini dans un modle domin. Il est envisageable de choisir = [0, 1]R,lensemble des distributions sur [0, 1] ou encore lensemble des probabilitssur R (qui est non domin).

    Dans ce dernier cas, si P une probabilit sur , par exemple unprocessus de Dirichlet, on dfinit la loi a posteriori comme une version de laloi conditionnelle. Sur (R,B) et (,A), pour (A,B) A B :

    AP (X B)d(P ) =

    B

    Am(X)d(P |X)

    La loi de Dirichlet, note D(1, , p), est dfinie sur le simplexe Sp ={(x1, , xp),

    pi=1 xi = 1, xi 0 pour 0 i p} par :

    d(x) = x11 . . . xpp

    (

    i i)i (i)

    Pour une mesure sur R, le processus de Dirichlet se note D((.)). Enutilisant la topologie faible, on peut montrer pour toute partition de R(B1, , Bp), si P D((.)) alors

    (P (B1), , P (Bp)) D((B1), , (Bp))

    .

    5. Cest--dire une loi de probabilit qui mesure les informations une fois les donnesobserves.

  • Chapitre 2

    Une introduction la thoriede la dcision

    2.1 Fonction de perte et risque

    Pour le modle X (X ,B, {P, }), on dfinit D lensemble desdcisions possibles. Cest--dire lensemble des fonctions de dans g() og dpend du contexte :