Processus Stochastiques
Jean-Yves Tourneret(1)
(1) Universite of Toulouse, ENSEEIHT-IRIT-TeSA
Theme 1 : Analyse et Synthese de l’Information
Cours Mastere, 2010 – p. 1/41
Méthodes de simulation
Partie 1 : Bayes et Simulation
Partie 2 : Metropolis - Hastings
Partie 3 : L’échantillonneur de Gibbs
Partie 4 : Diagnostic de Convergence
Partie 5 : Segmentation de signaux stationnaires parmorceaux
Pour finir : Livres, Sites Webs, Pages perso, ...
Cours Mastere, 2010 – p. 2/41
Bibliographie
Christian P. Robert and George Casella, Monte CarloStatistical Methods, Springer-Verlag, New-York, 2ndEdition, 2004.
Cours Mastere, 2010 – p. 3/41
Cours 1 : Bayes et Simulation
1) Introduction : modèles statistiques
2) Maximum de vraisemblance
3) Méthodes Bayésiennes
4) Méthodes de base de simulation
5) Méthodes de Monte Carlo pour l’intégration
6) Méthodes numériques déterministes
Cours Mastere, 2010 – p. 4/41
Modèle Statistique (1)
Compromis entre
un modèle compliqué proche de la réalité qui peut induiredes méthodes d’estimation, de détection ou declassification non standards
un modèle simple qui conduit à des hypothèses commelinéarité, Gaussianité, ... mais qui peut être trop éloignédu phénomène physique étudié
Avec le développement de la puissance de calcul, desméthodes comme les méthodes de simulation peuvent êtreenvisagées plus facilement.
Cours Mastere, 2010 – p. 5/41
Modèle Statistique (2)
Parfois, on choisit un modèle simple mais la suppression decertaines informations rend le problème difficile :
Modèles de censure
yi = min{xi, c}
Modèles de mélanges
yi ∼ p1f1(x) + ... + pkfk(x)
Modèles stationnaires par morceaux
yi ∼ fk(x) si i ∈ [tk, tk+1[
Cours Mastere, 2010 – p. 6/41
Maximum de Vraisemblance
Définition : Pour un échantillon x = (x1, ..., xn) dedensité f(x|θ), la vraisemblance s’écrit :
L(x|θ) =n∏
i=1
f(xi|θ)
Propriétés asymptotiques : asymptotiquement sansbiais, convergent et efficace
Facile à comprendre et souvent facile à étudier
Mais pose problème pour de nombreux modèlesstatistiques
Cours Mastere, 2010 – p. 7/41
Exemple1 : loi Gamma, α connu
f(x|α, β) =xα−1e−x/β
Γ(α)βαIR+(x)
Log-vraisemblance :
ln L(x|α, β) = −n ln Γ(α) − nα ln β
+ (α − 1)
n∑
i=1
ln xi −1
β
n∑
i=1
xi
Estimateur du maximum de vraisemblance de β :
β =1
Nα
n∑
i=1
xi
Cours Mastere, 2010 – p. 8/41
Exemple2 : loi Gamma, α inconnu
Estimateur du maximum de vraisemblance
∂
∂αln L(x|α, β) = 0
∂
∂βln L(x|α, β) = 0
Équations non-linéaires faisant intervenir la fonctiondigamma !!
Cours Mastere, 2010 – p. 9/41
Exemple3 : loi de Student
f(x|θ, p, σ) ∝ 1
σ
(1 +
(x − θ)2
pσ2
)−p+12
Log-vraisemblance :
ln L(x|θ, p, σ) = −(
p + 1
2
)ln
(σ
2np+1
n∏
i=1
(1 +
(xi − θ)2
pσ2
))
possède n maxima locaux (p et σ2 connus)matlab: student
Cours Mastere, 2010 – p. 10/41
Modèles de censure
Loi de Weibull
f(x|α, β) = αβxα−1 exp(−βxα)IR+(x)
Données tronquées z = min(x, ω)
f(z|α, β, ω) = αβzαe−βzα
I]−∞,ω](z)+
(∫∞
ωαβzαe−βzα
dz
)δω(z)
Cours Mastere, 2010 – p. 11/41
Modèles de mélange
DéfinitionSupposons que xi suive la loi de densité fj(xi) avec laprobabilité pj :
f(xi) = p1f1(xi) + ... + pkfk(xi)
Vraisemblance
L(x|θ, p) =n∏
i=1
(p1f1(xi) + ... + pkfk(xi)
)
comporte kn termes. Donc les techniques classiquesd’optimisation sont inappropriées à une telle fonctionmultimodale.
Cours Mastere, 2010 – p. 12/41
Méthodes Bayésiennes
Vraisemblance
f(x|θ) =n∏
i=1
f(xi|θ)
Loi a priori sur θ
π(θ)
Loi a posteriori
f(θ|x) =f(x|θ)π(θ)∫f(x|θ)π(θ)dθ
où f(x) =∫
f(x|θ)π(θ)dθ est la loi marginale de x.
Cours Mastere, 2010 – p. 13/41
Inférence Bayésienne
On rencontre deux types de problèmes avec les méthodesd’estimation Bayésiennes
E[C(θ, θ(x)
)]=
∫ [∫C(θ, θ(x))f(θ,x)dx
]dθ
Des problèmes d’optimisation (coût 0 − 1) : estimateur dumaximum a Posteriori
θMAP(x) = arg max f(θ|x) = arg max f(x|θ)π(θ)
Des problèmes d’intégration (coût quadratique) :estimateur MMSE
θMMSE(x) = E[θ|x] =
∫θf(θ|x)dθ
Cours Mastere, 2010 – p. 14/41
Exemple1 : le cas Gaussien
Données
f(x|µ, σ2) =
n∏
i=1
1√2πσ2
exp
(−(xi − µ)2
2σ2
)
Loi a priori : µ ∼ N (µ0, σ20)
π(µ) =1√2πσ2
0
exp
(−(µ − µ0)
2
2σ20
)
Loi a posteriori : µ|x ∼ N (µn, σ2n)
µn =
(nσ2
0
nσ20 + σ2
)1
n
n∑
i=1
xi +
(σ2
σ2 + nσ20
)µ0
matlab: BayesCours Mastere, 2010 – p. 16/41
Exemple2 : Loi de Cauchy
Données
f(x|µ, σ) =n∏
i=1
σ−1
[1 +
(xi − µ
σ
)2]
Loi a priori :
π(µ, σ) = σ−1
Loi a posteriori de µ
f(µ|x) ∝∫ ∞
0
σ−n−1
n∏
i=1
[
1 +
(xi − µ
σ
)2]
dσ
Donc, pas d’expression explicite de cette loi a posteriori !
Cours Mastere, 2010 – p. 17/41
Lois conjuguées
Définition : une loi a priori π(θ) est conjuguée si f(x|θ)et π(θ) appartiennent à la même famille de lois.
Cas Gaussien
f(x|m,σ2) ∝ 1
(σ2)n/2exp
[
− 1
2σ2
n∑
i=1
(xi − m)2
]
☞ loi conjuguée pour m : loi normale
m ∼ N (µ, β2)
☞ loi conjuguée pour σ2 : loi inverse gamma
π(σ2|κ, γ) ∝ 1
(σ2)κ+1exp
(− γ
σ2
)
Cours Mastere, 2010 – p. 18/41
Lois conjuguées
Motivation : simplifie le calcul de la loi a posteriori
Cas Particulier : lois impropres☞ π(θ) ∝ Cste
☞ Jeffreys prior π(σ2) ∝ 1σ2
Cours Mastere, 2010 – p. 19/41
Méthodes de simulation
Générateur uniformePour une fonction de répartition F définie sur R, on définitson inverse généralisée par
F−1(u) = inf{x;F (x) ≥ u}
Alors, si U est uniforme sur [0, 1], la variable aléatoireF−1(U) est de fonction de répartition F car
P [F−1(U) ≤ x] = P [U ≤ F (x)] = F (x)
Cette méthode nécessite de connaître l’inversegénéralisée de la fonction de répartition.
Cours Mastere, 2010 – p. 20/41
Méthodes de simulation
Certaines méthodes utilisent des propriétés spécifiques de laloi à simuler :
loi Exponentielle
X = −1
λln U, U ∼ U([0, 1])
la méthode de l’inverse généralisée donne X = − 1λ
ln (1 − U).
Loi Gamma et Beta
Y = −ba∑
j=1
ln Uj ∼ Ga(a, b), a ∈ N∗
Y =
∑aj=1 ln Uj
∑a+bj=1 ln Uj
∼ Be(a, b), a, b ∈ N∗
Cours Mastere, 2010 – p. 21/41
Méthodes de simulation
Méthode de Box MüllerSi U1 et U2 sont deux variables indépendantes uniformessur [0, 1], alors
Y1 =√−2 ln U1 cos(2πU2)
Y2 =√−2 ln U1 sin(2πU2)
sont des variables iid distribuées suivant une loi N (0, 1).
Loi de PoissonSi Xi ∼ E(λ) et N ∼ P(λ) alors
P [N = k] = P [X1 + ... + Xk ≤ 1 < X1 + ... + Xk+1]
Cours Mastere, 2010 – p. 22/41
Méthodes d’acceptation-rejet
Beaucoup de lois sont difficiles à simuler directementavec les méthodes précédentes
Il y a certaines applications où la loi à simuler f estconnue à une constante multiplicative près (méthodesBayésiennes)
☞ Une solution est de simuler à l’aide d’une loi deproposition g plus simple et d’utiliser un algorithmed’acceptation-rejet
Cours Mastere, 2010 – p. 23/41
Algorithme d’acceptation-rejet
Soit une loi d’intérêt de densité f et une loi de proposition dedensité g telle que
f(x) ≤ Mg(x)
sur le support de f . Alors, on peut simuler suivant f avecl’algorithme suivant
1) Générer X ∼ g et U ∼ U([0, 1])
2) Accepter Y = X si
U ≤ f(X)
Mg(X)
3) Retourner en 1) si rejet
Cours Mastere, 2010 – p. 24/41
Probabilité d’acceptation
P [X accepté] = P
[U ≤ f(X)
Mg(X)
]= E
[I{U≤ f(X)
Mg(X)}
]
= E
[E
[I{U≤ f(X)
Mg(X)}
]|X]
= E
[f(X)
Mg(X)
]
=
∫f(x)
Mg(x)g(x)dx =
1
M
Cours Mastere, 2010 – p. 25/41
loi de X
P [X < x|X accepté] =P [X < x,X accepté]
1/M
= MP
[X < x,U <
f(X)
Mg(X)
]
= ME
[I{X<x,U≤ f(X)
Mg(X)}
]
= ME
[E
[I{X<x,U≤ f(X)
Mg(X)}
]|X]
= ME
[I{X<x}
f(X)
Mg(X)
]
=
∫ x
−∞
f(x)
g(x)g(x)dx = F (x)
Cours Mastere, 2010 – p. 26/41
Remarques
Cet algorithme permet de simuler une densité connue àune const. multiplicative près, e.g. f(θ|x) ∝ f(x|θ)π(θ)
La probabilité d’acceptation est 1/M donc la valeur de M
règle l’efficacité (vitesse) de l’algorithme
Problème pour des densités à queues lourdes. Parexemple, on ne peut simuler une loi de Cauchy avec uneloi de proposition normale (mais on peut faire l’inverse !)
Utilisable pour un grand nombre de lois : N (0, 1), Ga(a, b),lois normales tronquées, ...
Cours Mastere, 2010 – p. 27/41
Exemple : Cauchy→ Normale
Loi cible
f(x) =1√2π
exp(−x2/2
)
Loi de proposition
g(x) =1
π
1
1 + x2
Choix de M
f(x)
g(x)=
√π
2(1 + x2)e−x2/2 ≤
√2π
e= 1.52
valeur atteinte en ±1. Proba d’acceptation 1/M ≃ 0.66.
matlab: accept-reject pour différentes valeurs de M
Cours Mastere, 2010 – p. 28/41
Intégration par la méthode de Monte Carlo
On cherche à évaluer
E[h(Θ)] =
∫
Ph(θ)f(θ)dθ,
où P est l’espace des paramètres, f est une densité connue et h est une fonction connue.
Solution : générer un échantillon (θ1, ..., θn) distribuésuivant f pour approcher cette intégrale :
E[h(Θ)] ≃ hm =1
m
m∑
j=1
h(θj),
Justification : loi forte des grands nombres
Erreur : O(
1√n
)(remember, curse of dimensionality!) Cste
Cours Mastere, 2010 – p. 29/41
Intervalles de confiance
Variance :
vm =1
m2
m∑
j=1
[h(θj) − hm]2
Loi asymptotique :
hm − E[h(Θ)]√vm
∼ N (0, 1)
☞ On peut déterminer des intervalles de confiance surles paramètres inconnus !
Cours Mastere, 2010 – p. 30/41
Exemple : Fonction de répartition
Définition :
F (θ) =
∫ θ
−∞
1√2π
e−t2/2dt
Approximation :
F (θ) =1
n
n∑
i=1
Iθi<θ,
où (θ1, ..., θn) est un échantillon généré avec l’algorithmede Box-Muller.
Remarque : La variance de F (θ) est F (θ)[1−F (θ)]n
, e.g. 14n
pour θ = 0. Donc, pour avoir une précision de 10−4, il fautun échantillon de taille n = 200 millions !
Cours Mastere, 2010 – p. 31/41
Échantillonnage d’importance
Définition :
E[h(Θ)] =
∫
P
[h(θ)
f(θ)
g(θ)
]g(θ)dθ,
qui permet de simuler suivant g.
Estimation : générer un échantillon (θ1, ..., θn) distribuésuivant g pour approcher cette intégrale :
E[h(Θ)] ≃ 1
m
m∑
j=1
f(θj)
g(θj)h(θj),
Cours Mastere, 2010 – p. 32/41
Choix de la loi de proposition
Loi g simple à simuler
Si le support de g contient celui de f , l’estimateurconverge vers ∫
Ph(θ)f(θ)dθ
La variance de l’estimateur est finie si
E
[h2(Θ)
f(Θ)
g(Θ)
]< ∞
Éviter les lois de proposition telles que supθ∈Pf(θ)g(θ)
= ∞1) pb si le support de f n’est pas inclus dans celui de g,
2) il existe une loi optimale minimisant la variance qui dépend de l’intégrale à calculer !
Cours Mastere, 2010 – p. 33/41
Exemple
Soit f la densité d’une loi de Student à ν degrés de liberté.Calcul de
I =
∫ ∞
a
θ5f(θ)dθ,
Simulation suivant f
Échantillonnage d’importance avec loi de Cauchy
Un changement de variables u = 1/θ permet d’obtenir
I =
∫ 1a
0
a1
au7f
(1
u
)du ≃ 1
a
1
n
n∑
i=1
1
u7j
f
(1
uj
),
où U suit une loi uniforme sur [0, 1a].
matlab : integrale-student, I = 6.54, variance des estimées pour n = 5000
Cours Mastere, 2010 – p. 34/41
Exemple : ν = 12, a = 2.1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 104
3.5
4
4.5
5
5.5
6
6.5
7
iterations
inté
gral
e
Simulation suivant fImportance Sampling (Loi de Cauchy avec ν=1)Importance Sampling (Loi uniforme sur [0, 1/2.1])
Cours Mastere, 2010 – p. 35/41
Méthodes d’accélération
Utiliser la corrélation pour diminuer la varianced’estimation. Soient deux échantillons (θ1, ..., θn) et(η1, ..., ηn) distribués suivant f . On a alors deuxestimateurs non biaisés de I =
∫R
h(θ)f(θ)dθ définis par
I1 =1
n
n∑
i=1
h(θi), I2 =1
n
n∑
i=1
h(ηi)
La variance de la moyenne de ces deux estimateurs est
Var
(I1 + I2
2
)
=1
4
(VarI1 + VarI2
)+
1
2Cov(I1, I2)
☞ diminution de variance si la covariance est négative
Cours Mastere, 2010 – p. 36/41
Conditionnement - Rao-Blackwellization
Espérances conditionnelles
E[h(Θ)] = E [E[h(Θ)|Λ]]
EstimateursDonc, si on sait calculer g(λ) = E[h(Θ)|λ], on en déduitdeux estimateurs
I1 =1
n
n∑
i=1
h(Θi)
I2 =1
n
n∑
i=1
g(Λi) =1
n
n∑
i=1
E[h(Θ)|Λi]
Réduction de variance
Cours Mastere, 2010 – p. 37/41
Exemple
Problème
I =
∫ ∞
−∞e−θ2
f(θ)dθ,
où f la densité d’une loi de Student à ν degrés de liberté.
Estimateur usuel
I1 =1
n
n∑
i=1
e−Θ2j
Réduction de variance Θ|Λ ∼ N (µ, σ2Λ) et Λ−1 ∼ χ2ν
I2 =1
n
n∑
i=1
E[e−Θ2|Λi] =1
n
n∑
i=1
1√2σ2Λj + 1
matlab : Raoblack, I = 5373Cours Mastere, 2010 – p. 38/41
Exemple : ν = 4.6, µ = 0, σ2= 1
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000.49
0.5
0.51
0.52
0.53
0.54
0.55
0.56
0.57
iterations
inté
gral
e
Estimateur usuelRao BlackwellizationValeur de l’intégrale
Cours Mastere, 2010 – p. 39/41
Méthodes déterministes d’optimisation
Pour résoudre une équation de la forme
f(θ) = 0,
on peut utiliser des algorithmes comme l’algorithme deNewton-Raphson :
θn+1 = θn +
(∂f
∂θ(θn)
)−1
f(θn),
qui converge vers la solution f(θ) = 0.
convergence lente en O(n2) ou O(n3) alors que pour uneméthode de simulation, on aura classiquement uneconvergence en O(n) !
Cours Mastere, 2010 – p. 40/41
Méthodes déterministes d’intégration
Pour calculer une intégrale de la forme
∫ b
a
f(θ)dθ,
on peut utiliser des algorithmes basés sur les sommes deRiemann (méthode des trapèzes, méthode de Simpson, ...).
On peut explorer des zones de faibles probabilités
On a en général des problèmes pour des fonctionsmulti-modales.
L’erreur est en O(
1n1/d
), où d est la dimension de
l’espace! (curse of dimensionality).Pour les méthodes de Monte-Carlo, on aura une erreur en O
(1√
n
)!
Cours Mastere, 2010 – p. 41/41
Cours 2 : Metropolis - Hastings
1) Introduction : méthodes de Monte Carlo par chaînesde Markov (MCMC)
2) L’algorithme de Metropolis-Hastings indépendant
3) L’algorithme de Metropolis-Hastings à marche aléatoire
4) Algorithme de Green à sauts réversibles
– p. 1/34
Introduction
Pour approcher l’intégrale∫
P
h(θ)f(θ)dθ,
il n’est pas nécessaire de simuler suivant f (cf. échant.d’importance). Le principe des méthodes MCMC est deconstruire une chaîne de Markov ergodique dont la loistationnaire est f :
Idée : on part d’une valeur θ(0) et on construit θ(t) àl’aide d’un noyau de transition tel que la loi cible est f
Pour t0 “grand", θ(t0) est distribué suivant f
Remarque : Les valeurs générées θ(t0), θ(t0+1), ... sontdépendantes car θ(t) est une chaîne de Markov
– p. 2/34
Principes des méthodes MCMC
HypothèsesOn connaît la loi cible f à une constantemultiplicative prèsOn définit une loi de proposition (appelée aussi loiinstrumentale) q(y|θ).
Algorithme
Initialisation : choix de θ(0)
À partir de θ(t), on génère y(t) à l’aide de la loi deproposition et on accepte ou rejette cette valeur dey(t) à l’aide d’une procédure d’acceptation-rejet. Lavaleur retenue est notée θ(t+1).Les premières valeurs générées par l’algorithme neseront pas utilisées pour l’inférence (“burn-in")
– p. 3/34
L’algorithme de Metropolis-Hastings
Étant donné θ(t),
1. Générer yt ∼ q(y|θ(t)).
2. Acceptation-Rejet
θ(t+1) =
{yt avec prob. ρ(θ(t), yt),
θ(t) avec prob. 1 − ρ(θ(t), yt),
où
ρ(θ, y) = min
{f(y)
f(θ)
q(θ|y)
q(y|θ) , 1
}.
– p. 4/34
Propriétés et commentaires
Cas symétrique :
ρ(θ(t), yt) = min
{f(yt)
f(θ(t)), 1
}.
On accepte toujours les valeurs de yt augmentant la“vraisemblance"
La loi cible f peut être connue à une constantemultiplicative près
La chaîne (θ(t))t peut prendre plusieurs fois la mêmevaleur ⇒ échantillon non iid
– p. 5/34
Convergence
HypothèsesProbabilité d’acceptation
P
[f(yt) q(θ(t)|yt)
f(θ(t)) q(yt|θ(t))≥ 1
]< 1. (1)
i.e., l’événement {θ(t+1) = θ(t)} est possible.Loi de proposition
q(y|θ) > 0 pour tout (θ, y), (2).
En particulier, le support de la loi de proposition doitinclure le support de la loi cible !
– p. 6/34
Convergence
Conclusions
ErgodicitéPour h tel que Ef [|h(Θ)|] < ∞,
limT→∞
1
T
T∑
t=1
h(θ(t)) =
∫h(θ)f(θ)dθ
Convergence en variation totale
limn→∞
∥∥∥∥∫
Kn(θ, ·)µ(dθ) − f
∥∥∥∥TV
= 0
pour toute loi initiale µ, Kn(θ, ·) est le noyau de la chaîne après n transitions.
En particulier
limt→∞
P [θ(t) ∈ A] =
∫
A
f(θ)dθ
– p. 7/34
Metropolis-Hastings - Cas indépendant
La loi de proposition q(y|θ(t)) est indépendante de θ(t)
Étant donné θ(t),
1. Générer yt ∼ q(y).
2. Acceptation-Rejet
θ(t+1) =
{yt avec prob. min
{f(yt)f(θ(t))
q(θ(t))q(yt)
, 1}
,
θ(t) sinon
PropriétésL’échantillon généré n’est pas iid
Si f(θ) ≤ Mq(θ), ∀θ ∈ supp f , alors ‖.‖T V ≤(1 − 1
M
)n(ergodicité uniforme)
La probabilité d’acceptation est ≥ 1/M (i.e ≥ proba acceptation-rejet)
– p. 8/34
Exemple : Loi Gamma
Soit f la densité d’une loi gamma Ga(α, β). Calcul de
I =
∫ ∞
−∞θ2f(θ)dθ,
Acceptation rejet avec q(θ) ∼ Ga([α], [α]
α
), f(θ) < Mq(θ)
M = exp{α(ln(α) − 1) − [α](ln([α]) − 1)}
Algo de Metropolis-Hastings avec q(θ) ∼ Ga([α], [α]
α
)
ρ(θ(t), yt) = min
{(yt
θ(t)exp
[θ(t) − yt
α
])α−[α]
, 1
}
Matlab : lois-gamma, I = 8.33, TSVP pour exemplesnombre de données aléatoire avec acceptation-rejet
– p. 9/34
Acceptation-Rejet - Loi Gamma
1. Générer y ∼ Ga([α], [α]
α
).
2. Acceptation-Rejet
θ(t) = y avec prob.
(ey exp(−y/α)
α
)α−[α]
– p. 10/34
Metropolis-Hastings - Loi Gamma
Étant donné θ(t),
1. Générer yt ∼ Ga([α], [α]
α
).
2. Acceptation-Rejet
θ(t+1) =
yt avec prob. min
{(yt
θ(t) exp{
θ(t)−yt
α
})α−[α], 1
}
θ(t) sinon
– p. 11/34
Exemple : α = 2.43, β = 1
0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000
2
4
6
8
10
12
14
16
18
20
iterations
inté
gral
e
acceptation−rejetvaleur de l’intégraleMetropolis−Hastings
– p. 12/34
Zoom
1000 1500 2000 2500 3000 3500 4000 4500
6.5
7
7.5
8
8.5
9
9.5
10
10.5
11
iterations
inté
gral
e
acceptation−rejetvaleur de l’intégraleMetropolis−Hastings
– p. 13/34
Metropolis-Hastings - Marche Aléatoire
La loi de proposition q est telle que
yt = θ(t) + ǫt,
où ǫt indépendant de θ(t), i.e. q(y|θ) = q(y − θ). Si q estsymétrique, on obtient l’algorithme suivant :
Étant donné θ(t),
1. Générer yt ∼ q(y − θ(t)).
2. Acceptation-Rejet
θ(t+1) =
{yt avec prob. min
{f(yt)f(θ(t))
, 1}
,
θ(t) sinon
– p. 14/34
Propriétés
Pas d’ergodicité uniforme
Conditions suffisantes d’ergodicité géométrique pourdes densités symétriques log-concaves ... (Mengersen& Tweedie, 1996)
∀θ ∈ P ,
∥∥∥∥∫
Kn(θ, ·)µ(dθ) − f
∥∥∥∥TV
≤ M
rn,
avec M < ∞ et r > 1.
Applet 1 : exemple d’algorithme de Metropolis-Hastings àmarche aléatoire, Jeff Rosenthal (Thanks!)Applet 2 : problème de la non-convergence uniforme, JeffRosenthal (Thanks!)
– p. 15/34
Exemple : Loi Normale
Simulation de données suivant la loi normale N (0, 1).
Metropolis-Hastings - Indépendant avec q(y) ∼ U [−3,+3]
Algo de Metropolis-Hastings - Marche Aléatoire avecq(ǫt) ∼ U [−δ,+δ] (Hastings, 1970)
Probabilité d’acceptation
min{exp
{(θ2
(t) − y2t )/2
}, 1}
Matlab : loi-gauss et loi-gauss-delta pour d = 1 et d = 0.01
– p. 16/34
Lois cibles pour δ = 0.01 et δ = 1
−4 −3 −2 −1 0 1 2 3 40
0.1
0.2
0.3
0.4
0.5
0.6
0.7δ = 1
−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 20
0.2
0.4
0.6
0.8
1δ = 0.01
– p. 17/34
Calcul des moyennes pourδ ∈ {0.1, 0.5, 1, 5}
0 5000 10000 15000−0.6
−0.4
−0.2
0
0.2
0.4δ = 0.1
0 5000 10000 15000−1
−0.5
0
0.5δ = 0.5
0 5000 10000 15000−0.5
0
0.5
1
1.5
2δ = 1
0 5000 10000 15000−1
0
1
2
3
4
5
6δ = 5
– p. 18/34
Calcul des variances pourδ ∈ {0.1, 0.5, 1, 5}
0 5000 10000 150000
0.5
1
1.5
2δ = 0.1
0 5000 10000 150000
0.2
0.4
0.6
0.8
1
1.2
1.4δ = 0.5
0 5000 10000 150000
0.2
0.4
0.6
0.8
1
1.2
1.4δ = 1
0 5000 10000 150000
2
4
6
8
10
12δ = 5
– p. 19/34
Extensions
Adaptive Rejection Metropolis Sampling (ARMS)
Algorithme de Metropolis-Hastings à sauts réversibles
Algorithmes de Langevin
...
– p. 20/34
Metropolis-Hastings avec sauts réversibles
“One of the things we do not know is the number of things wedo not know" - Peter Green
Dans quel cas ?Lorsque l’espace des paramètres inconnus est de tailleinconnue
mélanges de lois
modèles de types ARMA
modèles stationnaires par morceaux
Solution
utiliser une loi de proposition qui permet de sedéplacer dans des espaces de différentes dimensions
– p. 21/34
Densités jointe et a posteriori
Loi jointe
f(k, θ(k),x) = f(x|k, θ(k))f(θ(k)|k)f(k), k ∈ K, θ(k) ∈ Θk
f(k) : a priori sur le nombre de paramètres (k ∼ P(λ))
f(θ(k)|k) : loi a priori sur les paramètres sachant k
f(x|k, θ(k)) : vraisemblance
Loi a posteriori
f(k, θ(k)|x) =f(k, θ(k),x)∫ ∫
f(k, θ(k),x)dθ(k)dk∝ f(k, θ(k),x)
(k, θ(k)
)∈ ⋃k∈K Ck, Ck = {k} × R
nk espace de dimensionvariable.
– p. 22/34
Transition de Mk versMk′
Pour se déplacer de Rnk vers R
n′
k , avec k 6= k′, on doitcomplèter ces espaces afin de définir un difféomorphisme gkk′
Transition de Mk vers Mk′
gkk′ =
g1kk′
R
nk+nkk′ → Rnk′
(θ(k), u
)7→ θ(k′)
g2kk′
R
nk+nkk′ → Rnk′k
(θ(k), u
)7→ u′
avec nk + nkk′ = nk′ + nk′k.
– p. 23/34
Transition de Mk′ versMk
Afin d’assurer la réversibilité, il faut aussi définir undifféomorphisme gk′k allant de R
n′
k vers Rnk
Transition de Mk′ vers Mk
gk′k =
g1k′k
R
nk′+nk′k → Rnk
(θ(k′), u′) 7→ θ(k)
g2k′k
R
nk′+nk′k → Rnkk′
(θ(k′), u′) 7→ u
Remarque : on peut avoir u = 0 ou u′ = 0 !
– p. 24/34
Probabilité d’acceptation
Le nouvel état θ(k′) = g1k′k
(θ(k), u
)est accepté avec la
probabilité
ρkk′ = min
{Posterior Mk′
Posterior Mk
pk′k
pkk′
Proposal u′
Proposal u
∣∣∣∣∣∂(θ(k′), u′)
∂ (θ(k), u)
∣∣∣∣∣ , 1
}
avec
pk′k : proba de tenter un déplacement de Rnk′ vers R
nk
pkk′ : proba de tenter un déplacement de Rnk vers R
nk′
∣∣∣∣∂(θ(k′),u′
)
∂(θ(k),u)
∣∣∣∣ : Jacobien de la transformation
– p. 25/34
Exemple scolaire
Modèle M1
xi ∼ N (θ1, 1), i ≤ 50, xi ∼ N (θ2, 1), i > 50, C1 = {2}×R2
Posterior
∝2∏
j=1
exp
−1
2
tj+1−1∑
i=tj
(xi − θj)2
exp
(−1
2(θj − µ)2
)
Modèle M2
xi ∼ N (θ, 1), i = 1, ..., 100, C2 = {1} × R
Posterior
(1
2π
)50
exp
(−1
2
100∑
i=1
(xi − θ)2
)1√2π
exp
(−1
2(θ − µ)2
)1
2
– p. 26/34
Difféomorphismeg12
Passage de M1 à M2
g12
R
2 → R2
(θ1, θ2) 7→ (θ = θ1+θ2
2, u = θ1−θ2
2)
Probabilité d’acceptation
PosteriorM2
PosteriorM1
1/2
1/2
q(u)
1|Jacobien| =
π2
(θ1+θ2
2
)q(
θ1−θ2
2
)
π1(θ1, θ2)
1
2
Proposal u ∼ N (µ, 1)
– p. 27/34
Difféomorphismeg21
Passage de M2 à M1
g21
R
2 → R2
(θ, u) 7→ (θ1 = θ + u, θ2 = θ − u)
Probabilité d’acceptation
PosteriorM1
PosteriorM2
1/2
1/2
1
q(u)|Jacobien| =
π1 (θ + u, θ − u)
π2(θ)q(u)2
Proposal u ∼ N (µ, 1)
Matlab : samplingGreen
– p. 28/34
Optimisation du taux d’acceptation
Un algorithm générique “Adaptive rejection Metropolissampling (ARMS)"
choix d’une loi instrumentale q qui approche f de façon àce que le rapport f/q soit borné, de façon à avoirl’ergodicité uniforme
Algorithme à marche aléatoire
Dans les deux derniers cas, le choix de q est critique !
– p. 29/34
Metropolis-Hastings Indépendant
ρ = E
[min
{f(Y ) q(Θ)
f(Θ) q(Y ), 1
}]
= 2P
(f(Y )
q(Y )≥ f(Θ)
q(Θ)
), Θ ∼ f, Y ∼ q,
Loi de proposition q paramètrée par η et on cherche η quimaximise le taux d’acceptation moyen
ρ(η) =2
m
m∑
i=1
I{f(yi)q(θi)>f(θi)q(yi)} ,
où θ1, . . . , θm échantillon de densité f et y1, . . . , ym échantilloniid de densité q.
– p. 30/34
Metropolis-Hastings à marche aléatoire
Un taux d’acceptation moyen élevé n’indique pasnécessairement que l’algorithme évolue correctement carla marche aléatoire peut évoluer trop lentement (exempletypique des densités multi-modales)
Un taux d’acceptation moyen faible signifie que ledéplacement entre yt et θ(t) est rapide
Règle empirique (Gelman, Gilks et Robert, 1995) : tauxd’acceptation de 50% pour les modèles de dimension 1 et2, et de 25% pour les modèles de dimension supérieure
Applets Laird Breyer + exemples 2 derniers slides
– p. 31/34
Mélange de Gaussiennes
Modèle : y1, ..., yn i.i.d., r inconnu
f(y|θr) =r∑
i=1
ωi√2πσ2
i
exp
[−(y − mi)
2
2σ2i
]
1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
revers
ible jum
p sam
pler
−2 −1 0 1 20
0.5
1
1.5
2
2.5
3
Codes C disponibles sur la page d’Olivier Cappé,http://www.tsi.enst.fr/~cappe/ctrj_mix
– p. 34/34
Cours 3 : L’échantillonneur de Gibbs
1) Principes généraux
2) Complétion
3) Convergence
4) Le théorème de Hammersley-Clifford
5) Modèles hiérarchiques
6) Augmentation de données
7) Algorithme MCMC hybride
8) Dangers
– p. 1/30
Principes généraux
Pour simuler suivant une loi f(θ) avec θ = (θ1, ..., θp), on peututiliser l’idée suivante
Initialisation : générer un vecteur θ = (θ1, ..., θp) suivantune loi de proposition initiale π0
Simuler suivant les lois conditionnelles
Θi|θ1, θ2, . . . , θi−1, θi+1, . . . , θp
∼ fi(θi|θ1, θ2, . . . , θi−1, θi+1, . . . , θp)
for i = 1, 2, . . . , p.
– p. 2/30
L’échantillonneur de Gibbs
Étant donné θ(t) =
(θ(t)1 , ..., θ
(t)p
),
1. Générer θ(t+1)1 ∼ f1(θ1|θ(t)
2 , ..., θ(t)p ),
2. Générer θ(t+1)2 ∼ f2(θ2|θ(t+1)
1 , θ(t)3 , ..., θ
(t)p ),
. . .
p. Générer θ(t+1)p ∼ fp(θp|θ(t+1)
1 , θ(t+1)2 , ..., θ
(t+1)p−1 ),
Seules les lois conditionnelles f1, . . . , fp sont utilisées pourla simulation. Donc, même pour un problème de grandedimension, toutes les simulations sont univariées !
– p. 3/30
Propriétés
Taux d’acceptation égal à 1
Choix de la loi de proposition imposé par la méthode
Nécessite de connaître les lois conditionnelles de f
Ne peut s’appliquer si le vecteur paramètre à simuler estde dimension variable
Algorithme multi-dimensionnel par construction
– p. 4/30
Cas bidimensionnel
Pour simuler suivant
(X,Y ) ∼ f(x, y)
l’échantillonneur de Gibbs se réduit à
Simuler x0 et pour t = 1, 2, ..., générer (xt, yt) comme suit
1. yt ∼ fy|x(·|xt−1),
2. xt ∼ fx|y(·|yt),
où fy|x et fx|y sont les lois conditionnelles du couple (X,Y ).
Remarque : (xt)t, (yt)t et (xt, yt)t sont des chaînes deMarkov.
– p. 5/30
Cas Gaussien :Xi ∼ N (m, σ2)
Vraisemblance
f(x|m,σ2) ∝(σ2)−n/2
exp
(− 1
2σ2
n∑
i=1
(xi − m)2
)
Lois a priori
Moyenne
m ∼ N(m0, σ
20
)
Variance
σ2 ∼ IG (α, β)
– p. 6/30
Lois conditionnelles
moyenne
m|σ2,x ∼ N(M,Σ2
)
avec
M =nσ2
0
nσ20 + σ2
(1
n
n∑
i=1
xi
)+
(σ2
σ2 + nσ20
)m0 et Σ2 =
σ2σ20
σ2 + nσ20
variance
σ2|m,x ∼ IG(
n
2+ α,
1
2
n∑
i=1
(xi − m)2 + β
)
Donc, on peut simuler des couples (m,σ2) avecl’échantillonneur de Gibbs
– p. 7/30
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1
, 2, 3, 4, 5, 10, 25, 50, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2
, 3, 4, 5, 10, 25, 50, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3
, 4, 5, 10, 25, 50, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3, 4
, 5, 10, 25, 50, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3, 4, 5
, 10, 25, 50, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3, 4, 5, 10
, 25, 50, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3, 4, 5, 10, 25
, 50, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3, 4, 5, 10, 25, 50
, 100, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3, 4, 5, 10, 25, 50, 100
, 500
Monte Carlo Statistical Methods
The Gibbs Sampler
General Principles
Example of results with n = 10 observations from theN(0, 1) distribution
Number of Iterations 1, 2, 3, 4, 5, 10, 25, 50, 100, 500
A Markov Chain Monte Carlo Primer
MCMC Basics
The Gibbs Sampler
Example of Results with, Left n = 10 Observations; Right,n = 100 Observations from the N(0, 1) Distribution
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10
1
2
3
4
5
6
7
8
µ
σ2
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
µ
σ2
Complétion
Définition : la densité g est une complétion de f si∫
Zg(θ,η)dη = f(θ),
i.e. si f est une loi marginale de g.
Intérêt : les lois conditionnelles de g sont parfois plussimples à simuler que celles de f (e.g. analyseBayésienne hiérarchique).
Notations : pour p > 1, soit Y = (θ,η) de densitég(y) = g(y1, ..., yp) et de lois conditionnelles
Yi|y1, ..., yi−1, yi+1, ..., yp ∼ gi(yi|y1, ..., yi−1, yi+1, ..., yp)
– p. 8/30
Echantillonneur de Gibbs après complétion
Étant donné y(t) =
(y
(t)1 , ..., y
(t)p
),
1. Générer y(t+1)1 ∼ g1(y1|y(t)
2 , ..., y(t)p ),
2. Générer y(t+1)2 ∼ g2(y2|y(t+1)
1 , y(t)3 , ..., y
(t)p ),
. . .
p. Générer y(t+1)p ∼ gp(yp|y(t+1)
1 , y(t+1)2 , ..., y
(t+1)p−1 ),
– p. 9/30
Exemple : loi Cauchy-Normale (1)
Posterior
f(θ|θ0) ∝e−θ2/2
[1 + (θ − θ0)2]ν
ComplétionOn a
f(θ|θ0) ∝∫ ∞
0
e−θ2/2 e−[1+(θ−θ0)2] η/2 ην−1 dη
d’où
g(θ, η) ∝ e−θ2/2 e−[1+(θ−θ0)2] η/2 ην−1
– p. 10/30
Exemple : loi Cauchy-Normale (2)
Lois conditionnelles
g1(η|θ) = Ga
(ν,
1 + (θ − θ0)2
2
),
g2(θ|η) = N(
θ0η
1 + η,
1
1 + η
).
Le paramètre η n’a pas d’intérêt physique et sertuniquement à simplifier la simulation d’un échantillon θ(t).
– p. 11/30
Condition de positivité
Positivité
g(i)(yi) > 0, i = 1, · · · , p ⇒ g(y1, ..., yp) > 0
où g(i) est la loi marginale de Yi (ou support de la loicible g égal au produit cartésien des supports des g(i))
Pour montrer la convergence de l’échantillonneur deGibbs, la loi cible doit vérifier la condition de positivité.
Contre-exempleg(y1, y2) =
1
2π[Iǫ(y1, y2) + Iǫ′(y1, y2)] ,
où ǫ et ǫ′ sont deux disques de rayons 1 centrés sur(1, 1) et (−1,−1)(autre exemple : vecteur non Gaussien dont les lois marginales sont Gaussiennes).
– p. 12/30
Illustration de la non-positivité
Gibbs coincé autour du mauvais mode
−1 0 1 2 3
−1
01
23
µ1
µ2
– p. 14/30
Convergence de l’échantillonneur de Gibbs
Si la condition de positivité est vérifiée et si le noyau detransition est absolument continu par rapport à g, on a
ErgodicitéSi∫|h(y)|g(y)dy < ∞, alors
limT→∞
1
T
T∑
t=1
h(y(t)) =
∫h(y)g(y)dy
Convergence en variation totale
limn→∞
∥∥∥∥∫
Kn(y, ·)µ(dy) − g
∥∥∥∥TV
= 0
pour toute loi initiale µ.
– p. 15/30
Remarques
L’échantillonneur de Gibbs est la composition de p
algorithmes de Metropolis-Hastings avec des probabilitésd’acceptation uniformément égales à 1.
Échantillonneur de Gibbs à balayage aléatoire
– p. 16/30
Le théorème de Hammersley-Clifford
Une loi jointe est caractérisée par l’ensemble de ses loisconditionnelles.
Dimension 2
Si la densité jointe g(y1, y2) a des lois conditionnellesnotées g1(y1|y2) et g2(y2|y1), alors (Hammersley andClifford, 1970)
g(y1, y2) =g2(y2|y1)∫
g2(v|y1)/g1(y1|v) dv.
– p. 17/30
Généralisation
Sous l’hypothèse de positivité, une loi jointe g peuts’écrire
g(y1, . . . , yp) ∝p∏
j=1
gℓj(yℓj
|yℓ1 , . . . , yℓj−1, y′
ℓj+1, . . . , y′
ℓp)
gℓj(y′
ℓj|yℓ1 , . . . , yℓj−1
, y′ℓj+1
, . . . , y′ℓp
)
pour toute permutation l définie sur {1, ..., p} et touty′ ∈ Y.
Exemple : p = 2 et l1 = 1, l2 = 2
g(y1, y2) ∝g1(y1|y′
2)
g1(y′1|y′
2)
g2(y2|y1)
g1(y′2|y1)
On retrouve Hammersley-Clifford !
– p. 18/30
Modèles hiérarchiques
L’échantillonneur de Gibbs est particulièrement bien adaptéaux modèles hiérarchiques :
Les paramètres inconnus sont munis de lois a priori ainsique les hyperparamètres associés
En général, on introduit des lois non informatives audernier niveau de la hiérarchie
– p. 19/30
Exemple
Données Poissonniennes
Xi ∼ P (λ1) pour i = 1, . . . , l1,
Xi ∼ P (λ2) pour i = l1 + 1, . . . , n,
avec l1 connu.
Lois a priori sur les paramètres
λ1 ∼ Ga (α, β) , λ2 ∼ Ga (α, β) , α = 2.
Loi a priori sur les hyperparamètres
f(β) =1
βIR+(β)
– p. 20/30
Loi jointe
f (x,λ, β) ∝ 1
β
l1∏
i=1
[λxi
1
xi!e−λ1
] n∏
i=l1+1
[λxi
2
xi!e−λ2
] 2∏
i=1
βα
Γ (α)λα−1
i e−βλi
Loi conditionnellespour les paramètres λi
λ1|β,x ∼ Ga
(l1∑
i=1
xi + α, β + l1
)
λ2|β,x ∼ Ga
(n∑
i=l1+1
xi + α, β + n − l1
),
pour β
β|x,λ ∼ Ga (2α, λ1 + λ2)Matlab : simu-Poisson
– p. 21/30
Données Poissonniennes cachées
Observations 0 1 2 3 4 ou plus
Nombre 139 128 55 25 13
Données : observations du nombre de données égales à0, 1, 2, 3 et du nombre de données ≥ 4.
Vraisemblance
ℓ(x1, . . . , x5;λ) ∝ e−347λλ128+55×2+25×3
(
1 − e−λ3∑
i=0
λi
i!
)13
,
Idée : on munit λ d’une loi a priori π(λ) = 1/λ et oncomplète ce paramètre par y = (y1, ..., y13).
– p. 22/30
Loi a posteriori
ℓ(λ, y1:13|x1:5) ∝ e−347λλ128+55×2+25×3
(13∏
i=1
λyie−λ
yi!
)1
λ,
Lois conditionnelles
yi|λ ∼ P(λ)Iyi≥4, i = 1, ..., 13
λ|y ∼ Ga(313 +
∑13i=1 yi, 360
)
Estimateur de λ
λ =1
360T
T∑
t=1
(313 +
13∑
i=1
y(t)i
)
Rao-Blackwellization
– p. 23/30
Conditionnement - Rao-Blackwellization
Espérances conditionnelles
E[h(Λ)] = E [E[h(Λ)|Y ]]
EstimateursIci on sait calculer g(Y ) = E[h(Λ)|Y ]. On en déduit deuxestimateurs
I1 =1
T
T∑
t=1
h(Λt)
I2 =1
T
T∑
t=1
g(Y t) =1
T
T∑
t=1
E[h(Λ)|Y t]
Réduction de variance
– p. 24/30
Résultats de simulation
0 100 200 300 400 500
1.02
11.
022
1.02
31.
024
1.02
5
0.9 1.0 1.1 1.2
010
2030
40
lambda
– p. 25/30
Algorithme MCMC hybride
Motivations
La convergence de l’échantillonneur de Gibbs peutêtre lente car on simule une seule composante àchaque itération
Pas de problème avec la loi de proposition commeavec l’algorithme de Metropolis-Hastings
Certaines lois conditionnelles peuvent êtreimpossibles à simuler
Définition : un algorithme MCMC hybride est uneméthode MCMC utilisant simultanément des étapesd’échantillonneur de Gibbs et des étapes deMetropolis-Hastings
– p. 26/30
Algorithme MCMC hybride
Remplacer chaque étape i où une simulation suivant la loiconditionnelle gi(yi|)yj, j 6= i est impossible par
1. Simuler yi ∼ qi(yi|y(t+1)1 , ..., y
(t)i , y
(t)i+1, ..., y
(t)p ),
2. Prendre
y(t+1)i =
yi avec probabilité ρ
y(t)i avec probabilité 1 − ρ
ρ = 1∧
gi
(yi|y(t+1)
1 , ..., y(t)i , y
(t)i+1, ..., y
(t)p
)
gi
(y(t)i |y(t+1)
1 , ..., y(t)i , y
(t)i+1, ..., y
(t)p
)qi
(y(t)i |y(t+1)
1 , ..., yi, y(t)i+1, ..., y
(t)p
)
qi
(yi|y(t)
1 , ..., y(t)i , y
(t)i+1, ..., y
(t)p
)
Remarque : l’étape de Metropolis-Hastings n’est utiliséequ’une fois (et la convergence est assurée).Matlab : metropolis_within_Gibbs
– p. 27/30
Dangers
Modèle à effets aléatoires
Yij = µ + αi + εij, i = 1, . . . , I, j = 1, . . . , J,
avec
αi ∼ N (0, σ2) et εij ∼ N (0, τ 2),
Lois a prioriLa loi a priori de Jeffreys (impropre) pour les paramètresµ, σ et τ est
π(µ, σ2, τ 2) =1
σ2τ 2.
– p. 28/30
Lois conditionnelles
Les lois conditionnelles sont définies par
αi|y, µ, σ2, τ 2 ∼ N(
J(yi − µ)
J + τ 2σ−2, (Jτ−2 + σ−2)−1
),
µ|α, y, σ2, τ 2 ∼ N (y − α, τ 2/JI) ,
σ2|α, µ, y, τ 2 ∼ IG(
I
2,1
2
∑
i
α2i
),
τ 2|α, µ, y, σ2 ∼ IG(
IJ
2,1
2
∑
i,j
(yij − αi − µ)2
),
et sont faciles à simuler. Mais la loi jointe n’existe pas !
– p. 29/30