15
IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres IFT6085-H2014: Modèles Graphiques Probabilistes Prof: Aaron Courville Email: [email protected] Office: 3253 Pav. Andre Aisenstadt Estimation des paramètres 1

Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

IFT6085-H2014: Modèles Graphiques Probabilistes

Prof: Aaron CourvilleEmail: [email protected]

Office: 3253 Pav. Andre Aisenstadt

Estimation des paramètres

1

Page 2: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Estimation des paramètres - L'idée

• Le but de la théorie de l'estimation est d'arriver à un estimateur.- Approche statistique standard prend les données mesurées comme aléatoire

avec une distribution de probabilité dépend d'un ensemble de paramètres.

- L'estimateur prend les données mesurées comme entrée et produit une estimation des paramètres avec une certaine précision.

2

Page 3: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Le fonction de vraisemblance

• Considère que nous avons1. Un modèle paramétré par θ:

2. Un ensemble de données {x1,x2,...,xn}

• Probabilité (densité) de l'ensemble de données:- Spécification de la distribution conjointe des données:

- données indépendantes et identiquement distribuées:

• Vraisemblance:

- Examine la fonction p(x1, x2,..., xn; θ) à partir d'un point de vue différent en considérant les valeurs observées x1, x2,..., xn comme des paramètres fixes, alors que θ est la variable de la fonction.

- Souvent pratique d'utiliser le log vraisemblance:

3

P! = {p(x; !) | ! ! !}

L : ! ! R+

p(x1, x2, . . . , xn; !)

p(x1, x2, . . . , xn; !) =n!

i=1

p(xi; !)

L(! | x1, x2, . . . , xn) =n!

i=1

p(xi; !)

(associe l'espace des paramètres à + ve réels)

lnL(! | x1, . . . , xn) =n!

i=1

ln p(xi; !)

Page 4: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Principe du maximum de vraisemblance

• Estimateur du maximum de vraisemblance:

- Pour le cas de donné i.i.d.:

- Comment pouvons-nous trouver le maximum de vraisemblance

‣ nous pouvons suivre le gradient (monter la pente)

‣ nous pouvons trouver θ qui résout l'équation:

4

!̂ML = argmax!!!

p(x1, . . . , xn; !)

Sir Ronald Fisher(1890-1962)

!̂ML = argmax!!!

n!

i=1

p(xi; !) = argmax!!!

n"

i=1

ln p(xi; !)

∂θlnL(θ | x1, . . . , xn) = 0

Page 5: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Maximum de vraisemblance exemple: loi de Bernoulli

• Bernoulli distribution:

- X est un v.a. binaire:

- The model parameter:

- The Bernoulli p.m.f(x):

5

∂θlnL(θ | x1, . . . , xn) = 0

∂p

n�

i=1

ln f(xi; p) = 0

∂p

n�

i=1

ln pxi(1− p)1−xi = 0

∂p

n�

i=1

xi ln p− (1− xi) ln(1− p) = 0

n�

i=1

xi

p− 1− xi

1− p= 0

n�

i=1

xi(1− p) =n�

i=1

p(1− xi)

n�

i=1

xi − pxi =n�

i=1

p− pxi

n�

i=1

xi = pn�

i=1

1

p =1

n

n�

i=1

x1

X ! Bernoulli(p)

f(x; p) = px(1! p)1!x

x ! {0, 1}

! = p ! ! = [0, 1]

Page 6: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Bayesienne contre Frequentist inférence

• Estimation du maximum de vraisemblance est un exemple d'une approche fréquentiste pour l'estimation des paramètres.

• Frequentist- Suppose qu'il existe un paramètre inconnu mais fixe.

- Estime θ avec une certaine confiance.

- Estimateur est évaluée par ses propriétés (biais, variance, cohérence)

- Prédiction à l'aide de la valeur de paramètre estimée.

• Bayesienne- Représente l'incertitude sur le paramètre inconnu.

- Utilise probabilité de quantifier cette incertitude.

- Paramètres inconnus sont modélisés comme des variables aléatoires.

- Prédiction suit les règles de probabilité.

6

Page 7: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Estimation bayesienne

A priori

• Paramètres θ sont modélisés avec un distribution de probabilité a priori p(θ) -- θ est un variable aléatoire.

• Les données contribuent par la vraisemblance: p(x1,...,xn | θ).

A posteriori

• La probabilité a posteriori des paramètres est alors,

• L'estimateur bayesien est donc une distibution de probabilité sur les paramètres.

7

p(! | x1, . . . , xn) =p(x1, . . . , xn | !)p(!)

p(x)! p(x1, . . . , xn | !)p(!)

Page 8: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

• Compte tenu de la silhouette d'un objet, nous devons inférer l'objet.

Estimation bayesienne: un exemple

• La distribution a priori des objets p(Objet) = p(θ):

8

Figure 1: Objects and Silhouette [9]

The likelihood of a silhouette given an object, P (Silhouette|Object) = P (d|θ),is:

Cube Cylinder Sphere Prism

Square 1.0 0.6 0.0 0.4

Circle 0.0 0.4 1.0 0.0

Trapezoid 0.0 0.0 0.0 0.6

The normalization constant k is given as 1.85.

The posterior distribution of objects given the silhouettes,

P (Object|Silhouette) = P (θ|d) can then be computed. For example, given

θ = Square

P (Cube|Square) = k ∗ 0.2 ∗ 1.0 = 0.37

P (Cylinder|Square) = k ∗ 0.3 ∗ 0.6 = 0.333

P (Sphere|Square) = k ∗ 0.1 ∗ 0.0 = 0.0

P (Prism|Square) = k ∗ 0.4 ∗ 0.4 = 0.296

And thus we have updated our beliefs in the light of newly introduced data.

References

[1] Amos Storkey. Mlpr lectures: Distributions and models.

http://www.inf.ed.ac.uk/teaching/courses/mlpr/lectures/distnsandmodels-

print4up.pdf, 2009. School of Informatics, University of Edinburgh.

[2] J.V. Beck and K.J. Arnold. Parameter estimation in engineering and sci-ence. Wiley series in probability and mathematical statistics. J. Wiley, New

York, 1977.

[3] Algorithms for graphical models (agm) bayesian parameter estima-

tion. www-users.cs.york.ac.uk/ jc/teaching/agm/lectures/lect14/lect14.pdf,

November 2006. University of York, Department of Computer Science.

[4] Chris Williams. Pmr lectures: Bayesian parameter estimation.

http://www.inf.ed.ac.uk/teaching/courses/pmr/slides/bayespe-2x2.pdf,

2008. School of Informatics, University of Edinburgh.

5

• La probabilité d'une silhouette compte tenu un objet, p(Silhouette | Object) = p(données | θ):

Objet Probabilité

cube 0.3

cylindre 0.2

sphère 0.1

prism 0.4

cube cylindre sphère prismcarré 1.0 0.6 0.0 0.4cercle 0.0 0.4 1.0 0.0

trapèze 0.0 0.0 0.0 0.6

• La distribution a posteriori d'un objet compte tenu une silhouette p(Object | Silhouette)

• par ex. si on voit un carré:

p(cube | carré) = k ∗ 0.2 ∗ 1.0 = 0.37

p(cylindre | carré) = k ∗ 0.3 ∗ 0.6 = 0.333

p(sphère | carré) = k ∗ 0.1 ∗ 0.0 = 0.0

p(prism | carré) = k ∗ 0.4 ∗ 0.4 = 0.296

Page 9: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Prédiction bayesien: distribution complète

• On a vu que l'estimateur bayesien est une distibution a posteriori sur les paramètres: p(θ | x1,...,xn).- Cela pose la question, que faisons-nous ce cette distribution?

• Faire des prédictions en utilisant la distribution postérieure complète:

- Interprétation: espérance des prévisions p(xn+1 | θ) pondérée par p(θ | x1,...,xn)

9

p(xn+1 | x1, . . . , xn) =

�p(xn+1, θ | x1, . . . , xn) dθ

=

�p(xn+1, | θ, x1, . . . , xn)p(theta | x1, . . . , xn) dθ

=

�p(xn+1, | θ)p(θ | x1, . . . , xn) dθ

Page 10: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Estimations ponctuelles bayesiens

• Estimation bayésienne donne une alternative à l'estimation ponctuelle du maximum de vraisemblance des paramètres.

• Estimation maximum a posteriori:

• Si la distribution a posteriori est concentrée autour de la valeur la plus probable (MAP):

• Dans la limite n → ∞, θMAP converge vers θML - l'estimation du maximum de vraisemblance (tant que p(θML)≠0)

• Approche bayesienne plus efficace lorsque les données sont limitées (n est petit)

10

!MAP = argmax!

p(! | x1, . . . , xn)

p(xn+1 | x1, . . . , xn) ! p(xn+1 | !MAP)

Page 11: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Estimation Bayésienne des paramètres: loi de Bernoulli

11

• Bernoulli distribution:

- X est un v.a. binaire:

- The model parameter:

- The Bernoulli p.m.f(x):

X ! Bernoulli(p)

f(x; p) = px(1! p)1!x

x ! {0, 1}

! = p ! ! = [0, 1]

a. Distribution a priori f(p): le beta

b. Distribution a posteriori:

f(p) = f(p;!,") ! p!!1(1" p)"!1

• Distribution a posteriori f(p | x1,...,xn) est aussi Beta!

• La distribution Beta est conjugué au vraisemblance binomiale

p | x1, . . . , xn ! Beta

!!+

n"

i=1

xi," +N "n"

i=1

xi

#

f(p | x1, . . . , xn)

∝ f(p)f(x1, . . . , xn | p)

∝ pα−1(1− p)β−1n�

i=1

pxi(1− p)1−xi

= pα−1(1− p)β−1p�n

i=1 xi(1− p)n−�n

i=1 xi

= pα−1+�n

i=1 xi(1− p)β+n−1−�n

i=1 xi

Page 12: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Estimation bayésienne des paramètres: loi Binomiale

• Les détails du traitement de la bayésien binomial est pratiquement identique à celle de Bernoulli.

12

Page 13: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Estimation bayésienne des paramètres: loi Gaussienne

13

-

-

- p.d.f.(x):

• Distribution a priori p(µ)(gaussienne):

X ! N (µ,!2)

x ! R! = (µ,"2) ! ! = R" R+

p(x;µ,!2) =1!2"!2

exp

!"1

2

(x" µ)2

!2

"

• µ soit inconnu et σ2 soit connu.

p(µ;!, "2) =1!2#"2

exp

!"1

2

(µ" !)2

"2

"

• Distribution a posteriori (gaussienne):

• Distribution a posteriori p(µ | x1,...,xn):p(µ | x1, . . . , xn)

∝ p(µ)p(x1, . . . , xn | µ) = p(µ)n�

i=1

p(xi | µ)

∝ exp

�−1

2

(µ− λ)2

ν2

�exp

�−1

2

n�

i=1

(xi − µ)2

σ2

= exp

�−1

2

1

ν2(µ2 − 2µλ+ λ2)− 1

2

1

σ2(

n�

i=1

x2i − 2µ

n�

i=1

xi + nµ2)

= exp

�−1

2

��1

ν2+

n

σ2

�µ2 − 2

�λ

ν2+

1

σ2

n�

i=1

xi

�µ+

λ2

ν2+

1

σ2

n�

i=1

x2i

��

∝ exp

�−1

2

�1

ν2+

n

σ2

��µ2 − 2

�1

ν2+

1

σ2

�−1�

λ

ν2+

1

σ2

n�

i=1

xi

�µ

��

∝ exp

�−1

2

�1

ν2+

n

σ2

��µ2 − 2

�1

ν2+

n

σ2

�−1�

λ

ν2+

1

σ2

n�

i=1

xi

�µ

��

∝ exp

−1

2

�1

ν2+

n

σ2

��µ−

�1

ν2+

n

σ2

�−1�

λ

ν2+

1

σ2

n�

i=1

xi

��2

∝ exp

−1

2

�1

ν2+

n

σ2

��µ−

�σ2

nν2 + σ2λ+

ν2

nν2 + σ2

n�

i=1

xi

��2

p(µ | x1, . . . , xn) = p(µ;λ†, ν2† )

λ† =

�1

ν2+

1

σ2

�−1�

λ

ν2+

1

σ2

n�

i=1

xi

ν† =

�1

ν2+

1

σ2

�−1

Page 14: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

• Distribution a posteriori (gaussienne):

14

Estimation bayésienne des paramètres: loi Gaussienne

p(µ | x1, . . . , xn) = p(µ;λ†, ν2† )

λ† =

�1

ν2+

1

σ2

�−1�

λ

ν2+

1

σ2

n�

i=1

xi

ν2† =

�1

ν2+

1

σ2

�−1

Page 15: Estimation des paramètrescourvila/IFT6085/03_fr_param_estim… · P (Object|Silhouette)=P (θ|d) can then be computed. For example, given θ = Square P (Cube|Square)=k ∗ 0.2 ∗

IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres

Conjugaison bayésienne

• il y a plusieur paires de distributions conjugués.

15

INGREDIENTS FOR BAYESIAN INFERENCE 9

Crediblesets

Bayesianstatistics!intervalestimation

Likelihood Prior Posterior

X|θ ∼ N (θ, σ2) θ ∼ N (µ, τ2) θ|X ∼ N ( τ2

σ2+τ2 X + σ2

σ2+τ2 µ, σ2τ2

σ2+τ2 )

X|θ ∼ B(n, θ) θ ∼ Be(α, β) θ|X ∼ Be(α + x, n− x + β)

X|θ ∼ P(θ) θ ∼ Gamma(α, β) θ|X ∼ Gamma(P

i Xi + α, n + β).

X|θ ∼ NB(m, θ) θ ∼ Be(α, β) θ|X ∼ Be(α + mn, β +Pn

i=1 xi)

X ∼ Gamma(n/2, 1/(2θ)) θ ∼ IG(α, β) θ|X ∼ IG(n/2 + α, x/2 + β)

X|θ ∼ U(0, θ) θ ∼ Pa(θ0, α) θ|X ∼ Pa(max{θ0, X1, . . . , Xn}, α + n)

X|θ ∼ N (µ, θ) θ ∼ IG(α, β) θ|X ∼ IG(α + 1/2, β + (µ−X)2/2)

X|θ ∼ Gamma(ν, θ) θ ∼ Ga(α, β) θ|X ∼ Gamma(α + ν, β + x)

Table 1.1 Some conjugate pairs. Here X stands for a sample of size n, X1, . . . , Xn.

1.2.4 Interval Estimation: Credible Sets

Bayesians call interval estimators of model parameters credible sets. Natu-

rally, the measure used to assess the credibility of an interval estimator is

the posterior distribution. Students learning concepts of classical confidence

intervals (CIs) often err by stating that “the probability that the CI interval

[L,U ] contains parameter θ is 1−α”. The correct statement seems more con-

voluted; one needs to generate data from the underlying model many times

and for each generated data set to calculate the CI. The proportion of CIs cov-

ering the unknown parameter “tends to” 1− α. The Bayesian interpretation

of a credible set C is arguably more natural: The probability of a parameter

belonging to the set C is 1− α. A formal definition follows.

Assume the set C is a subset of Θ. Then, C is credible set with credibility

(1− α)100% if

P (θ ∈ C|X) = E(I(θ ∈ C)|X) =

Cπ(θ|x)dθ ≥ 1− α.

If the posterior is discrete, then the integral is a sum (using the counting

measure) and

P (θ ∈ C|X) =

θi∈C

π(θi|x) ≥ 1− α.

This is the definition of a (1−α)100% credible set, and for any given posterior

distribution such a set is not unique.

For a given credibility level (1−α)100%, the shortest credible set has obvi-