21
S. Tisserant Eléments de Statistique 2009 2-1 Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire des estimateurs de paramètres caractérisant une loi de probabilité à partir d’un échantillon de mesures. Considérons un échantillon x = {x i } i=1,…,n de n réalisations d’une variable aléatoire X. Nous supposons que la loi de probabilité suivie par cette variable aléatoire dépend d’un ensemble de paramètres que nous notons . Considérons la probabilité d’observer l’échantillon : P(x;). L’échantillon étant fixé, c’est une fonction des paramètres que nous dénommons vraisemblance : ) ; ( P ) ( x θ L Le principe consiste à estimer les paramètres en cherchant les valeurs de maximisant la probabilité de l’échantillon donc la vraisemblance. C’est la méthode du maximum de vraisemblance, proposée par R. Fisher dans les années 1920. Si les réalisations sont indépendantes et que la densité de probabilité de la variable aléatoire est p(x;), la vraisemblance s’écrit : n 1 i i ) ; x ( p ) ; ( P ) ( x θ L Dans la pratique on cherche souvent le maximum du logarithme de la vraisemblance. Le logarithme étant monotone croissant c’est équivalent. Le produit précédent devient alors une somme : n 1 i i ) ; x ( p ln ) ( ln θ L L’intérêt de cette méthode réside dans le fait que sous des conditions générales peu restrictives, un estimateur obtenu par maximum de vraisemblance possède les propriétés suivantes : - il est approximativement non biaisé ; - il a approximativement la plus faible variance ; - il suit approximativement une distribution normale. D’autre part, si est l’estimateur de obtenu par maximum de vraisemblance alors, pour toute fonction h, la quantité ) ( h est estimateur par maximum de vraisemblance de h(). A titre d’exemple et comme référence nous commençons par appliquer la méthode du maximum de vraisemblance à l’estimation des deux paramètres d’une loi normale.

Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-1

Maximum de vraisemblance

A. Définition

La vraisemblance est utilisée pour construire des estimateurs de paramètres caractérisant une

loi de probabilité à partir d’un échantillon de mesures.

Considérons un échantillon x = {xi}i=1,…,n de n réalisations d’une variable aléatoire X. Nous

supposons que la loi de probabilité suivie par cette variable aléatoire dépend d’un ensemble

de paramètres que nous notons . Considérons la probabilité d’observer l’échantillon : P(x;).

L’échantillon étant fixé, c’est une fonction des paramètres que nous dénommons

vraisemblance :

);(P)( xθL

Le principe consiste à estimer les paramètres en cherchant les valeurs de maximisant la

probabilité de l’échantillon donc la vraisemblance. C’est la méthode du maximum de

vraisemblance, proposée par R. Fisher dans les années 1920.

Si les réalisations sont indépendantes et que la densité de probabilité de la variable aléatoire

est p(x;), la vraisemblance s’écrit :

n

1i

i );x(p);(P)( xθL

Dans la pratique on cherche souvent le maximum du logarithme de la vraisemblance. Le

logarithme étant monotone croissant c’est équivalent. Le produit précédent devient alors une

somme :

n

1i

i );x(pln)(ln θL

L’intérêt de cette méthode réside dans le fait que sous des conditions générales peu

restrictives, un estimateur obtenu par maximum de vraisemblance possède les propriétés

suivantes :

- il est approximativement non biaisé ;

- il a approximativement la plus faible variance ;

- il suit approximativement une distribution normale.

D’autre part, si

est l’estimateur de obtenu par maximum de vraisemblance alors, pour

toute fonction h, la quantité )(h

est estimateur par maximum de vraisemblance de h().

A titre d’exemple et comme référence nous commençons par appliquer la méthode du

maximum de vraisemblance à l’estimation des deux paramètres d’une loi normale.

Page 2: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-2

B. Estimation des paramètres d’une loi normale

B.1. Fonction de vraisemblance

Considérons un échantillon x = {xi}i=1,…,n de n réalisations indépendantes d’une variable

aléatoire suivant une loi normale de valeur moyenne µ et de variance 2 : N(µ, ). La

fonction de vraisemblance a pour expression :

n

1i2

2i

2

)µx(exp

2

1),µ(L

Soit :

n

1i2

2in

2

)µx(exp2),µ(L

Prenons le logarithme, il vient à une constante additive près :

n

1i2

2i

2

)µx()ln(n),µ(lnln LL

B.2. Estimation de la valeur moyenne

Cherchons le maximum de la vraisemblance par rapport au paramètre µ. Dérivons la log-

vraisemblance par rapport à µ :

µnx1)µx(

µ

lnn

1i

i2

n

1i2

iL

Cela nous permet de déterminer l’optimum de la vraisemblance :

n

1i

i0 xn

1µ0

µ

lnL

Cet optimum correspond à l’estimateur empirique de la moyenne. Nous avons pour le

maximum :

n

1i2

20i

02

)µx()ln(n),µ(ln L

Nous avons vu que l’erreur sur l’estimateur empirique est :

Page 3: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-3

Calculons la valeur de la fonction de vraisemblance pour :

nsµsµµ 0µ0s

C’est-à-dire la valeur de la fonction de vraisemblance à s déviations standards de l’optimum.

n

1i2

2si

s2

)µx()ln(n),µ(ln L

Considérons la somme du terme de droite :

n

1i

2

0i

n

1i

2si

nsµx)µx(S

Développons :

nsn)µx(

ns2)µx(S

22

n

1i

0i

n

1i

20i

Soit :

22n

1i

20i s)µx(S

Reportons dans l’expression de la fonction de vraisemblance, il vient :

2

s

2

)µx()ln(n,

nsµln

2n

1i2

20i

0

L

Soit :

2

s),µ(ln,

nsµln

2

00

LL

En particulier :

2

1),µ(ln,

nµln 00

LL

A un écart standard de l’optimum le logarithme de la fonction de vraisemblance est diminué

de 1/2 par rapport au maximum.

Plaçons nous à l’optimum pour la valeur moyenne et cherchons le maximum par rapport au

second paramètre . Calculons la dérivée :

Page 4: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-4

n

1i3

20i )µx(nlnL

Soit :

n)µx(1ln

n

1i2

20iL

Celle-ci s’annule pour :

n

1i

20i

20 )µx(

n

10

lnL

Nous retrouvons également l’estimateur empirique dont nous savons qu’il est biaisé.

Cependant lorsque n tend vers l’infini le biais tend vers 0 : l’estimateur est

approximativement non biaisé.

La fonction de vraisemblance a pour maximum :

n

1i2

0

20i

0002

)µx()ln(n),µ(ln L

n

1i

20i

n

1i

20i

000

)µx(n

12

)µx(

)ln(n),µ(ln L

Soit :

2

1)ln(n),µ(ln 000L

Déterminons l’intervalle de confiance sur 0 : cherchons tel que :

2

1),µ(ln),µ(ln 000 LL

Posons :

)1(0

La fonction de vraisemblance s’écrit :

n

1i22

0

20i

00)1(2

)µx()]1(ln[n),µ(ln L

Page 5: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-5

n

1i2

0

20i

2002

)µx(

)1(

1)]1(ln[n),µ(ln L

200

)1(2

n)]1(ln[n),µ(ln

L

Nous supposons petit, ce qui nous permet de faire des développements limités au deuxième

ordre :

)(o2

)ln()]1(ln)ln()]1(ln[ 22

000

)(o321)1(

1 22

2

Reportons dans l’expression de la vraisemblance, il vient :

)321(2

n

2)ln(n),µ(ln 2

2

00

L

200 n

2

1)ln(n),µ(ln

L

Nous reconnaissons le maximum :

2000 n),µ(ln),µ(ln LL

L’intervalle de confiance à un écart standard est donc défini par :

n2

1

2

1n 2

Ce qui nous donne pour l’erreur sur l’estimation de l’écart-type :

n2

0

C. Estimation d’un paramètre par maximum de vraisemblance

C.1. Estimation d’un paramètre

Résumons le principe d’estimation d’un paramètre par la méthode du maximum de

vraisemblance, que nous avons suivi avec l’exemple de la loi normale. Après construction de

Page 6: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-6

la fonction de vraisemblance L() on calcule son logarithme qu’il faut dériver pour

déterminer les extrema :

0)(ln

L

Il faut ensuite sélectionner le maximum 0 car il peut y avoir plusieurs extrema. L’intervalle

de confiance [-, +] peut être déterminé en résolvant :

2

1)(ln)(ln 0 LL

Effectuons un développement limité au voisinage du maximum. Nous avons :

202

02

00

0 )()(ln

2

1)(

)(ln)(ln)(ln

LLLL

202

02

0 )()(ln

2

1)(ln)(ln

LLL

La courbe se comporte comme une parabole au voisinage du maximum et un écart standard

est tel que :

2

1)(

)(ln

2

1 202

02

L

Ce qui nous donne pour l’erreur sur l’estimation du paramètre :

1

2

02

20

2 )(ln)(

L

Fig. 2-1 : Interprétation géométrique du maximum de vraisemblance

Page 7: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-7

La figure 2-1 donne une interprétation géométrique de la détermination de l’estimation d’un

paramètre et de son intervalle de confiance.

C.2. Estimation de deux paramètres ou plus

La méthode se généralise à deux paramètres et plus. Pour chaque paramètre l’optimum annule

la dérivée partielle correspondante. La matrice des variances-covariances est donnée par

l’inverse de la matrice Hessienne évaluée au maximum :

1

ji

2

ijln

V

L

Revenons à la loi normale et calculons la matrice Hessienne :

2

22

2

2

2

),µ(ln

µ

),µ(ln

µ

),µ(ln

µ

),µ(ln

H

LL

LL

Partons des dérivées partielles du premier ordre :

n

1i3

2i

n

1i

i2

)µx(n),µ(ln

µnx1

µ

),µ(ln

L

L

Calculons les dérivées du deuxième ordre :

n

1i4

2i

22

2

n

1i3

i2

22

2

)µx(3

n),µ(ln

)µx(2

µ

),µ(ln

n

µ

),µ(ln

L

L

L

Ce qui nous donne à l’optimum :

Page 8: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-8

n

1i

20i

20

n

1i

i0

)µx(n

1

xn

22

002

002

22

002

n2),µ(ln

),µ(ln

n

µ

),µ(ln

L

L

L

Nous en déduisons la matrice de variances-covariances :

n20

0n

n20

0n

2

21

2

2

µ2

µ

Nous retrouvons le résultat sur les erreurs :

0

n2

n

µ

2

De plus nous constatons que les estimateurs µ0 et 0 ne sont pas corrélés.

C.3 Intervalles de confiance

La technique du maximum de vraisemblance permet de définir des estimateurs et d’évaluer

les erreurs sur ces estimations. En termes d’écarts standards nous définissons un domaine de

confiance à s déviations standards par la relation :

2

sln)(ln

2

max LL θ

La probabilité associée à un domaine de confiance ainsi défini dépend du nombre n de

paramètres estimés. En termes de niveau de confiance nous définissons un domaine de

confiance correspondant à un niveau de confiance par la relation :

2

Qln)(ln max

LL θ

Page 9: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-9

où la quantité Q correspond au quantile d’ordre d’une loi de 2 à n degrés de liberté.

)n(Q 2

n étant le nombre de paramètres estimés par maximum de vraisemblance.

La table 2-1 donne les valeurs numériques de Q pour quatre niveaux de confiance de 68 à

99 % pour les cinq premières valeurs de n.

n = 1 n = 2 n = 3 n = 4 n = 5

68.3 % 1.00 2.30 3.53 4.72 5.89

90.0 % 2.71 4.61 6.25 7.78 9.24

95.0 % 3.84 5.99 7.81 9.49 11.1

99.0 % 6.63 9.21 11.3 13.3 15.1

Table 2-1 : Quantité Q définissant un domaine de confiance obtenu par maximum de

vraisemblance selon le niveau de confiance et le nombre de paramètres estimés n.

D. Fonction de vraisemblance de deux paramètres

L’exemple précédent constitue un cas particulier (sans corrélation) d’une fonction de

vraisemblance à deux paramètres. Nous nous proposons ici de jeter un œil sur le cas général.

Considérons une fonction de vraisemblance à 2 variables L(x,y). Notons x0 et y0 les

paramètres optimaux. Nous pouvons développer la vraisemblance au voisinage du maximum

sous la forme :

20yy00xy

20xx00 )yy(M)yy()xx(M2)xx(M

2

1)y,x(ln)y,x(ln LL

Avec :

)y,x(

y

)y,x(lnM

)y,x(yx

)y,x(lnM

)y,x(x

)y,x(lnM

002

2

yy

00

2

xy

002

2

xx

L

L

L

Il s’agit d’un paraboloïde. Comme nous sommes au voisinage d’un maximum nous avons :

0MMMet0M,0M2

xyyyxxyyxx

Notons M la matrice définie positive :

Page 10: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-10

yyxy

xyxx

MM

MMM

Son inverse nous donne la matrice de covariance V :

xxxy

xyyy

2xyyyxx

1

2yyx

yx2

x

2yxy

xy2

x

MM

MM

MMM

1MV

Nous en déduisons :

yyxx

xy

2xyyyxx

xyxy

2xyyyxx

xx2y

2xyyyxx

yy2x

MM

M

MMM

M

et

MMM

M

MMM

M

Nous pouvons également exprimer la matrice M à partir des covariances :

2xyx

yx2

y

22y

2x

1

yyxy

xyxx

)1(

1V

MM

MMM

Ce qui nous donne :

)1(M

)1(

1M

)1(

1M

2yx

xy

22y

yy

22x

xx

Nous pouvons donc réécrire le développement de la fonction de vraisemblance au voisinage

du maximum sous la forme :

2y

20

y

0

x

0

2x

20

200)yy()yy()xx(

2)xx(

)1(2

1)y,x(ln)y,x(ln LL

Le domaine de confiance correspondant à s déviations standards est défini par :

2

s)y,x(ln)y,x(ln

2

00 LL

Page 11: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-11

Il s’agit d’une ellipse d’équation :

)1(s)yy()yy()xx(

2)xx( 22

2y

20

y

0

x

0

2x

20

Pour une déviation standard (s = 1) cette ellipse s’inscrit dans un rectangle de largeur 2x et

de hauteur 2y (fig. 2-2). La rotation des deux axes principaux de l’ellipse dépend de la

corrélation entre les deux paramètres. Nous avons :

2y

2x

yx22tan

Les points d’intersection de la droite y = y0 avec l’ellipse ont pour abscisses :

2x0 1xx

Ils sont matérialisés sur la figure 2-2 par le segment noir.

Fig. 2-2 : Domaine de confiance correspondant à une déviation standard

pour l’estimation simultanée de deux paramètres

Page 12: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-12

Cherchons le lieu des maxima par rapport à x. Dérivons la vraisemblance par rapport à x :

y

0

x2

x

0

2

)yy(12

)xx(2

)1(2

1

x

)y,x(ln L

Elle s’annule pour :

)xx(yy 0x

y0

C’est une droite (en rouge sur la figure). De même le lieu des maxima par rapport à y est une

droite d’équation :

)xx(yy 0x

y0

en bleu sur la figure. Le long de cette droite la vraisemblance a pour expression :

2x

202

2x

20

2x

20

200)xx()xx(

2)xx(

)1(2

1)y,x(ln)x('ln LL

Soit :

2

x

20

002

)xx()y,x(ln)x('ln

LL

Nous retrouvons l’intervalle de confiance à une déviation standard :

x000 xx2

1)y,x(ln)x('ln LL

E. Fonction de vraisemblance étendue

Parfois le nombre n des mesures n’est pas décidé arbitrairement par l’expérimentateur mais il

peut lui-même constituer une variable aléatoire. Il peut par exemple suivre une loi de

Poisson :

!ne);n(P

n

La fonction de vraisemblance doit alors être étendue :

n

1i

i

n

);x(p!n

e);n(P);(P),( xθL

Soit pour la log-vraisemblance :

Page 13: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-13

)!nln();x(pln)ln(n),(ln

n

1i

i

θL

Le nombre moyen d’événements attendus constitue alors un nouveau paramètre à estimer.

S’il est indépendant des autres paramètres il vient :

n0

n1

),(ln

θL

Cependant dans certains cas ce nombre moyen peut être prédit par le modèle étudié et, par

exemple, dépendre des paramètres . La fonction de vraisemblance étendue s’écrit alors :

)!nln();x(pln)(lnn)()(ln

n

1i

i

θθθL

Soit encore :

)!nln();x(p)(ln)()(ln

n

1i

i

θθθL

F. Maximum de vraisemblance et histogramme

Lorsque le nombre de mesures est grand il est possible de travailler avec un histogramme sans

perte importante d’information. Considérons une variable aléatoire x ayant pour densité de

probabilité f(x;). Nous effectuons n tirages indépendants de celle-ci. Les nombres

d’apparition sont mémorisés dans un histogramme divisé en k boîtes de même largeur. Nous

notons ni le nombre de tirage observé dans la boîte i.

Nous supposons la largeur x des boîtes suffisamment petite pour pouvoir écrire la probabilité

d’avoir un tirage dans la boîte i sous la forme :

);x(fxp ii

où xi représente le milieu de la boîte. Nous supposons également que la couverture de

l’histogramme est telle que la probabilité d’avoir un tirage hors de l’histogramme est

négligeable.

F.1. Normalisation fixe

Si le nombre total de tirages n est fixé par l’expérimentateur la distribution des nombres

{ni}i=1,…,k suit une loi multinomiale :

k21 nk

n2

n1

k21k21 p...pp

!n...!n!n

!n)n,...,n,n(P

Page 14: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-14

En tenant compte de l’expression des probabilités pi, nous avons pour la fonction de

vraisemblance :

k21 nk

n2

n1

n

k21

);x(f...);x(f);x(fx!n...!n!n

!n)( L

Soit :

k

1i

ni

n

k21

i);x(fx!n...!n!n

!n)( L

Ce qui nous donne pour le logarithme :

C);x(flnn)(ln

k

1i

ii

L

La constante C regroupe les contributions de tous les termes indépendants des paramètres.

F.2. Normalisation libre

Nous supposons le nombre total de tirages n aléatoire. Si par exemple celui-ci suit une loi de

Poisson de moyenne µ la probabilité d’observer la distribution {ni}i=1,…,k devient :

k21 nk

n2

n1

k21

k21 p...pp!n...!n!n

!n

!n

µe)n,...,n,n,n(P

Nous pouvons donc écrire pour la fonction de vraisemblance :

k

1i

ni

µnn

k21

i);x(feµx!n...!n!n

1)( L

Soit pour le logarithme en n’explicitant que les termes faisant apparaître que les paramètres

et µ :

C);x(flnnµ)µln(n)(ln

k

1i

ii

L

La valeur moyenne µ peut éventuellement être fonction des paramètres , par exemple si le

modèle analysé prédit le nombre total moyen d’événements attendus. Par contre si µ ne

dépend pas a priori des autres paramètres il vient :

nµ01µ

n

µ

)(ln

L

Page 15: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-15

G. Méthode des poids

G.1. Position du problème

La méthode des poids a été présentée par Louis Behr dans sa Thèse d’Etat en 1965. Nous

considérons un lot de n événements indépendants qui peuvent se répartir entre différentes

classes C indépendantes, disjointes et exhaustives. Notons p la probabilité pour qu’un

événement soit du type , avec :

1p

Nous supposons que chaque événement i est caractérisé par un ensemble de mesures xi. Nous

supposons également que nous connaissons a priori pour chaque famille C la densité de

probabilité des variables aléatoires xi : f(xi), avec naturellement :

1d)(f xx

Nous voulons déterminer la répartition des événements entre les différentes classes.

Nous pouvons écrire la densité de probabilité d’observer les mesures x :

)(fp)(f xx

Pour calculer la densité de probabilité d’observer un ensemble de n mesures {xi}i=1,…,n nous

devons distinguer deux cas selon que n est une variable aléatoire ou pas.

G.2. Normalisation fixe

Supposons que le nombre n est fixé arbitrairement. Ce n’est pas une variable aléatoire. Les n

événements étant indépendants nous avons pour la probabilité d’observation :

n

1i

in,...,1ii )(fpP xx

Celle-ci dépend des proportions p que nous voulons estimer. Nous pouvons construire la

fonction de vraisemblance de ces paramètres :

n

1i

i )(fpp xL

Soit encore pour le logarithme :

Page 16: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-16

n

1i

i )(fplnpln xL

Nous devons chercher le maximum de cette vraisemblance avec la contrainte :

1p

Nous introduisons donc un multiplicateur de Lagrange et maximisons :

pµ)(fplnpF

n

1i

ix

Dérivons :

µ)(fp

)(f

p

Fn

1i i

i

x

x

Ce qui conduit au système d’équations :

n

1i i

i

)(fp

)(fµ0

p

F

x

x

Ce qui nous permet d’écrire :

n

1i i

i

)(fp

)(fppµµ

x

x

Ce qui nous donne en sommant sur toutes les classes :

n)(fp

)(fp

n

1i i

i

x

x

Nous avons donc pour le multiplicateur de Lagrange :

Reportons dans le système d’équations. Il vient :

Page 17: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-17

n

1i i

i

)(fp

)(fppnµ

x

x

Ce système peut se résoudre par itérations. Il peut également s’écrire :

n

1i i

i

)(fµ

)(fµµ

x

x

Les paramètres µ représentent les nombres moyens d’événements de chaque type parmi les n

événements.

D’autre part la quantité :

)(fp

)(fp

)(fµ

)(fµ)i(

i

i

i

i

x

x

x

x

est appelée poids de l’événement i dans l’hypothèse . Ces poids vérifient :

1)i(

Le nombre moyen d’événements d’une famille C est égal à la somme sur tous les

événements de leur poids dans l’hypothèse correspondante :

n

1i

)i(µ

G.3. Normalisation libre

Nous supposons ici que le nombre total d’événements puisse être considéré comme une

variable aléatoire obéissant à une loi de Poisson de valeur moyenne µ.

Nous avons pour la densité de probabilité d’observer les n événements :

n

1i

n

n,...,1ii )(fpe!n

µP xx

Soit :

Page 18: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-18

n

1i

n,...,1ii )(fpµe!n

1P xx

Posons :

µµavecpµµ

Nous pouvons écrire avec ces notations :

n

1i

n,...,1ii )(fµe!n

1P xx

Ce qui nous donne la fonction de vraisemblance des paramètres µ :

n

1i

)(fµe!n

1µ xL

Soit encore pour le logarithme, à une constante additive près :

Cµ)(fµlnµln

n

1i

i

xL

Dérivons :

µ)(fµ

)(f

µ

µlnn

1i i

i

x

xL

La recherche du maximum nous conduit à un système d’équations identiques au premier cas

(normalisation fixe) :

n

1i i

i

)(fµ

)(fµµ

x

x

L’estimateur du nombre moyen µ est naturellement :

nµµ

Page 19: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-19

G.4. Exemple

A titre d’exemple nous considérons un cas limité à deux familles. Nous nous intéressons à une

variable aléatoire x. Les événements peuvent être du type signal (s) ou bruit de fond (b). Les

deux densités de probabilités, fs(x) et fb(x), sont supposées connues. On réalise une expérience

qui enregistre n mesures {xi}i=1,…,n. On souhaite déterminer la répartition du signal et du bruit,

µs et µb, parmi ces n événements.

Nous devons résoudre par itérations le système de deux équations suivant :

n

1iibbiss

ibbb

n

1i ibbiss

isss

)x(fµ)x(fµ

)x(fµµ

)x(fµ)x(fµ

)x(fµµ

A titre d’illustration, nous avons réalisé une simulation simple d’une expérience de ce type.

Nous avons supposé les mesures bornées sur l’intervalle [a, b] et nous avons pris pour la

densité de probabilité du signal une gaussienne et pour le bruit de fond une distribution

exponentielle :

baxb

2

20

s

eeAaveceA

)x(f

2

)xx(exp

2

1)x(f

Pour l’analyse toutes les quantités x0, et caractérisant ces densités de probabilité sont

considérées comme connues.

Dans l’exemple présenté ici nous avons pris :

60µet6µ,2b,0a,2.0,05.0,1x bs0

Les figures présentées correspondent à une réalisation comportant 71 événements dont 9

correspondent à du signal. La figure 3 présente l’allure de la fonction de vraisemblance en

fonction des deux paramètres à estimer µs et µb. La recherche de l’optimum conduit à

l’estimation suivante :

1.63µet9.7µ bs

Le contour tracé sur la figure 2-3 correspond à une déviation standard. Il nous permet

d’estimer un intervalle de confiance pour chacun des paramètres. Nous avons :

9.71,1.55µet1.12,3.4µ bs

Page 20: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-20

Ces intervalles ne sont pas parfaitement symétriques par rapport à l’optimum.

Fig. 2-3 : Fonction de vraisemblance pour notre simulation

Fig. 2-4 : Distribution de la variable aléatoire x pour notre simulation

Page 21: Maximum de vraisemblancesylvain.tisserant.perso.luminy.univ-amu.fr/statistiques/chapitre 2.pdf · Maximum de vraisemblance A. Définition La vraisemblance est utilisée pour construire

S. Tisserant – Eléments de Statistique – 2009 2-21

Remarquons l’importance de la connaissance a priori des densités de probabilité. La figure 2-

4 montre la distribution de la variable aléatoire x pour notre réalisation. Sans information

supplémentaire il serait difficile de mettre en évidence le signal.