29
75 Théorie de l’estimation Estimation de paramètres déterministes. Biais et variance d’estimation. Estimateurs non-biaisés de variance minimale. Maximum de vraisemblance. Borne de Cramér Rao. Consistance et efficacité. Estimation dans le modèle linéaire. Identification. Estimation MV des paramètres d’un modèle ARMA. Prédiction linéaire. La méthode de Prony et la méthode de Pisarenko. Méthodes d’haute résolution. 4.1 Estimation de paramètres déterministes _________________________________ 76 4.2 Biais et variance d’estimation _________________________________________ 76 4.3 Maximum de vraisemblance __________________________________________ 77 4.4 Borne de Cramer-Rao _______________________________________________ 79 4.5 Efficacité. _________________________________________________________ 80 Cas vectoriel_______________________________________________________________ 83 4.6 Le modèle linéaire __________________________________________________ 83 4.7 Identification ______________________________________________________ 86 4.8 Identification MV des paramètres d’un modèle ARMA _____________________ 87 4.9 Prédiction linéaire et la méthode de Prony _______________________________ 90 4.10 Méthode de Prony _________________________________________________ 92 4.11 Méthode de Pisarenko ______________________________________________ 94 Exercices_____________________________________________________________ 98 ANNEXE 1: Gradients vectoriels et matriciels______________________________ 100 Gradients vectoriels________________________________________________________ 100 Gradients Matriciels _______________________________________________________100 ANNEXE 2: Inversion de matrices _______________________________________ 102

Théorie de l’estimation

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Théorie de l’estimation

75

Théorie de l’estimation

Estimation de paramètres déterministes. Biais et variance d’estimation. Estimateursnon-biaisés de variance minimale. Maximum de vraisemblance. Borne de CramérRao. Consistance et efficacité. Estimation dans le modèle linéaire. Identification.Estimation MV des paramètres d’un modèle ARMA. Prédiction linéaire. Laméthode de Prony et la méthode de Pisarenko. Méthodes d’haute résolution.

4.1 Estimation de paramètres déterministes _________________________________ 76

4.2 Biais et variance d’estimation _________________________________________ 76

4.3 Maximum de vraisemblance __________________________________________ 77

4.4 Borne de Cramer-Rao _______________________________________________ 79

4.5 Efficacité. _________________________________________________________ 80

Cas vectoriel_______________________________________________________________83

4.6 Le modèle linéaire __________________________________________________ 83

4.7 Identification ______________________________________________________ 86

4.8 Identification MV des paramètres d’un modèle ARMA_____________________ 87

4.9 Prédiction linéaire et la méthode de Prony_______________________________ 90

4.10 Méthode de Prony _________________________________________________ 92

4.11 Méthode de Pisarenko ______________________________________________ 94

Exercices_____________________________________________________________ 98

ANNEXE 1: Gradients vectoriels et matriciels______________________________ 100

Gradients vectoriels________________________________________________________100

Gradients Matriciels _______________________________________________________100

ANNEXE 2: Inversion de matrices _______________________________________ 102

Page 2: Théorie de l’estimation
Page 3: Théorie de l’estimation

77

c’est-à-dire, l’estimée varie autour de la vraie valeur du paramètre.

On désigne la différence { } θθθ −|)(ˆ rE par biais d’estimation. Il nous indique la valeur

moyenne de l’erreur d’estimation θθε −= )(ˆ r .Trois cas sont possibles

• { } θθθ =|)(ˆ rE pour toutes les valeurs possibles du paramètre. On dit alors quel’estimée est non-biaisée ;

• { } B+=θθθ |)(ˆ rE où B est indépendent de θ. Dans ce cas l’estimateur a un biaisconstant et connu, qui peut toujours être eliminé ;

• { } )(|)(ˆ θθθθ B+=rE , c’est-à-dire, on a un biais qui dépend de θ (qui est inconnu).

On désire en général avoir des estimateurs qui soient non-biaisés. Cependant, unestimateur peut être non-biaisé et être de mauvaise qualité, s’il produit, avec une grandeprobabilité, des estimés qui sont très différentes de la vraie valeur. Une deuxièmecaractéristique importante d’un estimateur est la variance de l’erreur d’estimation :

[ ] ( ) 22)(|)(ˆ|)(ˆvar θθθθθθθ B−

−=− rEr

Cette variance doit être aussi petite que possible, de façon à que l’estimée soit concentréeautour de la vraie valeur du paramètre.

Estimateurs non-biaisés à variance minimaleLa conjonction des deux critères décrits conduit la définition d’estimées non-biaisées àvariance minimale. Il n’existe pas de procédure génerale pour déterminer ces estimées.

Pour des modèles linéaires avec des observations gaussiennes, comme nous le verronsdans la section 4.6, l’estimée non-biaisée de variance minimale existe, et est égale àl’estimée de Maximum de Vraisemblance (voir section 4.3).

4.3 Maximum de vraisemblanceLes estimateurs de maximum de vraisemblance correspondent à prendre comme

estimateur la valeur )(ˆ rmvθ qui rend les données plus probables :

)(ˆ),|())(ˆ|( rrrr mvmv pp θθθθ ≠>Nottons que dans cette équation la densité conditionnelle n’est pas utilisée en tant quetelle – c’est-à-dire, comme fonction de r – mais plutôt comme fonction du paramètreestimer θ. Cette fonction s’appelle fonction de vraisemblance, et, d’une façon analogueau rapport de vraisemblance pour les tests d’hypothèses, elle joue un rôle majeur dans lathéorie de l’estimation. Maximiser la fonction de vraisemblance L(r,θ)

)|()|( θθ rr pL =est équivalent maximiser son logarithme, et donc,

)|(log),(),,(maxarg),(maxarg)(ˆ θθθθθθ

rrrrr pLmv =ΛΛ==

Page 4: Théorie de l’estimation

78

Si le maximum de L(r|θ) est un point intérieur de Θ, et L( r|θ) est une fonction continuede θ, une condition nécessaire, qui doit être vérifiée par l’estimée du Maximum devraisemblance est

0)|(ln

ˆ

=∂

= mv

p

θθθθr

Les estimateurs du maximum de vraisemblance possèdent plusieurs propriétésasymptotiques (quand le nombre d’observations, N, est grand) :

• Consistance. On dit qu’un estimateur est consistent s’il tend vers la vraie valeur duparamètre quand le nombre d’observations tend vers infini :

θθ → ∞→N)(r

où la convergence doit être entendue en probabilité. Les estimateurs du maximum devraisemblance sont consistents.

• Les estimateurs du maximum de vraisemblance sont asymptotiquement normales.

Exemple 4.1Soit X=(xo,x1) deux échantillons indépendents d’une variable aléatoire uniforme dans l’intervalle[0,θ]. On désire déterminer l’estimé de Maximum de Vraisemblance de θ.

La densité conditionnelle qui décrit les observations est

>>

≤≤=

==

θθ

θθθ

θθθθ

10

102

1010

ou , si,0

et , si,1

)|().|()|,()|(

xx

xx

xpxpxxpxp

(désinez cette fonction)Ecrivons maintenant cette fonction comme fonction de θ :

<

≥=),max(,0

),max(,1

)|,(

10

10210

xx

xxxxpθ

θθθ

On peut donc vérfier que la fonction de vraisemblance est maximale pour

),max(),(ˆ1010 xxxxml =θ

Cet exemple ilustre le cas où la fonction de vraisemblance n’est pas continue, et l’estimée ne peutpas être déterminée en dérivant ),( θrL .

Exemple 4.2Soit X=(x1,x2,...xN) N échantillons indépendents d’une variable aléatoire gaussienne, de moyenne µet de variance σ2.. On désire estimer le vecteur de paramètres θ=(µ,σ2).

La densité conditionnelle qui décrit les observations est

( )

−−

=

−−=

=

=

N

ii

N

N

iiN

xs

xxxxp

1

2

2

1

2

221

1exp

2

1

)(2

1exp

2

1)|,...,,(

µσσπ

µσσπ

θ

Par simple dérivation par rapport à µ et σ2 on obtient facilement

Page 5: Théorie de l’estimation

79

( )∑

=

=

−=

=

N

ii

N

iiml

xN

xN

1

22

1

µσ

µ

c’est-à-dire la moyenne des échantillons et leur variance.

Exercice : Répéter l’exercice précédant pour le cas vectoriel.

4.4 Borne de Cramer-RaoOn dérive par la suite une inégalité très utile dans l’étude de problèmes d’estimationparamétrique, et qui établi une borne inférieure pour la variance de l’ erreur d’estiméesnon-biaisées.

Admettons que les dérivées de premier et deuxième ordre du logarithme de la fonctionde vraisemblance par rapport au paramètre à estimer,

2

2 )|(ln)|(ln

θθ

θθ

∂∂

∂∂ rr pp

existent et sont absolument intégrables. Soit )(ˆ rθ une estimée non-biaisée de θ :

{ } ( ) 0)|()(ˆ|)(ˆ =−=− ∫∞

∞−rrrrE dp θθθθθθ

Si on dérive cette équation par rapport à θ on obtient

{ } ( )[ ] 0)|()(ˆ|)(ˆ =−=− ∫∞

∞−rrrrE dp

d

d

d

dθθθ

θθθθ

θou encore

( ) 0)|()|()(ˆ =−−∫ ∫∞

∞−

∞−rrrrr dpdp

d

dθθ

θθθ

Nottons maintenant que

)|(ln)|()|()|()|(

1)|(ln θ

θθθ

θθ

θθθ

θrrrr

rr p

d

dpp

d

dp

d

d

pp

d

d=⇔= .

Alors, l’équation précédente peut s’écrire

( ) 1)|(ln)|()(ˆ∫∞

∞−=− rrrr dp

d

dp θ

θθθθ

ou encore

( ) 1)|(ln)|()|()(ˆ∫∞

∞−=− rrrrr dp

d

dpp θ

θθθθθ

Par l’inégalité de Schwartz,

∫∫∫ ≤

rrrrrrr dgdfdgf 22

2

)()()()(

on peut écrire

( )[ ] 1)|(ln)|()|()(ˆ2

2

∫ ∫∞

∞−≥

− rrrrrr dp

d

dpdp θ

θθθθθ

et, en reconnaissant l’opérateur valeur moyenne

Page 6: Théorie de l’estimation
Page 7: Théorie de l’estimation

81

On peut établir une condition générale pour qu’un estimateur non-biaisé soit efficace.

Soit θ̂ un estimateur non-biaisé :

{ } ( ) 0)|()(ˆ)(ˆ =−=− ∫∞∞− rrrrE dp θθθθθθ

Si on dérive cette équation par rapport à θ :

( ) 0)|()|()(ˆ =−−∫ ∫∞

∞−

∞−rrrrr dpdp

d

dθθ

θθθ

ce qui est équivalent à

( )∫∞

∞−=− 1)|(ln)|()(ˆ rrrr dp

d

dp θ

θθθθ

ou encore

( ) 1)|(ln)( =

− θθ

θθθ rrE p

d

d

c’est-à-dire, la correlation entre l’erreur d’un estimateur non-biaisé et la dérivé dulogarithme de la fonction de vraisemblance est égale à l’unité. Avec ce résultat, on peutdémontrer le théorème suivant .

Théorème 4.1Un estimateur non-biaisé est efficace

( )

=

− −

θθθ

θ

θθθθ

2

12

)|(ln)(

)()(ˆ

rE

rE

pd

dJ

J

si et seulement si

( ) )|(ln))(ˆ)( θθ

θθθ rr pd

dJ =− .

Ce théorème identifie donc la constante k(θ) avec l’inverse de la borne de Cramér-Rao.Démonstration(si)Si la condition du théorème est vraie, alors

( ) )()|(ln)()()()(ˆ)(2

2θθθ

θθθθθθθθθ Jpr

d

dJCJJJ =

==

− rEE

d’où onpeut déduire1)()( −= θθ JC

(seulement si)On a vérifié que

( ) 1)|(lnˆ =

− θθ

θθθ rE p

d

d

Si on élève au carré cette équation

Page 8: Théorie de l’estimation

82

( ) 1)|(lnˆ2

=

− θθ

θθθ rE p

d

d

De l’inégalité de Schwartz pour les variables aléatoires

[ ]( ) ( ) ( )222 YEXEXY ≤E ,il résulte

( ) ( ) )()(ˆ)|(ln)|(lnˆ12

22

θθθθθθθθ

θθθ

θθ CJpd

dpr

d

d=

−= ErErE

avec égalité si et seulement si

( )θθθθθ

−= ˆ)()|(ln Jpd

dr .

Une forme alternative de la borne de Cramér-Rao peut être déduite à partir de l’équationde normalisation de la densité conditionnelle :

∫ =R

dp 1)|( rr θ

Si on dérive par rapport à θ ,

∫ = 0)|( rr dpd

θ.

Rappelons la relation déduite antérieurement,

∫ = 0)|()|(ln rrr dppd

dθθ

θ.

Si on dérive une deuxième fois par rapport à θ :

∫ ∫ =+ 0)|()|(ln)|(ln)|(2

2

rrrrrr dpd

dp

d

ddp

d

dp θ

θθ

θθ

θθ

ou encore

∫ ∫ =

+ 0)|()|()|(ln)|(

2

2

2

rrrrrr dpd

dpdp

d

dp θ

θθθ

θθ

ce qui montre que

−=

θθθ

θθθ

2

2

2

)|(ln)|(ln rErE pd

dp

d

d.

Et nous obtenons ainsi une expréssion équivalente pour la borne de Cramér-Rao :

( )1

2

22)|(lnˆ

−≥

− θθ

θθθθ rEE p

d

d.

Exemple 4.3Soit X=(x1,...,xN) N échantillons indépendents d’une variable aléatoire de Poisson. On désire estimerle paramètre de la distribution. La densité conditionnelle de X est

∑∏ =

==N

nn

k

n

N

xkx

exp

1

,)|( θθθ

L’estimateur de maximum de vraisemblance est la valeur moyenne des observations (vérifier cetteaffirmation)

Page 9: Théorie de l’estimation

83

∑=

=N

nnmv x

N 1

1θ̂

Sa valeur moyenne et sa covariance sont

[ ]( )

Nmv

mv

θθθθ

θθθ

=

=

2E

E

La dérivée du logarithme de la fonction de vraisemblance est

∑=

+−=+−=N

nnxN

N

kNxp

d

d

1

1)|(ln

θθ

θet donc J(θ) est

θθ

θθθ

θθ

1|

1|)|(ln)(

122

2

Nxxpd

dJ

N

nn =

−−=

−= ∑

=EE

La borne inférieure pour l’erreur quadratique de toutes les estimées non-biaisées de θ est donc

( )N

θθθ ≥

2ˆE .

Ce résultat montre que pour obtenir le même erreur on doit prendre plus d’échantillons quand leparamètre de la distribution est grand.Si nous comparons la variance de l’estimateur du maximum de vraisemblance avec le résultatprécédent, nous pouvons constater qu’il est efficace. On remarque que, effectivement, cet estimateursatisfait la condition du théorème ennoncé auparavant :

( ) ( ) )|(ln11ˆ)(

11

θθθ

θθ

θθθ xpd

dxNx

N

NJ

N

nn

N

nn =+−=

−=− ∑∑

==

.

Cas vectorielQuand θ est un vecteur (plus d’un paramètre) le résultat précédant est modifié :

( )( )11

2

1

)|(ln)|(ln|)|(ln)(

)()(ˆ)(ˆ

−−

∂∂

∂∂

=

∂∂∂

−=

−−

θθθ

θθ

θθθθ

θ

θθθθθθ

rrErE

rrE

pppJ

J

jijiij

T

où la notationBA ≥

est définie parxxBAxBABA T ∀≥−⇔≥−⇔≥ ,0)(0 ,

c’est-à-dire, implique que A-B est une matrice définie non-négative.

4.6 Le modèle linéaire

On considère le modèle d’observations suivant :K

iii rNiwmr ℜ∈=+= ,,...,1,)(θ

Page 10: Théorie de l’estimation

84

où )(θm est un vecteur de dimension K, fonction connue du vecteur de paramètres

inconnus θ de dimension q, et { } `

1

N

iiw = sont des vecteurs gaussiens, de moyenne nulle et

matrice de covariance )(θR , qui dépend, en général, du vecteur de paramètres θ.

La densité conditionnelle de ],...,,[ 21 Nrrrr = étant donnée une valeur fixe du vecteur θest :

( )( ) ( )

( )[ ]

−=

−−−=

=

=

=

)()(2

exp)(2

1

)()()(2

1exp

)(2

1

)|()|(

12/2/

1

12/2/

1

θθθπ

θθθθπ

θθ

SRtrN

R

mrRmrR

rprp

NNK

N

ii

TiNNK

N

ii

où nous avons défini

( )( )∑=

−−=N

i

Tii mrmr

NS

1

)()(1

)( θθθ .

L’estimateur de Maximum de vraisemblance (MV) est la solution de

0)|(ln =∂∂

θθ

rp ,

ce qui conduit aux équations suivantes

qnS

RtrN

SRR

RtrNR

RtrN

nnn

...,1,0)(

)(2

)()()(

)(2

)()(

21111 ==

∂−

∂+

∂− −−−−

θθ

θθθθθ

θθθ

θ

Si la matrice de covariance, R(θ), ne dépend pas de θ :,,)( θθ ∀= RR

l'équation précédante simplifie :

qnS

RtrN

n

,...,1,0)(

21 ==

∂− −

θθ

.

Si nous utilisons la définition de S(θ) dans cette expression,

( ) ∑∑=

=

− ==−∂

∂=

∂∂

−N

ii

n

tN

i n

t

i qnmrRmm

mrRtr1

1

1

1 ,...,1,0))(()()(

)( θθθ

θθ

θ

Si on considère aussi que la moyenne m(θ) est une fonction linéaire de θ :,)( θθ Hm =

où H est une matrice qK × de rang égal à q<K, l’équation de l’estimateur MV peuts’écrire, en notation vectorielle,

∑=

− =−N

ii

T HrRH1

1 0)( θ

et donc

( ) mRHHRH TTmv ˆˆ 111 −−−=θ

Page 11: Théorie de l’estimation

85

où m̂ est la moyenne des observations :

∑=

=N

iirN

m1

1ˆ .

Quand la matrice de covariance est un multiple de l’identité,IR 2σ= ,

le résultat antérieur devient simplement

( ) mHHH TTmv ˆˆ 1−

=θ .

L’estimée de MV de la valeur moyenne des observations est dans ce cas

( ) mHHHHHm TTmvmv ˆˆˆ

1−== θ .

La matrice qui multiplie la moyenne m̂ dans l’équation précédante,

( ) `1 TT HHHHP−

=est la matrice de projection orthogonale dans l’espace engendré par les colonnes de lamatrice H.

Remarque :La matrice de Fisher pour ce problème – inverse de la borne de Cramér-Rao – est

∂∂∂

−= θθθ

θθ

jiij

rpEJ

)|(ln)(

2

.

Si nous calculons cette matrice pour ce problème, nous obtenonsHRHNJ T 1)( −=θ ,

et nous pouvons donc constater que

[ ]θθθθ −= ˆ)(ˆ Jmv ,

ce qui montre que mvθ̂ est une estimée efficace du vecteur de paramètres θ.

Exemple 4.4Admettre, dans le modèle linéaire gaussien, que θ est un vecteur de dimension 2 , [ ]21 θθθ = et

soient 1h et 2h les colonnes de la matrice H :

][ 21 hhH = .Considérer que

IR 2σ= .Dans ces conditions

mh

hm

h

hT

T

T

T

mv ˆ1

1

1

1

1ˆ2

1

1

22

1

1

−=

=

−−

ρρ

ρρρ

θ

Analyser le comportement quand 1→ρ . Quelle est l’interprétation physique de ce résultat ?

Exemple 4.5Soit y le vecteur des échantillons d’un signal continu dans les instants NkkTt ,...,1, == :

[ ] )(...., 21 kTyyyyyy kN ==On désire ajuster un modèle polynomial à la courbe y(t) :

Page 12: Théorie de l’estimation

86

∑=

−=p

n

nn tty

1

1)( θ

Selon ce modèle les observations suivent un modèle linéaire :wHy += θ

où H est la matrice de Vandermonde

( )

( ) ( )

=

1

1

1

1

221

1

p

p

p

NTNT

TT

TT

H

L

MMM

L

L

et θ est le vecteur de coefficients

[ ]Tpθθθθ L21= .

Exemple 4.6 (modèle exponentiel complèxe)Si au lieu d’un modèle polynomial on considère que le signal observé est une sommed’exponentielles complexes,

∑= tjn

necty ω)(les observations suivent encore un modèle linéaire, de la forme

wHy += θoù, maintenant,

iji

Np

NN

p ez

zzz

zzzH ω=

=

−−−

,

111

112

11

21

L

MMM

L

L

et

[ ]Tpccc L21=θ .

Exercice (forme récursive de l’estimateur MV pour le modèle linéaire)

Considérez le problème d’estimer récursivement le paramétre θ, au fur et à mesure que les

observations ny arrivent. Nous cherchons à écrire l’estimée MV pour le modèle linéaire dans la

forme :

1)1()(ˆ)1(ˆ +++=+ nynKnn θθ ,

où )(ˆ nθ désigne l’estimée obtenue avec le vecteur ][ 21 nyyy L . C’est-à-dire, l’estimée

optimale est obtenue en ajoutant un terme de correction – fonction uniquement de la nouvelleobservation – à l’estimée optimale précédante. Ceci montre que l’estimée MV peut êtredéterminée sans avoir à mémoriser toutes les observations : l’estimée est donc une statistiquesuffisante, qui résume toute l'’nformation utile dans les observations.

4.7 IdentificationDans beaucoup de problèmes (analyse spectrale, traitement d’antenne, etc.) la matrice Hdu modèle linéaire a une structure connue, mais dépend de paramètres inconnus. Soit ω levecteur qui groupe ces paramètres :

[ ])(||)(|)()( 21 ωωωω phhhH L= ,

Page 13: Théorie de l’estimation

87

que l’on désire estimer. L’exemple 4.5 illustre cette situation, car les fréquences desexponentielles ne sont pas, usuellement, connues.

Le modèle des observations est donc dans ce cas :K

iii rNiwHr ℜ∈=+= ,,...,1,)( θωSi nous écrivons la fonction de vraisemblance pour l’ensemble de paramètres inconnus

),( θω

( ) ( )∑=

− −−−−−=N

ii

Ti HrRHrR

NKNrp

1

1 )()(2

1ln

2)2ln(

2),|(ln θωθωπθω .

Pour toutes les valeurs de ω, cette expression est maximisée, comme on l’a vu, par

[ ] mRHHRH TTmv ˆ)()()()(ˆ 111 −−−= ωωωωθ

et donc,

[ ] mPmRHHRHHH TTmv ˆ)(ˆ)()()()(ˆ)( 111 ωωωωωθω == −−−

[ ] 111 )()()()()( −−−= RHHRHHP TT ωωωωω .Nous pouvons donc écrire

( ) ( )

( ) ( ) [ ] [ ]mPIRPImN

mrRmrC

mPrRmPrCrp

TN

ii

Ti

te

N

ii

Ti

temv

ˆ)()(ˆ2

ˆˆ2

1

ˆ)(ˆ)(2

1))(ˆ,|(ln

1

1

1

1

1

ωω

ωωωθω

−−−−−−

−−−=

=

=

La maximisation de cette expression par rapport à ω conduit à

[ ] [ ]mPIRPImTmv ˆ)()(ˆminargˆ 1 ωωω

ω−−= −

L’expression précédante, qui défine les estimées de Maximum de vraisemblance duvecteur w, conduit à un problème d’optimisation non-linéaire multivariable, qui doit êtrerésolu numériquement.

4.8 Identification MV des paramètres d’un modèle ARMAOn considère maintenant un signal qui suit un modèle ARMA(p,p-1) causal :

∑ ∑=

=−− ==

p

n

p

nntnntn aubya

0

1

00 1, .

Soit H(z) la fonction de transfert du système :

∑∑−

=

=

− ===1

00

)(,)(,)(

)()(

p

n

nn

p

n

nn zbzBzazA

zA

zBzH

De la définition de la fonction de transfert

∑=

−=⇔=p

nntnt habzBzHzA

0

)()()(

où th est la réponse impulsionnelle du système. Si on écrit les N>p premières équations,

on obtient

Page 14: Théorie de l’estimation
Page 15: Théorie de l’estimation
Page 16: Théorie de l’estimation

90

[ ]

=

− 00

0

bbaH

A

aaa

aa

a

T

p

*)(1

1

1

1

121

12

1

L

OOOM

De cette équation nous pouvons conclure

IaH

aaa

aa

a

bbaH

aaa

aa

a

pp

=

⇔=

−−

)(

1

1

1

1

)(

1

1

1

1

121

12

1

121

12

1

L

OOOM

L

OOOM

00

et0)(0)( =⇔= aHAbaHA TT

Cette dernière équation nous permet d’affirmer que les N-p colonnes de A sontorthogonales aux p colonnes de H(a). Donc, l’opérateur de projection dans l’espaceorthogonal aux colonnes de H(a) peut s’écrire directement en termes de la matrice A :

TT AAAAaPIaP 1)()()( −⊥ =−=et en conséquence

2)(minargˆ raPa

aMV

⊥=

Comme nous avons déjà remarqué, ce problème d’optimisation est non-linéaire, et doitêtre résolu par des méthodes numériques.

4.9 Prédicition linéaire et la méthode de PronyNous reprenons les équations pour les estimées de MV des paramètres d’un modèleARMA :

[ ] raHaHaHab

rAAAArraPaPrraPa

TTMB

TTT

aa

T

aMV

T

)()()()(ˆ

)(minarg)()(minarg)(minargˆ

1

12

−⊥⊥⊥

=

===

On rapelle le modèle des observationswbaHh += )(

et le fait que l’estimée MV de la composante non-bruitée des observations estraPbaH MV )()( =

Alors l’estimée de le la composante de bruit estraPwMV

⊥= )(ˆ

Page 17: Théorie de l’estimation
Page 18: Théorie de l’estimation

92

[ ] raHaHaHb TT )ˆ()ˆ()ˆ(ˆ 1−= .

4.10 Méthode de Prony

Nous allons constater maintenant que la méthode de Prony est un cas particulier de cetteapproche à l’identification paramétrique. Cette méthode est basée sur une modélisationdu signal observée comme une superposition de sinusoï des amorties

∑=

+=p

i

nfjnjin

iii eex1

)2( παθγ

Ce signal peut être modélisé comme la réponse d’un modèle d’état homogène

nT

n

nn

Xx

FXX

1=

=+1

avec la condition initiale[ ]T

pbbX L10 =où la matrice F est une matrice diagonale qui regroupe les pôles du système

=

pz

z

F

0

0

O1

(vértifier cette affirmation)et

pj

pp ebθγ=

Le théorème de Cayley-Hamilton nous donne directement le modèle AR(p) à partir dumodèle d’état, en identifiant le polynôme p

p zazaza −−− −−−− L22

111 avec le

polynôme caractéristique de F :

ppp

p

ii aazFI −−−=−=−=ϕ −

=∏ L1

11

)()( λλλλλ

car0100)( 1

11

1 =−−−⇔=−−−⇔=ϕ −−− pipip

pi

pi zazaazazF LL

Si nous formons la combinaison linéaire des observations

[ ]∑ ∑

∑ ∑∑=ϕ=−−−=

−−−=−−−−

−−

−−−−−

0)(1 11

112211

inii

pipi

nii

pnii

nii

niipnpnnn

zzbzazazb

zbzbazbxaxaxax

L

LL

c’est-à-dire, le signal observé suit un modèle AR(p)

∑=

−=p

iinin xax

1

dont les pôles sont les exponentielles complexes)2( pp fj

p ezπα +=

Page 19: Théorie de l’estimation

93

On retrouve ici l’approche de prédiction linéaire présentée dans la section précédante,c’est-à-dire, une équation qui permet de représenter chaque échantillon comme unecombinaison lineaire des échantillons précédants.

Reprennons maintenant la représentation AR du signal. Si l’on écrit cette équation pourdes valeurs consécutifs de n, on obtient

132211

11211

2211

−−+−+−+

+−−+

−−−

+++=

+++=

+++=

nppnpnpn

pnpnnn

pnpnnn

xaxaxax

xaxaxax

xaxaxax

L

M

L

L

ou encore

=

+−+−+

+−−

−−−

+

+

pkpnknkn

pnnn

pnnn

kn

n

n

a

a

a

xxx

xxx

xxx

x

x

x

M

L

MM

L

L

M

2

1

21

11

21

1 ,

que nous pouvons écrire en forme matricielleCaX = ,

avec des définitions évidentes du vecteur X – de dimension k+1 – et de la matrice C – dedimension ( ) pk ×+ 1 .

Nous obtenons donc une relation linéaire qui nous permet de calculer la valeur descoefficients du polynôme caractéristique de la matrice F, et donc les pôles du système.

RemarquePour calculer les pôles d’un modèle d’ordre p il faut que pkpk >⇒≥+ 1 . Pourchaque valeur de k, le système d’équations précédant fait intervenir leséchantillons depuis l’instant n-p jusqu’à l’instant n+k, en nombre total de k+p. Onpeut alors conclure que le nombre minimal d’observations pour identifier unmodèle d’ordre p est égal à 2p. Dans le cas où l’on prend exactement 2pobservations, le système d’équations obtenu peut être en général inversédirectement pour obtenir le vecteur des coefficients a :

XCa 1−= .On remarque que cette équation est un cas particulier du cas général considéréprécédemment, quand la matrice Y est inversible. Si k>p la matrice C devient, s’iln’y a pas de bruit, singulière.

La méthode de Prony originale utilise seulement 2p observations pour estimer lesparamètres d’un modèle d’ordre p. Elle marche très bien si les observations nesont pas bruitées, ce qui en genéral n’est pas vrai. On a donc intérêt à prendre unplus grand nombre d’observations et dans ce cas, l’équation générale doit êtreutilisée :

Page 20: Théorie de l’estimation

94

( ) XCCCa TT 1−= .

Une fois connus les pôles du système, la détermination du vecteur condition initiale dumodèle est équivalente à un problème d’interpolation polynomiale.Si l’on décrit la sortie du modèle d’état en fonction de sa condition iniciale, on obtientpour ce cas simple

[ ]bzzzbFx np

nnnTn L21== 1 .

Si l'on écrit cette équation pour p valeurs consécutifs de n :

=

−+−+−+

+++

−+

+

ppn

ppnpn

np

nn

np

nn

pn

n

n

b

b

b

zzz

zzz

zzz

x

x

x

M

L

MMM

L

L

M2

1

112

11

112

11

21

1

1,

qui est une équation linéaire de la formeVbz = .

La matrice de cette équation – matrice de Vandermonde – a un déterminant différent dezéro si et seulement si tous les pôles du système sont distincts, et peut donc être inverséepour obtenir le vecteur b. De ce vecteur résultent immédiatement les amplitudes et lesphases des sinusoï des du modèle de départ.

La méthode de Prony consiste donc dans la séquence de quatre pas :1. Déterminer les coefficients du polynôme caractéristique de F par résolution de

CaX = .2. Déterminer les pôles par détermination des racines du polynôme

01)( 11 =−−−=ϕ −− p

ipii zazaz L .

3. Construire la matrice de Vandermonde

=−+−+ 11

1

1

pnp

pn

np

n

zz

zz

V

L

MM

L

.

4. Déterminer les coefficients par résolution deVbz = .

Remarque : La méthode de Prony, que l’on vient de décrire, est basée sur deuxhypothèses : (1) le système à identifier est un système AR ; (2) on observedirectement la réponse impulsionnelle du système.

4.11 Méthode de Pisarenko

La méthode de Pisarenko est basée directement sur des relations entre les entrées et lessorties du modèle AR. La méthode de Pisarenko est basée sur les propriétés de la matriced’auto-corrélation. Elle considère explicitement la présence de bruit dans les mesures, etadmet que le processus sinusoï dal observé est stationnaire. Cependant, le modèlesinusoï dal tel qu’il a été défini dans l’étude de la méthode de Prony n’est pas stationnaire.

Page 21: Théorie de l’estimation

95

Pour obtenir stationnarité, il faut considérer que les phases pθ sont des variables

aléatoires, indépendantes et identiquement distribuées, uniformes en [ ]π2,0 , et que les

facteurs d’amortissement pα sont tous nuls :

nnifjij

in weex += ∑ πθγ 2 .

Le modèle correspondant peut être encore défini par un modèle d’état similaire auprécédant :

nnT

n

nn

wXx

FXX

+==+

1

,1 ,

avec la condition initiale[ ]T

pbbX L10 = , pj

pp ebθγ= ,

=

pz

z

F O1

, ifji ez π2= ,

et nw est une séquence blanche.

On peut remarquer que ce modèle de sinusoï des dans du bruit correspond à une formelimite d’un processus ARMA(p,p) :

nnn wyx += ,

où ny représente la partie non-bruitée du signal. Alors, comme on a vu,

( )∑ −− −=−= knknknnn wxawxy ,

ou encore

∑ ∑= =

−− =−p

k

p

kknkknkn waxax

1 1

,

qui est un modèle ARMA(p,p) avec les mêmes coefficients pour les parties auto-regréssive et moyenne glissante.

On présente ensuite la méthode de Pisarenko.Si on forme le vecteur qui regroupe k+l échantillons consécutifs de ce processus, onobtient

wDb

w

w

w

b

zzz

zzz

zzz

x

x

x

Y

kn

n

n

knp

knkn

np

nn

np

nn

kn

n

n

+=

+

=

=

+

+

+++

+++

+

+

M

L

MMM

L

L

M1

21

112

11

21

1 .

La matrice de correlation du vecteur Y est[ ] IDBDYYR eHH σ+== E ,

où on a défini la matrice B

Page 22: Théorie de l’estimation

96

[ ]HbbB E= .

On constate que R est la somme d’une matrice de rang inférieur à p plus un multiple de lamatrice identité. Admettons que le rang de B est p, et que les pôles sont tous distincts, etconsidérons la décomposition spectrale de la matrice R

kiuRu iii ,...,1, == λ .

Si nous remplaçons R par son expression( ) kiuuIDBD iii

H ,...,1,2 ==+ λσ ,

ou encore( ) kiuuDBD iii

H ,...,1,2 =+= σλ ,

ce qui montre que les valeurs propres de R sont égaux à ceux de HDBD additionnés de2σ . Comme, par hypothèse, cette matrice a rang p, nous pouvons séparer les valeurs

propres – et les vecteurs propres correspondants – de R en dux groupes :• p valeurs propres de valeur plus grande, et dont les vecteurs propres correspondants

engendrent le même sous-espace que les colonnes de la matrice B ;• k-p valeurs propres toutes égales à 2σ , et don’t les vecteurs propres correspondants

sont orthogonales aux colonnes de D.

La méthode de Pisarenko est basée sur ce fait, pour le cas particulier où le nombred’observations est k=p+1. Elle consiste à déterminer le vecteur propre de R associé à laplus petite valeur propre, ν, et à déterminer les pôles du système à partir des relations

pqzzz pnqp

nq

nqi ,...,1,01

12 ==+++ +

++ ννν L ,

ce qui montre que les pôles du système sont les racines du polynôme de degré p don’t lescoefficients sont les éléments du vecteur propre ν.

Les amplitudes et les phases des sinuoï des sont ensuite déterminés de façon à minimiserl’erreur quadratique entre les observations et le signal synthétisé,

( ) ( )bDxbDxH ˆˆ −− ,

ce qui conduit à la solution

( ) xDDDb HH ˆˆˆˆ 1−= .

En pratique, on doit remplacer R par une estimée déterminée à partir des données. Pourassurer que les racines du polynôme construit à partir du vecteur propre associ’e à la pluspetite valeur propre de la matrice d’auto-corrélation se trouvent sur le cercle unitaire, ilfaut que cette estimée soit une matrice de Toeplitz.

Pour des données réels, le modèle de sinusoï des est

( )∑=

++=p

iniiin wnfx

1

2sin θπγ ,

qui est équivalent à un modèle complexe avec 2p sinusoï des en fréquences symmétriques.Dans ce cas, les relations antérieures restent valides, mais il faudra construire une matriced’auto-corrélation de dimension 2p+1.

Page 23: Théorie de l’estimation

97

Remarque : cette méthode est très sensible au choix de p. Noter qu’elle trouveratoujours p sinusoï des, même quand les données n’en contiennent qu’un nombreinférieur de composantes.

Page 24: Théorie de l’estimation
Page 25: Théorie de l’estimation

99

( ) ( )2,0,cos

1,...,1,0,

σφω N∝+=

−=+=

tt

ttt

ntAs

Ntnsx

Déterminez les estimés MV des paramètres du modèle.Tracez les bornes pour la variance en fonction du rapport signal/bruit SNR, enprennant N comme paramètre, et en fonction de N avec SNR comme paramètre.

8. Soit X un vecteur avec une distribution gaussienne de moyenne θH et matrice decovariance R. Considérez le problème de l’estimation de θθ Tw = , et déterminez laborne de Cramér-Rao pour ce problème.

9. Soit X un vecteur de mesures avec densité )|( θXp dépendante d’un vecteur de

paramètres, θ inconnu. Un estimateur biaisé )(ˆ Xθ est utilisé pour estimer θ. Soit

[ ]θθθ |)(ˆ)( XEg = l’espérance de l’estimateur.

a) En utilisant la propriété [ ] 0|)()(ˆ =− θθθ gXE , montrer que

( ) ( )∫ ∂∂

=

∂∂

=

− θ

θθ

θθθθθθ TTT

gdXgXpgXXsE )()|(|)()(ˆ),(

où ),( Xs θ est la dérivé du logarithme de la fonction de vraisemblance.b) Soit

( ) ( ) ( )

∂∂

−=−

),(

ˆ

0

][),(1

Xs

X

I

JgIXzTT

θθθθ

θθ .

En utilisant le fait que ( ) ( )[ ]XzXzE T ,, θθ est définie non-négative, montrez quela borne de Cramér-Rao pour estimateurs biaisés est donnée par

( ) ( )( ) ( ) ( )( ) ( ) ( ) ( )

∂∂

∂∂

Θ−Θ− − θ

θθθ

θθθ T

TTT

gJggxgxE 1ˆˆ

où ( ) ( )[ ]XsXsEJ T ,),( θθθ = est la matrice de Fisher pour θ.

10. Soit [ ]MxxxX ,...,, 21= des échantillons indépendants de variables aléatoires

uniformes en [ ]θ,0 . Montrer que

c) nn

mv xmaxˆ =θ

d) La densité de probabilité de mvθ̂ est θθθθ

θθ ≤≤= − ˆ0,ˆ)|ˆ( 1MM

Mp .

e) [ ] θθθ1

|ˆ+

=M

ME .

f) [ ]( )( )

2212

|ˆvar θθθ++

=MM

Mmv .

Concluez que mvθ̂ est asymptotiquement non-biaisé et consistent.

Page 26: Théorie de l’estimation

100

ANNEXE 1: Gradients vectoriels et matricielsBeacoup de résultats en traitement du signal sont obtenus par dérivation d’une fonctionde coût non-négative. Pour cette raison, les égalités concernant la dérivation de vecteurset de matrices jouent un rôle important. Dans cette annexe, nous présentons sans preuveplusieurs définitions et résultats.

Gradients vectorielsSoit ( )θa une fonction scalaire du vecteur 1×p θ. Le gradient de a par rapport à q est le

vecteur de dimension 1×p ( )aθ∂∂ / :

( )

( )( )

( )

∂∂

∂∂∂∂

=∂∂

pa

a

a

a

θθ

θθθθ

θθ

/

/

/

2

1

M

Cette définition peut être généralisée au gradient d’une fonction vectorielle de dimensionn ( ) ( ) ( )[ ]θθθ naaa L1= par rapport à θ :

( ) ( ) ( ) ( )( ) ( )

( ) ( )

∂∂∂∂

∂∂∂∂

∂∂

∂∂

∂∂

=∂∂

pnn

n

nT

aa

aa

aaaa

θθθθ

θθθθθ

θθ

θθ

θθ

θL

MM

L

L

1

111

21

Un certain nombre de cas particuliers [euvent être déduits de ces expressions :

a) IT =∂∂

θθ

b) bbb TT =∂∂

=∂∂

θθ

θθ

c) ( ) ( ) ( ) ( ) ( ) ( )θθθ

θθθ

θθθ

abbaba TTT

∂∂

+

∂∂

=∂∂

d) θθθθ

QQT 2=∂∂

si Q est indépendant de θ.

e) ( ) ( )θθθ

θθθ

QmmQmm TT

∂∂

=∂∂

2)()( si Q est indépendant de θ.

f) θθθθθθ

111

2

1exp

2

1exp −−−

−−=

∂∂

QQQ TT si Q est indépendant de θ.

g) ( ) ( ) θθθθθθ

QQQ TT 12ln

−=

∂∂

si Q est indépendant de θ.

Gradients MatricielsSoit maintenat ( )Ra une fonction scalaire de la matrice np × R. Le gradient de a par

rapport à la matrice R est la matrice de dimension np × ( )aR∂∂ / :

Page 27: Théorie de l’estimation

101

∂∂

∂∂

∂∂

∂∂

∂∂

∂∂

=∂∂

pnp

n

r

Ra

r

Ra

r

Rar

Ra

r

Ra

r

Ra

aR

)()(

)(

)()()(

1

21

11211

L

M

M

L

Un certain nombre de identités découlent de ces définitions

a) IRtrR

=∂∂

b) [ ] [ ] [ ] TT

TT

TLRLtr

RRLtr

RRLtr

R=

∂∂

=∂

∂=

∂∂

c) [ ] [ ] ( )TT

LRRLRtrR

RLtrR

111 −−− −=∂

∂=

∂∂

d) ( )Tnn RnRtrR

1−=∂∂

e) [ ] RRtrR

expexp =∂∂

f) ( )TRRRR

1detdet −=∂∂

g) ( )TRR

R1detln −=

∂∂

h) ( ) ( )Tnn RRnRR

1detdet −=∂∂

Page 28: Théorie de l’estimation
Page 29: Théorie de l’estimation

103

nnT

nn

nTnnnnnn

Tnnnn

Tnn

cGc

GccGGG

ccGHHG

11

11

11

111

1

1

1 −−

−−

−−

−−−

+=

−=

+==

γ

γ

Exemple (Identité de Woodbury)L’inverse de la matrice

TuuRR 20 γ+=

est la matrice

10

101

02

21

01

1−−

−−−

+−= RuuR

uRuRR T

Tγγ

Cette identité est le cas particulier de

( ) ( ) 1111111 −−−−−−− +−=+ DABDACBAABCDAquand C est un scalaire.