Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données

SommairePrésentation

Outil mathématique : l’approximation stochastique (a.s.)Mise en oeuvre

Cas où l’espérance varie dans le tempsConclusion

Analyse canonique généralisée (ACG) partielle d’unflux de données d’espérance variable dans le temps

Bar Romain, Jean-Marie Monnez

Université de Lorraine, IECL, INRIA: projet BIGS

Dijon, Séminaire SPAN, Octobre 2012

Bar Romain, Jean-Marie Monnez Analyse canonique généralisée (ACG) partielle d’un flux de données d’espérance variable dans le temps




Sommaire

1 Sommaire2 Présentation

Avant-proposl’ACGProblématiqueChoix de la méthode

3 Outil mathématique : l’approximation stochastique (a.s.)Théorème et exempleA.S de vecteurs directeurs des axes principaux

4 Mise en oeuvrePrincipeRésultats

5 Cas où l’espérance varie dans le tempsModèle généralCas particulierSimulations

6 Conclusion










6 Conclusion






Sommaire






6 Conclusion






Avant-propos

Contexte actuel :

I flux de données =⇒ exploitation incomplète des données

I données de grande dimension =⇒ calculs considérablement ralentis

C’est au carrefour de ces deux nouvelles problématiques que vient sepositionner notre étude.






l’ACG

1 - L’analyse canonique :

Le contexte dans lequel on utilise cette méthode est le suivant :

On observe sur N individus non seulement R caractères quantitatifs, mais enplus, S autres caractères également quantitatifs.

Les premiers sont considérés comme explicatifs les autres comme étantà expliquer par les premiers (dans ce sens l’analyse canonique généralise lanotion de régression).






2 - Exemple d’application :

• variables explicatives : différents indices donnant l’état d’une commune(nombre d’habitants, nombre de bureaux, longueur des voies rapides,...)

• variables à expliquer : différents taux de pollution (taux de SO2, nombrede malades chroniques des voies respiratoires,...)

3 - L’ACG généralise l’AC dans le sens où on observe q groupes decaractères quantitatifs (q≥ 2).






Problématique

On suppose d’abord que des vecteurs de données pouvant être de grandedimension et arrivant séquentiellement dans le temps sous la forme d’unflux, sont des observations i.i.d. d’un vecteur aléatoire.

On propose alors une méthode d’estimation en ligne de vecteurs directeursdes r premiers axes principaux de l’ACG de ce vecteur aléatoire.

Remarques :

I L’étude peut être prolongée au cas où l’espérance et/ou la matrice decovariance des observations varie dans le temps.

I La méthode peut être appliquée dans le cas où l’on dispose d’un grandtableau de données (fixe) à analyser (cadre déterministe).






I On peut aussi estimer en ligne les valeurs propres, les facteurs, lescorrélations entre variables et facteurs,...

Principe :

On modélise l’arrivée des données par les réalisations indépendantes(z1,z2, ...,zn, ...) successives d’un vecteur aléatoire Z de (Rp) dont lescomposantes sont divisées en q groupes de variables aléatoires

(Z k1, ...,Z k mk ),k = 1, ...,q avecq∑

k=1mk = p.






On considère alors le problème suivant :

Pour l = 1, ..., r , on cherche :

une combinaison linéaire des composantes centrées de Z ,Ul = (θl )

′(Z −E[Z ]), de variance 1 et non corrélée avec lesprécédentes

pour k = 1, ...,q, une combinaison linéaire des composantes centréesde Z k , V k

l = (ηkl )′(Z k −E[Z k ]), de variance 1

telles queq∑

k=1ρ2(Ul ,V k

l ) soit maximal.






En notant C et Ck les matrices de covariance de Z et Z k respectivement,on définit :

M =

(C1)−1

..

.(Cq)−1

.

θl , appelé l ième facteur général, est vecteur propre de la matrice MC associéà la l ième plus grande valeur propre.

On peut interpréter ce résultat de la façon suivante : θl est le l ième facteur del’ACP de Z dans Rp muni de la métrique M.

Dans la suite, on cherche à estimer vl = M−1θl , vecteur directeur du l ième

axe principal de cette ACP, vecteur propre de B = CM.






Choix de la méthode

Ainsi, au temps n, lorsqu’on prend en compte une nouvelle donnée, on peut,par des méthodes classiques, mettre à jour les matrices empiriques Mn et Cn

puis calculer vln vecteur propre de Bn = MnCn, estimation de vl .

De manière alternative, l’approximation stochastique fournit une nouvelleestimation actualisée, au temps n, des vecteurs vl .

La méthode à privilégier est celle qui réalisera le meileur compromis entrerapidité et précision.

En terme de rapidité de calcul, l’a.s. est de loin la meilleure méthode,d’autant plus, d’ailleurs, que la dimension est élevée.

En revanche, l’a.s. utilise davantage de données que les méthodesclassiques pour arriver à la même précision.






Dans les faits, on remarque que le temps de traitement d’une donnée peutêtre bien supérieur à la période séparant l’arrivée de deux donnéessuccessives.

Ainsi, en considérant une seule donnée à chaque étape, l’analyse prendradu retard par rapport au nombre de données observées (éventuellementstockées), et jamais on ne rattrapera ce retard si le flux est ”infini“.

=⇒ nombreuses données inexploitées et donc perte d’information.

En outre,Dimension↗ =⇒ Temps de traitement↗

=⇒ le phénomène est encore accru.






Une solution envisagée est la prise en compte à chaque étape de plusieursdonnées à la fois (on parlera de bloc de données), permettant de rattraper,au moins partiellement, le retard accumulé (i.e. toutes les nouvelles donnéesstockées) depuis la dernière analyse.

Remarque :

Cette analyse par blocs peut également être utile dans le cas où les donnéessont transmises par blocs (images satellites,...)





Théorème et exempleA.S de vecteurs directeurs des axes principaux

Sommaire






6 Conclusion






Un théorème bien utile...

Théorème de Robbins-Monro/Gladyshev :

Soit Y (x) un vecteur aléatoire dans Rk de loi inconnue mais observable pourtout x dans Rk .Le problème est alors d’estimer x∗, unique solution de E[Y (x)] = M(x) = 0.

On définit alors le processus (Xn) tel que : Xn+1 = Xn−anYn où Yn est uneobservation de Y (Xn).

Alors, sous certaines hypothèses, Xn→ x∗ p.s. et dans L2






Exemple

On cherche à estimer E[Y ] = x où Y est une v.a. de loi inconnue maisobservable.

E[Y ] est solution de x−E[Y ] = 0,

l’algorithme s’écrit alors : Xn+1 = Xn−an(Xn−Yn).

Sous des hypothèses raisonnables, Xn→ x p.s et dans L2.

En particulier, si an = 1n , Xn+1 = Y1+...+Yn

n et on retrouve la loi forte desgrands nombres (on a la convergence en moyenne quadratique en prime).






A.S de vecteurs directeurs des axes principaux

On suppose qu’au temps n, on dispose d’un bloc de rn nouvelles

observations i.i.d de Z , zRn−1+1, . . . ,zRn , avec Rn =n∑

j=1rj et sup

jrj < ∞.

On note In = {Rn−1 + 1, . . . ,Rn}.

Pour définir le processus d’approximation stochastique, on utilise au temps nun estimateur convergent Mn de M, obtenu à partir des observationsZ1, . . . ,ZRn−1 .






Soit le vecteur aléatoire Z k1 de dimension mk + 1, obtenu en ajoutant au

vecteur Z k une dernière composante égale à 1.

Soit J la matrice (mk + 1,mk ) obtenue en ajoutant à la matrice-identitéd’ordre mk une dernière ligne de zéros.

On établit que la matrice (mk + 1,mk ) : X k =

((Ck )−1

−(E[Z k ])′(Ck )−1

)

est solution des équations en X :

E[Z k1 (Z k

1 )′X − J] = 0 et E[( 1rn ∑

l∈InZ k

1l (Z k1l )′)X − J] = 0.






On définit alors récursivement le processus (Mk1n) d’approximation

stochastique de X k , de type Robbins-Monro :

Mk1,n+1 = Mk

1n−an((1rn

∑l∈In

Z k1l (Z k

1l )′)Mk

1n− J),

an > 0,∞

∑1

an = ∞,∞

∑1

(an)2 < ∞.

Soit Mkn la matrice obtenue à partir de Mk

1n en enlevant la dernière ligne ; ondéfinit comme estimateur de M au pas n la matrice diagonale par blocs Mn

qui a pour k ième bloc diagonal Mkn .

Remarque : dans le cas où chaque bloc est formé d’une seule observation,on peut utiliser des formules récursives exactes pour estimer M.






Soit x1 le vecteur propre de B associé à la plus grande valeur propre λ1.

Alors, x1 = argmaxx

<Bx ,x>M<x ,x>M

= argmaxx

F(x) et <Bx1,x1>M<x1,x1>M

= λ1

On écrit alors que le gradient s’annule en x1, on simplifie et on trouve :

(B−F(x1)I)x1 = 0

On peut alors définir un processus de gradient stochastique d’estimation dex1, ou plus généralement un processus d’a.s. de x1, en remarquant queE[(B−F(x1)I)x1] = 0 :






En suivant Bouamaine et Monnez (1998), on définit alors le processusd’approximation stochastique (gradient stochastique) (Xn) = ((X 1

n , . . . ,X rn))

de (v1, . . . ,vr ) :

Bn = ( 1rn ∑

l∈InZlZ ′l −Z Rn Z ′Rn

)Mn,

Fn(X ln) =

<BnX ln,X l

n>Mn||X l

n||2Mn,

Y ln+1 = X l

n + an(Bn−Fn(X ln)I)X l

n, l = 1, . . . , r ,Xn+1 = orthMn (Yn+1).

Théorème :

Avec un choix adéquat du pas an, pour l = 1, . . . , r , X ln converge p.s. vers vl ,

vecteur directeur du lième axe principal de l’ACG.






Remarque :

On peut aussi utiliser au temps n toutes les observations faites jusqu’à cepas inclus en prenant Bn = CnMn avec :

Cn = 1n

n∑

i=1ZiZ ′i −Z nZ ′n

Mn le processus d’a.s. tel que Mkn+1 = Mk

n −an(Ckn Mk

n − I)

où Ckn = 1

n

n∑

i=1Z k

i (Z ki )′−Z k

n(Z kn)′ est la matrice de covariance empirique

d’ordre n du k-ième groupe.





PrincipeRésultats

Sommaire






6 Conclusion





PrincipeRésultats

Principe

On considère que des données (resp. bloc de données) arrivent avec unecertaine fréquence (constante ou variable) et que l’on peut stocker cesdonnées dans une certaine limite (espace mémoire fini).

1) On fixe les paramètres du programme en choisissant la règle d’arrêt del’algorithme , la dimension du vecteur Z dont on observe des réalisations, lenombre r de vecteurs à estimer et la taille maximale de l’espace mémoire.

2) Initialisation : on prend en compte un ”petit“ nombre d’observations afin decalculer une première estimation de la matrice de covariance C, C0, de lamétrique M, M0, et de vecteurs directeurs v1, . . . ,v r des axes principaux,v1

0 , . . . ,v r0.





PrincipeRésultats

3) Mise à jour au pas n (3 programmes) :

Dans les deux premiers programmes, on introduit UN vecteur d’observationspuis on met à jour la matrice de covariance empirique Cn et la métriqueempirique Mn à l’aide de formules récursives exactes.

Ensuite,

I Dans le 1er programme, on calcule grâce à une méthode directe(tridiagonalisation + QR) les r premiers vecteurs propres de la matriceCnMn, estimations des vl .

I Dans le 2ème, on calcule grâce à un algorithme de type Lanczos cesmêmes vecteurs propres.





PrincipeRésultats

Dans le 3ème programme, on introduit TOUS les vecteurs d’observationsdepuis le pas précédent et on utilise le processus défini dans la deuxièmepartie (en utilisant toutes les observations faites jusqu’au pas n) pour obtenir,pour l = 1, . . . , r , une estimation de vl .

4) Pour un même temps d’exécution, on compare alors la précision des troisméthodes via la valeur du cosinus de l’angle formé par les vecteurs estimé etthéorique, en fonction du temps.





PrincipeRésultats

Résultats

Axes : 3Dimension : 190Durée : 800 s

FIG.: Précision des 3 méthodes en fonction du temps





PrincipeRésultats

1er vecteur directeur :cos1 = 0.966angle1 = 15°cos2 = 0.942angle2 = 19.6°cos3 = 0.986angle3 = 9.6°

2ème vecteur directeur :cos1 = 0.907angle1 = 24.9 °cos2 = 0.87angle2 = 29.5°cos3 = 0.986angle3 = 9.6°

3ème vecteur directeur :cos1 = 0.926angle1 = 22.2°cos2 = 0.83angle2 = 33.9°cos3 = 0.975angle3 = 12.8°





Modèle généralCas particulierSimulations

Sommaire






6 Conclusion






Modèle général

pour tout n, on observe zn, réalisation d’un vecteur aléatoire Zn dansRp, d’espérance mathématique θn variable dans le temps ;

les vecteurs aléatoires Zn sont mutuellement indépendants ;

les vecteurs aléatoires Z̃n = Zn−θn constituent un échantillon i.i.d d’unvecteur aléatoire Z̃ d’espérance nulle et de matrice de covariance nedépendant pas de n ;

le vecteur aléatoire Z̃ est partitionné en sous-vecteurs Z̃ 1, . . . , Z̃ q ; pourk = 1, . . . ,q, Z̃ k est un vecteur aléatoire dans Rmk , de composantesZ̃ k1, . . . , Z̃ kmk ; on a m1 + · · ·+ mq = p.






On suppose qu’au temps n, on dispose d’un bloc de rn nouvellesobservations zRn−1+1, . . . ,zRn et d’estimateurs (ΘRn−1+1, . . . ,ΘRn ) de(θRn−1+1, . . . ,θRn ).

On note In = {Rn−1 + 1, . . . ,Rn}.

On définit ensuite le processus d’approximation stochastique de (Ck )−1,(Mk

n ), par : Mkn+1 = Mk

n −a1n (( 1rn ∑

i∈In(Z k

i −Θki )(Z k

i )′)Mkn − I)

L’estimateur de M au pas n sera la matrice diagonale par blocs Mn qui a pourkième bloc diagonal Mk

n .






Enfin, on définit récursivement un processus d’approximation stochastique(Xn) = ((X 1

n , . . . ,X rn)) de (v1, . . . ,vr ) par :

Bn = ( 1rn ∑

i∈In(Zi −Θi )Z ′i )Mn,

Fn(X ln) =

<BnX ln,X l

n>Mn||X l

n||2Mn,

Y ln+1 = X l

n + a2n (Bn−Fn(X ln)I)X l

n, l = 1, . . . , r ,Xn+1 = orthMn (Yn+1).

Sous les conditions adéquates, on établit la convergence presque sûre de(Xn).






Remarques :

I Comme dans le cas où l’espérance est fixe, on peut aussi utiliser autemps n toutes les observations faites jusqu’à ce pas inclus.

I Différences et similitudes par rapport aux processus définis dans le casoù l’espérance est fixe.






Cas particulier d’un modèle linéaire de variation del’espérance

Pour i = 1, . . . ,p, on suppose qu’il existe un vecteur βi inconnu de Rni et,pour tout n, un vecteur U i

n de Rni connu au temps n tels que la ième

composante réelle de θn, θin, soit égale à < βi ,U i

n >.

Si l’on note Z in, resp. R i

n, la ime composante de Zn, resp.Z̃n, on a alors lemodèle de régression linéaire :

Z in = 〈βi ,U

in〉+ Z̃ i

n pour i = 1, . . . ,p.

On définit le proc. d’a.s. (Bin) de βi tq : Bi

n+1 = Bin−anU i

n((U in)′Bi

n−Z in).

On définit aussi Θin =< Bi

n,Uin >, Θn = (Θ1

n, . . . ,Θpn)′ que l’on introduit dans

la définition des processus d’approximation stochastique des vecteurs vl .






Simulations

Pour simplifier, on choisit : ∀i,ni = 1 ce qui signifie que les βi et les U in sont

unidimensionnels :

Pour i = 5 :

β1 = 1β2 = 0.5β3 = 5β4 = 3.14β5 = 4

U1n = 2

U2n = cos(n ∗pi/16)

U3n = 1 + exp(−n/1000)

U4n = rnorm(1,1,1)

U5n = runif (1,min = 0,max = 1)

θin = βi ∗U i

n






Résultats

FIG.: Estimation des βi

FIG.: Estimation des θin





Sommaire






6 Conclusion





Conclusion

On remarque que dans le cas d’un flux de données de grande dimension,l’outil d’approximation stochastique s’avère très efficace pour mettre enoeuvre des méthodes d’analyse de données dans le cas i.i.d.

On a étendu cette étude au cas où l’espérance des observations varie dansle temps.

Un travail en cours s’intéresse au cas où la matrice de covariance desobservations varie aussi dans le temps.

Merci pour votre attention


Documents

Analyse canonique généralisée (ACG) partielle d'un flux de ...Romain.Bar/presentation_dijon.pdf · Title: Analyse canonique généralisée (ACG) partielle d'un flux de données