52
Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292 rue Saint Martin F 75141 Paris Cedex 03 [email protected] http://cedric.cnam.fr/~saporta

Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Embed Size (px)

Citation preview

Page 1: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Analyse discriminante sur données fonctionnelles

Gilbert SaportaChaire de Statistique Appliquée & CEDRICConservatoire National des Arts et Métiers292 rue Saint Martin F 75141 Paris Cedex [email protected]://cedric.cnam.fr/~saporta

Page 2: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 2

Plan

1. Introduction 2. Régression MCO sur données

fonctionnelles3. Régression PLS fonctionnelle4. Méthodes linéaires de discrimination5. Régression typologique6. Prédiction anticipée7. Conclusion et perspectives

Travaux réalisés en collaboration avec C.Preda(Univ. Lille2) et D.Costanzo (Univ.Calabria)

Page 3: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 3

1. Introduction

Données fonctionnelles: courbes ou trajectoires d’un processus stochastique Xt

Réponse Y Y numérique: régression Y catégorielle: classification supervisée,

discrimination Intervalle de temps commun [0;T], variables

centrées

Page 4: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 4

Régression sur données fonctionnelles

Exemple 1: Y= récolte Xt = température

p=

R.A.Fisher (1924)

Page 5: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 5

Données de très grande dimension: infinité non dénombrable (en principe..) de prédicteurs

Combinaison linéaire « Integral regression »

Au lieu d’une somme finie

0

ˆ ( )T

tY t X dt

1

ˆp

j jj

Y X

Page 6: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 6

R.A.Fisher « The Influence of Rainfall on the Yield of Wheat at Rothamsted » Philosophical Transactions of the Royal Society, B, 213, 89-142 (1924)

Page 7: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 7

•Discrimination sur données fonctionnelles

Exemple 2: courbes de pétrissage pour biscuits (Danone Vitapole)

Page 8: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 8

Après lissage par B-splines cubiques (Lévéder & al, 2004)

Comment prédire la qualité des biscuits?

Page 9: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 9

Discrimination sur données fonctionnelles Cas particulier de la régression sur

données fonctionnelles pour deux classes

Anticipation déterminer t*<T tel que l’analyse sur

[0;t*] donne des prédictions semblables à l’analyse sur [0;T]

Page 10: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 10

2. Régression sur données fonctionnelles

Y ; Xt (E(Y)=E(Xt) =0 ) 2.1 Les mco

Equations normales ou de Wiener-Hopf:

C(t,s)= cov(Xt, Xs)=E(XtXs)

0

ˆ ( )T

tY t X dt

0cov( , ) ( , ) ( )

T

tX Y C t s s ds

Page 11: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 11

2.2 décomposition de Karhunen-Loeve

facteurs:

Composantes principales:

Covariance avec une composante principale:

1

( )t i ii

X f t

0( , ) ( ) ( )

T

i i iC t s f s ds f t

0( )

T

i i tf t X dt

0 0cov( , ) cov( , ( ) ) ( ) ( )

T T

i i i t t ic Y Y f t X dt E X Y f t dt

Page 12: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 12

Theorème de Picard: unique si et seulement si:

Géneralement faux ... Surtout quand n est fini car p >n. Ajustement parfait en minimisant:

2

21

i

i i

c

2

01

1( ) ( )

n T

i ii

y t x t dtn

Page 13: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 13

Même quand est unique, « L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972

Nécessité de contraintes. (cf Green & Silverman 1994, Ramsay & Silverman 1997).

Page 14: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 14

2.3 Régression sur composantes principales

Approximation de rang q:

1 1

cov( , )ˆ i ii i

i ii i

Y cY

2

2 2

1 1

ˆ( , ) ( , ) ii

i i i

cR Y Y R Y

( ) ( )

1 1

cov( ; ) cov( ; )ˆˆ ( ) ( )q q

q qi ii i

i ii i

Y YY t f t

Page 15: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 15

Résolution numérique: Equations intégrales non explicites

dans le cas général: C(t,s) connu point par point

Fonctions en escalier: nombre fini de variables et d’individus: opérateurs matriciels mais de grande taille

Approximations par discrétisation du temps

Page 16: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 16

Quelles composantes? Les q premières? Les q plus corrélées?

Les composantes principales sont calculées sans tenir compte de la réponse Y

Page 17: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 17

3. Régression PLS fonctionnelle

Utiliser les composantes PLS au lieu des composantes principales

Première composante PLS :

Puis itération sur les résidus

2

0max cov ( , ( ) )

T

w tY w t X dt2

1w

2

0

cov( , )( )

cov ( , )

t

T

t

X Yw t

X Y dt

1 0( )

T

tt w t X dt

Page 18: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 18

Approximation de Y par Xt d’ordre q:

Convergence :

Mais q doit être fini pour avoir une formule!

q déterminé par validation croisée(Preda & Saporta, 2005)

( ) 1 1 ( )0

ˆˆ ... ( ) dt T

PLS q q q PLS q tY c t c t t X

2

( )ˆ ˆlim ( ) 0q PLS qE Y Y

Page 19: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 19

Première composante PLS facilement interprétable: coefficients du même signe que r(y;xt)

Pas d’équation intégrale Meilleur ajustement par PLS que par ACP:

(De Jong 1993)

2 2( ) ( )

ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y

Page 20: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 20

4. Discrimination linéaire

4.1 ADL fonctionnelle ADL : combinaison linéaire

maximisant le rapport variance inter/variance intra

Pour 2 groupes la FLD de Fisher s’obtient en régressant Y codé sur Xt

eg(Preda & Saporta,

2005a)

0( )

T

tt X dt

01

0 1

and pp

p p

Page 21: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 21

La régression PLS avec q composantes donne une approximation de β(t) et du score:

Pour plus de 2 groupes: régression PLS2 entre k-1 indicatrices de Y et Xt

T 0

ˆd ( ) ( )T

PLS PLS tX t X dt

Page 22: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 22

Régression PLS2

Y multiple: (Y1, Y2, …,Yp) Citère de Tucker:

Composantes PLS :

2

01

max cov ( ( ) ; )p

t i ii

w t X dt cY

1

p

i ii

s cY

0( ) tt w t X dt

Page 23: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 23

Première composante PLS: premier vecteur propre du produit des opérateurs d’Escoufier WxWY

Preda & Saporta, 2002 & 2005a ; Barker & Rayens , 2003

Page 24: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 24

Généralisation du critère de Tucker au cas fonctionnel:

Prévision:

[0; ] [ ; ] t t tX t T Y X t T T a

1 1ˆ ( ) ... ( )t s h hX t c T s t c T s

2

0 0max cov ( ( ) ; ( ) )t sw t X dt c s Y ds

Page 25: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 25

4.2 Régression logistique fonctionnelle

0ln ( ) ( )d ; 1, ,

1

Ti

ii

x t t t i n

) );(|1( TttxXYP ii

Hypothèse: β(t) et les trajectoires sont dans le même espace de dimension fini (Ramsay et al., 1997)

b

p

qqq tbt

1

)()( i

p

qqiqi tctx c

1

)()(

Page 26: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 26

D’où une régression logistique classique:

avec

Leng and Müller (2006) , Escabias et al. (2004), Aguilera et al. (2006) utilisent les composantes principales de Xt comme base

ln1

1 C b

)( iqcC )d)()(( T

qkkq ttt

Page 27: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 27

4.3 Mesures de qualité

Pour k=2 : courbe ROC et AUC Pour un seuil s , x est classé en 1 si dT(x)>s Sensibilité ou taux de vrais positifs:

P(dT(x)>s/Y=1)=1-β 1- Spécificité ou 1-taux de vrais négatifs:

P(dT(x)>s/Y=0)=

Page 28: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 28

Courbe ROC

• En cas de discrimination parfaite : courbe confondue avec les côtés du carré• Si distribution conditionnelles identiques, courbe confondue avec la diagonale

Page 29: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 29

Courbe ROC invariante pour toute transformation monotone croissante

Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles

On tire une obs de G1 et une de G2

AUC estimée par la proportion de paires concordantes

nc statistique de Wilcoxon-Mann-WhitneyU+W= n1n2+0.5n1(n1+1) AUC=U/n1n2

1 2((1 ) ( )( ) )s

sAUC Xd s P Xs

1 2cc n n n

Page 30: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 30

5. Régression typologique

Un mélange de régression et de classification

Page 31: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 31

5.1 Modèle

G , variable à K catégories (sousb-populations)

2

( )

( )

i i

i

E Y x G i x

V Y x G i

X

X

Page 32: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 32

5.2 MCO et régression typologique

Variances résiduelle de la régression globale= varaince résiduelle intra cluster + variance due à la différence entre la régression locale et la régression globale (MCO)

ˆ ˆ LY Y estimation globale versus estimation typologique "locale"

Page 33: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 33

5.3 Estimation (Charles, 1977)

k fixé Moindres carrés alternés

Partition connue: régressions linéaires dans chaque cluster

Affecter chaque observation à la droite ou surface de régression la plus proche

Equivalent au MV pour des régresseurs fixes (Hennig, 2000)

5.4 Choix de k AIC, BIC,validation croisée

2

{1 }

ˆ ˆ( ) arg min ( ( ))ˆii

j ji …KG j y x

Page 34: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 34

5.5 Régression typologique fonctionnelle PLS

Régression MCO fonctionnelle inadéquate pour des estimations par groupe

Modèles locaux estimés par PLS fonctionnel L’algorithme est-il consistent?

Proof in Preda & Saporta, 2005b

Page 35: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 35

Prédiction: Affectation à un groupe (plus proche

voisin ou autre) Aplication du modèle local

Se généralise si Y est un vecteur aléatoire:

,t t T T aY X

Page 36: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 36

5.6 Application à des données boursières

Taux de croissance pendant 1 heure (de 10h à 11h) de 84 actions à la Bourse de Paris

Page 37: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 37

Prédire le comportement de i85 entre 10h55 et 11h en utilisant les données relevées entre 10h et 10h55?

Page 38: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 38

Calcul exact: 1366 variables (nombre

d’intervalles où les courbes restent constantes)

Discrétisation en 60 intervalles. Comparaison between RCP et PLS:

Page 39: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 39

Crash de i85 non détecté!

Page 40: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 40

PLS typologique Quatre clusters (17;32;10;25) Nombre de comosantes PLS component par

cluster: 1; 3; 2 ; 2 (cross-validation)

Page 41: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 41

i85 classée dans le cluster 1

Page 42: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 42

4. Prédiction anticipée

Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]

Solution: En augmentant s depuis 0 , chercher la

première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)

Page 43: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 43

Test d’égalité via une procédure bootstrap Rééchantillonnage des données,

stratifié pour conserver les proportions des classes

A chaque réplication b on calcule AUCb(s) et AUCb(T)

Test basé sur les différences (Student ou Wilcoxon pour données appariées) b=AUCb(s)- AUCb(T)

Page 44: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 44

5.Applications

5.1 Données simulées Deux classes équiprobables W(t) brownien standard

Page 45: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 45

Page 46: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 46

Avec B=50

Page 47: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 47

5.2 Courbes de pétrissage Après un temps T= 480 de pétrissage

on fabrique des biscuits de qualité Y 115 observations dont 50 « bonnes »,

40 «mauvaises » et 25 « ajustables » 241 points de mesure équidistants Lissage avec B-splines cubiques , 16

nœuds

Page 48: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 48

Performances pour Y={bon,mauvais} 100 séparations apprentissage test (60,

30) Taux d’erreur moyen

0.142 avec composantes principales 0.112 avec composantes PLS

AUC moyen 0.746

Fonction β(t)

Page 49: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 49

Prédiction anticipée Avec B=50 t*=186

Il est donc possible de réduire de plus de moitié la durée d’étude.

Page 50: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 50

6.Conclusions et perspectives

La régression PLS permet d’effectuer une prédiction linéaire de manière simple et efficace

Nécessité de prétraitements pour données bruitées

Prédiction anticipée via une procédure simple

Page 51: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 51

En cours: Recherche de prédiction « on-line »:

adapter t* pour chaque nouvelle courbe Comparaison avec régression logistique

PLS fonctionnelle et autres approches

Page 52: Analyse discriminante sur données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292

Grenoble, 17 janvier 2008 52

Références Aguilera A.M., Escabias, M. ,Valderrama M.J. (2006) Using principal

components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 50, 1905-1924

Barker M., Rayens W. (2003) Partial least squares for discrimination. J. of Chemometrics 17:166–173

Charles, C., (1977) Régression typologique et reconnaissance des formes. Ph.D., Université Paris IX.

D. Costanzo, C. Preda , G. Saporta (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-Verlag

Hennig, C., (2000) Identifiability of models for clusterwise linear regression. J. Classification 17, 273–296.

Lévéder C., Abraham C., Cornillon P. A., Matzner-Lober E., Molinari N. (2004) Discrimination de courbes de pétrissage. Chimiometrie 2004, 37–43.

Preda C. , Saporta G. (2005a) PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48, 149-158.

Preda C. , Saporta G. (2005b) Clusterwise PLS regression on a stochastic process, Computational Statistics and Data Analysis, 49, 99-108.

Preda C., Saporta G., Lévéder C., (2007) PLS classification of functional data, Computational Statistics, 22(2), 223-235

Ramsay J.O. , Silverman (1997) Functional data analysis, Springer