46
Statistique pour données fonctionnelles. Chapitre 4. Statistique descriptive et exploratoire pour données fonctionnelles Gaëlle Chagny CNRS, Labo. de Maths. R. Salem, Univ. Rouen, Université Paris Dauphine – Executive Master Statistique et Big data, 2020 1 / 46

- Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique pour données fonctionnelles.Chapitre 4. Statistique descriptive et exploratoire pour

données fonctionnelles

Gaëlle ChagnyCNRS, Labo. de Maths. R. Salem, Univ. Rouen,

Université Paris Dauphine – Executive Master Statistique et Big data, 2020

1 / 46

Page 2: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

2 / 46

Page 3: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

3 / 46

Page 4: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive

Statistique descriptive pour données fonctionnelles - Objectifs

• Cadre multivarié.• Observations : X1, . . . ,Xn ⊂ R

d , Xi = t (Xi,1, . . . ,Xi,d).

• Mesures résumées• Moyennes empiriques :

X.j = n−1n∑

i=1

Xi,j , j = 1, . . . , d.

• Matrice de variance-covariance :

Σn =

n−1n∑

i=1

(Xi,j − X.j)(Xi,j′ − X.j′ )

j,j′

.

• Cadre fonctionnel.• Observations : X1, . . . ,Xn ⊂ L2(T), Xi = {Xi(t), t ∈ T }.

• Mesures résumées : comment étendre les notions précédentes?

4 / 46

Page 5: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Moyenne et variance empirique

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

5 / 46

Page 6: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Moyenne et variance empirique

Moyenne et variance (1)

Observations lissées. X1, . . . ,Xn ⊂ L2(T), Xi = {Xi(t), t ∈ T }

Définition

• fonction moyenne empirique :

Xn : T −→ R,

t 7−→ Xn(t) =1n

n∑i=1

Xi(t).

• fonction variance empirique :

Varn : T −→ R,

t 7−→ Varn(t) =1n

n∑i=1

(Xi(t) − Xn(t)

)2.

On définit également l’écart-type comme étant la racine carrée de cette fonctionvariance.

6 / 46

Page 7: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Moyenne et variance empirique

Moyenne et variance (2) - Code R

Fonctions du package fda1. mean.fd

• Argument : objet fonctionnel (éventuellement multidimensionnel) comportant plusieurscourbes de la classe fd

• Sortie : objet de la classe fd contenant la (les) fonction(s) moyenne de l’objet (ou desobjets) en paramètres.

appliquée à un objet fonctionnel comportant plusieurs courbes (éventuellementmultidimensionnel) de la classe fd, elle renvoie un objet de la classe fd.

2. sd.fd ou std.fd : de manière similaire à la fonction précédente, retourne lesfonctions écart-type des données en paramètres.

7 / 46

Page 8: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Moyenne et variance empirique

Moyenne et variance (3) - Exemple

Exemple. Xi =N∑

j=1

ξi,jψj , i = 1, . . . , 10, avec

• ξi,j i.i.d. N(0, 1)• (ψj)j base de splines cubiques à 21 noeuds équirépartis sur [0; 2].

0.0 0.5 1.0 1.5 2.0

−2−1

01

2

t

x(t)

t 7→ Xi(t)t 7→ Xn(t),

. . . t 7→ Xn(t) ± 2√

Varn(t)

Code R.

extr=c(0,2)pts_rupture = seq(0,2,length.out=21)ordre = 4nb_fctBase =length(pts_rupture)+ordre-2fct_base = create.bspline.basis(extr,

norder=ordre ,breaks=pts_rupture)coeff_ech = matrix(rnorm(10*nb_fctBase),

nbre_fctBase,10)objetfd2 = fd(coeff_ech,fct_base)

sfd2 = std.fd(objetfd2)mfd2 = mean(objetfd2)

plot(objetfd2,xlab="t",ylab="x(t)")lines(mfd2,lwd=3)lines(mfd2+2*sfd2,lwd=2,lty=2)lines(mfd2-2*sfd2,lwd=2,lty=2)

8 / 46

Page 9: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Moyenne et variance empirique

Moyenne et variance (4) - Exemple

Exemple. Données Handwrit

0.0 0.5 1.0 1.5 2.0

−0.04

−0.02

0.00

0.02

0.04

Temps (ms.)

X

0.0 0.5 1.0 1.5 2.0

−0.04

−0.02

0.00

0.02

0.04

Temps (ms.)

Y

0.0 0.5 1.0 1.5 2.0

−0.03

−0.01

0.01

0.02

0.03

Temps (ms.)

mean X

0.0 0.5 1.0 1.5 2.0

−0.03

−0.01

0.01

0.02

0.03

Temps (ms.)

mean Y

Données Fonctions moyennes

Code R.tps_handwrit <- seq(0, 2.3, len=1401)pts_rupture_handwrit = seq(0,2.3,length.out=51)Fct_base_handwrit = create.bspline.basis(c(0,2.3),norder=6,breaks=pts_rupture_handwrit)Donnees_lissees_handwrit = smooth.basis(tps_handwrit,handwrit,Fct_base_handwrit)par(mfrow=c(2,1))plot(Donnees_lissees_handwrit$fd,xlab=’Temps (ms.)’)moy_handwrit = mean(Donnees_lissees_handwrit$fd)par(mfrow=c(2,1))plot(moy_handwrit,lwd=2,xlab=’Temps (ms.)’) 9 / 46

Page 10: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

10 / 46

Page 11: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (1)Observations lissées. X1, . . . ,Xn ⊂ L2(T), Xi = {Xi(t), t ∈ T }

Définition

• fonction de covariance empirique :

Cn : T2 −→ R,

(t1, t2) 7−→ Cn(t1, t2) =1n

n∑i=1

(Xi(t1) − Xn(t1)

) (Xi(t2) − Xn(t2)

).

• fonction de corrélation :

Corrn : T2 −→ R,

(t1, t2) 7−→ Corrn(t1, t2) =Cn(t1, t2)√

Varn(t1)Varn(t2).

• opérateur de covariance empirique ((X1, . . . ,Xn) supposé centré)

Γn : L2(T) −→ L2(T)

f 7−→1n

n∑i=1

〈f ,Xi〉Xi .

11 / 46

Page 12: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (2)

Observations lissées. (X1,Y1), . . . , (Xn,Yn) ⊂ L2(T), (Xi ,Yi) = {(Xi(t),Yi(t)) t ∈ T }

Définition

• fonction de covariance croisée empirique :

Covn,X ,Y : T2 −→ R,

(t1, t2) 7−→ Covn,X ,Y (t1, t2) =1n

n∑i=1

(Xi(t1) − Xn(t1)

) (Yi(t2) − Yn(t2)

).

• fonction de corrélation croisée :

Corrn,X ,Y : T2 −→ R,

(t1, t2) 7−→ Corrn,X ,Y (t1, t2) =Covn,X ,Y (t1, t2)√VarX (t1)VarY (t2)

.

12 / 46

Page 13: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (3) - Code R.

Fonctions du package fda

1. var.fd : retourne un ou plusieurs objets de classe bifd, objets fonctionnels à deuxvariables (2 indices de temps par exemple).

• cas 1 : appliquée à t 7→ Xi(t), i = 1, . . . , n, renvoie (t1, t2) 7→ Cn(t1, t2) sous forme d’unobjet fonctionnel.

• cas 2 : appliquée à t 7→ (Xi(t),Yi(t)), i = 1, . . . , n, renvoie (t1, t2) 7→ Cn,X (t1, t2),(t1, t2) 7→ Covn,X ,Y (t1, t2) et (t1, t2) 7→ Cn,Y (t1, t2).

2. cor.fd : calcul de la corrélation empirique entre un ou deux objets fonctionnels, sousforme d’une matrice.

• cas 1 : appliquée à une grille {tj , j = 1, . . . , d} (vecteur), et t 7→ Xi(t), i = 1, . . . , n, renvoie lamatrice C = (Corrn,X (tj , tk ))1≤j,k≤d .

• cas 2 : appliquée à une grille {tj , j = 1, . . . , d} (vecteur), t 7→ Xi(t), i = 1, . . . , n, uneseconde grille {t ′k , k = 1, . . . , d′} et t 7→ Yi(t), i = 1, . . . , n, renvoie la matriceC = (Corrn,X ,Y (tj , t ′k ))1≤j≤d,1≤k≤d′ .

13 / 46

Page 14: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (4) - Code R.

Représentation de courbes en 3D :1. eval.bifd du package fda :

• Arguments• une première grille {tj , j = 1, . . . , d} (vecteur),• une seconde grille {t ′k , k = 1, . . . , d′},• un (ou plusieurs) objet(s) fonctionnel(s) de la classe bifd.

• Sortie : un tableau contenant les évaluations de ces objets aux points (tj , t ′k ).

2. Outils de tracé d’une surface (t1, t2) 7→ z(t1, t2), à partir d’une grille de discrétisationpour t1, une pour t2, et la matrice d’évaluation de z en (t1, t2).

• persp : tracé 3D de la surface• contour : tracé plan des lignes de niveau.• filled.contour : tracé plan des lignes de niveau colorées (la couleur dépendant du

niveau).• levelplot du package lattice : tracé plan des lignes de niveau et couleurs entre elles.

14 / 46

Page 15: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (5) - Exemple

Exemple 1. Données CanadianWeather, log-précipitations.

0 100 200 300

−1.0

−0.5

0.00.5

1.0

Temps (jours.)

Log−

Préc

ipitat

ion (lo

g mm)

15 / 46

Page 16: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (6) - ExempleExemple 1. Données CanadianWeather, log-précipitations.

contour filled.contour

Jours (1er juillet au 30 juin)

Jours

(1er

juille

t au 3

0 juin

)

0 100 200 300

010

020

030

0

0.05

0.10

0.15

0.20

0 50 100 150 200 250 300 350

0

50

100

150

200

250

300

350

Jours (1er juillet au 30 juin)

Jours

(1er

juille

t au 3

0 juin

)

Code R.logprec_var <- var.fd(Donnees_lissees_Logprecip)jours_5 <-seq(0,365,5)logprec_var_mat<-eval.bifd(jours_5,jours_5,logprec_var)

contour(jours_5,jours_5,logprec_var_mat,xlab=’Jours (1er juillet au 30 juin)’,ylab=’Jours (1er juillet au 30 juin)’)

filled.contour(jours_5,jours_5,logprec_var_mat,xlab=’Jours (1er juillet au 30 juin)’,ylab=’Jours (1er juillet au 30 juin)’,lwd=2)

16 / 46

Page 17: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (7) - Exemple

Exemple 1. Données CanadianWeather, log-précipitations.

levelplot persp

Jours (1er juillet au 30 juin)

Jour

s (1

er ju

illet

au

30 ju

in)

100

200

300

100 200 300

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

0.20

Jours (1er ju

il.−30 juin)Jours (1er juil.−30 juin)

variance (log10 precipitations)

Code R.persp(jours_5, jours_5, logprec_var_mat,xlab=’Jours (1er juil.-30 juin)’,

ylab=’Jours (1er juil.-30 juin)’, zlab="variance (log10 precipitations)",theta=-45, phi=25, r=3)

levelplot(row.values=jours_5,column.values=jours_5,x=logprec_var_mat,contour=TRUE,xlab=’Jours (1er juillet au 30 juin)’,ylab=’Jours (1er juillet au 30 juin)’) 17 / 46

Page 18: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (8) - Exemple

Exemple 2. Données CanadianWeather, températures

Temp

eratur

e moy

enne

(deg

C)

−30

−20

−10

0

10

20

j F m A M J J A S O N D

11

1

1

1

1

1 1

1

1

1

1

22

2

2

2

2

22

2

2

2

2

3

3

3

3

3

3

33

3

3

3

3

4 4

4

4

4

4

4

4

4

4

4

4

Pr. Rupert

Montreal

Edmonton

Resolute

18 / 46

Page 19: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (9) - Exemple

Exemple 2. Données CanadianWeather, températures

contour filled.contour persp

jours

jour

s

0 100 200 300

010

020

030

0

20

40

60

80

100

0 50 100 150 200 250 300 350

0

50

100

150

200

250

300

350

jours

jour

s

joursjours

Covariance des températures

Code R.tvar = var.fd(Donnees_lissees_temp)temp_var_sem = eval.bifd(weeks,weeks,tvar)

contour(weeks,weeks,temp_var_sem,xlab="jours", ylab="jours")filled.contour(weeks,weeks,temp_var_sem,

cex.lab=1.5,cex.axis=1.5,xlab="jours", ylab="jours")persp(weeks,weeks,temp_var_sem,xlab="jours", ylab="jours",

zlab="Covariance des températures", theta=-45, phi=25, r=3)

19 / 46

Page 20: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (10) - Exemple

Exemple 2. Données CanadianWeather, températures

0.4

0.5

0.6

0.7

0.8

0.9

1.0

50 100 150 200 250 300 350

50

100

150

200

250

300

350

jours

jours

Code R.

jours = 1:365 - 0.5tcor = cor.fd(jours,Donnees_lissees_temp)

filled.contour(jours,jours,tcor,cex.lab=1.5,cex.axis=1.5,xlab="jours", ylab="jours")

20 / 46

Page 21: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

Statistique descriptive Covariance et corrélation

Covariance et corrélation (11) - Exemple

Exemple 3. Données CanadianWeather, températures et précipitations

Covariance croisée Corrélation croisée

0

5

10

15

50 100 150 200 250 300 350

50

100

150

200

250

300

350

jours

jours

0.0

0.2

0.4

0.6

0.8

50 100 150 200 250 300 350

50

100

150

200

250

300

350

jours

jours

Code R.temp_prec_var = var.fd(Donnees_lissees_temp,Donnees_lissees_precip)temp_prec_var_jours = eval.bifd(jours,jours,temp_prec_var)filled.contour(jours,jours,temp_prec_var_jours,cex.lab=1.5,

cex.axis=1.5,xlab="jours", ylab="jours")

temp_prec_cor_jours = cor.fd(jours,Donnees_lissees_temp,jours,Donnees_lissees_precip)

filled.contour(jours,jours,temp_prec_cor_jours,cex.lab=1.5,cex.axis=1.5,xlab="jours", ylab="jours") 21 / 46

Page 22: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

22 / 46

Page 23: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle

Introduction

• ACP : Analyse en Composantes Principales.

• Objectifs : outil de représentation des données et réduction de la dimensionproduire une synthèse visuelle / la meilleure représentation possible de donnéesmultivariées.

• Type de méthode• méthode factorielle (exploiter les aspects géométriques)• statistique exploratoire

• ACP fonctionnelle : extension au cadre fonctionnel de l’ACP multivariée.

23 / 46

Page 24: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Rappel - ACP multivariée

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

24 / 46

Page 25: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Rappel - ACP multivariée

Rappels ACP multivariée (1)

De quelle image 3D celle-ci est-elle la représentation simplifiée?

25 / 46

Page 26: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Rappel - ACP multivariée

Rappels ACP multivariée (2)

Toutes les représentations simplifiées ne se valent pas !

Principe de l’ACP : réduire la dimension d’un nuage de points pour en obtenir unereprésentation plus simple tout en conservant le plus possible de variabilité.

26 / 46

Page 27: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Rappel - ACP multivariée

Rappels ACP multivariée (3) - Point de vue théorique

• Point de départ. X = (X1, . . . ,Xd) ∈ Rd , d ≥ 3 vecteur aléatoire.

• Problématique. recherche des sous-espaces vectoriels de Rd qui résument le mieuxl’information, pour représenter X dans un espace de dimension < d.

• Méthode.1. Diagonalisation en base orthonormée de la matrice de covariance Σ de X .2. Choix des sous-espaces engendrés par les vecteurs propres de Σ.

27 / 46

Page 28: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Rappel - ACP multivariée

Rappels ACP multivariée (4) - Point de vue pratique

• Point de départ.• Observations Xi = t (Xi,1, . . . ,Xi,d) ∈ Rd , pour i ∈ {1, . . . , n}

Xc =

X1,1 − X.1 · · · X1,d − X.dX2,1 − X.1 X2,2 − X.2 · · · X2,d − X.d

. . .

.

.

.. . .

.

.

.

. . .

Xn,1 − X.1 · · · Xn,d − X.d

.

• Matrice de covariance empirique

Σ =

1n

n∑i=1

(Xi,j − X.j)(Xi,j′ − X.j′ )

1≤j,j′≤d

=t XcXc

n

• Inertie du nuage de points

I =1n

n∑i=1

n∑j=1

(Xi,j − X.j)2 = Tr(Σ)

• Décomposition de l’inertie totale. pour tout sous-espace S de Rd ,

I =1n

n∑i=1

‖ΠS Xi − Xi‖2 +

1n

n∑i=1

‖ΠS Xi‖2 = IS + IS⊥ . 28 / 46

Page 29: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Rappel - ACP multivariée

Rappels ACP multivariée (4) - Point de vue pratique

• Principe de l’ACP. Recherche séquentielle (par récurrence) des axes de projectionsminimisant la déformation du nuage de départ.

1. Recherche de ∆1 tel que I∆⊥1 est maximale.Solution : ∆1 dirigé par a1, vecteur propre normé associé à la plus grande valeur propre λ1de Σ.

2. Recherche de ∆2, orthogonal à ∆1 et tel que I∆⊥2 est maximale.Solution : ∆2 dirigé par a2, vecteur propre normé associé à la seconde plus grande valeurpropre λ2 de Σ.

3. . . .

• Construction de Sk = ∆1 + · · ·+ ∆k = Vect(a1, . . . , ak ), avec

∆1 ⊥ ∆2 ⊥ . . . ⊥ ∆d

λ1 ≥ λ2 ≥ · · · ≥ λd

I∆⊥1 ≥ I∆⊥2 ≥ · · · ≥ I∆⊥d

.

• Représentation des individus Xi dans la nouvelle base {a1, . . . , ak }.

29 / 46

Page 30: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Théorie de l’ACP fonctionnelle

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

30 / 46

Page 31: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Théorie de l’ACP fonctionnelle

ACP fonctionnelle - Théorie (1)

ACP multivariée ACP fonctionnelle

Données X ∈ Rd X ∈ L2(T)X = t (X1, . . . ,Xd) X = {X(t), t ∈ T }

Moyenne vecteur de moyenne courbe de la moyenneE[X ] = t (E[X1], . . . ,E[Xd ]) E[X ] = {E[X(t)], t ∈ T }

Covariance matrice fonction de covariance CX ou opérateur ΓX

ΣX = Cov(X ,X) CX (s, t) = Cov(X(s),X(t))

31 / 46

Page 32: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Théorie de l’ACP fonctionnelle

ACP fonctionnelle - Théorie (2)

• Point de départ. X = {X(t), t ∈ T } ∈ L2(T)

• Objectifs. construction d’une base hilbertienne (ψj)j∈N\{0} de L2(T) telle que l’espaceSk = Vect{ψ1, . . . , ψk } minimise la distance L2 entre X et sa projection orthogonaleΠSk X .

• Construction. Recherche séquentielle (par récurrence)1. Recherche de ψ1 ∈ L2(T), de norme ‖ψ1‖

2 =∫T ψ

21(t)dt = 1, telle que

ψ1 ∈ arg minf∈L2(T)

E[‖X − 〈X , f〉f‖].

2. Recherche de ψ2 ∈ L2(T), de norme ‖ψ2‖2 = 1 et 〈ψ2, ψ1〉 = 0 , telle que

ψ2 ∈ arg minf∈L2(T)

E[‖X − 〈X , ψ1〉ψ1 − 〈X , f〉f‖].

3. · · ·k+1. Si ψ1, . . . , ψk déjà construits, recherche de ψk+1 ∈ L2(T) , de norme ‖ψk+1‖

2 = 1 et〈ψk+1, ψj〉 = 0 pour tout j ≤ k , telle que

ψk+1 ∈ arg minf∈L2(T)

E[‖X −ΠSk X − 〈X , f〉f‖].

32 / 46

Page 33: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Théorie de l’ACP fonctionnelle

ACP fonctionnelle - Théorie (3)

Proposition

La famille (ψk )k est constituée de fonctions propres de l’opérateur de covariance ΓX

associées aux valeurs propres (λk )k≥1 rangées par ordre décroissant :

ΓXψj = λjψj ou encore∫

TCX (s, ·)ψj(s)ds = λjψj(·).

Ainsi, la base de l’ACP fonctionnelle est, au signe près, la base de Karhunen-Loève de X.

33 / 46

Page 34: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Théorie de l’ACP fonctionnelle

ACP fonctionnelle - Théorie (4)

ACP multivariée ACP fonctionnelle

Données X ∈ Rd X ∈ L2(T)X = t (X1, . . . ,Xd) X = {X(t), t ∈ T }

Base de l’ACP vecteurs propres (aj)j=1,...,d de fonctions propres (ψj)j≥1 dela matrice de covariance l’opérateur de covariance

Représentation ACP X = E[X ] +∑d

j=1 ξjaj X(t) = E[X ](t) +∑d

j=1 ξjψj(t)

34 / 46

Page 35: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Mise en pratique de l’ACP fonctionnelle

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

35 / 46

Page 36: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Mise en pratique de l’ACP fonctionnelle

ACP fonctionnelle - Point de vue pratique

• Point de départ.• Observations. Xi = {Xi(t), t ∈ T } ∈ L2(T), pour i ∈ {1, . . . , n}• Opérateur de covariance empirique

Γn f(s) =1n

n∑i=1

〈Xi , f〉Xi =

∫T

Cn(s, t)f(t)dt , Cn(s, t) =1n

n∑i=1

Xi(s)Xi(t).

• Propriétés. Γn est autoadjoint compact donc diagonalisable, de valeurs propres (λj)j≥1

et de vecteurs propres (ψj)j≥1

• Estimation de la base de Karhunen-Loève.

• λj estime λj .• ψj estime ψj .

36 / 46

Page 37: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

Plan

Statistique descriptiveMoyenne et variance empiriqueCovariance et corrélation

ACP fonctionnelleRappel - ACP multivariéeThéorie de l’ACP fonctionnelleMise en pratique de l’ACP fonctionnelleReprésentations graphiques et exemples

37 / 46

Page 38: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Code R.

Fonction pca.fd du package fda

1. Arguments principaux.• fdobj : objet de la classe fd (données fonctionnelles après lissage), éventuellement

multivarié,• nharm : nombre de fonctions propres à calculer (aussi appelées harmoniques),• centerfns : booléen, si la valeur est TRUE, centrage des données avant le calcul de l’ACP.

2. Sortie. retourne un objet de la classe pca.fd, dont les entrées principales sont• harmonics : objet fonctionnel (classe fd) contenant les fonctions propres (ψj)j≥1• values : ensemble complet des valeurs propres de l’opérateur de covariance empirique

(λj)j≥1• scores : matrice des scores ie. des coordonnées des individus (courbes) dans la nouvelle

base, ie. selon chacune des fonctions propres,• varprop : vecteur donnant la proportion de variance expliquée par chaque fonction propre,• meanfd : objet fonctionnel (classe fd) contenant la fonction moyenne.

38 / 46

Page 39: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Représentation graphique

1. Tracé des premières fonctions propres (ψj)j≥1 (ou composantes principales), demanière à obtenir une proportion de variance expliquée supérieure ou égale à 90%.

2. Représentation, dans un plan, des coordonnées des courbes de l’échantillon dedépart selon la première et la seconde composantes principales (ou la seconde et latroisième, ...).

3. Représentation des composantes principales comme perturbation de la fonctionmoyenne.−→ plot.pca.fd.

39 / 46

Page 40: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Exemple (1)

Exemple. Données CanadianWeather, log-précipitations.• ψ1 : 87.4% de la variabilité expliquée (λ1 = 39.5),• ψ2 : 8.6% de la variabilité expliquée (λ2 = 3.9).

0 100 200 300

−0.

050.

05

jours

Val

eurs

Fct

Pro

pre

0 100 200 300

−0.

050.

05

jours

Val

eurs

Fct

Pro

pre

Code R.

Logprecip_ACP=pca.fd(Donnees_lissees_Logprecip,nharm=2)

print(Logprecip_ACP$values)print(Logprecip_ACP$varprop)

par(mfrow=c(2,1))plot(Logprecip_ACP$harmonics[1],xlab=’jours’,

ylab="Valeurs Fct Propre",ylim=c(-0.05,0.1),main="PC1")

plot(Logprecip_ACP$harmonics[2],xlab=’jours’,ylab="Valeurs Fct Propre",ylim=c(-0.05,0.1),main="PC2")

40 / 46

Page 41: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Exemple (2)

Exemple. Données CanadianWeather, log-précipitations.

0 100 200 300

−0.4

−0.2

0.0

0.2

0.4

0.6

PCA function 1 (Percentage of variability 87.4 )

argvals

Harm

onic

1

++++++++++++++++++++

+++++++++++

+++++++++++++++

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

−−−−−

−−−−

−−−−

−−−−

−−−−

−−−−−

−−

0 100 200 300

0.0

0.1

0.2

0.3

0.4

PCA function 2 (Percentage of variability 8.6 )

argvals

Harm

onic

2

+++++++++++++++++++++++++++++++

+++++++++++++++++++++++++++++++++++++++++++++++++++++

++++++

++++

++++

++++

++++

++++++++++

++++

++++

++++

−−−−−−−−−−−−−−

−−−−−

−−−−−−−−−−−−−−−−

−−−−−−

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

−−−−−

−−−−

−−−−−

−−−−−−

Code R.par(mfrow=c(2,1))plot.pca.fd(Logprecip_ACP)

41 / 46

Page 42: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Exemple (3)

Exemple. Données CanadianWeather, log-précipitations.

−15 −10 −5 0 5 10

−50

050

100

coord. suivant PC1

coor

d. su

ivant

PC2

St. Johns

Halifax

Sydney

Yarmouth

Charlottvl

Fredericton

Scheffervll

Arvida

BagottvilleQuebec

Sherbrooke

MontrealOttawa

Toronto LondonThunder Bay

Winnipeg

The Pas

Churchill

ReginaPr. AlbertUranium City

Edmonton

Calgary

Kamloops

Vancouver

Victoria

Pr. George

Pr. Rupert

Whitehorse

Dawson

Yellowknife

Iqaluit

Inuvik

Resolute

Code R.par(mfrow=c(1,1))plot(Logprecip_ACP$scores[,1],Temp_ACP$scores[,2],xlab="coord. suivant PC1",

ylab="coord. suivant PC2")text(Logprecip_ACP$scores[,1],Temp_ACP$scores[,2]+5,CanadianWeather$place,cex=0.6)

42 / 46

Page 43: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Exemple (4)

Exemple. Données CanadianWeather, températures.Fonction propre ψ1 ψ2 ψ3 ψ4 · · ·

Variabilité expliquée 88.4% 8.5% 2% 0.5% · · ·

0 100 200 300

−0.1

0−0

.05

0.00

0.05

0.10

PC1

jours

Vale

urs

Fct P

ropr

e

0 100 200 300

−0.1

0−0

.05

0.00

0.05

0.10

PC2

jours

Vale

urs

Fct P

ropr

e

0 100 200 300

−0.1

0−0

.05

0.00

0.05

0.10

PC3

jours

Vale

urs

Fct P

ropr

e

0 100 200 300

−0.1

0−0

.05

0.00

0.05

0.10

PC4

jours

Vale

urs

Fct P

ropr

e

43 / 46

Page 44: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Exemple (5)

Exemple. Données CanadianWeather, températures.

0 100 200 300

−20

−10

010

20

PCA function 1 (Percentage of variability 88.4 )

argvals

Harm

onic

1

+++++++++++++++

+++++++

+++++++++++++++++++++++

+++++++++++

+++++++

++++++++++++++++++++++++++++++++++++++++++

++++++++++++

+++++++++++

−−−−−−

−−−−−−−−−−−−

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

−−−−−−−−−−−−

−−−−−−−−−−−

0 100 200 300

−10

010

20

PCA function 2 (Percentage of variability 8.5 )

argvals

Harm

onic

2

+++++++++++++

+++++++++

++++++++++++++++++++++++++++++++++++++++

+++++++

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

−−−−−−−−−−−−−−−−−

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

−−−−−−−−−−−−−−−−−−−−−−

−−−−−−−−−−−−

−−−−−−−−−−−−−−−−−−−−

−−−−−−

−−−−−

0 100 200 300

−15

−10

−50

510

15

PCA function 3 (Percentage of variability 2 )

argvals

Harm

onic

3

++++++++++++++++++

++++++++++++++++++++++++++++++++++++++++++++

++++++++++++++++++++++++++++++++++

+++++++++++++++++++++

+++++++++++

−−−−−−−−

−−−−−−−

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

−−−−−−−−−−−−

−−−−−−−−−−−−

−−−−−−−−−−−−−−−−−−−−−−−

0 100 200 300

−15

−10

−50

510

15

PCA function 4 (Percentage of variability 0.5 )

argvals

Harm

onic

4

+++++++

++++++++++

+++++++++++++++++++++++++++++++++++++++++++++

+++++++

++++++++++++++++

++++++++++++++

++++++++++++++++++

+++++++++++

−−−−−−−−−−−−−

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

−−−−−−−−−

−−−−−−−−

−−−−−−−−−−−−−−−−−−−−−

−−

44 / 46

Page 45: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Exemple (6)

Exemple. Données CanadianWeather, températures.

−300 −200 −100 0 100 200

−50

050

100

coord. suivant PC1

coor

d. s

uiva

nt P

C2

St. Johns

Halifax

Sydney

Yarmouth

Charlottvl

Fredericton

Scheffervll

Arvida

BagottvilleQuebec

Sherbrooke

MontrealOttawa

TorontoLondonThunder Bay

Winnipeg

The Pas

Churchill

ReginaPr. AlbertUranium City

Edmonton

Calgary

Kamloops

Vancouver

Victoria

Pr. George

Pr. Rupert

Whitehorse

Dawson

Yellowknife

Iqaluit

Inuvik

Resolute

45 / 46

Page 46: - Statistique pour données fonctionnelles. Chapitre 4 ...gchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap4.pdf · Statistique pour données fonctionnelles. Chapitre 4. Statistique

ACP fonctionnelle Représentations graphiques et exemples

ACP fonctionnelle - Pour aller plus loin

• ACP fonctionnelle pour données fonctionnelles multivariées

• Transformation de la base de l’ACP par rotation (stratégie VARIMAX).

46 / 46