25
Statistique pour données fonctionnelles. Chapitre 1. Introduction Gaëlle Chagny CNRS, Labo. de Maths. R. Salem, Univ. Rouen, Université Paris Dauphine – Executive Master Statistique et Big data, 2020 1 / 24

- Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Statistique pour données fonctionnelles.Chapitre 1. Introduction

Gaëlle ChagnyCNRS, Labo. de Maths. R. Salem, Univ. Rouen,

Université Paris Dauphine – Executive Master Statistique et Big data, 2020

1 / 24

Page 2: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Plan

Introduction et exemples

Modélisation mathématique

Historiques - références

Suite du cours

2 / 24

Page 3: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Plan

Introduction et exemples

Modélisation mathématique

Historiques - références

Suite du cours

3 / 24

Page 4: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

But du cours

• Cadre de la statistique “classique” : observations = réalisations de variablesaléatoires réelles ou vecteurs aléatoires.

• Cadre du cours : observations = réalisations de fonctions aléatoires (courbesaléatoires, images)• données de dimension infinie,• données de plus en plus fréquentes,• données apparaissant dans de nombreux domaines : biologie, climatologie, chimie,

économétrie.

• Utilisation du package fda de R, et des jeux de données associés.(Ramsay et Silverman)

4 / 24

Page 5: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (1) - Données longitudinales

−→ données concernant un même phénomène mesuré quantitativement à différents tempsde mesure.

Données CanadianWeather du package fda

Temp

eratur

e moy

enne

(deg

C)

−30

−20

−10

0

10

20

j F m A M J J A S O N D

11

1

1

1

1

1 1

1

1

1

1

22

2

2

2

2

22

2

2

2

2

3

3

3

3

3

3

33

3

3

3

3

4 4

4

4

4

4

4

4

4

4

4

4

Pr. Rupert

Montreal

Edmonton

Resolute

0 100 200 300

−1.0

−0.5

0.00.5

1.0

Précipitations au Canada

Jours (du 1er juillet au 30 juin)

log en

base

10 de

s préc

ipitat

ions

St Johns

London

Regina

Courbes de température. Courbes de précipitation.

5 / 24

Page 6: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (2) - Données longitudinales

Données du CEA

0 1000 2000 3000 4000 5000

05

01

00

15

02

00

25

03

00

time

tem

pe

ratu

re

Simulations de l’évolution de la température dans un réacteur nucléaire lors d’un accidentde type perte de réfrigérant primaire.

6 / 24

Page 7: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (3) - Données longitudinales

Données growth du package fda

5 10 15

8010

012

014

016

018

0

Courbes de croissance

Age (annees)

Taille

(cm)

Courbes de croissance de 10 filles, de 1 à 18 ans.

7 / 24

Page 8: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (4) - Données longitudinales

Données pinch du package fda (biomécanique)

0.00 0.05 0.10 0.15 0.20 0.25 0.30

24

68

1012

Données de force du groupe Pouce−Index

Temps (sec.)

Force

(New

ton)

20 enregistrements de l’évolution au cours d’une manipulation de la force exercée entre lepouce et l’index d’un sujet .

8 / 24

Page 9: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (5) - Autres données

Données spectrométriques (chimie) : absorbance de la lumière en fonction de la longueurd’onde dans un matériau.

850 900 950 1000 1050

2.02.5

3.03.5

4.04.5

5.05.5

Donnees spectrometriques

longueur d onde (nm)

absorb

ance

Trajectoires observées d’un spectre d’absorbance de 100 canaux mesurés parspectrophotomètre dans des échantillons de viande.https://www.math.univ-toulouse.fr/ ferraty/SOFTWARES/NPFDA/npfda-datasets.html

9 / 24

Page 10: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (6) - Autres données

Données fonctionnelles bivariées (images)

Données handwrit du package fda

−0.04 −0.03 −0.02 −0.01 0.00 0.01 0.02 0.03

−0.04

−0.02

0.00

0.02

0.04

Echantillons d écriture à la main

x

y

0 500 1000 1500 2000

−0.04

−0.03

−0.02

−0.01

0.00

0.01

0.02

0.03

Representation d une des coordonnees

Temps (ms.)

Absc

isse d

ecritu

re

20 tracés courbes d’évolution des(unité de l’axe des abscisses : cm.) abscisses au cours du temps (20 courbes)

10 / 24

Page 11: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (7) - Autres données

Cas d’une seule réalisation d’une courbe aléatoire.

Données refinery du package fda

0 50 100 150 200

01

23

4

Donnees de production du niveau 47 de la raffinerie

Temps (min.)

Quan

tité de

petro

le pro

duit

0 50 100 150 200

−0.5

−0.4

−0.3

−0.2

−0.1

0.00.1

Temps (min.)

Flux d

e vap

eur a

u nive

au 47

quantité de pétrole produit flux de vapeurà un certain niveau de la colonne de distillation dans cette même colonne

en fonction du temps en fonction du temps

11 / 24

Page 12: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Introduction et exemples

Exemples (8) - Autres données

Cas d’une seule réalisation d’une courbe aléatoire.

Données melanoma du package fda

1935 1940 1945 1950 1955 1960 1965 1970

12

34

Taux d incidence du melanome

Temps (années)

Taux

Évolution du taux d’incidence du mélanome dans un échantillon de la population desÉtats-Unis. 12 / 24

Page 13: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Modélisation mathématique

Plan

Introduction et exemples

Modélisation mathématique

Historiques - références

Suite du cours

13 / 24

Page 14: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Modélisation mathématique

Définition des données fonctionnelles• (Ω,A,P) espace probabilisé (Ω ensemble, A tribu sur cet ensemble, et P mesure de

probabilité sur A),• F espace de fonctions (espace de Banach séparable).

Définition

• Variable aléatoire fonctionnelle : variable aléatoire qui prend ses valeurs dans unespace vectoriel de dimension infinie,

X : Ω → F .

• Donnée fonctionnelle : une réalisation d’une variable fonctionnelle X.

Exemple. Si F ⊂ f : T → R, X : Ω × T → R,• ∀ω ∈ Ω fixé, X(ω, ·) : T → R trajectoire de X (fonction déterministe),• ∀t ∈ T fixé, X(·, t) : Ω → R variable aléatoire réelle.

• Cas particuliers.• T ⊂ R −→ courbes aléatoires,• T ⊂ R2 −→ surfaces aléatoires.

14 / 24

Page 15: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Modélisation mathématique

Données fonctionnelles - Observations

• Cas 1. Observation d’une fonction aléatoire unique X

X : Ω × T → R,

• Cas 2. Observation d’un échantillon de fonctions aléatoires X1, . . . ,Xn

Xi : Ω × T → R, i ∈ 1, . . . , n

Dans ce cours : (Xi)i∈1,...,n i.i.d..

• Conventions usuelles :• omission des indices ω et t ;• identification des variables aléatoires et de leurs réalisations.

15 / 24

Page 16: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Modélisation mathématique

Données fonctionnelles - Observations

Xi : Ω × T → R, i ∈ 1, . . . , n

• Observation de toute une trajectoire impossible : Xi(t), t ∈ T jamais entièrementobservé.

• Observations discrétisées : accès à n vecteurs

(Xi(ti,1), . . . ,Xi(ti,p)), i ∈ 1, . . . , n

avec ti,1, . . . , ti,p ⊂ T grilles de discrétisation.

−→ présentation des données sous forme vectorielle.

Question. Pourquoi ne pas les voir comme des réalisations de vecteurs aléatoires etappliquer les outils classiques de stat. multivariée?

−→ différence d’approche...

16 / 24

Page 17: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Modélisation mathématique

Avantages de l’approche fonctionnelle (1)

• Prise en compte de la structure intrinsèque des données.• corrélation importante entre 2 observations rapprochées d’un même phénomène continu

(X(tj) et X(tj+1) nécessairement liés).−→ prise en compte de la régularité des phénomènes continus, des aspects géométriques−→ approche fonctionnelle permet de supposer les fonctions “lisses” (régulières) et deconsidérer des opérations comme la dérivation (étude de la vitesse et de l’accélération duphénomène en plus du phénomène lui-même)

• intégration d’informations a priori sur les courbes (périodicité...).

• Prise en compte de grilles d’enregistrement possiblement différentes.atténuation des effets de la non-correspondance des instants d’observation (utilisationd’approximations continues).

• Prise en compte des problématiques liées à la grande dimension. p taille de lagrille et n taille de l’échantillon.

p >> n.

−→ “malédiction de la dimension” (curse of dimensionality).

17 / 24

Page 18: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Modélisation mathématique

Avantages de l’approche fonctionnelle (2)

Exemple. Données growth du package fda

Modélisation. ∀i ∈ 1, . . . , 10, Xi(tj) = taille de l’individu i à l’instant de mesure tj , pourtj ∈ 1, 1.25, 1.5, 1.75, 2, 3, 4, . . . , 8, 8.5, 9, 9.5, . . . , 18.

5 10 15

8010

012

014

016

018

0

Courbes de croissance

Age (annees)

Taille

(cm)

5 10 15

−4−3

−2−1

01

2

Acceleration pour les courbes de croissance

Age (années)

Accc

elerat

ion

Courbes Xi Accélération X ′′i (cm/an2)

18 / 24

Page 19: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Modélisation mathématique

Avantages de l’approche fonctionnelle (2)

• Approche fonctionnelle vs. approche multivariée

−→ 2 façons de voir des données possiblement similaires

• Cas où l’approche fonctionnelle donne des résultats supérieurs à l’approcheclassique

• données observées représentant un phénomène régulier (croissance, évolution destempératures, etc... ),

• données observées à un bruit près, donc pouvant paraitre irrégulières, mais représentantun phénomène supposé régulier (précipitations...).

19 / 24

Page 20: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Historiques - références

Plan

Introduction et exemples

Modélisation mathématique

Historiques - références

Suite du cours

20 / 24

Page 21: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Historiques - références

Quelques éléments d’historique

• Apparition des données fonctionnelles.probablement en chimie, biologie.

• Premières études mathématiques• Deville (1974)• Dauxois et Pousse (1976), Dauxois, Pousse et Romain (1982)• Besse et Ramsay (1986)

• Popularisation et développement de l’analyse de données fonctionnelles.• Communauté scientifique américaine : Ramsay et Silverman... (1999, 2002, 2005, 2009...)• Communauté française : Cardot, Ferraty, Romain, Sarda, Vieu, Mas... (1999, 2002, 2006...)• Communauté espagnole : Goia, Gonzalez-Manteiga, Valderrama... (2007, 2016...)

−→ développement de versions “fonctionnelles” pour les outils statistiques classiques (ACP,modèle linéaire, stat. non-paramétrique,...).

21 / 24

Page 22: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Historiques - références

Quelques références

• Ramsay J.O. et Silverman B.W.• Functional Data Analysis• Applied Functional Data Analysis• Functional Data Analysis with R and Matlab

• Ferraty, F. et Vieu, P.• Richesse et complexité des données fonctionnelles• Functional nonparametric statistics

• Ferraty, F. et Romain, Y.• The Oxford Handbook of Functional Data Analysis

22 / 24

Page 23: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Suite du cours

Plan

Introduction et exemples

Modélisation mathématique

Historiques - références

Suite du cours

23 / 24

Page 24: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Suite du cours

Plan

• Chapitre 2. Bases mathématiques (probabilité et analyse fonctionnelle)

• Chapitre 3. Des données fonctionnelles aux fonctions lisses

• Chapitre 4. Statistique descriptive et exploratoire pour données fonctionnelles

• Chapitre 5. Modélisation pour données fonctionnelles (régression)

24 / 24

Page 25: - Statistique pour données fonctionnelles. Chapitre 1. Introductiongchagny.perso.math.cnrs.fr/CoursFDA_slides_Chap1.pdf · 2017-07-03 · Statistique pour données fonctionnelles

Suite du cours

Plan

• Chapitre 2. Bases mathématiques (probabilité et analyse fonctionnelle)

• Chapitre 3. Des données fonctionnelles aux fonctions lisses

• Chapitre 4. Statistique descriptive et exploratoire pour données fonctionnelles

• Chapitre 5. Modélisation pour données fonctionnelles (régression)

24 / 24