60
ISE: Introduction ` a la statistique et ` a l’´ econom´ etrie E. Le Pennec ´ Ecole Polytechnique 2014

ISE: Introduction à la statistique et à l'économétrielepennec/enseignement/ISE/Cours09.pdfProbl´ematique Automobile 0 25 50 75 100 125 5 10 15 20 25 speed dist Pr edire la distance

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

ISE: Introduction a lastatistique et a l’econometrie

E. Le PennecEcole Polytechnique

2014

Menu du jour

Regression non parametrique

Estimation de densite non parametrique

ProblematiqueAutomobile

0

25

50

75

100

125

5 10 15 20 25speed

dist

Predire la distance de freinage en fonction de la vitesse sans avoirune formule en tete !

ProblematiqueGeyser

3.600 1.800 3.333 2.283 4.533 2.883 4.700 3.600 1.950 4.350 1.8333.917 4.200 1.750 4 .700 2.167 1.750 4.800 1.600 4.250 1.800 1.750

...

Donner la distributions des durees des eruptions du geyser Oldfaithful sans en avoir de modelisation parametrique...

Regression non parametriqueModelisation

yi = f (xi ) + σεi avec f une fonction (non necessairement lineaire) etεi un bruit centre reduit (gaussien le plus souvent).

Modele non parametrique car f est une fonction !

Comment choisir une fonction f pour que

la difference avec f soit petite ?la prediction f (x) soit proche de l’observation y ?

Cas classique : proximite mesure en distance L2.

Dans ce cas, Les deux criteres precedents sont les memes : a x fixe,

E[|f (x)− y |2

]= |f (x)− f (x)|2 + σ2

Methode de type moindre carre

Regression non parametiqueCritere de qualite

Pour simplifier, Xi i.i.d.

Erreur integre :

E[|f (X )− f (X )|2

]Erreur empirique :

1

n

n∑i=1

|f (xi )− yi |2

Si f est independant des donnees,

E

[1

n

n∑i=1

|f (xi )− yi |2]

= E[|f (X )− f (X )|2

]+ σ2

Regression non parametriqueModeles pour f

Modelisation parametrique : choix de f parmi une famille specifiepar un nombre fini de parametres.

Modelisations parametriques et selection : critere AIC / validationcroisee

Modelisation non-parametrique : modele non specifie (a priori) parun nombre fini de parametres.

En fait, on devrait plutot dire que le nombre de parametresaugmente avec le nombre d’observations...

Nombreuses modelisations non-parametriques : regressions locales,regressions par morceaux, splines, projection dans des bases...

Regression non parametriqueRegression locale

Idee simple : remplacer une regression (lineaire) globale par desregressions (lineaires) localesVersion primitive : En tout point x ,

on determine l’ensemble des points des donnees a distance inferieur a hde x ,on calcul une regression locale (lineaire) en ces points

(αx , βx) = arg min(α,β)

∑xid(x,xi )≤h

|αxi + β − yi |2

on utilise pour f (x) la valeur predite en x : f (x) = αxx + βxVersion amelioree en ponderant les points par une poidK ((x − xi )/h) dependant de la distance entre x et xi :

(αx , βx) = arg min(α,β)

∑xi

K

(x − xi

h

)|αxi + β − yi |2

K est appele le noyau et h la largeur de bande.On est ramene au cas precedent par le choix K (x) = 1|x |≤1.

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueLargeur de bande

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueErreur empirique

100

150

200

250

300

1 2 3param

V1

Erreur empirique :

1

n

n∑i=1

|f (xi )− yi |2

Meilleur choix : plus petite largeur de bande ?Surapprentisage

Regression non parametriqueErreur empirique

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueValidation croisee

100

150

200

250

300

1 2 3param

V1

Principe : Donnees coupees en 2 morceaux1 utilise pour l’apprentissage1 utilise pour le calcul de l’erreur

Plus de surapprentisage

Meilleur choix : plus grande largeur de bande !

Regression non parametriqueValidation croisee

0

25

50

75

100

125

5 10 15 20 25speed

dist

Regression non parametriqueAnalyse dans un cas simple

Regression de degre 0 :

βx = arg minβ

∑xi

K (x − xi

h)|β − yi |2

Solution explicite !

βx =

∑xiK(x−xih

)yi∑

xiK(x−xih

)Erreur en prenant f (x) = βx :

∆(x) =

∣∣∣∣∣∑

xiK(x−xih

)yi∑

xiK(x−xih

) − f (x)

∣∣∣∣∣2

=

∣∣∣∣∣∑

xiK(x−xih

)f (xi )∑

xiK(x−xih

) − f (x)

+

∑xiK(x−xih

)σεi∑

xiK(x−xih

) ∣∣∣∣∣2

Regression non parametriqueAnalyse dans un cas simple

En passant a l’esperance,

E [∆(x)] =

∣∣∣∣∣∑

xiK(x−xih

)f (xi )∑

xiK(x−xih

) − f (x)

∣∣∣∣∣2

+ σ2∑

xiK 2(x−xih

)(∑xiK(x−xih

))2Compromis biais/variance...

Regression non parametriqueAutres methodes

Polynomes par morceaux

Decomposition dans des bases...

Extension possible en dimension superieur !

Estimation non parametriqueModelisation

Xi i.i.d. de loi f (x)dλ(x)

Hypothese d’existence de densite pas trop restrictive.

But : estimer f a partir de X1, . . . ,Xn de sorte que f soit proche def .

Critere le plus classique : divergence de Kullback-Leibler

KL(f , f ) =

∫− log

f (x)

f (x)f (x)dλ(x)

Lien avec la vraisemblance : si g est independant des donnees

KL(f , g) = E

[1

n

n∑i=1

− logg(Xi )

f (Xi )

]

= E

[−1

n

n∑i=1

log g(Xi )

]+ C (f )

Estimation non parametriqueModeles pour f

Modelisation parametrique : choix de f parmi une famille specifiepar un nombre fini de parametres.

Modelisations parametriques et selection : critere AIC / validationcroisee

Modelisation non-parametrique : modele non specifie (a priori) parun nombre fini de parametres.

En fait, on devrait plutot dire que le nombre de parametresaugmente avec le nombre d’observations...

Nombreuses modelisations non-parametriques : methodes a noyaux,projection dans des bases...

Estimation non parametriqueMethode a noyau

Observation : sous des hypotheses faibles

1

n

n∑i=1

h(Xi )→∫

h(x ′)f (x ′)dλ(x ′)

On prend h(x) = K(x−x ′h

)et on obtient

1

n

n∑i=1

K

(xXi

h

)→∫

K

(x − x ′

h

)f (x ′)dλ(x ′) = Kh ? f

Proprietes : sous des hypotheses faibles

Kh ? f →h→0 fLa variance du terme de droite augmente lorsque h tend vers 0

Phenomene de compromis biais/variance

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueLargeur de bande

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity

Estimation non parametriqueValidation croisee

220

240

260

280

0.05 0.10 0.15 0.20param

V1

Compromis biais/variance

Estimation non parametriqueValidation croisee

1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.0

0.2

0.4

0.6

0.8

eruptions

Den

sity