81
1/81 ´ El´ ements de statistique egression 2/2 Nathalie Akakpo Septembre 2018 Master 2 Probabilit´ es et Finance

Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

1/81

Elements de statistiqueRegression 2/2

Nathalie Akakpo

Septembre 2018

Master 2 Probabilites et Finance

Page 2: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

2/81

Regression 2/2 Bilan et ouvertures

1 Introduction

2 Regression non-parametrique

3 Regression robuste

4 Selection de modeleExemples introductifsCadre mathematiqueCoefficients de determinationMinimisation de criteres penalises

5 Ridge, LASSO, Elastic-netCadre et motivationRegression RidgeRegression LASSO

6 Regression logistique

Page 3: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

3/81

Introduction

Page 4: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

4/81

Limites du modele lineaire gaussien homoscedastiqueregulier

1 Que faire si la regression n’est pas lineaire ?

2 Que faire si les erreurs sont heteroscedastiques ?

3 Que faire si les erreurs ne sont pas independantes ?

4 Que faire si les erreurs ne sont pas gaussiennes ? (erreurssous-exponentielles ? de variance infinie ? a queue lourde ?)

5 Que faire si X n’est pas de rang plein ? (p ≤ n et rang(X ) < p ou p ≥ n,voire p >> n)

6 Que faire selon l’objectif : estimation des coefficients ou selection desvariables ?

7 ....

Page 5: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

5/81

Limites du modele lineaire gaussien homoscedastiqueregulier

1 Que faire si la regression n’est pas lineaire ? → transformations desdonnees ; techniques non parametriques (splines, ondelettes, noyaux,CART, reseaux de neurones ...) → voir chapitre 2.2

2 Que faire si les erreurs sont heteroscedastiques ? → regression ponderee

3 Que faire si les erreurs ne sont pas independantes ? → outils de seriestemporelles

4 Que faire si les erreurs ne sont pas gaussiennes ? (erreurssous-exponentielles ? de variance infinie ? a queue lourde ?)

5 Que faire si X n’est pas de rang plein ? (p ≤ n et rang(X ) < p ou p ≥ n,voire p >> n)

6 Que faire si la variable a expliquer est discrete ou quantitative ?

7 Que faire selon l’objectif : estimation des coefficients ou selection desvariables ?

8 ....

Page 6: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

6/81

Regression non-parametrique (bilan Semaine 2)

Yi = s(Xi ) + εi , i = 1, . . . , n

(εi ) i.i.d. centrees, independantes des (Xi ), Xi a valeurs dans [0, 1]d ,s : [0, 1]d → R a estimer

Page 7: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

7/81

Regression a noyau (Nadaraya-Watson)

d = 1 :

sNW ,h(x) =

∑ni=1 YiK

(Xi−x

h

)∑n

i=1 K(

Xi−xh

) =n∑

i=1

wi (x)Yi

ou

wi (x) =K(

Xi−xh

)∑n

j=1 K(

Xj−x

h

)Choix de la fenetre h par validation croisee :

hCV = argminh>0

n∑i=1

(Yi − s(−i)NW ,h(xi ))2

ou

s(−i)NW ,h(xi ) =

n∑j=1

wj,−i (x)Yj

avec wj,−i (x) = 0 si j = i et

wj,−i (x) =wj(x)∑k 6=i wk(x)

, si j 6= i

Page 8: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

8/81

Regression a noyau (Nadaraya-Watson)

Vitesse optimale en norme L2 sur des classes appropriees de fonctions deregularite α :

d = 1 : n−2α/(1+2α)

Extension a d ≥ 2 : n−2(α/d)/(1+2(α/d)) → fleau de la dimension

Page 9: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

9/81

Selection de modeles : regressogrammes

Pour m ∈M, famille de partitions de [0, 1], soit Sm ensemble des fonctionsconstantes par morceaux sur m, alors

sm = argmint∈Sm

1

n

n∑i=1

(Yi − t(Xi ))2

=∑I∈m

YI

µX (I )1II

ou

YI =1

n

n∑i=1

Yi1II (Xi ) et µX (I ) =1

n

n∑i=1

1II (Xi ).

Exemples de familles de partitions :

partitions regulieres de [0, 1];

partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n;

(d ≥ 1) partitions dyadiques issues de l’arbre maximal CART

Page 10: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

10/81

Selection de modeles : regressogrammes

Pour m ∈M, famille de partitions de [0, 1], soit Sm ensemble des fonctionsconstantes par morceaux sur m, alors

sm = argmint∈Sm

1

n

n∑i=1

(Yi − t(Xi ))2

=∑I∈m

YI

µX (I )1II

ou

YI =1

n

n∑i=1

Yi1II (Xi ) et µX (I ) =1

n

n∑i=1

1II (Xi ).

Exemples de familles de partitions :

partitions regulieres de [0, 1]d (en D hypercubes, D = 1, . . . , n) ;

partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n;

(d ≥ 1) partitions dyadiques issues de l’arbre maximal CART

Page 11: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

11/81

Reduction de la dimension

Selection du meilleur modele (meilleure partition) m ∈M par penalisation(voir semaine 2)Remarque : Pour CART, etape d’elagage

Vitesse optimale en norme L2 sur des classes appropriees de fonctions deregularite α :

partitions regulieres de [0, 1]d : n−2(α/d)/(1+2(α/d)) pour des fonctions deregularite homogene

partitions regulieres ou non de [0, 1] construites sur la grille desi/n, i = 0, . . . , n; n−2α/(1+2α) pour des fonctions de regularite homogeneou non-homogene (� pics et bosses �)

partitions dyadiques issues de l’arbre maximal CART ? ? ? (pas de resultatd’approximation : famille de partitions construite a partir des donnees)

Page 12: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

12/81

Reduction de la dimension

Pour reduire la dimension, selectionner parmi des modeles avec contrainte destructure.

Exemples :

regression lineaire : g(x) = β>x, β ∈ Rp a estimer ;

regression single-index : g(x) = h(β>x), h : R→ R et β ∈ Rp a estimer ;

regression additive :g(x) = h1(x (1)) + . . . hp−1(x (p−1)), hj : R→ R, j = 1 . . . p − 1, a estimer ;

reseaux de neurones a une couche cachee([Barron, 1994, Hastie et al., 2009]) : g(x) =

∑Dj=1 βjψ(w>j x + bj), ψ

fonction d’activation donnee, D nombre de neurones, wj ∈ Rp−1 poids duje neurone, bj ∈ R biais du du je neurone.

Page 13: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

13/81

Que faire si les erreurs ne sont pas gaussienneset en particulier

erreurs sous-exponentielles ? de variance infinie ? aqueue lourde ?

Page 14: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

14/81

Petit detour par l’EMV dans le modele d’echantillonnage

Maximisation de la vraisemblance dans le modele d’echantillonnage :

Yi = β + εi , i = 1, . . . , n

ou ε1, . . . , εn i.i.d.

Cas ou εi ∼ N (0, σ2) (σ connu)

β = argmaxc∈R

L(c; Y) = argminc∈R

‖Y − c1In‖2 = Yn (moyenne empirique)

Cas ou εi ∼ Lap(0, b) (b connu), loi de Laplace centree de variance 2b2, i.e. dedensite

fε(x) =1

2bexp

(−|x |

b

)β = argmax

c∈RL(c; Y) = argmin

c∈R‖Y − c1In‖`1

Page 15: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

15/81

Petit detour par l’EMV dans le modele d’echantillonnage

Remarque sur la moyenne et la mediane theoriques : pour Z v.a. reelle

E(Z) = argmint∈R

E[(Z − t)2

]Med(Z) = argmin

t∈RE [|Z − t|]

Page 16: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

16/81

Decroissance des queues : exemples

Principaux types de queue de repartition

decroissance des queues sous-gaussienne (exemple : normale N (0, 1))

decroissance des queues sous-exponentielle (exemple : Lap(0, 1/√

2) ouLaplace centree de variance 1)

decroissance des queues polynomiale/queues lourdes (exemple :Cauchy(0, 1) ou Cauchy standard de mediane nulle)

Page 17: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

17/81

Decroissance des queues : exemples

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

Densite

-4 -2 0 2 40.0

0.2

0.4

0.6

0.8

1.0

t

Sur

vie

P(e

psilo

n>t)

N(0,1)Laplace(0,1/sqrt(2))Cauchy(0,1)

Figure 1 – Comparaison des densites (a gauche) et des fonctions de survie (a droite)

des lois N (0, 1),Lap(0, 1/√

2), Cauchy(0, 1)

Page 18: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

18/81

Decroissance des queues : exemples

2.0 2.5 3.0 3.5 4.0 4.5 5.0

0.00

0.01

0.02

0.03

0.04

0.05

x

Densite

N(0,1)Laplace(0,1/sqrt(2))Cauchy(0,1)

2.0 2.5 3.0 3.5 4.0 4.5 5.00.00

0.05

0.10

0.15

0.20

t

Sur

vie

P(e

psilo

n>t)

N(0,1)Laplace(0,1/sqrt(2))Cauchy(0,1)

Figure 2 – Comparaison des densites (a gauche) et des fonctions de survie (a droite)

des lois N (0, 1),Lap(0, 1/√

2), Cauchy(0, 1) : zoom

Page 19: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

19/81

Regression robuste

Cadre :

Y = Xβ + ε

ou

Y = (Y1 . . .Yn)> vecteur aleatoire n × 1 observe

X =(

1In | X(1) | . . . | X(p−1))

matrice n × p deterministe connue

β = (β0 β1 . . . βp−1)> vecteur colonne de p × 1 a estimer

ε = (ε1 . . . εn)> vecteur aleatoire n × 1 non observe

Hypotheses supplementaires

1 ε1, . . . , εn i.i.d. de mediane Medβ(εi ) = 0

2 X de rang plein (identifiabilite)

Remarques : En notant Medβ(Y) = (Medβ(Y1) . . .Medβ(Yn))>

Medβ(Y) = Xβ

Medβ(Y) = Xβ ⇔ β = (X>X )−1X>Medβ(Y)

Page 20: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

20/81

Regression robuste

Regression par rapport a la mediane ou regression L1 (Median regression, LeastAbsolute Deviation regression)

βLAD = argminc∈Rp

n∑i=1

|Yi − (Xc)i |

= argminc∈Rp

n∑i=1

|Yi − c0 − c1xi1 − . . .− cp−1xip−1|

Problemes :

existence ? calcul ?

loi de βLAD , ... ?

Page 21: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

21/81

Regression L1 : existence et calcul de βLAD

βLAD = argminc∈Rp

n∑i=1

ρ(Yi − c0 − c1xi1 − . . .− cp−1xip−1)

ou ρ : x ∈ R 7→ |x | est convexe, mais pas strictement convexe

→ βLAD existe mais n’est pas necessairement unique→ βLAD solution d’un probleme de programmation lineaire avec contraintes

lineaires

Page 22: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

22/81

Regression L1 : loi des estimateurs

Pas de resultat general sur la loi exacte de βLAD

Resultats asymptotiques difficiles

Intervalles de confiance ? Tests ? → bootstrap

Page 23: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

23/81

D’autres types de regression robuste

De maniere generale,

βρ = argminc∈Rp

n∑i=1

ρ(Yi − c0 − c1xi1 − . . .− cp−1xip−1)

ou ρ : R→ R+ fonction de perte au moins convexe et telle que ρ(0) = 0

Exemples :

regression quantile d’ordre τ ∈]0, 1[ :

ρQ,τ (t) = t(τ − 1It≤0) =

{t(τ − 1) si t ≤ 0tτ sinon.

(seulement convexe sur R ; minimisation par programmation lineaire)

regression de Huber : pour γ > 0,

ρH,γ(t) =

{12t2 si |t| ≤ γγ|t| − 1

2γ2 sinon.

(strictement convexe et C 1 sur R ; minimisation par programmationconique)

Page 24: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

24/81

D’autres types de regression robuste

-0.15 -0.10 -0.05 0.00 0.05 0.10 0.15

0.000

0.002

0.004

0.006

0.008

0.010

t

ρ γ(t)

Huber loss function with cutpoint γ = 0.05

t2 2Huber loss

Page 25: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

25/81

Regression robuste : etude de cas

Packages R :

quantreg, pour la regression quantile (τ = 0.5 : mediane)

fonction rlm du package MASS, pour la regression de Huber

Donnees : Engel (1857)Depenses en alimentation (y) et revenus du foyer (x) pour n = 235 foyerseuropeens de la classe ouvriere

Page 26: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

26/81

Regression robuste : etude de cas

Figure 3 – Analyse des residus (studentises) de la regression par moindres carres

Histogram of rstudent(OLSreg)

rstudent(OLSreg)

Density

-10 -5 0 5

0.00

0.05

0.10

0.15

0.20

0.25

-3 -2 -1 0 1 2 3

-8-6

-4-2

02

4

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

0 50 100 150 200-8

-6-4

-20

24

Residus studentises

Index

Res

idus

stu

dent

ises

Page 27: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

27/81

Regression robuste : etude de cas

Figure 4 – Comparaison regression L1 (mediane), L2 (moindres carres), et Huber

1000 2000 3000 4000 5000

500

1000

1500

2000

Revenus du foyer

Dep

ense

s en

alim

enta

tion

Reg L1Reg L2Reg Huber

Page 28: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

28/81

Regression robuste : etude de cas

Remarque : on peut aussi essayer la regression lineire sur donnees transfromees(ici regression de log(y) en log(x))

Figure 5 – Analyse des residus (studentises) de la regression par moindres carres surles donnees log-transformees

Histogram of rstudent(OLSregLog)

rstudent(OLSregLog)

Density

-4 -3 -2 -1 0 1 2

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

-4-3

-2-1

01

2

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

0 50 100 150 200

-4-3

-2-1

01

2

Residus studentises

Index

Res

idus

stu

dent

ises

Page 29: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

29/81

Regression robuste : etude de cas

Autre methode : transformation des donnees, ici regression de log(y) en log(x)

Figure 6 – Comparaison regression L1 (mediane), L2 (moindres carres), et Huber surles donnees log-transformees

500 1000 2000 5000

500

1000

1500

2000

log(Revenus du foyer)

log(

Dep

ense

s en

alim

enta

tion)

Reg L1Reg L2Reg Huber

Page 30: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

30/81

Selection de modele

Page 31: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

31/81

Exemples introductifs

Exemple 1 : Regression polynomiale

Donnees :yi ≈ f (xi ), i = 1, . . . , n,

ou (xi ) connus et f inconnue.

Modelisation : f (bien approchee par un) polynome

Modele de regression lineaire polynomiale d’ordre p :

yi = β0 + β1xi + β2x2i + . . .+ βp−1x

p−1i + εi , i = 1, . . . , n

ou (εi ) i.i.d. N (0, σ2).

Question : Comment choisir le degre p − 1 ?

Page 32: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

32/81

Exemples introductifs : regression polynomiale

Donnees simulees (cf. [Sakamoto et al., 1986])

Yi = f (xi ) + εi , i = 0, . . . , 20,

ou (x0, . . . , x20) = (0, 0.05, 0.10, 0.15, . . . , 1), (εi ) i.i.d. N (0, 0.01),f (x) = exp((x − 0.3)2)− 1

Illustration pour une realisation de Y = (Y0, . . . ,Y20)T :

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.00.2

0.40.6

0.81.0

x

y

Figure 7 – Nuage de points (xi , yi )0≤i≤20 ; En rouge : courbe de f (a estimer) ; Enbleu : ajustement par moindres carres de degre p − 1 = 1

Page 33: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

33/81

Exemples introductifs : regression polynomiale

10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.00.2

0.40.6

0.81.0

x

y

Figure 8 – Degre p− 1 = 1 : les 10 droites d’ajustement par moindres carres

Page 34: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

34/81

Exemples introductifs : regression polynomiale

10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.00.2

0.40.6

0.81.0

x

y

Figure 9 – Degre p− 1 = 2 : les 10 courbes d’ajustement par moindres carres

Page 35: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

35/81

Exemples introductifs : regression polynomiale

10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.00.2

0.40.6

0.81.0

x

y

Figure 10 – Degre p− 1 = 3 : les 10 courbes d’ajustement par moindres carres

Page 36: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

36/81

Exemples introductifs : regression polynomiale

10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.00.2

0.40.6

0.81.0

x

y

Figure 11 – p− 1 = 4 : les 10 courbes d’ajustement par moindres carres

Page 37: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

37/81

Exemples introductifs : regression polynomiale

10 repetitions de l’experience, d’ou 10 realisations i.i.d. du vecteurY = (Y0, . . . ,Y20)T

-0.2 0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.00.2

0.40.6

0.81.0

x

y

Figure 12 – p− 1 = 5 : les 10 courbes d’ajustement par moindres carres

Page 38: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

38/81

Exemples introductifs

Exemple 2 : Jeu de donnees CreditEx (source [James et al., 2013])

n = 400 individusVariable a expliquer : Balance, dette moyenne sur la carte de creditVariables explicatives :

Income, revenus en milliers de dollars

Limit, limite de credit

Rating, score de credit

Age, age

Cards, nombre de cartes de credit

Education, nombre d’annees d’etudes

Gender, sexe

Student, etudiant ou non

Married, marie ou non

Question :Parmi les variables explicatives, lesquelles sont vraiment pertinentespour expliquer Balance ?

Page 39: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

39/81

Cadre mathematique pour la selection de variables

Y = µ + ε

ou ε ∼ Nn(0, σ2In) et µ = E(Y ) ∈ Rn

Modele complet : µ ∈ V ? = Vect{1In,X(1), . . . ,X(p−1)}, i.e.

Y = Xβ + ε

Famille de sous-modeles : Mexh ensemble des m ⊂ {0, 1, . . . , p − 1} tels0 ∈ m, modele complet m? = {0, 1, . . . , p − 1}

Estimation dans un sous-modele m : si µ ∈ V (m) = Vect{X(j), j ∈ m}, ouX(0) = 1In, alors

Y = X (m)β(m) + ε

ou

|m| : nombre d’elements de m (dimension du modele)

X (m) concatenation des colonnes X(j), j ∈ m, matrice n × |m|, avecX(0) = 1In

β(m) = (βj)j∈m vecteur colonne |m| × 1

Page 40: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

40/81

Cadre mathematique pour la selection de variables

Estimation par moindres carres dans le sous-modele m :On a V (m) = Im(X (m)), on note H(m) = X (m)(X (m)>X (m))−1X (m)>

(matrice de projection orthogonale sur V (m))

Estimateur des moindres carres de β(m)

β(m) = argminu∈R|m|

‖Y − Xu‖2 = (X (m)>X (m))−1X (m)>Y

Valeur ajustee (ou valeur predite) de Y :

Y (m) = argminv∈V (m)

‖Y − v‖2 = H(m)Y = X (m)β(m)

Residus :ε(m) = (In − H(m))Y = (In − H(m))ε

Carre moyen residuel :

σ2(m) =‖ε(m)‖2

n − |m| .

Page 41: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

41/81

Cadre mathematique pour la selection de variables

Proposition (Estimation par moindres carres dans le sous-modele m)

On suppose X (m?) reguliere et ε ∼ Nn

(0, σ2In

)(i.e. erreurs gaussiennes

centrees, independantes, homoscedastiques), alors pour tout m ∈Mexh, siµ ∈ m,

(i) β(m) ∼ N|m|(β(m), σ2(X (m)>X (m))−1

);

(ii) Y (m) ∼ Nn

(µ, σ2H(m)

), alors que Y ∼ Nn

(µ, σ2In

);

(iii) ε(m) ∼ Nn

(0, σ2(In − H(m))

), alors que ε ∼ Nn

(0, σ2In

);

(iv) Y (m) et ε(m) sont independants ;

(v) (n − |m|)σ2(m)/σ2 ∼ χ2(n − |m|).

Page 42: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

42/81

Cadre mathematique pour la selection de variables

Cas particulier de la regression polynomiale

Y = µ + ε

ou ε ∼ Nn(0, σ2In) et µ = E(Y ) ∈ Rn

Soit p ordre maximal, Mord ensemble des mq = {0, . . . , q − 1}, q = 1, . . . , pNotation : Vq = Vect{1In,X(1), . . . ,X(q−1)} (dimVq = |mq| = q)

Sous-modele m1 : µ ∈ V1 i.e.

µi = β0 + εi , i = 1, . . . , n

Sous-modele m2 : µ ∈ V2 i.e.

µi = β0 + β1xi + εi , i = 1, . . . , n

Sous-modele mq : µ ∈ Vq i.e.

µi = β0 + β1xi + β2x2i + . . .+ βq−1x

q−1i + εi , i = 1, . . . , n

Modele complet mp : µ ∈ Vp i.e.

µi = β0 + β1xi + β2x2i + . . .+ βp−1x

p−1i + εi , i = 1, . . . , n

Page 43: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

43/81

Comment choisir le meilleur modele ?

Page 44: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

44/81

Coefficients de determination

Decomposition de la somme des carres

Somme des carres totale, SCT : ‖Y − Y 1In‖2

Somme des carres expliquee par le modele m, SCE (m) : ‖Y (m)− Y 1In‖2

Somme des carres residuelle, SCR (m) : ‖Y − Y (m)‖2

Equation d’analyse de la variance :

‖Y − Y 1In‖2 = ‖Y (m)− Y 1In‖2 + ‖Y − Y (m)‖2

Definition (Coefficient de determination dans le modele m)

R2(m) =SCE(m)

SCT= 1− SCR(m)

SCT

Page 45: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

45/81

Coefficients de determination

Cas particulier de la regression lineaire simple

Yi = β0 + β1xi + εi , i = 1, . . . , n

β0 = Y − β1x

β1 =covn(x ,Y )

varn(x)

R2 =cov2

n(x ,Y )

varn(x)varn(Y )

Page 46: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

46/81

Coefficients de determination

Retour a l’exemple 1

Donnees simulees (cf. [Sakamoto et al., 1986])

Yi = f (xi ) + ηi , i = 0, . . . , 20,

ou (x0, . . . , x20) = (0, 0.05, 0.10, 0.15, . . . , 1), (ηi ) i.i.d. N (0, 0.01),f (x) = exp((x − 0.3)2)− 1

Ajustement polynomial d’ordre q (modele mq)) :

Yi = β0 + β1xi + β2x2i + . . .+ βq−1x

q−1i + εi , i = 1, . . . , n

ou (εi ) i.i.d. N (0, σ2).

Table 1 – Valeur moyenne des coefficients de determination sur 100 simulations

Ordre q 1 2 3 4 5

R2(mq) moyen 0.481 0.798 0.815 0.823 0.833

Page 47: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

47/81

Coefficients de determination

Et de maniere generale ?

Page 48: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

48/81

Coefficients de determination

Definition (Coefficient de determination ajuste dans le modele m)

R2aj(m) = 1− SCR(m)/(n − |m|)

SCT/(n − 1)

Exemple 1 (suite)

Ordre q 1 2 3 4 5

R2(mq) moyen 0.481 0.798 0.815 0.823 0.833

R2aj(mq) moyen 0.454 0.776 0.782 0.778 0.776

Table 2 – Valeur moyenne des coefficients de determination sur 100 simulations

Page 49: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

49/81

Test de Fisher (d’un sous-modele)

Cas particulier ou m0 = {0} et m1 = m? := {0, . . . , p − 1} (test designificativite globale du modele)

Y = µ + ε,µ = E(Y ) ∈ Rn

Hypotheses de test :

H0 : µ ∈ Vect{1In} contre H1 : µ ∈ V ? := Vect{1In,X(1), . . . ,X(p−1)}

Statistique de test :

T ? =‖Y (m?)− Y (0)‖2/(p − 1)

‖Y − Y (m?)‖2/(n − p)

Propriete (Test de Fisher global et coefficient de determination)

T ? =p − 1

n − p

R2(m?)

1− R2(m?)

Page 50: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

50/81

Selection de variables par penalisation

Y = µ + ε, µ ∈ Rn, ε ∼ Nn(0, σ2In)

Justification heuristique de la selection de modele : pour m ∈Mexh, l’erreurd’estimation dans le modele m se decompose en

E[‖µ− Y (m)‖2

]= ‖µ− PV (m)(µ)‖2 + E

[‖PV (m)(µ)− PV (m)(Y )‖2

]= inf

v∈V (m)‖µ− v‖2 + σ2|m|

ou PV (m) projection orthogonale de Rn sur V (m)

Decomposition similaire pour l’erreur d’ajustement :

E[‖Y − Y (m)‖2

]

Page 51: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

51/81

Criteres penalises classiques

Meilleur modele dans M au vu des donnees :

m = argminm∈M

{ Crit(m) + pen(m)}

ou Crit(m) decroıt avec |m| et pen(m) croıt avec |m|

CP de Mallows ([Mallows, 1973]) :

CP(m) =SCR(m)

σ2?

− n + 2|m|

AIC (Akaike Information Criterion [Akaike, 1973]) :

AIC(m) = −2 ln L(Y , β(m), s2(m)) + 2|m| = n ln(2π) +n ln

(SCR(m)

n

)+ 2|m|

BIC (Bayes Information Criterion [Schwarz, 1978]) :

BIC(m) = −2 ln L(Y , β(m), s2(m))+ln(n)|m| = n ln(2π)+n ln

(SCR(m)

n

)+ln(n)|m|

Page 52: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

52/81

Criteres penalises classiques

Notation : Mexh,q ensemble des sous-modeles contenant la constante et qcovariables

Algorithme exhaustif

1 Ajuster le modele m0 = {0} sans covariable.2 Pour q = 1, . . . , p − 1,

a) ajuster chaque modele contenant q covariables (et la constante) ;b) en deduire le meilleur modele mq avec q covariables, i.e.

mq = argminm∈Mexh,q

Crit(m).

3 Determiner le meilleur modele m parmi m0, m1, . . . , mp−1, i.e.

m = mq,

ouq = argmin

q=0,...,p−1{Crit(mq) + pen(q + 1)}.

Cout de calcul ?

Page 53: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

53/81

Reduction de la complexite algorithmique : recherche pas apas

Idee : A partir du modele m0 = {0}, rajouter une seule variable a la fois.

Algorithme stepwise forward

1 Ajuster le modele m0 = {0} sans covariable.2 Pour k = 0, . . . , p − 2, partant du modele mk a k covariables

a) ajuster chacun des p − 1− k modeles obtenus en rajoutant une seulecovariables a mk ;

b) choisir le meilleur modele mk+1 parmi ces p − 1− k modeles, i.e. celui quiminimise Crit(m).

3 Determiner le meilleur modele m parmi m0, m1, . . . , mp−1, i.e.

m = mq,

ouq = argmin

q=0,...,p−1{Crit(mq) + pen(q + 1)}.

Cout de calcul ?

Page 54: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

54/81

Reduction de la complexite algorithmique

Idee : A partir du modele complet mp−1 = {0, 1, . . . , p − 1}, enlever une seulevariable a la fois.

Algorithme stepwise backward

1 Ajuster le modele complet mp−1 = {0, 1, . . . , p − 1} (avec toutes lescovariables et la constante).

2 Pour k = p − 1, . . . , 1, partant du modele mk a k covariablesa) ajuster chacun des k modeles en enlevant une seule covariable a mk ;b) choisir le meilleur modele mk−1 parmi ces k modeles, i.e. celui qui minimise

Crit(m).

3 Determiner le meilleur modele m parmi m0, m1, . . . , mp−1, i.e.

m = mq,

ouq = argmin

q=0,...,p−1{Crit(mq) + pen(q + 1)}.

Cout de calcul ?

Page 55: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

55/81

Reduction de la complexite algorithmique

Idee : Combiner les approches forward et backward

Algorithme stepwise hybride

1 Ajuster le modele m0 = {0} sans covariable.

2 Ajouter la covariable la plus pertinente au modele.

3 Enlever les covariables inutiles.

4 . . .

Page 56: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

56/81

Complexite des algorithmes de selection

Nombre de covariables : p − 1

Nombre de sous-modeles :

recherche exhaustive : 2p−1

recherche forward (ou backward) : 1 + p(p − 1)/2

Table 3 – Nombre de sous-modeles a explorer

p − 1 5 10 20 50 100

2p−1 32 1024 1.05× 106 1.13× 1015 1.27× 1030

1 + p(p − 1)/2 16 56 211 1276 5051

Page 57: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

57/81

Quel critere de selection ? Quelle famille de modeles ?

L’approche Birge-Massart [Massart, 2008](minimisation approchee du risquequadratique)

Etant donnee une famille de modeles M fixee a priori, choisir

pen(m) ≈ L(|m|)|m|

ou L(|m|) ≥ 0 tels que ∑m∈M

exp(−|m|L(|m|)) ≤ 1.

Par exemple, pour tout D ∈ N?, et m ∈MD

L(|m|) = ln(2) +ln(|MD |)

D

ou MD = {m ∈M | |m| = D}.

Selection exhaustive : L(|m|) = ln(2) + ln(ep/|m|) (p dimension du plus grandmodele, p ≤ n)Selection ordonnee : L(|m|) = ln(2) pour tout m

Page 58: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

58/81

Quel critere de selection ? Quelle famille de modeles ?

Remarques :

en regression lineaire gaussienne, CP et AIC ont des comportementssimilaires

choix du critere en selection forward, backward, stepwise ? ? ? (la structurede la famille de modeles a explorer n’est pas connue a priori)

references complementaires :[Azaıs and Bardet, 2012, Burnham and Anderson, 2002,Burnham and Anderson, 2004, Cornillon and Matzner-Løber, 2010,Lebarbier and Mary-Huard, 2006, McQuarrie and Tsai, 1998]

Page 59: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

59/81

Ridge, LASSO, Elastic-net

Page 60: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

60/81

Cadre et motivation

Modele avec la constante (intercept) et p − 1 covariables

Yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi , i = 1, . . . , n

i.e.Y = Xβ + ε

Y = (Y1 . . .Yn)> vecteur aleatoire n × 1 observe (variable a expliquer)

X =(

1In | X(1) | . . . | X(p−1))

matrice n × p deterministe connue, ou

X(j) = (x1j . . . xnj)> vecteur n × 1 (je predicteur/covariable/variable

explicative)

β := (β0 β1 . . . βp−1)> vecteur colonne p × 1 a estimer (coefficients)

ε = (ε1 . . . εn)> ∼ Nn(0, σ2In) vecteur aleatoire n × 1 non observe (bruit)

Page 61: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

61/81

Cadre et motivation

MAIS X n’est plus necessairement reguliere

p ≤ n mais les colonnes de X sont correlees

p > n, voire p >> n, donc les colonnes de X sont correlees

Page 62: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

62/81

Regression Ridge [Hoerl and Kennard, 1970a,Hoerl and Kennard, 1970b]

Idee : Meme si X>X n’est pas inversible, X>X + λIp, ou λ > 0, l’est toujours.

Propriete

Soit λ > 0, si X>X a pour valeurs propres α1 ≥ . . . ≥ αp ≥ 0 et pour vecteurspropres associes v1, . . . , vp, alors X>X + λIp a pour valeurs propresα1 + λ ≥ . . . ≥ αp + λ ≥ λ et pour vecteurs propres associes v1, . . . , vp.

Definition

L’estimateur Ridge associe a la constante λ > 0 est

βR(λ) = (X>X + λIp)−1X>Y .

Remarques :

si λ→ 0 et X reguliere, alors βR(λ)→ βR(0) = βMCO

si λ→ +∞, alors βR(λ)→ 0

si X est orthogonale, alors βR(λ) = βMCO/(1 + λ).

Page 63: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

63/81

Biais et variance et risque de l’estimateur Ridge

Propriete (biais et matrice de covariance de βR(λ) )

E[βR(λ)

]− β = −λ(X>X + λIp)−1β

Var(βRλ)

)= σ2(X>X + λIp)−1X>X (X>X + λIp)−1

Propriete (comparaison avec βMCO)

Si X est reguliere,

Var(βMCO

)−Var

(βR(λ)

)= σ2(X>X+λIp)−1

(2λIp + λ2(X>X )−1

)(X>X+λIp)−1

Si X est orthogonale,

E[‖βMCO − β‖2

]= σ2p

E[‖βR(λ)− β‖2

]=

λ2

(1 + λ)2||β||2 +

σ2p

(1 + λ)2

donc il existe λ > 0 tel que E[‖βR(λ)− β‖2

]< E

[‖βMCO − β‖2

].

Page 64: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

64/81

Definitions equivalentes de l’estimateur Ridge

βR1(λ1) = argminβ∈Rp

n∑

i=1

(yi − β0 −

p−1∑j=1

βjxij

)2

+ λ1

p−1∑j=1

β2j

βR2(λ2) = argminβ∈Rp

n∑

i=1

(yi − β0 −

p−1∑j=1

βjxij

)2

sous la contraintep−1∑j=1

β2j ≤ λ2

Propriete

Il existe λ, λ1, λ2 > 0 tels que βR(λ) = βR1(λ1) = βR2(λ2).

Page 65: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

65/81

Questions pratiques sur l’estimateur Ridge

Centrage et reduction des donneesLe Ridge est sensible aux changements d’echelle.Travail preliminaire :

centrage et reduction de chaque covariable

xij ←xij − xj√

1n

∑ni=1(xij − xj)2

, i = 1, . . . , j = 1, . . . , p − 1

centrage, eventuellement reduction, de la variable a expliquer

yi ←yi − y

σy, i = 1, . . . n

regression Ridge de Y sur X → βR(κ)

retour a l’estimation ou a la prevision dans le modele de depart

yi = β0 + β1xi1 + . . .+ βp−1xip−1 + εi , i = 1, . . . , n

par transformations affines :

Y (κ) = Y 1In + σy X βR(κ) = X βR(κ).

Page 66: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

66/81

Questions pratiques sur l’estimateur Ridge

Differents packages

fonction lm.ridge du package MASS

fonction glmnet avec l’option alpha=0 du package glmnet

Verifier dans la documentation si les covariables et/ou la variable a expliquersont recentrees et/ou normalisees.Dans glmnet, par defaut, les variables explicatives et a expliquer sont toutesrecentrees et renormalisees, mais les coefficients en sortie sont bien dansl’echelle d’origine.

Page 67: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

67/81

Questions pratiques sur l’estimateur Ridge

Choix du λ ?Crucial ! βR(λ) et ses performances dependent fortement du λSelection du λ par reechantillonnage (validation croisee ou bootstrap) pourminimiser une estimation de l’erreur de prediction

Autres methodes : voir par exemple [Cornillon and Matzner-Løber, 2010]

Page 68: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

68/81

LASSO

Idee generale : chercher β(λ) ∈ Rp qui minimise

n∑i=1

(yi − β0 −

p−1∑j=1

βjxij

)2

+ λ

p−1∑j=1

|βj |q

i.e. qui minimise∑n

i=1

(yi − β0 −

∑p−1j=1 βjxij

)2

sous la contrainte

p−1∑j=1

|βj |q ≤ λ1

q = 2 : Ridge [Hoerl and Kennard, 1970a, Hoerl and Kennard, 1970b]

q = 1 : LASSO (Least Absolute Shrinkage and SelectionOperator) [Tibshirani, 1996]

q = 0 : ||β||`0 =∑p−1

j=1 1I|βj |6=0

Remarque : ||β||q`q est

convexe ssi q ≥ 1

differentiable ssi q > 1

deux fois differentiable ssi q ≥ 2

Page 69: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

69/81

LASSO : proprietes de selection

Cas particulier : X = In (n = p) et pas d’intercept

Minimisation de∑n

i=1(yj − βj)2 : βMCj = yj

Minimisation de∑n

i=1(yj − βj)2 + λ∑p

j=1 β2j : βR

j (λ) = yj/(1 + λ)

Minimisation de∑n

i=1(yj − βj)2 + λ∑p

j=1 |βj | :

βL(λ) =

yj − λ/2 si yj > λ/2yj + λ/2 si yj < −λ/20 si |yj | ≥ λ/2

En particulier, contrairement au Ridge, le LASSO met certains coefficients a 0 :selection de modeles !

Page 70: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

70/81

LASSO

Remarques

LASSO efficace notamment dans un cadre de grande dimension ”sparse” :p >> n mais beaucoup de βj sont proches de 0

LASSO sensible a la correlation entre covariables ; intermediaire entre leRidge et le LASSO : βelastic net(λ1, λ2) [Zou and Hastie, 2005] minimise

n∑i=1

(yi − β0 −

p−1∑j=1

βjxij

)2

+ λ1

p−1∑j=1

|βj |+ λ2

p−1∑j=1

β2j

pas de formule matricielle explicite pour le LASSO ou l’elastic-net ...

... MAIS problemes d’optimisation convexe (algorithmes d’approximationperformants)

Choix des λ ? par validation croisee par exemple

Ridge, LASSO, .... : pas de theorie sur les tests et les intervalles deconfiance (choix du λ aleatoire)

Page 71: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

71/81

Regression logistique

Page 72: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

72/81

Regression logistique : motivation

En regression lineaire, si la variable a expliquer est continue, on modelise sonesperance comme une fonction lineaire des variables explicatives :

Yi = β0 + β1x1i + . . .+ βp−1x

(p−1)i + εi

ou E(εi ) = 0. Si l’on considere que x est la realisation d’une variable aleatoireX independante de ε, ceci se traduit par

E(Y |X = x) = β0 + β1x1i + . . .+ βp−1x

(p−1)i .

Si la variable Y a predire est une variable categorielle a deux modalites 0 et 1(Bernoulli), alors

E(Y |X = x) = P(Y = 1|X = x) =: π(X = x)

(probabilite a posteriori d’appartenance a la classe 1).

→ π(X = x) ∈ [0, 1] : ne peut etre modelisee comme une fonction lineaire descovariables !

Page 73: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

73/81

Regression logistique binomiale

Transformation logit : La fonction

p ∈]0, 1[7→ logit(p) = lnp

1− p∈ R

est bijective, d’inverse

x ∈ R 7→ exp(x)

1 + exp(x)∈]0, 1[

(fonction sigmoıdale, i.e. en forme de S)

Rapport de cotes (odds ratio) :

π(x)

1− π(x)=

P(Y = 1|X = x)

P(Y = 0|X = x)

Regression logistique (binomiale) : on modelise le log-rapport de cotes parune fonction lineaire :

logit (π(x)) = β0 + β1x1i + . . .+ βp−1x

(p−1)i

ce qui implique

π (x) =exp

(β0 + β1x

1i + . . .+ βp−1x

(p−1)i

)1 + exp

(β0 + β1x1

i + . . .+ βp−1x(p−1)i

) .

Page 74: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

74/81

Variables explicatives

Comme pour la regression multiple, il est possible d’integrer des variablesexplicatives de differentes natures dans le modele :

1 variables quantitatives (continues) ;

2 variables categorielles ou facteurs a l’aide de variables ”dummy” (C − 1indicatrices pour un facteur a C niveaux) ;

3 variables d’interaction entre variables categorielles et quantitatives(variables produits xkx`).

Page 75: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

75/81

Estimation du modele de regression logistique binomiale

La variable Y possede deux modalites 0 et 1. On a θ = β1 = β etπ0(θ, x) = 1− π1(θ, x). La log vraisemblance verifie

log vrais(β) =n∑

i=1

yiβ>xi − log

[1 + exp

(β>xi

)]On resout le systeme de p + 1 equations

d log vrais(β)

dβj=

n∑i=1

x ji

[yi −

exp(β>xi

)1 + exp (β>xi )

]= 0

a l’aide d’un algorithme de Newton-Raphson.

Page 76: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

76/81

Selection d’un meilleur modele predictif en regressionlogistique

Comme en regression multiple, il s’agit de determiner un bon sous-ensemble depredicteurs dans une famille de variables disponibles.

Le critere AIC d’un modele m a pour expression

AIC(m) = −2 log (vrais(m)) + 2|m|= Λ(m) + 2|m|

ou vrais(m) est la vraisemblance du modele m, et |m| le nombre de parametresde ce modele.

Critere BIC :

BIC(m) = Λ(m) + ln(n)|m|

Pour faire de la selection de variables en grande dimension (glmnet)

LASSO (p ≥≥ n mais peu de variables vraiment significatives)

Elastic-Net (p ≥≥ n, peu de variables vraiment significatives, covariableseventuellement correlees)

Page 77: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

77/81

Tests et intervalles de confiance en regression logistique

Deuxieme point de vue sur la regression logistique : modele de regressionlineaire generalisee (GLM [McCullagh and Nelder, 1989])→ voir cours

Consequence : resultats generaux sur l’estimation par maximum devraisemblance→ construction d’intervalles de confiance asymptotiques et de tests designificativite (tests de Wald) pour un parametre, qui remplacent les tests etintervalles de confiance de Student du cas gaussien.

Page 78: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

78/81

Bibliographie I

Akaike, H. (1973).Information theory and an extension of the maximum likelihood principle.pages 267–281.

Azaıs, J.-M. and Bardet, J.-M. (2012).Le modele lineaire par l’exemple : regression, analyse de la variance etplans d’experiences illustres avec R et SAS.Dunod.

Barron, A. R. (1994).Approximation and estimation bounds for artificial neural networks.Machine learning, 14(1) :115–133.

Burnham, K. P. and Anderson, D. R. (2002).Model selection and multimodel inference.Springer-Verlag, New York, second edition.A practical information-theoretic approach.

Burnham, K. P. and Anderson, D. R. (2004).Multimodel inference : understanding AIC and BIC in model selection.Sociol. Methods Res., 33(2) :261–304.

Page 79: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

79/81

Bibliographie II

Cornillon, P.-A. and Matzner-Løber, E. (2010).Regression avec R.Springer.

Hastie, T., Tibshirani, R., and Friedman, J. (2009).The elements of statistical learning.Springer Series in Statistics. Springer, New York, second edition.Data mining, inference, and prediction.

Hoerl, A. E. and Kennard, R. W. (1970a).Ridge regression : applications to nonorthogonal problems.Technometrics, 12(1) :69–82.

Hoerl, A. E. and Kennard, R. W. (1970b).Ridge regression : Biased estimation for nonorthogonal problems.Technometrics, 12(1) :55–67.

James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013).An introduction to statistical learning, volume 103 of Springer Texts inStatistics.Springer, New York.With applications in R.

Page 80: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

80/81

Bibliographie III

Lebarbier, E. and Mary-Huard, T. (2006).Une introduction au critere BIC : fondements theoriques et interpretation.J. Soc. Fr. Stat., 147(1) :39–57.

Mallows, C. L. (1973).Some comments on c p.Technometrics, 15(4) :661–675.

Massart, P. (2008).Selection de modele : de la theorie a la pratique.J. Soc. Fr. Stat. & Rev. Stat. Appl., 149(4) :5–27.

McCullagh, P. and Nelder, J. A. (1989).Generalized linear models.Monographs on Statistics and Applied Probability. Chapman & Hall,London.Second edition [of MR0727836].

McQuarrie, A. D. R. and Tsai, C.-L. (1998).Regression and time series model selection.World Scientific Publishing Co., Inc., River Edge, NJ.

Page 81: Éléments de statistique Régression 2/2 · Remarque sur la moyenne et la m ediane th eoriques : pour Z v.a. r eelle E(Z) = argmin t2R E h (Z t)2 i Med(Z) = argmin t2R E[jZ tj] 16/81

81/81

Bibliographie IV

Sakamoto, Y., Ishiguro, M., and Kitagawa, G. (1986).Akaike information criterion statistics, volume 1 of Mathematics and itsApplications (Japanese Series).D. Reidel Publishing Co., Dordrecht ; SCIPRESS, Tokyo.With a preface by Tosio Kitagawa, Translated from the Japanese.

Schwarz, G. (1978).Estimating the dimension of a model.Ann. Statist., 6(2) :461–464.

Tibshirani, R. (1996).Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society. Series B (Methodological), pages267–288.

Zou, H. and Hastie, T. (2005).Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society : Series B (StatisticalMethodology), 67(2) :301–320.