33
Quand le cowboy fait le tour de la montagne Apprentissage automatique, régression Ridge et LASSO

Apprentissage automatique, Régression Ridge et LASSO

Embed Size (px)

DESCRIPTION

Présentation des notions de base pour la régression pénalisée et comparaison de divers méthodes.

Citation preview

Page 1: Apprentissage automatique, Régression Ridge et LASSO

Quand le cowboy fait le tour de la montagne

Apprentissage automatique, régression Ridge et LASSO

Page 2: Apprentissage automatique, Régression Ridge et LASSO

Plan

La prédiction pour mieux comprendre Régression linéaire et sélection de modèle Régression Ridge LASSO Comparaison des méthodes de sélection

par simulation Comparaison des méthodes sur un

exemple pratique

Page 3: Apprentissage automatique, Régression Ridge et LASSO

La prédiction pour mieux comprendre

Inférence basée sur la signification statistique des paramètres d’un modèle

Inférence basée sur la précision des prédictions d’un modèle Biais des prédictions Variance des prédictions

Page 4: Apprentissage automatique, Régression Ridge et LASSO

La prédiction pour mieux comprendre

Sélection de modèle pour la prédiction Critère d’information d’Akaike (AIC) Données d’entraînement vs Données

de test Validation Croisée (CV)

Page 5: Apprentissage automatique, Régression Ridge et LASSO

Régression linéaire et sélection de modèle

Y = βX +ε

Page 6: Apprentissage automatique, Régression Ridge et LASSO

Régression linéaire et sélection de modèle

On trouve β qui minimise:

2

1 1∑ ∑= =

⎟⎟⎠

⎞⎜⎜⎝

⎛−

N

i

p

jjiji xy β

Page 7: Apprentissage automatique, Régression Ridge et LASSO

Régression linéaire et sélection de modèle

Estimation par moindres carrés Sélection de modèle

Procédure « stepwise » Conserver seulement les variables

significatives à chaque étape Conserver seulement la variable qui réduit

au maximum l’AIC

Page 8: Apprentissage automatique, Régression Ridge et LASSO

Régression Ridge

On trouve β qui minimise:

∑ ∑∑= ==

+⎟⎟⎠

⎞⎜⎜⎝

⎛−

N

i

p

jj

p

jjiji xy

1 1

2

2

1

βλβ

Page 9: Apprentissage automatique, Régression Ridge et LASSO

Régression Ridge

Estimation des β par moindres carrés

Estimation du λ par CV Ce choix fait effectivement la sélection

du modèle.

Page 10: Apprentissage automatique, Régression Ridge et LASSO

Régression Ridge

La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β

β j2 ≤ s

j=1

p

Page 11: Apprentissage automatique, Régression Ridge et LASSO

Régression Ridge

Permet d’estimer un modèle en présence de covariables fortement corrélées.

Estimation dépendante de l’échelle des variables Centrer et réduire toutes les variables

continues

Page 12: Apprentissage automatique, Régression Ridge et LASSO

LASSO

On trouve β qui minimise:

∑∑ ∑== =

+⎟⎟⎠

⎞⎜⎜⎝

⎛−

p

jj

N

i

p

jjiji xy

1

2

1 1

βλβ

Page 13: Apprentissage automatique, Régression Ridge et LASSO

LASSO

À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés Algorithme quadratique employé pour

l’estimation Estimation du λ par CV

Ce choix fait effectivement la sélection du modèle

Page 14: Apprentissage automatique, Régression Ridge et LASSO

LASSO

Comme pour la régression Ridge, centrer et réduire les variables continues

Page 15: Apprentissage automatique, Régression Ridge et LASSO

Comparaison des méthodes

Avantage de la régression Ridge Les effets de variables explicatrices

très corrélées se combinent pour se renforcer mutuellement

Avantage du LASSO Les effets peu important sont estimés à

0, donc le modèle sélectionné aura un nombre de variables d < p.

Page 16: Apprentissage automatique, Régression Ridge et LASSO

Comparaison des méthodes

Désavantage de la régression Ridge Toutes les variables incluses

initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.

Désavantage du LASSO En présence de variables explicatrices

corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.

Page 17: Apprentissage automatique, Régression Ridge et LASSO

Comparaison des méthodes

La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes

On cherche β qui minimise:

( )∑ ∑∑= ==

⎥⎦

⎤⎢⎣

⎡ +−+⎟⎟⎠

⎞⎜⎜⎝

⎛−

N

i

p

jjj

p

jjiji xy

1 1

2

2

1

12

1βαβαλβ

Page 18: Apprentissage automatique, Régression Ridge et LASSO

Comparaison des méthodes par simulation

Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates

Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement

Page 19: Apprentissage automatique, Régression Ridge et LASSO

Données simulées

Page 20: Apprentissage automatique, Régression Ridge et LASSO

Variable Modèle Régression Stepwise Ridge LASSO Elastic Net

Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38

X2 -0.71 -0.42

X3 0.68 0.06

X4 -0.35 -0.60

X5 -5 -17.13 -17 -15.18 -15.63 -15.58

X6 1.66 1.83 0.63 0.35 0.33

X7 5 14.42 14.43 12.26 12.81 12.75

X8 0.17 -0.54

X9 -1.26 -1.21 -1.14 -0.24 -0.24

X10 1.43 1.48 0.89

X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62

X12 1.30 1.30 1.18

X13 -0.06 0.08

X14 3 46.71 46.47 42.86 44.52 44.42

X15 -0.45 -0.68

X16 0.02 0.84

X17 3.48 3.04 2.96 0.71 0.71

X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16

X19 -1.68 -0.81

X20 -1.24 0.14

X21 0.15 0.15

Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14

Écart-type 18.59 18.29 18.87 17.23 17.24

Page 21: Apprentissage automatique, Régression Ridge et LASSO

Comparaison de méthodesTrajectoire Ridge

Page 22: Apprentissage automatique, Régression Ridge et LASSO

Comparaison des méthodesTrajectoire LASSO

Page 23: Apprentissage automatique, Régression Ridge et LASSO

Comparaison des méthodesTrajectoire Elastic Net

Page 24: Apprentissage automatique, Régression Ridge et LASSO

Exemple pratique:Polychlorobiphényles et pesticides organochlorés

Données du CSHA: 1848 sujets 28 Covariables, dont 5 variables

dichotomiques et 1 variables catégoriques

Variable réponse: maladie d’Alzheimer

Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement

Page 25: Apprentissage automatique, Régression Ridge et LASSO

Données pratiques

Page 26: Apprentissage automatique, Régression Ridge et LASSO

Variable Régression Stepwise Ridge LASSO Elastic Net

Intercepte -1.64 0.23 -1.29 -1.45 -1.45

BPC105 -0.38 0.001

BPC118 0.35 0.003

BPC138 -0.25 0.003

BPC153 -0.56 -0.10 0.004

BPC156 0.17 0.004

BPC163 0.74 0.11 0.005

BPC170 -0.14 0.001

BPC180 0.02 0.0001

BPC183 0.77 0.10 0.004

BPC187 -0.61 -0.08 0.0009

BPC99 0.08 0.003

cisNonachlor -0.63 -0.04 -0.005

Hexachlorobenzene 0.01 0.0004

Oxychlordane -0.43 -0.001

ppDDE 0.13 0.004

ppDDT -0.07 -0.002

BetaHCH -0.09 -0.003

transNonachlor 0.68 -0.003

Éducation -0.26 -0.04 -0.006 -0.03 -0.04

Âge 0.52 0.08 0.02 0.39 0.4

Lipides totaux -0.02 -0.007

IMC -0.16 -0.03 -0.01 -0.09 -0.1

Sexe 0.38 0.04 0.02 0.08 0.09

Région 2 -0.88 -0.14 -0.03 -0.2 -0.23

Région3 0.18 0.03 0.16 0.17

Région4 -0.05 -0.05 0.005

Région5 -1.20 -0.18 -0.04 -0.51 -0.54

APOE4 0.88 0.14 0.04 0.55 0.57

Area -0.01 0.004

Cigarette 0.22 -0.01

Alcohol -0.25 -0.03 -0.02 -0.006 -0.02

Erreur Entraînement 20% 20% 21% 21% 21%

Erreur Test 26% 25% 25% 26% 25%

Page 27: Apprentissage automatique, Régression Ridge et LASSO

Exemple pratiqueTrajectoire Ridge

Page 28: Apprentissage automatique, Régression Ridge et LASSO

Exemple pratiqueTrajectoire LASSO

Page 29: Apprentissage automatique, Régression Ridge et LASSO

Exemple pratiqueTrajectoire Elastic Net

Page 30: Apprentissage automatique, Régression Ridge et LASSO

Exemple pratiqueComparaison des courbes ROC: Entraînement

Page 31: Apprentissage automatique, Régression Ridge et LASSO

Exemple pratiqueComparaison des courbes ROC: Test

Page 32: Apprentissage automatique, Régression Ridge et LASSO

Logiciels

R glmnet (Friedman, Hastie, Tibshirani)

SAS Proc GLMSELECT (LASSO et Stepwise) Proc REG, MIXED, LOGISTIC, PHREG,

etc… (Ridge)

Page 33: Apprentissage automatique, Régression Ridge et LASSO

Référence

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008