17
Le modèle de régression linéaire Master 2 Recherche SES-IES Analyse de données Ana Karina Fermin Université Paris Nanterre http://fermin.perso.math.cnrs.fr/

Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Le modèle de régression linéaireMaster 2 Recherche SES-IES Analyse de données

Ana Karina Fermin

Université Paris Nanterre

http://fermin.perso.math.cnrs.fr/

Page 2: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

1 Régression linéaire simple

2 Modèles

3 Sélection de modèles

Fermin Régression linéaire Chap. Régression 2 / 17

Page 3: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Modèle de régression

On dispose de n observations (x1, y1), (x2, y2), . . . , (xn, yn) ducouple (X,Y ). On suppose que

yi = f ?(xi ) + εi pour tout i = 1, . . . , n

les xi son des valeurs connues non aléatoiresf ? est une fonction inconnueεi sont des réalisations inconnues d’une variable aléatoire.

Pour chaque individu i , la variable aléatoire εi représente l’erreurcommise. Généralement pour étudier le modèle "le statisticien"formule des hypothèses sur la loi des erreurs εi .

Fermin Régression linéaire Chap. Régression 3 / 17

Page 4: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

ObjectifOn souhaite “expliquer” une variable Y à partir de X.Nous allons chercher une fonction f telle que

Y ≈ f (X).

Pour définir ≈ il faut donner un critère quantifiant la qualité del’ajustement de la fonction f aux données:

(Y − f (X ))2

La vraie fonction f ? minimise en moyenne cette erreur... mais elleest inconnue!

Fermin Régression linéaire Chap. Régression 4 / 17

Page 5: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

En pratiqueOn va choisir f dans une classe de fonctions S.On va minimiser une erreur moyenne sur les données:

f̂ = argminf ∈S

1n

n∑i=1

(f (xi )− yi )2

La régression linéaire correspond à S = {x 7→ xtβ}.

Attention:Il faut choisir S (le modèle)f̂ 6= f ?

On est même pas sûr que (Y − f̂ (X ))2 (ou (f ?(X)− f̂ (X)2)soit petit en moyenne...

Fermin Régression linéaire Chap. Régression 5 / 17

Page 6: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Exemple : Pollution l’ozoneX : température à midiY : concentration maximale en ozone

mesurés en un lieu donné et une journée donnée pendant n jours.

40

80

120

160

15 20 25 30T12

max

O3

Fermin Régression linéaire Chap. Régression 6 / 17

Page 7: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Régression polynomiale

f est choisie dans une classe des fonctions S polynomialesModèles obtenus par des polynôme du degré 3, 4, 5, 6 et 7Pb : Choisir "le bon" degré !

40

80

120

160

15 20 25 30T12

max

O3

Modèle polynomial: fβ(Xi ) =∑d

l=0 βlXli

Linéaire en β!Ici X′i = (1,Xi , . . . ,Xd

i )t

Problème d’estimation de MC facile!Fermin Régression linéaire Chap. Régression 7 / 17

Page 8: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Exemple Jouet

Nous commencerons avec un exemple artificiel !Nous voulons estimer les valeurs de

f ?(x) = 1− x + 2x2 − 0.8x3 + 0.6x4 − x5

Fermin Régression linéaire Chap. Régression 8 / 17

Page 9: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Modélisation

Design fixé : xk = k/n, with 1 6 k 6 nNous observons les valeurs de f ? dans xk contaminées par unbruit Gaussien

Yk = f ?(k/n) + εk

Ici, εk sont des réalisations i.i.d. centrées d’une v.a.Gaussienne of variance σ2.

Fermin Régression linéaire Chap. Régression 9 / 17

Page 10: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Quel degré?

Fermin Régression linéaire Chap. Régression 10 / 17

Page 11: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Compromis Biais-Variance

Cadre général:F : Famille de toutes les fonctionsMeilleur solution dans F : f ∗

Sous-Famille S ⊂ F de functionsMeilleure solution dans S: f ∗SEstimée S: f̂S obtenue par moindre carré.

Erreur d’approximation et erreur d’estimation (Biais/Variance)

‖f̂S − f ?‖2 = ‖f ∗S − f ?‖2︸ ︷︷ ︸Erreur d’approximation

+ ‖f̂S − f ∗S ‖2︸ ︷︷ ︸Erreur d’estimation

L’erreur d’approximation peut être grande si le modèle S n’est pasadapté.L’erreur d’estimation est grande lorsque le modèle est complexe.

Fermin Régression linéaire Chap. Régression 11 / 17

Page 12: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Fermin Régression linéaire Chap. Régression 12 / 17

Page 13: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Quel degré?

Fermin Régression linéaire Chap. Régression 13 / 17

Page 14: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Sur-Apprentissage

Fermin Régression linéaire Chap. Régression 14 / 17

Page 15: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Validation croisée

Idée très simple: conserve une partie pour vérifier l’erreur.Suffisent pour éviter un sur-apprentissage!

Cross Validation

Utiliser V−1V n observations pour apprendre et 1

V n pour vérifier!

Variantes Classiques :Leave One Out,V -fold validation croisée.

Souvent on choisi: V = 5 ou V = 10!Fermin Régression linéaire Chap. Régression 15 / 17

Page 16: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

Sur-apprentissage / sous-apprentissage

Différents comportements pour des complexités de modèlesdifférentes

Compromis Bias-variance ⇐⇒ eviter sur-app. and sous-app.

Fermin Régression linéaire Chap. Régression 16 / 17

Page 17: Le modèle de régression linéairefermin.perso.math.cnrs.fr/Files/Slides_Regression_VC_M2.pdfFermin Régression linéaire Chap. Régression 3 / 17 Reg. simple Modèles Sélection

Reg. simple Modèles Sélection de modèles

f̂m̂ : régression avec un polynôme de degré 4

Fermin Régression linéaire Chap. Régression 17 / 17