19
III. Régression Multiple EST Fès 2020 Outils Statistiques pour l’Analyse de risque

III. Régression Multiple

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: III. Régression Multiple

III. Régression Multiple

EST Fès 2020

Outils Statistiques pour l’Analyse de risque

Page 2: III. Régression Multiple

Rappel sur la Régression linéaire simple

Modèle Linéaire Simple

Le modèle simple

•X et Y deux variables continues.

•Les valeurs xi de X sont contrôlées et sans erreur demesure.

•On observe les valeurs correspondantes y1, …, yn deY.

Exemples

• X peut être la taille ou Y le poids.

Fonction linéaire :

Estimation des paramètres :

Yi = b + axi + in = nb d’observations; i =résidu de l’obs i

A. Ferreira

( )( )

( )

( )

n

i i

i=1

n2

i

i=1

x -x y -yCov x,y

a = = V(x)

x -x

b = y - ax

Page 3: III. Régression Multiple

Problématique:

Les Données

Y = Variable à expliquer

• numérique

• (ou dépendante) X1 Xp Y

x11 x1p y1

Le tableau des données

X1, …, Xp = Variables explicatives

• numériques ou binaires

• (ou indépendantes)

yi

1.

.

i.

.

n

x1i xip

x1n xnp yn

où xij est la valeur observée de la variable Xi pour l’individu J.

A. Ferreira

Page 4: III. Régression Multiple

Régression Multiple

Le modèle linéaire multiple

Y = 0 + 1 X 1 + … + p X p +

Supposition : indépendance linéaire des Xi.

pX 1 … . . X

Modèle sous forme matricielle

Y = X +

(n,1) (n,p+1) (p+1,1) (n,1)

Y X

YX

(n,p)

?

1

i

n

Ajustement du

modèle linéaire

Prévision

Prévision Linéaire

111

11

1

yi x ipx i 1 …=

0

1

p

i

Schématisation du modèle

Linéaire

A. Ferreira

Page 5: III. Régression Multiple

Régression Multiple

Hypothèses du modèle linéaire

Résidus

•La variance des résidus est la même pour toutes les valeurs de X

•Homoscédasticité : V(εi) = ²

•Les résidus sont linéairement indépendants : cov(εi,εj) = 0 ∀ i ≠ j

•Les résidus sont normalement distribués : εi ~ N(0,²)

•Les variables explicatives ne sont pas parfaitement corrélées entres elles

non colinéarité des variables

A. Ferreira

Page 6: III. Régression Multiple

Régression Multiple

Les problèmes

1. Estimation des coefficients de régression

0, 1,…, p.

2. Estimation de l’écart-type du terme résiduel i

3. Mesurer la force de la liaison entre Y et les variables X1,…,Xp

Coefficients de détermination (R2) et de détermination ajusté

5. La liaison globale entre Y et X1,…,Xp est-elle significative ?

6. L’apport marginal de chaque variable Xj (en plus des autres) à

l’explication de Y est-il significatif ?.

7. Comparaison de modèles.

8. Intervalle de prévision à 95% de y.

Page 7: III. Régression Multiple

Régression Multiple

Estimation des coefficients de régression j

Notations :

- i = yi - = erreur

Méthode des moindres carrés Ordinaire :

On recherche minimisant:

y i

ˆ ˆ0 1 p, , … ,

Y. BAKAD

Valeur observée :

La valeur estimée:

Page 8: III. Régression Multiple

Régression Multiple

Estimation des coefficients de régression

Les coefficients a0, …., ap-1 sont obtenus par la minimisation des moindres carrées :

n

iL = = T = (y − Xa)T (y − Xa)2

i=1

La solution est donnée par:

a = (XTX)−1XTy = CXTy

C = (XTX)−1est une matrice symétrique de taille ( p,p)

Les valeurs prédites par le modèle:

y = Xa = XCXT y = Hy

H = (XCXT)est une matrice symétriquequi vérifie H 2 = H

E(a ) = a

V (a ) = 2C

Propriétés statistiques de a :

Page 9: III. Régression Multiple

Régression Multiple

Vecteur des résidus

Le vecteur des résidus du modèle :

e = y − y

e = (I − H)y

Propriétés orthogonales des résidus :

1T e = 0

y T e = 0

XT e = 0

Estimation de l’écart-type du terme résiduel :

=

n

ie2

n − p −1 i=1

1 2

2=

Page 10: III. Régression Multiple

Régression Multiple

Sommes des carrés

Décomposition de la somme des carrés totale :

(y − y)2 = (yˆ − y)2 + e 2 i i i

Somme des

carrés totale

Somme des

carrés expliquée

Régression

Somme descarrés résiduelle

(erreurs)n

Valeur moyenne de la variable réponse y :nn

1T yy =y = i

i=1

1

Somme des Carrés Totale :

n

i

(1T y)2− y)2 = y Ty −SCT =(y

i=1

n

n

i

n

(1T y)2− y)2 = aXTy −Somme des Carrés Régression : SCR =(y

i=1

2n

ii− y ) = y Ty − aTXT ySomme des Carrés Erreurs : SCE =(y

i=1

Page 11: III. Régression Multiple

Régression Multiple

Carrés Moyens

Somme des Carrés : SCT=SCR+SCE

Carré Moyen de la Régression :

Carré Moyen Résiduel (Erreurs) :

SCR = somme des carrés Régression

SCE = somme des carrés Erreurs

p = nombre de variables

n = nombre d’observations

Coefficient de détermination multiple R2 (0,1)

=SCR

= 1 −SCE

SCT SCTR2

Page 12: III. Régression Multiple

Régression Multiple

Coefficient de détermination Ajusté Ra2 (0,1)

R2 augmente toujours avec l’addition de variables explicatives au modèle.

Comment comparer les R2 de deux modèles construits avec des nombres

d’observations et des variables différents ?

•Le R 2 permet de tenir compte du nombre d’observations et du nombre dea

variables explicatives.

•On modifie le coefficient R2 en tenant compte du nombre de degrés de liberté

•de la somme des carrés totale (n-1) et

•de la somme des carrés résiduelle (n-p-1)

a•Grâce au R 2 on peut comparer les pouvoir explicatifs de différents modèles.

SCT(

R2

a

n −1)

SCE (n − p)

=1−

A. Ferreira

Page 13: III. Régression Multiple

Régression Multiple

Le Test d’hypothèse Globale

La liaison globale entre Y et les variables explicatives X1,…,Xp est-elle significative?

•Test d’hypothèse :

H 0 :j, a j =0

H1 : j, a j 0 au moins un coefficient différent non nul.

•Si l’hypothèse H0 est acceptée : la variable Y ne dépend pas du tout des

variables X1,…,Xp .

•l’hypothèse H0 est rejetée si :

CME

CMRF , p − 1, n − p1 − F

•Tableau ANOVA :

•Décision de rejeter H0 au risque de se tromper :

•Rejet de H0 si F F 1- (p-1, n-p)

Fractile d’une loi de Fisher-Snedecor

A. Ferreira

Page 14: III. Régression Multiple

Régression Multiple

Les Tests d’hypothèse Marginaux

Lorsque le test global conduit au rejet de l’hypothèse nulle, il faut rechercher quels

significatifs (différent de zéro) :

•Test d’hypothèse :H 0 : a j = 0

H1 : a j 0

sont les coefficients de régression a j

0•l’hypothèse H est rejetée si :

.•cjj est l’élément diagonal de la matrice C correspondant à a j•Tableau ANOVA :

•Décision de rejeter H0 au risque de se tromper :

•Rejet de H0 si | tj | t 1-/2 (n-p)

Fractile d’une loi de Student

Page 15: III. Régression Multiple

Exemple

Analyse de la rentabilité des Start up selon les dépenses relatives à la

Recherche et Développement, aux frais administratives et au Marketing.

Page 16: III. Régression Multiple

Exemple

(Formulation )

Il s’agit d’élaborer un modèle de régression linéaire

multiple dont l’équation est la suivante:

Avec :

Y: le profit de la Start up

X1 : les dépenses en Recherche et développement

X2 : les dépenses administratives

X3 : les dépenses en Marketing

Page 17: III. Régression Multiple

Coefficient de détermination et de détermination ajustée

Exemple(Résultats)

Page 18: III. Régression Multiple

Analyse de la variance

Exemple(Résultats)

Page 19: III. Régression Multiple

Analyses des coefficients

Exemple(Résultats)