50
La corrélation et la La corrélation et la régression multiple régression multiple

La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Embed Size (px)

Citation preview

Page 1: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

La corrélation et la régression multipleLa corrélation et la régression multiple

Page 2: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

Supposons que nous avons 2 variables (u,v) où chacune contient 2 Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants.participants.

Il y a deux façons de « voir » ces données:Il y a deux façons de « voir » ces données:1- De façon habituelle (par rapport aux variables)1- De façon habituelle (par rapport aux variables)

1

2

6 2

1 5

Sujet u v

s

s

Page 3: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

Supposons que nous avons 2 variables (u,v) où chacune contient 2 Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants.participants.

Il y a deux façons de « voir » ces données:Il y a deux façons de « voir » ces données:2- De façon vectorielle (par rapport aux sujets)2- De façon vectorielle (par rapport aux sujets)

1 2

6 1

2 5

Sujet s s

u

v

Page 4: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

VecteursVecteurs

1 2

6 1

2 5

Sujet s s

u

v

Un vecteur est déterminé par sa longueur et son orientationUn vecteur est déterminé par sa longueur et son orientation

Page 5: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

VecteursVecteurs La longueur d’un vecteurLa longueur d’un vecteur

61

La longueur (norme) d’un vecteur est notée:

Autrement dit, la norme équivaut à calculer l’écart-type

T 2 2 2

1

6 1 37n

ii

u u u u

Page 6: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

VecteursVecteurs Standardiser les donnéesStandardiser les données

On ramène la longueur du vecteur à 1On ramène la longueur du vecteur à 1 6 / 37/

1/ 37

u u

Page 7: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

VecteursVecteurs Relation entre 2 vecteursRelation entre 2 vecteurs

Si on a les mêmes valeurs dans chacune des deux variables, Si on a les mêmes valeurs dans chacune des deux variables, alors les deux vecteur seront superposés. À mesure que les alors les deux vecteur seront superposés. À mesure que les données diffèrent pour chacune des variables, l’angle entre les données diffèrent pour chacune des variables, l’angle entre les deux vecteurs augmentera.deux vecteurs augmentera.

Page 8: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

VecteursVecteurs Relation entre 2 vecteursRelation entre 2 vecteurs

Donc, plus l’angle augmente, plus la partie commune diminue. Donc, plus l’angle augmente, plus la partie commune diminue. Si l’angle est de 90Si l’angle est de 90º, alors il n’y a plus de partie commune.º, alors il n’y a plus de partie commune.

Page 9: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

VecteursVecteurs Relation entre 2 vecteursRelation entre 2 vecteurs

Or, le cosinus de cet angle est le coefficient de corrélation. Or, le cosinus de cet angle est le coefficient de corrélation.

Si l’angle est nul (ou de 180Si l’angle est nul (ou de 180ºº) alors le cosinus vaut 1 (ou -1); ) alors le cosinus vaut 1 (ou -1); indiquant une relation parfaite. Et à l’autre extrême, si l’angle indiquant une relation parfaite. Et à l’autre extrême, si l’angle est de 90est de 90ºº (ou 270 (ou 270ºº), alors le cosinus vaut 0; indiquant une ), alors le cosinus vaut 0; indiquant une absence de relation.absence de relation.

T1 cov

cos

n

i ii r

s s

uv

uvu v

u vu v

u v u v

Page 10: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

Donc, comment peut-on déterminer les poids de régression pour décrire la Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? relation suivante ?

L’idée est de trouver la projection (l’ombre) de L’idée est de trouver la projection (l’ombre) de vv sur sur uu la plus courte la plus courte

0 1v̂ b b u

Page 11: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

Donc, comment peut-on déterminer les poids de régression pour décrire la Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ? relation suivante ?

L’idée est de trouver la projection (l’ombre) de L’idée est de trouver la projection (l’ombre) de vv sur sur uu la plus courte la plus courte

0 1v̂ b b u

Démo au tableau

-1T T1

-121 2

covcov

b

b ss

uvu uv

u

u u u v

(Vraie uniquement dans le cas 2D)

Page 12: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Mesure de la relation entre une Mesure de la relation entre une variable dépendante et plusieurs variable dépendante et plusieurs

variables indépendantesvariables indépendantes

Nous sommes en présence de plusieurs prédicteursNous sommes en présence de plusieurs prédicteurs

Exemple avec 2 prédicteursExemple avec 2 prédicteurs

Page 13: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Mesure de la relation entre une Mesure de la relation entre une variable dépendante et plusieurs variable dépendante et plusieurs

variables indépendantesvariables indépendantes

Puisque dans notre cas nous avons 2 prédicteurs, il est possible de Puisque dans notre cas nous avons 2 prédicteurs, il est possible de représenter la relation dans un nuage de points en 3 dimensionsreprésenter la relation dans un nuage de points en 3 dimensions

Page 14: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Mesure de la relation entre une Mesure de la relation entre une variable dépendante et plusieurs variable dépendante et plusieurs

variables indépendantesvariables indépendantes

Nous pouvons illustrer aussi les différentes relations par une Nous pouvons illustrer aussi les différentes relations par une matrice de diagrammes de dispersion bivariée.matrice de diagrammes de dispersion bivariée.

x1

x1 x2 y

x2

y

Page 15: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Mesure de la relation entre une Mesure de la relation entre une variable dépendante et plusieurs variable dépendante et plusieurs

variables indépendantesvariables indépendantes

Nous pouvons également calculer les corrélations bivariées.Nous pouvons également calculer les corrélations bivariées.

Page 16: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Mesure de la relation entre une Mesure de la relation entre une variable dépendante et plusieurs variable dépendante et plusieurs

variables indépendantesvariables indépendantes

De la droite de régression vers l'hyperplan de régressionDe la droite de régression vers l'hyperplan de régression

Page 17: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression simpleIdée de la régression simple

Illustration graphiqueIllustration graphique

1 2

1

2

3

4

5

30 15 34

25 10 25

28 12 30

32 14 38

22 13 26

Sujet x x y

s

s

s

s

s

Il n’est pas possible d’illustrer graphiquement les vecteurs en 5 dimensions. Toutefois, les calculs sont sensiblement les mêmes.

Page 18: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Idée de la régression multipleIdée de la régression multiple

Donc, comment peut-on déterminer les poids de régression pour décrire la relation suivante ?

1T T

0

1

2

1 30 15 1 30 15 1 30 15 34

10.16811 25 10 1 25 10 1 25 10 25

1.01 28 12 1 28 12 1 28 12 30

1 32 14 1 32 14 1 32 14 38

1 22 13 1 22 13 1 22 13 26

b

b

b

1681

1.0084

1 2ˆ 10.1681 1.01681 1.0084y x x

1T Tb X X X y Formule universelle, quelque soit le nombre de

prédicteurs (et de variables prédites)

Page 19: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Les coefficients de régression Les coefficients de régression standardisésstandardisés

Permet de mesurer « l’importance » des prédicteurs, puisque ceux-ci ont tous une variabilité de 1 et une moyenne de 0.

i ii

y

b s

s

1 11

1.01681*3.974920.740387

5.45894y

b s

s

2 22

1.0084*1.923540.355326

5.45894y

b s

s

1 2ˆ 0.740387 0.355326zy z z

Donc, une augmentation d’une unité au niveau de z1, augmentera de 0.74 écart-types au niveau de yZ.

^

Page 20: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Le coefficients de déterminationLe coefficients de détermination

Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R2). Ce R2 s’interprète de façon similaire qu’en régression simple, soit le pourcentage de variance expliquée par l’ensemble des prédicteurs.

Matrice des sommes des carrés et produits croisés (SSCP) (Sum of square and cross product)

1 1 2 21 1 1

1 11

2 21

1

63.2 16.4 80.8

16.4 14.8 31.6

80.8 31.6 119.2

n n n

j j jj j j

n

jj

n

jj

n

jj

x x x x y y

x x

x x

y y

SSCP

Page 21: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Le coefficients de déterminationLe coefficients de détermination

Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R2). Ce R2 s’interprète de façon similaire qu’en régression simple, soit le pourcentage de variance expliquée par l’ensemble des prédicteurs.

En divisant la matrice SSCP par le nombre de degrés de liberté on obtient une matrice de variance - covariance

1 2

1

2

15.8 4.1 20.2

4.1 3.7 7.91

20.2 7.9 29.8

x x y

x

x

y

s s s

s

sn

s

SSCP

De plus, la matrice SSCP peut se partitionner en fonction des variables prédicteurs et de la variable prédite (critérium)

63.2 16.4 80.8

16.4 14.8 31.6

80.8 31.6 119.2

SSCP

Scp

Spp Spc

Scc

Page 22: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Le coefficients de déterminationLe coefficients de détermination

Tout comme en régression simple, en régression multiple, il existe un coefficient de détermination multiple (R2). Ce R2 s’interprète de façon similaire qu’en régression simple, soit le pourcentage de variance expliqué par l’ensemble des prédicteurs.

Le R2 est le résultat du produit matriciel suivant:

2 2 1 5 11 (1 ) 1 (1 0.9566) 0.9132

1 5 2 1adj

nR R

n p

1

12 63.2 16.4 80.880.8 31.6 119.2 0.9566

16.4 14.8 31.6R

Le R2adj est une estimation non biaisé de la variabilité dans la population

2 1 1cp pp pc ppR s s s s

Page 23: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Test d’hypothèseTest d’hypothèse

2

2

122.0273

1

R n pF

pR

L’hypothèse émise est que le coefficient de détermination entre les prédicteurs et le critérium y est nulle dans la population. Autrement dit, on cherche à savoir quels sont les x et y linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux.

20

21

: 0

: 0

Xy

Xy

H

H

(0.05,2,2) 19.00critF

Comme le Fobs >Fcrit (22.0273>19.00), on rejette H0 et on

accepte H1. Les 2 populations sont dépendantes.

Page 24: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Test d’hypothèse/ANOVATest d’hypothèse/ANOVA L’hypothèse émise est que le coefficient de détermination entre les

prédicteurs et le critérium y est nulle dans la population.

Comme F(2,2)=22.0273, p.<0.05, on rejette H0 et on accepte H1.

Les 2 populations sont dépendantes.

22

22 (1 )

(1 ) 11

1

régcccc

erreur

cccc

cc

Source SC dl CM F

CMR SRégression R S p

p CM

R SErreur R S n p

n p

Total S n

Page 25: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Corrélations partielles Corrélations partielles et semi partielleset semi partielles

2 2 212... ... 12...( )...i y i p y i psr R R

L’idée est de mettre en évidence l’effet d’un prédicteur sur notre variable prédite en contrôlant les effets des autres prédicteurs.

• Coefficient de détermination semi partielle

C’est la variance globale (R2) moins la variance globale en excluant le prédicteur à l’étude de la banque de données. La portion de variance qui est unique au prédicteur

22

212...( )...1i

iy i p

srpr

R

• Coefficient de détermination partielle

C’est la proportion de variance associée avec un prédicteur mais pas avec les autres. Autrement dit, c’est la quantité de variance non estimée par les autres prédicteurs mais qui l’est par le prédicteur à l’étude.

Page 26: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Corrélations partielles Corrélations partielles et semi partielleset semi partielles

ab

c

e

Y

x1 x2

21Yr a c 22Yr b c

21Yr a b c

2 2 21 12 2Y Ysr R R a

22 1

1 221 y

sr apr

a eR

2 2 22 12 1Y Ysr R R b

22 2

2 211 y

sr bpr

b eR

Page 27: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Corrélations partielles Corrélations partielles et semi partielleset semi partielles

Exemple

39 % de la variance de y est expliquée uniquement par le premier prédicteur.

9% de la variance de y est expliquée uniquement par le deuxième prédicteur.

90% de la variance de y non expliquée par le deuxième prédicteur, l’est par le premier.

67% de la varaince de y non expliquée par le premier prédicteur, l’est par le deuxième.

x1

x2

Page 28: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Corrélations partielles Corrélations partielles et semi partielleset semi partielles

Test de signification

2

2 2

( 1) 1

1 1i

i i i

sr n p n pF sr t

R R

x1

x2

Comme les différents paramètres (pri, bi, Bi) dépendent tous de la proportion de variance expliquée par le coefficient de corrélation semi partielle, si ce dernier est significatif, alors tous les autres paramètres le seront aussi.

Page 29: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Les erreurs types associées aux Les erreurs types associées aux paramètres de la régressionparamètres de la régression

Erreur type associée aux coefficients de régression

2

1

1i

i

Erreurb

pp i

CMSE

S R

Erreur type associée aux coefficients de régression standardisée

i

i i

pp

bcc

SSE SE

S

2où Le coefficient de détermination lorsque

le prédicteur agit en tant que variable prédite

par rapport aux autres prédicteurs

iR

i

Page 30: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Les intervalles de confiance associées Les intervalles de confiance associées aux paramètres de la régressionaux paramètres de la régression

Intervalle de confiance associé aux coefficients de régression

( / 2; 1)ii bb SE t n p

Intervalle de confiance associé aux coefficients de régression standardisée

( / 2; 1)ii SE t n p (0.05 / 2;5 2 1) (0.05 / 2,2) 4.30t t

Page 31: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Diagnostique et remèdeDiagnostique et remède

- Diagrammes de dispersion

- Diagrammes des résiduels

- Diagramme de normalité

- Multicolinéarité

- Scores extrêmes

Page 32: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Diagrammes de dispersionDiagrammes de dispersion

Exemple tiré de HowellLes diagrammes de dispersion peuvent aider à voir la nature et la force des relations bivariées. On peut également voir s’il y a des scores extrêmes et des « trous ».

Page 33: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Diagrammes des résiduelsDiagrammes des résiduels

Pour évaluer si une relation nonlineaire est présente et si la variance de l’erreur est constante (homoscédasticité) on regarde les graphiques des résiduels en fonction des prédicteurs.

ˆRésiduel i i ie y y

Page 34: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Diagrammes des résiduelsDiagrammes des résiduels

Pour évaluer si une relation nonlineaire est présente et si la variance de l’erreur est constante (homoscédasticité) on regarde les graphiques des résiduels en fonction des prédicteurs et en fonction de la variable prédite

ˆRésiduel i i ie y y

Il peut être plus facile à voir l’homoscédasticité si le graphique est construit en par rapport à la valeur absolue des résiduels

Page 35: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Diagramme de normalitéDiagramme de normalité

Pour évaluer si la distribution des erreurs est normale, on fait un graphique des probabilités normales

0.375Attendue

0.25Erreur

RangCM z

n

r = 0.99

Page 36: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

MulticolinéaritéMulticolinéarité

Dans un monde idéal, chaque prédicteur serait corrélé avec la variable dépendante et ils ne seraient pas corrélés entre eux. Toutefois, cela n’arrive jamais et les prédicteurs sont dans les faits corrélés entre eux. Si la corrélation est élevé alors on dira qu’il y a un problème de multicolinéarité.

S’il y a multicolinéarité, alors cela indique qu’une (ou plusieurs) variable(s) est (sont) redondante(s).

Page 37: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

MulticolinéaritéMulticolinéarité

Exemple: 1 21x xr

Première solution

1 2ˆ 87 18y x x

Page 38: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

MulticolinéaritéMulticolinéarité

Exemple: 1 21x xr

Deuxième solution

1 2ˆ 7 9 2y x x

Page 39: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

MulticolinéaritéMulticolinéarité

Exemple: 1 21x xr

Illustration des deux solutions

2 15 0.5x x

Par conséquent, aucun interprétation est possible.

Page 40: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

MulticolinéaritéMulticolinéaritéTolérance: Permet de mesurer l’indépendance d’un prédicteur donné par rapport aux autres prédicteurs. La tolérance doit être le plus grand possible (>0.1).

21i iTolerance R

Variance Influence Factor (VIF): Permet de mesurer l’inflation de la variance d’un coefficient de régression i du au fait de la corrélation du prédicteur i avec les autres prédicteurs. Le VIF est la réciproque de la tolérance. Comme nous désirons des coefficients stables, le VIF doit être le plus petit possible (<10).

2

1 1

1iii

VIFToleranceR

Des valeurs élevé de VIF indiques en général des différences élevées entre les estimés et les vrais coefficients de régression.

Page 41: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

MulticolinéaritéMulticolinéaritéExemple

Page 42: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmes

1T TH X X X XHat matrix:

Identification d’un score extrême chez la variable dépendante:

Studentized Deleted Residual

ˆ Y HY

( ) e I H Y

Valeurs prédites:

Résiduels:

2

2ˆ(1 )i

err ii i

n pe

SC h e

YSDR:

Page 43: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmesIdentification d’un score extrême chez la variable dépendante:

Studentized Deleted Residual

L’idée est de mesurer la différence entre le résiduel observé et le résiduel obtenu lorsque la ième variable est enlevée. Cette différence est alors normalisée pour donner le score ti.

Page 44: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmesIdentification d’un score extrême chez la variable dépendante:

Studentized Deleted Residual

Les données se distribuent selon une distribution de Student (t). Il suffit de faire une correction de Bonferronni pour identifier les scores extrêmes.

2*bonf

n

2dl n p

Exemple

0.050.005

2*50bonf

2 50 5 2 43dl n p

3.53critt

Page 45: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmes

0 1iih Leverage:

Identification d’un score extrême chez les prédicteurs:

Hat matrix leverage value

Le score indique la distance entre la valeur d’une observation et la valeur de la moyenne de toutes les observations.

Note: dans SPSS le leverage est données par hii-1/n.

Page 46: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmesIdentification d’un score extrême chez les prédicteurs:

Hat matrix leverage value

Un score sera considéré comme extrême si

- hii>2(p+1)/n

- hii>0.5 (note: 0.2< hii<0.5 = effet moyen)

Exemple: le critère = 2(p+1)/n = 0.24

Les scores 3 et45 sont possiblementProblématiques.

Page 47: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmesUne fois que les scores extrêmes sont identifiés, il faut vérifier leur influence:

DFFITS

Permet de mesurer l’influence de l’observation i sur la valeur prédite de cette observation.

( )

( )

ˆ ˆ

1i i i ii

i iiierr i ii

Y Y hDFFITS t

hCM h

C’est en fait un studentized deleted residual pondéré par le leverage de l’observation

Page 48: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmesUne fois que les scores extrêmes sont identifiés, il faut vérifier leur influence:

DFFITS

Un score sera considéré comme extrême si

- DFFITSi > 2((p+1)/n) Pour de grand échantillons

- DFFITSi > 1 Pour de petit et moyen échantillon

Page 49: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmesUne fois que les scores extrêmes sont identifiés, il faut vérifier leur influence:

Distance de Cook

Permet de mesurer l’influence de la ième observation sur l’ensemble des n valeurs prédites.

2

( ) 21

2

ˆ ˆ

( 1)( ) ( 1)( ) 1

n

j j ij i ii

ierreur erreur ii

Y Ye h

Dp CM p CM h

Il a noter que Di dépend de la valeur du résiduel et du leverage.

Page 50: La corrélation et la régression multiple. Idée de la régression simple Supposons que nous avons 2 variables (u,v) où chacune contient 2 participants

Scores extrêmesScores extrêmesUne fois que les scores extrêmes sont identifiés, il faut vérifier leur influence:

Distance de Cook

Les données se distribuent selon un F(p+1, n-p-1). Si le percentile est inférieur à ~10-20%, l’observation n’a pas beaucoup d’influence sur la valeur prédite. Si le percentile est ~50% ou +, l’observation a un bon effet sur la valeur prédite.

F(p+1, n-p-1) => F(5+1, 50-5-1) = >F(6, 44) = 0.33, p = 0.085