54
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 22-06-26 15:21 1 Régression multiple Régression multiple Quand et pourquoi on les utilise Modèle général de la régression multiple Épreuves d’hypothèses Le problème de la multicollinéarité Marche à suivre Régression polynomiale

Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Embed Size (px)

Citation preview

Page 1: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

1

Régression multipleRégression multiple

Quand et pourquoi on les utilise

Modèle général de la régression multiple

Épreuves d’hypothèses

Le problème de la multicollinéarité

Marche à suivre

Régression polynomiale

Page 2: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

2

Modèles linéaires (GLM)Modèles linéaires (GLM)

ProcédureVariabledépendante

Variable(s)indépendante(s)

Régressionsimple

1 continue 1 continue

ANOVA à uncritère

1 continue 1 discontinue*

ANOVA àcritèresmultiples

1 continue 2 ou plus discontinue*

ANCOVA 1 continueAu moins 1 discontinue*,au moins 1 continue

Régressionmultiple

1 continue 2 ou plus continues

*peuvent être discontinues ou traitées comme étant discontinues

Page 3: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

3

Quand utiliser la Quand utiliser la régression multiple?régression multiple?

• Afin d ’estimer la relation entre une variable dépendante (Y) et plusieurs variables indépendantes (X1, X2, …)

• ex: la relation entre la production primaire, la concentration de phosphore et l’abondance du zooplancton

Log [P]

Lo

g P

rod

uct

ion

Log [P]

Lo

g P

rod

uct

ion

Log [Zoo]

Page 4: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

4

•Le modèle général:

qui définit un plan à k-dimensions, ou = ordonnée à l’origine, j = coefficient de régression partiel de Y sur Xj, Xij est la valeur de la ième observation de la variable dépendante Xj, et i est la valeur des résidus de la ième observation.

Le modèle général de la régression multipleLe modèle général de la régression multiple

Y Xi jj

k

ij i

1

X2

X1

Y

X2

X1

Y, X1, X2^

Y, X1, X2

Y X , X 1 2.

Page 5: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

5

Qu’est-ce que le coefficient de régression Qu’est-ce que le coefficient de régression partiel?partiel?

• j est le taux de variation de Y pour une variation de Xj quand toutes les autres variables sont maintenues constantes; Ce n’est pas la pente de la régression de Y sur Xj, regroupées pour toutes les autres variables!

-4 -2 0 2 4-8

-4

0

4

8

X1

Y

X2 = 3

X2 = 1

X2 = -1

X2 = -3

Régressionpartielle

Régression simple

Page 6: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

6

L’effet de l’échelleL’effet de l’échelle

• Deux variables indépendantes sur différentes échelles ont une pente différente, même si la variation proportionnelle de Y est la même

• Alors, si on veut comparer l’effet relatif de chaque variable sur Y, on doit éliminer les effets de différentes échelles.

Y j = 2

4

2

01 2

Xj

Y j = .02

4

2

0100 200

Page 7: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

7

• Comme j dépend de la taille de Xj, pour déterminer l’effet relatif de chaque variable indépendante, on doit normaliser les coefficients de la régression: 1) en transformant toutes les variables et 2) en ajustant une régression sur les données transformées.

• Les coefficients normalisés j* donnent une estimation de l’effet relatif de Xj sur Y

Le modèle de la régression multiple: version Le modèle de la régression multiple: version normaliséenormalisée

YY Ys

XX X

s

Y X

s

s

ii

Yij

ij j

X

i jj

k

ij i

j jX

Y

j

j

* *

* * *

*

,

1

Page 8: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

8

Coefficients de régression: résuméCoefficients de régression: résumé

• Les coefficients de régression partielle: égaux à la pente de la régression de Y sur Xj quand toutes les autres variables indépendantes sont maintenues constantes

• Les coefficients de régression normalisés: représentent le taux de changement Y ( en unités d’écart-type) par écart-type de Xj lorsque toutes les autres variables sont maintenues constantes.

Page 9: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

9

Hypothèses implicitesHypothèses implicites

• Les résidus sont indépendants• Les résidus sont homoscédastiques• Linéarité des relations entre Y et tous les X• Pas d’erreur de mesure sur les variables

indépendantes• Les résidus sont distribués normalement

Page 10: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

10

• Répartition de la somme des carrés totale en somme des carrés du modèle et des résidus:

Épreuves d’hypothèses I: répartition de la Épreuves d’hypothèses I: répartition de la somme des carrés totalesomme des carrés totale

X2

X1

Y

2

1Totale )( YYSC

N

ii

2

1modèle )ˆ( YYSC

N

ii

2

1erreur )ˆ( i

N

ii YYSC

SC Modèle

SC Totale

SC Résidus

Page 11: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

11

Épreuves d’hypothèses I: répartition de la Épreuves d’hypothèses I: répartition de la somme des carrés totalesomme des carrés totale

• Alors, CMmodèle = s2Y et

Cmerreur = 0 si les valeurs observées = attendues pour tous les i

• calculer F = CMmodèle/CMerreur et comparer à la distribution de F avec 1 et N-2 dl.

• H0: F = 1

1

)ˆ( 2

1modèle

YYCM

N

ii

2

)ˆ( 2

1erreur

N

YYCM

i

N

ii

Page 12: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

12

Épreuves d’hypothèses Épreuves d’hypothèses II: signification des II: signification des coefficients de coefficients de régression partiellerégression partielle

• Tester chaque hypothèse à l’aide d’un test de t:

• Note: c’est un test bilatéral!

ts

ts

j

j

j

,

YY

X1, X2 fixes

H01: = 0,rejetée

X2 = 1

X2 = 2

YY

H02: 2 = 0,acceptée

X2, X1 fixes

X1 = 2

X1 = 3

Page 13: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

13

MulticolinéaritéMulticolinéarité

• Si les variables indépendantes sont corrélées, elles ne sont pas indépendantes. L’évaluation de la colinéarité se fait en regardant les matrices de covariance ou de corrélation

X1

indépendantes

X3

X2

colinéaires

X2

Variable X1 X2 X3

X1

2 12

13

X2

21

2 23

X3

31

32

2

Variance

Covariance

Page 14: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

14

Multicolinéarité: problèmesMulticolinéarité: problèmes

• Si deux variables indépendantes X1 et X2 ne sont pas corrélées, la somme des carrés du modèle linéaire incluant les deux variables égale la somme des SCmodèle de chacune pris séparément

• Toutefois, si elles sont corrélées, la somme des carrées sera plus petite

• Alors, si on a un modèle incluant X1 , de combien augmente la SSmodèle quand X2 est aussi inclus (ou vice versa)?

0 2,

modèlemodèle,

modèle

21

2121

XX

XXXX

si

SCSCSC

0 2,

modèlemodèle,

modèle

21

2121

XX

XXXX

si

SCSCSC

Page 15: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

15

Multicolinéarité: conséquencesMulticolinéarité: conséquences

Inflation de l’erreur type des coefficients de régression

une grande sensibilité des coefficients estimés et des erreurs types à de petits changements dans les données

cependant, les estimés des coefficients de régression partielle ne sont pas biaisés

une ou plusieurs variables peuvent ne pas apparaître dans le modèle final de la régression parce qu’elle covarie avec une autre variable indépendante

Page 16: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

16

Détection de la multicolinéaritéDétection de la multicolinéarité

• R2 élevé mais peu de variables significatives• Fortes corrélations entre les X• Fortes corrélations partielles entre les variables

indépendantes (si l’une des variables indépendantes est une fonction linéaire de plusieurs autres)

• Valeurs propres, indice de condition, et facteur d’inflation de la variance.

Page 17: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

17

Quantifier les effets Quantifier les effets de la multicolinéaritéde la multicolinéarité

• Vecteurs propres: une série de “lignes” 1, 2,…, k dans un espace à k-dimensions. Ces vecteurs sont orthogonaux les uns par rapport aux autres

• Valeurs propres: la longueur des vecteurs correspondants

X2

X1

X2X

1

1

1

2

2

1

2

Page 18: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

18

Quantifier les effets Quantifier les effets de la multicolinéaritéde la multicolinéarité

• Les valeurs propres: si toutes les valeurs propres sont environ égales, il y a peu de multicolinéarité

• Indice de condition: racine carrée(l /s); si près de 1, il y a peu de multicolinéarité

• Facteur d’inflation de la variance: 1 - proportion de la variance des variables indépendantes expliquée par toutes les autres. Si près de 1, indique une faible colinéarité.

X2

X1

X2X

1

Faible corrélation 1 = 2

Forte corrélation 1 >> 2

Page 19: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

19

SolutionsSolutions

• Récolter plus de données afin de réduire les corrélations

• Éliminer certaines variables indépendantes• Régression sur les composantes principales

ou “ridge regression”, qui mène à des estimés des coefficients biaisés mais avec des erreurs types plus petites

Page 20: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

20

Régression multiple: principes de baseRégression multiple: principes de base

• Évaluer la signification d’une variable en ajustant deux modèles: un incluant le terme, et l’autre où il est enlevé.

• Tester pour les changements dans l’ajustement au modèle () associés avec l’exclusion du terme en question

• Malheureusement, peut dépendre de d’autres variables s’il y a multicolinéarité!

Modèle A(X1 inclus)

Modèle B(X2 exclus)

G ou F(ex: R2)

Enlever X1

(petit )

Garder X1

(grand )

Page 21: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

21

Ajustement de modèles de régression Ajustement de modèles de régression multiplemultiple

• But: trouver le “meilleur” modèle, avec les données disponiles

• Problème1: définition de “meilleur”?– R2 le plus élevé?– La variance résiduelle la plus petite?– R2 le plus élevé mais qui ne contient que des

termes significatifs?– Qui maximise R2 avec un minimum de variables

indépendantes?

Page 22: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

22

Sélection des variables indépendantes Sélection des variables indépendantes (suite)(suite)

• Problème 2: même avec une définition du meilleur modèle, quelle méthode doit-on utiliser pour le trouver?

• Possibilités:– calculer tous les modèles possibles (2k -1) et

choisir le meilleur– recourir à une procédure qui réduira le nombre

de modèles à ajuster

Page 23: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

23

Stratégie I: calculer tous les modèles Stratégie I: calculer tous les modèles possiblespossibles

• calculer tous les modèles possibles et choisir le meilleur

• désavantages: – coûte cher en temps– le problème de la

définition du meilleur modèle reste entier

• avantages:– si on a une définition du

meilleur modèle, on le trouvera!

{X1, X2, X3}

{X2}

{X1}

{X3}

{X1, X2}

{X2, X3}

{X1, X3}

{X1, X2, X3}

Page 24: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

24

Stratégie II: sélection Stratégie II: sélection progressiveprogressive

• Commencer avec la variable dont le coefficient de corrélation partielle r est le plus élevé

• ajouter les autres une à une jusqu’à ce qu’il n’y ait plus de j significativement différents de 0.

• problème: si Xj est inclus, il restera dans le modèle même si sa contribution à SCmodèle est minime. une fois les autres variables incluses.

{X1, X2, X3}

{X2}

r2 > r1 > r3

{X1, X2, X3}

{X1, X2}

RR2

RR21

R21R2

R21R2

{X2}

{X1, X2, X3}

Modèlefinal

R123R21

{X1, X2}

R123R21

Page 25: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

25

Sélection progressive: Sélection progressive: ordre d’entréeordre d’entrée

• Commencer avec la variable dont le coefficient de corrélation partielle est le plus élevé

• ensuite, ajouter la variable qui provoque la plus grande augmentation du R2 (test de F de la signification de l’augmentation). On doit aussi spécifier un F seuil pour l’entrée des variables dans le modèle

{X1, X2, X3, X4}

{X2}

r2 > r1 > r3 > r4

{X2, X1}

{X2, X4}

p[F(X2, X4)] = .55

X4 éliminé

p d’entrée = .05

{X2, X3} {X2, X1}

p[F(X2)] = .001

p[F(X2, X1)] = .002p[F(X2, X3)] = .04

...

{X2, X3}

Page 26: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

26

Stratégie III: Stratégie III: Élimination rétrogradeÉlimination rétrograde

• Commencer avec toutes les variables

• retirer du modèle les variables qui ne réduise pas significativement R2. Les variables sont retirées une à la fois en commençant avec celle dont le coefficient de régression partielle est le plus bas

• Toutefois, une fois qu’une variable est retirée du modèle, elle reste exclue, et ce même si elle explique une portion significative de la variabilité une fois que d’autres variables sont enlevées

{X1, X2, X3}

{X3}

r2 < r1 < r3

{X1, X3} RR13

R3R13

R13R123

{X3}

{X1, X2, X3}

Modèle final

RR123

R13R123

R3R13

{X1, X3}

Page 27: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

27

Élimination rétrograde: Élimination rétrograde: ordre d’entréeordre d’entrée

• Commencer avec la variable dont le coefficient de corrélation partielle est le plus faible.

• Continuer avec la variable qui provoque la plus petite réduction du R2 (test de F pour déterminer la signification de l’augmentation, F seuil)

{X1, X2, X3, X4}

{X2, X1, X3}

r2 > r1 > r3 > r4

{X2, X1}

p[F(X2, X1)] = .25

p de sortie = .10

p[F(X2, X3)] = .001

...

p[F(X2, X1, X3)] = .44

X4 enlevé

X3 enlevé X1 , X2 restent

X2, X3, X1 restent

{X1, X3}{X2, X3}

p[F(X1, X3)] = .009

Page 28: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

28

Stratégie IV: régression Stratégie IV: régression pas à paspas à pas

• Une fois qu’une variable est incluse (ou enlevée), on regarde dans les variables qui restent pour trouver d’autres variables qui devraient être enlevées (incluses). On regarde aussi les variables qui sont déjà dans le modèle

• afin d’éviter d’entrer dans une boucle, on doit spécifier les niveaux des p d’entrée > p de sortie

{X1, X2, X3, X4}

{X2}

r2 > r1 > r4 > r3

{X1, X2, X3}

{X2, X4}

p[F(X2, X4)] = .03

p d’entrée = .10p de sortie = .05

{X2, X3} {X2, X1}

p[F(X2)] = .001

p[F(X2, X1)] = .002p[F(X2, X3)] = .09

{X1, X2, X4}

p[F(X1, X2, X4)] = .02 p[F(X1, X2, X3)] = .19{X1, X4}

Page 29: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

29

ExempleExemple

• Le log de la richesse en espèces des herptiles (logherp) est une fonction du log de l’aire du marais (logarea), du pourcentage de terre boisée dans un rayon de 1 km (cpfor2) et de la densité de routes pavées dans un rayon de 1 km (thtdens)

Page 30: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

30

Exemple (toutes les variables)Exemple (toutes les variables)

DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.740SQUARED MULTIPLE R: 0.547ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.162

VARIABLE COEFF. SE STD COEF. TOL. T P

CONSTANT 0.285 0.191 0.000 . 1.488 0.150 LOGAREA 0.228 0.058 0.551 0.978 3.964 0.001 CPFOR2 0.001 0.001 0.123 0.744 0.774 0.447 THTDEN -0.036 0.016 -0.365 0.732 -2.276 0.032

Page 31: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

31

Exemple (suite)Exemple (suite)

ANALYSIS OF VARIANCE

SOURCE SS DF MS F-RATIO P

REGRESSION 0.760 3 0.253 9.662 0.000 RESIDUAL 0.629 24 0.026

Page 32: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

32

Exemple: sélection progressiveExemple: sélection progressive

DEPENDENT VARIABLE LOGHERP MINIMUM TOLERANCE FOR ENTRY INTO MODEL = .010000 FORWARD STEPWISE WITH ALPHA-TO-ENTER= .050 AND ALPHA-TO-REMOVE= .100

STEP # 0 R= .000 RSQUARE= .000

VARIABLE COEFF. SE. STD COEF. TOL. F 'P' IN --- 1 CONSTANT OUT PART. CORR --- 2 LOGAREA 0.596 . . .1E+01 14.321 0.001 3 CPFOR2 0.305 . . .1E+01 2.662 0.115 4 THTDEN -0.496 . . .1E+01 8.502 0.007

Page 33: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

33

Sélection progressive (suite)Sélection progressive (suite)

STEP # 1 R= .596 RSQUARE= .355TERM ENTERED: LOGAREA

VARIABLE COEFF. SE. STD COEF. TOL. F 'P'

IN --- 1 CONSTANT 2 LOGAREA 0.247 0.065 0.596 .1E+01 14.321 0.001

OUT PART. CORR --- 3 CPFOR2 0.382 . . 0.99 4.273 0.049 4 THTDEN -0.529 . . 0.98 9.725 0.005

Page 34: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

34

Sélection progressive (suite)Sélection progressive (suite)

STEP # 2 R= .732 RSQUARE= .536 TERM ENTERED: THTDEN

VARIABLE COEFF. SE. STD COEF .TOL. F 'P'

IN --- 1 CONSTANT 2 LOGAREA 0.225 0.057 0.542 0.98 15.581 0.001 4 THTDEN -0.042 0.013 -0.428 0.98 9.725 0.005

OUT PART. CORR --- 3 CPFOR2 0.156 . . 0.74380 0.599 0.447

Page 35: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

35

Sélection progressive: modèle finalSélection progressive: modèle final

FORWARD STEPWISE: P TO INCLUDE = .15 DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.732SQUARED MULTIPLE R: 0.536ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.161

VARIABLE COEFF. SE STD COEF. TOL. T P

CONSTANT 0.376 0.149 0.000 . 2.521 0.018 LOGAREA 0.225 0.057 0.542 0.984 3.947 0.001 THTDEN -0.042 0.013 -0.428 0.984 -3.118 0.005

Page 36: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

36

Exemple: élimination rétrograde Exemple: élimination rétrograde (modèle final)(modèle final)

BACKWARD STEPWISE: P TO REMOVE = .15 DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.732SQUARED MULTIPLE R: 0.536ADJUSTED SQUARED MULTIPLE R: .499STANDARD ERROR OF ESTIMATE: 0.161

VARIABLE COEFF. SE STD COEF. TOL. T P

CONSTANT 0.376 0.149 0.000 . 2.521 0.018 LOGAREA 0.225 0.057 0.542 0.984 3.947 0.001 THTDEN -0.042 0.013 -0.428 0.984 -3.118 0.005

Page 37: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

37

Exemple: subset modelExemple: subset model

DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.670SQUARED MULTIPLE R: 0.449ADJUSTED SQUARED MULTIPLE R: .405STANDARD ERROR OF ESTIMATE: 0.175

VARIABLE COEFF. SE STD COEF. TOL. T P

CONSTANT 0.027 0.167 0.000 . 0.162 0.872 LOGAREA 0.248 0.062 0.597 1.000 4.022 0.000 CPFOR2 0.003 0.001 0.307 1.000 2.067 0.049

Page 38: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

38

Que faire si la relation entre Y et le ou Que faire si la relation entre Y et le ou les X(s) n’est pas linéaire?les X(s) n’est pas linéaire?

• option 1: transformer les données• option 2: utiliser une régression non-linéaire• option 3: utiliser une régression polynomiale

Page 39: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

39

• Une régression polynomiale inclus des termes de degrés croissants de la variable indépendante

Le modèle de la régression polynomialeLe modèle de la régression polynomiale

Y Xi jj

k

ij

i

1

10

100

1000

10 30 50 70 90 110

Vitesse du courant (cm/s)

Bio

mas

se d

es m

ou

ches

n

oir

es

(m

gD

M/m

²)

Modèle linéaireModèle polynomial de second ordre

Page 40: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

40

• Ajuster une régression linéaire simple

• Ajuster un modèle quadratique, vérifier s’il y a augmentation de la SSmodèle

• continuer en ajoutant des termes de degrés supérieur (X3, X4, etc..) jusqu’à ce que SSmodèle n’augmente plus de manière significative.

• Inclure les termes jusqu’à la puissance (nombre de points d’inflexion plus 1)

Le modèle de la régression polynomiale: Le modèle de la régression polynomiale: marche à suivremarche à suivre

10

100

1000

10 30 50 70 90 110

Vitesse du courant (cm/s)

Bio

mas

se d

es m

ou

ches

n

oir

es

(m

gD

M/m

²)

Modèle linéaireModèle polynomial de second ordre

Page 41: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

41

Régression polynomiale: mise en Régression polynomiale: mise en gardegarde

• La signification biologique des termes élevés à une certaine puissance est généralement inconnue

• par définition, les termes polynomiaux sont fortement corrélés: les erreurs types sont grandes (la précision est faible) et augmentent avec l’ordre du terme

• Les extrapolations de modèles polynomiaux sont toujours un non sens

X1

Y

Y = X1- X12

Page 42: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

42

Analyse de Analyse de puissance pour puissance pour GLMGLM

• Dans tous les GLM, les hypothèses sont éprouvées au moyen d’un test de F.

• Ne pas oublier: les SCerreur et dlerreur appropriés dépendent du type d’analyse et des hypothèses que l’on veut tester

• En connaissant F, on peut calculer R2, la proportion de la variance totale de Y expliquée par le facteur (source) considéré

F

FR

dl

dl

SC

SC

dlSC

dlSC

CM

CMF

facteur

erreur

erreur

facteur

erreurerreur

facteurfacteur

erreur

facteur

1

/

/

2

Page 43: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

43

RR2 2 partiel et totalpartiel et total

• R2 total (R2Y•B) est la

proportion de la variance de Y expliquée par le groupe de variables indépendantes B.

• Le R2 partiel (R2Y•A,B- R2

Y•A ) est la proportion de la variance de Y expliquée par B quand la proportion de la variance expliquée par un autre groupe A est enlevée.

Proportion de la varianceexpliquée par A et B (R2

Y•A,B)

Proportion dela variance

expliquée parA

(R2Y•A)(R2 total)

Proportion de lavariance expliquée

par Bindépendamment

de A(R2

Y•A,B- R2Y•A )

(R2 partiel)

Page 44: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

44

RR2 2 partiel et totalpartiel et total

• R2 total (R2Y•B) pour un

groupe B est égal au R2 partiel (R2

Y•A,B- R2Y•A ) si (1)

R2 total pour A (R2Y•A)=0;

ou (2) si A et B sont indépendants (dans ce cas,

R2Y•A,B= R2

Y•A + R2Y•B)

Proportion dela varianceexpliquée

par B(R2

Y•B)(R2 total)

Proportion dela variance

indépendante de A(R2

Y•A,B- R2Y•A )

(R2 partiel)

A

Y

B

A

Égal si

Page 45: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

45

RR2 2 partiel et totalpartiel et total dans une régression multiple dans une régression multiple

• Si nous avons trois variables indépendantes X1 ,X2 and X3

32321

32

1

321

,2

,,22

,2

,22

22

,,2

,2

321 ,,

XXYXXXYAYBAY

XXYBY

XYAY

XXXYBAY

RRRR

RR

RR

RR

XXBXA

Log [P]

Lo

g P

rod

uct

ion

Log [Zoo]

Page 46: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

46

Définition de la grandeur de l’effet pour Définition de la grandeur de l’effet pour une régression multipleune régression multiple

• La grandeur de l’effet f2 est égal au rapport entre R2

facteur du facteur (source) et 1- R2

erreur.

• À noter: les deux R2facteur

et R2erreur dépendent de

l’hypothèse nulle que l’on veut tester.

2

22

1 erreur

facteur

R

Rf

Page 47: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

47

• Cas 1: un groupe de variables B {X1, X2, …} est relié à Y, le R2 total (R2

Y•B) est connu

• La proportion de la variance associée à l’erreur est 1- R2

Y•B

• H0: R2Y•B = 0

• Exemple: l’effet de l’aire des terres humides, du couvert forestier, de la densité des routes sur la richesse spécifique des reptiles et amphibiens du sud-est de l’Ontario.

• B ={LOGAREA, CPFOR2,THTDEN }

Définition de la Définition de la grandeur de grandeur de l’effet: cas 1l’effet: cas 1

2

22

1 erreur

facteur

R

Rf

Page 48: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

48

DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.740SQUARED MULTIPLE R: 0.547ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.162

VARIABLE COEFF. SE STD COEF. TOL. T P

CONSTANT 0.285 0.191 0.000 . 1.488 0.150 LOGAREA 0.228 0.058 0.551 0.978 3.964 0.001 CPFOR2 0.001 0.001 0.123 0.744 0.774 0.447 THTDEN -0.036 0.016 -0.365 0.732 -2.276 0.032

21.1547.1

547.

1 2

22

erreur

facteur

R

Rf

Page 49: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

49

Définition de la grandeur de l’effet: cas Définition de la grandeur de l’effet: cas 22

• Cas 2: la proportion de la variance de Y expliquée par B qui est plus grande que celle expliquée par A est donnée par (R2

Y•A,B- R2Y•A )

• La proportion de la variance associée à l’erreur est de 1- R2

Y•A,B

• H0: R2Y•A,B- R2

Y•A = 0

• Exemple: la richesse en espèces des herptile du sud-est de l’Ontario.

• B ={THTDEN}, A = {LOGAREA, CPFOR2},AB = {LOGAREA, CPFOR2, THTDEN}

2

22

1 erreur

facteur

R

Rf

Page 50: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

50

DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.670SQUARED MULTIPLE R: 0.449ADJUSTED SQUARED MULTIPLE R: .405STANDARD ERROR OF ESTIMATE: 0.175

VARIABLE COEFF. SE STD COEF. TOL. T P

CONSTANT 0.027 0.167 0.000 . 0.162 0.872 LOGAREA 0.248 0.062 0.597 1.000 4.022 0.000 CPFOR2 0.003 0.001 0.307 1.000 2.067 0.049

DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.740SQUARED MULTIPLE R: 0.547ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.162

VARIABLE COEFF. SE STD COEF. TOL. T P

CONSTANT 0.285 0.191 0.000 . 1.488 0.150 LOGAREA 0.228 0.058 0.551 0.978 3.964 0.001 CPFOR2 0.001 0.001 0.123 0.744 0.774 0.447 THTDEN -0.036 0.016 -0.365 0.732 -2.276 0.032

Page 51: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

51

Définition de la grandeur de l’effet: cas Définition de la grandeur de l’effet: cas 22

• La proportion de la variance de LOGHERP expliquée par THTDEN (B) plus grande que la proportion expliquée par LOGAREA and CPFOR2 (A) est R2

Y•A,B- R2Y•A =.098

• la proportion de la variance expliquée par l’erreur est égale à 1- R2

Y•A,B= 1 - .547

• Donc, la taille de l’effet pour la variable THTDEN est 0.216.

216.547.1

.449.547.

1 2},2,{

2}2,{

2},2,{

2

THTDENCPFORLOGAREA

CPFORLOGAREA

THTDENCPFORLOGAREA

R

R

R

f

Page 52: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

52

Determination de la Determination de la puissancepuissance

• Une fois que f2 est déterminé, (a priori comme une hypothèse alternative ou a posteriori qui est la taille de l’effet observée), on peut calculer le paramètre F non-central

• Si on connaît et les degrés de liberté associés au facteur (source) (1) et à l’erreur (2), on peut déterminer la puissance à partir de tables pour un donné.

= .05)

= .01)

2 décroissant

1-

1 = 2

= .05

2 3 4 5

= .01

1 1.5 2 2.5

)1( 212 f

Page 53: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

53

Exemple: la richesse en espèces des Exemple: la richesse en espèces des amphibiens du sud-est de l’Ontarioamphibiens du sud-est de l’Ontario

• Échantillon de 28 terres humides• 3 variables (LOGAREA, CPFOR2,

THTDEN)

• Variable dépendante est le log10 du nombre d’espèces d’amphibiens et reptiles

• Quelle est la probabilité de détecter un effet de CPFOR2 de grandeur égale à la grandeur de l’effet estimée une fois que les effets de LOGAREA et THTDEN ont été contrôlés, pour = .05?

Variable t p

LOGAREA(1)

3.96 0.001

THTDEN (2) -2.28 .032

CPFOR2 (3) .774 .447

R2{1,2,3} 0.547

R2{1,2 } 0.536

Page 54: Université dOttawa - Bio 4518 - Biostatistiques appliquées © Antoine Morin et Scott Findlay 2014-06-05 09:08 1 Régression multiple Quand et pourquoi on

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40

54

Exemple: la richesse en espèces des Exemple: la richesse en espèces des herptiles du sud-est de l’Ontarioherptiles du sud-est de l’Ontario

• La grandeur de l’effet f2 de CPFOR2 une fois les effets de LOGAREA et THTDEN contrôlés = .024

• Source (CPFOR2) dl = 1 = 1

• Le nombre de degrés de liberté de l’erreur

dl = 2 = 28 - 1 - 1 - 1 = 25 ), , ,pour tables,despartir à?(1

648.)1251(024.

)1(

024.547.1

.536.547.

1

21

212

2}3,2,1{

2}2,1{

2}3,2,1{2

f

R

RRf