Upload
briefbras-chemin
View
105
Download
0
Embed Size (px)
Citation preview
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
1
Régression multipleRégression multiple
Quand et pourquoi on les utilise
Modèle général de la régression multiple
Épreuves d’hypothèses
Le problème de la multicollinéarité
Marche à suivre
Régression polynomiale
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
2
Modèles linéaires (GLM)Modèles linéaires (GLM)
ProcédureVariabledépendante
Variable(s)indépendante(s)
Régressionsimple
1 continue 1 continue
ANOVA à uncritère
1 continue 1 discontinue*
ANOVA àcritèresmultiples
1 continue 2 ou plus discontinue*
ANCOVA 1 continueAu moins 1 discontinue*,au moins 1 continue
Régressionmultiple
1 continue 2 ou plus continues
*peuvent être discontinues ou traitées comme étant discontinues
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
3
Quand utiliser la Quand utiliser la régression multiple?régression multiple?
• Afin d ’estimer la relation entre une variable dépendante (Y) et plusieurs variables indépendantes (X1, X2, …)
• ex: la relation entre la production primaire, la concentration de phosphore et l’abondance du zooplancton
Log [P]
Lo
g P
rod
uct
ion
Log [P]
Lo
g P
rod
uct
ion
Log [Zoo]
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
4
•Le modèle général:
qui définit un plan à k-dimensions, ou = ordonnée à l’origine, j = coefficient de régression partiel de Y sur Xj, Xij est la valeur de la ième observation de la variable dépendante Xj, et i est la valeur des résidus de la ième observation.
Le modèle général de la régression multipleLe modèle général de la régression multiple
Y Xi jj
k
ij i
1
X2
X1
Y
X2
X1
Y, X1, X2^
Y, X1, X2
Y X , X 1 2.
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
5
Qu’est-ce que le coefficient de régression Qu’est-ce que le coefficient de régression partiel?partiel?
• j est le taux de variation de Y pour une variation de Xj quand toutes les autres variables sont maintenues constantes; Ce n’est pas la pente de la régression de Y sur Xj, regroupées pour toutes les autres variables!
-4 -2 0 2 4-8
-4
0
4
8
X1
Y
X2 = 3
X2 = 1
X2 = -1
X2 = -3
Régressionpartielle
Régression simple
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
6
L’effet de l’échelleL’effet de l’échelle
• Deux variables indépendantes sur différentes échelles ont une pente différente, même si la variation proportionnelle de Y est la même
• Alors, si on veut comparer l’effet relatif de chaque variable sur Y, on doit éliminer les effets de différentes échelles.
Y j = 2
4
2
01 2
Xj
Y j = .02
4
2
0100 200
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
7
• Comme j dépend de la taille de Xj, pour déterminer l’effet relatif de chaque variable indépendante, on doit normaliser les coefficients de la régression: 1) en transformant toutes les variables et 2) en ajustant une régression sur les données transformées.
• Les coefficients normalisés j* donnent une estimation de l’effet relatif de Xj sur Y
Le modèle de la régression multiple: version Le modèle de la régression multiple: version normaliséenormalisée
YY Ys
XX X
s
Y X
s
s
ii
Yij
ij j
X
i jj
k
ij i
j jX
Y
j
j
* *
* * *
*
,
1
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
8
Coefficients de régression: résuméCoefficients de régression: résumé
• Les coefficients de régression partielle: égaux à la pente de la régression de Y sur Xj quand toutes les autres variables indépendantes sont maintenues constantes
• Les coefficients de régression normalisés: représentent le taux de changement Y ( en unités d’écart-type) par écart-type de Xj lorsque toutes les autres variables sont maintenues constantes.
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
9
Hypothèses implicitesHypothèses implicites
• Les résidus sont indépendants• Les résidus sont homoscédastiques• Linéarité des relations entre Y et tous les X• Pas d’erreur de mesure sur les variables
indépendantes• Les résidus sont distribués normalement
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
10
• Répartition de la somme des carrés totale en somme des carrés du modèle et des résidus:
Épreuves d’hypothèses I: répartition de la Épreuves d’hypothèses I: répartition de la somme des carrés totalesomme des carrés totale
X2
X1
Y
2
1Totale )( YYSC
N
ii
2
1modèle )ˆ( YYSC
N
ii
2
1erreur )ˆ( i
N
ii YYSC
SC Modèle
SC Totale
SC Résidus
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
11
Épreuves d’hypothèses I: répartition de la Épreuves d’hypothèses I: répartition de la somme des carrés totalesomme des carrés totale
• Alors, CMmodèle = s2Y et
Cmerreur = 0 si les valeurs observées = attendues pour tous les i
• calculer F = CMmodèle/CMerreur et comparer à la distribution de F avec 1 et N-2 dl.
• H0: F = 1
1
)ˆ( 2
1modèle
YYCM
N
ii
2
)ˆ( 2
1erreur
N
YYCM
i
N
ii
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
12
Épreuves d’hypothèses Épreuves d’hypothèses II: signification des II: signification des coefficients de coefficients de régression partiellerégression partielle
• Tester chaque hypothèse à l’aide d’un test de t:
• Note: c’est un test bilatéral!
ts
ts
j
j
j
,
YY
X1, X2 fixes
H01: = 0,rejetée
X2 = 1
X2 = 2
YY
H02: 2 = 0,acceptée
X2, X1 fixes
X1 = 2
X1 = 3
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
13
MulticolinéaritéMulticolinéarité
• Si les variables indépendantes sont corrélées, elles ne sont pas indépendantes. L’évaluation de la colinéarité se fait en regardant les matrices de covariance ou de corrélation
X1
indépendantes
X3
X2
colinéaires
X2
Variable X1 X2 X3
X1
2 12
13
X2
21
2 23
X3
31
32
2
Variance
Covariance
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
14
Multicolinéarité: problèmesMulticolinéarité: problèmes
• Si deux variables indépendantes X1 et X2 ne sont pas corrélées, la somme des carrés du modèle linéaire incluant les deux variables égale la somme des SCmodèle de chacune pris séparément
• Toutefois, si elles sont corrélées, la somme des carrées sera plus petite
• Alors, si on a un modèle incluant X1 , de combien augmente la SSmodèle quand X2 est aussi inclus (ou vice versa)?
0 2,
modèlemodèle,
modèle
21
2121
XX
XXXX
si
SCSCSC
0 2,
modèlemodèle,
modèle
21
2121
XX
XXXX
si
SCSCSC
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
15
Multicolinéarité: conséquencesMulticolinéarité: conséquences
Inflation de l’erreur type des coefficients de régression
une grande sensibilité des coefficients estimés et des erreurs types à de petits changements dans les données
cependant, les estimés des coefficients de régression partielle ne sont pas biaisés
une ou plusieurs variables peuvent ne pas apparaître dans le modèle final de la régression parce qu’elle covarie avec une autre variable indépendante
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
16
Détection de la multicolinéaritéDétection de la multicolinéarité
• R2 élevé mais peu de variables significatives• Fortes corrélations entre les X• Fortes corrélations partielles entre les variables
indépendantes (si l’une des variables indépendantes est une fonction linéaire de plusieurs autres)
• Valeurs propres, indice de condition, et facteur d’inflation de la variance.
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
17
Quantifier les effets Quantifier les effets de la multicolinéaritéde la multicolinéarité
• Vecteurs propres: une série de “lignes” 1, 2,…, k dans un espace à k-dimensions. Ces vecteurs sont orthogonaux les uns par rapport aux autres
• Valeurs propres: la longueur des vecteurs correspondants
X2
X1
X2X
1
1
1
2
2
1
2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
18
Quantifier les effets Quantifier les effets de la multicolinéaritéde la multicolinéarité
• Les valeurs propres: si toutes les valeurs propres sont environ égales, il y a peu de multicolinéarité
• Indice de condition: racine carrée(l /s); si près de 1, il y a peu de multicolinéarité
• Facteur d’inflation de la variance: 1 - proportion de la variance des variables indépendantes expliquée par toutes les autres. Si près de 1, indique une faible colinéarité.
X2
X1
X2X
1
Faible corrélation 1 = 2
Forte corrélation 1 >> 2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
19
SolutionsSolutions
• Récolter plus de données afin de réduire les corrélations
• Éliminer certaines variables indépendantes• Régression sur les composantes principales
ou “ridge regression”, qui mène à des estimés des coefficients biaisés mais avec des erreurs types plus petites
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
20
Régression multiple: principes de baseRégression multiple: principes de base
• Évaluer la signification d’une variable en ajustant deux modèles: un incluant le terme, et l’autre où il est enlevé.
• Tester pour les changements dans l’ajustement au modèle () associés avec l’exclusion du terme en question
• Malheureusement, peut dépendre de d’autres variables s’il y a multicolinéarité!
Modèle A(X1 inclus)
Modèle B(X2 exclus)
G ou F(ex: R2)
Enlever X1
(petit )
Garder X1
(grand )
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
21
Ajustement de modèles de régression Ajustement de modèles de régression multiplemultiple
• But: trouver le “meilleur” modèle, avec les données disponiles
• Problème1: définition de “meilleur”?– R2 le plus élevé?– La variance résiduelle la plus petite?– R2 le plus élevé mais qui ne contient que des
termes significatifs?– Qui maximise R2 avec un minimum de variables
indépendantes?
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
22
Sélection des variables indépendantes Sélection des variables indépendantes (suite)(suite)
• Problème 2: même avec une définition du meilleur modèle, quelle méthode doit-on utiliser pour le trouver?
• Possibilités:– calculer tous les modèles possibles (2k -1) et
choisir le meilleur– recourir à une procédure qui réduira le nombre
de modèles à ajuster
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
23
Stratégie I: calculer tous les modèles Stratégie I: calculer tous les modèles possiblespossibles
• calculer tous les modèles possibles et choisir le meilleur
• désavantages: – coûte cher en temps– le problème de la
définition du meilleur modèle reste entier
• avantages:– si on a une définition du
meilleur modèle, on le trouvera!
{X1, X2, X3}
{X2}
{X1}
{X3}
{X1, X2}
{X2, X3}
{X1, X3}
{X1, X2, X3}
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
24
Stratégie II: sélection Stratégie II: sélection progressiveprogressive
• Commencer avec la variable dont le coefficient de corrélation partielle r est le plus élevé
• ajouter les autres une à une jusqu’à ce qu’il n’y ait plus de j significativement différents de 0.
• problème: si Xj est inclus, il restera dans le modèle même si sa contribution à SCmodèle est minime. une fois les autres variables incluses.
{X1, X2, X3}
{X2}
r2 > r1 > r3
{X1, X2, X3}
{X1, X2}
RR2
RR21
R21R2
R21R2
{X2}
{X1, X2, X3}
Modèlefinal
R123R21
{X1, X2}
R123R21
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
25
Sélection progressive: Sélection progressive: ordre d’entréeordre d’entrée
• Commencer avec la variable dont le coefficient de corrélation partielle est le plus élevé
• ensuite, ajouter la variable qui provoque la plus grande augmentation du R2 (test de F de la signification de l’augmentation). On doit aussi spécifier un F seuil pour l’entrée des variables dans le modèle
{X1, X2, X3, X4}
{X2}
r2 > r1 > r3 > r4
{X2, X1}
{X2, X4}
p[F(X2, X4)] = .55
X4 éliminé
p d’entrée = .05
{X2, X3} {X2, X1}
p[F(X2)] = .001
p[F(X2, X1)] = .002p[F(X2, X3)] = .04
...
{X2, X3}
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
26
Stratégie III: Stratégie III: Élimination rétrogradeÉlimination rétrograde
• Commencer avec toutes les variables
• retirer du modèle les variables qui ne réduise pas significativement R2. Les variables sont retirées une à la fois en commençant avec celle dont le coefficient de régression partielle est le plus bas
• Toutefois, une fois qu’une variable est retirée du modèle, elle reste exclue, et ce même si elle explique une portion significative de la variabilité une fois que d’autres variables sont enlevées
{X1, X2, X3}
{X3}
r2 < r1 < r3
{X1, X3} RR13
R3R13
R13R123
{X3}
{X1, X2, X3}
Modèle final
RR123
R13R123
R3R13
{X1, X3}
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
27
Élimination rétrograde: Élimination rétrograde: ordre d’entréeordre d’entrée
• Commencer avec la variable dont le coefficient de corrélation partielle est le plus faible.
• Continuer avec la variable qui provoque la plus petite réduction du R2 (test de F pour déterminer la signification de l’augmentation, F seuil)
{X1, X2, X3, X4}
{X2, X1, X3}
r2 > r1 > r3 > r4
{X2, X1}
p[F(X2, X1)] = .25
p de sortie = .10
p[F(X2, X3)] = .001
...
p[F(X2, X1, X3)] = .44
X4 enlevé
X3 enlevé X1 , X2 restent
X2, X3, X1 restent
{X1, X3}{X2, X3}
p[F(X1, X3)] = .009
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
28
Stratégie IV: régression Stratégie IV: régression pas à paspas à pas
• Une fois qu’une variable est incluse (ou enlevée), on regarde dans les variables qui restent pour trouver d’autres variables qui devraient être enlevées (incluses). On regarde aussi les variables qui sont déjà dans le modèle
• afin d’éviter d’entrer dans une boucle, on doit spécifier les niveaux des p d’entrée > p de sortie
{X1, X2, X3, X4}
{X2}
r2 > r1 > r4 > r3
{X1, X2, X3}
{X2, X4}
p[F(X2, X4)] = .03
p d’entrée = .10p de sortie = .05
{X2, X3} {X2, X1}
p[F(X2)] = .001
p[F(X2, X1)] = .002p[F(X2, X3)] = .09
{X1, X2, X4}
p[F(X1, X2, X4)] = .02 p[F(X1, X2, X3)] = .19{X1, X4}
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
29
ExempleExemple
• Le log de la richesse en espèces des herptiles (logherp) est une fonction du log de l’aire du marais (logarea), du pourcentage de terre boisée dans un rayon de 1 km (cpfor2) et de la densité de routes pavées dans un rayon de 1 km (thtdens)
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
30
Exemple (toutes les variables)Exemple (toutes les variables)
DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.740SQUARED MULTIPLE R: 0.547ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.162
VARIABLE COEFF. SE STD COEF. TOL. T P
CONSTANT 0.285 0.191 0.000 . 1.488 0.150 LOGAREA 0.228 0.058 0.551 0.978 3.964 0.001 CPFOR2 0.001 0.001 0.123 0.744 0.774 0.447 THTDEN -0.036 0.016 -0.365 0.732 -2.276 0.032
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
31
Exemple (suite)Exemple (suite)
ANALYSIS OF VARIANCE
SOURCE SS DF MS F-RATIO P
REGRESSION 0.760 3 0.253 9.662 0.000 RESIDUAL 0.629 24 0.026
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
32
Exemple: sélection progressiveExemple: sélection progressive
DEPENDENT VARIABLE LOGHERP MINIMUM TOLERANCE FOR ENTRY INTO MODEL = .010000 FORWARD STEPWISE WITH ALPHA-TO-ENTER= .050 AND ALPHA-TO-REMOVE= .100
STEP # 0 R= .000 RSQUARE= .000
VARIABLE COEFF. SE. STD COEF. TOL. F 'P' IN --- 1 CONSTANT OUT PART. CORR --- 2 LOGAREA 0.596 . . .1E+01 14.321 0.001 3 CPFOR2 0.305 . . .1E+01 2.662 0.115 4 THTDEN -0.496 . . .1E+01 8.502 0.007
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
33
Sélection progressive (suite)Sélection progressive (suite)
STEP # 1 R= .596 RSQUARE= .355TERM ENTERED: LOGAREA
VARIABLE COEFF. SE. STD COEF. TOL. F 'P'
IN --- 1 CONSTANT 2 LOGAREA 0.247 0.065 0.596 .1E+01 14.321 0.001
OUT PART. CORR --- 3 CPFOR2 0.382 . . 0.99 4.273 0.049 4 THTDEN -0.529 . . 0.98 9.725 0.005
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
34
Sélection progressive (suite)Sélection progressive (suite)
STEP # 2 R= .732 RSQUARE= .536 TERM ENTERED: THTDEN
VARIABLE COEFF. SE. STD COEF .TOL. F 'P'
IN --- 1 CONSTANT 2 LOGAREA 0.225 0.057 0.542 0.98 15.581 0.001 4 THTDEN -0.042 0.013 -0.428 0.98 9.725 0.005
OUT PART. CORR --- 3 CPFOR2 0.156 . . 0.74380 0.599 0.447
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
35
Sélection progressive: modèle finalSélection progressive: modèle final
FORWARD STEPWISE: P TO INCLUDE = .15 DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.732SQUARED MULTIPLE R: 0.536ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.161
VARIABLE COEFF. SE STD COEF. TOL. T P
CONSTANT 0.376 0.149 0.000 . 2.521 0.018 LOGAREA 0.225 0.057 0.542 0.984 3.947 0.001 THTDEN -0.042 0.013 -0.428 0.984 -3.118 0.005
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
36
Exemple: élimination rétrograde Exemple: élimination rétrograde (modèle final)(modèle final)
BACKWARD STEPWISE: P TO REMOVE = .15 DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.732SQUARED MULTIPLE R: 0.536ADJUSTED SQUARED MULTIPLE R: .499STANDARD ERROR OF ESTIMATE: 0.161
VARIABLE COEFF. SE STD COEF. TOL. T P
CONSTANT 0.376 0.149 0.000 . 2.521 0.018 LOGAREA 0.225 0.057 0.542 0.984 3.947 0.001 THTDEN -0.042 0.013 -0.428 0.984 -3.118 0.005
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
37
Exemple: subset modelExemple: subset model
DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.670SQUARED MULTIPLE R: 0.449ADJUSTED SQUARED MULTIPLE R: .405STANDARD ERROR OF ESTIMATE: 0.175
VARIABLE COEFF. SE STD COEF. TOL. T P
CONSTANT 0.027 0.167 0.000 . 0.162 0.872 LOGAREA 0.248 0.062 0.597 1.000 4.022 0.000 CPFOR2 0.003 0.001 0.307 1.000 2.067 0.049
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
38
Que faire si la relation entre Y et le ou Que faire si la relation entre Y et le ou les X(s) n’est pas linéaire?les X(s) n’est pas linéaire?
• option 1: transformer les données• option 2: utiliser une régression non-linéaire• option 3: utiliser une régression polynomiale
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
39
• Une régression polynomiale inclus des termes de degrés croissants de la variable indépendante
Le modèle de la régression polynomialeLe modèle de la régression polynomiale
Y Xi jj
k
ij
i
1
10
100
1000
10 30 50 70 90 110
Vitesse du courant (cm/s)
Bio
mas
se d
es m
ou
ches
n
oir
es
(m
gD
M/m
²)
Modèle linéaireModèle polynomial de second ordre
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
40
• Ajuster une régression linéaire simple
• Ajuster un modèle quadratique, vérifier s’il y a augmentation de la SSmodèle
• continuer en ajoutant des termes de degrés supérieur (X3, X4, etc..) jusqu’à ce que SSmodèle n’augmente plus de manière significative.
• Inclure les termes jusqu’à la puissance (nombre de points d’inflexion plus 1)
Le modèle de la régression polynomiale: Le modèle de la régression polynomiale: marche à suivremarche à suivre
10
100
1000
10 30 50 70 90 110
Vitesse du courant (cm/s)
Bio
mas
se d
es m
ou
ches
n
oir
es
(m
gD
M/m
²)
Modèle linéaireModèle polynomial de second ordre
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
41
Régression polynomiale: mise en Régression polynomiale: mise en gardegarde
• La signification biologique des termes élevés à une certaine puissance est généralement inconnue
• par définition, les termes polynomiaux sont fortement corrélés: les erreurs types sont grandes (la précision est faible) et augmentent avec l’ordre du terme
• Les extrapolations de modèles polynomiaux sont toujours un non sens
X1
Y
Y = X1- X12
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
42
Analyse de Analyse de puissance pour puissance pour GLMGLM
• Dans tous les GLM, les hypothèses sont éprouvées au moyen d’un test de F.
• Ne pas oublier: les SCerreur et dlerreur appropriés dépendent du type d’analyse et des hypothèses que l’on veut tester
• En connaissant F, on peut calculer R2, la proportion de la variance totale de Y expliquée par le facteur (source) considéré
F
FR
dl
dl
SC
SC
dlSC
dlSC
CM
CMF
facteur
erreur
erreur
facteur
erreurerreur
facteurfacteur
erreur
facteur
1
/
/
2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
43
RR2 2 partiel et totalpartiel et total
• R2 total (R2Y•B) est la
proportion de la variance de Y expliquée par le groupe de variables indépendantes B.
• Le R2 partiel (R2Y•A,B- R2
Y•A ) est la proportion de la variance de Y expliquée par B quand la proportion de la variance expliquée par un autre groupe A est enlevée.
Proportion de la varianceexpliquée par A et B (R2
Y•A,B)
Proportion dela variance
expliquée parA
(R2Y•A)(R2 total)
Proportion de lavariance expliquée
par Bindépendamment
de A(R2
Y•A,B- R2Y•A )
(R2 partiel)
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
44
RR2 2 partiel et totalpartiel et total
• R2 total (R2Y•B) pour un
groupe B est égal au R2 partiel (R2
Y•A,B- R2Y•A ) si (1)
R2 total pour A (R2Y•A)=0;
ou (2) si A et B sont indépendants (dans ce cas,
R2Y•A,B= R2
Y•A + R2Y•B)
Proportion dela varianceexpliquée
par B(R2
Y•B)(R2 total)
Proportion dela variance
indépendante de A(R2
Y•A,B- R2Y•A )
(R2 partiel)
A
Y
B
A
Égal si
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
45
RR2 2 partiel et totalpartiel et total dans une régression multiple dans une régression multiple
• Si nous avons trois variables indépendantes X1 ,X2 and X3
32321
32
1
321
,2
,,22
,2
,22
22
,,2
,2
321 ,,
XXYXXXYAYBAY
XXYBY
XYAY
XXXYBAY
RRRR
RR
RR
RR
XXBXA
Log [P]
Lo
g P
rod
uct
ion
Log [Zoo]
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
46
Définition de la grandeur de l’effet pour Définition de la grandeur de l’effet pour une régression multipleune régression multiple
• La grandeur de l’effet f2 est égal au rapport entre R2
facteur du facteur (source) et 1- R2
erreur.
• À noter: les deux R2facteur
et R2erreur dépendent de
l’hypothèse nulle que l’on veut tester.
2
22
1 erreur
facteur
R
Rf
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
47
• Cas 1: un groupe de variables B {X1, X2, …} est relié à Y, le R2 total (R2
Y•B) est connu
• La proportion de la variance associée à l’erreur est 1- R2
Y•B
• H0: R2Y•B = 0
• Exemple: l’effet de l’aire des terres humides, du couvert forestier, de la densité des routes sur la richesse spécifique des reptiles et amphibiens du sud-est de l’Ontario.
• B ={LOGAREA, CPFOR2,THTDEN }
Définition de la Définition de la grandeur de grandeur de l’effet: cas 1l’effet: cas 1
2
22
1 erreur
facteur
R
Rf
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
48
DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.740SQUARED MULTIPLE R: 0.547ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.162
VARIABLE COEFF. SE STD COEF. TOL. T P
CONSTANT 0.285 0.191 0.000 . 1.488 0.150 LOGAREA 0.228 0.058 0.551 0.978 3.964 0.001 CPFOR2 0.001 0.001 0.123 0.744 0.774 0.447 THTDEN -0.036 0.016 -0.365 0.732 -2.276 0.032
21.1547.1
547.
1 2
22
erreur
facteur
R
Rf
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
49
Définition de la grandeur de l’effet: cas Définition de la grandeur de l’effet: cas 22
• Cas 2: la proportion de la variance de Y expliquée par B qui est plus grande que celle expliquée par A est donnée par (R2
Y•A,B- R2Y•A )
• La proportion de la variance associée à l’erreur est de 1- R2
Y•A,B
• H0: R2Y•A,B- R2
Y•A = 0
• Exemple: la richesse en espèces des herptile du sud-est de l’Ontario.
• B ={THTDEN}, A = {LOGAREA, CPFOR2},AB = {LOGAREA, CPFOR2, THTDEN}
2
22
1 erreur
facteur
R
Rf
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
50
DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.670SQUARED MULTIPLE R: 0.449ADJUSTED SQUARED MULTIPLE R: .405STANDARD ERROR OF ESTIMATE: 0.175
VARIABLE COEFF. SE STD COEF. TOL. T P
CONSTANT 0.027 0.167 0.000 . 0.162 0.872 LOGAREA 0.248 0.062 0.597 1.000 4.022 0.000 CPFOR2 0.003 0.001 0.307 1.000 2.067 0.049
DEP VAR: LOGHERP N: 28 MULTIPLE R: 0.740SQUARED MULTIPLE R: 0.547ADJUSTED SQUARED MULTIPLE R: .490STANDARD ERROR OF ESTIMATE: 0.162
VARIABLE COEFF. SE STD COEF. TOL. T P
CONSTANT 0.285 0.191 0.000 . 1.488 0.150 LOGAREA 0.228 0.058 0.551 0.978 3.964 0.001 CPFOR2 0.001 0.001 0.123 0.744 0.774 0.447 THTDEN -0.036 0.016 -0.365 0.732 -2.276 0.032
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
51
Définition de la grandeur de l’effet: cas Définition de la grandeur de l’effet: cas 22
• La proportion de la variance de LOGHERP expliquée par THTDEN (B) plus grande que la proportion expliquée par LOGAREA and CPFOR2 (A) est R2
Y•A,B- R2Y•A =.098
• la proportion de la variance expliquée par l’erreur est égale à 1- R2
Y•A,B= 1 - .547
• Donc, la taille de l’effet pour la variable THTDEN est 0.216.
216.547.1
.449.547.
1 2},2,{
2}2,{
2},2,{
2
THTDENCPFORLOGAREA
CPFORLOGAREA
THTDENCPFORLOGAREA
R
R
R
f
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
52
Determination de la Determination de la puissancepuissance
• Une fois que f2 est déterminé, (a priori comme une hypothèse alternative ou a posteriori qui est la taille de l’effet observée), on peut calculer le paramètre F non-central
• Si on connaît et les degrés de liberté associés au facteur (source) (1) et à l’erreur (2), on peut déterminer la puissance à partir de tables pour un donné.
= .05)
= .01)
2 décroissant
1-
1 = 2
= .05
2 3 4 5
= .01
1 1.5 2 2.5
)1( 212 f
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
53
Exemple: la richesse en espèces des Exemple: la richesse en espèces des amphibiens du sud-est de l’Ontarioamphibiens du sud-est de l’Ontario
• Échantillon de 28 terres humides• 3 variables (LOGAREA, CPFOR2,
THTDEN)
• Variable dépendante est le log10 du nombre d’espèces d’amphibiens et reptiles
• Quelle est la probabilité de détecter un effet de CPFOR2 de grandeur égale à la grandeur de l’effet estimée une fois que les effets de LOGAREA et THTDEN ont été contrôlés, pour = .05?
Variable t p
LOGAREA(1)
3.96 0.001
THTDEN (2) -2.28 .032
CPFOR2 (3) .774 .447
R2{1,2,3} 0.547
R2{1,2 } 0.536
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:40
54
Exemple: la richesse en espèces des Exemple: la richesse en espèces des herptiles du sud-est de l’Ontarioherptiles du sud-est de l’Ontario
• La grandeur de l’effet f2 de CPFOR2 une fois les effets de LOGAREA et THTDEN contrôlés = .024
• Source (CPFOR2) dl = 1 = 1
• Le nombre de degrés de liberté de l’erreur
dl = 2 = 28 - 1 - 1 - 1 = 25 ), , ,pour tables,despartir à?(1
648.)1251(024.
)1(
024.547.1
.536.547.
1
21
212
2}3,2,1{
2}2,1{
2}3,2,1{2
f
R
RRf