161
2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 1 Principe de la Régression Linéaire

Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 1

Principe de laRégression Linéaire

Page 2: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 2

Plan

1. Question pratique

2. Définition de la régression

3. Estimation de la droite de régression

4. Test de la pente

5. Précision de la droite de régression

6. Adéquation du modèle

7. Régression Multiple

Page 3: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 3

I. Question pratique

Lien entre la taille et l'âge ?

Quand l'âge , la taille ?

Connaissant l'âge, peut-on prédire la taille?

But médical: détecter les retards de

croissances

1. Question

Page 4: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 4

Exercice

Exemple: étude du lien entre la taille et l’âge des filles

(en mois), Echantillon de 637 filles

Importer le fichier de données FILLES.xls

Moyenne globale de l’AGE

m= ? mois

Variance globale de l’AGE

s²= ? mois2

Graphiques

ATF<-read.csv2("D:\\BIOSTAT\\FILLES.csv", header=TRUE)

transformer le fichier filles.xls en FILLES.csv

attach(ATF)mean(AGE)

var(AGE)

hist(AGE, col="blue")

boxplot(AGE, col="blue")

par(mfrow=c(1,2))

Page 5: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 5

Exemple: étude du lien entre la taille et l’âge des filles

(en mois), Echantillon de 637 filles

Importer le fichier de données filles.xls

Moyenne globale de l’AGE

m= 112,12 mois

Variance globale de l’AGE

s²= 6265,86 mois2

Graphiques

ATF<-read.csv2("D:\\BIOSTAT\\filles.csv", header=TRUE)

transformer le fichier filles.xls en filles.csv

attach(ATF)mean(AGE)

Exercice

var(AGE)

hist(AGE, col="blue")

boxplot(AGE, col="blue")

par(mfrow=c(1,2))

Page 6: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 6

ExerciceHistogram of AGE

AGE

Freq

uenc

y

0 50 100 200

020

4060

8010

0

050

100

150

200

250

Page 7: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 7

Exemple: étude du lien entre la taille et l’âge des filles

(en mois), Echantillon de 637 filles

Moyenne globale de la Taille (TAIL)

m= ? cm

Variance globale de la Taille (TAIL)

s²= ? cm2

Graphiques

mean(TAIL)

var(TAIL)

hist(TAIL, col="red")

boxplot(TAIL, col="red")

Exercice

par(mfrow=c(1,2))

Page 8: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 8

Exemple: étude du lien entre la taille et l’âge des filles

(en mois), Echantillon de 637 filles

Moyenne globale de la Taille (TAIL)

m= 122,83 cm

Variance globale de la Taille (TAIL)

s²= 1317,43 cm2

Graphiques

mean(TAIL)

var(TAIL)

Exercice

hist(TAIL, col="red")

boxplot(TAIL, col="red")

par(mfrow=c(1,2))

Page 9: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 9

Exercice

Histogram of TAIL

TAIL

Freq

uenc

y

40 80 120 160

020

4060

8010

0

4060

8010

012

014

016

018

0

Page 10: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 10

représenter la taille en fonction de l’age

plot(AGE, TAIL)

Exercice

Page 11: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 11

Exercice

0 50 100 150 200 250

4060

8010

012

014

016

018

0

AGE

TAIL

Page 12: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 12

II. Définition

Régression de Y en X:

Y= taille (cm)

X= âge (mois)

Comment la Taille évolue en fonction de l'Age ?

Taille= f(Age)

1. Question

2. Définition

Page 13: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 13

Comment évolue la Taille?

= Quelle valeur de la Taille ?

=>Pour chaque Age

=> Sachant l'âgefilles

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

1. Question

2. Définition

Page 14: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 14

Comment évolue la Taille?

= Quelle valeur de la Taille ?

=>Pour chaque Age

=> Sachant l'âgefilles

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

18 mois

1. Question

2. Définition

Page 15: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 15

Comment évolue la Taille?

= Quelle valeur de la Taille ?

=>Pour chaque Age

=> Sachant l'âgefilles

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

?

18 mois

1. Question

2. Définition

Page 16: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 16

Chez les filles de 18 mois,

quelle est la taille moyenne?

Quells est la variance de la taille ?

Quelle est la distribution ?

Exercice

mean(TAIL[AGE==18])

hist(TAIL[AGE==18],col="magenta")

var(TAIL[AGE==18])

Page 17: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 17

18 mois: quelle Taille?

Moyenne observée:

M(T/A=18)=79,23 cm

Variance observée:

V(T/A=18)=9,36 cm2

Exercice

Page 18: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 18

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

)/( AgeTailleE

1. Question

2. DéfinitionDistribution conditionnelle

Page 19: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 19

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

)/( AgeTailleL

1. Question

2. DéfinitionDistribution conditionnelle

Page 20: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 20

Fonction de régression

Taille fonction de l'âge:

M(Taille/Age)= f(Age)

Fonction f(): droite

AgeAgeTailleE )/(

1. Question

2. Définition

Page 21: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 21

Fonction de régression

Taille fonction de l'âge:

M(Taille/Age)= f(Age)

Fonction f(): droite

Pour chaque sujet

AgeAgeTailleE )/(

1. Question

2. Définition

AgeTaille

Page 22: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 22

Fonction de régression

Taille fonction de l'âge:

E(Taille/Age)= f(Age)

Fonction f(): droite

Pour chaque sujet

AgeAgeTailleE )/(

1. Question

2. Définition

AgeTaille

Page 23: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 23

filles

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

1. Question

2. DéfinitionErreur individuelle

Page 24: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 24

filles

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

1. Question

2. DéfinitionErreur individuelle

Page 25: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 25

filles

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

erreur

1. Question

2. DéfinitionErreur individuelle

Page 26: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 26

Pourquoi Linéaire et pas un

Polynôme?

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

...3

3

2

21 XXXY

1. Question

2. Définition

Page 27: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 27

Régression linéaire:

modèle le plus simple:

Interprétation

Estimations des paramètres

Prédiction

1. Question

2. Définition

Page 28: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 28

III. Estimation

Droite de régression:

Résume le mieux le nuage de point

=> La plus proche de tous les points

=> Erreurs petits +++

1. Question

2. Définition

3. Estimation

Page 29: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 29

Estimer et tel que petits +++

i: écart entre la droite et le point i

iii xy

XXYE )/(

1. Question

2. Définition

3. Estimation

Principe de l'estimation

Page 30: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 30

Estimer et tel que petits +++

i: écart entre la droite et le point i

iii xy

XXYE )/(

)/( XYEyii

1. Question

2. Définition

3. Estimation

Principe de l'estimation

Page 31: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 31

filles

40

50

60

70

80

90

100

110

0 5 10 15 20 25 30 35

i

Erreur individuelle1. Question

2. Définition

3. Estimation

Page 32: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 32

Principe de l'estimation

Somme des Carrés des Ecarts

Estimer et tel que:

SCE minimum

n

ii )(SCE

1

2

1. Question

2. Définition

3. Estimation

Page 33: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 33

Estimation de le pente

1. Question

2. Définition

3. Estimation

bcov XY

var X

Page 34: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 34

Estimation de le pente

1. Question

2. Définition

3. Estimation

bcov XY

var X

Page 35: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 35

Estimation de le pente

1. Question

2. Définition

3. Estimation

bcov XY

var X

Page 36: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 36

Rappels Estimation de Variance de X:

Estimation de la covariance de XY

cov XYi 1

n

x i y i

1

n i 1

n

x ii 1

n

y i

n 1

S2

Xi 1

n

x i

2 1

n i 1

n

x i

2

n 1

1. Question

2. Définition

3. Estimation

Page 37: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 37

Covariance de la taille et de l’âge:

cov(TAIL,AGE)

Variance de l’âge

var(AGE)

Estimation de

b<-cov(TAIL,AGE)/var(AGE)

b

Exercice

Page 38: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 38

Covariance de la taille et de l’âge:

cov(TAIL,AGE) = 2742.587

Variance de l’âge

var(AGE)

Estimation de

b<-cov(TAIL,AGE)/var(AGE)

b =0.437703

Exercice

Page 39: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 39

Estimation de :

La droite passe par mY et mX

1. Question

2. Définition

3. Estimation

m Y a bm X

Page 40: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 40

Estimation de :

La droite passe par mY et mX

1. Question

2. Définition

3. Estimation

m Y a bm X

a m Y bm X

Page 41: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 41

Estimation de :

a<-mean(TAIL)-b*mean(AGE)

a =73.729

Exercice

Page 42: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 42

Estimation de :

a<-mean(TAIL)-b*mean(AGE)

a =73.729

l’équation s’écrit donc:

Exercice

Page 43: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 43

Estimation de :

a<-mean(TAIL)-b*mean(AGE)

a =73.729

l’équation s’écrit donc:

Taille=73.73 +0.44 Age +

ou

E(Taille/Age)=73.73 +0.44 Age

Exercice

Page 44: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 44

Interprétation Pente :

=0: pas de lien, évolutions indépendantes

filles

40

50

60

70

80

90

100

0 5 10 15 20 25 30 35

1. Question

2. Définition

3. Estimation

Page 45: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 45

Interprétation Pente :

=0: pas de lien, évolutions indépendantes

<0: évolutions en sens contraire

filles

40

50

60

70

80

90

100

0 5 10 15 20 25 30 35

1. Question

2. Définition

3. Estimation

Page 46: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 46

Interprétation Pente :

=0: pas de lien, évolutions indépendantes

<0: évolutions en sens contraire

>0: évolutions dans le même sens

filles

40

50

60

70

80

90

100

0 5 10 15 20 25 30 35

1. Question

2. Définition

3. Estimation

Page 47: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 47

Ordonnée à l'origine

filles

40

50

60

70

80

90

100

0 5 10 15 20 25 30 35

)0/( XYE

1. Question

2. Définition

3. Estimation

Page 48: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 48

IV. Test de la pente

Si =0 => pas de lien entre Y et X

Lien entre Y et X est-il significatif?

=> 0?

b estimation de

Hasard=> fluctuation de b observé

=> Test statistique

1. Question

2. Définition

3. Estimation

4. Test

Page 49: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 49

Hypothèses:

H0: =0, il n'y a pas de lien entre X et Y

H1: 0, il y a un lien entre X et Y

1. Question

2. Définition

3. Estimation

4. Test

Page 50: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 50

Sous H0

~> Student à n-2 ddl

Avec

20

bs

bt

2

2

2

2

2

n

bs

s

s X

Y

b

1. Question

2. Définition

3. Estimation

4. Test

Page 51: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 51

Modèle linéaire: utilisation du logiciel R

=> fonction lm linear model

mod1<-lm(TAIL~1+AGE)

mod1

Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian)

Coefficients:

(Intercept) AGE

73.7290 0.4377

Degrees of Freedom: 636 Total (i.e. Null); 635 Residual

Null Deviance: 837900

Residual Deviance: 74410 AIC: 4846

Exercice

Page 52: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 52

Modèle linéaire: utilisation du logiciel R

=> fonction lm linear model

mod1<-lm(TAIL~1+AGE)

mod1

Call: lm(formula = TAIL ~ 1 + AGE)

Coefficients:

(Intercept) AGE

73.7290 0.4377

Exercice

Page 53: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 53

Modèle linéaire: utilisation du logiciel R

=> fonction lm linear model

mod1<-lm(TAIL~1+AGE)

mod1

Call: lm(formula = TAIL ~ 1 + AGE)

Coefficients:

(Intercept) AGE

73.7290 0.4377

Exercice

Page 54: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 54

Modèle linéaire: utilisation du logiciel R

=> fonction lm linear model

mod1<-lm(TAIL~1+AGE)

mod1

Call: lm(formula = TAIL ~ 1 + AGE)

Coefficients:

(Intercept) AGE

73.7290 0.4377

Exercice

a b

Page 55: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 55

Call: glm(formula = TAIL ~ 1 + AGE, family = gaussian)

Deviance Residuals:

Min 1Q Median 3Q Max

-40.030 -6.899 2.999 8.120 24.999

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 73.729005 0.744041 99.09 <2e-16 ***

AGE 0.437703 0.005423 80.72 <2e-16 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for gaussian family taken to be 117.1764)

Null deviance: 837886 on 636 degrees of freedom

Residual deviance: 74407 on 635 degrees of freedom

AIC: 4846.2

Number of Fisher Scoring iterations: 2

summary(mod1)Exercice

Page 56: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 56

Call: lm(formula = TAIL ~ AGE)

Residuals:

Min 1Q Median 3Q Max

-40.030 -6.899 2.999 8.120 24.999

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 73.729005 0.744041 99.09 <2e-16 ***

AGE 0.437703 0.005423 80.72 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.82 on 635 degrees of freedom

Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111

F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16

summary(mod1)Exercice

Page 57: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 57

Call: lm(formula = TAIL ~ AGE)

Residuals:

Min 1Q Median 3Q Max

-40.030 -6.899 2.999 8.120 24.999

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 73.729005 0.744041 99.09 <2e-16 ***

AGE 0.437703 0.005423 80.72 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.82 on 635 degrees of freedom

Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111

F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16

summary(mod1)Exercice

a

b

Page 58: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 58

Call: lm(formula = TAIL ~ AGE)

Residuals:

Min 1Q Median 3Q Max

-40.030 -6.899 2.999 8.120 24.999

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 73.729005 0.744041 99.09 <2e-16 ***

AGE 0.437703 0.005423 80.72 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.82 on 635 degrees of freedom

Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111

F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16

summary(mod1)Exercice

test =0

Page 59: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 59

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

à X donné, Yi indépendants

La régression est linéaire

1. Question

2. Définition

3. Estimation

4. Test

Page 60: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 60

Linéarité

1. Question

2. Définition

3. Estimation

4. Test

Page 61: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 61

Linéarité

1. Question

2. Définition

3. Estimation

4. Test

Perte de Puissance

Page 62: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 62

Linéarité

1. Question

2. Définition

3. Estimation

4. Test

Page 63: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 63

Perte de Puissance

Linéarité

1. Question

2. Définition

3. Estimation

4. Test

Page 64: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 64

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

homoscédasticité

à X donné, Yi indépendants

La régression est linéaire

1. Question

2. Définition

3. Estimation

4. Test

Page 65: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 65

qqnorm

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

homoscédasticité

à X donné, Yi indépendants

La régression est linéaire

1. Question

2. Définition

3. Estimation

4. Test

Page 66: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 66

qqnorm

plot(résidus,age estimé)

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

homoscédasticité

à X donné, Yi indépendants

La régression est linéaire

1. Question

2. Définition

3. Estimation

4. Test

Page 67: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 67

qqnorm

plot(résidus,age estimé)

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

homoscédasticité

à X donné, Yi indépendants

La régression est linéaire

protocole

1. Question

2. Définition

3. Estimation

4. Test

Page 68: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 68

qqnorm

plot(taille estimée,résidus)

plot(taille,age)

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

homoscédasticité

à X donné, Yi indépendants

La régression est linéaire

protocole

1. Question

2. Définition

3. Estimation

4. Test

Page 69: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 69

L(Y/X)~>N

qqnorm(mod1$res)qqline(mod1$res)

Exercice

Page 70: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 70

plot(mod1$fitted,mod1$res)Exercice

Page 71: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 71

hétéroscédasticité

non-linéarité

1. Question

2. Définition

3. Estimation

4. Test

Page 72: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 72

filles

30

50

70

90

110

130

150

170

190

0 50 100 150 200 250

TAILLE(cm)

AGE(mois)

plot(AGE,TAIL)Exercice

Page 73: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 73

filles

30

50

70

90

110

130

150

170

190

0 50 100 150 200 250

TAILLE(cm)

AGE(mois)

plot(AGE,TAIL)Exercice

Page 74: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 74

Exercice

0 50 100 150 200 250

4060

8010

012

014

016

018

0

AGE

TAIL

Page 75: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 75

80 100 120 140 160 180

-40

-20

020

Fitted values

Resid

uals

Residuals vs Fitted

392

390295

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Theoretical Quantiles

Sta

ndard

ized r

esid

uals

Normal Q-Q

392

390295

80 100 120 140 160 180

0.0

0.5

1.0

1.5

2.0

Fitted values

Sta

ndard

ized r

esid

uals

Scale-Location392

390295

0.000 0.002 0.004 0.006

-4-3

-2-1

01

23

Leverage

Sta

ndard

ized r

esid

uals

Cook's distance

Residuals vs Leverage

392

343390

par(mfrow=c(2,2))plot(mod1)

Page 76: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 76

V. Précision

Hasard=> fluctuation de b

Intervalle de confiance de la pente

b~>tn-2

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

2

22 b,n

stb

Page 77: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 77

V. Précision

Hasard=> fluctuation de b

Intervalle de confiance de la pente

b~>tn-2

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

2

22 b,n

stb

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

à X donné, Yi indépendants

La régression est linéaire

Page 78: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 78

Intervalles de confiance des paramètres

confint(mod1)

Exercice

2.5 % 97.5 %

(Intercept) 72.2707108 75.1872989

AGE 0.4270751 0.4483309

Page 79: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 79

Intervalles de confiance des paramètres

confint(mod1)

Exercice

2.5 % 97.5 %

(Intercept) 72.2707108 75.1872989

AGE 0.4270751 0.4483309

Page 80: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 80

Intervalle de confiance de la droite

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

XXYE )/(

Estimé par bXam XY /

2

2,2 XYmnXY stm

Page 81: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 81

Intervalle de confiance de la droite

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

XXYE )/(

Estimé par bXam XY /

2

2,2 XYmnXY stm

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

à X donné, Yi indépendants

La régression est linéaire

Page 82: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 82

42

52

62

72

82

92

0 5 10 15 20 25 30 35

Taille=73.73+0.44xAge+

IC 95%

mX=15,5

mY=73,6

Page 83: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 83

Intervalle de prédiction

Pour un Age (X) fixé, prédiction de la Taille (Y)

Yp= a + b X

Taillep=73,73+0,44 Age

Précision:

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

2

2,2py

sty np

Page 84: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 84

42

52

62

72

82

92

102

0 5 10 15 20 25 30 35

IC 95%

IP 95%

Taille=73.73+0.44xAge+

Page 85: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 85

valeur de l’âge:

Prédiction/ estimation d’une taille

predict(mod1, newdata=new.x, se.fit=TRUE)

Exercice

new.x=data.frame(AGE=18.2)

$fit

[1] 81.6952

$se.fit

[1] 0.6658326

$residual.scale

[1] 10.82480

Page 86: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 86

valeur de l’âge:

Prédiction/ estimation d’une taille

predict(mod1, newdata=new.x, se.fit=TRUE)

Exercice

new.x=data.frame(AGE=18.2)

$fit

[1] 81.6952

$se.fit

[1] 0.6658326

$residual.scale

[1] 10.82480

Page 87: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 87

valeur de l’âge:

Prédiction/ estimation d’une taille

TX<-predict(mod1, newdata=new.x, se.fit=TRUE)

Exercice

new.x=data.frame(AGE=18.2)

$fit

[1] 81.6952

$se.fit

[1] 0.6658326

$residual.scale

[1] 10.82480

Page 88: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 88

Intervalle de confiance de la taille estimée:

Intervalle de prédiction de la taille prédite:

2

2,2py

sty np

Predint<-predict(mod1,newdata=new.x,interval="prediction")

Confint<-predict(mod1,newdata=new.x,interval="confidence")

Page 89: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 89

Exercice

Intervalle de confiance de la taille estimée:

Intervalle de prédiction de la taille prédite:

Confint$fit

Predint$fit

fit lwr upr

1 81.6952 80.3877 83.0027

fit lwr upr

1 81.6952 60.39828 102.9921

Page 90: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 90

VI. Adéquation

Le modèle est-il un bon résumé des

observations?

Pourcentage de variance expliquée:

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

Part de variance expliquée par la régression

Variance totale

R2=

Page 91: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 91

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

mY

mX

Page 92: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 92

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

mY

mX

Variance totale S2Y

Page 93: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 93

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

mY

Variance totale S2Y

mY/X

Page 94: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 94

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

mY

Variance totale S2Y

mY/XVariance expliquée

Page 95: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 95

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

mY

Variance totale S2Y

mY/XVariance expliquée

)my(ecart

)mm(ecartR

Y

YX/Y

2

Page 96: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 96

Pourcentage de variance expliquée:

Exemple: R2=88%

Remarque:

R: estimation du coefficient de corrélation entre X et Y

2

22

Yi

YX/Y

my

mmR i

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

Page 97: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 97

Estimation du coefficient de corrélation

entre X et Y

Estimation de R²

Exercice

r<-cor(TAIL,AGE)

var(mod1$fitted.value)/var(TAIL)

r*r

ou

0.9545663

0.9111967

Page 98: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 98

Estimation du coefficient de corrélation

entre X et Y

Estimation de R²

Exercice

r<-cor(TAIL,AGE)

var(mod1$fitted.value)/var(TAIL)

r*r

ou

0.9545663

0.9111967

Page 99: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 99

Call: lm(formula = TAIL ~ AGE)

Residuals:

Min 1Q Median 3Q Max

-40.030 -6.899 2.999 8.120 24.999

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 73.729005 0.744041 99.09 <2e-16 ***

AGE 0.437703 0.005423 80.72 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.82 on 635 degrees of freedom

Multiple R-squared: 0.9112, Adjusted R-squared: 0.9111

F-statistic: 6516 on 1 and 635 DF, p-value: < 2.2e-16

summary(mod1)

Page 100: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 100

VII. Régression multiple

Plusieurs causes dans l'évolution de

la taille:

Age (X1)

Facteur socio-économiques (X2)

Taux d'hormones de croissance (X3)

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

7. Multiple

332211321 ),,/( XXXXXXYE

Page 101: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 101

Estimation:

, 1, 2, 3 estimés en tenant

compte des 3 VA

=> Ajustement

Interactions

324332211321 ),,/( XXXXXXXXYE

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

7. Multiple

Page 102: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 102

Estimation:

, 1, 2, 3 estimés en tenant

compte des 3 VA

=> Ajustement

Interactions

324332211321 ),,/( XXXXXXXXYE

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

7. Multiple

Page 103: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 103

Tests des 1, 2, 3 à 0

Interprétation identique

Adéquation identique

Approche pas à pas

Choix des variables: notion de modèle

Variables très corrélées

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

7. Multiple

Page 104: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 104

Prédire l’âge en fonction de 8 mesures

Crâne (BIP)

Tronc (LATHO)

Membres supérieurs et inférieurs (LOMAIN,

PERPOIGN, PERCHEV, PIEDS)

Globales (STAT, POIDS)

Echantillon de 1000 enfants de 2 à 16 ans

Exercice

Page 105: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 105

En moyenne:

AGE= +1xBIP+2xLATHO+3xLOMAIN+

4xPERPOIGN+5xPERCHEV+6xPIEDS+

7xSTAT+8xPOIDS

Exercice

Page 106: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 106

En moyenne:

AGE= +1xBIP+2xLATHO+3xLOMAIN+

4xPERPOIGN+5xPERCHEV+6xPIEDS+

7xSTAT+8xPOIDS

Exercice

TP<-read.csv2("C:\\BIOSTAT\\AGE.csv", header=TRUE)

Page 107: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 107

En moyenne:

AGE= +1xBIP+2xLATHO+3xLOMAIN+

4xPERPOIGN+5xPERCHEV+6xPIEDS+

7xSTAT+8xPOIDS

Statistiques descriptives

Exercice

TP<-read.csv2("C:\\BIOSTAT\\AGE.csv", header=TRUE)

mean(AGE)

var(AGE)

hist(AGE)

attach(TP)

Page 108: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 108

En moyenne:

AGE= +1xBIP+2xLATHO+3xLOMAIN+

4xPERPOIGN+5xPERCHEV+6xPIEDS+

7xSTAT+8xPOIDS

Statistiques descriptives

Exercice

mean(AGE)

var(AGE)

attach(TP)

=10.373

=11.53541

TP<-read.csv2("C:\\BIOSTAT\\AGE.csv", header=TRUE)

Page 109: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 109

Graphique:

splom (DATA)

hist(AGE, col="blue")

DATA=data.frame(AGE,BIP, LOMAIN,LATHO,

PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)

Exercice

Page 110: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 110

Exercice

hist(AGE, col="blue")

Page 111: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 111

Graphique:

splom (DATA)

hist(AGE, col="blue")

DATA=data.frame(AGE,BIP, LOMAIN,LATHO,

PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)

Exercice

Page 112: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 112

Graphique:

splom (DATA)

Exercice

Erreur : impossible de trouver la fonction "splom"

hist(AGE, col="blue")

DATA=data.frame(AGE,BIP, LOMAIN,LATHO,

PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)

Page 113: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 113

Graphique:

splom (DATA)

Exercice

Erreur : impossible de trouver la fonction "splom"

package lattice

hist(AGE, col="blue")

DATA=data.frame(AGE,BIP, LOMAIN,LATHO,

PIEDS, POIDS, PERPOIGN, PERCHEV, STAT)

Page 114: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 114

Exercice

Page 115: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 115

Exercice

Page 116: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 116

Estimation:

reg1<-lm(AGE~1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

AGE= +1xBIP+2xLATHO+3xLOMAIN+4xPERPOIGN

+5xPERCHEV+6xPIEDS+7xSTAT+8xPOIDS

Exercice

Page 117: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 117

summary(reg1)Call: glm(formula = AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV +

PIEDS + STAT + POIDS, family = gaussian)

Deviance Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for gaussian family taken to be 1.175526)

Null deviance: 11523.9 on 999 degrees of freedom

Residual deviance: 1164.9 on 991 degrees of freedom

AIC: 3010.6

Number of Fisher Scoring iterations: 2

Exercice

Page 118: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 118

summary(reg1)Call:

lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16

Exercice

Page 119: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 119

summary(reg1)Exercice

régression

Page 120: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 120

summary(reg1)Exercice

Prédicteurs,

Variables explicatives

Page 121: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 121

summary(reg1)Exercice

estimations

des paramètres,

ajustées

Page 122: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 122

summary(reg1)Exercice

AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV

+0,001PIEDS+0,2STAT-0,02POIDS

estimations

des paramètres,

ajustées

Page 123: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 123

summary(reg1)Exercice

AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV

+0,001PIEDS+0,2STAT-0,02POIDS

signification

Page 124: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula = AGE ~ 1+BIP+LATHO+LOMAIN+PERPOIGN+PERCHEV+PIEDS+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12658 -0.72416 -0.04954 0.67239 4.36643

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.300e+01 8.684e-01 -14.966 < 2e-16 ***

BIP 3.312e-02 5.423e-02 0.611 0.54156

LATHO 1.219e-01 2.659e-02 4.583 5.17e-06 ***

LOMAIN 1.013e-01 5.947e-02 1.704 0.08877 .

PERPOIGN -1.370e-01 4.695e-02 -2.917 0.00361 **

PERCHEV -4.654e-02 2.597e-02 -1.792 0.07341 .

PIEDS 7.823e-04 2.612e-02 0.030 0.97611

STAT 1.546e-01 7.263e-03 21.289 < 2e-16 ***

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16 2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 124

summary(reg1)Exercice

AGE=-13+0,03BIP+0,1LATHO+0,01LOMAIN-0,14PERPOIGN-0,05PERCHEV

+0,001PIEDS+0,2STAT-0,02POIDS

signification

Page 125: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 125

Que faut-il regarder ensuite ?

conditions d’application

intervalles de confiance des paramètres

adéquation: R²

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

7. Multiple

Page 126: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 126

qqnorm

plot(age estimé, résidus)

plot(AGE,prédicteurs)

Conditions d'applications

L(Y/X)~>N

V(Y/X) constantes pour tout X

homoscédasticité

à X donné, Yi indépendants

La régression est linéaire

protocole

1. Question

2. Définition

3. Estimation

4. Test

5. Précision

6. Adéquation

7. Multiple

Page 127: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 127

qqnorm(reg1$res)qqline(reg1$res)

5 10 15

-4-2

02

4

Fitted values

Resid

uals

Residuals vs Fitted

892

994

993

-3 -2 -1 0 1 2 3

-20

24

Theoretical Quantiles

Sta

ndard

ized r

esid

uals

Normal Q-Q

892

994

993

5 10 15

0.0

0.5

1.0

1.5

2.0

Fitted values

Sta

ndard

ized r

esi

duals

Scale-Location892

994 993

0.00 0.02 0.04 0.06

-20

24

Leverage

Sta

ndard

ized r

esid

uals

Cook's distance

Residuals vs Leverage

993

994

418

Exercice

par(mfrow=c(2,2)plot(reg1)

Page 128: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 128

confint(reg1)

2.5 % 97.5 %

(Intercept) -14.63496676 -11.151092838

BIP -0.07064460 0.146350137

LATHO 0.07003811 0.178218882

LOMAIN -0.03754588 0.206770294

PERPOIGN -0.23572192 -0.046974279

PERCHEV -0.09335361 0.010661467

PIEDS -0.06133569 0.044411154

STAT 0.14244571 0.171636649

POIDS -0.03516689 -0.006578439

Exercice

Intervalles de confiance des paramètres

Page 129: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 129

2.5 % 97.5 %

(Intercept) -14.70058351 -11.292408725

BIP -0.07330209 0.139535454

LATHO 0.06968244 0.174040764

LOMAIN -0.01538828 0.218001320

PERPOIGN -0.22908876 -0.044831392

PERCHEV -0.09750881 0.004420695

PIEDS -0.05047023 0.052034764

STAT 0.14037312 0.168879663

POIDS -0.03450573 -0.006430739

confint(reg1)

Exercice

Intervalles de confiance des paramètres

Page 130: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 130

2.5 % 97.5 %

(Intercept) -14.70058351 -11.292408725

BIP -0.07330209 0.139535454

LATHO 0.06968244 0.174040764

LOMAIN -0.01538828 0.218001320

PERPOIGN -0.22908876 -0.044831392

PERCHEV -0.09750881 0.004420695

PIEDS -0.05047023 0.052034764

STAT 0.14037312 0.168879663

POIDS -0.03450573 -0.006430739

confint(reg1)

Exercice

Intervalles de confiance des paramètres

Page 131: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 131

2.5 % 97.5 %

(Intercept) -14.70058351 -11.292408725

BIP -0.07330209 0.139535454

LATHO 0.06968244 0.174040764

LOMAIN -0.01538828 0.218001320

PERPOIGN -0.22908876 -0.044831392

PERCHEV -0.09750881 0.004420695

PIEDS -0.05047023 0.052034764

STAT 0.14037312 0.168879663

POIDS -0.03450573 -0.006430739

confint(reg1)

Exercice

Intervalles de confiance des paramètres

Page 132: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 132

2.5 % 97.5 %

(Intercept) -14.70058351 -11.292408725

BIP -0.07330209 0.139535454

LATHO 0.06968244 0.174040764

LOMAIN -0.01538828 0.218001320

PERPOIGN -0.22908876 -0.044831392

PERCHEV -0.09750881 0.004420695

PIEDS -0.05047023 0.052034764

STAT 0.14037312 0.168879663

POIDS -0.03450573 -0.006430739

confint(reg1)

Exercice

Intervalles de confiance des paramètres

Page 133: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 133

2.5 % 97.5 %

(Intercept) -14.70058351 -11.292408725

BIP -0.07330209 0.139535454

LATHO 0.06968244 0.174040764

LOMAIN -0.01538828 0.218001320

PERPOIGN -0.22908876 -0.044831392

PERCHEV -0.09750881 0.004420695

PIEDS -0.05047023 0.052034764

STAT 0.14037312 0.168879663

POIDS -0.03450573 -0.006430739

confint(reg1)

Exercice

Intervalles de confiance des paramètres

Page 134: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 134

Exercice

Adéquation: R²

var(reg1$fitted.value)/var(AGE)

0.8989102

Page 135: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

POIDS -2.047e-02 7.153e-03 -2.861 0.00431 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.084 on 991 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8981

F-statistic: 1102 on 8 and 991 DF, p-value: < 2.2e-16

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 135

Exercice

Adéquation: R²

var(reg1$fitted.value)/var(AGE)

0.8989102

Page 136: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 136

Prédiction

nouvelles valeurs des prédicteurs

ex: AGE?

14,2 23,5 15,9 148,2 15,5 23 36 38

BIPLA

THO

LO

MAINSTAT

PER

POiGN

PER

CHEVPOIDS PIEDS

new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9,

STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38)

new.x

Exercice

Page 137: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 137

Prédiction

nouvelles valeurs des prédicteurs

ex: AGE?

14,2 23,5 15,9 148,2 15,5 23 36 38

BIPLA

THO

LO

MAINSTAT

PER

POiGN

PER

CHEVPOIDS PIEDS

new.x<-data.frame(BIP=14.2, LATHO=23.5, LOMAIN=15.9,

STAT=148.2, PERPOIGN=15.5, PERCHEV=23, POIDS=36, PIEDS=38)

new.x

BIP LATHO LOMAIN STAT PERPOIGN PERCHEV POIDS PIEDS

1 14.2 23.5 15.9 148.2 15.5 23 36 38

Exercice

Page 138: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 138

Prédiction

nouvelles valeurs des prédicteurs

ex: AGE?

14,2 23,5 15,9 148,2 15,5 23 36 38

BIPLA

THO

LO

MAINSTAT

PER

POiGN

PER

CHEVPOIDS PIEDS

AX<-predict(reg1,newdata=new.x,se.fit=TRUE)

$fit

[1] 10.96339

$se.fit

[1] 0.09568086

$residual.scale

[1] 1.084217

age réel = 11 ans

Exercice

Page 139: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 139

Prédiction

nouvelles valeurs des prédicteurs

ex: AGE?

14,2 23,5 15,9 148,2 15,5 23 36 38

BIPLA

THO

LO

MAINSTAT

PER

POiGN

PER

CHEVPOIDS PIEDS

AX<-predict(reg1,newdata=new.x,se.fit=TRUE)

$fit

[1] 10.96339

$se.fit

[1] 0.09568086

$residual.scale

[1] 1.084217

age réel = 11 ans

Exercice

Page 140: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 140

Intervalle de confiance

Intervalle de prédiction

age réel = 11 ansExercice

predict(reg1,newdata=new.x,se.fit=TRUE,interval="prediction" )

predict(reg1,newdata=new.x,se.fit=TRUE,interval="confidence" )

$fit

fit lwr upr

1 10.96339 10.77563 11.15115

$fit

fit lwr upr

1 10.96339 8.827496 13.09928

Page 141: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 141

Sélection de variables

Guillaume d’Ockham, 1285-1349

« Les multiples ne doivent

pas êtres utilisés sans nécessité »

= principe de parcimonie

=> ne pas ajouter de nouvelles variables tant que

celles présentes suffisent

=> balance entre explication / prédiction

trop de variables: explication + / prédiction –

overfitting~hyperadéquation

...

7. Multiple

Page 142: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 142

Critère de sélection

Akaike Information Criterion AIC

AIC=2p-2ln(L)

nombre de paramètresvraisemblance

=>AIC le plus petit possible

Sélection de variables...

7. Multiple

Page 143: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 143

Critère de sélection

Akaike Information Criterion AIC

AIC=2p-2ln(L)

nombre de paramètresvraisemblance

=>AIC le plus petit possible

Sélection de variables...

7. Multiple

Page 144: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 144

Sélection de variables: pas à pas

reglow<-lm(AGE~1+STAT)summary(reglow)

Call: glm(formula = AGE ~ 1 + STAT)

Deviance Residuals:

Min 1Q Median 3Q Max

-3.22224 -0.74277 -0.02807 0.73413 4.29016

Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) -11.909459 0.244761 -48.66 <2e-16 ***

STAT 0.153978 0.001674 91.98 <2e-16 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for gaussian family taken to be 1.218439)

Null deviance: 11524 on 999 degrees of freedom

Residual deviance: 1216 on 998 degrees of freedom

AIC: 3039.4

Number of Fisher Scoring iterations: 2

Exercice

Page 145: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 145

Sélection de variables: pas à pas

reglow<-lm(AGE~1+STAT)summary(reglow)

Call: lm(formula = AGE ~ 1 + STAT)

Residuals:

Min 1Q Median 3Q Max

-3.22224 -0.74277 -0.02807 0.73413 4.29016

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -11.909459 0.244761 -48.66 <2e-16 ***

STAT 0.153978 0.001674 91.98 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.104 on 998 degrees of freedom

Multiple R-squared: 0.8945, Adjusted R-squared: 0.8944

F-statistic: 8460 on 1 and 998 DF, p-value: < 2.2e-16

Exercice

Page 146: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 146

Sélection de variables: pas à pas

aicreg<-stepAIC(reg1,scope=list(upper=reg1,lower=reglow),direction=c("both"))

Exercice

Page 147: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 147

Régression linéaire Multiple Sélection de variables: pas à pas

aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both"))

Start: AIC=170.67

AGE ~ 1 + BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + PIEDS +

STAT + POIDS

Df Sum of Sq RSS AIC

- PIEDS 1 0.0011 1165.0 168.68

- BIP 1 0.4384 1165.4 169.05

<none> 1165.0 170.68

- LOMAIN 1 3.4116 1168.4 171.60

- PERCHEV 1 3.7755 1168.7 171.91

- POIDS 1 9.6243 1174.6 176.90

- PERPOIGN 1 10.0043 1175.0 177.23

- LATHO 1 24.6905 1189.6 189.65

Step: AIC=168.68

AGE ~ BIP + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS

Df Sum of Sq RSS AIC

- BIP 1 0.4433 1165.4 167.06

<none> 1165.0 168.68

- LOMAIN 1 3.6758 1168.6 169.83

- PERCHEV 1 4.0625 1169.0 170.16

+ PIEDS 1 0.0011 1165.0 170.68

- POIDS 1 9.9216 1174.9 175.16

- PERPOIGN 1 10.4397 1175.4 175.60

- LATHO 1 24.7051 1189.7 187.66

Page 148: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 148

Régression linéaire Multiple Sélection de variables: pas à pas

aicreg<-stepAIC(reg1,scope=list(upper=reg,lower=reg1),direction=c("both"))

Step: AIC=167.06

AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS

Df Sum of Sq RSS AIC

<none> 1165.4 167.06

- PERCHEV 1 3.7648 1169.2 168.28

- LOMAIN 1 3.8633 1169.2 168.37

+ BIP 1 0.4433 1165.0 168.68

+ PIEDS 1 0.0060 1165.4 169.05

- POIDS 1 9.7153 1175.1 173.36

- PERPOIGN 1 10.6173 1176.0 174.12

- LATHO 1 26.2754 1191.7 187.35

Page 149: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 149

Sélection de variables: modèle final

regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS)

Call:

lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.14469 -0.73537 -0.04168 0.68040 4.37259

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -12.611320 0.592893 -21.271 < 2e-16 ***

LATHO 0.124299 0.026270 4.732 2.55e-06 ***

LOMAIN 0.104090 0.057371 1.814 0.0699 .

PERPOIGN -0.137719 0.045788 -3.008 0.0027 **

PERCHEV -0.044138 0.024643 -1.791 0.0736 .

STAT 0.154353 0.006506 23.724 < 2e-16 ***

POIDS -0.020256 0.007040 -2.877 0.0041 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.083 on 993 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983

F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16

Exercice

Page 150: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula=AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.14469 -0.73537 -0.04168 0.68040 4.37259

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -12.611320 0.592893 -21.271 < 2e-16 ***

LATHO 0.124299 0.026270 4.732 2.55e-06 ***

LOMAIN 0.104090 0.057371 1.814 0.0699 .

PERPOIGN -0.137719 0.045788 -3.008 0.0027 **

PERCHEV -0.044138 0.024643 -1.791 0.0736 .

STAT 0.154353 0.006506 23.724 < 2e-16 ***

POIDS -0.020256 0.007040 -2.877 0.0041 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.083 on 993 degrees of freedom

Multiple R-squared: 0.8989, Adjusted R-squared: 0.8983

F-statistic: 1471 on 6 and 993 DF, p-value: < 2.2e-16

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 150

Sélection de variables: modèle final

regfin<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS)

Exercice

Page 151: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 151

Interaction entre les variables...

7. Multiple

Page 152: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 152

Interaction

En moyenne:

AGE= +1.LATHO+2.LOMAIN+3.PERPOIGN

+4.PERCHEV+5.STAT+6.POIDS

+7.LOMAIN.STAT+8.LATHO.POIDS+9.POIDS.STAT

regint<-lm(AGE~1+LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT

+POIDS+LOMAIN:STAT+LATHO:POIDS+POIDS:STAT)

...

7. Multiple

Page 153: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 153

Call:

lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV +

STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT)

Residuals:

Min 1Q Median 3Q Max

-3.158979 -0.691690 -0.009895 0.639070 3.631405

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 ***

LATHO 1.812e-01 5.837e-02 3.105 0.001957 **

LOMAIN 4.456e-01 2.862e-01 1.557 0.119725

PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 ***

PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 **

STAT 1.875e-01 1.715e-02 10.932 < 2e-16 ***

POIDS 1.787e-01 5.293e-02 3.376 0.000763 ***

LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638

LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948

STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.024 on 990 degrees of freedom

Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091

F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16

Page 154: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

Call:

lm(formula = AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV +

STAT + POIDS + LOMAIN:STAT + LATHO:POIDS + POIDS:STAT)

Residuals:

Min 1Q Median 3Q Max

-3.158979 -0.691690 -0.009895 0.639070 3.631405

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.887e+01 2.750e+00 -6.861 1.21e-11 ***

LATHO 1.812e-01 5.837e-02 3.105 0.001957 **

LOMAIN 4.456e-01 2.862e-01 1.557 0.119725

PERPOIGN -2.179e-01 4.417e-02 -4.932 9.53e-07 ***

PERCHEV -7.357e-02 2.348e-02 -3.134 0.001776 **

STAT 1.875e-01 1.715e-02 10.932 < 2e-16 ***

POIDS 1.787e-01 5.293e-02 3.376 0.000763 ***

LOMAIN:STAT -2.090e-03 1.892e-03 -1.105 0.269638

LATHO:POIDS -1.412e-03 1.165e-03 -1.212 0.225948

STAT:POIDS -8.564e-04 4.194e-04 -2.042 0.041409 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.024 on 990 degrees of freedom

Multiple R-squared: 0.9099, Adjusted R-squared: 0.9091

F-statistic: 1111 on 9 and 990 DF, p-value: < 2.2e-16

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 154

Page 155: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 155

Start: AIC=57.65

AGE ~ 1 + LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS +

LOMAIN:STAT + LATHO:POIDS + POIDS:STAT

Df Sum of Sq RSS AIC

- LOMAIN:STAT 1 1.2796 1039.7 56.884

- LATHO:POIDS 1 1.5397 1039.9 57.135

<none> 1038.4 57.653

- STAT:POIDS 1 4.3738 1042.7 59.856

- PERCHEV 1 10.3005 1048.7 65.524

-PERPOIGN 1 25.5159 1063.9 79.929

aicreg<-stepAIC(regint,scope=list(upper=regint,lower=reglow),

direction=c("both"))

Exercice

(...)

Page 156: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 156

Step: AIC=56.88

AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + LATHO:POIDS +

STAT:POIDS

Df Sum of Sq RSS AIC

- LATHO:POIDS 1 0.711 1040.4 55.568

<none> 1039.7 56.884

+ LOMAIN:STAT 1 1.280 1038.4 57.653

- LOMAIN 1 6.496 1046.2 61.114

- PERCHEV 1 10.573 1050.2 65.003

- PERPOIGN 1 26.222 1065.9 79.793

- STAT:POIDS 1 50.998 1090.7 102.772

Step: AIC=55.57

AGE ~ LATHO + LOMAIN + PERPOIGN + PERCHEV + STAT + POIDS + STAT:POIDS

Df Sum of Sq RSS AIC

<none> 1040.4 55.568

+ LATHO:POIDS 1 0.711 1039.7 56.884

+ LOMAIN:STAT 1 0.451 1039.9 57.135

- LOMAIN 1 6.699 1047.1 59.986

- PERCHEV 1 10.513 1050.9 63.622

- LATHO 1 22.727 1063.1 75.178

- PERPOIGN 1 25.628 1066.0 77.903

- STAT:POIDS 1 125.029 1165.4 167.056

Exercice

Page 157: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 157

Call:

lm(formula=AGE~LATHO+LOMAIN+PERPOIGN+PERCHEV+STAT+POIDS+STAT:POIDS)

Residuals:

Min 1Q Median 3Q Max

-3.12506 -0.68523 -0.01197 0.65241 3.61796

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.583e+01 6.333e-01 -24.997 < 2e-16 ***

LATHO 1.157e-01 2.485e-02 4.655 3.68e-06 ***

LOMAIN 1.373e-01 5.432e-02 2.527 0.01165 *

PERPOIGN -2.170e-01 4.389e-02 -4.943 9.01e-07 ***

PERCHEV -7.427e-02 2.346e-02 -3.166 0.00159 **

STAT 1.768e-01 6.486e-03 27.265 < 2e-16 ***

POIDS 2.246e-01 2.339e-02 9.602 < 2e-16 ***

STAT:POIDS -1.382e-03 1.266e-04 -10.919 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.024 on 992 degrees of freedom

Multiple R-squared: 0.9097, Adjusted R-squared: 0.9091

F-statistic: 1428 on 7 and 992 DF, p-value: < 2.2e-16

Summary(aicreg)

Exercice

Page 158: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 158

Vérifier l’adéquation:

Donner les intervalles de confiance des paramètres

Vérifier les conditions d’application

R²=0.9097212

Exercice

confint(regfin)

2.5 % 97.5 %

(Intercept) -17.071155758 -14.588806731

LATHO 0.066963177 0.164356035

LOMAIN 0.030823120 0.243748696

PERPOIGN -0.302970654 -0.130934549

PERCHEV -0.120248659 -0.028292907

STAT 0.164115926 0.189539112

POIDS 0.178761670 0.270460878

STAT:POIDS -0.001629865 -0.001133776

Page 159: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 159

Vérifier l’adéquation:

Donner les intervalles de confiance des paramètres

Vérifier les conditions d’application

R²=0.9097212

Exercice

confint(regfin)

2.5 % 97.5 %

(Intercept) -17.071155758 -14.588806731

LATHO 0.066963177 0.164356035

LOMAIN 0.030823120 0.243748696

PERPOIGN -0.302970654 -0.130934549

PERCHEV -0.120248659 -0.028292907

STAT 0.164115926 0.189539112

POIDS 0.178761670 0.270460878

STAT:POIDS -0.001629865 -0.001133776

Page 160: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 160

Exercice

par(mfrow=c(2,2))plot(aicreg)

0 5 10 15

-20

24

Fitted values

Resid

uals

Residuals vs Fitted

892242

228

-3 -2 -1 0 1 2 3

-3-2

-10

12

34

Theoretical Quantiles

Sta

ndard

ized r

esid

uals

Normal Q-Q

892

242

228

0 5 10 15

0.0

0.5

1.0

1.5

Fitted values

Sta

ndard

ized r

esid

uals

Scale-Location892

242228

0.00 0.01 0.02 0.03 0.04 0.05 0.06

-20

24

Leverage

Sta

ndard

ized r

esid

uals

Cook's distance

Residuals vs Leverage

892

418

451

Page 161: Principe de la Régression Linéaire...-2-1 2 3 r-4-2-1 2 3

2011 © J Gaudart, LERTIM, Faculté de Médecine Marseille 161

RéférencesJ. Bouyer: Méthodes statistiques, Médecine-Biologie, ed INSERM

J. Bouyer: Epidémiologie quantitative, ed INSERM

CIMES: Biostatistiques, ed Omnisciences

JJ. Faraway: Linear Models with R, ed Chapman&Hall

[email protected]

http://lertim.org

Labo. d’Enseignement et de Recherche sur le Traitement de l’Information

Médicale,

Faculté de Médecine de Marseille