84
Introduction RR-OR LogistiqueS Codage Estimation Mod elisation Exemple - TP R egression logistique Erik-Andr e Sauleau - Nicolas Meyer [email protected] - [email protected] Laboratoire de Biostatistiques - Facult e de M edecine P^ ole de Sant e Publique CHU - STRASBOURG Mars 2009

Erik-Andr e Sauleau - Nicolas Meyer

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Regression logistique

Erik-Andre Sauleau - Nicolas Meyer

[email protected] - [email protected]

Laboratoire de Biostatistiques - Faculte de Medecine

Pole de Sante Publique CHU - STRASBOURG

Mars 2009

Page 2: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Plan

1 Introduction

2 Rappels sur risques relatifs et odds-ratios

3 Fonction et modele logistiques

4 Codage des variables

5 Estimations et adequation

6 Modelisation

7 Exemple - TP

Page 3: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ou en sommes nous ?

1 IntroductionLe programmeLe cadre generalInterets de la regression logistique

2 Rappels sur risques relatifs et odds-ratios

3 Fonction et modele logistiques

4 Codage des variables

5 Estimations et adequation

6 Modelisation

7 Exemple - TP

Page 4: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le programme

Competence 4 : regression logistique

1 Savoir ecrire les modeles theoriques et experimental, comprendre lelien avec la regression lineaire multiple et la relation entre coefficientde regression et odds-ratio

2 Connaıtre l’importance du codage des variables explicatives et lanecessite de recodage pour certaines variables (probleme delog-linearite)

3 Savoir identifier les colinearites entres deux variables, en connaıtreles consequences et verifier les conditions d’application du modele

4 Maıtriser les techniques de selection des variables du modele, enparticulier les techniques pas a pas dans le cas des modeles a viseepredictive

5 Savoir interpreter les resultats de l’analyse en termes d’odds-ratio

Page 5: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le cadre general

Definition de la regression logistique

Modele statistique permettant d’etudier les relations entre1 Un ensemble de variables qualitatives Xi

2 Une variable qualitative Y

Modele lineaire generalise utilisant une fonction logistiquecomme fonction de lien

Extensions

Variable Y multinomiale (regression polychotomique ordonneeou non)Des Xi quantitatives

Outil majeur en epidemiologie

Page 6: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le cadre general

Un exemple de probleme . . .

La rechute d’un cancer est-elle liee au taux d’expression d’ungene ?

1 une variable qualitative Y : rechute oui / non2 une variable quantitative X : dosage3 n-echantillon

Predire Y connaissant X

Regression lineaire simple : yi = �+ �xi + �i

Page 7: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le cadre general

. . . et sa resolution

Les donnees

L’estimation des proportions par regression logistique

Page 8: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le cadre general

. . . et sa resolution

La regression lineaire Y = 0,22 + 0,44X

L’estimation des proportions par regression logistique

Page 9: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le cadre general

. . . et sa resolution

La variable X en 10 classes

L’estimation des proportions par regression logistique

Page 10: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le cadre general

. . . et sa resolution

Les proportions de rechute par classe de X

L’estimation des proportions par regression logistique

Page 11: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le cadre general

. . . et sa resolution

L’estimation des proportions par regression logistique

Page 12: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Interets de la regression logistique

Une interpretation coherente . . .

Modeliser les liens entre plusieurs variables explicatives Xi

qualitatives (ou quantitatives) et une variable resultatqualitative

Expression des probabilites sur une echelle entre 0 et 1

Quantification du risque : odds-ratio

Page 13: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ou en sommes nous ?

1 Introduction

2 Rappels sur risques relatifs et odds-ratiosLes cohortesLes cas-temoins

3 Fonction et modele logistiques

4 Codage des variables

5 Estimations et adequation

6 Modelisation

7 Exemple - TP

Page 14: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les cohortes

Les donnees disponibles

Malades Non malades Total

Exposes a b a+ bNon exposes c d c+ d

Total a+ c b+ d N = a+ b+ c+ d

Page 15: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les cohortes

Les risques

Malades Non maladesExposes a bNon exposes c d

Risque d’etre malade quand on est expose :P1 = Pr(M+∣E+) = a

a+b

Risque d’etre malade quand on n’est pas expose :P0 = Pr(M+∣E−) = c

c+d

Risque relatif : RR = P1P0

= a(c+d)c(a+b)

Page 16: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les cohortes

L’intervalle de confiance du risque relatif

Malades Non maladesExposes a bNon exposes c d

Pour une meilleure convergence asymptotique vers la loinormale, on transforme le RR en son logarithme

Variance de l’estimation :V[ln (RR)] = 1−P1

(a+b)P1+ 1−P0

(c+d)P0= b

a(a+b) +d

c(c+d)

Intervalle de confiance : exp

[ln (RR)± z�/2

√V[ln (RR)]

]Test du RR a 1

Page 17: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les cohortes

L’odds-ratio

Malades Non maladesExposes a bNon exposes c d

La cote de z : z1−z

Un rapport de cotes :z

1−zu

1−u

Odds-ratio : P11−P1

/ P01−P0

1− P1 =b

a+b et P11−P1

= ab

1− P0 =dc+d et P0

1−P0= c

d

Odds-ratio : OR = adbc

Page 18: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les cohortes

L’intervalle de confiance de l’odds ratio

Malades Non maladesExposes a bNon exposes c d

Pour une meilleure convergence asymptotique vers la loinormale, on transforme l’OR en son logarithme

Deux methodes

Woolf : exp[ln (OR)± z�/2

√1a +

1b +

1c +

1d

]Miettinen : exp

[ln (OR)×

{1± z�/2√

�2

}]Test de l’OR a 1

Page 19: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les cas-temoins

L’odds-ratio dans les cas-temoins

Malades Non maladesExposes a bNon exposes c d

Risque d’etre expose quand on est malade :R1 = Pr(E+∣M+) = a

a+c

Risque d’etre expose quand on n’est pas malade :R0 = Pr(E+∣M−) = b

b+d

Odds-ratio : R11−R1

/ R01−R0

1−R1 =c

a+c et R11−R1

= ac

1−R0 =db+d et P0

1−R0= b

d

Odds-ratio : OR = adbc

Page 20: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les cas-temoins

Une meme expression de l’odds-ratio

Meme estimation et meme intervalle de confiance pourl’odds-ratio dans les cohortes et les cas-temoins

L’odds-ratio est plus employe que le risque relatif

Quand la maladie est rare, OR ≃ RR

Page 21: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ou en sommes nous ?

1 Introduction

2 Rappels sur risques relatifs et odds-ratios

3 Fonction et modele logistiquesUn prealable : la fonction logistiqueLe modele logistique

4 Codage des variables

5 Estimations et adequation

6 Modelisation

7 Exemple - TP

Page 22: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un prealable : la fonction logistique

Definition

Fonction logistique

Description

Strictement croissante, monotoneVarie de 0 a 1 pour x allant de −∞ a +∞Courbe sigmoıde, point d’inflexion correspondant a f(x) = 1/2Symetrique autour du point d’inflexion

Formalisation

f(x) = 11+e−(�+�x)

� est un parametre de position� est un parametre de forme

Page 23: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un prealable : la fonction logistique

Des exemples de fonctions logistiques

Page 24: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un prealable : la fonction logistique

Des exemples de fonctions logistiques

Page 25: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un prealable : la fonction logistique

Des exemples de fonctions logistiques

Page 26: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un prealable : la fonction logistique

Des exemples de fonctions logistiques

Page 27: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le modele logistique

Definition

Modele logistique = regression logistique

Pour un sujet j, Yj suit une loi de Bernoulli

Pr(Y = 1∣X) = f(x) = 11+e−(�+�x) = e�+�x

1+e�+�x

Le miracle du logit . . .

Le miracle de l’odds-ratio . . .

Page 28: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le modele logistique

Retour a une cohorte

Malades (y = 1) Non malades (y = 0)Exposes (x = 1) a bNon exposes (x = 0) c d

Probabilite d’etre malade quand on est expose :

Pr(M+∣E+) = P1 = Pr(y = 1∣x = 1) = 11+e−(�+�)

Probabilite d’etre malade quand on n’est pas expose :

Pr(M+∣E−) = P0 = Pr(y = 1∣x = 0) = 11+e−�

Probabilite de ne pas etre malade quand on est expose :

Pr(M−∣E+) = 1− P1 =e−(�+�)

1+e−(�+�)

Probabilite de ne pas etre malade quand on n’est pas expose :

Pr(M−∣E−) = 1− P0 =e−�

1+e−�

OR = P11−P1

/ P01−P0

OR = Pr(M+∣E+)×Pr(M−∣E−)Pr(M+∣E−)×Pr(M−∣E+)

OR =1

1+e−(�+�)× e−�

1+e−�

11+e−�×

e−(�+�)

1+e−(�+�)

= e−�

e−(�+�) = e−�+�+� = e�

Le miracle de l’odds-ratio

OR = e� ou ln (OR) = �

Page 29: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le modele logistique

Retour a une cohorte

Malades (y = 1) Non malades (y = 0)Exposes (x = 1) a bNon exposes (x = 0) c d

OR = P11−P1

/ P01−P0

OR = Pr(M+∣E+)×Pr(M−∣E−)Pr(M+∣E−)×Pr(M−∣E+)

OR =1

1+e−(�+�)× e−�

1+e−�

11+e−�×

e−(�+�)

1+e−(�+�)

= e−�

e−(�+�) = e−�+�+� = e�

Le miracle de l’odds-ratio

OR = e� ou ln (OR) = �

Page 30: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le modele logistique

Le passage au logit

Definition : logit(z) = ln(

z1−z

)Applique a la fonction logistique

1 z = 11+e−(�+�x)

2 1− z = e−(�+�x)

1+e−(�+�x)

3 z/(1− z) = 1e−(�+�x)

4 ln(

z1−z

)= ln (1)− ln

(e−(�+�x)

)= �+ �x

Le deuxieme miracle

logit(Pr(Y = 1∣X)) = � + �x

Lien avec la regression lineaire simple

logit(Pr(Y = 1∣X)) = �+ �x vs E(Y ∣X) = �+ �x

Modeliser E(Y) ou Pr(Y=1) c’est pareil !

E(Y ) = 1× Pr(Y = 1) + 0× Pr(Y = 0) = Pr(Y = 1)

Fonction lineaire des variables avec le logit

Les erreurs sont binomiales

Page 31: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le modele logistique

Le passage au logit

Lien avec la regression lineaire simple

logit(Pr(Y = 1∣X)) = �+ �x vs E(Y ∣X) = �+ �x

Modeliser E(Y) ou Pr(Y=1) c’est pareil !

E(Y ) = 1× Pr(Y = 1) + 0× Pr(Y = 0) = Pr(Y = 1)

Fonction lineaire des variables avec le logit

Les erreurs sont binomiales

Page 32: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ou en sommes nous ?

1 Introduction

2 Rappels sur risques relatifs et odds-ratios

3 Fonction et modele logistiques

4 Codage des variables

5 Estimations et adequation

6 Modelisation

7 Exemple - TP

Page 33: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Notre cohorte

Malades (y = 1) Non malades (y = 0)

Exposes (x = x1) a bNon exposes (x = x0) c d

Probabilite d’etre malade quand on est expose :

Pr(M+∣E+) = P1 = Pr(y = 1∣x = x1) =1

1+e−(�+�x1)

Probabilite d’etre malade quand on n’est pas expose :

Pr(M+∣E−) = P0 = Pr(y = 1∣x = x0) =1

1+e−(�+�x0)

Probabilite de ne pas etre malade quand on est expose :

Pr(M−∣E+) = 1− P1 =e−(�+�x1)

1+e−(�+�x1)

Probabilite de ne pas etre malade quand on n’est pas expose :

Pr(M−∣E−) = 1− P0 =e−(�+�x0)

1+e−(�+�x0)

OR = P11−P1

/ P01−P0

OR = e�(x1−x0)

logit(P1)− logit(P0) = �(x1 − x0)

Page 34: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Notre cohorte

Malades (y = 1) Non malades (y = 0)

Exposes (x = x1) a bNon exposes (x = x0) c d

OR = P11−P1

/ P01−P0

OR = Pr(M+∣E+)×Pr(M−∣E−)Pr(M+∣E−)×Pr(M−∣E+)

OR =1

1+e−(�+�x1)× e−(�+�x0)

1+e−(�+�x0)

1

1+e−(�+�x0)× e−(�+�x1)

1+e−(�+�x1)

= e−(�+�x0)

e−(�+�x1)= e−�−�x0+�+�x1

OR = e�(x1−x0)

Si x0 = 0 et x1 = 1, on retrouve bien OR = e�

OR = P11−P1

/ P01−P0

OR = e�(x1−x0)

logit(P1)− logit(P0) = �(x1 − x0)

Page 35: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Notre cohorte

Malades (y = 1) Non malades (y = 0)

Exposes (x = x1) a bNon exposes (x = x0) c d

OR = P11−P1

/ P01−P0

OR = e�(x1−x0)

logit(P1)− logit(P0) = �(x1 − x0)

Page 36: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Role majeur du codage

OR = e�(x1−x0)

Si

{x0 = 0x1 = 1

alors OR1 = e�

Si

{x0 = 1x1 = 0

alors OR2 = e−�

Si

{x0 = −1x1 = 1

alors OR3 = e2�

Si

{x0 = 0x1 = 2

alors OR4 = e2�

OR4 = OR3 = (1/OR2)2 = (OR1)

2

Page 37: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Exposition multinomiale

Modele logistique logit(Pr(Y = 1∣X)) = �+ �x

Exposition Malades (y = 1) Non malades (y = 0)

Forte (x = 2) a bMoyenne (x = 1) c dFaible (x = 0) e f

Probabilite d’etre malade quand on est fortement expose :

Pr(M+∣x = 2) = P2 =1

1+e−(�+2�)

Probabilite d’etre malade quand on est moyennement expose :

Pr(M+∣x = 1) = P1 =1

1+e−(�+�)

Probabilite d’etre malade quand on est faiblement expose :

Pr(M+∣x = 0) = P0 =1

1+e−�

Exposition Malades (y = 1) Non malades (y = 0)Forte (x = 2) a bMoyenne (x = 1) c dFaible (x = 0) e f

OR2 =P2

1−P2/ P01−P0

= e2�

OR1 =P1

1−P1/ P01−P0

= e� = (OR1)2(

OR = P21−P2

/ P11−P1

= e�)

⇒ Choix d’une categorie de reference⇒ Hypothese de progression de l’effet de l’exposition

Page 38: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Exposition multinomiale

Exposition Malades (y = 1) Non malades (y = 0)Forte (x = 2) a bMoyenne (x = 1) c dFaible (x = 0) e f

OR2 =P2

1−P2/ P01−P0

= e2�

OR1 =P1

1−P1/ P01−P0

= e� = (OR1)2(

OR = P21−P2

/ P11−P1

= e�)

⇒ Choix d’une categorie de reference

⇒ Hypothese de progression de l’effet de l’exposition

Page 39: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un a parte sur l’exposition

Typologie de variables

Quantitative = mesurable sur une echelle1 Continue = valeurs reelles (Ex : Age)2 Discrete = valeurs isolees (Ex : Nombre d’enfants)

Notion de continuite relative a l’echelle

10, 13, 13, 15 vs 10, 10, 10, 15

Qualitative = non mesurable sur une echelle1 Sans ordre, categorielle (Ex : Sexe)2 Ordonnee, semi-quantitative (Ex : Stade clinique)

Transformation : quantitatif en semi-quantitatif

<10, 10-14, >15

Finalement trois cas

Variables ExpositionQualitative Semiqualitative Quantitative

Categorielle Cas 1Ordonnee Cas 2Continue Cas 3Discrete Cas 3

Page 40: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un a parte sur l’exposition

Les mesures d’exposition

Quantitative

Dosimetrie, mesures au poste de travailDuree d’exposition

Qualitative

Expose - non exposeCategorie socioprofessionnelle

Semi-quantitative

Exposition forte - moyenne - faibleExposition <10 ans, 10-19, >20 ans

Finalement trois cas

Variables ExpositionQualitative Semiqualitative Quantitative

Categorielle Cas 1Ordonnee Cas 2Continue Cas 3Discrete Cas 3

Page 41: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un a parte sur l’exposition

Finalement trois cas

Variables ExpositionQualitative Semiqualitative Quantitative

Categorielle Cas 1Ordonnee Cas 2Continue Cas 3Discrete Cas 3

Page 42: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Retour sur le codage des variables

Cas 1 : Variable categorielle (Ex : CSP)1 Hypothese 0, 1, . . . , trop forte2 Variables indicatrices et codage dit partiel

X X1 X2 X3

c0 0 0 0c1 1 0 0c2 0 1 0c3 0 0 1

On a remplace 1 variable a k modalites par k − 1 variables

⇒ un nouvel a parte sur le multivarie

Page 43: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Une premiere extension du modele

Le cas multivarie

Modele logistique : modeliser les liens entre plusieurs variablesexplicatives Xi qualitatives (ou quantitatives) et une variableresultat qualitative

Pr(Y = 1∣(X1, . . . , XI)) =1

1+e−(�+∑Ii�ixi)

ou

logit(Pr(Y = 1∣X) = �+∑�x

�i est le logarithme de l’odds-ratio associe a uneaugmentation d’une unite de la variable Xi, toutes les autresvariables etant fixees → OR ajuste

Page 44: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Retour sur le codage des variables categorielles (Cas 1)

X X1 X2 X3

c0 0 0 0c1 1 0 0c2 0 1 0c3 0 0 1

logit(Pr(Y = 1∣X) = �+ �1x1 + �2x2 + �3x3logit(Pr(Y = 1∣x = c0) = �logit(Pr(Y = 1∣x = c1) = �+ �1logit(Pr(Y = 1∣x = c2) = �+ �2logit(Pr(Y = 1∣x = c3) = �+ �3

Les �i sont les logarithmes des odds-ratios associes auxdifferentes categories par rapport a la categorie de reference

logit(Pr(Y = 1∣x = ci)− logit(Pr(Y = 1∣x = c0) = �i

Page 45: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un codage alternatif : le codage marginal

X X1 X2 X3

c0 0 0 0c1 1 0 0c2 0 1 0c3 0 0 1

X X1 X2 X3

c0 -1 -1 -1c1 1 0 0c2 0 1 0c3 0 0 1

logit(Pr(Y = 1∣X) = �+ �1x1 + �2x2 + �3x3logit(Pr(Y = 1∣x = c0) = �− �1 − �2 − �3 = �+ �0logit(Pr(Y = 1∣x = c1) = �+ �1logit(Pr(Y = 1∣x = c2) = �+ �2logit(Pr(Y = 1∣x = c3) = �+ �3

Les �i sont les logarithmes des odds-ratios associes auxdifferentes categories par rapport a une reference moyennerepresentee par �0logit(Pr(Y = 1∣x = ci))− logit(Pr(Y = 1∣x = c0)) = �i−�0Quel sens ?

Page 46: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Un codage alternatif : le codage marginal

X X1 X2 X3

c0 -1 -1 -1c1 1 0 0c2 0 1 0c3 0 0 1

logit(Pr(Y = 1∣X) = �+ �1x1 + �2x2 + �3x3logit(Pr(Y = 1∣x = c0) = �− �1 − �2 − �3 = �+ �0logit(Pr(Y = 1∣x = c1) = �+ �1logit(Pr(Y = 1∣x = c2) = �+ �2logit(Pr(Y = 1∣x = c3) = �+ �3

Les �i sont les logarithmes des odds-ratios associes auxdifferentes categories par rapport a une reference moyennerepresentee par �0logit(Pr(Y = 1∣x = ci))− logit(Pr(Y = 1∣x = c0)) = �i−�0Quel sens ?

Page 47: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

La prise en compte d’interaction

Interaction entre X1 et X2 mesuree par X1 ×X2

logit(Pr(Y = 1∣(X1,X2)) = �+ �1x1 + �2x2 + �3x1x2

X1 X2 OR0 1

0 0 0 e�2

1 0 1 e�2+�3

OR e�1 e�1+�3

Absence d’interaction si �3 = 0

Page 48: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le codage des variables ordonnees (Cas 2)

Differentes possibilites

Perte de la notion d’ordre

Variables indicatrices et codage partielCodage marginal

Codage Helmert ou codage orthogonal

Attribuer des scores 1, 2, 3, . . . et traiter comme une variablequantitative → cas 3

A discuter au cas par cas (Ex : stades cliniques I, II et III)

Codage orthogonal ou contraste polynomial

X X1 X2 X3

c0 = 1 -0.67 0.5 -0.22c1 = 2 -0.22 -0.5 0.67c2 = 3 0.22 -0.5 -0.67c3 = 4 0.67 0.5 0.22

Valeurs differentes selon les valeurs de X et leur espacement

Permet de tester des tendances : le logit augmente-t-ilproportionnellement aux valeurs de X ?

X1 teste une tendance lineaire, X2 une tendance quadratique,. . .

A manipuler avec precautions

Page 49: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le codage des variables ordonnees (Cas 2)

Contraste de Helmert

X X1 X2 X3

c0 -1 -1 -1c1 1 -1 -1c2 0 2 -1c3 0 0 3

�1 est l’odds-ratio de c1 par rapport a c0

�2 est l’odds-ratio de c2 par rapport a la moyenne de c0 et c1

�3 est l’odds-ratio de c3 par rapport a la moyenne de c0, c1 etc2

Codage orthogonal ou contraste polynomial

X X1 X2 X3

c0 = 1 -0.67 0.5 -0.22c1 = 2 -0.22 -0.5 0.67c2 = 3 0.22 -0.5 -0.67c3 = 4 0.67 0.5 0.22

Valeurs differentes selon les valeurs de X et leur espacement

Permet de tester des tendances : le logit augmente-t-ilproportionnellement aux valeurs de X ?

X1 teste une tendance lineaire, X2 une tendance quadratique,. . .

A manipuler avec precautions

Page 50: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Le codage des variables ordonnees (Cas 2)

Codage orthogonal ou contraste polynomial

X X1 X2 X3

c0 = 1 -0.67 0.5 -0.22c1 = 2 -0.22 -0.5 0.67c2 = 3 0.22 -0.5 -0.67c3 = 4 0.67 0.5 0.22

Valeurs differentes selon les valeurs de X et leur espacement

Permet de tester des tendances : le logit augmente-t-ilproportionnellement aux valeurs de X ?

X1 teste une tendance lineaire, X2 une tendance quadratique,. . .

A manipuler avec precautions

Page 51: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Les variables quantitatives (Cas 3)

Que signifie le � dans OR = e�(x1−x0) ?

1× � est le logarithme de l’odds-ratio associe a uneaugmentation d’une unite de la variable d’exposition

Une autre valeur peut avoir plus de sens : par exemple 10× �pour une augmentation de 10 mmol d’un dosage et non d’1mmol

Page 52: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Resume du codage sur des exemples

Age

Trois formes . . .1 Quantitative continue : 10, 12, 15, 15, 18, 212 Qualitative ordonnee : <15, <15, 15-19, 15-19, 15-19, >203 Qualitative categorielle : c0, c0, c1, c1, c1, c2

. . . et trois cas . . .1 Quantitative continue : cas 32 Qualitative ordonnee : cas 2 ou cas 33 Qualitative categorielle : cas 1

Categorie socioprofessionnelle

Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .

Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference

Qualitative categorielle et codage marginal

Page 53: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Resume du codage sur des exemples

Age

Trois formes et trois cas mais quatre situations1 Quantitative continue : e� est l’OR associe a un vieillissement

de 1 an, e5� de 5 ans2 Qualitative ordonnee et codage orthogonal ou Helmert :

interpretation particuliere3 Qualitative ordonnee et choix de score (1, 2, 3) : e� est l’OR

associe a un vieillissement de 1 classe4 Qualitative categorielle et codage partiel ou marginal : e�i est

l’OR associe a la classe ci par rapport a une reference (uneclasse ou une moyenne)

Categorie socioprofessionnelle

Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .

Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference

Qualitative categorielle et codage marginal

Page 54: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Resume du codage sur des exemples

Nombre d’enfants

Une forme . . .1 Quantitative discrete : 0, 1, 2, 3, . . . , >7

. . . mais deux situations . . .1 Quantitative discrete mais comme une continue : e� est l’OR

associe a un enfant de plus, e2� est l’OR associe a deuxenfants de plus

2 Quantitative discrete mais codage orthogonal ou Helmert :interpretation particuliere

3 Qualitative categorielle et codage partiel ou marginal : pasbeaucoup de sens

Categorie socioprofessionnelle

Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .

Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference

Qualitative categorielle et codage marginal

Page 55: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Resume du codage sur des exemples

Sexe

Une forme, un cas et une situation1 Qualitative categorielle : s0 ou s1

e� est l’OR associe au sexe 1 par rapport au sexe 0

Meme situation que pour une variable quantitative discrete ouune qualitative ordonnee a deux valeurs (0 ou 1)

Categorie socioprofessionnelle

Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .

Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference

Qualitative categorielle et codage marginal

Page 56: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Resume du codage sur des exemples

Categorie socioprofessionnelle

Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .

Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference

Qualitative categorielle et codage marginal

Page 57: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ou en sommes nous ?

1 Introduction

2 Rappels sur risques relatifs et odds-ratios

3 Fonction et modele logistiques

4 Codage des variables

5 Estimations et adequationRappel sur la vraisemblanceEstimations et testsAdequation des modeles

6 Modelisation

7 Exemple - TP

Page 58: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Rappel sur la vraisemblance

Rappel sur le maximum de vraisemblance

Si on observe un echantillon, c’est que c’est celui qui avait la plusgrande chance d’etre observe. C’est donc celui qui a la plus grandevraisemblance. On cherche alors les valeurs des parametres quimaximisent cette vraisemblance et on en deduit que les valeursobtenues pour les parametres sont les ”bonnes” valeurs.

Page 59: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Ce qu’on a a estimer

logit(Pr(Y = 1∣X) = �+∑I

1 �ixi

Les Y et X sont observes

On cherche les valeurs de chaque �i

On ne peut pas utiliser les moindres carres

⇒ estimateurs du maximum de vraisemblance

Page 60: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Les estimateurs du maximum de vraisemblance

Vraisemblance d’une observation1 Pour un sujet j malade, Vj = Pr(Y = 1∣X) = 1

1+e−(�+∑�x)

2 Pour un sujet j sain, Vj = Pr(Y = 0∣X) = e−(�+∑�x)

1+e−(�+∑�x)

Vraisemblance de l’echantillon V =∏N

1 Vj =∏N1 e−(�+

∑�x)∏N 1+e−(�+

∑�x)

1 N sujets2 N1 sujets non malades

Logvraisemblance de l’echantillon

Annulation des derivees premieres ⇒ EMV

Methodes iteratives

Estimation d’une matrice de variance-covariance desparametres → intervalles de confiance

Page 61: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Exemple de calcul d’estimateurs

Malades Non malades

Exposes a bNon exposes c d

EMV ⇒ ∂L∂� = ∂L

∂� = 0L =−b(�+�)−d�−(a+b) ln

(1 + e−(�+�)

)−(c+d) ln (1 + e−�){

∂L∂� = −b+ (a+ b) e−(�+�)

1+e−(�+�) = 0∂L∂� = −b− d+ (a+ b) e−(�+�)

1+e−(�+�) + (c+ d) e−�

1+e−� = 0{e−�

1+e−� = dc+d

e−(�+�)

1+e−(�+�) = ba+b{

� = ln cd

�+ � = ln ab{

� = ln cd

� = ln adbc

Page 62: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Exemple de calcul d’estimateurs

Malades Non malades

Exposes(

11+e−(�+�)

)a (e−(�+�)

1+e−(�+�)

)bNon exposes

(1

1+e−�

)c (e−�

1+e−�

)dV = e−b(�+�)e−d�

(1+e−(�+�))a+b

(1+e−�)c+d

L =−b(�+�)−d�−(a+b) ln

(1 + e−(�+�)

)−(c+d) ln (1 + e−�)

EMV ⇒ ∂L∂� = ∂L

∂� = 0L =−b(�+�)−d�−(a+b) ln

(1 + e−(�+�)

)−(c+d) ln (1 + e−�){

∂L∂� = −b+ (a+ b) e−(�+�)

1+e−(�+�) = 0∂L∂� = −b− d+ (a+ b) e−(�+�)

1+e−(�+�) + (c+ d) e−�

1+e−� = 0{e−�

1+e−� = dc+d

e−(�+�)

1+e−(�+�) = ba+b{

� = ln cd

�+ � = ln ab{

� = ln cd

� = ln adbc

Page 63: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Exemple de calcul d’estimateurs

EMV ⇒ ∂L∂� = ∂L

∂� = 0

L =−b(�+�)−d�−(a+b) ln

(1 + e−(�+�)

)−(c+d) ln (1 + e−�){

∂L∂� = −b+ (a+ b) e−(�+�)

1+e−(�+�) = 0∂L∂� = −b− d+ (a+ b) e−(�+�)

1+e−(�+�) + (c+ d) e−�

1+e−� = 0{e−�

1+e−� = dc+d

e−(�+�)

1+e−(�+�) = ba+b{

� = ln cd

�+ � = ln ab{

� = ln cd

� = ln adbc

Page 64: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Tests des parametres

Cas univarie

Interet : OR = 1⇔ � = 0

On a � et �� et donc un intervalle de confiance

1 � : � ± z�/2��2 OR : e�±z�/2��

Test de Wald : rejet de H0 si ���> z�/2

Test du rapport des vraisemblances (modeles emboıtes) :2(L1 − L0) ∼ �2

1ddl1 L1 : logvraisemblance du modele logit(Pr(Y = 1∣X)) = �+ �2 L0 : logvraisemblance du modele logit(Pr(Y = 1∣X)) = �

Vraisemblances penalisees (AIC)

Second cas multivarie

Interet : ORk = ⋅ ⋅ ⋅ = ORk+p = 1⇔ �k = ⋅ ⋅ ⋅ = �k+p = 0

Test du rapport des vraisemblances : 2(L1 − L0) ∼ �2pddl

1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+

∑j /∈(k,⋅⋅⋅ ,k+p) �jxj +

∑l=k+pl=k �lxl

2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+

∑j /∈(k,⋅⋅⋅ ,k+p) �jxj

Utile pour une variable categorielle transformee en plusieursvariables indicatrices

Page 65: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Tests des parametres

Premier cas multivarie

Interet : ORi = 1⇔ �i = 0

Test du rapport des vraisemblances : 2(L1 − L0) ∼ �21ddl

1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+

∑j ∕=i �jxj + �i

2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+

∑j ∕=i �jxj

Second cas multivarie

Interet : ORk = ⋅ ⋅ ⋅ = ORk+p = 1⇔ �k = ⋅ ⋅ ⋅ = �k+p = 0

Test du rapport des vraisemblances : 2(L1 − L0) ∼ �2pddl

1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+

∑j /∈(k,⋅⋅⋅ ,k+p) �jxj +

∑l=k+pl=k �lxl

2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+

∑j /∈(k,⋅⋅⋅ ,k+p) �jxj

Utile pour une variable categorielle transformee en plusieursvariables indicatrices

Page 66: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Tests des parametres

Second cas multivarie

Interet : ORk = ⋅ ⋅ ⋅ = ORk+p = 1⇔ �k = ⋅ ⋅ ⋅ = �k+p = 0

Test du rapport des vraisemblances : 2(L1 − L0) ∼ �2pddl

1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+

∑j /∈(k,⋅⋅⋅ ,k+p) �jxj +

∑l=k+pl=k �lxl

2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+

∑j /∈(k,⋅⋅⋅ ,k+p) �jxj

Utile pour une variable categorielle transformee en plusieursvariables indicatrices

Page 67: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Exemple de tests

Les donnees

On etudie la relation entre l’age et le risque d’infection par un virussur 356 sujets

Age N Seropositifs Frequence

≤29 36 2 0.0630-39 35 3 0.0940-49 65 12 0.1850-59 104 24 0.2360-69 88 20 0.23≥70 28 6 0.21

Les tests de vraisemblance

Modele sans age logit(Pr(Y = 1∣age) = � : L0 = −172,2Modele avec age 0, . . . , 5logit(Pr(Y = 1∣age) = �+ � × age : L1 = −168,7Modele avec age en variables indicatriceslogit(Pr(Y = 1∣age) = �+ �1x1 + ⋅ ⋅ ⋅�5x5 : L2 = −166,9Comparaisons

2(L2 − L0) = 10,4 ∼ �25ddl, p = 0,64

2(L1 − L0) = 6,9 ∼ �21ddl, p < 0,01

2(L2 − L1) = 3,5 ∼ �24ddl, p = 0,30

Quelle conclusion ? Quel modele est adequat ?

Page 68: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Exemple de tests

Codage de l’age

Age Score Codage partiel Score

≤29 0 0 0 0 0 0 1530-39 1 1 0 0 0 0 3540-49 2 0 1 0 0 0 4550-59 3 0 0 1 0 0 5560-69 4 0 0 0 1 0 65≥70 5 0 0 0 0 1 85

Les tests de vraisemblance

Modele sans age logit(Pr(Y = 1∣age) = � : L0 = −172,2Modele avec age 0, . . . , 5logit(Pr(Y = 1∣age) = �+ � × age : L1 = −168,7Modele avec age en variables indicatriceslogit(Pr(Y = 1∣age) = �+ �1x1 + ⋅ ⋅ ⋅�5x5 : L2 = −166,9Comparaisons

2(L2 − L0) = 10,4 ∼ �25ddl, p = 0,64

2(L1 − L0) = 6,9 ∼ �21ddl, p < 0,01

2(L2 − L1) = 3,5 ∼ �24ddl, p = 0,30

Quelle conclusion ? Quel modele est adequat ?

Page 69: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Exemple de tests

Les tests de vraisemblance

Modele sans age logit(Pr(Y = 1∣age) = � : L0 = −172,2Modele avec age 0, . . . , 5logit(Pr(Y = 1∣age) = �+ � × age : L1 = −168,7Modele avec age en variables indicatriceslogit(Pr(Y = 1∣age) = �+ �1x1 + ⋅ ⋅ ⋅�5x5 : L2 = −166,9Comparaisons

2(L2 − L0) = 10,4 ∼ �25ddl, p = 0,64

2(L1 − L0) = 6,9 ∼ �21ddl, p < 0,01

2(L2 − L1) = 3,5 ∼ �24ddl, p = 0,30

Quelle conclusion ? Quel modele est adequat ?

Page 70: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Estimations et tests

Les problemes numeriques

Une cellule vide peut creer un odds-ratio infini

Des variables peuvent completement separer malades et nonmalades

Variable combinaison lineaire des autres

Problemes de non-convergence ou de colinearite

Signales par les logicielsEstimations ponctuelles des � aberrantesVariances des estimations immenses

Page 71: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Adequation des modeles

Adequation des modeles

R2 comme en regression lineaire mais

Valeur maximum = 0,36Interpretation differente et delicate

�2 d’adequation

Test de la deviance�2 d’Hosmer-Lemeshow

Test de C.C. Brown

Teste la transformation logistique contre d’autrestransformationsInterpretation delicate en multivarie

Analyse des residus : tres delicat

Page 72: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Adequation des modeles

Les �2 d’adequation

Test de la deviance

1 Modele sature → logvraisemblance maximale LmaxLes predictions correspondent aux frequences observeesUn parametre par observation

2 Le modele dont on veut tester l’adequation a unlogvraisemblance L1

3 La deviance est D = 2(Lmax − L1)

4 On peut ecrire la deviance sous une forme D = 2∑O ln

(OE

)O sont les evenements observesE sont les evenements attendus par le modele a tester

5 La deviance suit une loi du �2 mais les conditionsd’applications sont rarement remplies

Test d’Hosmer-Lemeshow

1 Regrouper les observations en 10 classes d’effectif a peu presegal

2 �2 d’adequation∑ (O−E)2

E

O sont les evenements observes par classeE sont les evenements attendus par classe

3 La statistique suit une loi du �2 a 8 degres de liberte

Page 73: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Adequation des modeles

Les �2 d’adequation

Test d’Hosmer-Lemeshow

1 Regrouper les observations en 10 classes d’effectif a peu presegal

2 �2 d’adequation∑ (O−E)2

E

O sont les evenements observes par classeE sont les evenements attendus par classe

3 La statistique suit une loi du �2 a 8 degres de liberte

Page 74: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ou en sommes nous ?

1 Introduction

2 Rappels sur risques relatifs et odds-ratios

3 Fonction et modele logistiques

4 Codage des variables

5 Estimations et adequation

6 Modelisation

7 Exemple - TP

Page 75: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ajustement et facteurs independants

Le cas multivarie

logit(Pr(Y = 1∣X)) = �+∑�x

�i est le logarithme de l’odds-ratio associe a uneaugmentation d’une unite de la variable Xi, toutes les autresvariables etant fixees → OR ajuste

Pourquoi OR(2) est different de OR(1) ?

Facteur de confusion (difference majeure)

Informations redondantes → correlation

Colinearite (plus de deux facteurs)

Pourquoi OR(2) n’est pas different de OR(1) ?

X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1

Page 76: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ajustement et facteurs independants

Cas de deux variables explicatives

En univarie1 OR

(1)1 associe a la variable X1

2 OR(1)2 associe a la variable X2

En multivarie : on tient compte simultanement des deuxvariables

1 Nouvel OR(2)1 associe a la variable X1, ajuste sur X2

2 Nouvel OR(2)2 associe a la variable X2, ajuste sur X1

Pourquoi OR(2) est different de OR(1) ?

Facteur de confusion (difference majeure)

Informations redondantes → correlation

Colinearite (plus de deux facteurs)

Pourquoi OR(2) n’est pas different de OR(1) ?

X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1

Page 77: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ajustement et facteurs independants

Pourquoi OR(2) est different de OR(1) ?

Facteur de confusion (difference majeure)

Informations redondantes → correlation

Colinearite (plus de deux facteurs)

Pourquoi OR(2) n’est pas different de OR(1) ?

X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1

Page 78: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ajustement et facteurs independants

Pourquoi OR(2) est different de OR(1) ?

Facteur de confusion (difference majeure)

Informations redondantes → correlation

Colinearite (plus de deux facteurs)

Pourquoi OR(2) n’est pas different de OR(1) ?

X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1

Page 79: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Objectifs de la modelisation

Explicatif : chercher la meilleure association de variablesexplicatives pour expliquer Y → notion de parcimonie

Predictif : chercher la meilleure association de variablesexplicatives pour predire Y → pas toujours parcimonieux

Page 80: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Choix des variables

Grand nombre de variables ”d’exposition”Premiere selection par des tests univaries (au risque de 0.10ou 0.20)Tester les interactions entre variablesNe retenir que les variables significatives simultanementRetenir les effets principaux quand on retient une interactionProcedures pas a pasDe nombreuses autres methodes

Procedure stepwise

En pas a pas ascendant ou descendant

On peut revenir en arriere a chaque etape

Pour tenir compte des correlations entre variables

Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint

Page 81: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Choix des variables

Pas a pas ascendant

Partir du modele plus simple

Modele avec uniquement la constanteModele avec les variables forcees

Ajouter une a une les variables significatives

Tests du rapport des vraisemblancesLa plus significative en premierVariable transformees par des variables indicatrices en bloc

On s’arrete quand il n’y a plus de variables significatives

Procedure stepwise

En pas a pas ascendant ou descendant

On peut revenir en arriere a chaque etape

Pour tenir compte des correlations entre variables

Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint

Page 82: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Choix des variables

Pas a pas descendant

Partir du modele le plus complexe

Retirer une a une les variables non significatives

Tests du rapport des vraisemblancesLa moins significative en premierVariable transformees par des variables indicatrices en bloc

On s’arrete quand il n’y a plus de variable non significativedans le modele

Procedure stepwise

En pas a pas ascendant ou descendant

On peut revenir en arriere a chaque etape

Pour tenir compte des correlations entre variables

Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint

Page 83: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Choix des variables

Procedure stepwise

En pas a pas ascendant ou descendant

On peut revenir en arriere a chaque etape

Pour tenir compte des correlations entre variables

Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint

Page 84: Erik-Andr e Sauleau - Nicolas Meyer

Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP

Ou en sommes nous ?

1 Introduction

2 Rappels sur risques relatifs et odds-ratios

3 Fonction et modele logistiques

4 Codage des variables

5 Estimations et adequation

6 Modelisation

7 Exemple - TP