View
3
Download
0
Category
Preview:
Citation preview
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Regression logistique
Erik-Andre Sauleau - Nicolas Meyer
erik-andre.sauleau@medecine.u-strasbg.fr - nmeyer@unistra.fr
Laboratoire de Biostatistiques - Faculte de Medecine
Pole de Sante Publique CHU - STRASBOURG
Mars 2009
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Plan
1 Introduction
2 Rappels sur risques relatifs et odds-ratios
3 Fonction et modele logistiques
4 Codage des variables
5 Estimations et adequation
6 Modelisation
7 Exemple - TP
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ou en sommes nous ?
1 IntroductionLe programmeLe cadre generalInterets de la regression logistique
2 Rappels sur risques relatifs et odds-ratios
3 Fonction et modele logistiques
4 Codage des variables
5 Estimations et adequation
6 Modelisation
7 Exemple - TP
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le programme
Competence 4 : regression logistique
1 Savoir ecrire les modeles theoriques et experimental, comprendre lelien avec la regression lineaire multiple et la relation entre coefficientde regression et odds-ratio
2 Connaıtre l’importance du codage des variables explicatives et lanecessite de recodage pour certaines variables (probleme delog-linearite)
3 Savoir identifier les colinearites entres deux variables, en connaıtreles consequences et verifier les conditions d’application du modele
4 Maıtriser les techniques de selection des variables du modele, enparticulier les techniques pas a pas dans le cas des modeles a viseepredictive
5 Savoir interpreter les resultats de l’analyse en termes d’odds-ratio
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le cadre general
Definition de la regression logistique
Modele statistique permettant d’etudier les relations entre1 Un ensemble de variables qualitatives Xi
2 Une variable qualitative Y
Modele lineaire generalise utilisant une fonction logistiquecomme fonction de lien
Extensions
Variable Y multinomiale (regression polychotomique ordonneeou non)Des Xi quantitatives
Outil majeur en epidemiologie
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le cadre general
Un exemple de probleme . . .
La rechute d’un cancer est-elle liee au taux d’expression d’ungene ?
1 une variable qualitative Y : rechute oui / non2 une variable quantitative X : dosage3 n-echantillon
Predire Y connaissant X
Regression lineaire simple : yi = �+ �xi + �i
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le cadre general
. . . et sa resolution
Les donnees
L’estimation des proportions par regression logistique
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le cadre general
. . . et sa resolution
La regression lineaire Y = 0,22 + 0,44X
L’estimation des proportions par regression logistique
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le cadre general
. . . et sa resolution
La variable X en 10 classes
L’estimation des proportions par regression logistique
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le cadre general
. . . et sa resolution
Les proportions de rechute par classe de X
L’estimation des proportions par regression logistique
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le cadre general
. . . et sa resolution
L’estimation des proportions par regression logistique
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Interets de la regression logistique
Une interpretation coherente . . .
Modeliser les liens entre plusieurs variables explicatives Xi
qualitatives (ou quantitatives) et une variable resultatqualitative
Expression des probabilites sur une echelle entre 0 et 1
Quantification du risque : odds-ratio
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ou en sommes nous ?
1 Introduction
2 Rappels sur risques relatifs et odds-ratiosLes cohortesLes cas-temoins
3 Fonction et modele logistiques
4 Codage des variables
5 Estimations et adequation
6 Modelisation
7 Exemple - TP
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les cohortes
Les donnees disponibles
Malades Non malades Total
Exposes a b a+ bNon exposes c d c+ d
Total a+ c b+ d N = a+ b+ c+ d
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les cohortes
Les risques
Malades Non maladesExposes a bNon exposes c d
Risque d’etre malade quand on est expose :P1 = Pr(M+∣E+) = a
a+b
Risque d’etre malade quand on n’est pas expose :P0 = Pr(M+∣E−) = c
c+d
Risque relatif : RR = P1P0
= a(c+d)c(a+b)
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les cohortes
L’intervalle de confiance du risque relatif
Malades Non maladesExposes a bNon exposes c d
Pour une meilleure convergence asymptotique vers la loinormale, on transforme le RR en son logarithme
Variance de l’estimation :V[ln (RR)] = 1−P1
(a+b)P1+ 1−P0
(c+d)P0= b
a(a+b) +d
c(c+d)
Intervalle de confiance : exp
[ln (RR)± z�/2
√V[ln (RR)]
]Test du RR a 1
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les cohortes
L’odds-ratio
Malades Non maladesExposes a bNon exposes c d
La cote de z : z1−z
Un rapport de cotes :z
1−zu
1−u
Odds-ratio : P11−P1
/ P01−P0
1− P1 =b
a+b et P11−P1
= ab
1− P0 =dc+d et P0
1−P0= c
d
Odds-ratio : OR = adbc
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les cohortes
L’intervalle de confiance de l’odds ratio
Malades Non maladesExposes a bNon exposes c d
Pour une meilleure convergence asymptotique vers la loinormale, on transforme l’OR en son logarithme
Deux methodes
Woolf : exp[ln (OR)± z�/2
√1a +
1b +
1c +
1d
]Miettinen : exp
[ln (OR)×
{1± z�/2√
�2
}]Test de l’OR a 1
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les cas-temoins
L’odds-ratio dans les cas-temoins
Malades Non maladesExposes a bNon exposes c d
Risque d’etre expose quand on est malade :R1 = Pr(E+∣M+) = a
a+c
Risque d’etre expose quand on n’est pas malade :R0 = Pr(E+∣M−) = b
b+d
Odds-ratio : R11−R1
/ R01−R0
1−R1 =c
a+c et R11−R1
= ac
1−R0 =db+d et P0
1−R0= b
d
Odds-ratio : OR = adbc
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les cas-temoins
Une meme expression de l’odds-ratio
Meme estimation et meme intervalle de confiance pourl’odds-ratio dans les cohortes et les cas-temoins
L’odds-ratio est plus employe que le risque relatif
Quand la maladie est rare, OR ≃ RR
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ou en sommes nous ?
1 Introduction
2 Rappels sur risques relatifs et odds-ratios
3 Fonction et modele logistiquesUn prealable : la fonction logistiqueLe modele logistique
4 Codage des variables
5 Estimations et adequation
6 Modelisation
7 Exemple - TP
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un prealable : la fonction logistique
Definition
Fonction logistique
Description
Strictement croissante, monotoneVarie de 0 a 1 pour x allant de −∞ a +∞Courbe sigmoıde, point d’inflexion correspondant a f(x) = 1/2Symetrique autour du point d’inflexion
Formalisation
f(x) = 11+e−(�+�x)
� est un parametre de position� est un parametre de forme
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un prealable : la fonction logistique
Des exemples de fonctions logistiques
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un prealable : la fonction logistique
Des exemples de fonctions logistiques
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un prealable : la fonction logistique
Des exemples de fonctions logistiques
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un prealable : la fonction logistique
Des exemples de fonctions logistiques
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le modele logistique
Definition
Modele logistique = regression logistique
Pour un sujet j, Yj suit une loi de Bernoulli
Pr(Y = 1∣X) = f(x) = 11+e−(�+�x) = e�+�x
1+e�+�x
Le miracle du logit . . .
Le miracle de l’odds-ratio . . .
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le modele logistique
Retour a une cohorte
Malades (y = 1) Non malades (y = 0)Exposes (x = 1) a bNon exposes (x = 0) c d
Probabilite d’etre malade quand on est expose :
Pr(M+∣E+) = P1 = Pr(y = 1∣x = 1) = 11+e−(�+�)
Probabilite d’etre malade quand on n’est pas expose :
Pr(M+∣E−) = P0 = Pr(y = 1∣x = 0) = 11+e−�
Probabilite de ne pas etre malade quand on est expose :
Pr(M−∣E+) = 1− P1 =e−(�+�)
1+e−(�+�)
Probabilite de ne pas etre malade quand on n’est pas expose :
Pr(M−∣E−) = 1− P0 =e−�
1+e−�
OR = P11−P1
/ P01−P0
OR = Pr(M+∣E+)×Pr(M−∣E−)Pr(M+∣E−)×Pr(M−∣E+)
OR =1
1+e−(�+�)× e−�
1+e−�
11+e−�×
e−(�+�)
1+e−(�+�)
= e−�
e−(�+�) = e−�+�+� = e�
Le miracle de l’odds-ratio
OR = e� ou ln (OR) = �
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le modele logistique
Retour a une cohorte
Malades (y = 1) Non malades (y = 0)Exposes (x = 1) a bNon exposes (x = 0) c d
OR = P11−P1
/ P01−P0
OR = Pr(M+∣E+)×Pr(M−∣E−)Pr(M+∣E−)×Pr(M−∣E+)
OR =1
1+e−(�+�)× e−�
1+e−�
11+e−�×
e−(�+�)
1+e−(�+�)
= e−�
e−(�+�) = e−�+�+� = e�
Le miracle de l’odds-ratio
OR = e� ou ln (OR) = �
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le modele logistique
Le passage au logit
Definition : logit(z) = ln(
z1−z
)Applique a la fonction logistique
1 z = 11+e−(�+�x)
2 1− z = e−(�+�x)
1+e−(�+�x)
3 z/(1− z) = 1e−(�+�x)
4 ln(
z1−z
)= ln (1)− ln
(e−(�+�x)
)= �+ �x
Le deuxieme miracle
logit(Pr(Y = 1∣X)) = � + �x
Lien avec la regression lineaire simple
logit(Pr(Y = 1∣X)) = �+ �x vs E(Y ∣X) = �+ �x
Modeliser E(Y) ou Pr(Y=1) c’est pareil !
E(Y ) = 1× Pr(Y = 1) + 0× Pr(Y = 0) = Pr(Y = 1)
Fonction lineaire des variables avec le logit
Les erreurs sont binomiales
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le modele logistique
Le passage au logit
Lien avec la regression lineaire simple
logit(Pr(Y = 1∣X)) = �+ �x vs E(Y ∣X) = �+ �x
Modeliser E(Y) ou Pr(Y=1) c’est pareil !
E(Y ) = 1× Pr(Y = 1) + 0× Pr(Y = 0) = Pr(Y = 1)
Fonction lineaire des variables avec le logit
Les erreurs sont binomiales
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ou en sommes nous ?
1 Introduction
2 Rappels sur risques relatifs et odds-ratios
3 Fonction et modele logistiques
4 Codage des variables
5 Estimations et adequation
6 Modelisation
7 Exemple - TP
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Notre cohorte
Malades (y = 1) Non malades (y = 0)
Exposes (x = x1) a bNon exposes (x = x0) c d
Probabilite d’etre malade quand on est expose :
Pr(M+∣E+) = P1 = Pr(y = 1∣x = x1) =1
1+e−(�+�x1)
Probabilite d’etre malade quand on n’est pas expose :
Pr(M+∣E−) = P0 = Pr(y = 1∣x = x0) =1
1+e−(�+�x0)
Probabilite de ne pas etre malade quand on est expose :
Pr(M−∣E+) = 1− P1 =e−(�+�x1)
1+e−(�+�x1)
Probabilite de ne pas etre malade quand on n’est pas expose :
Pr(M−∣E−) = 1− P0 =e−(�+�x0)
1+e−(�+�x0)
OR = P11−P1
/ P01−P0
OR = e�(x1−x0)
logit(P1)− logit(P0) = �(x1 − x0)
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Notre cohorte
Malades (y = 1) Non malades (y = 0)
Exposes (x = x1) a bNon exposes (x = x0) c d
OR = P11−P1
/ P01−P0
OR = Pr(M+∣E+)×Pr(M−∣E−)Pr(M+∣E−)×Pr(M−∣E+)
OR =1
1+e−(�+�x1)× e−(�+�x0)
1+e−(�+�x0)
1
1+e−(�+�x0)× e−(�+�x1)
1+e−(�+�x1)
= e−(�+�x0)
e−(�+�x1)= e−�−�x0+�+�x1
OR = e�(x1−x0)
Si x0 = 0 et x1 = 1, on retrouve bien OR = e�
OR = P11−P1
/ P01−P0
OR = e�(x1−x0)
logit(P1)− logit(P0) = �(x1 − x0)
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Notre cohorte
Malades (y = 1) Non malades (y = 0)
Exposes (x = x1) a bNon exposes (x = x0) c d
OR = P11−P1
/ P01−P0
OR = e�(x1−x0)
logit(P1)− logit(P0) = �(x1 − x0)
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Role majeur du codage
OR = e�(x1−x0)
Si
{x0 = 0x1 = 1
alors OR1 = e�
Si
{x0 = 1x1 = 0
alors OR2 = e−�
Si
{x0 = −1x1 = 1
alors OR3 = e2�
Si
{x0 = 0x1 = 2
alors OR4 = e2�
OR4 = OR3 = (1/OR2)2 = (OR1)
2
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Exposition multinomiale
Modele logistique logit(Pr(Y = 1∣X)) = �+ �x
Exposition Malades (y = 1) Non malades (y = 0)
Forte (x = 2) a bMoyenne (x = 1) c dFaible (x = 0) e f
Probabilite d’etre malade quand on est fortement expose :
Pr(M+∣x = 2) = P2 =1
1+e−(�+2�)
Probabilite d’etre malade quand on est moyennement expose :
Pr(M+∣x = 1) = P1 =1
1+e−(�+�)
Probabilite d’etre malade quand on est faiblement expose :
Pr(M+∣x = 0) = P0 =1
1+e−�
Exposition Malades (y = 1) Non malades (y = 0)Forte (x = 2) a bMoyenne (x = 1) c dFaible (x = 0) e f
OR2 =P2
1−P2/ P01−P0
= e2�
OR1 =P1
1−P1/ P01−P0
= e� = (OR1)2(
OR = P21−P2
/ P11−P1
= e�)
⇒ Choix d’une categorie de reference⇒ Hypothese de progression de l’effet de l’exposition
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Exposition multinomiale
Exposition Malades (y = 1) Non malades (y = 0)Forte (x = 2) a bMoyenne (x = 1) c dFaible (x = 0) e f
OR2 =P2
1−P2/ P01−P0
= e2�
OR1 =P1
1−P1/ P01−P0
= e� = (OR1)2(
OR = P21−P2
/ P11−P1
= e�)
⇒ Choix d’une categorie de reference
⇒ Hypothese de progression de l’effet de l’exposition
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un a parte sur l’exposition
Typologie de variables
Quantitative = mesurable sur une echelle1 Continue = valeurs reelles (Ex : Age)2 Discrete = valeurs isolees (Ex : Nombre d’enfants)
Notion de continuite relative a l’echelle
10, 13, 13, 15 vs 10, 10, 10, 15
Qualitative = non mesurable sur une echelle1 Sans ordre, categorielle (Ex : Sexe)2 Ordonnee, semi-quantitative (Ex : Stade clinique)
Transformation : quantitatif en semi-quantitatif
<10, 10-14, >15
Finalement trois cas
Variables ExpositionQualitative Semiqualitative Quantitative
Categorielle Cas 1Ordonnee Cas 2Continue Cas 3Discrete Cas 3
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un a parte sur l’exposition
Les mesures d’exposition
Quantitative
Dosimetrie, mesures au poste de travailDuree d’exposition
Qualitative
Expose - non exposeCategorie socioprofessionnelle
Semi-quantitative
Exposition forte - moyenne - faibleExposition <10 ans, 10-19, >20 ans
Finalement trois cas
Variables ExpositionQualitative Semiqualitative Quantitative
Categorielle Cas 1Ordonnee Cas 2Continue Cas 3Discrete Cas 3
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un a parte sur l’exposition
Finalement trois cas
Variables ExpositionQualitative Semiqualitative Quantitative
Categorielle Cas 1Ordonnee Cas 2Continue Cas 3Discrete Cas 3
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Retour sur le codage des variables
Cas 1 : Variable categorielle (Ex : CSP)1 Hypothese 0, 1, . . . , trop forte2 Variables indicatrices et codage dit partiel
X X1 X2 X3
c0 0 0 0c1 1 0 0c2 0 1 0c3 0 0 1
On a remplace 1 variable a k modalites par k − 1 variables
⇒ un nouvel a parte sur le multivarie
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Une premiere extension du modele
Le cas multivarie
Modele logistique : modeliser les liens entre plusieurs variablesexplicatives Xi qualitatives (ou quantitatives) et une variableresultat qualitative
Pr(Y = 1∣(X1, . . . , XI)) =1
1+e−(�+∑Ii�ixi)
ou
logit(Pr(Y = 1∣X) = �+∑�x
�i est le logarithme de l’odds-ratio associe a uneaugmentation d’une unite de la variable Xi, toutes les autresvariables etant fixees → OR ajuste
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Retour sur le codage des variables categorielles (Cas 1)
X X1 X2 X3
c0 0 0 0c1 1 0 0c2 0 1 0c3 0 0 1
logit(Pr(Y = 1∣X) = �+ �1x1 + �2x2 + �3x3logit(Pr(Y = 1∣x = c0) = �logit(Pr(Y = 1∣x = c1) = �+ �1logit(Pr(Y = 1∣x = c2) = �+ �2logit(Pr(Y = 1∣x = c3) = �+ �3
Les �i sont les logarithmes des odds-ratios associes auxdifferentes categories par rapport a la categorie de reference
logit(Pr(Y = 1∣x = ci)− logit(Pr(Y = 1∣x = c0) = �i
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un codage alternatif : le codage marginal
X X1 X2 X3
c0 0 0 0c1 1 0 0c2 0 1 0c3 0 0 1
X X1 X2 X3
c0 -1 -1 -1c1 1 0 0c2 0 1 0c3 0 0 1
logit(Pr(Y = 1∣X) = �+ �1x1 + �2x2 + �3x3logit(Pr(Y = 1∣x = c0) = �− �1 − �2 − �3 = �+ �0logit(Pr(Y = 1∣x = c1) = �+ �1logit(Pr(Y = 1∣x = c2) = �+ �2logit(Pr(Y = 1∣x = c3) = �+ �3
Les �i sont les logarithmes des odds-ratios associes auxdifferentes categories par rapport a une reference moyennerepresentee par �0logit(Pr(Y = 1∣x = ci))− logit(Pr(Y = 1∣x = c0)) = �i−�0Quel sens ?
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Un codage alternatif : le codage marginal
X X1 X2 X3
c0 -1 -1 -1c1 1 0 0c2 0 1 0c3 0 0 1
logit(Pr(Y = 1∣X) = �+ �1x1 + �2x2 + �3x3logit(Pr(Y = 1∣x = c0) = �− �1 − �2 − �3 = �+ �0logit(Pr(Y = 1∣x = c1) = �+ �1logit(Pr(Y = 1∣x = c2) = �+ �2logit(Pr(Y = 1∣x = c3) = �+ �3
Les �i sont les logarithmes des odds-ratios associes auxdifferentes categories par rapport a une reference moyennerepresentee par �0logit(Pr(Y = 1∣x = ci))− logit(Pr(Y = 1∣x = c0)) = �i−�0Quel sens ?
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
La prise en compte d’interaction
Interaction entre X1 et X2 mesuree par X1 ×X2
logit(Pr(Y = 1∣(X1,X2)) = �+ �1x1 + �2x2 + �3x1x2
X1 X2 OR0 1
0 0 0 e�2
1 0 1 e�2+�3
OR e�1 e�1+�3
Absence d’interaction si �3 = 0
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le codage des variables ordonnees (Cas 2)
Differentes possibilites
Perte de la notion d’ordre
Variables indicatrices et codage partielCodage marginal
Codage Helmert ou codage orthogonal
Attribuer des scores 1, 2, 3, . . . et traiter comme une variablequantitative → cas 3
A discuter au cas par cas (Ex : stades cliniques I, II et III)
Codage orthogonal ou contraste polynomial
X X1 X2 X3
c0 = 1 -0.67 0.5 -0.22c1 = 2 -0.22 -0.5 0.67c2 = 3 0.22 -0.5 -0.67c3 = 4 0.67 0.5 0.22
Valeurs differentes selon les valeurs de X et leur espacement
Permet de tester des tendances : le logit augmente-t-ilproportionnellement aux valeurs de X ?
X1 teste une tendance lineaire, X2 une tendance quadratique,. . .
A manipuler avec precautions
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le codage des variables ordonnees (Cas 2)
Contraste de Helmert
X X1 X2 X3
c0 -1 -1 -1c1 1 -1 -1c2 0 2 -1c3 0 0 3
�1 est l’odds-ratio de c1 par rapport a c0
�2 est l’odds-ratio de c2 par rapport a la moyenne de c0 et c1
�3 est l’odds-ratio de c3 par rapport a la moyenne de c0, c1 etc2
Codage orthogonal ou contraste polynomial
X X1 X2 X3
c0 = 1 -0.67 0.5 -0.22c1 = 2 -0.22 -0.5 0.67c2 = 3 0.22 -0.5 -0.67c3 = 4 0.67 0.5 0.22
Valeurs differentes selon les valeurs de X et leur espacement
Permet de tester des tendances : le logit augmente-t-ilproportionnellement aux valeurs de X ?
X1 teste une tendance lineaire, X2 une tendance quadratique,. . .
A manipuler avec precautions
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Le codage des variables ordonnees (Cas 2)
Codage orthogonal ou contraste polynomial
X X1 X2 X3
c0 = 1 -0.67 0.5 -0.22c1 = 2 -0.22 -0.5 0.67c2 = 3 0.22 -0.5 -0.67c3 = 4 0.67 0.5 0.22
Valeurs differentes selon les valeurs de X et leur espacement
Permet de tester des tendances : le logit augmente-t-ilproportionnellement aux valeurs de X ?
X1 teste une tendance lineaire, X2 une tendance quadratique,. . .
A manipuler avec precautions
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Les variables quantitatives (Cas 3)
Que signifie le � dans OR = e�(x1−x0) ?
1× � est le logarithme de l’odds-ratio associe a uneaugmentation d’une unite de la variable d’exposition
Une autre valeur peut avoir plus de sens : par exemple 10× �pour une augmentation de 10 mmol d’un dosage et non d’1mmol
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Resume du codage sur des exemples
Age
Trois formes . . .1 Quantitative continue : 10, 12, 15, 15, 18, 212 Qualitative ordonnee : <15, <15, 15-19, 15-19, 15-19, >203 Qualitative categorielle : c0, c0, c1, c1, c1, c2
. . . et trois cas . . .1 Quantitative continue : cas 32 Qualitative ordonnee : cas 2 ou cas 33 Qualitative categorielle : cas 1
Categorie socioprofessionnelle
Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .
Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference
Qualitative categorielle et codage marginal
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Resume du codage sur des exemples
Age
Trois formes et trois cas mais quatre situations1 Quantitative continue : e� est l’OR associe a un vieillissement
de 1 an, e5� de 5 ans2 Qualitative ordonnee et codage orthogonal ou Helmert :
interpretation particuliere3 Qualitative ordonnee et choix de score (1, 2, 3) : e� est l’OR
associe a un vieillissement de 1 classe4 Qualitative categorielle et codage partiel ou marginal : e�i est
l’OR associe a la classe ci par rapport a une reference (uneclasse ou une moyenne)
Categorie socioprofessionnelle
Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .
Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference
Qualitative categorielle et codage marginal
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Resume du codage sur des exemples
Nombre d’enfants
Une forme . . .1 Quantitative discrete : 0, 1, 2, 3, . . . , >7
. . . mais deux situations . . .1 Quantitative discrete mais comme une continue : e� est l’OR
associe a un enfant de plus, e2� est l’OR associe a deuxenfants de plus
2 Quantitative discrete mais codage orthogonal ou Helmert :interpretation particuliere
3 Qualitative categorielle et codage partiel ou marginal : pasbeaucoup de sens
Categorie socioprofessionnelle
Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .
Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference
Qualitative categorielle et codage marginal
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Resume du codage sur des exemples
Sexe
Une forme, un cas et une situation1 Qualitative categorielle : s0 ou s1
e� est l’OR associe au sexe 1 par rapport au sexe 0
Meme situation que pour une variable quantitative discrete ouune qualitative ordonnee a deux valeurs (0 ou 1)
Categorie socioprofessionnelle
Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .
Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference
Qualitative categorielle et codage marginal
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Resume du codage sur des exemples
Categorie socioprofessionnelle
Une forme, un cas et une situation ethiquement acceptables1 Qualitative categorielle : c0, c1, c2, . . .
Qualitative categorielle et codage partiel : e�i est l’OR associea la classe ci par rapport a la classe de reference
Qualitative categorielle et codage marginal
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ou en sommes nous ?
1 Introduction
2 Rappels sur risques relatifs et odds-ratios
3 Fonction et modele logistiques
4 Codage des variables
5 Estimations et adequationRappel sur la vraisemblanceEstimations et testsAdequation des modeles
6 Modelisation
7 Exemple - TP
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Rappel sur la vraisemblance
Rappel sur le maximum de vraisemblance
Si on observe un echantillon, c’est que c’est celui qui avait la plusgrande chance d’etre observe. C’est donc celui qui a la plus grandevraisemblance. On cherche alors les valeurs des parametres quimaximisent cette vraisemblance et on en deduit que les valeursobtenues pour les parametres sont les ”bonnes” valeurs.
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Ce qu’on a a estimer
logit(Pr(Y = 1∣X) = �+∑I
1 �ixi
Les Y et X sont observes
On cherche les valeurs de chaque �i
On ne peut pas utiliser les moindres carres
⇒ estimateurs du maximum de vraisemblance
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Les estimateurs du maximum de vraisemblance
Vraisemblance d’une observation1 Pour un sujet j malade, Vj = Pr(Y = 1∣X) = 1
1+e−(�+∑�x)
2 Pour un sujet j sain, Vj = Pr(Y = 0∣X) = e−(�+∑�x)
1+e−(�+∑�x)
Vraisemblance de l’echantillon V =∏N
1 Vj =∏N1 e−(�+
∑�x)∏N 1+e−(�+
∑�x)
1 N sujets2 N1 sujets non malades
Logvraisemblance de l’echantillon
Annulation des derivees premieres ⇒ EMV
Methodes iteratives
Estimation d’une matrice de variance-covariance desparametres → intervalles de confiance
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Exemple de calcul d’estimateurs
Malades Non malades
Exposes a bNon exposes c d
EMV ⇒ ∂L∂� = ∂L
∂� = 0L =−b(�+�)−d�−(a+b) ln
(1 + e−(�+�)
)−(c+d) ln (1 + e−�){
∂L∂� = −b+ (a+ b) e−(�+�)
1+e−(�+�) = 0∂L∂� = −b− d+ (a+ b) e−(�+�)
1+e−(�+�) + (c+ d) e−�
1+e−� = 0{e−�
1+e−� = dc+d
e−(�+�)
1+e−(�+�) = ba+b{
� = ln cd
�+ � = ln ab{
� = ln cd
� = ln adbc
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Exemple de calcul d’estimateurs
Malades Non malades
Exposes(
11+e−(�+�)
)a (e−(�+�)
1+e−(�+�)
)bNon exposes
(1
1+e−�
)c (e−�
1+e−�
)dV = e−b(�+�)e−d�
(1+e−(�+�))a+b
(1+e−�)c+d
L =−b(�+�)−d�−(a+b) ln
(1 + e−(�+�)
)−(c+d) ln (1 + e−�)
EMV ⇒ ∂L∂� = ∂L
∂� = 0L =−b(�+�)−d�−(a+b) ln
(1 + e−(�+�)
)−(c+d) ln (1 + e−�){
∂L∂� = −b+ (a+ b) e−(�+�)
1+e−(�+�) = 0∂L∂� = −b− d+ (a+ b) e−(�+�)
1+e−(�+�) + (c+ d) e−�
1+e−� = 0{e−�
1+e−� = dc+d
e−(�+�)
1+e−(�+�) = ba+b{
� = ln cd
�+ � = ln ab{
� = ln cd
� = ln adbc
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Exemple de calcul d’estimateurs
EMV ⇒ ∂L∂� = ∂L
∂� = 0
L =−b(�+�)−d�−(a+b) ln
(1 + e−(�+�)
)−(c+d) ln (1 + e−�){
∂L∂� = −b+ (a+ b) e−(�+�)
1+e−(�+�) = 0∂L∂� = −b− d+ (a+ b) e−(�+�)
1+e−(�+�) + (c+ d) e−�
1+e−� = 0{e−�
1+e−� = dc+d
e−(�+�)
1+e−(�+�) = ba+b{
� = ln cd
�+ � = ln ab{
� = ln cd
� = ln adbc
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Tests des parametres
Cas univarie
Interet : OR = 1⇔ � = 0
On a � et �� et donc un intervalle de confiance
1 � : � ± z�/2��2 OR : e�±z�/2��
Test de Wald : rejet de H0 si ���> z�/2
Test du rapport des vraisemblances (modeles emboıtes) :2(L1 − L0) ∼ �2
1ddl1 L1 : logvraisemblance du modele logit(Pr(Y = 1∣X)) = �+ �2 L0 : logvraisemblance du modele logit(Pr(Y = 1∣X)) = �
Vraisemblances penalisees (AIC)
Second cas multivarie
Interet : ORk = ⋅ ⋅ ⋅ = ORk+p = 1⇔ �k = ⋅ ⋅ ⋅ = �k+p = 0
Test du rapport des vraisemblances : 2(L1 − L0) ∼ �2pddl
1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+
∑j /∈(k,⋅⋅⋅ ,k+p) �jxj +
∑l=k+pl=k �lxl
2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+
∑j /∈(k,⋅⋅⋅ ,k+p) �jxj
Utile pour une variable categorielle transformee en plusieursvariables indicatrices
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Tests des parametres
Premier cas multivarie
Interet : ORi = 1⇔ �i = 0
Test du rapport des vraisemblances : 2(L1 − L0) ∼ �21ddl
1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+
∑j ∕=i �jxj + �i
2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+
∑j ∕=i �jxj
Second cas multivarie
Interet : ORk = ⋅ ⋅ ⋅ = ORk+p = 1⇔ �k = ⋅ ⋅ ⋅ = �k+p = 0
Test du rapport des vraisemblances : 2(L1 − L0) ∼ �2pddl
1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+
∑j /∈(k,⋅⋅⋅ ,k+p) �jxj +
∑l=k+pl=k �lxl
2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+
∑j /∈(k,⋅⋅⋅ ,k+p) �jxj
Utile pour une variable categorielle transformee en plusieursvariables indicatrices
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Tests des parametres
Second cas multivarie
Interet : ORk = ⋅ ⋅ ⋅ = ORk+p = 1⇔ �k = ⋅ ⋅ ⋅ = �k+p = 0
Test du rapport des vraisemblances : 2(L1 − L0) ∼ �2pddl
1 L1 : logvraisemblance d’un modelelogit(Pr(Y = 1∣X) = �+
∑j /∈(k,⋅⋅⋅ ,k+p) �jxj +
∑l=k+pl=k �lxl
2 L0 : logvraisemblance du modelelogit(Pr(Y = 1∣X) = �+
∑j /∈(k,⋅⋅⋅ ,k+p) �jxj
Utile pour une variable categorielle transformee en plusieursvariables indicatrices
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Exemple de tests
Les donnees
On etudie la relation entre l’age et le risque d’infection par un virussur 356 sujets
Age N Seropositifs Frequence
≤29 36 2 0.0630-39 35 3 0.0940-49 65 12 0.1850-59 104 24 0.2360-69 88 20 0.23≥70 28 6 0.21
Les tests de vraisemblance
Modele sans age logit(Pr(Y = 1∣age) = � : L0 = −172,2Modele avec age 0, . . . , 5logit(Pr(Y = 1∣age) = �+ � × age : L1 = −168,7Modele avec age en variables indicatriceslogit(Pr(Y = 1∣age) = �+ �1x1 + ⋅ ⋅ ⋅�5x5 : L2 = −166,9Comparaisons
2(L2 − L0) = 10,4 ∼ �25ddl, p = 0,64
2(L1 − L0) = 6,9 ∼ �21ddl, p < 0,01
2(L2 − L1) = 3,5 ∼ �24ddl, p = 0,30
Quelle conclusion ? Quel modele est adequat ?
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Exemple de tests
Codage de l’age
Age Score Codage partiel Score
≤29 0 0 0 0 0 0 1530-39 1 1 0 0 0 0 3540-49 2 0 1 0 0 0 4550-59 3 0 0 1 0 0 5560-69 4 0 0 0 1 0 65≥70 5 0 0 0 0 1 85
Les tests de vraisemblance
Modele sans age logit(Pr(Y = 1∣age) = � : L0 = −172,2Modele avec age 0, . . . , 5logit(Pr(Y = 1∣age) = �+ � × age : L1 = −168,7Modele avec age en variables indicatriceslogit(Pr(Y = 1∣age) = �+ �1x1 + ⋅ ⋅ ⋅�5x5 : L2 = −166,9Comparaisons
2(L2 − L0) = 10,4 ∼ �25ddl, p = 0,64
2(L1 − L0) = 6,9 ∼ �21ddl, p < 0,01
2(L2 − L1) = 3,5 ∼ �24ddl, p = 0,30
Quelle conclusion ? Quel modele est adequat ?
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Exemple de tests
Les tests de vraisemblance
Modele sans age logit(Pr(Y = 1∣age) = � : L0 = −172,2Modele avec age 0, . . . , 5logit(Pr(Y = 1∣age) = �+ � × age : L1 = −168,7Modele avec age en variables indicatriceslogit(Pr(Y = 1∣age) = �+ �1x1 + ⋅ ⋅ ⋅�5x5 : L2 = −166,9Comparaisons
2(L2 − L0) = 10,4 ∼ �25ddl, p = 0,64
2(L1 − L0) = 6,9 ∼ �21ddl, p < 0,01
2(L2 − L1) = 3,5 ∼ �24ddl, p = 0,30
Quelle conclusion ? Quel modele est adequat ?
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Estimations et tests
Les problemes numeriques
Une cellule vide peut creer un odds-ratio infini
Des variables peuvent completement separer malades et nonmalades
Variable combinaison lineaire des autres
Problemes de non-convergence ou de colinearite
Signales par les logicielsEstimations ponctuelles des � aberrantesVariances des estimations immenses
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Adequation des modeles
Adequation des modeles
R2 comme en regression lineaire mais
Valeur maximum = 0,36Interpretation differente et delicate
�2 d’adequation
Test de la deviance�2 d’Hosmer-Lemeshow
Test de C.C. Brown
Teste la transformation logistique contre d’autrestransformationsInterpretation delicate en multivarie
Analyse des residus : tres delicat
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Adequation des modeles
Les �2 d’adequation
Test de la deviance
1 Modele sature → logvraisemblance maximale LmaxLes predictions correspondent aux frequences observeesUn parametre par observation
2 Le modele dont on veut tester l’adequation a unlogvraisemblance L1
3 La deviance est D = 2(Lmax − L1)
4 On peut ecrire la deviance sous une forme D = 2∑O ln
(OE
)O sont les evenements observesE sont les evenements attendus par le modele a tester
5 La deviance suit une loi du �2 mais les conditionsd’applications sont rarement remplies
Test d’Hosmer-Lemeshow
1 Regrouper les observations en 10 classes d’effectif a peu presegal
2 �2 d’adequation∑ (O−E)2
E
O sont les evenements observes par classeE sont les evenements attendus par classe
3 La statistique suit une loi du �2 a 8 degres de liberte
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Adequation des modeles
Les �2 d’adequation
Test d’Hosmer-Lemeshow
1 Regrouper les observations en 10 classes d’effectif a peu presegal
2 �2 d’adequation∑ (O−E)2
E
O sont les evenements observes par classeE sont les evenements attendus par classe
3 La statistique suit une loi du �2 a 8 degres de liberte
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ou en sommes nous ?
1 Introduction
2 Rappels sur risques relatifs et odds-ratios
3 Fonction et modele logistiques
4 Codage des variables
5 Estimations et adequation
6 Modelisation
7 Exemple - TP
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ajustement et facteurs independants
Le cas multivarie
logit(Pr(Y = 1∣X)) = �+∑�x
�i est le logarithme de l’odds-ratio associe a uneaugmentation d’une unite de la variable Xi, toutes les autresvariables etant fixees → OR ajuste
Pourquoi OR(2) est different de OR(1) ?
Facteur de confusion (difference majeure)
Informations redondantes → correlation
Colinearite (plus de deux facteurs)
Pourquoi OR(2) n’est pas different de OR(1) ?
X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ajustement et facteurs independants
Cas de deux variables explicatives
En univarie1 OR
(1)1 associe a la variable X1
2 OR(1)2 associe a la variable X2
En multivarie : on tient compte simultanement des deuxvariables
1 Nouvel OR(2)1 associe a la variable X1, ajuste sur X2
2 Nouvel OR(2)2 associe a la variable X2, ajuste sur X1
Pourquoi OR(2) est different de OR(1) ?
Facteur de confusion (difference majeure)
Informations redondantes → correlation
Colinearite (plus de deux facteurs)
Pourquoi OR(2) n’est pas different de OR(1) ?
X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ajustement et facteurs independants
Pourquoi OR(2) est different de OR(1) ?
Facteur de confusion (difference majeure)
Informations redondantes → correlation
Colinearite (plus de deux facteurs)
Pourquoi OR(2) n’est pas different de OR(1) ?
X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ajustement et facteurs independants
Pourquoi OR(2) est different de OR(1) ?
Facteur de confusion (difference majeure)
Informations redondantes → correlation
Colinearite (plus de deux facteurs)
Pourquoi OR(2) n’est pas different de OR(1) ?
X1 et X2 sont des facteurs independants et tenir compte del’effet de X2 ou pas ne change rien sur l’effet de X1
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Objectifs de la modelisation
Explicatif : chercher la meilleure association de variablesexplicatives pour expliquer Y → notion de parcimonie
Predictif : chercher la meilleure association de variablesexplicatives pour predire Y → pas toujours parcimonieux
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Choix des variables
Grand nombre de variables ”d’exposition”Premiere selection par des tests univaries (au risque de 0.10ou 0.20)Tester les interactions entre variablesNe retenir que les variables significatives simultanementRetenir les effets principaux quand on retient une interactionProcedures pas a pasDe nombreuses autres methodes
Procedure stepwise
En pas a pas ascendant ou descendant
On peut revenir en arriere a chaque etape
Pour tenir compte des correlations entre variables
Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Choix des variables
Pas a pas ascendant
Partir du modele plus simple
Modele avec uniquement la constanteModele avec les variables forcees
Ajouter une a une les variables significatives
Tests du rapport des vraisemblancesLa plus significative en premierVariable transformees par des variables indicatrices en bloc
On s’arrete quand il n’y a plus de variables significatives
Procedure stepwise
En pas a pas ascendant ou descendant
On peut revenir en arriere a chaque etape
Pour tenir compte des correlations entre variables
Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Choix des variables
Pas a pas descendant
Partir du modele le plus complexe
Retirer une a une les variables non significatives
Tests du rapport des vraisemblancesLa moins significative en premierVariable transformees par des variables indicatrices en bloc
On s’arrete quand il n’y a plus de variable non significativedans le modele
Procedure stepwise
En pas a pas ascendant ou descendant
On peut revenir en arriere a chaque etape
Pour tenir compte des correlations entre variables
Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Choix des variables
Procedure stepwise
En pas a pas ascendant ou descendant
On peut revenir en arriere a chaque etape
Pour tenir compte des correlations entre variables
Une variable peut s’effondrer sur une autre variable trescorrelee la rejoint
Introduction RR-OR LogistiqueS Codage Estimation Modelisation Exemple - TP
Ou en sommes nous ?
1 Introduction
2 Rappels sur risques relatifs et odds-ratios
3 Fonction et modele logistiques
4 Codage des variables
5 Estimations et adequation
6 Modelisation
7 Exemple - TP
Recommended