1 Courbes de survie C1 Statistiques. 2 Définitions Pour chaque sujet il faut connaître : –La date de début dobservation (cest la date dorigine), la date

1

Courbes de survie

C1 Statistiques

2

Définitions

• Pour chaque sujet il faut connaître :– La date de début d’observation (c’est la date

d’origine), la date des dernières nouvelles et l’état aux dernières nouvelles.

• A partir de ces éléments on calcule :– Le temps de participation, le recul et la durée

de surveillance.

• Date d’origine :– Date qui définit pour chaque sujet le temps 0.

Exple : Date d’inclusion dans un essai, date de diagnostic de la première métastase.

• Date de dernière nouvelles :– Au moment de l’analyse, il faut disposer pour

chaque sujet de la date des dernières nouvelles. Si le sujet est décédé la date des dernière nouvelles est le décès

• Durée de surveillance :– Date des dernière nouvelle – Date d’origine

• Date de Point– Date au delà de laquelle on ne tiendra pas

compte des informations et pour laquelle on cherchera à connaître l’état de chaque sujet.

3

Définitions

• Temps de participation :– Si les dernière nouvelles sont antérieures à la

date de point ti = D. Dernière nouvelle – D. Origine. Si le sujet n’est pas décédé, il sera considéré comme perdu de vue à la date de point.

– Si les dernières nouvelles sont postérieures à la date de point, ti = D. de Point – D. Origine.

– Si la date de point est la date de l’analyse, le temps de participation est égal à la durée de surveillance

Numéro du malade

Date OrigineDate et état aux

dernières nouvelles

Etat à la date de point 1/4/1977

ti di

1 01/01/1976 DCD le 1/7/1977 Vivant 15 02 01/01/1977 Vivant le 1/1/1978 Vivant 3 03 01/01/1976 DCD le 1/1/1977 DCD 12 14 01/04/1976 Vivant le 1/1/1977 Perdu de vue 9 0

Exemple de calcul du temps de participation ti (en mois) et de l'état di en ti

4

Définitions

• Perdu de vue– Sujet dont on ne connaît pas l’état à la date de

point (sujet 4)

– Attention c’est une source de biais importants

• Exclu-vivant :– Un sujet vivant à la date de point (sujet 1 et 2)

• Les perdus de vue et les exclus vivants correspondent à des données censurées

• Recul :– D. de Point – D. Origine : c’est le délai

maximum potentiel d’observation du sujet

5

Distributions de survie

• Fonction de survie :– La variable durée de vie T (D. du Décès – D.

Origine) est une variable aléatoire non négative.

– C’est une variable aléatoire continue : la probabilité de décès à chaque instant t est infiniment petite. Cette hypothèse n’est pas toujours vérifiée : par exemple dans une étude mettant en œuvre une intervention chirurgicale, il y a risque de décès opératoire, dans ce cas d’autre modèle peuvent être utilisé.

– Densité de probabilité de durée de survie:

f(t) =lim [ prob (t < T< (t+dt) ] / dt

dt ->0

– Fonction de répartition :

– S(t) • On s’intéresse à la probabilité de survie ad delà

de t: c’est la fonction de survie

• S(t) = Prob( T> t) = 1 –F(t)

• Fonction monotone décroissante continue telle que S(0) =1 Lim (S(t) = 0 quand t-> infini

t

duuftTprobtF0

)()()(

6

Risque instantané de décès

• Cette fonction s’appelle aussi force de mortalité ou fonction de risque

• Propriétés

• On a donc

• Fonction de risque cumulée

• Et

dttTdttTtprobth dt))/(((lim)( 0

tSdtd

tStS

tStfth ln

)()('

)()()(

t

duuhtS0

)(exp)(

)(ln)()(0

tSduuhtHt

)(exp)()( tHthtf

7

Risque instantané de décès

• La fonction de risque h(t) fournit la description la plus concrète d’une distribution de survie.

• Courbe a : risque instantané constant, il n’y a pas de vieillissement (plage 10 à 15 ans)

• Courbe b : le risque instantané augmente avec l’âge, il y a vieillissement

• Courbe c : diminution du risque instantané avec l’âge (plage de 0 à 1 an)

8

Comparaison de courbes de survies• Probabilités conditionnelles et

indépendance

– L'événement A est dit indépendant de B si la probabilité de voir se réaliser A ne dépend pas de la réalisation ou de la non réalisation de B.

– P(A/B) = P(A/non B) = P(A)

– Si, et seulement si, A et B sont indépendants, on a :

– P(A et B) = P(A) * P(B)

• Application à la survie Kaplan -Meier

– Soit les événements Morts-Vivants

– P(Vivant) = 1 - P(Mort)

– Être vivant au jour J+1 c’est ne pas être mort au jour 0, 1,…J, J+1. Donc la probabilité d'être vivant au jour J et au jour J+1 est égale au produit des probabilités d'être vivant au jour 0 et jour 1 et… et au jour J+1.

9

Courbe de survie

• Tableau des valeurs

Jour Exposés DCD PDV P(DCD) P(Viv.) Pcum(Viv)0 100 0 0 0 1 11 100 3 0 0,03 0,97 1*0,976 97 2 0 2/97

=0,0206 0,9794 0,97*0,9794 =0,95002

7 95 0 3 0 1 0,9500210 92 … … … … …

• Jour = délai en jours entre l'entrée dans l'étude et la survenue de l'événement.

• Exposés = nombre de personnes exposées au risque au jour j

• DCD = Nombre de décès (événements) constatés au jour J• PDV = Nombre de perdus de vue au jour J• P(DCD) = probabilité de mourir au jour J (Nombre de

décès parmi les exposés au jour j)• P(Viv) = Probabilité au jour j d'être en vie = 1-P(DCD)• Pcum(Viv) = Probabilité cumulée de survie au jour J =

Probabilité d'être en vie au jour J0 et J1 … et Jn.

10

Estimation de l’intervalle de confiance de la survie

• Méthode de Greenwood

• Faire le calcul pour J6 avec alpha = 0,05– Epsilon 5% = 1,96

)....1(*222

2

111

1

iiii

dnndi

dnnd

dnndS

)297(972

)3100(1003*)96,11(*95002,0

11

Comparaison de courbes de survies

• Position du problème– On désire comparer l'évolution de

2 groupes de sujets.– Pour cela, on pourrait comparer

les pourcentages de décès survenant dans chacun de ces groupes; ou encore comparer les taux de survie à un instant donné. Ces solutions ne permettent pas de tenir compte des moments auxquels les décès se produisent.

– Le test qui permet de tenir compte du nombre de décès et de leur délais est le test du Logrank.

12


• Éléments nécessaires à la comparaison :– Deux tableaux de survie

– Jour, – Nombre de sujets soumis au risque

juste avant ce jour, – Nombre d'événement ce jour, – Perdus de vue, – Probabilité élémentaire, – Probabilité globale

– Principe du test– Si les deux courbes de survie sont identiques,

les risques à un moment donné sont les mêmes dans les deux groupes. Ainsi, si au jour 97, 176 sujets sont soumis au risque dans le groupe 1 et 162 dans le groupe 2, le nombre total d'exposés est de 176+162 = 338. Si au jour 97, on a deux décès en tout, le risque élémentaire est de 2/338 soit 0,0059. Sous cette hypothèse, on aurait du obtenir dans le premier groupe 176*0,0059 = 1,04 décès et 2-1,04 = 0,96 dans le second groupe.

13


• Hypothèses– Hypothèse nulle

• Les événements surviennent avec la même fréquence dans les deux groupes et au même moment.

– Hypothèses alternatives• Les événements ne surviennent pas avec la

même fréquence ou pas au même moment dans les deux groupes

• Statistique : Khi 2– Calcul du total des événements attendus dans un des

groupes EA

– Par différence EB = Total des événements - Ea

– Khi 2 avec DDL = 1

Khi 2 =(O

A - E

A)2

EA * E

B

EA + E

B

• Si Khi 2 > Khi 2 alpha, rejet de H0

14

Exemple

• Groupe 1Groupe 1

Délai Exposés DCD PDV PDCV PiVI PcVi1 100 0 0 0,0000 1,0000 1,0000

12 100 1 0 0,0100 0,9900 0,990015 99 0 4 0,0000 1,0000 0,990018 95 3 0 0,0316 0,9684 0,958724 92 4 0 0,0435 0,9565 0,917128 88 0 5 0,0000 1,0000 0,917136 83 5 0,0602 0,9398 0,8618

• Groupe 2

Gpe 2Délai Exposés DCD PDV PDCV PiVI PcVi

1 150 0 0 0,0000 1,0000 1,000012 150 0 5 0,0000 1,0000 1,000015 145 1 0 0,0069 0,9931 0,993118 144 0 0 0,0000 1,0000 0,993124 144 0 3 0,0000 1,0000 0,993128 141 1 0 0,0071 0,9929 0,986136 140 6 0 0,0429 0,9571 0,9438

15

Exemple

• Attendus

Délai Exposés DCD PDV PDCDAttendus Gpe 1

Attendus Gpe 2

1 250 0 0 0,0000 0,00 0,0012 250 1 5 0,0040 0,40 0,6015 244 1 4 0,0041 0,41 0,5918 239 3 0 0,0126 1,19 1,8124 236 4 3 0,0169 1,56 2,4428 229 1 5 0,0044 0,38 0,6236 223 11 0 0,0493 4,09 6,91

Total 21 8,036 12,964

Khi 2 =(O

A - E

A)2

EA * E

B

EA + E

B

=(13 - 8,036)

2

8,036 * 12,964

21

= 4,97 DDL = 1 Khi 2 > 3,84 Il existe une différence significative entre les 2 groupes au seuil de risque 5%

16

Méthode actuarielle

• Semblable à la méthode Kaplan-Meier mais les intervalles de temps ne sont plus déterminés par la survenue des événements.

• La taille des intervalles de temps est fixée a priori : 1 semaine, 1 mois,1 an…

• On calcule la probabilité de survie dans chaque intervalle => moins exacte que Kaplan-Meieir.

• Le nombre d’exposés dans l’intervalle est le nombre de personne exposée en début d’intervalle moins la moitiés des perdus de vue dans l’intervalle.

• Puis les calculs sont identiques.

17

Modèle de Cox : Approche semi-paramétrique

• Modèle multi-variées– Permet la prise en compte simultanée de

plusieurs variables pour expliquer la survie sans donner aux fonctions de survie des formes paramétriques précises

• Utilité de ce modèle– Ajustement sur des variables pronostiques dans

un essai thérapeutique

– Identification des associations de variables pertinentes à des fins pronostiques

– ….

• La variable à expliquer est dichotomique, les variables explicatives peuvent être qualitatives ou quantitatives

• Permet d’exprimer le risque instantané de survenue de l’événement en fonction des facteurs explicatifs.

18

Données

• Données usuelles de survie, pour chaque sujet– Date d’origine, Date des dernières

nouvelles et État

– Les sujets pour lesquels on ne connaît pas l’état à la date de point ou ceux qui ne sont pas « mort » à cette date constituent des données censurées

• Les variables explicatives Xj

– Sont qualitatives ou quantitatives

• La variable T est le délai entre la date d’origine et la date de survenue de l’événement

• Le modèle de Cox permet d’exprimer le risque instantané de survenue de l’événement en fonction de l’instant t et des variables Xj

19

Risque instantané

• C’est le produit d’une fonction h0(t) qui ne dépend que du temps et d’une fonction c(b,X) qui n’en dépend pas.

• La dépendance est mesurée par le vecteur des coefficients de régression b.

• Finalement, le risque instantané s’écrit :

=(t, X1,X2,..) = 0(t) exp( jXj)

• La relation entre le risque instantané et les covariables est log-linéaire :

Lob )=log[(t, X1,X2,..)]

=log(0(t) + jXj)

20

Risque instantané• Si par exemple, les variables Xj

représentent des facteurs de risque et si elles sont toutes égales à 0, 0 (t) est le risque instantané de sujets ne présentant aucun facteur de risque.

• La forme de 0 (t) n’étant pas précisée, c’est plutôt l’association entre les variables Xj et la sur venue de l’événement considéré qui est l’intérêt central du modèle. Cela revient à déterminer les coefficients j

• Le rapport des risques instantanés de 2 individus dont les caractéristiques respectives sont (X 1 , X2 , ..., Xp ) et (X’ 1 , X’2 , ..., X’p ) est :

Ce rapport ne dépend pas du temps. Le modèle est dit à risques proportionnel. C’est un hypothèse importante du modèle de Cox

=(t, X1,X2,..) = exp( jXj)

=(t, X’1,X’2,..) = exp( jX’j)

21

Variable X dichotomique

• X prend les valeurs 1 ou 0 selon la présence ou l’absence d’une caractéristique donnée. Le rapport des risques instantané des sujets de la classe 1 par rapport à la classe 0 est :

Le coefficient est le logarithme du risque instantané de la classe 1 par rapport à la classe 0

• De façon générale, les coefficients j

représentent l’effet de la caractéristique Xj et la survenue de l’événement. Si j =0 la

jième caractéristique n’a pas d’influence sur la caractéristique. Si j est positif et si

2sujets ne différent que par leur jième caractéristique, des valeurs élevée de la jième caractéristique sont associées à un risque instantané plus élevé. Inversement si j est négatif.

=(t, 1) =(t, 1)

= e

22

Estimation et test• Le principe pour le modèle de Cox

est de n’estimer que les coefficients j . On ne cherche pas à estimer 0(t).

• Les estimateurs des j sont obtenus par la méthode du maximum de vraisemblance. Plus exactement, seule la partie de la vraisemblance comportant de l’information sur les coefficients j est retenue pour les calculs. On parle de vraisemblance de Cox.

• On teste l’hypothèse H0 que le vecteur des effets ( , ) est nul grâce à 3 tests :– Le test du score

– Le test de Wald

– Le test du rapport de vraissemblance

23

Conclusions

• Les modèles multivariés permettent de représenter la variable étudiée en fonction de plusieurs autres variables.– Le modèle de COX :

• La variable à expliquer est dichotomique, les variables explicatives peuvent être qualitatives ou quantitatives.

• Il permet d’exprimer le risque instantané de survenue de l’événement en fonction des facteurs explicatifs

– La régression linéaire multiple• La variable a expliquer est quantitative, sa

distribution est normale.

– La régression logistique• La variable à expliquer est dichotomique,

les variables explicatives peuvent être qualitatives ou quantitatives.

• Ce modèle permet de déterminer la probabilité de survenue de l’événement étudié en fonction des facteurs explicatifs

24

Conclusions

• Le modèle de Cox– Est adapté aux données dont le délai de

suivi est variable selon les sujets et aux données censurées

– Si la période de suivi est fixe et si il n’y a pas de données censurée le modèle de régression logistique convient aussi bien que le modèle de Cox.

– Le modèle de Cox • permet de tenir compte de l’interaction des

variables explicatives

• Le risque instantané est le produit d’une fonction qui dépend du temps et d’une fonction qui ne dépend que des variables explicatives (caractéristiques du sujet). C’est l’hypothèse du risque proportionnel.

• Le modèle est multiplicatif : le risque instantané de survenue de l’événement est multiplié par une constante quand on change la valeur d’une variable explicative

25

SAS et la survie

• Analyse exploratoire :– LIFEREG : modèles

paramétriques– LIFETEST pour

• calculer les fonctions risque et de survie,

• tests de différence entre plusieurs fonctions de survie.

• Modèle Cox à risque proportionnel– PHREG pour construire un

modèle Cox à risqueproportionnel,

– validation des hypothèses,– construction de modèles Cox à

risque non proportionnels.

Documents

1 Courbes de survie C1 Statistiques. 2 Définitions Pour chaque sujet il faut connaître : –La date de début dobservation (cest la date dorigine), la date