17
Régression segmentée Régression segmentée pour l’analyse de pour l’analyse de données longitudinales données longitudinales interrompues interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections graves » affections graves »

Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Embed Size (px)

Citation preview

Page 1: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Régression segmentée pour Régression segmentée pour l’analyse de données l’analyse de données

longitudinales interrompueslongitudinales interrompues

Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections graves »Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections graves »

Page 2: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

IntroductionIntroduction

Comment mesurer l’effet d’un ou plusieurs évènements Comment mesurer l’effet d’un ou plusieurs évènements sur une série de mesures répétées dans le temps :sur une série de mesures répétées dans le temps :

……Si en plus il n’est pas possible d’avoir un groupe Si en plus il n’est pas possible d’avoir un groupe contrôle en parallèle (pour raisons éthiques, financières ou contrôle en parallèle (pour raisons éthiques, financières ou autres) autres)

Effet de la mise en vente du vaccin pour la prévention du cancer Effet de la mise en vente du vaccin pour la prévention du cancer du col de l’utérus sur l’incidence des dépistages de ces cancersdu col de l’utérus sur l’incidence des dépistages de ces cancers

Effet de l’attentat du World Trade Center sur l’indice du Dow JonesEffet de l’attentat du World Trade Center sur l’indice du Dow Jones L’évènement peut être :L’évènement peut être :

• Intervention volontaire (ex : campagne de prévention)Intervention volontaire (ex : campagne de prévention)• Imprévu (ex : un attentat)Imprévu (ex : un attentat)

La variable d’intérêt peut être quantitative :La variable d’intérêt peut être quantitative : Continue (ex : Taux d’infections)Continue (ex : Taux d’infections) Discrète (ex : Nombre de naissances)Discrète (ex : Nombre de naissances) La variable d’intérêt doit être mesurée à intervalles réguliers dans La variable d’intérêt doit être mesurée à intervalles réguliers dans

le tempsle temps

Page 3: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

ConceptsConcepts

Série chronologiqueSérie chronologique : Séquence de valeurs d’une mesure : Séquence de valeurs d’une mesure particulière prise à intervalle réguliers dans le tempsparticulière prise à intervalle réguliers dans le temps

Temps

Taux d’infections nosoc.

Page 4: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

ConceptsConcepts

SegmentSegment : Portion de série chronologique. Les segments : Portion de série chronologique. Les segments sont reliés aux points de transitions («Change points»)sont reliés aux points de transitions («Change points»)

Taux d’infections nosoc.

Temps

Page 5: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

ConceptsConcepts Points de transitionsPoints de transitions : Point spécifiques où les valeurs : Point spécifiques où les valeurs

montrent des changements de comportement liés à des montrent des changements de comportement liés à des évènements précis (intervention…)évènements précis (intervention…)

Taux d’infections nosoc. Campagne nationale de prévention

des infections nosocomiales

Temps

Page 6: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

ConceptsConcepts Chaque segment est défini par :Chaque segment est défini par :

Le niveau (level, baseline)Le niveau (level, baseline) Une tendance (trend)Une tendance (trend)

Le principe de la régression segmentée est de mesurer les Le principe de la régression segmentée est de mesurer les changements de niveau et de tendance qui suivent une changements de niveau et de tendance qui suivent une interventionintervention

Intervention

Page 7: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Organisation des donnéesOrganisation des données

Collectées à intervalles réguliers (ex: toutes les années, Collectées à intervalles réguliers (ex: toutes les années, mois, semaines…)mois, semaines…)

Dans le cas de données orientées Patient (1 observation = 1 Dans le cas de données orientées Patient (1 observation = 1 patient), il est nécessaire d’agréger en données orientées Temps (1 patient), il est nécessaire d’agréger en données orientées Temps (1 observation = 1 mois)observation = 1 mois)

Ex : Age du patient p Ex : Age du patient p Age moyen des patients dans la semaine s Age moyen des patients dans la semaine s

La variable d’intérêt (Outcome) peut être une moyenne, un La variable d’intérêt (Outcome) peut être une moyenne, un taux, une proportion…taux, une proportion…

Un nombre suffisant d’observations « contrôles » cad avant Un nombre suffisant d’observations « contrôles » cad avant l’intervention (et entre les interventions) l’intervention (et entre les interventions)

Page 8: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Régression segmentée standardRégression segmentée standard Modèle de régression linéaire Modèle de régression linéaire

/!\ Fait l’hypothèse d’un lien linéaire entre le temps et la variable /!\ Fait l’hypothèse d’un lien linéaire entre le temps et la variable d’intérêt dans chaque segmentd’intérêt dans chaque segment

Considérons 1 seule interventionConsidérons 1 seule intervention Le modèle s’écrit sous la forme :Le modèle s’écrit sous la forme :

ttttt eerventionaprèsTempsonInterventiTempsY int3210

Yt Taux d’infection nosocomiale au temps t

Tempst numéro de la semaine t

Interventiont égal à 0 avant l’intervention, égal à 1 au début de l’intervention

Temps après interventiont Numéro de la semaine depuis le début de l’intervention

Page 9: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Régression segmentée standardRégression segmentée standard

ttttt eerventionaprèsTempsonInterventiTempsY int3210

β0 = Niveau initial

β1 = Variation de Y pour 1 unité de temps

β2 = Variation immédiate suivant l’intervention

β3 = Variation de la tendance β1 après intervention

Yt

t

Page 10: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Exemple Exemple

0102030405060708090100

0 5 10 15 20 25 30

Intervention à t = 15

Page 11: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

ExempleExemple

0102030405060708090100

0 5 10 15 20 25 30

proc reg data=reg;model yt = t intervention t2;run;

C’est beau !

Page 12: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Améliorations possibles : Auto-corrélationAméliorations possibles : Auto-corrélation

Le modèle de régression fait une hypothèse Le modèle de régression fait une hypothèse d’indépendance entre les observations !d’indépendance entre les observations !

Peu réaliste pour des données longitudinalesPeu réaliste pour des données longitudinales Sous estime les écarts types Sous estime les écarts types Sur estime la significativité des Sur estime la significativité des

estimateursestimateurs

Comment le vérifier ?Comment le vérifier ? Représenter graphiquement les résidus Vs le temps, une tendance Représenter graphiquement les résidus Vs le temps, une tendance

suggère une autocorrélationsuggère une autocorrélation Calculer la statistique de Durbin-Watson pour tester la présence Calculer la statistique de Durbin-Watson pour tester la présence

d’autocorrélation (sous SAS proc autoreg)d’autocorrélation (sous SAS proc autoreg)

Comment y remédier ?Comment y remédier ? Estimer le paramètre d’autocorrélation et l’introduire dans le modèle Estimer le paramètre d’autocorrélation et l’introduire dans le modèle

si nécessairesi nécessaire Il est possible de corriger pour des autocorrélations saisonnièresIl est possible de corriger pour des autocorrélations saisonnières

Page 13: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Autres améliorations possiblesAutres améliorations possibles

La variable d’intérêt peut être influencée par des facteurs La variable d’intérêt peut être influencée par des facteurs autres que l’intervention et le tempsautres que l’intervention et le temps

Ex : Nombre d’interventions chirurgicales est lié au taux d’ infections Ex : Nombre d’interventions chirurgicales est lié au taux d’ infections nosocomialesnosocomiales

On peut introduire des co-variables d’ajustementOn peut introduire des co-variables d’ajustement

Possibilité de faire des analyses stratifiées en sous groupesPossibilité de faire des analyses stratifiées en sous groupes Possibilité d’introduire plusieurs interventionsPossibilité d’introduire plusieurs interventions

Page 14: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Etapes de développement d’un modèle de Etapes de développement d’un modèle de régression segmentée (Suggestions)régression segmentée (Suggestions)

Observer graphiquement les donnéesObserver graphiquement les données Construire un modèle completConstruire un modèle complet Supprimer les variables non significativesSupprimer les variables non significatives Ajouter les variables d’ajustementAjouter les variables d’ajustement Tester autocorrélation et ajouter un terme si besoinTester autocorrélation et ajouter un terme si besoin Vérifier autres points de contrôles spécifiques au modèle Vérifier autres points de contrôles spécifiques au modèle

(résidus, normalité…)(résidus, normalité…)

Page 15: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

Conclusion Conclusion

AvantagesAvantages Quand il est impossible d’avoir un groupe contrôle en parallèleQuand il est impossible d’avoir un groupe contrôle en parallèle Simple à mettre en placeSimple à mettre en place Méthodologie et résultats intelligiblesMéthodologie et résultats intelligibles

• Coefficients = variation immédiate et dans le tempsCoefficients = variation immédiate et dans le temps

• Obtention d’intervalles de confiance pour les variations associées aux Obtention d’intervalles de confiance pour les variations associées aux interventionsinterventions

• Présentation sous forme graphiquePrésentation sous forme graphique Facilement extensible :Facilement extensible :

• Plusieurs interventions possiblesPlusieurs interventions possibles

• Prise en compte saisonnalité, auto corrélation, ajustementsPrise en compte saisonnalité, auto corrélation, ajustements

• Transformation de variables en cas de non linéarité ou non normalitéTransformation de variables en cas de non linéarité ou non normalité

Page 16: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

InconvénientsInconvénients

Inconvénients :Inconvénients : Contraintes liées aux hypothèses du modèle :Contraintes liées aux hypothèses du modèle :

• Relation linéaire entre le temps et la variable d’intérêtRelation linéaire entre le temps et la variable d’intérêt• Normalité Normalité

Agrège les données patients en données tempsAgrège les données patients en données temps• Perte d’information (précision)Perte d’information (précision)• Ne permet pas d’ajuster par des variables orientées patient Ne permet pas d’ajuster par des variables orientées patient

mais des variables agrégéesmais des variables agrégées Nombre d’observation conseillé Nombre d’observation conseillé min .10 obs par min .10 obs par

variables rentrées dans le modèlevariables rentrées dans le modèle

Alternative : Modèles ARIMA Alternative : Modèles ARIMA

Aurélien VESIN
Page 17: Régression segmentée pour lanalyse de données longitudinales interrompues Aurélien VESIN – U823 – Equipe 11 : « Epidémiologie des cancers et affections

BibliographieBibliographie A.K Wagner and al. ; « Segmented regression analysis of interrupted time A.K Wagner and al. ; « Segmented regression analysis of interrupted time

series studies in medication use research » ; Journal of clinical Pharmacy an series studies in medication use research » ; Journal of clinical Pharmacy an Therapeutics (2002) 27,299-309Therapeutics (2002) 27,299-309

Weinberg and al. ; « Reducing infections among women undergoing cesarean Weinberg and al. ; « Reducing infections among women undergoing cesarean section in columbia by means of continuous quality improvment methods » ; section in columbia by means of continuous quality improvment methods » ; Arch Intern Med (2001) 161, 2357-2365Arch Intern Med (2001) 161, 2357-2365

Ansari and al. ; « Outcomes of an intervention to improve hospital antibiotic Ansari and al. ; « Outcomes of an intervention to improve hospital antibiotic prescribing : Interrupted time series with segmented regression analysis » ; prescribing : Interrupted time series with segmented regression analysis » ; Journal of antimicrobial chemotherapy (2003) 52, 842-848Journal of antimicrobial chemotherapy (2003) 52, 842-848

Morgan and al. ; « Interrupted time-series analysis of regulations to reduce Morgan and al. ; « Interrupted time-series analysis of regulations to reduce paracetamol (acetainophen) poisoning » ; PLOS medicine (2007) 4, 654-659paracetamol (acetainophen) poisoning » ; PLOS medicine (2007) 4, 654-659

Shardell and al. ; « Statistical analysis and application of Quasi Experiments to Shardell and al. ; « Statistical analysis and application of Quasi Experiments to antimicrobial resistance intervention Studies » ; Antimicrobial resistance (2007) antimicrobial resistance intervention Studies » ; Antimicrobial resistance (2007) 45, 901-90745, 901-907