Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Bases statistiques pour réussir sa thèse : l’obsession du « petit p »
Ingrid MILLET, MD, PhD
Service d’Imagerie Médicale
CHU Lapeyronie
Jeudi 7 février 2019
Cours DES – Recherche
Quelques rappels …
La thèse, à quoi ça peut servir ?
A faire une hypothèse= UNE question pour UN résultat et UN message
But = démontrer que l’hypothèse d’égalité est fausse (= H0)
Prédire Associer
Estimer Comparer Diagnostiquer
Evaluer
L’hypothèse
• On la nomme H0 ou hypothèse nulle• Le scanner a des perf diag > à l’IRM dans l’appendicite aiguë
• H0 = AUC ROC scanner = AUC ROC IRM
• La valeur d’ADC est corrélé au stade de Gleason dans le cancer de prostate• H0 = ADC indépendante du stade de Gleason = distribution des valeurs d’ADC
(moyennes) est identique quel que soit le stade de Gleason
• La prescription d’un scanner pour suspicion d’embolie pulmonaire dépend de l’urgentiste
• H0 = taux de prescription de scanner est identique quel que soit l’urgentiste
• L’hypothèse alternative est nommé H1
But = démontrer que l’hypothèse d’égalité est fausse (= H0)
La p-value
• Probabilité que le résultat de mon test soit lié à la chance (ou au hasard)
= degré d’incertitude qu’un énoncé soit vrai
Exemple pour bien comprendre
• Efficacité de 2 traitements pour les cancers du rein (RF vs. Chirpartielle)
• H0 = % succès RF = % succès chir partielle• % succès RF (80%) vs. % succès chirurgie partielle (75%); P<0,05
• La probabilité que le % de RF = % de la chir dans une autre étude est < 0,05
• On peut dire aussi que la probabilité que mon résultat soit dû au hasard < 0,05
• DONC il est probable qu’il existe une différence d’efficacité entre les 2 ttt et le ttt par RF semble plus efficace.
P-value < 0.05 = l’effet observé n’est probablement pas dû à la chance.Mais cela ne veut pas dire que l’effet existe …
Comment gérer la p-value ?
Exemple 1
• Etudes rétrospectives comparant la mortalité réelle des traumatisés graves entre les groupes "imagerie conventionnelle" et "scanner corps entier".
Auteurs EtudeMortalité (imagerie
conventionnelle)Mortalité (scanner
« corps entier »)Odd Ratio (OR) p
Weninger et al. (2007)
370 patientsMonocentrique 16 % 17 % n.s.
Wurmb (2011) 318 patients
Monocentrique 9 % 8,5 % n.s.
Yeguiayan(2012)
1950 patientsMulticentrique 22 % 16 %
0,63(0,44 - 0,91)
James (2017)426 patients
Monocentrique 1,8 % 3,9 % n.s.
Tsutsumi (2018) 40435 patientsMulticentrique 16,4 % 16,6 %
0,84(0,72 - 0,98)
Que conclure ?
Exemple 1
• Etudes rétrospectives comparant la mortalité réelle des traumatisés graves entre les groupes "imagerie conventionnelle" et "scanner corps entier".
Auteurs EtudeMortalité (imagerie
conventionnelle)Mortalité (scanner
« corps entier »)Odd Ratio (OR) p
Weninger et al. (2007)
370 patientsMonocentrique 16 % 17 % n.s.
Wurmb (2011) 318 patients
Monocentrique 9 % 8,5 % n.s.
Yeguiayan(2012)
1950 patientsMulticentrique 22 % 16 %
0,63(0,44 - 0,91)
James (2017)426 patients
Monocentrique 1,8 % 3,9 % n.s.
Tsutsumi (2018) 40435 patientsMulticentrique 16,4 % 16,6 %
0,84(0,72 - 0,98)
1%
0,5%
5%
2,1%
0,2%
La p-value
• Plus la magnitude de l’effet est petite et plus l’échantillon devra être grand pour montrer une différence significative
4. Altman D G, Bland J M. British Med Journal. 1995:311–485.
Exemple 2
• Estimer l’évolution du poids des enfants en fonction du contexte tabagique de la mère.
• 12987 bébés
Adapted from V. Conter, BMJ, 1995
Habitude tabagique mère
3 mois 6 mois P-value
Non fumeur vs. fumeur
- 76 (-188 à 9) - 50 (-136 à 121) NS
Non fumeur vs. gros fumeur
- 172 (-141 à 30) - 55 (-129 à 93) NS
Habitude tabagique mère
Poids de naissance P-value
Non fumeur vs. fumeur
- 257 (-319 à -181) < 0.01
Non fumeur vs. gros fumeur
- 172 (-222 à -103) < 0.01
La p-value
• Plus la magnitude de l’effet est petite et plus l’échantillon devra être grand pour montrer une différence significative
• Ne renseigne pas sur la signification « clinique » du résultat
Exemple 3
• Je randomise mes patients en 2 groupes pour évaluer l’efficacité d’un nouveau traitement endovasculaire d’un anévrysme :• groupe 1 pour stent A (200p)
• groupe 2 pour le nouveau stent B (200p)
• Voilà les premiers résultats descriptifs de la cohorte, que pensez vous de ces p-values ?
Groupe 1 Groupe 2 P-value
Age (ans) 78 (67-85) 81 (65-89) 0,04
Sexe (femmes) 84 % (80-86) 81% (75-86) 0,08
Tabagique (oui) 78% (65-81) 75% (63-78) 0,56
• P-value INUTILE dans ce tableau
• Car la randomisation = répartition aléatoire des patients pour qu’ils soient en tout point comparables sauf pour le traitement étudié.
• DONC la probabilité que le hasard explique les différences entre les 2 groupes au début de l’étude est de… 100%
Rappel : P-value = probabilité que le résultat que je trouve soit lié à la chance (ou au hasard)
La p-value
• Plus la magnitude de l’effet est petite et plus l’échantillon devra être grand pour montrer une différence significative
• Ne renseigne pas sur la signification « clinique » du résultat
• N’a pas de sens sur les « variables intrinsèques » des patients qui ont été randomisés (ou appariés sur ces variables…).
Exemple 4
• Evaluer l’influence des paramètres du patient et de la tumeur sur la cinétique de rehaussement des tumeurs invasives du sein
• N = 273
Millet, Radiology, 2014
Washout
% pic
Tps au pic
Pente phase précoce
.02
.02
.02
.02
La p-value
• Plus la magnitude de l’effet est petite et plus l’échantillon devra être grand pour montrer une différence significative
• Ne renseigne pas sur la signification « clinique » du résultat
• N’a pas de sens sur les « variables intrinsèques » des patients qui ont été randomisés ou appariés.
• !!! Tests multiples = « P-hacking » !!!• Risque ⍺ = au moins 1 test / 20 sera significatif par simple loi de probabilité…
donc on conclura à tort au rejet de H0 alors qu’elle est vrai 1 fs/20
• Solution = diminuer le risque alpha de chaque test (correction de Bonferroni, False Discovery Rate…)
.02
.02
.02
.02.02
.02
.02
.02
La p-value
• Plus la magnitude de l’effet est petite et plus l’échantillon devra être grand pour montrer une différence significative
• Ne renseigne pas sur la signification « clinique » du résultat
• N’a pas de sens sur les « variables intrinsèques » des patients qui ont été randomisés ou appariés.
• !!! Tests multiples = « P-hacking » !!! Correction du risque ⍺
Que faire si p-value > 0,05 ?
• On n’a pas réussi à rejeter H0 = on n’a pas réussi à mettre en évidence une différence ou un effet.
• Ce qui est différent de il n’y a « pas d’effet » ou « pas de différence ».
« An absence of evidence is not evidence of absence »
4. Altman D G, Bland J M. British Med Journal. 1995:311–485.
CAT : Calcul de la puissance à postériori (si non fait initialement !)
Autres réflexions…
Exemple 1
• Etude cas-témoins pour rechercher des signes scanners prédictifs de la présence d’une tumeur appendiculaire dans le cadre d’une appendicite aiguë.
• 1 cas de tumeur appendiculaire pour 3 appendicites simples
• N TOTAL = 258 patients appariés sur l’âge et le sexe
Signes Sens Spe VPP VPN
Epaississement irrégulier focal
15% 95% 90% 20%
Masse tissulaire 6% 98% 80% 30%
Perforation 60% 78% 75% 70%
Que pensez-vous des valeurs prédictives ?
Valeurs prédictives
• Leur interprétation dépend de la prévalence de la maladie dans la population
• !!! ATTENTION à leur interprétation dans les populations « enrichies » ou les études cas-témoins• Prévalence inappropriée
• Valeurs prédictives seront alors non « utilisables » en pratique clinique car non transposables
Préférer les mesures diagnostiques bayésiennes de type rapport de vraisemblance
Exemple 2
• Pancréatite aiguë : 2 types de collection • Nécrotiques (CAN)
• Liquidiennes (CLAP)
• Objectif : le scanner permet-il de bien classer ces collections ?
• On prends 2 lecteurs et on leur demande de classer les collections sur 178 scanners de pancréatite aiguë.
L1 CAN L1 CLAP
L2 CAN 110 5 115
L2 CLAP 7 56 63
117 61 178
K = 0,80(95 IC : 0,70-0,91)
Conclusion : Le scanner est très performant pour classer les collections péri pancréatiques puisque la reproductibilité inter-observateur (kappa) est excellente.
La reproductibilité
• Kappa statistiques : mesure de la concordance en tenant compte de l’effet du hasard
• Ne doit pas être utilisé comme une mesure de l’exactitude diagnostiquemais comme une mesure de la fiabilité d’une mesure
• NB : les valeurs du kappa seront pénalisées si :• Faible prévalence de la maladie ou du signe étudié (la moindre erreur sera
« coûteuse »)
• Forte différence d’expérience des lecteurs (discordances mal « équilibrées »)
• Plusieurs classes dans le tableau (nombre important de discordance possible)
Ce n’est pas parce qu’on est reproductible que le résultat est exact !
Exemple 3
• On cherche une éventuelle association entre les valeurs d’ADC et la cellularité tumorale (compte des cellules tumorales)
• Utilise la technique des coefficients de corrélation de Pearson
ADC(mm2/sec)
Compte des cellules
𝜌=0,55 (0,45-0,72)p<0,00002
Adapted from Surov, Anticancer Res, 2017
Coefficient de corrélation
• Recherche une association LINEAIRE entre 2 variables quantitatives.
• Test = H0, ⍴=0
• Valeurs entre (-0,5 – 0,5) : association faible même si S…
• !!!! N’évalue pas la relation de cause à effet !!!
Mais au fait, quels tests dois-je utiliser ?
Chi2 si grands effectifsFisher si effectifs < 5 / case
Quelles étapes pour y arriver ?
• Formuler votre hypothèse nulle et alternative
• Comprendre le type de données que vous avez : quantitatives (distribution gaussienne ou pas), qualitatives, ordonnées ou pas, appariés…
• Choisir le test statistique approprié
• Calculer la p-value et les IC95%
• Décider du rejet ou non de H0 et l’interpréter
Anvari, Radiographics 2015
ConclusionPour bien réussir sa thèse …
• Bien poser son hypothèse de départ en termes statistiques
• Significativité statistique ≠ significativité clinique
• Garder un œil critique sur les résultats, ne pas sur-interpréter, restez modestes
Albert Einstein