Bases statistiques pour réussir sa thèse : l’obsession du

Bases statistiques pour réussir sa thèse : l’obsession du « petit p »

Ingrid MILLET, MD, PhD

Service d’Imagerie Médicale

CHU Lapeyronie

Jeudi 7 février 2019

Cours DES – Recherche

Quelques rappels …

La thèse, à quoi ça peut servir ?

A faire une hypothèse= UNE question pour UN résultat et UN message

But = démontrer que l’hypothèse d’égalité est fausse (= H0)

Prédire Associer

Estimer Comparer Diagnostiquer

Evaluer

L’hypothèse

• On la nomme H0 ou hypothèse nulle• Le scanner a des perf diag > à l’IRM dans l’appendicite aiguë

• H0 = AUC ROC scanner = AUC ROC IRM

• La valeur d’ADC est corrélé au stade de Gleason dans le cancer de prostate• H0 = ADC indépendante du stade de Gleason = distribution des valeurs d’ADC

(moyennes) est identique quel que soit le stade de Gleason

• La prescription d’un scanner pour suspicion d’embolie pulmonaire dépend de l’urgentiste

• H0 = taux de prescription de scanner est identique quel que soit l’urgentiste

• L’hypothèse alternative est nommé H1

But = démontrer que l’hypothèse d’égalité est fausse (= H0)

La p-value

• Probabilité que le résultat de mon test soit lié à la chance (ou au hasard)

= degré d’incertitude qu’un énoncé soit vrai

Exemple pour bien comprendre

• Efficacité de 2 traitements pour les cancers du rein (RF vs. Chirpartielle)

• H0 = % succès RF = % succès chir partielle• % succès RF (80%) vs. % succès chirurgie partielle (75%); P<0,05

• La probabilité que le % de RF = % de la chir dans une autre étude est < 0,05

• On peut dire aussi que la probabilité que mon résultat soit dû au hasard < 0,05

• DONC il est probable qu’il existe une différence d’efficacité entre les 2 ttt et le ttt par RF semble plus efficace.

P-value < 0.05 = l’effet observé n’est probablement pas dû à la chance.Mais cela ne veut pas dire que l’effet existe …

Comment gérer la p-value ?

Exemple 1

• Etudes rétrospectives comparant la mortalité réelle des traumatisés graves entre les groupes "imagerie conventionnelle" et "scanner corps entier".

Auteurs EtudeMortalité (imagerie

conventionnelle)Mortalité (scanner

« corps entier »)Odd Ratio (OR) p

Weninger et al. (2007)

370 patientsMonocentrique 16 % 17 % n.s.

Wurmb (2011) 318 patients

Monocentrique 9 % 8,5 % n.s.

Yeguiayan(2012)

1950 patientsMulticentrique 22 % 16 %

0,63(0,44 - 0,91)

James (2017)426 patients

Monocentrique 1,8 % 3,9 % n.s.

Tsutsumi (2018) 40435 patientsMulticentrique 16,4 % 16,6 %

0,84(0,72 - 0,98)

Que conclure ?

Exemple 1

• Etudes rétrospectives comparant la mortalité réelle des traumatisés graves entre les groupes "imagerie conventionnelle" et "scanner corps entier".

Auteurs EtudeMortalité (imagerie

conventionnelle)Mortalité (scanner

« corps entier »)Odd Ratio (OR) p

Weninger et al. (2007)

370 patientsMonocentrique 16 % 17 % n.s.

Wurmb (2011) 318 patients

Monocentrique 9 % 8,5 % n.s.

Yeguiayan(2012)

1950 patientsMulticentrique 22 % 16 %

0,63(0,44 - 0,91)

James (2017)426 patients

Monocentrique 1,8 % 3,9 % n.s.

Tsutsumi (2018) 40435 patientsMulticentrique 16,4 % 16,6 %

0,84(0,72 - 0,98)

1%

0,5%

5%

2,1%

0,2%

La p-value

• Plus la magnitude de l’effet est petite et plus l’échantillon devra être grand pour montrer une différence significative

4. Altman D G, Bland J M. British Med Journal. 1995:311–485.

Exemple 2

• Estimer l’évolution du poids des enfants en fonction du contexte tabagique de la mère.

• 12987 bébés

Adapted from V. Conter, BMJ, 1995

Habitude tabagique mère

3 mois 6 mois P-value

Non fumeur vs. fumeur

- 76 (-188 à 9) - 50 (-136 à 121) NS

Non fumeur vs. gros fumeur

- 172 (-141 à 30) - 55 (-129 à 93) NS

Habitude tabagique mère

Poids de naissance P-value

Non fumeur vs. fumeur

- 257 (-319 à -181) < 0.01

Non fumeur vs. gros fumeur

- 172 (-222 à -103) < 0.01

La p-value


• Ne renseigne pas sur la signification « clinique » du résultat

Exemple 3

• Je randomise mes patients en 2 groupes pour évaluer l’efficacité d’un nouveau traitement endovasculaire d’un anévrysme :• groupe 1 pour stent A (200p)

• groupe 2 pour le nouveau stent B (200p)

• Voilà les premiers résultats descriptifs de la cohorte, que pensez vous de ces p-values ?

Groupe 1 Groupe 2 P-value

Age (ans) 78 (67-85) 81 (65-89) 0,04

Sexe (femmes) 84 % (80-86) 81% (75-86) 0,08

Tabagique (oui) 78% (65-81) 75% (63-78) 0,56

• P-value INUTILE dans ce tableau

• Car la randomisation = répartition aléatoire des patients pour qu’ils soient en tout point comparables sauf pour le traitement étudié.

• DONC la probabilité que le hasard explique les différences entre les 2 groupes au début de l’étude est de… 100%

Rappel : P-value = probabilité que le résultat que je trouve soit lié à la chance (ou au hasard)

La p-value



• N’a pas de sens sur les « variables intrinsèques » des patients qui ont été randomisés (ou appariés sur ces variables…).

Exemple 4

• Evaluer l’influence des paramètres du patient et de la tumeur sur la cinétique de rehaussement des tumeurs invasives du sein

• N = 273

Millet, Radiology, 2014

Washout

% pic

Tps au pic

Pente phase précoce

.02

.02

.02

.02

La p-value



• N’a pas de sens sur les « variables intrinsèques » des patients qui ont été randomisés ou appariés.

• !!! Tests multiples = « P-hacking » !!!• Risque ⍺ = au moins 1 test / 20 sera significatif par simple loi de probabilité…

donc on conclura à tort au rejet de H0 alors qu’elle est vrai 1 fs/20

• Solution = diminuer le risque alpha de chaque test (correction de Bonferroni, False Discovery Rate…)

.02

.02

.02

.02.02

.02

.02

.02

La p-value



• N’a pas de sens sur les « variables intrinsèques » des patients qui ont été randomisés ou appariés.

• !!! Tests multiples = « P-hacking » !!! Correction du risque ⍺

Que faire si p-value > 0,05 ?

• On n’a pas réussi à rejeter H0 = on n’a pas réussi à mettre en évidence une différence ou un effet.

• Ce qui est différent de il n’y a « pas d’effet » ou « pas de différence ».

« An absence of evidence is not evidence of absence »

4. Altman D G, Bland J M. British Med Journal. 1995:311–485.

CAT : Calcul de la puissance à postériori (si non fait initialement !)

Autres réflexions…

Exemple 1

• Etude cas-témoins pour rechercher des signes scanners prédictifs de la présence d’une tumeur appendiculaire dans le cadre d’une appendicite aiguë.

• 1 cas de tumeur appendiculaire pour 3 appendicites simples

• N TOTAL = 258 patients appariés sur l’âge et le sexe

Signes Sens Spe VPP VPN

Epaississement irrégulier focal

15% 95% 90% 20%

Masse tissulaire 6% 98% 80% 30%

Perforation 60% 78% 75% 70%

Que pensez-vous des valeurs prédictives ?

Valeurs prédictives

• Leur interprétation dépend de la prévalence de la maladie dans la population

• !!! ATTENTION à leur interprétation dans les populations « enrichies » ou les études cas-témoins• Prévalence inappropriée

• Valeurs prédictives seront alors non « utilisables » en pratique clinique car non transposables

Préférer les mesures diagnostiques bayésiennes de type rapport de vraisemblance

Exemple 2

• Pancréatite aiguë : 2 types de collection • Nécrotiques (CAN)

• Liquidiennes (CLAP)

• Objectif : le scanner permet-il de bien classer ces collections ?

• On prends 2 lecteurs et on leur demande de classer les collections sur 178 scanners de pancréatite aiguë.

L1 CAN L1 CLAP

L2 CAN 110 5 115

L2 CLAP 7 56 63

117 61 178

K = 0,80(95 IC : 0,70-0,91)

Conclusion : Le scanner est très performant pour classer les collections péri pancréatiques puisque la reproductibilité inter-observateur (kappa) est excellente.

La reproductibilité

• Kappa statistiques : mesure de la concordance en tenant compte de l’effet du hasard

• Ne doit pas être utilisé comme une mesure de l’exactitude diagnostiquemais comme une mesure de la fiabilité d’une mesure

• NB : les valeurs du kappa seront pénalisées si :• Faible prévalence de la maladie ou du signe étudié (la moindre erreur sera

« coûteuse »)

• Forte différence d’expérience des lecteurs (discordances mal « équilibrées »)

• Plusieurs classes dans le tableau (nombre important de discordance possible)

Ce n’est pas parce qu’on est reproductible que le résultat est exact !

Exemple 3

• On cherche une éventuelle association entre les valeurs d’ADC et la cellularité tumorale (compte des cellules tumorales)

• Utilise la technique des coefficients de corrélation de Pearson

ADC(mm2/sec)

Compte des cellules

𝜌=0,55 (0,45-0,72)p<0,00002

Adapted from Surov, Anticancer Res, 2017

Coefficient de corrélation

• Recherche une association LINEAIRE entre 2 variables quantitatives.

• Test = H0, ⍴=0

• Valeurs entre (-0,5 – 0,5) : association faible même si S…

• !!!! N’évalue pas la relation de cause à effet !!!

Mais au fait, quels tests dois-je utiliser ?

Chi2 si grands effectifsFisher si effectifs < 5 / case

Quelles étapes pour y arriver ?

• Formuler votre hypothèse nulle et alternative

• Comprendre le type de données que vous avez : quantitatives (distribution gaussienne ou pas), qualitatives, ordonnées ou pas, appariés…

• Choisir le test statistique approprié

• Calculer la p-value et les IC95%

• Décider du rejet ou non de H0 et l’interpréter

Anvari, Radiographics 2015

ConclusionPour bien réussir sa thèse …

• Bien poser son hypothèse de départ en termes statistiques

• Significativité statistique ≠ significativité clinique

• Garder un œil critique sur les résultats, ne pas sur-interpréter, restez modestes

Albert Einstein

Documents

Bases statistiques pour réussir sa thèse : l’obsession du