L’interprétation des essais cliniques

Preview:

Citation preview

Journal français d’ophtalmologie (2011) 34, 755—761

REVUE GÉNÉRALE

L’interprétation des essais cliniques

Critical reading of clinical trials

F. Aptela,∗, M. Cucheratb, E. Blumen-Ohanac,P. Denisd

a Service d’ophtalmologie, hospices civils de Lyon, hôpital Edouard-Herriot, 5, placed’Arsonval, 69437 Lyon cedex 03, Franceb Service de pharmacologie clinique, hospices civils de Lyon, 5, place d’Arsonval,69437 Lyon cedex 03, Francec Centre hospitalier national d’ophtalmologie des Quinze-Vingts, 28, rue de Charenton,75571 Paris, Franced Hospices civils de Lyon, hôpital de La-Croix-Rousse, 103, grande rue de La-Croix-Rousse,69317 Lyon cedex 04, France

Recu le 26 mai 2011 ; accepté le 3 juin 2011Disponible sur Internet le 11 octobre 2011

MOTS CLÉSEssais cliniques ;Méthodologie ;Biais ;Tests statistiques ;Pertinence clinique

Résumé Les essais cliniques prennent une place de plus en plus importante dans la médecineactuelle, en permettant d’évaluer de facon scientifique et rigoureuse l’ensemble stratégies thé-rapeutiques, et de valider les soins proposés aux patients. Les essais cliniques sont très souventle substratum rationnel de l’information qui est apportée aux médecins afin qu’ils adaptentleurs pratiques thérapeutiques. La lecture critique et l’interprétation des essais consistent àévaluer si les données disponibles fournissent une preuve suffisamment fiable que le traite-ment apportera en pratique un bénéfice suffisant et pertinent. Évaluer la qualité d’un essaiclinique est un processus qui fait appel à des concepts méthodologiques et statistiques quisont parfois complexes, mais qui doivent être connus si l’on souhaite pouvoir intégrer en touteimpartialité les données brutes présentées dans les publications d’essais cliniques. Cet articlese propose de rappeler de facon didactique les différentes notions statistiques et méthodolo-giques nécessaires à l’élaboration et à la compréhension des essais cliniques, et de permettreainsi une lecture critique des publications ou des présentations de résultats d’essais cliniques.Les grands principes méthodologiques nécessaires à la mise en évidence de facon indiscutabledu bénéfice clinique d’un traitement sont rappelés, ainsi que les différents écueils ou biaisqui font courir le risque de conclure à tort à l’efficacité du traitement. Les principes des testsstatistiques utilisés dans les essais cliniques, ainsi que certaines situations pouvant augmenter

le risque de conclure à tort à l’effet d’un traitement — telles que les analyses multiples, ensous-groupes, intermédiaires ou de non-infériorité — sont également abordés.© 2011 Elsevier Masson SAS. Tous droits réservés.

∗ Auteur correspondant.Adresse e-mail : aptel florent@hotmail.com (F. Aptel).

0181-5512/$ — see front matter © 2011 Elsevier Masson SAS. Tous droits réservés.doi:10.1016/j.jfo.2011.06.002

756 F. Aptel et al.

KEYWORDSClinical trial;Bias;Methodology;Statistical test;Clinical relevance

Summary Clinical trials are playing an increasingly crucial role in modern evidence basedmedicine, allowing for rigorous scientific evaluation of treatment strategies and validation ofpatient care. The results of clinical trials often form the rational basis from which physiciansdraw information used to adapt their therapeutic practices. Critical reading and analysis oftrials involves the assessment of whether the available data provide enough credible evidencethat the treatment will result in a clinically significant and relevant improvement. Evaluatingthe quality of a clinical trial is a process that draws upon sometimes complex methodologicaland statistical concepts, with which the reader should nonetheless be familiar in order to cometo impartial conclusions regarding the raw data presented in the clinical trials. The goal of thecurrent article is to review the methodological and statistical concepts required for the designand interpretation of clinical trials, so as to allow for a critical analysis of publications orpresentations of clinical trials. The first section describes the major methodological principlesof clinical trial design required for a rigorous evaluation of the treatment benefit, as wellas the various pitfalls or biases that could lead to erroneous conclusions. The second sectionbriefly describes the main statistical tests used in clinical trials, as well as certain situationsthat may increase the risk of false positive findings (type 1 error), such as multiple, subgroup,intermediate and non-inferiority analysis.© 2011 Elsevier Masson SAS. All rights reserved.

I

Lmftdlcbnmdt

psalatlppsêtdatlur

M

Lc

dCmebfàdc[

P

ÉUdéd

ÉUuégct1ddlr

ntroduction

es essais cliniques jouent un rôle fondamental dans laédecine actuelle en permettant de valider et d’évaluer de

acon scientifique et rigoureuse l’ensemble des soins et stra-égies thérapeutiques proposés aux patients. La complexitées mécanismes physiopathologiques et pharmacologiques,a nature probabiliste des phénomènes observés en méde-ine et en biologie, ainsi que l’intérêt limité car souventiaisé des études observationnelles font que les essais cli-iques correctement concus et réalisés représentent la seuleéthode permettant d’éliminer des résultats artéfactuels ete fournir des preuves fiables de l’efficacité clinique d’unraitement.

L’importance croissante de la médecine fondée sur lesreuves fait que les essais cliniques sont maintenant néces-aires à l’autorisation de nouveaux traitements par lesutorités réglementaires, et très souvent le substratum de’information qui est apportée aux médecins afin qu’ilsdaptent leurs pratiques thérapeutiques. Cette informa-ion est notamment souvent présentée directement pares industriels lors de la promotion des traitements qu’ilsroposent. L’interprétation des résultats des essais théra-eutiques fait appel à des concepts méthodologiques ettatistiques qui sont souvent complexes, mais qui doiventtre connus si l’on souhaite pouvoir intégrer en toute impar-ialité les données brutes présentées dans les publications’essais cliniques dans sa pratique clinique courante [1]. Cetrticle se propose de rappeler les différentes notions statis-iques et méthodologiques nécessaires à l’élaboration et àa compréhension des essais cliniques, et de permettre ainsine lecture critique des publications ou présentations deésultats d’essais cliniques [2—5].

éthodologie des essais cliniques

e but d’un essai thérapeutique est d’établir une relationausale entre une stratégie thérapeutique (administration

ddcs

’un traitement, geste chirurgical, etc.) et un effet observé.ependant, l’attribution de cet effet observé au traite-ent administré ne peut être faite que si l’essai clinique

st rigoureusement concu et conduit. En effet, de nom-reux phénomènes autres que le traitement, appelésacteurs confondants, peuvent interférer et laisser croire

tort à l’existence d’un effet thérapeutique. L’utilisatione certaines stratégies méthodologiques permet d’éviteres biais et de contrôler ces facteurs confondants3—5].

rincipes méthodologiques

tude prospectiven essai clinique doit être conduit de facon prospective, afine répondre spécifiquement à une question. La populationtudiée, le plan de l’étude et le ou les critères de jugementsoivent être définis avant de débuter l’essai.

tude contrôléen groupe témoin est indispensable pour pouvoir imputern effet observé à une procédure [5]. Par exemple, si unetude montre qu’un nouveau traitement des allergies auxraminées aboutit à un taux de guérison de 100 %, on pourraonclure à une efficacité importante. Si l’étude d’un groupeémoin non traité montre un taux de guérison spontané de00 %, la conclusion sera différente. Plusieurs facteurs pro-uisent des effets pouvant être confondus avec un effetu traitement étudié : l’évolution naturelle de la maladie,’effet placebo, l’existence de traitements concomitants, laégression à la moyenne, etc. Seule l’utilisation d’un groupee référence appelé groupe témoin permet de s’affranchir

e ces facteurs de confusion. Le groupe témoin peut êtreomposé soit de sujets ne recevant qu’un traitement inactif,oit de sujets recevant un traitement de référence.

L

BLpesulpd1rddSdBntpb

BIlts

BItlm

BIgdtplp

BIcpll

A

La

L’interprétation des essais cliniques

Étude randomiséeAfin qu’une différence mise en évidence ne puisse êtredue qu’à un effet du traitement, les différents groupesdoivent être strictement similaires sur des critères debase (âge, sexe, taille, poids, etc.) et également sur lasévérité de l’affection, et ne différer que par le trai-tement appliqué [6—8]. Une composition homogène desdeux groupes ne peut être réalisée que par tirage ausort, c’est-à-dire par allocation aléatoire ou randomisa-tion, qui assure que les deux groupes sont strictementcomparables. Toute autre méthode induit l’existence d’unbiais de sélection. Le moyen de randomisation le plussimple est la liste constituée à l’avance à l’aide d’un pro-gramme informatique ou de tables de nombres au hasard[9]. Cette liste donne pour chaque patient inclus succes-sivement dans l’essai la nature du traitement. Dans lesessais multicentriques, une liste est disponible dans chaquecentre. La randomisation peut aussi s’effectuer à l’aided’enveloppes scellées qui renferment le numéro ou la naturedu traitement à donner au patient que l’on randomise.D’autres méthodes qui ne sont pas basées sur un tirageau sort doivent être évitées. Un groupe témoin historique,lorsqu’un groupe de patient recevant un nouveau traite-ment est comparé à un groupe de patients qui ont recuun ancien traitement pendant une certaine période, n’estpas une méthode valable. En effet, les caractéristiquesdes patients et/ou le recrutement des services impliquésont pu évoluer dans le temps, aboutissant à obtenir deuxgroupes non comparables. De la même facon, l’utilisationd’un groupe témoin géographique, lorsque certains ser-vices ou médecins administrent le traitement étudié etd’autres le traitement contrôle, n’est pas valable car lescaractéristiques des patients peuvent différer (différencesgéographiques, de recrutement, sociologiques, etc.). Lesautres moyens de randomisation que le tirage au sorttels que l’attribution en fonction de la date du jourd’inclusion, la date de naissance ou le numéro de dossiersont de mauvaises méthodes car ils peuvent être facilementcontournés.

Étude en double insuLa comparabilité des deux groupes qui est réalisée par larandomisation doit être maintenue pendant le déroulementde l’essai. Pour cela, le médecin investigateur et le patientne doivent pas connaître la nature réelle du traitement[10,11]. Les études en ouvert ou en simple insu exposentaux biais de suivi (par exemple modification du rythmede visites ou des recours aux examens complémentairesliés au médecin ou modification de l’observance théra-peutique liée au patient) ou de mesure (par exemplemodification des critères de jugement liés à la subjecti-vité de l’investigateur). Il faut noter que les études endouble insu ne sont pas toujours possibles (exemple de lacomparaison d’une intervention chirurgicale à un traitementmédical). Dans ce cas, il faut privilégier les critères de juge-ment objectifs (décès, dosage sanguin, etc.) et éviter les

critères plus subjectifs (échelle, score, mesure fonction-nelle, etc.) ou alors les faire rechercher en insu par unautre médecin que celui qui a assuré le traitement et lesuivi.

màls

757

es différents biais

iais d’attritione biais d’attrition est le biais induit par l’exclusion deatients au cours de l’étude [12]. Cette perte — attrition —st susceptible d’induire un biais, surtout quant ces exclu-ions ne se font pas strictement au hasard mais avecne probabilité dépendant du traitement recu et/ou de’évolution du patient. Pour éviter ce biais, tous lesatients inclus dans l’essai doivent être pris en compteans l’analyse. Par exemple, soient deux groupes égaux de00 participants divisés en un groupe A traité et un groupe Becevant un placebo. Dans le groupe A on compte 50 sorties’essai pour intolérance, 25 améliorations, 25 stagnations,ans le groupe B, 0 sortie, 25 améliorations, 75 stagnations.i on n’analyse pas les patients sortis d’essai, on a 50 %’amélioration dans le groupe A contre 25 % dans le groupe. En revanche, si on analyse en intention de traiter, on’observe plus de différence. L’analyse en intention de trai-er s’oppose à l’analyse per protocole qui sélectionne lesatients analysés sur le respect du protocole et la disponi-ilité des données.

iais de confusionl est lié à une erreur d’appréciation entre les effets dea thérapeutique étudiée et les conséquences d’autres fac-eurs intercurrents [12]. Le risque de biais de confusion estupprimé par l’utilisation d’un groupe témoin.

iais de sélectionl est lié à une différence de composition entre le grouperaité et le groupe témoin, induisant une différence danse pronostic de base. La randomisation stricte est le seuloyen pour éviter un biais de sélection.

iais de suivil est lié à des différences de prise en charge au niveau duroupe traité et du groupe témoin, notamment en termese fréquence du suivi ou de réalisation d’examens diagnos-ics. Par exemple, si le double insu n’est pas respecté, il estrobable que l’investigateur ne suivra pas de la même facones effets secondaires manifestés par le patient recevant lelacebo.

iais d’évaluationl survient lorsque le critère de jugement n’est pas recher-hé de la même facon dans les deux groupes, et est suppriméar un strict respect du double insu. Nous présentons danse Tableau 1 un résumé des critères qui doivent être évaluésors de la lecture d’un essai clinique [2].

nalyses statistiques

’emploi de tests et de méthodes d’analyses statistiquesdaptés est fondamental. L’utilisation de tests inadaptés,

al appliqués ou réalisés de facon répétée peut conduire

des conclusions complètement erronées, même lorsque’essai clinique a été correctement construit et exécuté,ans biais méthodologiques.

758 F. Aptel et al.

Tableau 1 Lecture d’un essai clinique : points clés. D’après Cucherat M [2].

Évaluer la validité interne : le résultat est-il réel et fiable ?Absence de biais : le résultat représente la réalitéRéalité statistique du résultat : différence statistiquement significative obtenue sur le critère de jugement principalà l’issu de la réalisation d’un seul test statistique (absence de multiplicité des tests statistiques)Résultat issu d’une démarche hypothético-déductive dans un essai de confirmation

Évaluer la cohérence externe : le résultat est-il vérifié par d’autres ?Résultat confirmé par au moins un autre essai cliniqueRésultat confirmé par une méta-analyse sans hétérogénéitéCohérence avec les données fondamentales : biologiques, épidémiologiques, physiopathologiques, etc.

Évaluer la pertinence clinique : le résultat est-il pertinent vis-à-vis des questions se posant en pratique et est-ilextrapolable à l’ensemble des patients vus en pratique ?Taille du bénéfice cliniquement pertinente : précision de l’estimation suffisante pour éliminer un effet trop petitpour être cliniquement pertinentCritère de jugement clinique, pertinent et correspondant à un objectif thérapeutiqueTraitement de comparaison adaptéDéfinition de la pathologie identique à celle utilisée en pratiquePatients représentatifs de ceux vus en pratique médicale courante : pas de sélection arbitraire des patients (âge,sexe, comorbidité, etc.)

te

L

LoapItlvgcldrvtcpecdfli

mdépn[ltcnl

rddltdmrscse

Cm

Lofitdrmtca5tl

rss

Contexte de soins similaire à celui de la pratique couran

es différents tests statistiques

a survenue ou l’observation d’un phénomène en médecineu en biologie est souvent un phénomène imprévisible etléatoire. Il est donc impossible, pour un patient donné, derévoir avec certitude la survenue ou non d’un événement.l est en revanche possible, en réalisant des études répé-ées ou sur un échantillon important de patients, d’estimera valeur d’un paramètre et sa distribution. En estimant laaleur de paramètres et leurs distributions dans plusieursroupes de patients, et en comparant ces paramètres etes distributions, les tests statistiques permettent d’estimera probabilité que des valeurs différentes soient liées àe simples fluctuations aléatoires (absence de différenceéelle), ou à l’inverse d’estimer la probabilité que desaleurs différentes ne soient pas liées à de simples fluc-uations aléatoires (différence réelle). On ne peut jamaisonclure avec certitude à l’existence d’une différence. Oneut seulement estimer la probabilité que la différence misen évidence ne soit pas liée au hasard (fluctuations). Paronvention, on se permet généralement de conclure à uneifférence significative lorsque la probabilité p que la dif-érence observée en l’absence d’effet du traitement soitiée au hasard — appelée risque de première espèce � — estnférieure à 5 %. Ce risque doit parfois être adapté.

Le choix du test statistique dépend de nombreux para-ètres tels que le type de variable (qualitative-quantitativeiscrète ou continue), de la distribution de la variabletudiée (tests paramétriques lorsque la distribution est sup-osée normale et non paramétriques lorsque la distribution’est pas connue), du nombre de groupes à comparer, etc13,14]. Les tests statistiques paramétriques sont fondés sur’hypothèse de normalité des lois de distribution (répar-

ition) des variables étudiées : la répartition du ou desaractères dans la population étudiée doit suivre une loiormale, ou loi de Laplace-Gauss [15]. La vérification dea normalité d’une distribution peut se faire à l’aide d’une

ijlm

eprésentation graphique ou à l’aide de tests statistiquese conformité à une loi normale. Lorsque la distributiones paramètres étudiés ne suit pas une loi normale, ouorsqu’elle ne peut pas être étudiée, les tests non paramé-riques, qui ne présupposent pas une distribution normalees paramètres étudiés, doivent être utilisés. Il faut néan-oins souligner que la plupart des tests paramétriques sont

elativement puissants et robustes, et que leurs conclu-ions restent valables même en cas de faibles écarts auxonditions de normalité. Un résumé non exhaustif des teststatistiques disponibles et de leurs conditions d’utilisationst présenté dans le Tableau 2.

ritères de jugement et risques des analysesultiples

e risque de conclure à tort à une différence après un test,u risque de première espèce �, est connu et généralementxé à un niveau maximum de 5 %. Lorsque plusieurs tests sta-istiques sont réalisés pour chercher à répondre à la questione l’efficacité du traitement, la répétition à chaque test duisque de conclure à tort à l’efficacité du traitement aug-ente le risque global de conclure à tort à l’efficacité du

raitement. En effet, chaque test donne la possibilité deonclure à tort à l’efficacité, et la multiplication des testsugmente le risque cumulé d’erreurs. Lorsque � est fixé à

%, le risque global de conclure à tort à l’efficacité du trai-ement varie en fonction du nombre k de tests réalisés selona relation : risque global = 1 — 0,95k.

Ainsi, le risque est de 5 % si 1 test est réalisé, de 10 % envi-on si deux tests sont réalisés, de 23 % environ si cinq testsont réalisés et de 40 % si dix tests sont réalisés. Plusieursituations de comparaisons multiples peuvent aboutir à unenflation du risque � : la définition de plusieurs critères de

ugement, la réalisation d’analyses en sous-groupes, la réa-isation d’analyses intermédiaires, la comparaison de dosesultiples et les essais à plusieurs bras.

L’interprétation des essais cliniques 759

Tableau 2 Tests statistiques (non exhaustif).

Variable qualitative Variable quantitative

Tests paramétriquesVariable qualitative : échantillons

indépendantsn = 2 Test de l’écart réduit t de Studentn > 2 Analyse de variance à un

facteur

Variable qualitative : échantillonsappariés

n = 2 Test de l’écart réduit Analyse de variance à deuxfacteurs ou t de Student

n > 2 Analyse de variance

Variable quantitative Coefficient de corrélation dePearson

Tests non paramétriquesVariable qualitative : échantillons

indépendantsn = 2 Chi 2 ou Z Test de Fisher Wilcoxon ou Mann-Whitneyn > 2 Chi 2 Test de Fisher Kruskall-Wallis

Variable qualitative : échantillonsappariés

n = 2 Chi 2 (Mc Nemar) Wilcoxonn > 2 Chi 2 (Mantel-Haenszel) Test de Friedman

Variable quantitative Coefficient de corrélation des

gditdllcmCbampdccévmtoip

atrntgnaa

Afin d’éviter une augmentation du risque �, un critère dejugement doit être privilégié et défini a priori comme étantle critère de jugement principal (« primary endpoint »).C’est ce critère unique qui va servir à mettre en évidencel’efficacité du traitement. Il doit donc être soigneusementchoisi et être, si possible, le critère le plus cliniquement per-tinent vis-à-vis de l’objectif du traitement qui est testé [16].D’autres critères, appelés critères secondaires, peuventaussi être analysés, afin par exemple de rechercher desbénéfices secondaires du traitement, de rechercher deseffets délétères du traitement, de réaliser une analyseintermédiaire, etc. Néanmoins, la conclusion de l’essai nedoit être réalisée qu’à partir de l’analyse du critère dejugement principal. L’analyse des critères secondaires nepeut qu’apporter des informations complémentaires, maisne permet pas de conclure.

Il est parfois nécessaire ou souhaitable de définir plu-sieurs critères de jugements principaux. Dans ce cas,certaines méthodes statistiques permettent d’éviter uneaugmentation du risque �. La méthode de Bonferroni-Holmest souvent utilisée. Elle consiste à réaliser les tests avec unseuil de signification plus petit que 5 % et de choisir cettevaleur de telle sorte qu’après inflation due aux comparai-sons multiples, le niveau global atteint soit de 5 %. Les testssont donc réalisés avec un seuil de 0,05/k où k désigne lenombre de comparaisons. Ainsi, le seuil de significativité nesera par exemple que de 2,5 % si deux comparaisons sontréalisées, de 1,25 % si quatre comparaisons sont réaliséesou de 0,50 % si dix comparaisons sont réalisées.

Analyses en intention de traiter

Dans un essai clinique, même rigoureusement conduit,des écarts au protocole sont souvent constatés chez cer-

tains patients et aboutissent généralement à un arrêtdu traitement et à une sortie prématurée de l’essai.Diverses situations peuvent conduire à une sortie prématu-rée de certains patients : la survenue d’effets secondaires

mmsc

rangs de Spearman

raves, une mauvaise observance thérapeutique, l’absenceu patient aux visites de suivi, la prise d’un traitementnterdit, l’inclusion de patients ne respectant pas les cri-ères d’inclusion ou un suivi non-conforme au protocolee l’essai clinique. De prime abord, il pourrait semblerogique de ne pas prendre en compte ces patients dans’analyse, car l’absence de prise du traitement ou de suiviorrect ne permet pas, chez ces patients, de juger correcte-ent de l’effet du traitement évalué dans l’essai clinique.ette perte de patients — attrition — induit cependant uniais car ces exclusions ne se font souvent pas strictementu hasard mais avec une probabilité dépendant du traite-ent recu et/ou de l’évolution du patient. Cette perte deatient supprime la comparabilité des deux groupes issuee la randomisation, et peut donc aboutir à des résultatsomplètement erronés. Pour éviter ce biais, tous les parti-ipants à l’étude sont analysés dans le groupe auquel ils ontté assignés, quel que soit le traitement qu’ils ont effecti-ement recu ou quel que soit leur devenir dans l’essai. Cetteéthode d’analyse est appelée analyse en intention de trai-

er (« intent to treat analysis ») [17—19]. Dans le cas inverseù les patients sont exclus de l’analyse lorsque le protocolenitial n’est pas totalement respecté, on parle d’analyse perrotocole.

Par exemple, un essai clinique, le Coronary Drug Project, été conduit afin de savoir si un traitement hypocholes-érolémiant pouvait, par rapport à la prise d’un placebo,éduire la mortalité à cinq ans de patients atteints de coro-aropathies [20]. Les résultats de l’analyse en intention deraiter montraient une mortalité à cinq ans de 20 % dans leroupe hypolipémiant contre 21 % dans le groupe placebo,on significativement différente. Certains ont proposé unenalyse per protocole, ne considérant que les patients quivaient pris régulièrement le traitement hypocholestérolé-

iant et les comparant aux patients du groupe placebo. Laortalité était alors de 15 % et la différence statistiquement

ignificative avec le placebo. Cependant, dans le groupe pla-ebo, l’étude du taux de mortalité des patients observants

7

mpd

A

LtcednddlvlmltrdmrisldeelermàPtacêtcgrecr

A

LmaLomptttmd

sodmemlptd

E

Ll[esdtp

dcdmcortpcmemédsufigsdnurétsfidtmfpcgd

60

ontrait que celui-ci était aussi de 15 %, démontrant laerte de comparabilité des groupes induite par ce type’analyse.

nalyses en sous-groupes

’analyse en sous-groupe consiste à évaluer l’effet du trai-ement dans une sous population de patients d’un essailinique (définie par exemple par l’âge, le sexe, l’originethnique, le stade de la maladie, etc.) [21,22]. Ce type’analyse est assez souvent effectué, soit dans les essaison concluants afin de rechercher un ou des sous-groupesans lesquels le traitement aurait un effet significatif, soitans les essais concluants afin de définir la population pouraquelle le traitement est le plus efficace et/ou afin de pou-oir avance des hypothèses explicatives. Il faut savoir que’analyse en sous-groupes soulève de nombreux problèmeséthodologiques. De la même facon que lorsque l’on uti-

ise plusieurs critères de jugement, la multiplication desests (test réalisé pour chaque sous-groupe) augmente leisque cumulé de conclure à tort à une efficacité significativeu traitement, en augmentant le risque � proportionnelle-ent au nombre de sous-groupes réalisés. Par ailleurs, la

andomisation garantit une comparabilité des deux groupesnitiaux de patients, mais pas la comparabilité des multiplesous-groupes qui sont constitués secondairement. Enfin,a division des effectifs en de multiples sous-groupes, eniminuant le nombre de patients de chaque sous-groupe,ntraîne une augmentation du risque de seconde espèce �t donc une diminution de la puissance du test (probabi-ité de mettre en évidence une différence réelle). L’analysen sous-groupes peut donc présenter un intérêt pour laecherche de facteurs modulant la réponse au traitement,ais elle ne permet jamais de conclure de facon formelle

l’efficacité du traitement dans un sous-groupe donné.our cela, des tests d’interaction recherchant si l’effet duraitement varie significativement d’un sous-groupe à unutre doivent être réalisés, ou d’autres essais cliniques spé-ifiquement destinés à répondre à cette question doiventtre conduits. Une autre possibilité réside en la réalisa-ion d’essais cliniques dits stratifiés, qui sont spécifiquementoncus pour répondre à la question d’analyses en sous-roupes. Dans ce cas, les objectifs sont définis a priori, laandomisation est effectuée pour chaque strate de l’essait le seuil de significativité est corrigé afin de prendre enompte la multiplicité des tests réalisés (par exemple : cor-ection de Bonferroni-Holm).

nalyses intermédiaires

es analyses intermédiaires sont des analyses réalisées avantême que tous les patients prévus aient été inclus et/ou

vant la fin de la période de suivi initialement planifiée.a réalisation d’une analyse intermédiaire peut avoir troisbjectifs : détecter plus tôt un effet significatif du traite-ent et éviter de traiter plus longtemps certains patientsar placebo (situation d’arrêt pour efficacité), détecter plusôt d’éventuels effets secondaires fréquents et graves du

raitement (situation d’arrêt pour toxicité) et arrêter plusôt une étude dont on sait qu’elle ne permettra probable-ent pas de démontrer la différence recherchée (situation’arrêt pour futilité). Il faut cependant savoir que, de facon

tpvc

F. Aptel et al.

imilaire aux situations de critères de jugement multiplesu d’analyses en sous-groupes, la comparaison répétéee traitements par la réalisation de tests successifs aug-ente la probabilité de conclure à tort à une différence

n augmentant le risque de première espèce �. Différenteséthodes statistiques peuvent être utilisées afin de rééva-

uer le seuil de significativité et de maintenir constante larobabilité cumulée de conclure à tort à l’efficacité du trai-ement (méthode de Bonferroni-Holm, de Peto-Haybittle,e Pocock, etc.).

ssais de non-infériorité

es essais de non-infériorité sont de plus en plus utilisés poura validation des nouveaux traitements mis sur le marché23,24]. Ces essais cliniques font appel à des méthodologiest des tests statistiques relativement différents des tests deupériorité. Les conclusions de ces tests de non-inférioritéépendent beaucoup des seuils d’équivalence qui sont arbi-rairement choisis et doivent donc être interprétées avecrudence.

Actuellement, l’intérêt d’un nouveau traitement ou’une nouvelle molécule ne réside souvent plus en une effi-acité supérieure au traitement de référence, mais plutôtans le fait d’être mieux toléré, plus facile à utiliser ouoins coûteux. Ces avantages justifient donc l’utilisation de

e nouveau traitement, même s’il n’est pas plus efficace,u même un peu moins efficace que le traitement de réfé-ence. La démonstration de l’intérêt clinique de ce nouveauraitement est donc réalisée par un test de non-inférioritéar rapport au traitement de référence. Contrairement àe qui peut être supposé, l’essai de non-infériorité ne per-ettra pas de conclure que le traitement étudié a une

fficacité identique à celle du traitement de référenceais simplement d’éliminer la possibilité que le traitement

tudié soit nettement moins efficace que le traitemente référence. Les tests statistiques disponibles permettenteulement d’exclure que le nouveau traitement entraînene perte d’efficacité supérieure à un seuil préalablementxé, dit de non-infériorité, et qui est devrait être la plusrande perte d’efficacité cliniquement négligeable. Plu-ieurs remarques découlent de la méthodologie de ces testse non-infériorité. Premièrement, l’essai de non-inférioritée permet jamais de conclure que le traitement étudié ane efficacité équivalente à celle du traitement de réfé-ence. Il permet seulement de conclure que le traitementtudié peut-être soit équivalent soit moins efficace que leraitement de référence, mais que la perte d’efficacité pos-ible est inférieure à la limite que les investigateurs ontxé (seuil de non-infériorité). Deuxièmement, l’utilisation’essais de non-infériorité n’est justifiée que si le nouveauraitement présente, sur certains points, une supérioritéanifeste par rapport au traitement habituel (tolérance,

acilité d’utilisation, coût, etc.). Dans le cas inverse, laerte d’efficacité qui ne peut être éliminée empêche deonclure que le nouveau traitement représente un pro-rès thérapeutique par rapport au précédent. L’utilisation’essais de non-infériorité pour évaluer un nouveau trai-

ement ne peut donc pas être à elle seule un argumentour proposer ce traitement en vantant son « efficacité équi-alente ». Enfin, le choix du seuil de non-infériorité estrucial et conditionne les résultats des essais cliniques de

R

[

[

[

[

[

[

[

[

[

[

[

[

[

[

L’interprétation des essais cliniques

non-infériorité. Le choix du seuil, qui est arbitraire, ne doitconduire qu’à une perte possible d’efficacité modérée etraisonnable. Cette plus grande perte d’efficacité par rap-port au traitement de référence que l’on peut consentirdoit être évaluée en regard des autres bénéfices du nou-veau traitement (tolérance, coût, etc.). Il est évident quele choix d’un seuil qui permettra une perte complète del’efficacité du traitement de référence, ou qui tolérera uneperte importante d’efficacité alors que les autres avantagesdu nouveau traitement sont mineurs, aboutira à un test denon-infériorité concluant mais dénué de toute significationclinique.

Enfin, l’analyse d’un essai de non-infériorité présentecertaines spécificités qui doivent être connues. La conclu-sion de l’essai peut être biaisée lorsque l’efficacité dutraitement de référence n’a pas été maximale. Une dimi-nution de l’efficacité du traitement de référence peutdécouler d’un biais de sélection, lorsque le choix despatients défavorise le traitement de référence, ou de biaisde réalisation, lorsque le traitement de référence n’a pasété choisi de facon optimale (existence d’autres traitementsplus efficaces), n’est pas administré de facon optimale (doseinsuffisante, schéma d’administration inadapté, etc.) ou aété plus souvent arrêté en raisons d’effets indésirables. Cessituations qui placent le traitement de référence dans desconditions défavorables aident évidemment à la mise enévidence d’une non-infériorité d’un nouveau traitement,mais biaisent complètement les résultats de l’essai clinique.Enfin, les essais de non-infériorité sont souvent utilisés pourmontrer l’intérêt de nouveaux traitements mieux tolérés.De ce fait, l’analyse en intention de traiter qui prend encompte les perdus de vue, potentiellement plus nombreuxchez les patients traités par le traitement de référence,favorise la mise en évidence d’une non-infériorité. De cefait, la réalisation d’une analyse per protocole conjointe, oùseuls les patients traités en stricte conformité avec le proto-cole sont maintenus dans l’analyse, est souhaitable avant deconclure à la non-infériorité dans ce type d’essai clinique.

Conclusions

De nombreux biais méthodologiques ou statistiques peuventdiminuer la qualité d’un essai clinique et fausser les résul-tats qui en sont issus. L’analyse critique et raisonnée de laqualité méthodologique et statistique des publications ouprésentations d’essais cliniques est fondamentale, car c’estelle qui permet au médecin d’évaluer la réalité des résultatsprésentés et l’intérêt de l’utilisation du traitement dans sapratique clinique.

Déclaration d’intérêts

Les auteurs déclarent ne pas avoir de conflits d’intérêts enrelation avec cet article.

[

761

éférences

[1] Begg C, Cho M, Eastwood S, Horton R, Moher D, OlkinI, et al. Improving the quality of reporting of randomizedcontrolled trials: the CONSORT statement. JAMA 1996;276:637—9.

[2] Cucherat M. Interprétation des essais cliniques pour la pratiquemédicale 2009. http://www.spc.univ-lyon1.fr/polycop.

[3] Bouvenot G, Eschwege E. Essais thérapeutiques. Principesd’interprétation. Rev Prat 1991;41:1853—7.

[4] Greenhalgh T. How to read a paper: papers that report drugtrials. BMJ 1997;315:480—3.

[5] Chalmers TC, Smith SJ, Blackburn B. A method for assessingthe quality of a randomized clinical trial. Control Clin Trials1981;2:31—49.

[6] The Standards of Reporting Trials Group. A proposal forstructured reporting of randomized controlled trials. JAMA1994;272:1926—31.

[7] Altman DG, Dore CJ. Randomisation and baseline comparisonsin clinical trials. Lancet 1990;335:149—53.

[8] Altman DG. Randomisation. BMJ 1991;302:1481—2.[9] Altman DG, Bland JM. How to randomise. BMJ 1999;319:

703—4.10] Schulz KF, Grimes DA. Blinding in randomised trials: hiding who

got what. Lancet 2002;359:696—700.11] Schulz KF, Grimes DA, Altman DG, Hayes RJ. Blinding and exclu-

sions after allocation in randomised controlled trials: survey ofpublished parallel group trials in obstetrics and gynaecology.BMJ 1996;312:742—4.

12] Friedman LM, Furberg CD, DeMets DL.Fundamentals of ClinicalTrials. 2nd Littleton, MA: PSG Publishing Co; 1985.

13] Schwartz D. Méthodes statistiques à l’usage des médecins etdes biologistes, 1. Paris: Flammarion Médecine Sciences; 1989[p. 306].

14] Hugier M, Flahault A. Biostatistique au quotidien. Paris: Else-vier; 2000.

15] Kitchen CM. Nonparametric vs parametric tests of location inbiomedical research. Am J Ophthalmol 2009;147:571—2.

16] Bender R, Lange S. Adjusting for multiple testing–when andhow? J Clin Epidemiol 2001;54:343—9.

17] Lewis JA, Machin D. Intention to treat–who should use ITT? BrJ Cancer 1993;68:647—50.

18] Hollis S, Campbell F. What is meant by intention to treat ana-lysis? Survey of published randomised controlled trials. BMJ1999;319:670—4.

19] Stewart WC, Jackson AL, Jenkins JN. Dropout rates forintent to treat and per protocol analyses. Am J Ophthalmol2004;137:639—45.

20] The Coronary Drug Project Research Group. Clofibrate and nia-cin in coronary heart disease. JAMA 1975;231:360—81.

21] Assmann SF, Pocock SJ, Enos LE, Kasten LE. Subgroup analysisand other (mis)uses of baseline data in clinical trials. Lancet2000;355:1064—9.

22] Yusuf S, Wittes J, Probstfield J, Tyroler HA. Analysis and inter-pretation of treatment effects in subgroups of patients inrandomized clinical trials. JAMA 1991;266:93—8.

23] Ware JH, Antman EM. Equivalence trials. N Engl J Med

1997;337:1159—61.

24] Jones B, Jarvis P, Lewis JA, Ebbutt AF. Trials to assessequivalence: the importance of rigorous methods. BMJ1996;313:36—9.