86
  Risques d’erreur statistique et test statistique

Test Statistique

Embed Size (px)

DESCRIPTION

petite presentation sur les tests

Citation preview

  • Risques derreur statistique et test statistique

  • Origine de la problmatique

  • Fluctuations alatoiresObtenir pile pile ou face(Probabilit = 50%)

  • Fluctuations alatoiresMme type de patients(Probabilit d'AVC = 12%)

  • Fluctuations alatoires d'chantillonnage

    Fortes pour des effectifs petits et moyens

    Faibles pour des grands effectifs

    Jamais nulles

  • Consquences pour la comparaison de 2 chantillons

    les proportions observes dans 2 chantillons peuvent tre diffrentesuniquement du fait du hasardmme si dans ces 2 chantillons la vraie probabilit tait la mme

    les FAE sont susceptibles de fausser les comparaisons

  • Consquences des fluctuationsGroupe T+Groupe T-Vrai risque = 10%Vrai risque = 10%Effet du traitement = 0Risque observ = 6%Risque observ = 12%Diffrence observe = -6%

  • Problmatique des comparaisonsQuand on ignore la ralit,la diffrence observe de -6% est-elle ?

    une manifestation des fluctuations alatoires, donc due uniquement au hasard

    la traduction dune relle diffrence entre les deux groupes, donc dun effet non nul du traitement

    Comment dpartager ces 2 possibilits ?

    Solution : test statistique .

  • But des comparaisonsQuel est le but des comparaisons ?Conclure l'existence d'une diffrenceDcider d'utiliser le nouveau traitementGrp TGrp Cdiff -6%La conclusion doit tre conforme la ralitmais elle se base uniquement sur lobserv

  • Effets des fluctuations dans une comparaisonLe hasard peut faire apparatre une diffrence qui n'existe pas en ralit

    Inversement, le hasard peut rduire une diffrence qui existe rellement

    donc 2 faons de fausser la conclusion

  • Risques derreur statistique

  • Risques de conclusions erronesDeux risques d'erreur Risque alphaRisque bta

    Erreurs statistiquesdues uniquement au hasard

  • Erreur statistique alphaConclure l'existence d'une diffrence qui n'existe pas en ralit : faux positifVrai valeur12%chantillon 17.5%chantillon 215%Diffrencenon relle

  • Erreur statistique btaNe pas conclure une diffrence qui existe pourtant en ralit : faux ngatifVrai valeur12%chantillon 115%chantillon 215%Fausse absencede diffrenceVrai valeur19%

  • Risques d'erreur statistiquesRisque alpha : risque de conclure une diffrence qui nexiste pasRisque bta : risque de ne pas mettre en vidence une diffrence qui existe rellementPuissance : 1 - bta : probabilit de mettre en vidence une diffrence qui existe rellement

  • Application lessai thrapeutiqueRisque alpha : considrer comme efficace un traitement qui ne lest pasRisque bta : ne pas conclure alors que le traitement est efficace Puissance : montrer lefficacit dun traitement rellement efficace

  • Erreur alphaErreur btaDiffrencePas de diffrenceDiffrencePas de diffrenceRalitConclusion

  • Tests statistiquesOutils d'aide la dcision

    Principeconclure une diffrenceque si le risque de faire une erreur (de premire espce) est faible

    Quantification du risque d'erreur alpha partir des donnes disponibles

    (Risque de commettre une erreur alpha = risque alpha)

  • Principe gnralp1 = 7%p0 = 13%Quelle est la probabilit de commettre une erreursi je conclus partir de ces donnes l'existence d'une relle diffrenceProbabilit faibleConclusionProbabilit fortePas de conclusionConclure l'existence d'une diffrence que si le risque de faire une conclusion errone est faible

  • Dmarche du test statistiqueCalcul de la probabilit pp : probabilit que "la diffrence observe soit due uniquement au hasard"p reprsente le risque de faire une conclusion errone si l'on dcidait de conclurep est une quantification du risque alphaOn ne conclut que si ce risque d'erreur est suffisamment petit

  • Seuil de risqueSeuil de risque de conclusion errone acceptableseuil de risque alpha = 5%

    p < 5%on prend le risque de conclurep > 5%on ne conclut pas

    < ou ?

  • Signification statistiqueDiffrence observeTestSeuil de signification statistique

  • Le test statistique est un moyenqui autorise conclure l'existence d'une diffrenceque si le risque de commettre une erreur est faible

    Risque d'erreur faible = 5% (en gnral)seuil de dcisionContrle du risque alphamais le risque d'erreurs alpha persiste100 essais avec un traitement sans efficacitconclusion tort l'efficacit dans 5 essais

  • Ralisation du testCalcul partir des donnes de la probabilit de commettre une erreur alpha = pp1 = 7%p0 = 13%p = 0.04p
  • P < 0.05En concluant l'efficacit, on prend un risque de 5% de faire une conclusion errone

    5% est un risque d'erreur leven pratique 2 essais significatifsrisque = 5% * 5% = 2.5/1000

  • Disparition du risque d'erreur btaLe risque bta est incalculableImpossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de diffrenceil est donc impossible de faire ce type de conclusionles tests permettent seulement de conclure l'existence d'une diffrence en cas de diffrence non significationimpossible de conclureet ne permet surtout pas de conclure l'absence de diffrence vu que le risque d'erreur est inconnu"l'absence de preuve n'est pas la preuve de l'absence"

  • Diffrence non significative

    Impossible de conclureNe pas conclure labsence de diffrenceLabsence de preuve nest pas la preuve de labsenceRsultatnon significatifAbsence relle d'effetManque de puissance?

    Michel Cucherat - Service de Pharmacologie Clinique - Lyon

  • OBJECTIF : Evaluer lefficacit dune injection unique de tobramycine (T) chez des patientes traites pour une pylonphrite aigu noncomplique par de la ciprofloxacine (CIP) (500 mg 2 fois par jourper os).RSULTATS : Cent dix huit patientes ont t inclues, 60 dans le groupetobramycine et 58 dans le groupe placebo. E. coli a t isol de faonprdominante et tous les germes isols taient sensibles la ciprofloxacineRSULTATS : Cent dix huit patientes ont t inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a t isol de faon prdominante et tous les germes isols taient sensibles la ciprofloxacine et la tobramycine. Deux checs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).CONCLUSION : Ladministration dune dose de tobramycine namliore aucun paramtre clinique dans le traitement des pylonphrites aigus non compliques traites par de la ciprofloxacine par voie orale.

  • Dualit entre test et intervalle de confiance

  • dfinition des ICIntervalle qui a 95% de chance de contenir la vraie valeur

    il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)

    il est peu probable (prob 5%)que la vraie valeur soit > bsou que la vraie valeur soit < biil est donc peu raisonnable de parier que la vraie valeur soit l'extrieur de l'IC

  • Intervalle de confianceDiffrence = -6%IC 95% = [-8%;-4%]Lintervalle [-8%;-4%] 95% de chance de contenir la vraie valeur de la diffrencereflte l'incertitude de l'estimation Il n'est pas possible d'exclure que le vrai effet ne soit que de -4%situation la pireefficacit plus faible que les -6% de l'estimation ponctuelle

  • Ensemble des valeurs non statistiquement diffrentes du rsultats

  • Relation entre IC et testIC dune diffrence n'incluant pas 0[-10% ; -4%]

    la probabilit davoir ce type dintervalle si la vraie valeur est zero est

  • Diffrence0P
  • Pertinence cliniqueSignification statistique pertinence clinique

    Rduction de mortalit de 25% 12%, p

  • Prsentation thorique

  • Thorie des tests d'hypothses

    Hypothse nulleH0 : p1 - p0 = 0(p1 = p0)(le traitement n'a pas d'effet)Hypothse alternativeH1 : p1 - p0 0(p1 p0)(le traitement un effet)

    Test statistique =retenir une de ces 2 hypothsesen fonction des donnes recueillies

  • Risques d'erreur alpha et bta

    = Prob[ accepter H1 alors que H0 est vraie ]

    = Prob[ accepter H0 alors que H1 est vraie ]RappelH0 : p1 = p0H1 : p1 p0

  • Calcul de pp = prob [ d'observer une diffrence au moins aussi importante que ce que l'on a observ alors que H0 est vraie ]

    soit z = p1 - p0 la diffrence entre les 2 prop. p1 et p0si H0 est vraie, z suit une loi normale (si n grand)moyenne 0 (H0)cart type

    Principe du test : calculer la probabilit d'observer dans ce cas une diffrence au moins aussi grande que celle qui a t effectivement observe (par exemple 7% - 13% = -6%)

  • zf(x)0z observ-6%p = surface sous la courbePr(Z -6%)Distribution de Z sous l'hypothses nulle

    Graph3

    0.0044318484

    0.0090935625

    0.0175283005

    0.0317396518

    0.0539909665

    0.0862773188

    0.1295175957

    0.1826490854

    0.2419707245

    0.3011374322

    0.3520653268

    0.3866681168

    0.3989422804

    0.3866681168

    0.3520653268

    0.3011374322

    0.2419707245

    0.1826490854

    0.1295175957

    0.0862773188

    0.0539909665

    0.0317396518

    0.0175283005

    0.0090935625

    0.0044318484

    Feuil1

    -30.0044318484

    -2.750.0090935625

    -2.50.0175283005

    -2.250.0317396518

    -20.0539909665

    -1.750.0862773188

    -1.50.1295175957

    -1.250.1826490854

    -10.2419707245

    -0.750.3011374322

    -0.50.3520653268

    -0.250.3866681168

    00.3989422804

    0.250.3866681168

    0.50.3520653268

    0.750.3011374322

    10.2419707245

    1.250.1826490854

    1.50.1295175957

    1.750.0862773188

    20.0539909665

    2.250.0317396518

    2.50.0175283005

    2.750.0090935625

    30.0044318484

    Feuil1

    Feuil2

    Feuil3

  • p quantifie le degr de dsaccord entre l'hypothse nulle et ce qui a t observ

  • Rejet de l'hypothse nulle H0Autre faon de raliser un test

    But du test rejeter H0 ( p1 - p0 = 0 )pour accepter H1 ( p1 - p0 0 )

    rejeter H0 conclusion = diff. significativene pas rejeter H0 conclusion = diff. non significative

    sans valuation prcise du p

  • Limites de rejetvaleurs de dcision pour le rejet de H0valeurs de diffrences observesnotes L (et -L) Diff observe0-LLPAS de rejet de H0RejetRejet

  • L est dtermin par le seuil choisi (5%)par dfinition = Prob [conclure si H0]Prob [ diff. observe L si H0] =

    L dfini les diffrences qui ont une probabilit faible d'tre observes sous l'hypothse nulle

    -LLDiffrence z2.5%2.5%

    Graph3

    0.0044318484

    0.0090935625

    0.0175283005

    0.0317396518

    0.0539909665

    0.0862773188

    0.1295175957

    0.1826490854

    0.2419707245

    0.3011374322

    0.3520653268

    0.3866681168

    0.3989422804

    0.3866681168

    0.3520653268

    0.3011374322

    0.2419707245

    0.1826490854

    0.1295175957

    0.0862773188

    0.0539909665

    0.0317396518

    0.0175283005

    0.0090935625

    0.0044318484

    Feuil1

    -30.0044318484

    -2.750.0090935625

    -2.50.0175283005

    -2.250.0317396518

    -20.0539909665

    -1.750.0862773188

    -1.50.1295175957

    -1.250.1826490854

    -10.2419707245

    -0.750.3011374322

    -0.50.3520653268

    -0.250.3866681168

    00.3989422804

    0.250.3866681168

    0.50.3520653268

    0.750.3011374322

    10.2419707245

    1.250.1826490854

    1.50.1295175957

    1.750.0862773188

    20.0539909665

    2.250.0317396518

    2.50.0175283005

    2.750.0090935625

    30.0044318484

    Feuil1

    Feuil2

    Feuil3

  • L = 1.96 ( = cart type de la diffrence)-1.96 1.96 x95 %Loi normale N(0,)0Rappel

    Graph3

    0.0044318484

    0.0090935625

    0.0175283005

    0.0317396518

    0.0539909665

    0.0862773188

    0.1295175957

    0.1826490854

    0.2419707245

    0.3011374322

    0.3520653268

    0.3866681168

    0.3989422804

    0.3866681168

    0.3520653268

    0.3011374322

    0.2419707245

    0.1826490854

    0.1295175957

    0.0862773188

    0.0539909665

    0.0317396518

    0.0175283005

    0.0090935625

    0.0044318484

    Feuil1

    -30.0044318484

    -2.750.0090935625

    -2.50.0175283005

    -2.250.0317396518

    -20.0539909665

    -1.750.0862773188

    -1.50.1295175957

    -1.250.1826490854

    -10.2419707245

    -0.750.3011374322

    -0.50.3520653268

    -0.250.3866681168

    00.3989422804

    0.250.3866681168

    0.50.3520653268

    0.750.3011374322

    10.2419707245

    1.250.1826490854

    1.50.1295175957

    1.750.0862773188

    20.0539909665

    2.250.0317396518

    2.50.0175283005

    2.750.0090935625

    30.0044318484

    Feuil1

    Feuil2

    Feuil3

  • Exemple 1diff. observe z = -5%L = 7% pour alpha=5% (-L = -7%)pas de rejet de H0 Exemple 2diff. observe z = 12%L = 7% rejet de H0 conclusion : diff. significative au seuil de 5%Exemple 3diff. observe z = -4%L = 2% (-L = -2%) rejet de H0 conclusion : diff. significative au seuil de 5%

  • Possibilit de diff. significative aussi bien en cas de :diffrence positive (p1 > p0)diffrence ngative (p1 < p0)

    Test bilatral

  • Comparaison des 2 approchesRejet de l'hypothse nullecalcul de Lsi diff. observe L rejet de h0 diff significativesi -L < diff observe < L pas de rejet de H0 diff non significative

    Calcul de psi p0.05 diff. non significative

  • L dpend dealphap1 p0n1 n0

    p dpend de diffrence observep1 p0n1 n0cart type de la diffrence (erreur standard)cart type de la diffrence (erreur standard)

  • Exemple : Diff. Observe = -5%approche par rejet de H0 conclusion : diff. Significativele risque d'erreur encouru en concluant la diffrence est < 5%approche par calcul de p rsultat : p = 0.03prob de cette diff. soit due uniquement au hasard est de 0.03le risque d'erreur encouru en concluant la diffrence est de 3%

  • RsumErreur alphatype d'erreur statistiqueRisque alpharisque de commettre une erreur alpha Seuil de la signification statistiquevaleur de risque alpha consentien gnral 5%p quantification partir des donnes observes du risque alpha

  • Erreurs d'interprtationp nest pas la prob. de lhypothse nullep est la prob. dobtenir le rsultat observ si H0 est vraie

    p nest pas la prob. que le ttt. nait pas deffetp est la prob. dobtenir le rsultat qui a t observ si le ttt. est en ralit inefficace

    "obtenir le rsultat observ" = obtenir une diff. au moins aussi importante que le rsultat observcf. dfinition de prappel : avec une VA continue, la prob d'une valeur est nulle

  • p
  • Bilatral / unilatralValeur de la diffrence0traitement A > traitement Btraitement A < traitement BDiffrence non significativeDiffrence non significativeDiff. significativeDiff. significativeDiff. significativeTest unilatralTest bilatral

  • ConsquencesUn rsultat NS en bilatral peut tre significatif en unilatralpas de choix a posteriori

  • Rptitions des tests statistiques

  • Rptition des testsPlusieurs tests raliss pour rpondre une mme questionpar exemple plusieurs critre de jugementConclusion un effet partir du moment o il existe au moins un test significatifLe risque a de la conclusion est bien suprieure 5%Inflation du risque alpha

    Rappel, avec un ttt. sans effet,sur 100 tests, il y en aura 5 significatifs (en moyenne)

  • Conclusion1 test Contrle parfait du risque alpha (5%)ConclusionLe risque de conclure tort est > 5%(seuil de 5%)A partir du moment o au moins 1 test est significatif

  • Comparaisons multiplesGlobalement, le risque de conclure tort une diffrence lors de ces 4 comparaisons est bien plus important que 5%. Aux ds, la probabilit dobtenir un six est plus forte avec 3 ds quavec un seul

  • Comparaisons multiplesAvec un traitement sans efficaciten faisant 10 tests statistiques (p.e. 10 essais)nous avons 40% de risque de faire au moins une conclusion ( tort)

    Nb de tests

    Risque alpha global

    5

    0.23

    10

    0.40

    20

    0.64

    50

    0.92

  • Critres de jugementAspirine pour la prvention des vnements cardiovasculairesCritres de jugementmortalit totalevnements cardiovasculaires mortels ou non mortelsDC cardiovasculairesMort subiteInfarctusAccident vasculaire crbrauxInterventions de revascularisationRisque alpha de conclure tort l'efficacit ?

  • Critre de jugement principalCritre principalDcs de toute causeCritres secondairesDcs cardiovasculaireMort subiteInfarctusAccident vasculaire crbrauxChirurgieDcs de toute causeDcs cardiovasculaireMort subiteInfarctusAccident vasculaire crbrauxChirurgie

  • Critre principalConclusion que si le critre principal est significatifCritres secondaires : explicatifs

  • Multiplicit des critres de jugement - ExempleIn women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Wardstriangle in the 6069 y group, and upper and total radius in the 7079 y group.

  • Autres situations de rptition des testsmesures rptes au cours du temps

  • Analyse en sous-groupes - Essai non concluantEssai 0.92NS

    1Age750.95NS

    3Hommes0.92NS4Femmes0.99NS

    5Antcdents d'infarctus0.87NS6Pas d'antcdents d'infarctus1.03NS

    7Prise d'aspirine0.78p

  • Limites- Multiplicit des tests1Age75test 2risque erreur 5%

    3Hommestest 3 risque erreur 5%4Femmestest 4 risque erreur 5%

    5Antcdents d'infarctustest 5 risque erreur 5%6Pas d'ATCD d'infarctustest 6 risque erreur 5%

    7Prise d'aspirinetest 7 risque erreur 5%8Pas d'aspirinetest 8 risque erreur 5%

  • Analyses en sous groupes - Essai concluantEssai 0.78p
  • Analyses intermdiairesen cours dessai, avant que tous les patients prvus aient t recruts et/ou avant la fin de la priode de suivi initialement prvue

    But arrter prmaturmentpour efficacitpour toxicitpour futilit

  • Ajustement du seuil de significationMthode de BonferroniPour k comparaisons, le seuil ajust est:Pour k=3, saj = 5% / 3 = 1.67%Quand est petit,

    Donc pour conserver un risque alpha global de 5%:

    Inconvnient: fait lhypothse dune stricte indpendance des variables testes mthode conservatrice

  • Ajustement du seuil de signification - 2Mthode de Tukey

    Pour k=3, saj = 5% / 1.73 = 2.89%

  • Cas 13 analyses intermdiaires + 1 analyse finale = 4 comparaisons

    Arrt prmatur de lessai

    Analyse intermdiaire

    Analysefinale

    1

    2

    3

    p=0.10

    p=0.011

  • Cas 2Pas darrt prmatur mais conclusion lefficacit

    Analyse intermdiaire

    Analysefinale

    1

    2

    3

    p=0.25

    p=0.08

    p=0.04

    p=0.01

  • Cas 3Pas darrt prmatur et rsultat non significatif (p=4%>saj)

    Analyse intermdiaire

    Analysefinale

    1

    2

    3

    p=0.42

    p=0.28

    p=0.12

    p=0.04

  • Cas 4Rsultat non significatif

    Analyse intermdiaire

    Analysefinale

    1

    2

    3

    P=0.89

    p=0.48

    p=0.25

    p=0.10

  • Conclusion essai 1pas de dmonstration de l'efficacitConclusion essai 2dmonstration de l'efficacit de manire statistiquement significative (p
  • Catalogue des tests statistiques

  • Taille de lchantillonAvec les chantillons de grandes taillesles distributions desmoyennesproportionsdiffrence de moyennediffrence de proportionssont des distributions normales--> calcul simple de p et des IC

    Avec les chantillons de petites tailles (n

  • Variable continueDonnes : distribution normalemoyenne : distribution normale qq soit nDonnes : distribution quelconque symtriquemoyenne : distribution normale qq n>30Donnes : distribution quelconquemoyenne : distribution normale qq n>100Variable binaireproportion : distribution normale qd n>30

  • Sries statistiques apparies2 sries statistiques provenant de l'observation des mmes sujets (units statistiques)2 mthodes de dosage de la glycmie A et B

    les 2 mthodes sont appliques aux mmes sujetspour chaque patient : 2 valeurs, une avec chaque mthode= 2 sries apparies

    2 groupes de patients diffrentsmthode A utilise avec le 1er grpmthode B utilise avec le 2e grp= 2 sries non apparies

  • Catalogue des tests statistiquesLe test utilis doit tre prcis avec le rsultat

    Un test pour chaque situation dfinie par :

    type de la variable (continue, binaire)

    petit ou grand effectif

    sries apparies ou non

  • Var. continues (comparaison des moyennes)

    Sries non appariesgrand effectiftest t (test de Student), Test z test non paramtriqueTest de Wilcoxon (Mann-Whitney)

    Sries appariesgrand effectiftest t pour sries apparies (Student pour sries apparies)test non paramtriqueTest de Wilcoxon pour sries apparies

  • Var. binaires (comparaison des proportions)

    Sries non appariesgrand effectifChi 2 ( )test non paramtriqueTest exact de Fisher

    Sries appariestest de McNemar

    Var. qualitative plusieurs modalitsidem var. binaires