88
Biostatistiques : Petits effectifs 20/09/2012 Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos – DRCI CHRU de Lille – EA2694 [email protected]

coursMaster2012-PDevos

Embed Size (px)

DESCRIPTION

coursMaster2012-PDevos

Citation preview

  • Biostatistiques : Petits effectifs 20/09/2012

    Biostatistiques :

    Petits effectifs

    Master Recherche Biologie et Sant

    P. Devos DRCI CHRU de Lille EA2694

    [email protected]

  • Biostatistiques : Petits effectifs 20/09/2012

    Plan

    Donnes Gnrales :

    Dfinition des statistiques

    Principe de lchantillonnage

    Principe du test statistique Tailles dchantillons

    Analyse descriptive / Test de Normalit.

    Petits chantillons :

    Petits / Grands chantillons.

    Comparaison de deux ou plusieurs chantillons.

    Tests non-paramtriques

    Mesure de l'association entre plusieurs variables.

  • Biostatistiques : Petits effectifs 20/09/2012

    La Statistique et les Biostatistiques

    La STATISTIQUE : discipline traitant du recueil (plans dexprience, sondages, ), du traitement et de linterprtation de donnes caractrises par une grande variabilit .

    Partie des mathmatiques appliques, utilisant la thorie des probabilits.

    Beaucoup de domaines dapplications Sondages : enqutes dopinion Industrie : contrle de qualit Marketing : scoring, profil de consommateurs Mdecine : pidmiologie, recherche clinique ..

    Statistiques appliques la Mdecine = BIOSTATISTIQUES Donnes spcifiques : variabilit inter et intra, donnes interprtes, Mthodes spcifiques : survie, courbes ROC, plans dexprience

  • Biostatistiques : Petits effectifs 20/09/2012

    Mthodologie statistique

    Employer bien sr la "bonne" procdure statistique pendant lanalyse !!!

    MAIS cela ne suffit pas

    Choisir le bon type dtude

    Choisir le bon plan dexprience

    Choisir les bons critres de jugement

    Dfinir les variables recueillies

    Qualit des donnes recueillies

    Analyse statistique rigoureuse (tests, modles, )

    Bonne interprtation des rsultats

    Avant l tude !!!

    Fin dtude

  • Biostatistiques : Petits effectifs 20/09/2012

    Lchantillonnage

  • Biostatistiques : Petits effectifs 20/09/2012

    Linfrence statistique

    On dsire tudier une population P

    Principe : On tire un chantillon E de taille n issu de P On analyse les caractristiques de E On gnralise P

    Attention !! E doit tre un chantillon reprsentatif de P (mme probabilit pour chaque individu

    de se retrouver dans E) E doit tre de taille suffisamment leve pour pouvoir extrapoler les rsultats

    Dfinir trs prcisment la population que lon dsire tudier !!

  • Biostatistiques : Petits effectifs 20/09/2012

    Les fluctuations dchantillonnage

    Quand on tire alatoirement un chantillon, on a des fluctuations.

    Exemple : on sintresse aux 10 premiers tudiants entrant dans lamphi. On comptabilise 7 femmes et 3 hommes. Peut-on en dduire que 70% des tudiants qui assisteront au cours sont des femmes ? NON !!!

    On considre que dans la population totale, les proportions dhommes et de femmes sont les mmes P(H)=P(F)=1/2

    Soit X le nombre de femmes parmi les 10 tudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramtre 0.5 et calculer la probabilit dobserver 0,1,2,,10 femmes.

    0

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0 1 2 3 4 5 6 7 8 9 10

    P(X=k)

  • Biostatistiques : Petits effectifs 20/09/2012

    Les prendre en compte

    Comment prendre en compte les fluctuations dchantillonnage ?

    1) En vrifiant que lchantillon est reprsentatif (tests dadquation par exemple)

    2) En donnant la marge derreur que lon commet en raisonnant sur un chantillon (Intervalles de confiance)

    3) En matrisant les risques derreurs (puissancedans le cas de comparaisons)

  • Biostatistiques : Petits effectifs 20/09/2012

    Principe du test statistique

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test statistique

    Un travail de recherche est bti pour rpondre une question

    Le test statistique est bas sur 3 principes gnraux : Le test statistique sert rpondre une question Le test statistique est un test dhypothse : la question on associe une

    hypothse (H0) Le test statistique ne peut conclure de manire certaine : preuve

    exprimentale donc il faut prendre un risque (premire espce)

    Conclusion fonde sur un test statistique

    Principe du test statistique

  • Biostatistiques : Petits effectifs 20/09/2012

    Principe du test statistique

    tape 1 : on cherche prouver quelle est pipe

    tape 2 : confrontation exprimentale : on jette 50 fois la pice.

    tape 3 : test dhypothse Si pice non pipe : P(Face)=P(Pile)=1/2

    Choix de lhypothse tester note H0 : : la pice de monnaie nest pas pipe

    Soit X : nombre de Pile (ou Face)

    Si H0 est vraie, la loi de X est connue (binomiale)

    Question : une pice de monnaie est-elle pipe?

    k k N-kNP(X=k)= (1 )C p p

  • Biostatistiques : Petits effectifs 20/09/2012

    Si H0 vraie, toutes les configurations sont possibles, y comprisP(0P)=(0,5)50

    Principe du test statistique : Notion de risque

    8.8 10-16 !!

    0

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50

    k

    P (

    X=k

    )

  • Biostatistiques : Petits effectifs 20/09/2012

    Principe du test statistique : Notion de risque

    Il faut dcider : on choisit un risque raisonnable = 5% On partage lensemble des possibilits en 2 zones, selon le risque 5% :

    50P0P

    25P

    Compatible H0 = 95%

    Trs improbable sous H0 = 5% de chance =REJET DE H0

    18P 32P

    Limites de la zone compatible avec H0 se dterminent grce au calcul des probabilits. Ici 18 - 32

  • Biostatistiques : Petits effectifs 20/09/2012

    Zone compatible avec H0 = probabilit de 95% de se produire si H0 vraie

    Zone de rejet de H0 =probabilit de 5% de se produire si H0 est vraie !!! (risque)

    Rgle de dcision: on fixe a priori la rgle suivante :

    - Si le rsultat de lexprience se trouve dans la zone compatible avec H0 (exemple 22P), on ne dcide rien ( non significatif)

    - Si il se situe dans le zone rejet de H0 on dclare H0 FAUSSE, donc on dclare H1 vraie, mais au risque 5%.

    - Exemple : 15P, on dcide que la pice est truque

    Risque de premire espce = Probabilit de rejeter H0 tort = 5%

    Principe du test statistique : Rgle de dcision

  • Biostatistiques : Petits effectifs 20/09/2012

    Notion de Puissance dun test

    Vrit

    DcisionH0 H1

    Compatible H0

    Rejet de H0 =on dcide H1

    1-

    = Proba (dcider H1 / H0 est vraie) = risque de premire espce

    = Proba ( dcider compatible avec H0 / H1 est vraie) = risque de deuxime espce

    Puissance = 1- = Proba ( dcider H1 / H1 est vraie)

    = Risque d'affirmer qu'il y a une diffrence significative alors qu'elle n'existe pasrellement.

    = Risque d'affirmer qu'il n'y a pas de diffrence significative alors qu'elle existerellement.

    Puissance = Probabilit de dtecter une diffrence si elle existe rellement

  • Biostatistiques : Petits effectifs 20/09/2012

    Puissance dpend du risque de premire espce , mais inutile en pratique car fix 5%

    Notion de puissance dun test

    Puissance = F(,N,DS)

    En pratique, on estime et DSet on dduit N

    Puissance dpend de la diffrencemais aussi de la variabilit

  • Biostatistiques : Petits effectifs 20/09/2012

    En pratique

    Dpend du plan dexprience : Nombre de groupes Indpendant / Appari (patient propre tmoin)

    Dpend du critre de jugement principal Numrique Binaire Survie

    Des 2 risques: : risque de premire espce : gnralement 5% : risque de seconde espce : infrieur 20%

  • Biostatistiques : Petits effectifs 20/09/2012

    Application : Taille des chantillons

    Comparaison de 2 moyennes (groupes indpendants)

    Alpha Beta Zalpha Zbta K

    0.05 0.05 1.96 1.64 25.99

    0.05 0.1 1.96 1.28 21.01

    0.05 0.2 1.96 0.84 15.70

    Test bilatral Test unilatral

    2

    1 1

    2( )

    n Kz z

    = + =

    Alpha Beta Zalpha Zbta K

    0.05 0.05 1.64 1.64 21.64

    0.05 0.1 1.64 1.28 17.13

    0.05 0.2 1.64 0.84 12.37

    (Formules approches)

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple

    Diffrence attendue () : 5mm de mercure Ecart-type (DS): 10 mm

    Risque de premire espce ( ): 5% Puissance (1- ): 90%

    210

    21.01* 845

    N = =

    ( par groupe )

    0

    0.2

    0.4

    0.6

    0.8

    1

    0 50 100 150 200

    Nombre de Patients par Groupe

    Pui

    ssan

    ce

  • Biostatistiques : Petits effectifs 20/09/2012

    Application : Taille des chantillons

    2

    1 1

    (1 ) (1 ) (1 ) (1 )( )

    ( ) ( )A A B B A A B B

    A B A B

    P P P P P P P Pn K

    P P P Pz z + + = + =

    Comparaison de 2 frquences (groupes indpendants)

    Test bilatral Test unilatral

    (Formules approches)

    Alpha Beta Z1 Z2 K

    0.05 0.05 1.96 1.64 12.99

    0.05 0.1 1.96 1.28 10.51

    0.05 0.2 1.96 0.84 7.85

    Alpha Beta Z1 Z2 K

    0.05 0.05 1.64 1.64 10.82

    0.05 0.1 1.64 1.28 8.56

    0.05 0.2 1.64 0.84 6.18

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple

    PA = 0.1, PB = 0.2

    Risque de premire espce ( ): 5%

    Puissance (1- ): 90%

    10.51*25 263N = =( par groupe )

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    0 50 100 150 200 250 300 350 400 450 500

    Effectif par Groupe

    Pu

    issa

    nce

  • Biostatistiques : Petits effectifs 20/09/2012

    Comparaison de deux antihypertenseurs avec : : 5mm de mercure Ecart-type (DS): 10 mm

    Risque de premire espce ( ): 5%

    1- = 0.9 N1=N2=86

    Ltude a t ralise sans calcul de puissance pralable sur 2 groupes de 30 sujets.

    Ne pas confondre :

    Conditions dapplication du testet Puissance du test

    Puissance = 1- = 0.48 !!!

    Puissance dun test et Taille dchantillon

  • Biostatistiques : Petits effectifs 20/09/2012

    Traitement statistique

    des donnes

  • Biostatistiques : Petits effectifs 20/09/2012

    Mthodes Statistiques : dfinitions gnrales

    INDIVIDU : Objet sur lequel un ou plusieurs caractres peuvent tre observs.

    POPULATION : Ensemble des individus pris en considration.

    VARIABLE : peut tre qualitative (attribut) ou quantitative (numrique).

    VARIABLES

    QUANTITATIVES

    QUALITATIVES

    DISCRETES (Nombre limit de valeurs)

    CONTINUES (prend ses valeurs dans un intervalle

    NOMINALES (SEXE, Couleur des Yeux, CSP, )

    ORDINALES = SCORE (Notion dordre)

    BINAIRES ( Prsent / Absent )

  • Biostatistiques : Petits effectifs 20/09/2012

    Les mthodes statistiques

    La statistique

    Infrentielle

    DescriptiveMultivarie (ACP, )

    Univarie (moyenne, DS, )

    Multivarie (modles, )

    Univarie (tests, )

  • Biostatistiques : Petits effectifs 20/09/2012

    La Statistique Descriptive

    BUTS : Contrle de qualit des donnes, descriptifs simples (moyennes, ). Synthtiser, rsumer, structurer l'information contenue dans les donnes. Mettre en vidence des proprits de l'chantillon. Suggrer des hypothses.

    Analyses univaries : moyennes, histogramme, box-plot, frquences,

    Analyses multivaries =Analyse des Donnes. Permet de traiter des donnes multidimensionnelles.

    Principales mthodes multivaries: Mthodes de classification : dterminer des sous-groupes homognes Mthodes factorielles : rduire le nombre de variables par construction d'axes

    synthtiques (ACP, AFC, ACM, ...), mais aussi sous-groupes dindividus 2 classes de mthodes souvent complmentaires Cours N 2

  • Biostatistiques : Petits effectifs 20/09/2012

    La Statistique Infrentielle Univarie

    BUT : Valider ou infirmer des hypothses a priori ou formules aprs une phase exploratoire.

    Utilisation de tests statistiques se rfrant des modles probabilistes.

    EXEMPLES :

    Comparaison de moyennes (test T, Wilcoxon, )

    ANOVA (+ + + !!!) / Modle mixte

    Comparaison de frquences (Khi, Fisher exact)

    Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov)

    ...

  • Biostatistiques : Petits effectifs 20/09/2012

    STATISTIQUE DESCRIPTIVE

    UNIVARIEE

  • Biostatistiques : Petits effectifs 20/09/2012

    Analyse descriptive univarie

    Contrle des donnes : Frquences et Box-plots

    Calcul des statistiques descriptives : moyenne, .

    Prsentation des rsultats :

    Moyenne et Dviation standard ouMdiane et Quartiles

    Frquence avec Intervalle de confiance

    3 Objectifs :

  • Biostatistiques : Petits effectifs 20/09/2012

    Paramtres statistiques de base

    Moyenne :

    Variance estime:

    Dviation standard : racine carre de la variance

    Min, Max, Mdiane, Quartiles, Centiles

    =

    =n

    i

    in

    xx1

    1

    ( )21

    1

    1

    n

    i

    in

    s x x=

    =

  • Biostatistiques : Petits effectifs 20/09/2012

    X max

    X min

    Mdiane

    Q3

    Q1

    +

    0

    II=Q3-Q1

    1,5 (Q3-Q1)

    1,5 (Q3-Q1)

    0 : valeur comprise entre 1.5 et 3 interquartiles

    * : valeur suprieure 3 interquartiles

    Le Box-Plot ( Bote Moustaches )

  • Biostatistiques : Petits effectifs 20/09/2012

    Reprsentations graphiques

    VARIABLES DISCRETES

    VARIABLES CONTINUES

    Homme55%

    Femme45%

    Homme

    Femme

    VARIABLES QUALITATIVES

  • Biostatistiques : Petits effectifs 20/09/2012

    Distribution dun paramtre (loi)

    Diffrentes formes observables

    Modlisation de la distribution : Hypothse de loi

    -2 2 6 1014182226303438

    X

    0

    0. 02

    0. 04De

    n

    s

    i

    ty

  • Biostatistiques : Petits effectifs 20/09/2012

    Tests de Normalit

    SHAPIRO-WILK ( N< 50 )

    KOLMOGOROV-SMIRNOV ( N> 50 )

    -4 -3 -2 -1 0 1 2 3 4

    Hypothses de normalit requise pour

    test T, ANOVA

    rgression,

    Intervalles de confiance (valeurs normales)

  • Biostatistiques : Petits effectifs 20/09/2012

    Prsentation des rsultats

    Toujours rappeler la population tudie, les patients inclus ou exclus,

    Prciser les mthodes statistiques utilises

    Faire des tableaux de synthse

    Utiliser des graphiques

    Existence de recommandations ( http://www.consort-statement.org/)

    Suivre scrupuleusement les guidelines si article scientifique !!!

  • Biostatistiques : Petits effectifs 20/09/2012

    Utilisation de la moyenne si distribution symtrique, de la mdiane si distribution asymtrique

    Pas de moyenne sans dviation standard

    Pas de mdiane sans quartiles

    Pas de frquence sans Intervalle de confiance

    Prsentation des rsultats

    -4 -3 -2 -1 0 1 2 3 40

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    0.45

    0.5

    0 2 4 6 8 10 12

    moyenne

    mdiane

  • Biostatistiques : Petits effectifs 20/09/2012

    Intervalles de confiance 95%

    dun paramtre numrique :

    si X suit une loi normale

    dune moyenne :

    quelque soit la loi de X, si n > 30

    dune frquence

    si np , nq > 10

    DS 96.1 x

    n

    DS 96.1 x

    n

    p)-p(11.96 p

  • Biostatistiques : Petits effectifs 20/09/2012

    Normalit dun paramtre

  • Biostatistiques : Petits effectifs 20/09/2012

    La droite de Henry

    Normalit : trs important car condition de nombreux tests

    Mthode graphique qui permet de vrifier la normalit dune distribution

    Soit X, une variable alatoire N(m,)

    : ]-,+[ [0,1]x (x) = P(X

  • Biostatistiques : Petits effectifs 20/09/2012

    En pratique

    Soit (X1, ... , Xn) un chantillon issu de X, R1, ..., Rn les rangs associs, 11

    RiYi

    n = +

    Si X suit une loi normale, alors les points (Xi,Yi) sont aligns

    R2 = 0.9775

    -2

    -1.5

    -1

    -0.5

    0

    0.5

    1

    1.5

    2

    15 17 19 21 23 25 27 29 31 33

    Droite de pente 1/ coupant laxe des abscisses en m.

    Cas particulier des diagrammes P-P

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test de Shapiro-Wilk

    Test implment dans de nombreux logiciels et utilis pour des petits chantillons

    Bas sur le calcul des diffrences symtriques :

    d1 = Xn - X1d2 = Xn-1 - X2

    . . . . . . . . .dk = Xn-k+1 - Xk

    On obtient k=n/2 ou k=(n-1)/2 diffrences selon la parit de n

    Puis on calcule :1

    k

    i ii

    b a d=

    = , ( )21

    n

    ii

    S x x=

    = puis

    bW

    S=

    Les ai sont des coefficients dpendants de i et n

    Utilisation dune table qui permet de conclure.

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple

    Xi di ai ai*di 16.3 31.0-16.3=14.7 0.5150 7.5705 16.8 19.6 27.4-16.8=10.6 0.3306 3.50436 19.8 20.6 27.0-19.6=7.4 0.2495 1.8463 21.0 22.4 25.0-19.8=5.2 0.1878 0.97656 23.0 23.4 24.4-20.6=3.8 0.1353 0.51414 23.9 24.4 23.9-21.0=2.9 0.0880 0.2552 25.0 27.0 23.4-22.4=1 0.0433 0.0433 27.4 31.0 23

    1

    14.71k

    i ii

    b a d=

    = =

    ( )21

    220.77n

    ii

    S x x=

    = =0.9803W =

    Lecture de la table : = 0.05

    n = 15

    C(,n) = 0.881

    H0 : le paramtre suit une loi normale

    W > C(,n)

    On ne rejette pas H0

  • Biostatistiques : Petits effectifs 20/09/2012

    Comparaisons de groupes

  • Biostatistiques : Petits effectifs 20/09/2012

    Comparaisons de groupes

    Dpend du type de variable : Qualitatitives : Khi ou Fisher Exact

    Quantitatives

    Comparaison Quantitatives 2 approches: Tests paramtriques : Student par exemple

    Paramtrique = on fait une hypothse sur la loi du paramtre

    on compare des moyennes : interprtation facile

    Hypothse forte : normalit !!!

    Tests non paramtriques : Bas sur des rangs

    On compare des distributions : interprtation dlicate

    Mais pas dhypothse de loi mais conditions dapplication

  • Biostatistiques : Petits effectifs 20/09/2012

    Soit H0 : Les 2 caractres sont indpendants Calcul des effectifs thoriques Tij=( Li * Cj) / N (tous suprieurs 5)

    1 degr de libert

    Calcul de D = 8,11 on rejette lindpendance

    EXEMPLE : On veut savoir sil existe une relation de cause effet entre un pneumococque et le dcs.

    V (vivant) D (dcs)

    Pneumocoque G1 33 15 48

    Autre G2 314 55 369

    347 70 N=417

    On dispose dun chantillon se rsumant ainsi :

    La mortalit est-elle plus leve chez les pneumocoques ?

    Comparaisons de frquence : le test du Khi

  • Biostatistiques : Petits effectifs 20/09/2012

    d Indpendance : gnralisation

    Sous lhypothse dindpendance,

    Calcul de :

    Degrs de libert : = (k-1) * (p-1) Utilisation de la table pour dterminer une valeur limite z Conclusion du test : si D > z alors rejet de H0, donc il existe une liaison entre

    les caractres A et B

    A1 A2 ........ Aj ........ AkB1 O11 ........ ........ ........ ........ O1k L1B2 O21 ........ ........ ........ ........ O2k L2

    ........ ........ ........ ........ ........ ........ ........ ........Bi ........ ........ ........ Oij ........ ........ Li

    ........ ........ ........ ........ ........ ........ ........ ........Bp Op1 ........ ........ ........ ........ Opk Lp

    C1 C2 ........ Cj ........ Ck N

    On souhaite savoir si deux paramtres A et B sont indpendants

    On construit le tableau de

    contingence croisant A et B

    ( )1 1

    p k

    i j

    Tij OijD

    Tij= =

    =

    *Cj LiTij

    N=

    Attention Tij < 5

  • Biostatistiques : Petits effectifs 20/09/2012

    Cas particuliers : Fisher exact

    Test pouvant remplacer le dans le cas deffectifs thoriques infrieurs 5.

    Bas sur la combinatoire

    Valide quelque soient les effectifs thoriques

    Valide quelque soit le nombre de lignes et de colonnes

    Attention, temps de calcul prohibitif si le nombre de cases du tableau est lev

  • Biostatistiques : Petits effectifs 20/09/2012

    a b

    c d

    2 Modalits 3 Modalits

    ( ) si b+c 10

    b c

    b c

    =

    +

    ( )1 si b+c

  • Biostatistiques : Petits effectifs 20/09/2012

    Comparaisons de moyennes

  • Biostatistiques : Petits effectifs 20/09/2012

    Tests paramtriques

    Chaque fois que possible, utiliser des tests paramtriques car plus faciles interprter et utilisent linformation totale (pas de perte dinformation) et donc a priori plus puissants.

    Attention : des conditions vrifier : Normalit de la distribution (population totale ou par sous-groupe)

    Lquilibre des groupes (mme effectif dans chaque groupe)

    Lgalit des variances (test de Fisher ou de Levene)

    En fonction de la compatibilit avec certaines de ces conditions, possibilit dutiliser un test paramtrique

  • Biostatistiques : Petits effectifs 20/09/2012

    Comparaison de 2 groupes

    X ~ N(m,) ?

    galit desVariances ?

    OUI

    NONOUI

    Test de StudentApproximationde Satterthwaite

    N1, N2 > 30 ?

    NONOUI

    Test de Student

    Wilcoxon(non-paramtrique)

    NON

    Loi symtrique ?

    OUI NON

  • Biostatistiques : Petits effectifs 20/09/2012

    Comparaison de k groupes

    Paramtrique : ANOVA (pas au programme)

    Non paramtrique : test de Kruskal-Wallis

    H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mmes dans les k groupes

    Cas 1 : on ne rejette pas H0 Pas de diffrence STOP

    Cas 2 : on rejette H0 O sont les diffrences ? Post-hocs

    Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 2)

  • Biostatistiques : Petits effectifs 20/09/2012

    Le modle linaire

    Permet de modliser de nombreux plans dexprience, simples ou complexes, en indpendant ou appari, un ou plusieurs facteurs.

    Hypothse pralable de normalit sur lerreur (les rsidus)

    En fait, comme tout modle linaire, validation a posteriori : Analyse des rsidus

    Analyse des individus influents

  • Biostatistiques : Petits effectifs 20/09/2012

    Tests non-paramtriques

  • Biostatistiques : Petits effectifs 20/09/2012

    Dfinition - Impact

    Utilis en gnral sur de petits chantillons (taille infrieure 30 individus).

    Pas de statistiques en dessous de 8par groupe

    Attention : les thormes statistiques (Th Central limite, par exemple) ne sappliquent plus Ncessit de disposer de tests spcifiques

    Interprtation plus complique : on ne compare pas des moyennes.

    Problme de lestimation : Dans les statistiques standard : moyenne, dviation standard

    Dans les modles

  • Biostatistiques : Petits effectifs 20/09/2012

    Tests non-paramtriques

    Distribution-free tests : tests ne faisant aucune hypothse a priori sur la distribution des variables analyses (pas dhypothse de normalit).

    Gnralement bass sur lanalyse des rangs.

    RANG(X i) : Position de la valeur Xi dans la srie classe par ordre croissant

    -2 3 2 1 0 -1 -3 4 5 -4 3 8 7 6 5 4 2 9 10 1

    On obtient une nouvelle variable Rx qui varie de 1 n

    Problmes :

    On gomme les diffrences

    Tests moins puissants

    Attention aux ex-aequo (individus ayant la mme valeur Xi)

    soit (X1, X2,, Xn) n valeurs numriques dune mme variable

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test de Wilcoxon ou Mann-Withney

    Utilis pour comparer les distributions de 2 groupes indpendants

    H0 : Fa(X) Fb(X) (les fonctions de rpartition sont diffrentes)

    On classe les observations par ordre croissant et on calcule la somme des rangs dans chaque groupe.

    On obtient une variable de dcision qui suit une N(0,1) si au moins 8 individus dans chaque groupe

    X

    Si distribution identiques, alors mlange parfait entre le groupe A (ronds rouges) et le groupe B (triangles verts).

    Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test de Wilcoxon

    Soit n et m les effectifs des groupe 1 et 2,

    Wx la somme des rangs du groupe A (ou B)

    Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)

    ( 1)( )

    2

    n n mE Wx

    + +=( 1)

    ( )12

    nm n mV Wx

    + +=et

    Si n et m > 8, alors suit une loi N(0,1)( )

    ( )

    Wx E WxZ

    V Wx

    =

    (Formules valides sans ex-aequo)

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test de Kruskal-Wallis

    Utilis pour comparer les distributions de plus de 2 groupes indpendants

    H0 : les distributions (fonctions de rpartition) sont gales

    Bas sur la diffrence de la moyenne des rangs dans chaque groupe la moyenne des rangs sur la population globale

    Si Ni 5, on obtient une variable de dcision H qui suit un k-1 ddl

    2

    21

    1 (N+1)H - N

    4

    ki

    i i

    R

    S n=

    =

    ( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i )

    (Formule sans ex-aequo)

  • Biostatistiques : Petits effectifs 20/09/2012

    Kruskal-Wallis : diffrences 2 2 ?

    Exemple : 3 groupes G1, G2 et G3 Test global significatif

    On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!

    Attention : Ncessit dune correction du risque

    Option 1: Utiliser les procdures implmentes dans certains logiciels (SAS, SPSS, ) et qui permettent une correction : Procdure de Dwass-Steel

    Procdure de Conover-Inman

    Option 2: on effectue 3 tests de Wilcoxon au risque /3

    2 options possibles :

  • Biostatistiques : Petits effectifs 20/09/2012

    La mthode de Conover

    On transforme la variable X en variable R en calculant les rangs (en faisant attention aux ex-aequo).

    On ralise une ANOVA normale sur la variable R (en utilisant les corrections du risque a telles que Bonferroni ou Tukey)

    Mthode simple mais pas forcment optimale (simulations) et qui a t critique (prservation du risque alpha et puissance)

    Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conoverand Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp. 124-129

  • Biostatistiques : Petits effectifs 20/09/2012

    Quelques exemples

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple 1 : comparaison de 2 groupes

    Comparaison du BMI dans 2 groupes

    Question 1 : le BMI suit-il une loi normale dans cet chantillon ?

    Test de Shapiro-Wilk :

    W=0.978 et p = 0.891

    On ne rejette pas H0

    Le BMI suit une loi normale !

    N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12Gr 1 20 22 23 23 23 23 24 24 25 25 26 27Gr 2 25 26 26 27 27 27 28 28 29 30

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple 1 : comparaison de 2 groupes

    Utilisation dun test paramtrique : le test de Student

    Test de Fisher (ou Levene)F=1.56 , p=0.5155

    galit desVariances ?

    Cas 1 : Variances galesTest de Student sur variances pooles

    T = - 4.85DF = 20p < 0.0001

    Cas 2 : Variances ingalesTest de Student avec

    corr Satterthwaite

    T = - 4.96DF = 19.98p < 0.0001

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple 1 : comparaison de 2 groupes

    Si le BMI navait pas suivi une loi normale, alors utilisation du test de Wilcoxon.

    Somme des Rangs du Groupe 1 : 85.5

    Somme des Rangs du Groupe 2 : 167.5

    Z = 3.4582

    p = 0.005

    Les distributions du BMI sont statistiquement diffrentes dans les 2 groupes.

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple 2 : le test de Kruskal-Wallis

    3 groupes de 10 individus Rponse cote de 0 20

    N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 Somme RiGr 1 7 8 6 5 6 7 9 10 9 8 57.5Gr 2 9 12 11 11 10 12 12 11 13 12 156.5Gr 3 13 12 14 15 15 16 14 15 16 13 251

    Test de KW :

    Khi = 24.3885

    DDL = 2

    P < 0.0001

  • Biostatistiques : Petits effectifs 20/09/2012

    Kruskal-Wallis : diffrences 2 2 ?

    On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!

    Attention la correction du risque !! !! !! !!

    Option 1 : correction disponible dans le logiciel

    Option 2: on effectue 3 tests de Wilcoxon au risque /3

    2 options possibles :

    G1#G2 , G1#G3 et G2#G3

    G1-G2 : p=0.00004

    G2-G3 : p=0.00013

    G1-G3 : p=0.00001< 0.0166

  • Biostatistiques : Petits effectifs 20/09/2012

    Mthode de Conover

    On transforme la variable en rang

    On ralise lANOVA sur les rangs

    Si rejet de H0, comparaisons post-hoc

    Test global : p < 0.0001

    Tests post-hocs significatifs

    Mmes conclusions quavec le test de Kruskal-Wallis

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple 2 : Modle linaire

    Utilisation du modle linaire

    Test de leffet global

    Vrification de linfluence et des rsidus

    Si modle OK et effet global significatif, alors calcul des tests post-hoc

    Et si la loi tait normale ??? Test de Shapiro-Wilk p=0.3541 !

    La distribution suit une loi normale

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple 2 : Modle linaire

    -3

    -2

    -1

    0

    1

    2

    3

    0 5 10 15 20 25 30

    Obs Number

    Res

    idua

    l

    0

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    0.16

    0 5 10 15 20 25 30 35

    Obs Number

    Coo

    k's

    D

    Rsidus alatoires et normalement distribus

    2 individus ayant une Distance de Cook (influence) suprieure 4/n

    mais infrieure 1.

    Modle paramtrique parfaitement valide !!!

    Vrification du modle sans les 2 individus

  • Biostatistiques : Petits effectifs 20/09/2012

    1 groupe Mesures rptes

  • Biostatistiques : Petits effectifs 20/09/2012

    2 mesures

    Problmatique : mme paramtre X mesur 2 fois sur le mme individu : Mesure Avant / Aprs traitement par exemple.

    Plusieurs mthodes possibles

    Cas 1 : X suit une loi normale Test paramtrique Test T appari

    Cas 2 : X ne suit pas une loi normale

    Tests non paramtriques

    Test des signes

    Wilcoxon appari

  • Biostatistiques : Petits effectifs 20/09/2012

    Test de Student pour donnes apparis

    On suppose que le paramtre X suit une loi normale, X mesur 2 fois : X1 et X2

    H0 : m1=m2

    On calcule, pour chaque individu, la diffrence d, puis la moyenne et la dviation standard de la diffrence.

    d

    dt

    n

    =alors suit une loi de Student n-1 ddl

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test des signes

    On dispose de n diffrences

    Soit K le nombre de diffrences positives (ou ngatives)

    Sous H0 : m1=m2, il y a une chance sur 2 quune diffrence soit positive

    On peut tablir la loi de K qui suit une loi binomiale

    K ~ B(n,1/2)

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test de Wilcoxon pour donnes apparies

    On dispose de n diffrences en valeur absolue

    On ordonne par ordre croissant et on calcule les rangs

    Soit Wx la somme des rangs des diffrences positives

    Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)

    ( 1)( )

    4

    n nE Wx

    +=( 1)(2 1)

    ( )24

    n n nV Wx

    + +=et

    Si n > 10, alors suit une loi N(0,1)( )

    ( )

    Wx E WxZ

    V Wx

    =

    (Formules valides sans ex-aequo)

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple

    10 vins nots par 2 experts

    Diffrence de notation ?

    1) Normalit ?

    OUI : D suit une loi normale

    2) Utilisation du T appari

    md=9

    d=7.90n=10

    t=3.60

    ddl=9

    p=0.0057 Trs significatif !

    Num X1 X2 D Ri1 62 79 17 92 73 69 -4 13 66 84 18 104 69 83 14 75 61 72 11 56 69 71 2 37 64 62 -2 28 76 83 7 49 61 73 12 610 65 80 15 8

    Moyenne 66.6 75.6 9

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple

    Si la loi navait pas t normale , utilisation de tests non paramtriques

    1) Test des signes : K=2 diffrences ngatives - K suit une B(10,1/2)

    2) Wilcoxon appari : Wx=50.5 (sommes des rangs des diff >0)

    ( 1)( ) 27.5

    4

    n nE Wx

    += = ( 1)(2 1) 10*11*21( ) 96.2524 24

    n n nV Wx

    + += = =

    ( ) 50.5 27.52.3444

    ( ) 96.25

    Wx E WxZ

    V Wx

    = = = p=0.019

    ( )2

    10

    100

    0.5 0.0547 en unilatral, 0.109 en bilatralkk

    p C=

    = = NS !!

    ?

  • Biostatistiques : Petits effectifs 20/09/2012

    3 mesures ou plus

    Problmatique : mme paramtre X mesur k fois sur le mme individu : Test de plusieurs traitements / Mesures rptes dans le temps.

    Plusieurs mthodes possibles

    Cas 1 : X suit une loi normale Paramtrique Modle linaire

    Cas 2 : X ne suit pas une loi normale

    Test non paramtriques

    Test de Friedman

  • Biostatistiques : Petits effectifs 20/09/2012

    Le test de Friedman

    Un chantillon de n individus, k mesures rptes

    On calcule le rang de chaque variable pour chaque individu

    Test bas sur la dispersion des rangs moyens de chaque mesure

    2

    1

    12 1

    ( 1) 2

    k

    i

    i

    n kQ R

    k k =

    + = +

    Q suit une loi de Khi k-1 ddl

    (Formule valide sans ex-aequo)

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple

    Obs X1 X2 X31 7.7 7 5.12 9.2 8.3 7.93 5.5 4.8 5.34 8.8 8.1 7.75 8.3 7.2 5.56 7.9 7.5 5.37 7.2 7.1 4.98 8.5 7.3 89 9.4 8.4 8

    10 8.9 8.2 7.9

    8.14 7.39 6.56

    10 souris Hormone mesure M0, M6, M12Obs R1 R2 R3

    1 3 2 12 3 2 13 3 1 24 3 2 15 3 2 16 3 2 17 3 2 18 3 1 29 3 2 1

    10 3 2 1

    3 1.8 1.2

    Rangs

    Q=16.8 Suit un Khi 2 ddl p=0.0002245Trs significatif !!

    Problme des tests post-hocs : pas simple !!!

    Alternative : Wilcoxon apparis 2 2 avec correction du risque

  • Biostatistiques : Petits effectifs 20/09/2012

    Associations entre paramtres

  • Biostatistiques : Petits effectifs 20/09/2012

    Le coefficient de Corrlation : Introduction

    EXEMPLES : Rapport entre la taille et le poids

    Rapport entre un prix de vente et une superficie

    Interaction entre des paramtres biologiques

    etc ...

    Utilis pour tudier la liaison (ou lindpendance) entre 2 paramtres numriques.

    On considre donc un couple de variables (X,Y)

    N couples (Xi,Yi) , ralisations du couple de variables alatoires (X,Y)

  • Biostatistiques : Petits effectifs 20/09/2012

    Le coefficient thorique

    REMARQUES :

    est toujours compris entre -1 et 1

    Si X et Y sont indpendantes, alors E(XY)=E(X)E(Y) et donc = 0

    Sil existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors || = 1

    Soit (X,Y) un couple de variables alatoires

    Le coefficient de corrlation linaire entre X et Y est dfini par :

    2 2 2 2

    COV(X,Y) E(XY)-E(X)E(Y)

    X Y X Y

    = =

  • Biostatistiques : Petits effectifs 20/09/2012

    1(xi-x)(yi-y)

    n 1 12 21 2 2 et (xi-x) (yi-y) avec n n1 1x y

    n

    n nr S Sx yS S

    = = =

    De mme que pour le coefficient thorique : r est compris entre -1 et 1

    r = 0 : pas de liaison

    r proche de 1 : liaison fonctionnelle

    ATTENTION : absence de liaison nest pas quivalent indpendance

    On dispose d un chantillon de taille N (N>30)(X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn)

    On dfinit le coefficient de corrlation de BRAVAIS-PEARSON par :

    Le coefficient observ

  • Biostatistiques : Petits effectifs 20/09/2012

    Du bon usage de r !!!

    r mesure le caractre LINEAIREdune liaison

    Usage rserv des nuages de points o les points sont rpartis de part et

    dautre dune tendance

    R est trs sensible aux individus extrmes.

    Attention aux valeurs aberrantes.

    Utilit de la reprsentation graphique.

  • Biostatistiques : Petits effectifs 20/09/2012

    Le coefficient de corrlation de Spearman

    Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn),

    (R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associs.

    Le coefficient de corrlation de Spearman calcul entre (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) est gal au coefficient de corrlation de Pearson calcul entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn).

    Utilis en non paramtrique si N

  • Biostatistiques : Petits effectifs 20/09/2012

    Exemple

    0

    20

    40

    60

    80

    100

    120

    140

    0 5 10 15 20 25 30 35 40 45 50

    X

    Y

    2 paramtres numriques mesurs chez 10 patients

    Mesure de lassociation : calcul du coefficient de Spearman

    R=0.973 p

  • Biostatistiques : Petits effectifs 20/09/2012

    Des questions ???

    Patrick Devos Dlgation la Recherche - [email protected]

    Alain Duhamel Ple de Sant Publique - [email protected]

    Possibilit de RDV le Mardi AM ou Jeudi AM (ou autre si ncessaire)

    Mme Brigitte Bonneau

    Ple de Sant Publique

    03 20 44 55 18

    Contact :

    Julia Salleron Ple de Sant Publique [email protected]