Upload
hubik38
View
6
Download
1
Embed Size (px)
DESCRIPTION
coursMaster2012-PDevos
Citation preview
Biostatistiques : Petits effectifs 20/09/2012
Biostatistiques :
Petits effectifs
Master Recherche Biologie et Sant
P. Devos DRCI CHRU de Lille EA2694
Biostatistiques : Petits effectifs 20/09/2012
Plan
Donnes Gnrales :
Dfinition des statistiques
Principe de lchantillonnage
Principe du test statistique Tailles dchantillons
Analyse descriptive / Test de Normalit.
Petits chantillons :
Petits / Grands chantillons.
Comparaison de deux ou plusieurs chantillons.
Tests non-paramtriques
Mesure de l'association entre plusieurs variables.
Biostatistiques : Petits effectifs 20/09/2012
La Statistique et les Biostatistiques
La STATISTIQUE : discipline traitant du recueil (plans dexprience, sondages, ), du traitement et de linterprtation de donnes caractrises par une grande variabilit .
Partie des mathmatiques appliques, utilisant la thorie des probabilits.
Beaucoup de domaines dapplications Sondages : enqutes dopinion Industrie : contrle de qualit Marketing : scoring, profil de consommateurs Mdecine : pidmiologie, recherche clinique ..
Statistiques appliques la Mdecine = BIOSTATISTIQUES Donnes spcifiques : variabilit inter et intra, donnes interprtes, Mthodes spcifiques : survie, courbes ROC, plans dexprience
Biostatistiques : Petits effectifs 20/09/2012
Mthodologie statistique
Employer bien sr la "bonne" procdure statistique pendant lanalyse !!!
MAIS cela ne suffit pas
Choisir le bon type dtude
Choisir le bon plan dexprience
Choisir les bons critres de jugement
Dfinir les variables recueillies
Qualit des donnes recueillies
Analyse statistique rigoureuse (tests, modles, )
Bonne interprtation des rsultats
Avant l tude !!!
Fin dtude
Biostatistiques : Petits effectifs 20/09/2012
Lchantillonnage
Biostatistiques : Petits effectifs 20/09/2012
Linfrence statistique
On dsire tudier une population P
Principe : On tire un chantillon E de taille n issu de P On analyse les caractristiques de E On gnralise P
Attention !! E doit tre un chantillon reprsentatif de P (mme probabilit pour chaque individu
de se retrouver dans E) E doit tre de taille suffisamment leve pour pouvoir extrapoler les rsultats
Dfinir trs prcisment la population que lon dsire tudier !!
Biostatistiques : Petits effectifs 20/09/2012
Les fluctuations dchantillonnage
Quand on tire alatoirement un chantillon, on a des fluctuations.
Exemple : on sintresse aux 10 premiers tudiants entrant dans lamphi. On comptabilise 7 femmes et 3 hommes. Peut-on en dduire que 70% des tudiants qui assisteront au cours sont des femmes ? NON !!!
On considre que dans la population totale, les proportions dhommes et de femmes sont les mmes P(H)=P(F)=1/2
Soit X le nombre de femmes parmi les 10 tudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramtre 0.5 et calculer la probabilit dobserver 0,1,2,,10 femmes.
0
0.05
0.1
0.15
0.2
0.25
0.3
0 1 2 3 4 5 6 7 8 9 10
P(X=k)
Biostatistiques : Petits effectifs 20/09/2012
Les prendre en compte
Comment prendre en compte les fluctuations dchantillonnage ?
1) En vrifiant que lchantillon est reprsentatif (tests dadquation par exemple)
2) En donnant la marge derreur que lon commet en raisonnant sur un chantillon (Intervalles de confiance)
3) En matrisant les risques derreurs (puissancedans le cas de comparaisons)
Biostatistiques : Petits effectifs 20/09/2012
Principe du test statistique
Biostatistiques : Petits effectifs 20/09/2012
Le test statistique
Un travail de recherche est bti pour rpondre une question
Le test statistique est bas sur 3 principes gnraux : Le test statistique sert rpondre une question Le test statistique est un test dhypothse : la question on associe une
hypothse (H0) Le test statistique ne peut conclure de manire certaine : preuve
exprimentale donc il faut prendre un risque (premire espce)
Conclusion fonde sur un test statistique
Principe du test statistique
Biostatistiques : Petits effectifs 20/09/2012
Principe du test statistique
tape 1 : on cherche prouver quelle est pipe
tape 2 : confrontation exprimentale : on jette 50 fois la pice.
tape 3 : test dhypothse Si pice non pipe : P(Face)=P(Pile)=1/2
Choix de lhypothse tester note H0 : : la pice de monnaie nest pas pipe
Soit X : nombre de Pile (ou Face)
Si H0 est vraie, la loi de X est connue (binomiale)
Question : une pice de monnaie est-elle pipe?
k k N-kNP(X=k)= (1 )C p p
Biostatistiques : Petits effectifs 20/09/2012
Si H0 vraie, toutes les configurations sont possibles, y comprisP(0P)=(0,5)50
Principe du test statistique : Notion de risque
8.8 10-16 !!
0
0.02
0.04
0.06
0.08
0.1
0.12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50
k
P (
X=k
)
Biostatistiques : Petits effectifs 20/09/2012
Principe du test statistique : Notion de risque
Il faut dcider : on choisit un risque raisonnable = 5% On partage lensemble des possibilits en 2 zones, selon le risque 5% :
50P0P
25P
Compatible H0 = 95%
Trs improbable sous H0 = 5% de chance =REJET DE H0
18P 32P
Limites de la zone compatible avec H0 se dterminent grce au calcul des probabilits. Ici 18 - 32
Biostatistiques : Petits effectifs 20/09/2012
Zone compatible avec H0 = probabilit de 95% de se produire si H0 vraie
Zone de rejet de H0 =probabilit de 5% de se produire si H0 est vraie !!! (risque)
Rgle de dcision: on fixe a priori la rgle suivante :
- Si le rsultat de lexprience se trouve dans la zone compatible avec H0 (exemple 22P), on ne dcide rien ( non significatif)
- Si il se situe dans le zone rejet de H0 on dclare H0 FAUSSE, donc on dclare H1 vraie, mais au risque 5%.
- Exemple : 15P, on dcide que la pice est truque
Risque de premire espce = Probabilit de rejeter H0 tort = 5%
Principe du test statistique : Rgle de dcision
Biostatistiques : Petits effectifs 20/09/2012
Notion de Puissance dun test
Vrit
DcisionH0 H1
Compatible H0
Rejet de H0 =on dcide H1
1-
= Proba (dcider H1 / H0 est vraie) = risque de premire espce
= Proba ( dcider compatible avec H0 / H1 est vraie) = risque de deuxime espce
Puissance = 1- = Proba ( dcider H1 / H1 est vraie)
= Risque d'affirmer qu'il y a une diffrence significative alors qu'elle n'existe pasrellement.
= Risque d'affirmer qu'il n'y a pas de diffrence significative alors qu'elle existerellement.
Puissance = Probabilit de dtecter une diffrence si elle existe rellement
Biostatistiques : Petits effectifs 20/09/2012
Puissance dpend du risque de premire espce , mais inutile en pratique car fix 5%
Notion de puissance dun test
Puissance = F(,N,DS)
En pratique, on estime et DSet on dduit N
Puissance dpend de la diffrencemais aussi de la variabilit
Biostatistiques : Petits effectifs 20/09/2012
En pratique
Dpend du plan dexprience : Nombre de groupes Indpendant / Appari (patient propre tmoin)
Dpend du critre de jugement principal Numrique Binaire Survie
Des 2 risques: : risque de premire espce : gnralement 5% : risque de seconde espce : infrieur 20%
Biostatistiques : Petits effectifs 20/09/2012
Application : Taille des chantillons
Comparaison de 2 moyennes (groupes indpendants)
Alpha Beta Zalpha Zbta K
0.05 0.05 1.96 1.64 25.99
0.05 0.1 1.96 1.28 21.01
0.05 0.2 1.96 0.84 15.70
Test bilatral Test unilatral
2
1 1
2( )
n Kz z
= + =
Alpha Beta Zalpha Zbta K
0.05 0.05 1.64 1.64 21.64
0.05 0.1 1.64 1.28 17.13
0.05 0.2 1.64 0.84 12.37
(Formules approches)
Biostatistiques : Petits effectifs 20/09/2012
Exemple
Diffrence attendue () : 5mm de mercure Ecart-type (DS): 10 mm
Risque de premire espce ( ): 5% Puissance (1- ): 90%
210
21.01* 845
N = =
( par groupe )
0
0.2
0.4
0.6
0.8
1
0 50 100 150 200
Nombre de Patients par Groupe
Pui
ssan
ce
Biostatistiques : Petits effectifs 20/09/2012
Application : Taille des chantillons
2
1 1
(1 ) (1 ) (1 ) (1 )( )
( ) ( )A A B B A A B B
A B A B
P P P P P P P Pn K
P P P Pz z + + = + =
Comparaison de 2 frquences (groupes indpendants)
Test bilatral Test unilatral
(Formules approches)
Alpha Beta Z1 Z2 K
0.05 0.05 1.96 1.64 12.99
0.05 0.1 1.96 1.28 10.51
0.05 0.2 1.96 0.84 7.85
Alpha Beta Z1 Z2 K
0.05 0.05 1.64 1.64 10.82
0.05 0.1 1.64 1.28 8.56
0.05 0.2 1.64 0.84 6.18
Biostatistiques : Petits effectifs 20/09/2012
Exemple
PA = 0.1, PB = 0.2
Risque de premire espce ( ): 5%
Puissance (1- ): 90%
10.51*25 263N = =( par groupe )
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 50 100 150 200 250 300 350 400 450 500
Effectif par Groupe
Pu
issa
nce
Biostatistiques : Petits effectifs 20/09/2012
Comparaison de deux antihypertenseurs avec : : 5mm de mercure Ecart-type (DS): 10 mm
Risque de premire espce ( ): 5%
1- = 0.9 N1=N2=86
Ltude a t ralise sans calcul de puissance pralable sur 2 groupes de 30 sujets.
Ne pas confondre :
Conditions dapplication du testet Puissance du test
Puissance = 1- = 0.48 !!!
Puissance dun test et Taille dchantillon
Biostatistiques : Petits effectifs 20/09/2012
Traitement statistique
des donnes
Biostatistiques : Petits effectifs 20/09/2012
Mthodes Statistiques : dfinitions gnrales
INDIVIDU : Objet sur lequel un ou plusieurs caractres peuvent tre observs.
POPULATION : Ensemble des individus pris en considration.
VARIABLE : peut tre qualitative (attribut) ou quantitative (numrique).
VARIABLES
QUANTITATIVES
QUALITATIVES
DISCRETES (Nombre limit de valeurs)
CONTINUES (prend ses valeurs dans un intervalle
NOMINALES (SEXE, Couleur des Yeux, CSP, )
ORDINALES = SCORE (Notion dordre)
BINAIRES ( Prsent / Absent )
Biostatistiques : Petits effectifs 20/09/2012
Les mthodes statistiques
La statistique
Infrentielle
DescriptiveMultivarie (ACP, )
Univarie (moyenne, DS, )
Multivarie (modles, )
Univarie (tests, )
Biostatistiques : Petits effectifs 20/09/2012
La Statistique Descriptive
BUTS : Contrle de qualit des donnes, descriptifs simples (moyennes, ). Synthtiser, rsumer, structurer l'information contenue dans les donnes. Mettre en vidence des proprits de l'chantillon. Suggrer des hypothses.
Analyses univaries : moyennes, histogramme, box-plot, frquences,
Analyses multivaries =Analyse des Donnes. Permet de traiter des donnes multidimensionnelles.
Principales mthodes multivaries: Mthodes de classification : dterminer des sous-groupes homognes Mthodes factorielles : rduire le nombre de variables par construction d'axes
synthtiques (ACP, AFC, ACM, ...), mais aussi sous-groupes dindividus 2 classes de mthodes souvent complmentaires Cours N 2
Biostatistiques : Petits effectifs 20/09/2012
La Statistique Infrentielle Univarie
BUT : Valider ou infirmer des hypothses a priori ou formules aprs une phase exploratoire.
Utilisation de tests statistiques se rfrant des modles probabilistes.
EXEMPLES :
Comparaison de moyennes (test T, Wilcoxon, )
ANOVA (+ + + !!!) / Modle mixte
Comparaison de frquences (Khi, Fisher exact)
Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov)
...
Biostatistiques : Petits effectifs 20/09/2012
STATISTIQUE DESCRIPTIVE
UNIVARIEE
Biostatistiques : Petits effectifs 20/09/2012
Analyse descriptive univarie
Contrle des donnes : Frquences et Box-plots
Calcul des statistiques descriptives : moyenne, .
Prsentation des rsultats :
Moyenne et Dviation standard ouMdiane et Quartiles
Frquence avec Intervalle de confiance
3 Objectifs :
Biostatistiques : Petits effectifs 20/09/2012
Paramtres statistiques de base
Moyenne :
Variance estime:
Dviation standard : racine carre de la variance
Min, Max, Mdiane, Quartiles, Centiles
=
=n
i
in
xx1
1
( )21
1
1
n
i
in
s x x=
=
Biostatistiques : Petits effectifs 20/09/2012
X max
X min
Mdiane
Q3
Q1
+
0
II=Q3-Q1
1,5 (Q3-Q1)
1,5 (Q3-Q1)
0 : valeur comprise entre 1.5 et 3 interquartiles
* : valeur suprieure 3 interquartiles
Le Box-Plot ( Bote Moustaches )
Biostatistiques : Petits effectifs 20/09/2012
Reprsentations graphiques
VARIABLES DISCRETES
VARIABLES CONTINUES
Homme55%
Femme45%
Homme
Femme
VARIABLES QUALITATIVES
Biostatistiques : Petits effectifs 20/09/2012
Distribution dun paramtre (loi)
Diffrentes formes observables
Modlisation de la distribution : Hypothse de loi
-2 2 6 1014182226303438
X
0
0. 02
0. 04De
n
s
i
ty
Biostatistiques : Petits effectifs 20/09/2012
Tests de Normalit
SHAPIRO-WILK ( N< 50 )
KOLMOGOROV-SMIRNOV ( N> 50 )
-4 -3 -2 -1 0 1 2 3 4
Hypothses de normalit requise pour
test T, ANOVA
rgression,
Intervalles de confiance (valeurs normales)
Biostatistiques : Petits effectifs 20/09/2012
Prsentation des rsultats
Toujours rappeler la population tudie, les patients inclus ou exclus,
Prciser les mthodes statistiques utilises
Faire des tableaux de synthse
Utiliser des graphiques
Existence de recommandations ( http://www.consort-statement.org/)
Suivre scrupuleusement les guidelines si article scientifique !!!
Biostatistiques : Petits effectifs 20/09/2012
Utilisation de la moyenne si distribution symtrique, de la mdiane si distribution asymtrique
Pas de moyenne sans dviation standard
Pas de mdiane sans quartiles
Pas de frquence sans Intervalle de confiance
Prsentation des rsultats
-4 -3 -2 -1 0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 2 4 6 8 10 12
moyenne
mdiane
Biostatistiques : Petits effectifs 20/09/2012
Intervalles de confiance 95%
dun paramtre numrique :
si X suit une loi normale
dune moyenne :
quelque soit la loi de X, si n > 30
dune frquence
si np , nq > 10
DS 96.1 x
n
DS 96.1 x
n
p)-p(11.96 p
Biostatistiques : Petits effectifs 20/09/2012
Normalit dun paramtre
Biostatistiques : Petits effectifs 20/09/2012
La droite de Henry
Normalit : trs important car condition de nombreux tests
Mthode graphique qui permet de vrifier la normalit dune distribution
Soit X, une variable alatoire N(m,)
: ]-,+[ [0,1]x (x) = P(X
Biostatistiques : Petits effectifs 20/09/2012
En pratique
Soit (X1, ... , Xn) un chantillon issu de X, R1, ..., Rn les rangs associs, 11
RiYi
n = +
Si X suit une loi normale, alors les points (Xi,Yi) sont aligns
R2 = 0.9775
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
15 17 19 21 23 25 27 29 31 33
Droite de pente 1/ coupant laxe des abscisses en m.
Cas particulier des diagrammes P-P
Biostatistiques : Petits effectifs 20/09/2012
Le test de Shapiro-Wilk
Test implment dans de nombreux logiciels et utilis pour des petits chantillons
Bas sur le calcul des diffrences symtriques :
d1 = Xn - X1d2 = Xn-1 - X2
. . . . . . . . .dk = Xn-k+1 - Xk
On obtient k=n/2 ou k=(n-1)/2 diffrences selon la parit de n
Puis on calcule :1
k
i ii
b a d=
= , ( )21
n
ii
S x x=
= puis
bW
S=
Les ai sont des coefficients dpendants de i et n
Utilisation dune table qui permet de conclure.
Biostatistiques : Petits effectifs 20/09/2012
Exemple
Xi di ai ai*di 16.3 31.0-16.3=14.7 0.5150 7.5705 16.8 19.6 27.4-16.8=10.6 0.3306 3.50436 19.8 20.6 27.0-19.6=7.4 0.2495 1.8463 21.0 22.4 25.0-19.8=5.2 0.1878 0.97656 23.0 23.4 24.4-20.6=3.8 0.1353 0.51414 23.9 24.4 23.9-21.0=2.9 0.0880 0.2552 25.0 27.0 23.4-22.4=1 0.0433 0.0433 27.4 31.0 23
1
14.71k
i ii
b a d=
= =
( )21
220.77n
ii
S x x=
= =0.9803W =
Lecture de la table : = 0.05
n = 15
C(,n) = 0.881
H0 : le paramtre suit une loi normale
W > C(,n)
On ne rejette pas H0
Biostatistiques : Petits effectifs 20/09/2012
Comparaisons de groupes
Biostatistiques : Petits effectifs 20/09/2012
Comparaisons de groupes
Dpend du type de variable : Qualitatitives : Khi ou Fisher Exact
Quantitatives
Comparaison Quantitatives 2 approches: Tests paramtriques : Student par exemple
Paramtrique = on fait une hypothse sur la loi du paramtre
on compare des moyennes : interprtation facile
Hypothse forte : normalit !!!
Tests non paramtriques : Bas sur des rangs
On compare des distributions : interprtation dlicate
Mais pas dhypothse de loi mais conditions dapplication
Biostatistiques : Petits effectifs 20/09/2012
Soit H0 : Les 2 caractres sont indpendants Calcul des effectifs thoriques Tij=( Li * Cj) / N (tous suprieurs 5)
1 degr de libert
Calcul de D = 8,11 on rejette lindpendance
EXEMPLE : On veut savoir sil existe une relation de cause effet entre un pneumococque et le dcs.
V (vivant) D (dcs)
Pneumocoque G1 33 15 48
Autre G2 314 55 369
347 70 N=417
On dispose dun chantillon se rsumant ainsi :
La mortalit est-elle plus leve chez les pneumocoques ?
Comparaisons de frquence : le test du Khi
Biostatistiques : Petits effectifs 20/09/2012
d Indpendance : gnralisation
Sous lhypothse dindpendance,
Calcul de :
Degrs de libert : = (k-1) * (p-1) Utilisation de la table pour dterminer une valeur limite z Conclusion du test : si D > z alors rejet de H0, donc il existe une liaison entre
les caractres A et B
A1 A2 ........ Aj ........ AkB1 O11 ........ ........ ........ ........ O1k L1B2 O21 ........ ........ ........ ........ O2k L2
........ ........ ........ ........ ........ ........ ........ ........Bi ........ ........ ........ Oij ........ ........ Li
........ ........ ........ ........ ........ ........ ........ ........Bp Op1 ........ ........ ........ ........ Opk Lp
C1 C2 ........ Cj ........ Ck N
On souhaite savoir si deux paramtres A et B sont indpendants
On construit le tableau de
contingence croisant A et B
( )1 1
p k
i j
Tij OijD
Tij= =
=
*Cj LiTij
N=
Attention Tij < 5
Biostatistiques : Petits effectifs 20/09/2012
Cas particuliers : Fisher exact
Test pouvant remplacer le dans le cas deffectifs thoriques infrieurs 5.
Bas sur la combinatoire
Valide quelque soient les effectifs thoriques
Valide quelque soit le nombre de lignes et de colonnes
Attention, temps de calcul prohibitif si le nombre de cases du tableau est lev
Biostatistiques : Petits effectifs 20/09/2012
a b
c d
2 Modalits 3 Modalits
( ) si b+c 10
b c
b c
=
+
( )1 si b+c
Biostatistiques : Petits effectifs 20/09/2012
Comparaisons de moyennes
Biostatistiques : Petits effectifs 20/09/2012
Tests paramtriques
Chaque fois que possible, utiliser des tests paramtriques car plus faciles interprter et utilisent linformation totale (pas de perte dinformation) et donc a priori plus puissants.
Attention : des conditions vrifier : Normalit de la distribution (population totale ou par sous-groupe)
Lquilibre des groupes (mme effectif dans chaque groupe)
Lgalit des variances (test de Fisher ou de Levene)
En fonction de la compatibilit avec certaines de ces conditions, possibilit dutiliser un test paramtrique
Biostatistiques : Petits effectifs 20/09/2012
Comparaison de 2 groupes
X ~ N(m,) ?
galit desVariances ?
OUI
NONOUI
Test de StudentApproximationde Satterthwaite
N1, N2 > 30 ?
NONOUI
Test de Student
Wilcoxon(non-paramtrique)
NON
Loi symtrique ?
OUI NON
Biostatistiques : Petits effectifs 20/09/2012
Comparaison de k groupes
Paramtrique : ANOVA (pas au programme)
Non paramtrique : test de Kruskal-Wallis
H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mmes dans les k groupes
Cas 1 : on ne rejette pas H0 Pas de diffrence STOP
Cas 2 : on rejette H0 O sont les diffrences ? Post-hocs
Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 2)
Biostatistiques : Petits effectifs 20/09/2012
Le modle linaire
Permet de modliser de nombreux plans dexprience, simples ou complexes, en indpendant ou appari, un ou plusieurs facteurs.
Hypothse pralable de normalit sur lerreur (les rsidus)
En fait, comme tout modle linaire, validation a posteriori : Analyse des rsidus
Analyse des individus influents
Biostatistiques : Petits effectifs 20/09/2012
Tests non-paramtriques
Biostatistiques : Petits effectifs 20/09/2012
Dfinition - Impact
Utilis en gnral sur de petits chantillons (taille infrieure 30 individus).
Pas de statistiques en dessous de 8par groupe
Attention : les thormes statistiques (Th Central limite, par exemple) ne sappliquent plus Ncessit de disposer de tests spcifiques
Interprtation plus complique : on ne compare pas des moyennes.
Problme de lestimation : Dans les statistiques standard : moyenne, dviation standard
Dans les modles
Biostatistiques : Petits effectifs 20/09/2012
Tests non-paramtriques
Distribution-free tests : tests ne faisant aucune hypothse a priori sur la distribution des variables analyses (pas dhypothse de normalit).
Gnralement bass sur lanalyse des rangs.
RANG(X i) : Position de la valeur Xi dans la srie classe par ordre croissant
-2 3 2 1 0 -1 -3 4 5 -4 3 8 7 6 5 4 2 9 10 1
On obtient une nouvelle variable Rx qui varie de 1 n
Problmes :
On gomme les diffrences
Tests moins puissants
Attention aux ex-aequo (individus ayant la mme valeur Xi)
soit (X1, X2,, Xn) n valeurs numriques dune mme variable
Biostatistiques : Petits effectifs 20/09/2012
Le test de Wilcoxon ou Mann-Withney
Utilis pour comparer les distributions de 2 groupes indpendants
H0 : Fa(X) Fb(X) (les fonctions de rpartition sont diffrentes)
On classe les observations par ordre croissant et on calcule la somme des rangs dans chaque groupe.
On obtient une variable de dcision qui suit une N(0,1) si au moins 8 individus dans chaque groupe
X
Si distribution identiques, alors mlange parfait entre le groupe A (ronds rouges) et le groupe B (triangles verts).
Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes
Biostatistiques : Petits effectifs 20/09/2012
Le test de Wilcoxon
Soit n et m les effectifs des groupe 1 et 2,
Wx la somme des rangs du groupe A (ou B)
Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)
( 1)( )
2
n n mE Wx
+ +=( 1)
( )12
nm n mV Wx
+ +=et
Si n et m > 8, alors suit une loi N(0,1)( )
( )
Wx E WxZ
V Wx
=
(Formules valides sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Le test de Kruskal-Wallis
Utilis pour comparer les distributions de plus de 2 groupes indpendants
H0 : les distributions (fonctions de rpartition) sont gales
Bas sur la diffrence de la moyenne des rangs dans chaque groupe la moyenne des rangs sur la population globale
Si Ni 5, on obtient une variable de dcision H qui suit un k-1 ddl
2
21
1 (N+1)H - N
4
ki
i i
R
S n=
=
( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i )
(Formule sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Kruskal-Wallis : diffrences 2 2 ?
Exemple : 3 groupes G1, G2 et G3 Test global significatif
On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!
Attention : Ncessit dune correction du risque
Option 1: Utiliser les procdures implmentes dans certains logiciels (SAS, SPSS, ) et qui permettent une correction : Procdure de Dwass-Steel
Procdure de Conover-Inman
Option 2: on effectue 3 tests de Wilcoxon au risque /3
2 options possibles :
Biostatistiques : Petits effectifs 20/09/2012
La mthode de Conover
On transforme la variable X en variable R en calculant les rangs (en faisant attention aux ex-aequo).
On ralise une ANOVA normale sur la variable R (en utilisant les corrections du risque a telles que Bonferroni ou Tukey)
Mthode simple mais pas forcment optimale (simulations) et qui a t critique (prservation du risque alpha et puissance)
Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conoverand Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp. 124-129
Biostatistiques : Petits effectifs 20/09/2012
Quelques exemples
Biostatistiques : Petits effectifs 20/09/2012
Exemple 1 : comparaison de 2 groupes
Comparaison du BMI dans 2 groupes
Question 1 : le BMI suit-il une loi normale dans cet chantillon ?
Test de Shapiro-Wilk :
W=0.978 et p = 0.891
On ne rejette pas H0
Le BMI suit une loi normale !
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12Gr 1 20 22 23 23 23 23 24 24 25 25 26 27Gr 2 25 26 26 27 27 27 28 28 29 30
Biostatistiques : Petits effectifs 20/09/2012
Exemple 1 : comparaison de 2 groupes
Utilisation dun test paramtrique : le test de Student
Test de Fisher (ou Levene)F=1.56 , p=0.5155
galit desVariances ?
Cas 1 : Variances galesTest de Student sur variances pooles
T = - 4.85DF = 20p < 0.0001
Cas 2 : Variances ingalesTest de Student avec
corr Satterthwaite
T = - 4.96DF = 19.98p < 0.0001
Biostatistiques : Petits effectifs 20/09/2012
Exemple 1 : comparaison de 2 groupes
Si le BMI navait pas suivi une loi normale, alors utilisation du test de Wilcoxon.
Somme des Rangs du Groupe 1 : 85.5
Somme des Rangs du Groupe 2 : 167.5
Z = 3.4582
p = 0.005
Les distributions du BMI sont statistiquement diffrentes dans les 2 groupes.
Biostatistiques : Petits effectifs 20/09/2012
Exemple 2 : le test de Kruskal-Wallis
3 groupes de 10 individus Rponse cote de 0 20
N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 Somme RiGr 1 7 8 6 5 6 7 9 10 9 8 57.5Gr 2 9 12 11 11 10 12 12 11 13 12 156.5Gr 3 13 12 14 15 15 16 14 15 16 13 251
Test de KW :
Khi = 24.3885
DDL = 2
P < 0.0001
Biostatistiques : Petits effectifs 20/09/2012
Kruskal-Wallis : diffrences 2 2 ?
On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!
Attention la correction du risque !! !! !! !!
Option 1 : correction disponible dans le logiciel
Option 2: on effectue 3 tests de Wilcoxon au risque /3
2 options possibles :
G1#G2 , G1#G3 et G2#G3
G1-G2 : p=0.00004
G2-G3 : p=0.00013
G1-G3 : p=0.00001< 0.0166
Biostatistiques : Petits effectifs 20/09/2012
Mthode de Conover
On transforme la variable en rang
On ralise lANOVA sur les rangs
Si rejet de H0, comparaisons post-hoc
Test global : p < 0.0001
Tests post-hocs significatifs
Mmes conclusions quavec le test de Kruskal-Wallis
Biostatistiques : Petits effectifs 20/09/2012
Exemple 2 : Modle linaire
Utilisation du modle linaire
Test de leffet global
Vrification de linfluence et des rsidus
Si modle OK et effet global significatif, alors calcul des tests post-hoc
Et si la loi tait normale ??? Test de Shapiro-Wilk p=0.3541 !
La distribution suit une loi normale
Biostatistiques : Petits effectifs 20/09/2012
Exemple 2 : Modle linaire
-3
-2
-1
0
1
2
3
0 5 10 15 20 25 30
Obs Number
Res
idua
l
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0 5 10 15 20 25 30 35
Obs Number
Coo
k's
D
Rsidus alatoires et normalement distribus
2 individus ayant une Distance de Cook (influence) suprieure 4/n
mais infrieure 1.
Modle paramtrique parfaitement valide !!!
Vrification du modle sans les 2 individus
Biostatistiques : Petits effectifs 20/09/2012
1 groupe Mesures rptes
Biostatistiques : Petits effectifs 20/09/2012
2 mesures
Problmatique : mme paramtre X mesur 2 fois sur le mme individu : Mesure Avant / Aprs traitement par exemple.
Plusieurs mthodes possibles
Cas 1 : X suit une loi normale Test paramtrique Test T appari
Cas 2 : X ne suit pas une loi normale
Tests non paramtriques
Test des signes
Wilcoxon appari
Biostatistiques : Petits effectifs 20/09/2012
Test de Student pour donnes apparis
On suppose que le paramtre X suit une loi normale, X mesur 2 fois : X1 et X2
H0 : m1=m2
On calcule, pour chaque individu, la diffrence d, puis la moyenne et la dviation standard de la diffrence.
d
dt
n
=alors suit une loi de Student n-1 ddl
Biostatistiques : Petits effectifs 20/09/2012
Le test des signes
On dispose de n diffrences
Soit K le nombre de diffrences positives (ou ngatives)
Sous H0 : m1=m2, il y a une chance sur 2 quune diffrence soit positive
On peut tablir la loi de K qui suit une loi binomiale
K ~ B(n,1/2)
Biostatistiques : Petits effectifs 20/09/2012
Le test de Wilcoxon pour donnes apparies
On dispose de n diffrences en valeur absolue
On ordonne par ordre croissant et on calcule les rangs
Soit Wx la somme des rangs des diffrences positives
Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)
( 1)( )
4
n nE Wx
+=( 1)(2 1)
( )24
n n nV Wx
+ +=et
Si n > 10, alors suit une loi N(0,1)( )
( )
Wx E WxZ
V Wx
=
(Formules valides sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Exemple
10 vins nots par 2 experts
Diffrence de notation ?
1) Normalit ?
OUI : D suit une loi normale
2) Utilisation du T appari
md=9
d=7.90n=10
t=3.60
ddl=9
p=0.0057 Trs significatif !
Num X1 X2 D Ri1 62 79 17 92 73 69 -4 13 66 84 18 104 69 83 14 75 61 72 11 56 69 71 2 37 64 62 -2 28 76 83 7 49 61 73 12 610 65 80 15 8
Moyenne 66.6 75.6 9
Biostatistiques : Petits effectifs 20/09/2012
Exemple
Si la loi navait pas t normale , utilisation de tests non paramtriques
1) Test des signes : K=2 diffrences ngatives - K suit une B(10,1/2)
2) Wilcoxon appari : Wx=50.5 (sommes des rangs des diff >0)
( 1)( ) 27.5
4
n nE Wx
+= = ( 1)(2 1) 10*11*21( ) 96.2524 24
n n nV Wx
+ += = =
( ) 50.5 27.52.3444
( ) 96.25
Wx E WxZ
V Wx
= = = p=0.019
( )2
10
100
0.5 0.0547 en unilatral, 0.109 en bilatralkk
p C=
= = NS !!
?
Biostatistiques : Petits effectifs 20/09/2012
3 mesures ou plus
Problmatique : mme paramtre X mesur k fois sur le mme individu : Test de plusieurs traitements / Mesures rptes dans le temps.
Plusieurs mthodes possibles
Cas 1 : X suit une loi normale Paramtrique Modle linaire
Cas 2 : X ne suit pas une loi normale
Test non paramtriques
Test de Friedman
Biostatistiques : Petits effectifs 20/09/2012
Le test de Friedman
Un chantillon de n individus, k mesures rptes
On calcule le rang de chaque variable pour chaque individu
Test bas sur la dispersion des rangs moyens de chaque mesure
2
1
12 1
( 1) 2
k
i
i
n kQ R
k k =
+ = +
Q suit une loi de Khi k-1 ddl
(Formule valide sans ex-aequo)
Biostatistiques : Petits effectifs 20/09/2012
Exemple
Obs X1 X2 X31 7.7 7 5.12 9.2 8.3 7.93 5.5 4.8 5.34 8.8 8.1 7.75 8.3 7.2 5.56 7.9 7.5 5.37 7.2 7.1 4.98 8.5 7.3 89 9.4 8.4 8
10 8.9 8.2 7.9
8.14 7.39 6.56
10 souris Hormone mesure M0, M6, M12Obs R1 R2 R3
1 3 2 12 3 2 13 3 1 24 3 2 15 3 2 16 3 2 17 3 2 18 3 1 29 3 2 1
10 3 2 1
3 1.8 1.2
Rangs
Q=16.8 Suit un Khi 2 ddl p=0.0002245Trs significatif !!
Problme des tests post-hocs : pas simple !!!
Alternative : Wilcoxon apparis 2 2 avec correction du risque
Biostatistiques : Petits effectifs 20/09/2012
Associations entre paramtres
Biostatistiques : Petits effectifs 20/09/2012
Le coefficient de Corrlation : Introduction
EXEMPLES : Rapport entre la taille et le poids
Rapport entre un prix de vente et une superficie
Interaction entre des paramtres biologiques
etc ...
Utilis pour tudier la liaison (ou lindpendance) entre 2 paramtres numriques.
On considre donc un couple de variables (X,Y)
N couples (Xi,Yi) , ralisations du couple de variables alatoires (X,Y)
Biostatistiques : Petits effectifs 20/09/2012
Le coefficient thorique
REMARQUES :
est toujours compris entre -1 et 1
Si X et Y sont indpendantes, alors E(XY)=E(X)E(Y) et donc = 0
Sil existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors || = 1
Soit (X,Y) un couple de variables alatoires
Le coefficient de corrlation linaire entre X et Y est dfini par :
2 2 2 2
COV(X,Y) E(XY)-E(X)E(Y)
X Y X Y
= =
Biostatistiques : Petits effectifs 20/09/2012
1(xi-x)(yi-y)
n 1 12 21 2 2 et (xi-x) (yi-y) avec n n1 1x y
n
n nr S Sx yS S
= = =
De mme que pour le coefficient thorique : r est compris entre -1 et 1
r = 0 : pas de liaison
r proche de 1 : liaison fonctionnelle
ATTENTION : absence de liaison nest pas quivalent indpendance
On dispose d un chantillon de taille N (N>30)(X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn)
On dfinit le coefficient de corrlation de BRAVAIS-PEARSON par :
Le coefficient observ
Biostatistiques : Petits effectifs 20/09/2012
Du bon usage de r !!!
r mesure le caractre LINEAIREdune liaison
Usage rserv des nuages de points o les points sont rpartis de part et
dautre dune tendance
R est trs sensible aux individus extrmes.
Attention aux valeurs aberrantes.
Utilit de la reprsentation graphique.
Biostatistiques : Petits effectifs 20/09/2012
Le coefficient de corrlation de Spearman
Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn),
(R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associs.
Le coefficient de corrlation de Spearman calcul entre (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) est gal au coefficient de corrlation de Pearson calcul entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn).
Utilis en non paramtrique si N
Biostatistiques : Petits effectifs 20/09/2012
Exemple
0
20
40
60
80
100
120
140
0 5 10 15 20 25 30 35 40 45 50
X
Y
2 paramtres numriques mesurs chez 10 patients
Mesure de lassociation : calcul du coefficient de Spearman
R=0.973 p
Biostatistiques : Petits effectifs 20/09/2012
Des questions ???
Patrick Devos Dlgation la Recherche - [email protected]
Alain Duhamel Ple de Sant Publique - [email protected]
Possibilit de RDV le Mardi AM ou Jeudi AM (ou autre si ncessaire)
Mme Brigitte Bonneau
Ple de Sant Publique
03 20 44 55 18
Contact :
Julia Salleron Ple de Sant Publique [email protected]