Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
.
......Tests non-parametriques
Michael Genin
Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins
Plan
...1 Introduction
...2 Comparaison de K = 2 echantillons independants
...3 Comparaison de K = 2 echantillons apparies
...4 Correlation de rangs
...5 Comparaison de K > 2 echantillons independants
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 1 / 66
Introduction Motivations
Motivations - I
Tests parametriques necessitent des conditions de validite :
Hypotheses sur la distribution des observations (ex : X ∼ N (µ, σ))
Distributions caracterisees par des parametres (moyenne, variance, . . . )
Ces parametres sont estimes
.
......Question : Que faire lorsque les conditions de validite ne sont pas respectees ?
⇒ Tests non-parametriques
Distribution free : pas d’hypothese sur la distribution des observations
Tests adaptes aux variables quantitatives et qualitatives (nominales etordinales)
La plupart du temps : tests bases sur la notion de rangs
Valeur 4 7 8 1 3 5
Rang 3 5 6 1 2 4
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 4 / 66
Introduction Motivations
Motivations - II
AVANTAGES
Pas d’hypothese sur la distribution ⇒ champ d’application a priori plus large
Tests adaptes aux variables ordinales (ex : degre de satisfaction)
Robustesse par rapport aux donnees atypiques
Exemple :
4 5 8 7 3 38 x1 = 10.8
4 5 8 7 3 6 x2 = 5.5
Difference due a une seule observation !! La transformation en rangs permet de”gommer” cette difference
Tests adaptes aux petits echantillons (n < 30)Si pas d’hypothese sur la loi, les tests parametriques deviennent inoperants !
INCONVENIENTS
Lorsque les conditions d’applications sont verifiees :Tests NP moins puissants que les tests parametriques
Diffcultes d’interpretation : on ne compare plus des parametres (moyenne,proportion, variance, . . . )
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 5 / 66
Introduction Notion de rangs
Definition
Considerons 2 groupes G1 et G2 de taille n1 et n2 sur lesquels est mesure uncaractere X {
G1 : {x11, x12, . . . , x1n1}G2 : {x21, x22, . . . , x2n2}
Principe du rang : substituer aux valeurs leur numero d’ordre (rang r) dansl’ensemble des donnees (G1 ∪ G2)
Exemple : {G1 : {10, 14, 22, 8, 5}G2 : {6, 9, 4, 23, 7}
Groupe 1 Groupe 2
Valeur 10 14 22 8 5 6 9 4 23 7
ri 7 8 9 5 2 3 6 1 10 4
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 8 / 66
Introduction Notion de rangs
Consequences de la transformation en rangs
La distribution des rangs est symetrique
Role des valeurs atypiques amoindri
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 9 / 66
Introduction Notion de rangs
Traitement des ex-aequo → Methode des rangs moyens
Idee : les observations presentant des valeurs identiques se voient attribuer lamoyenne de leur rangs→ Frequent avec des variables ordinales (Peu de modalites)
Exemple {G1 : {11, 12, 12, 9, 13, 4, 17, 19}G2 : {12, 4, 5, 15, 22, 18, 25}
Valeurs 4 4 5 9 11 12 12 12 13 15 17 18 19 22 25
Rangs bruts 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Rangs moyens 1.5 1.5 3 4 5 7 7 7 9 10 11 12 13 14 15
Calculs (1 + 2)/2 - (6 + 7 + 8)/3 -
Remarque : Impact sur la variance des statistiques de test → Correction (Logiciels)
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 11 / 66
Comparaison de K = 2 echantillons independants Objectif du test
Test de Mann-Whitney-Wilcoxon - Objectif
Objectif : comparaison de K = 2 echantillons independants par rapport a unevariable X de nature :
Quantitative
Qualitative ordinale
Ce test regroupe 2 tests equivalents :
Test U de Mann-Whitney
Test W de Wilcoxon
→ se deduisent l’un de l’autre
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 14 / 66
Comparaison de K = 2 echantillons independants Hypotheses
Test de Mann-Whitney-Wilcoxon - Hypotheses
Soient
F1(X ) la fonction de repartition de X dans la population 1
F2(X ) la fonction de repartition de X dans la population 2
Les hypotheses de test sont :
.
......
{H0 : F1(X ) = F2(X + θ) ; θ = 0 Distributions identiques
H1 : F1(X ) = F2(X + θ) ; θ = 0 Distributions differentes
θ parametre de translation : decalage entre les fonctions de repartition
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 16 / 66
Comparaison de K = 2 echantillons independants Hypotheses
Test de Mann-Whitney-Wilcoxon - Hypotheses
Exemple de decalage θ = 0
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0 1
2
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
12
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 17 / 66
Comparaison de K = 2 echantillons independants Hypotheses
Test de Mann-Whitney-Wilcoxon - Hypotheses
Idee :
G1 : {x11, x12, . . . , x1n1}G2 : {x21, x22, . . . , x2n2}
}= Transformation en rangs (G1 ∪ G2)
Soient
R(X1) = x les rangs des valeurs du groupe 1
R(X2) = o les rangs des valeurs du groupe 2
2 configurations extremes :
x o x o x o x o x o x o x o−−−−−−−−−−−−−−−→rangs (1) → H0 vraie (melange total)x x x x x x x o o o o o o o−−−−−−−−−−−−−−−→rangs (2) → H0 ”totalement” fausse
Ecart par rapport a la configuration (1) → Rejet de H0
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 18 / 66
Comparaison de K = 2 echantillons independants Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Rappel : Somme de n premiers entiers
1 + 2 + . . .+ n =n(n + 1)
2
Posons S1 la somme des rangs des observations du groupe 1Posons U1 le nombre de couples {(x1i , x2j) / x1i > x2j}
U1 = S1 −n1(n1 + 1)
2
Posons S2 la somme des rangs des observations du groupe 2Posons U2 le nombre de couples {(x1i , x2j) / x1i < x2j}
U2 = S2 −n2(n2 + 1)
2
Statistique de test :
.
...... U = min (U1,U2)
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 20 / 66
Comparaison de K = 2 echantillons independants Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Interpretation de la statistique de test → H0 ”totalement fausse” :
x x x x x x x o o o o o o o−−−−−−−−−−−−−−−→rangs
U1 =
n1(n1+1)2 − n1(n1+1)
2 = 0
U2 =∑n1+n2
i=n1+1 ri −n2(n2+1)
2 = n1n2
U = U1 = 0
o o o o o o o x x x x x x x−−−−−−−−−−−−−−−→rangs
U1 =
∑n1+n2i=n2+1 ri −
n1(n1+1)2 = n1n2
U2 =n2(n2+1)
2 − n2(n2+1)2 = 0
U = U2 = 0
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 21 / 66
Comparaison de K = 2 echantillons independants Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Interpretation de la statistique de test → H0 ”Vraie” (melange total) :
Sp(n) = Somme des n premiers entiers pairsSi (n) = Somme des n premiers entiers impairs
(1)x o x o x o x o x o x o x o−−−−−−−−−−−−−−−→rangs
{U1 = Si (n1)− n1(n1+1)
2
U2 = Sp(n2)− n2(n2+1)2
(2)o x o x o x o x o x o x o x−−−−−−−−−−−−−−−→rangs
{U1 = Sp(n1)− n1(n1+1)
2
U2 = Sp(n2)− n2(n2+1)2
On peut en deduire que → Propriete : U ≤ n1n22
Sous H0, on montre que
.
...... E[U] = n1n22 V[U] = n1n2
n1+n2+112
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 22 / 66
Comparaison de K = 2 echantillons independants Statistique de test
Test de Mann-Whitney-Wilcoxon - Statistique de test
Distribution sous H0 de la statistique de test
Distribution non connue mais tabulee (probabilites exactes et quantiles)
.
...... → Table des valeurs critiques de U
Cas particulier si n1 et n2 > 10 :
.
......Z =
U − E[U]√V[U]
∼ N (0, 1)
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 23 / 66
Comparaison de K = 2 echantillons independants Region critique
Test de Mann-Whitney-Wilcoxon - Region critique
n1 ou n2 < 10
0
Valeurs de U
n1n22Ulim
Rejet de H0 Non - rejet de H0
Valeur de Ulim lue dans la table
Cas particulier si n1 et n2 > 10
Z =U − n1n2
2√n1n2(n1+n2+1)
12
∼ N (0, 1)
R.C . : |Z | ≥ z1−α/2
z0.975!z0.975 0
N (0, 1)
2.5%2.5% 95%
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 25 / 66
Comparaison de K = 2 echantillons independants Exemple
Exemple
G1 : n1 = 7 : {11, 21, 21, 25, 52, 71, 79}G2 : n2 = 5 : {22, 43, 72, 91, 100}
...1 Passage aux rangs
Valeurs 11 21 21 22 25 43 52 71 72 79 91 100
Rangs 1 2.5 2.5 4 5 6 7 8 9 10 11 12
Groupe 1 1 1 2 1 2 1 1 2 1 2 2
...2 Calcul de U1 et U2
U1 = S1 − n1(n1+1)2
U1 = 1 + 2.5 + 2.5 + 5 + 7 + 8 + 10− 7(7+1)2 = 8
U2 = S2 − n2(n2+1)2
U2 = 4 + 6 + 9 + 11 + 12− 5(5+1)2 = 27
...3 U = min(U1,U2) = U1 = 8
...4 Ulim = 5 (Table) et U > Ulim donc non rejet de H0
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 27 / 66
Comparaison de K = 2 echantillons independants Remarques
Remarques - I
...1 Equivalence entre les tests de Mann-Whitney et Wilcoxon
Test de Wilcoxon → base sur la somme des rangs SS = S1 si n1 < n2 sinon S = S2
si n1 = n2 alors S = S1 si S1 < S2 sinon S = S2
Les deux tests sont equivalents :
U = n1n2 +n(n + 1)
2︸ ︷︷ ︸Non aleatoire
−S
...2 Test Mann-Whitney-Wilcoxon plus puissant que test de Student si lesdistributions ne sont pas gaussiennes
Si les distributions sont gaussiennes → Test de MWW presente une puissanceproche de celle du test de Student (efficacite relative = 3/π ≈ 0.95)
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 29 / 66
Comparaison de K = 2 echantillons independants Remarques
Remarques - II
...3 Probleme de Behrens - Fisher
H1 stipule un decalage de tendance centrale entre les distributions (θ = 0)Cela sous-tend l’hypothese que les dispersions des distributions sontrelativement homogenes
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
12
Analogie au test parametrique de Student (σ21 = σ2
2)
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 30 / 66
Comparaison de K = 2 echantillons independants Remarques
Remarques - III
Probleme de Behrens - Fisher
Si cette hypothese n’est plus assumee → rejet de H0 n’est plus uniquementimputable a un ecart de tendance centrale
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
12
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
12
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
12
Dans ce cas de figure le test de MWW n’est plus applicable⇒ Solution : test de rang robuste de Fligner-Policello
Equivalent non-parametrique du test d’Aspin-Welsh.
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 31 / 66
Comparaison de K = 2 echantillons apparies Objectif du test
Test des rangs signes de Wilcoxon
Objectif : Comparaison de 2 echantillons apparies par rapport a une variable
Quantitative
Qualitative ordinale
Exemple :
Temps
Apres
X2X1
Avant
Remarque : Equivalent non-parametrique du test de Student pour echantillonsapparies.
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 34 / 66
Comparaison de K = 2 echantillons apparies Hypotheses
Test des rangs signes de Wilcoxon
Soient
F (X1) la fonction de repartition de X1 (mesure avant)
F (X2) la fonction de repartition de X2 (mesure apres)
Les hypotheses de test sont :
.
......
{H0 : F (X1) = F (X2 + θ) ; θ = 0 Distributions identiques (AVANT/APRES)
H1 : F (X1) = F (X2 + θ) ; θ = 0 Distributions differentes (AVANT/APRES)
θ parametre de translation : decalage entre les fonctions de repartition
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 36 / 66
Comparaison de K = 2 echantillons apparies Hypotheses
Test des rangs signes de Wilcoxon
Idee
G1 : {x11, x12, . . . , x1n}G2 : {x21, x22, . . . , x2n}
}= Transformation en rangs (G1 ∪ G2)
Posons|D| = |X1 − X2|.
...1 Calcul des |di | = |x1i − x2i |, ∀i ∈ {1, . . . , n}
...2 Elimination des observations telles que |di | = 0
...3 Prise en compte du signe de chaque |di |
...4 Transformation en rang des |di | (r(mini |di |) = 1, r(maxi |di |) = n)
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 37 / 66
Comparaison de K = 2 echantillons apparies Hypotheses
Test des rangs signes de Wilcoxon
Exemple : n = 10
Avant Apres |D| signe
2 1 1 +4 6 2 -7 3 4 +8 7 1 +9 11 2 -10 8 2 +12 13 1 +15 14 1 +16 16 0 ?14 14 0 ?
Calcul des rangs de |D| et du signe :
Valeurs 1 1 1 1 2 2 2 4
Rangs bruts 1 2 3 4 5 6 7 8
Rangs finaux 2.5 2.5 2.5 2.5 6 6 6 8
Signes + + - + - - + +
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 38 / 66
Comparaison de K = 2 echantillons apparies Hypotheses
Test des rangs signes de Wilcoxon
Exemple : n = 10
2 configurations extremes :
+ − + − + − + − + − + − + −−−−−−−−−−−−−−−−−−−−→rangs |D| (1) → H0 vraie (melange total)
+ + + + + + + − − − − − − −−−−−−−−−−−−−−−−−−−−→rangs |D| (2) → H0 ”totalement” fausse
Ecart par rapport a la configuration (1) → Rejet de H0
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 39 / 66
Comparaison de K = 2 echantillons apparies Statistique de test
Test des rangs signes de Wilcoxon
Statistique de test
Soit T+ la somme des rangs des observations pour lesquelles di > 0 :
T+ =∑i :di>0
ri
Soit T− la somme des rangs des observations pour lesquelles di < 0 :
T− =∑i :di<0
ri
Remarque : On peut deduire T− grace a T+ :
T− =n(n + 1)
2− T+
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 41 / 66
Comparaison de K = 2 echantillons apparies Statistique de test
Test des rangs signes de Wilcoxon
Statistique de test
T+ grand par rapport a T− → Les valeurs de X1 sont stochastiquement pluselevees que celles de X2
T− grand par rapport a T+ → Les valeurs de X1 sont stochastiquement plusfaibles que celles de X2
Si H0 est vraie alors T+ = T− = 12 (
n(n+1)2 )
Aussi, la statistique de test a pour expression
.
...... T = min(T−;T+
)E[T ] =
n(n + 1)
4
V[T ] =n(n + 1)(2n + 1)
24
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 42 / 66
Comparaison de K = 2 echantillons apparies Statistique de test
Test des rangs signes de Wilcoxon
Distribution de la statistique de test sous H0
Distribution non connue mais tabulee (probabilites exactes et quantiles)
.
...... → Table des valeurs critiques de T
Cas particulier si n > 20 :
.
......Z =
T − E[T ]√V[T ]
∼ N (0, 1)
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 43 / 66
Comparaison de K = 2 echantillons apparies Region critique
Test des rangs signes de Wilcoxon - Region critique
n ≤ 20
0
Valeurs de T
n1n24Tlim
Rejet de H0 Non - rejet de H0
Valeur de Tlim lue dans la table
Cas particulier si n > 20
Z =U − n1n2
4√n(n+1)(2n+1)
24
∼ N (0, 1)
R.C . : |Z | ≥ z1−α/2
z0.975!z0.975 0
N (0, 1)
2.5%2.5% 95%
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 45 / 66
Comparaison de K = 2 echantillons apparies Region critique
Test des rangs signes de Wilcoxon - Region critique
Retour a l’exemple
Valeurs 1 1 1 1 2 2 2 4
Rangs bruts 1 2 3 4 5 6 7 8
Rangs finaux 2.5 2.5 2.5 2.5 6 6 6 8
Signes + + - + - - + +
T+ = 2.5 + 2.5 + 2.5 + 6 + 8 = 21.5
T− = 2.5 + 6 + 6 = 14.5
T = min(T−;T+
)= 14.5
Lecture dans la table : Tlim = 4 → N.S.
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 46 / 66
Correlation de rangs Rappel sur le coefficient de correlation lineaire de Pearson
Rappel - I
Soient X et Y deux variables quantitatives.
Coefficient de correlation theorique
ρ(X ,Y ) =σXY
σXσY=
E[XY ]− E[X ]E[Y ]
σXσY∈ [−1, 1]
Si ρ(X ,Y ) = |1| alors lien lineaire parfait entre X et YSi X et Y independantes alors ρ(X ,Y ) = 0.
Estime par le coefficient de Bravais-Pearson :
r =sxysxsy
=
∑ni=1(xi − x)(yi − y)√∑n
i=1(xi − x)2∑n
i=1(yi − y)2
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 49 / 66
Correlation de rangs Rappel sur le coefficient de correlation lineaire de Pearson
Rappel - II
Test de nullite de ρ.{H0 : ρ = 0 Pas de correlation lineaire entre X et Y
H1 : ρ = 0 Correlation lineaire entre X et Y
Sous H0
T =R√n − 2√
1− R2∼ Tn−2
Conditions d’application :
X et Y distribuees selon une loi normale
ou
n > 30 et V.A. continues
L’absence de lien lineaire n’implique pas l’absence de lien fonctionnel !!
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 50 / 66
Correlation de rangs Coefficient de Spearman
Coefficient de correlation de Spearman⇒ Pas d’hypothese de loi
Indications
Petits echantillons (si on ne peut pas supposer X et Y distribueesnormalement)
Variables avec peu de valeurs differentes
Presence de valeurs extremes
Variables ordinales
La relation n’est pas forcement lineaire (exponentiel, puissance,. . . )
Utile lorsque la distribution des variables est asymetrique
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 52 / 66
Correlation de rangs Coefficient de Spearman
Coefficient de correlation de Spearman - Principe
...1 Transformation des donnees de X et Y en rangs, separementSoient R = (r1, . . . , rn), S = (s1, . . . , sn) respectivement les rangs de X et Y .Remarque importante : Le coefficient de correlation de Spearman calculeentre X et Y est egal au coefficient de correlation de Pearson calcule entre Ret S .
...2 Calcul du coefficient de Spearman en utilisant le coefficient de correlation deBravais-Pearson entre R et S
.
......
rs =srssr ss
=
∑ni=1(ri − r)(si − s)√∑n
i=1(ri − r)2∑n
i=1(si − s)2
Expression simplifiee :
.
......rs =
12∑n
i=1 RiSin(n2 − 1)
− 3n + 1
n − 1
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 53 / 66
Correlation de rangs Coefficient de Spearman
Coefficient de correlation de Spearman - Principe
...3 Test de la nullite de ρ
Sous H0
.
......T =
Rs
√n − 2√
1− R2s
∼ Tn−2
...4 Interpretation :
Si rs = 1 les classements sont identiquesSi rs = −1 les classements sont opposesSi rs = 0 (statistiquement significatif) les classements sont liesSi X et Y sont independantes alors ρ = 0
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 54 / 66
Correlation de rangs Exemple
Coefficient de correlation de Spearman - Exemple
Relation Poids - Taille (n = 15)
Taille(cm) Poids(cm) R S
1.697 77.564 15 141.539 55.000 3 11.629 76.657 10 121.633 62.596 11 61.500 58.068 2 31.679 72.575 14 111.643 82.000 13 151.626 76.667 9 131.543 58.060 5 21.542 71.668 4 101.621 68.039 8 81.577 70.060 7 91.557 61.689 6 51.496 67.585 1 71.637 59.874 12 4
Calcul du coefficient de Bravais-Pearson entre R et S : rs = 0.61786
Statistique de test : t = 2.83320, p = 0.01410
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 56 / 66
Comparaison de K > 2 echantillons independants Objectif et hypotheses du test
Test de Kruskal-Wallis
Objectif : comparer la distribution d’une variable quantitative X entre K groupesindependants (Extension a plus de 2 groupes du test de Mann-Whitney-Wilcoxon).
Equivalent non parametrique de l’ANOVA a un facteur.
Hypotheses du testSoit Fi (X ) la fonction de repartition de X dans la population i , 1 ≤ i ≤ K
Les hypotheses de test sont :
.
......
{H0 : F1(X ) = F2(X + θ) = . . . = FK (X + θ) ; θ = 0 Distributions identiques
H1 : ∃i = j/Fi (X ) = Fj(X + θ); θ = 0 Distributions differentes
θ parametre de translation : decalage entre les fonctions de repartition
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 59 / 66
Comparaison de K > 2 echantillons independants Statistique de test et region critique
Test de Kruskal-Wallis - Statistique de test et region critique
...1 Transformation en rangs (rij rang de l’observation xij parmi les nobservations)
G1 : {x11, x12, . . . , x1n1}G2 : {x21, x22, . . . , x2n2}...GK : {xK1, xK2, . . . , xKnK }
= Transformation en rangs (G1∪G2∪. . .∪GK )
...2 Calcul de la moyenne des rangs pour chaque groupe :
wi =1
ni
ni∑j=1
rij
...3 Calcul de la moyenne globale des rangs :
w =1
K
K∑i=1
wi
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 61 / 66
Comparaison de K > 2 echantillons independants Statistique de test et region critique
Test de Kruskal-Wallis - Statistique de test
Statistique de test sous H0 :
.
......
KW =12
n(n + 1)
K∑i=1
ni (wi − w)2 ∼ χ2k−1
Remarque : approximation du χ2 valable si ni ≥ 5, ∀i ∈ {1, . . . ,K}Si H0 vraie alors les wi sont proches de w → KW tend vers 0
Plus KW s’ecarte de 0, plus on aura tendance a rejeter H0
Region critique : kw > χ2k−1 au seuil 1− α
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 62 / 66
Comparaison de K > 2 echantillons independants Exemple
Test de Kruskal-Wallis - Exemple
Mesure de la teneur en calcium de l’eau de 3 zones geographiques.n1 = 6, n2 = 5, n3 = 6 ; n = n1 + n2 + n3.
Zone 1 Zone 2 Zone 3
18 15 1520 16 2022 17 2125 21 2523 20 1619 19
...1 Transformation en rangs sur n
Valeurs 15 15 16 16 17 18 19 19 20 20 20 21 21 22 23 25 25
Rgs bruts 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Rgs finaux 1.5 1.5 3.5 3.5 5 6 7.5 7.5 10 10 10 12.5 12.5 14 15 16.5 16.5
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 64 / 66
Comparaison de K > 2 echantillons independants Exemple
Test de Kruskal-Wallis - Exemple...1 Transformation en rangs sur n
Zone 1 (Rang) Zone 2 (Rang) Zone 3 (Rang)
18 (6) 15 (1.5) 15 (1.5)20 (10) 16 (3.5) 20 (10)22 (14) 17 (5) 21 (12.5)25 (16.5) 21 (12.5) 25 (16.5)23 (15) 20 (10) 16 (3.5)19 (7.5) 19 (7.5)
...2 Calcul des moyennes des rangs par zones et moyenne globale des rangs
w1 = 11.5 w2 = 6.5 w3 = 8.58
w = 9
...3 Calcul de la statistique de test
KW =12
n(n + 1)
K∑i=1
ni (wi − w)2
KW =12
17(18)
[6× (11.5− 9)2 + 5× (6.5− 9)2 + 6× (8.58− 9)2
]= 2.74
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 65 / 66
Comparaison de K > 2 echantillons independants Exemple
Test de Kruskal-Wallis - Exemple
...4 Region critique et conclusionLes ni ≥ 5, 1 ≤ i ≤ 3, donc
KW ∼ χ2K−1
Le quantile de la loi du χ22ddl = 5.99.
2.74 < 5.99 donc on ne rejette pas H0.
→ Les teneurs en calcium sont distribuees de la meme maniere parmi les 3 zonesgeographiques.
Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 66 / 66