42
. . Tests non-param´ etriques Micha¨ el Genin Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]

Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

.

......Tests non-parametriques

Michael Genin

Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins

[email protected]

Page 2: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Plan

...1 Introduction

...2 Comparaison de K = 2 echantillons independants

...3 Comparaison de K = 2 echantillons apparies

...4 Correlation de rangs

...5 Comparaison de K > 2 echantillons independants

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 1 / 66

Page 3: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Introduction Motivations

Motivations - I

Tests parametriques necessitent des conditions de validite :

Hypotheses sur la distribution des observations (ex : X ∼ N (µ, σ))

Distributions caracterisees par des parametres (moyenne, variance, . . . )

Ces parametres sont estimes

.

......Question : Que faire lorsque les conditions de validite ne sont pas respectees ?

⇒ Tests non-parametriques

Distribution free : pas d’hypothese sur la distribution des observations

Tests adaptes aux variables quantitatives et qualitatives (nominales etordinales)

La plupart du temps : tests bases sur la notion de rangs

Valeur 4 7 8 1 3 5

Rang 3 5 6 1 2 4

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 4 / 66

Page 4: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Introduction Motivations

Motivations - II

AVANTAGES

Pas d’hypothese sur la distribution ⇒ champ d’application a priori plus large

Tests adaptes aux variables ordinales (ex : degre de satisfaction)

Robustesse par rapport aux donnees atypiques

Exemple :

4 5 8 7 3 38 x1 = 10.8

4 5 8 7 3 6 x2 = 5.5

Difference due a une seule observation !! La transformation en rangs permet de”gommer” cette difference

Tests adaptes aux petits echantillons (n < 30)Si pas d’hypothese sur la loi, les tests parametriques deviennent inoperants !

INCONVENIENTS

Lorsque les conditions d’applications sont verifiees :Tests NP moins puissants que les tests parametriques

Diffcultes d’interpretation : on ne compare plus des parametres (moyenne,proportion, variance, . . . )

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 5 / 66

Page 5: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Introduction Notion de rangs

Definition

Considerons 2 groupes G1 et G2 de taille n1 et n2 sur lesquels est mesure uncaractere X {

G1 : {x11, x12, . . . , x1n1}G2 : {x21, x22, . . . , x2n2}

Principe du rang : substituer aux valeurs leur numero d’ordre (rang r) dansl’ensemble des donnees (G1 ∪ G2)

Exemple : {G1 : {10, 14, 22, 8, 5}G2 : {6, 9, 4, 23, 7}

Groupe 1 Groupe 2

Valeur 10 14 22 8 5 6 9 4 23 7

ri 7 8 9 5 2 3 6 1 10 4

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 8 / 66

Page 6: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Introduction Notion de rangs

Consequences de la transformation en rangs

La distribution des rangs est symetrique

Role des valeurs atypiques amoindri

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 9 / 66

Page 7: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Introduction Notion de rangs

Traitement des ex-aequo → Methode des rangs moyens

Idee : les observations presentant des valeurs identiques se voient attribuer lamoyenne de leur rangs→ Frequent avec des variables ordinales (Peu de modalites)

Exemple {G1 : {11, 12, 12, 9, 13, 4, 17, 19}G2 : {12, 4, 5, 15, 22, 18, 25}

Valeurs 4 4 5 9 11 12 12 12 13 15 17 18 19 22 25

Rangs bruts 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Rangs moyens 1.5 1.5 3 4 5 7 7 7 9 10 11 12 13 14 15

Calculs (1 + 2)/2 - (6 + 7 + 8)/3 -

Remarque : Impact sur la variance des statistiques de test → Correction (Logiciels)

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 11 / 66

Page 8: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Objectif du test

Test de Mann-Whitney-Wilcoxon - Objectif

Objectif : comparaison de K = 2 echantillons independants par rapport a unevariable X de nature :

Quantitative

Qualitative ordinale

Ce test regroupe 2 tests equivalents :

Test U de Mann-Whitney

Test W de Wilcoxon

→ se deduisent l’un de l’autre

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 14 / 66

Page 9: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Hypotheses

Test de Mann-Whitney-Wilcoxon - Hypotheses

Soient

F1(X ) la fonction de repartition de X dans la population 1

F2(X ) la fonction de repartition de X dans la population 2

Les hypotheses de test sont :

.

......

{H0 : F1(X ) = F2(X + θ) ; θ = 0 Distributions identiques

H1 : F1(X ) = F2(X + θ) ; θ = 0 Distributions differentes

θ parametre de translation : decalage entre les fonctions de repartition

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 16 / 66

Page 10: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Hypotheses

Test de Mann-Whitney-Wilcoxon - Hypotheses

Exemple de decalage θ = 0

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0 1

2

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

12

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 17 / 66

Page 11: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Hypotheses

Test de Mann-Whitney-Wilcoxon - Hypotheses

Idee :

G1 : {x11, x12, . . . , x1n1}G2 : {x21, x22, . . . , x2n2}

}= Transformation en rangs (G1 ∪ G2)

Soient

R(X1) = x les rangs des valeurs du groupe 1

R(X2) = o les rangs des valeurs du groupe 2

2 configurations extremes :

x o x o x o x o x o x o x o−−−−−−−−−−−−−−−→rangs (1) → H0 vraie (melange total)x x x x x x x o o o o o o o−−−−−−−−−−−−−−−→rangs (2) → H0 ”totalement” fausse

Ecart par rapport a la configuration (1) → Rejet de H0

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 18 / 66

Page 12: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Statistique de test

Test de Mann-Whitney-Wilcoxon - Statistique de test

Rappel : Somme de n premiers entiers

1 + 2 + . . .+ n =n(n + 1)

2

Posons S1 la somme des rangs des observations du groupe 1Posons U1 le nombre de couples {(x1i , x2j) / x1i > x2j}

U1 = S1 −n1(n1 + 1)

2

Posons S2 la somme des rangs des observations du groupe 2Posons U2 le nombre de couples {(x1i , x2j) / x1i < x2j}

U2 = S2 −n2(n2 + 1)

2

Statistique de test :

.

...... U = min (U1,U2)

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 20 / 66

Page 13: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Statistique de test

Test de Mann-Whitney-Wilcoxon - Statistique de test

Interpretation de la statistique de test → H0 ”totalement fausse” :

x x x x x x x o o o o o o o−−−−−−−−−−−−−−−→rangs

U1 =

n1(n1+1)2 − n1(n1+1)

2 = 0

U2 =∑n1+n2

i=n1+1 ri −n2(n2+1)

2 = n1n2

U = U1 = 0

o o o o o o o x x x x x x x−−−−−−−−−−−−−−−→rangs

U1 =

∑n1+n2i=n2+1 ri −

n1(n1+1)2 = n1n2

U2 =n2(n2+1)

2 − n2(n2+1)2 = 0

U = U2 = 0

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 21 / 66

Page 14: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Statistique de test

Test de Mann-Whitney-Wilcoxon - Statistique de test

Interpretation de la statistique de test → H0 ”Vraie” (melange total) :

Sp(n) = Somme des n premiers entiers pairsSi (n) = Somme des n premiers entiers impairs

(1)x o x o x o x o x o x o x o−−−−−−−−−−−−−−−→rangs

{U1 = Si (n1)− n1(n1+1)

2

U2 = Sp(n2)− n2(n2+1)2

(2)o x o x o x o x o x o x o x−−−−−−−−−−−−−−−→rangs

{U1 = Sp(n1)− n1(n1+1)

2

U2 = Sp(n2)− n2(n2+1)2

On peut en deduire que → Propriete : U ≤ n1n22

Sous H0, on montre que

.

...... E[U] = n1n22 V[U] = n1n2

n1+n2+112

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 22 / 66

Page 15: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Statistique de test

Test de Mann-Whitney-Wilcoxon - Statistique de test

Distribution sous H0 de la statistique de test

Distribution non connue mais tabulee (probabilites exactes et quantiles)

.

...... → Table des valeurs critiques de U

Cas particulier si n1 et n2 > 10 :

.

......Z =

U − E[U]√V[U]

∼ N (0, 1)

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 23 / 66

Page 16: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Region critique

Test de Mann-Whitney-Wilcoxon - Region critique

n1 ou n2 < 10

0

Valeurs de U

n1n22Ulim

Rejet de H0 Non - rejet de H0

Valeur de Ulim lue dans la table

Cas particulier si n1 et n2 > 10

Z =U − n1n2

2√n1n2(n1+n2+1)

12

∼ N (0, 1)

R.C . : |Z | ≥ z1−α/2

z0.975!z0.975 0

N (0, 1)

2.5%2.5% 95%

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 25 / 66

Page 17: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Exemple

Exemple

G1 : n1 = 7 : {11, 21, 21, 25, 52, 71, 79}G2 : n2 = 5 : {22, 43, 72, 91, 100}

...1 Passage aux rangs

Valeurs 11 21 21 22 25 43 52 71 72 79 91 100

Rangs 1 2.5 2.5 4 5 6 7 8 9 10 11 12

Groupe 1 1 1 2 1 2 1 1 2 1 2 2

...2 Calcul de U1 et U2

U1 = S1 − n1(n1+1)2

U1 = 1 + 2.5 + 2.5 + 5 + 7 + 8 + 10− 7(7+1)2 = 8

U2 = S2 − n2(n2+1)2

U2 = 4 + 6 + 9 + 11 + 12− 5(5+1)2 = 27

...3 U = min(U1,U2) = U1 = 8

...4 Ulim = 5 (Table) et U > Ulim donc non rejet de H0

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 27 / 66

Page 18: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Remarques

Remarques - I

...1 Equivalence entre les tests de Mann-Whitney et Wilcoxon

Test de Wilcoxon → base sur la somme des rangs SS = S1 si n1 < n2 sinon S = S2

si n1 = n2 alors S = S1 si S1 < S2 sinon S = S2

Les deux tests sont equivalents :

U = n1n2 +n(n + 1)

2︸ ︷︷ ︸Non aleatoire

−S

...2 Test Mann-Whitney-Wilcoxon plus puissant que test de Student si lesdistributions ne sont pas gaussiennes

Si les distributions sont gaussiennes → Test de MWW presente une puissanceproche de celle du test de Student (efficacite relative = 3/π ≈ 0.95)

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 29 / 66

Page 19: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Remarques

Remarques - II

...3 Probleme de Behrens - Fisher

H1 stipule un decalage de tendance centrale entre les distributions (θ = 0)Cela sous-tend l’hypothese que les dispersions des distributions sontrelativement homogenes

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

12

Analogie au test parametrique de Student (σ21 = σ2

2)

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 30 / 66

Page 20: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons independants Remarques

Remarques - III

Probleme de Behrens - Fisher

Si cette hypothese n’est plus assumee → rejet de H0 n’est plus uniquementimputable a un ecart de tendance centrale

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

12

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

12

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

12

Dans ce cas de figure le test de MWW n’est plus applicable⇒ Solution : test de rang robuste de Fligner-Policello

Equivalent non-parametrique du test d’Aspin-Welsh.

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 31 / 66

Page 21: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Objectif du test

Test des rangs signes de Wilcoxon

Objectif : Comparaison de 2 echantillons apparies par rapport a une variable

Quantitative

Qualitative ordinale

Exemple :

Temps

Apres

X2X1

Avant

Remarque : Equivalent non-parametrique du test de Student pour echantillonsapparies.

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 34 / 66

Page 22: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Hypotheses

Test des rangs signes de Wilcoxon

Soient

F (X1) la fonction de repartition de X1 (mesure avant)

F (X2) la fonction de repartition de X2 (mesure apres)

Les hypotheses de test sont :

.

......

{H0 : F (X1) = F (X2 + θ) ; θ = 0 Distributions identiques (AVANT/APRES)

H1 : F (X1) = F (X2 + θ) ; θ = 0 Distributions differentes (AVANT/APRES)

θ parametre de translation : decalage entre les fonctions de repartition

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 36 / 66

Page 23: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Hypotheses

Test des rangs signes de Wilcoxon

Idee

G1 : {x11, x12, . . . , x1n}G2 : {x21, x22, . . . , x2n}

}= Transformation en rangs (G1 ∪ G2)

Posons|D| = |X1 − X2|.

...1 Calcul des |di | = |x1i − x2i |, ∀i ∈ {1, . . . , n}

...2 Elimination des observations telles que |di | = 0

...3 Prise en compte du signe de chaque |di |

...4 Transformation en rang des |di | (r(mini |di |) = 1, r(maxi |di |) = n)

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 37 / 66

Page 24: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Hypotheses

Test des rangs signes de Wilcoxon

Exemple : n = 10

Avant Apres |D| signe

2 1 1 +4 6 2 -7 3 4 +8 7 1 +9 11 2 -10 8 2 +12 13 1 +15 14 1 +16 16 0 ?14 14 0 ?

Calcul des rangs de |D| et du signe :

Valeurs 1 1 1 1 2 2 2 4

Rangs bruts 1 2 3 4 5 6 7 8

Rangs finaux 2.5 2.5 2.5 2.5 6 6 6 8

Signes + + - + - - + +

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 38 / 66

Page 25: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Hypotheses

Test des rangs signes de Wilcoxon

Exemple : n = 10

2 configurations extremes :

+ − + − + − + − + − + − + −−−−−−−−−−−−−−−−−−−−→rangs |D| (1) → H0 vraie (melange total)

+ + + + + + + − − − − − − −−−−−−−−−−−−−−−−−−−−→rangs |D| (2) → H0 ”totalement” fausse

Ecart par rapport a la configuration (1) → Rejet de H0

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 39 / 66

Page 26: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Statistique de test

Test des rangs signes de Wilcoxon

Statistique de test

Soit T+ la somme des rangs des observations pour lesquelles di > 0 :

T+ =∑i :di>0

ri

Soit T− la somme des rangs des observations pour lesquelles di < 0 :

T− =∑i :di<0

ri

Remarque : On peut deduire T− grace a T+ :

T− =n(n + 1)

2− T+

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 41 / 66

Page 27: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Statistique de test

Test des rangs signes de Wilcoxon

Statistique de test

T+ grand par rapport a T− → Les valeurs de X1 sont stochastiquement pluselevees que celles de X2

T− grand par rapport a T+ → Les valeurs de X1 sont stochastiquement plusfaibles que celles de X2

Si H0 est vraie alors T+ = T− = 12 (

n(n+1)2 )

Aussi, la statistique de test a pour expression

.

...... T = min(T−;T+

)E[T ] =

n(n + 1)

4

V[T ] =n(n + 1)(2n + 1)

24

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 42 / 66

Page 28: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Statistique de test

Test des rangs signes de Wilcoxon

Distribution de la statistique de test sous H0

Distribution non connue mais tabulee (probabilites exactes et quantiles)

.

...... → Table des valeurs critiques de T

Cas particulier si n > 20 :

.

......Z =

T − E[T ]√V[T ]

∼ N (0, 1)

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 43 / 66

Page 29: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Region critique

Test des rangs signes de Wilcoxon - Region critique

n ≤ 20

0

Valeurs de T

n1n24Tlim

Rejet de H0 Non - rejet de H0

Valeur de Tlim lue dans la table

Cas particulier si n > 20

Z =U − n1n2

4√n(n+1)(2n+1)

24

∼ N (0, 1)

R.C . : |Z | ≥ z1−α/2

z0.975!z0.975 0

N (0, 1)

2.5%2.5% 95%

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 45 / 66

Page 30: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K = 2 echantillons apparies Region critique

Test des rangs signes de Wilcoxon - Region critique

Retour a l’exemple

Valeurs 1 1 1 1 2 2 2 4

Rangs bruts 1 2 3 4 5 6 7 8

Rangs finaux 2.5 2.5 2.5 2.5 6 6 6 8

Signes + + - + - - + +

T+ = 2.5 + 2.5 + 2.5 + 6 + 8 = 21.5

T− = 2.5 + 6 + 6 = 14.5

T = min(T−;T+

)= 14.5

Lecture dans la table : Tlim = 4 → N.S.

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 46 / 66

Page 31: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Correlation de rangs Rappel sur le coefficient de correlation lineaire de Pearson

Rappel - I

Soient X et Y deux variables quantitatives.

Coefficient de correlation theorique

ρ(X ,Y ) =σXY

σXσY=

E[XY ]− E[X ]E[Y ]

σXσY∈ [−1, 1]

Si ρ(X ,Y ) = |1| alors lien lineaire parfait entre X et YSi X et Y independantes alors ρ(X ,Y ) = 0.

Estime par le coefficient de Bravais-Pearson :

r =sxysxsy

=

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2∑n

i=1(yi − y)2

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 49 / 66

Page 32: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Correlation de rangs Rappel sur le coefficient de correlation lineaire de Pearson

Rappel - II

Test de nullite de ρ.{H0 : ρ = 0 Pas de correlation lineaire entre X et Y

H1 : ρ = 0 Correlation lineaire entre X et Y

Sous H0

T =R√n − 2√

1− R2∼ Tn−2

Conditions d’application :

X et Y distribuees selon une loi normale

ou

n > 30 et V.A. continues

L’absence de lien lineaire n’implique pas l’absence de lien fonctionnel !!

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 50 / 66

Page 33: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Correlation de rangs Coefficient de Spearman

Coefficient de correlation de Spearman⇒ Pas d’hypothese de loi

Indications

Petits echantillons (si on ne peut pas supposer X et Y distribueesnormalement)

Variables avec peu de valeurs differentes

Presence de valeurs extremes

Variables ordinales

La relation n’est pas forcement lineaire (exponentiel, puissance,. . . )

Utile lorsque la distribution des variables est asymetrique

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 52 / 66

Page 34: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Correlation de rangs Coefficient de Spearman

Coefficient de correlation de Spearman - Principe

...1 Transformation des donnees de X et Y en rangs, separementSoient R = (r1, . . . , rn), S = (s1, . . . , sn) respectivement les rangs de X et Y .Remarque importante : Le coefficient de correlation de Spearman calculeentre X et Y est egal au coefficient de correlation de Pearson calcule entre Ret S .

...2 Calcul du coefficient de Spearman en utilisant le coefficient de correlation deBravais-Pearson entre R et S

.

......

rs =srssr ss

=

∑ni=1(ri − r)(si − s)√∑n

i=1(ri − r)2∑n

i=1(si − s)2

Expression simplifiee :

.

......rs =

12∑n

i=1 RiSin(n2 − 1)

− 3n + 1

n − 1

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 53 / 66

Page 35: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Correlation de rangs Coefficient de Spearman

Coefficient de correlation de Spearman - Principe

...3 Test de la nullite de ρ

Sous H0

.

......T =

Rs

√n − 2√

1− R2s

∼ Tn−2

...4 Interpretation :

Si rs = 1 les classements sont identiquesSi rs = −1 les classements sont opposesSi rs = 0 (statistiquement significatif) les classements sont liesSi X et Y sont independantes alors ρ = 0

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 54 / 66

Page 36: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Correlation de rangs Exemple

Coefficient de correlation de Spearman - Exemple

Relation Poids - Taille (n = 15)

Taille(cm) Poids(cm) R S

1.697 77.564 15 141.539 55.000 3 11.629 76.657 10 121.633 62.596 11 61.500 58.068 2 31.679 72.575 14 111.643 82.000 13 151.626 76.667 9 131.543 58.060 5 21.542 71.668 4 101.621 68.039 8 81.577 70.060 7 91.557 61.689 6 51.496 67.585 1 71.637 59.874 12 4

Calcul du coefficient de Bravais-Pearson entre R et S : rs = 0.61786

Statistique de test : t = 2.83320, p = 0.01410

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 56 / 66

Page 37: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K > 2 echantillons independants Objectif et hypotheses du test

Test de Kruskal-Wallis

Objectif : comparer la distribution d’une variable quantitative X entre K groupesindependants (Extension a plus de 2 groupes du test de Mann-Whitney-Wilcoxon).

Equivalent non parametrique de l’ANOVA a un facteur.

Hypotheses du testSoit Fi (X ) la fonction de repartition de X dans la population i , 1 ≤ i ≤ K

Les hypotheses de test sont :

.

......

{H0 : F1(X ) = F2(X + θ) = . . . = FK (X + θ) ; θ = 0 Distributions identiques

H1 : ∃i = j/Fi (X ) = Fj(X + θ); θ = 0 Distributions differentes

θ parametre de translation : decalage entre les fonctions de repartition

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 59 / 66

Page 38: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K > 2 echantillons independants Statistique de test et region critique

Test de Kruskal-Wallis - Statistique de test et region critique

...1 Transformation en rangs (rij rang de l’observation xij parmi les nobservations)

G1 : {x11, x12, . . . , x1n1}G2 : {x21, x22, . . . , x2n2}...GK : {xK1, xK2, . . . , xKnK }

= Transformation en rangs (G1∪G2∪. . .∪GK )

...2 Calcul de la moyenne des rangs pour chaque groupe :

wi =1

ni

ni∑j=1

rij

...3 Calcul de la moyenne globale des rangs :

w =1

K

K∑i=1

wi

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 61 / 66

Page 39: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K > 2 echantillons independants Statistique de test et region critique

Test de Kruskal-Wallis - Statistique de test

Statistique de test sous H0 :

.

......

KW =12

n(n + 1)

K∑i=1

ni (wi − w)2 ∼ χ2k−1

Remarque : approximation du χ2 valable si ni ≥ 5, ∀i ∈ {1, . . . ,K}Si H0 vraie alors les wi sont proches de w → KW tend vers 0

Plus KW s’ecarte de 0, plus on aura tendance a rejeter H0

Region critique : kw > χ2k−1 au seuil 1− α

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 62 / 66

Page 40: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K > 2 echantillons independants Exemple

Test de Kruskal-Wallis - Exemple

Mesure de la teneur en calcium de l’eau de 3 zones geographiques.n1 = 6, n2 = 5, n3 = 6 ; n = n1 + n2 + n3.

Zone 1 Zone 2 Zone 3

18 15 1520 16 2022 17 2125 21 2523 20 1619 19

...1 Transformation en rangs sur n

Valeurs 15 15 16 16 17 18 19 19 20 20 20 21 21 22 23 25 25

Rgs bruts 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Rgs finaux 1.5 1.5 3.5 3.5 5 6 7.5 7.5 10 10 10 12.5 12.5 14 15 16.5 16.5

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 64 / 66

Page 41: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K > 2 echantillons independants Exemple

Test de Kruskal-Wallis - Exemple...1 Transformation en rangs sur n

Zone 1 (Rang) Zone 2 (Rang) Zone 3 (Rang)

18 (6) 15 (1.5) 15 (1.5)20 (10) 16 (3.5) 20 (10)22 (14) 17 (5) 21 (12.5)25 (16.5) 21 (12.5) 25 (16.5)23 (15) 20 (10) 16 (3.5)19 (7.5) 19 (7.5)

...2 Calcul des moyennes des rangs par zones et moyenne globale des rangs

w1 = 11.5 w2 = 6.5 w3 = 8.58

w = 9

...3 Calcul de la statistique de test

KW =12

n(n + 1)

K∑i=1

ni (wi − w)2

KW =12

17(18)

[6× (11.5− 9)2 + 5× (6.5− 9)2 + 6× (8.58− 9)2

]= 2.74

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 65 / 66

Page 42: Micha el Genincerim.univ-lille2.fr/fileadmin/user_upload/statistiques/... · 2015-03-25 · Plan 1.Introduction 2.Comparaison de K = 2 echantillons ind ependants 3.Comparaison de

Comparaison de K > 2 echantillons independants Exemple

Test de Kruskal-Wallis - Exemple

...4 Region critique et conclusionLes ni ≥ 5, 1 ≤ i ≤ 3, donc

KW ∼ χ2K−1

Le quantile de la loi du χ22ddl = 5.99.

2.74 < 5.99 donc on ne rejette pas H0.

→ Les teneurs en calcium sont distribuees de la meme maniere parmi les 3 zonesgeographiques.

Michael Genin (Universite de Lille 2) Tests non-parametriques Version - 25 mars 2015 66 / 66