Tests de comparaison - cedric.cnam.frcedric.cnam.fr/~latoucha/STA109/resume_tests.pdf · k: k échantillons indépendants de taille n 1, n 2…n k; µ 1, µ 2,… µ k: moyennes théoriques

Récapitulatif des conditions d’application destests de comparaison

de fréquences et de moyennes,et des tests d’indépendance

Unité d’enseignement STA 109

CNAMChaire de Statistique Appliquée

David Moreau

Juin 2010

STA109 2

Sommaire

1. Comparaison de fréquences1.1 Comparaison d’une fréquence observée avec une fréquence théorique1.2 Comparaison de deux fréquences observées1.3 Comparaison de plus de deux fréquences observées

2. Comparaison de moyennes2.1 Comparaison d’une moyenne observée avec une moyenne théorique2.2 Comparaison de deux moyennes observées2.3 Comparaison de deux moyennes observées, échantillons appariés2.4 Comparaison de plus de deux moyennes observées

3. Test d’indépendance3.1 Test d’indépendance de deux variables qualitatives3.2 Test d’indépendance de deux variables quantitatives

STA109 3

Notations

Notations utilisées pour décrire le type de comparaison et les tests correspondant.

Première(s) Condition(s) d’application

Autre condition d’application

Test paramétrique à utiliser Test non paramétrique à utiliser

Formule de la statistique du Test

Autre condition d’application

H0: hypothèse nulle testée ; H1: hypothèse alternative dans le cas bilatéral

STA109 4

1.1 Comparaison d’une fréquence observée avec une fréquencethéorique

F: variable aléatoire fréquence de la modalité d’un caractère A; n: nombre d’observations de l’échantillon;

f : fréquence observée dans l’échantillon; p: fréquence dans la population où est issu l’échantillon;

p0: fréquence théorique de A.

n ≥ 30, np et n(1-p) ≥ 5 n < 30 np et n(1-p) ≥ 5

Statistique Usuit N (0,1)

Test du Chi Deuxà 1 ddl

!

u =f " p0

p0(1" p0)

n

H0: p = p0 ; H1: p ≠ p0

STA109 5

1.2 Comparaison de deux fréquences observées

F: variable aléatoire fréquence d’un caractère A; n1, n2: nombre d’observations des échantillons 1 et 2;

f1, f2 : fréquences observées dans les échantillons;

p1, p2: fréquences de A dans les populations 1 et 2.

n1et n2 ≥ 30 n1 ou n2 ≤ 30

Statistique Usuit N (0,1)

Test du Chi Deuxà 1 ddl

!

u =f 1" f 2

p(1" p)(1

n1+1

n2)

!

p =n1 f 1+ n2 f 2

n1+ n2

n1f1 ou n2f2 < 5,n1(1-f1) ou n2(1-f2) < 5

Test Exact deFisher

n1f1, n2f2, n1(1-f1), n2(1-f2) ≥ 5

H0: p1 = p2 ; H1: p1 ≠ p2

n1f1, n2f2, n1(1-f1), n2(1-f2) ≥ 5

STA109 6

1.3 Comparaison de plus de deux fréquences observées

A: caractère à k modalités (A1,…, Ai,…Ak); E1, …Ej, …El: l échantillons ;

Tj : nombre d’individus dans l’échantillon Ej; N: nombre total d’individus;

Si: nombre d’individus présentant la modalité Ai sur les N individus;

Oij: effectif observé d’individus avec la modalité Ai dans l’échantillon Ej;

Cij: effectif théorique d’individus avec la modalité Ai dans l’échantillon Ej, sous H0 (les fréquences sont les mêmes dans les échantillons).

Cij = SiTj/N

Test du Chi Deuxà (k-1)*(l-1) ddl

!

k =(O

ij"C

ij)2

Cijj

#i

#

Au moins un Cij < 5

Test Exact deFisher

Tous les Cij ≥ 5

H0: échantillons issus de la même population (mêmes fréquences des modalités);H1: échantillons issus de populations différentes

STA109 7

2.1 Comparaison d’une moyenne observée avec une moyennethéorique

X: variable aléatoire quantitative, n: nombre d’observations, : moyenne des observations;µ: moyenne de X dans la population dont est issue l’échantillon; µ0: moyenne théorique;

: écart-type de X; S: estimation de l’écart type de X.

n > 30 n ≤ 30 et X suit loi normale

connu connu inconnu inconnu

Statistique U=f()suit N(0,1)

Statistique U=f(S)suit N(0,1)


Statistique T=f(S)suit loi de Student àn-1 ddl

!

x

!

u =x "µ 0

#n

!

u =x "µ0

S

n

!

u =x "µ0

#n

!

t =x "µ0

S

n

H0: µ = µ0 ; H1: µ ≠ µ0

STA109 8

2.2 Comparaison de deux moyennes observées

X: variable aléatoire quantitative; n1, n2: nombre d’observations des échantillons 1 et 2;

: moyennes des observations des échantillons; S1, S2: estimations de l’écart type de X dans les échantillons

µ1, µ2 : moyennes théoriques de X dans les populations 1 et 2; 1, 2 : écart-types de X dans les populations.

n1 et n2 > 30 n1 ou n2 ≤ 30 et X suit loi normale

1, 2 inconnus 1, 2 connus


Statistique U=f(S)suit N(0,1)

Test F d’égalitédes variances

Statistique T=f(S)suit loi de Student àn1+n2-2 ddl

!

x 1,x 2

!

u =x 1" x 2

S1

2

n1+

S2

2

n2

!

u =x 1" x 2

#1

2

n1+#

2

2

n2

1, 2 connus1, 2 inconnus

1, 2 égales 1, 2 différentes

Statistique T=f(S)suit loi de Student àm ddl (test d’Aspin Welch)

!

t =x 1" x 2

S1

2

n1+

S2

2

n2

!

t =x 1" x 2

S2(1

n1+1

n2

)

n1 ou n2 ≤ 30 et X suit loi inconnue

Test nonparamétriquedeMann-Whitney

H0: µ1 = µ2 ; H1: µ1 ≠ µ2

STA109 9

2.3 Comparaison de deux moyennes observées, échantillonsappariés

X: variable aléatoire quantitative; n: nombre d’observations appariées dans chaque échantillon 1 et 2;

di = xi1-xi2: différences entre les observations appariées; S: estimation de l’écart type de D dans les échantillons;

: moyenne des différences entre les observations.

n > 30 n ≤ 30

Statistique Usuit N(0,1)

Statistique Tsuit loi de Student à

n-1 ddl

!

d

!

u =d

S

n

X suit loi inconnue

Test nonparamétriquede Wilcoxon

!

t =d

S

n

X suit loi normale

H0: = 0 ; H1: ≠ 0

!

d

!

d

STA109 10

2.4 Comparaison de plus de deux moyennes observées

X: variable aléatoire quantitative; E1, …Ej, …Ek: k échantillons indépendants de taille n1, n2…nk;µ1, µ2,… µk : moyennes théoriques de X dans les populations où sont issus les échantillons;

21, 2

2 ,… 2k : variances de X dans les populations dont sont issus les échantillons.

X suit une loi normale

Test de Bartlett d’égalitédes variances 2

1, 22 ,… 2

k

ANOVA(Analyse de la Variance)

Variances inégalesVariances égales

Echantillons de tailleégale ni et ni > 5

X suit une loi inconnue

Test nonparamétrique deKruskal-Wallis

Echantillons de taillesinégales ni ou un ni<5

H0: µ1 = µ2 =…= µk ; H1: µi ≠ µj

STA109 11

3.1 Test d’indépendance entre deux variables qualitatives

A: caractère à k modalités (A1,…, Ai,…Ak); B: caractère à l modalités (B1,…, Bji,…Bl); N: nombre total d’observations;

Tj : nombre d’individus présentant la modalité Bj sur les N individus;

Si: nombre d’individus présentant la modalité Ai sur les N individus;

Oij: effectif observé d’individus avec la modalité Ai et la modalité Bj;

Cij: effectif théorique d’individus avec les modalités Ai et Bj, sous H0 (A et B sont indépendants).

Cij = SiTj/N

Test du Chi Deuxà (k-1)*(l-1) ddl

!

k =(O

ij"C

ij)2

Cijj

#i

#

Au moins un Cij < 5

Test Exact deFisher

Tous les Cij ≥ 5

H0: A et B sont indépendants ; H1: A et B sont liés

STA109 12

3.2 Test d’indépendance entre deux variables quantitatives

X, Y: variables aléatoires quantitatives; n: nombre de couples d’observations (xi,yi);σx, σy: écart-type des variables aléatoires X et Y;

xri: rang de l’observation i de X; yr

i: rang de l’observation i de Y;

di= xri-yr

i: différences entre les rangs des couples d’observations.

Calcul du coefficient de Corrélation rStatistique T

suit loi de Student à n-2 ddl

!

r =Cov(X,Y )

"X"

Y

X et Y suivent une loi inconnue

Test non paramétrique à partirdu coefficient de corrélation derang de Spearman rs

!

t =r n " 2

1" r2

X et Y suivent une loi normale

!

rs=1"

6 di

2

i=1

n

#n(n

2 "1)

H0: X et Y sont indépendants ; H1: X et Y sont liés

Documents

Tests de comparaison - cedric.cnam.frcedric.cnam.fr/~latoucha/STA109/resume_tests.pdf · k: k échantillons indépendants de taille n 1, n 2…n k; µ 1, µ 2,… µ k: moyennes théoriques