Upload
dinhdang
View
222
Download
2
Embed Size (px)
Citation preview
Chapitre 4 Tests paramétriques de
comparaison de 2 moyennesJosé LABARERE
Année universitaire 2011/2012Université Joseph Fourier de Grenoble - Tous droits réservés.
UE4 : Biostatistiques
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une moyenne théorique• Test Z de l’écart réduit
• Test t de StudentIII. Comparaison de 2 moyennes observées sur 2
échantillons indépendants• Test Z de l’écart réduit
• Test t de StudentIV. Comparaison de 2 moyennes observées sur 2
échantillons appariés• Test Z de l’écart réduit
• Test t de Student
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une moyenne théorique• Test Z de l’écart réduit
• Test t de StudentIII. Comparaison de 2 moyennes observées sur 2
échantillons indépendants• Test Z de l’écart réduit
• Test t de StudentIV. Comparaison de 2 moyennes observées sur 2
échantillons appariés• Test Z de l’écart réduit
• Test t de Student
I. Nature des variables
• Comparer 2 moyennes : tester l’association entre
• 1 variable quantitative continue• 1 variable qualitative binaire
• Exemple : µL1 santé (âge) µL1 sciences (âge) ?• âge : variable quantitative continue• L1 sante versus L1 sciences : variable qualitative binaire
(dichotomique)
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une moyenne théorique• Test Z de l’écart réduit
• Test t de StudentIII. Comparaison de 2 moyennes observées sur 2
échantillons indépendants• Test Z de l’écart réduit
• Test t de StudentIV. Comparaison de 2 moyennes observées sur 2
échantillons appariés• Test Z de l’écart réduit
• Test t de Student
II. Comparaison d’une moyenne observée à une moyenne théorique
échantillon m, s²
population µ, σ²
population de référence
µH0
1. Formulation des hypothèses
H0 : µ = µH0
H1 : µ µH0
Comparer une moyenne observée (m) sur un échantillon issu d’une population de moyenne inconnue (µ) à une valeur théorique ou moyenne théorique connue (µH0) d’une population de référence
II. Comparaison d’une moyenne observée à une moyenne théorique
échantillon m, s
population µ, σ
population de référence
µH0
1. Formulation des hypothèses
H0 : µ = µH0
H1 : µ µH0
3. Choix du test
Test Z de l’écart réduit (n 30)
Test t de Student (hypothèse de normalité)
2. Risque α = 0.05 (5%) – a priori
Test Z de l’écart réduit
• Sous H0 : µ = µH0 → µ - µH0 = 0
• Si n 30 : m → N (µ, σ/√n)• Rappel : m est une réalisation de la V.A. « moyenne empirique d’un échantillon de
taille n » de moyenne µ et d’écart type σ/√n (cf cours Pr Cinquin, chap 5, diapo 8)
échantillon m, s²
population µ, σ²
population de référence
µH0m ≈ µ
(fluctuations d’échantillonnage)
Test Z de l’écart réduit
• Sous H0 : µ = µH0 → µ - µH0 = 0
• Si n 30 : m → N (µ, σ/√n)
m - µH0 → N (0, σ/√n)
(on a « centré » m en lui retranchant sa moyenne µ. Or µ étant inconnue, on lui substitue µH0 qui est connue et dont on sait sous H0 que µ = µH0)
nσµmZ2H0
→ N (0, 1)
(on a « réduit » (m - µH0) en la divisant par son écart-type σ/√n)
Test Z de l’écart réduit
nσµmZ2H0
nsµmZ2H0
→ N (0, 1)
La variance dans la population σ² étant le plus souvent inconnue, on lui substitue son estimateur s² (s² = estimation de σ² à partir de l’échantillon)
→ N (0, 1)
Densité de probabilité de loi normale centrée réduite N(0,1)
0 + ∞- ∞valeurs probables
de Zvaleurs peu
probables de Zvaleurs peu
probables de Z
Abscisse : valeurs possibles de Z sous H0
nsµmZ2H0
0
Densité de probabilité de loi normale centrée réduite (0,1)
Abscisse : valeurs possibles de Z sous H0
nsµmZ2H0
-∞ +∞+Zα = 1,96-Zα = - 1,96
P(Z > 1,96) = 2,5%P(Z <- 1,96) = 2,5%
α = 5% (0,05)
Zα = valeur de Z pour le risque α
Abscisse : valeurs possibles de Z sous H0
nsµmZ2H0
-z α
α/2
(rejet de H0 = acceptation de H1)
α/2
(rejet de H0 = acceptation de H1)
1 – α
(non-rejet de H0)
0z α
|Zo| Zα |Zo| > Zα|Zo| > Zα
Zα = valeur de Z pour le risque α
Zo = valeur observée de Z pour l’échantillon
• Z est la variable aléatoire
• Zα est une valeur particulière de la variable aléatoire Z telle que P(Z > Zα) = α
• (Zα est la valeur de Z pour le risque α)
• (en santé et biologie, α = 0.05)
• Zo est une réalisation de la variable aléatoire Z• (Zo est la valeur observée/calculée de Z sur l’échantillon dont on
dispose)
nsµmZ2H0
Détermination de la valeur de Zα correspondant à un risque α = 0.05 (5%)
α 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 ∞ 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695
0,1 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311
0,2 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058
0,3 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860
0,4 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690
0,5 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539
0,6 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399
0,7 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266
0,8 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138
0,9 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013
Table de l’écart réduit
La table donne la probabilité α pour que l'écart-réduit dépasse en valeur absolue une valeur donnée ε, c'est-à-dire la probabilité extérieure à l'intervalle [-ε,ε]. La probabilité α s'obtient par addition des nombres inscrits en marge
Détermination du degré de signification associé à Zo (P-value)
α 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 ∞ 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695
0,1 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311
0,2 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058
0,3 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860
0,4 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690
0,5 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539
0,6 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399
0,7 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266
0,8 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138
0,9 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013
Table de l’écart réduit
La table donne la probabilité α pour que l'écart-réduit dépasse en valeur absolue une valeur donnée ε, c'est-à-dire la probabilité extérieure à l'intervalle [-ε,ε]. La probabilité α s'obtient par addition des nombres inscrits en marge
Exemple : Zo = 1.37 → P-value = 0.17
Test t de Student
• Sous H0 : µ = µH0
• Si la distribution de la variable est normale dans la population (et quel que soit l’effectif de l’échantillon n) :
nsµmT2H0
→ t (n-1) ddl
Test t de Student : notion de ddl
nsµmt2H0
Sous H0 : → t (n-1) ddl
La fonction de densité de probabilité de t varie avec l’effectif de l’échantillon (en fait, avec l’effectif de l’échantillon – 1 = n – 1)
→ Il existe autant de lois t de Student qu’il existe d’échantillons d’effectif différent
Condition de validité du test t de Student : la variable continue suit une loi normale
• A l’examen :
• Soit c’est indiqué dans l’énoncé– (ex : « on suppose les conditions de validité vérifiées »)
• Soit on vous pose la question– (ex : « Quelles sont les conditions de validité de ce test ? »)
• Soit on vous demande de vérifier empiriquement qu’on ne s’écarte pas de cette hypothèse (visuellement le plus souvent)– (ex : on fournit un histogramme dans l’énoncé)
Distribution symétrique en cloche
distribution d’allure normale
Distribution asymétrique avec queue étalée vers la droite
distribution d’allure non normale
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une moyenne théorique• Test Z de l’écart réduit
• Test t de StudentIII. Comparaison de 2 moyennes observées sur 2
échantillons indépendants• Test Z de l’écart réduit
• Test t de StudentIV. Comparaison de 2 moyennes observées sur 2
échantillons appariés• Test Z de l’écart réduit
• Test t de Student
III. Comparaison de deux moyennes observées (échantillons indépendants)
échantillon m1, s1
population1 µ1, σ1
« Indépendant » signifie que l’échantillon 1 est constitué de manière indépendante de l’échantillon 2 (par opposition aux échantillons appariés) :
• Les sujets de l’échantillon 1 ne sont pas les mêmes que ceux de l’échantillon 2
• Les 2 échantillons peuvent être d’effectifs différents.
échantillon m2, s2
population 2 µ2 , σ2
III. Comparaison de deux moyennes observées (échantillons indépendants)
échantillon m1, s1
population1 µ1, σ1
échantillon m2, s2
population 2 µ2, σ2
1. Formulation des hypothèses
H0 : µ1 = µ2
H1 : µ1 µ2
3. Choix du test
Test Z de l’écart réduit (n1 30 et n2 30 )
Test t de Student (hypothèse de normalité, variances comparables)
2. Risque α = 0.05 (5%) – a priori
Sous H0 : µ1 = µ2 = µ
m 1
µ2=µ
m 2µ1=µ
n1 30
n2 30
m1 ≈ µ1
(fluctuations d’échantillonnage)
m2 ≈ µ2
(fluctuations d’échantillonnage)
µ1 - µ2 = 0 et m1 – m2 ≈ 0
(fluctuations d’échantillonnage)
Sous H0 : µ1 - µ2 = 0
2
22
1
21
21 nσ
nσ,µµN
2
22
1
21
nσ
nσ,0N(m1 – m2) → (m1 – m2) →
Rappel : m1 est une réalisation de la V.A. « moyenne empirique d’un échantillon
de taille n1 » de moyenne µ1 et d’écart type σ1/√n1 : m1 → N(µ1, σ1/√n1)
idem : m2 → N(µ2, σ2/√n2)
NB : var(a-b) = var(a) + var(b) – 2 cov(a,b) cf analogie avec (a-b)² = a² + b² - 2a.b (cf annexe 2)
02nσ
nσmmvar
2
22
1
21
21
var (m1-m2) = var (m1) + var (m2) – 2 cov (m1,m2)
µ2
Sous H1 : µ1 µ2
µ1
m 1
m 2
n1 30
n2 30
m1 ≈ µ1
(fluctuations d’échantillonnage)
m2 ≈ µ2
(fluctuations d’échantillonnage)
m1 – m2 ≈ µ1 - µ2
(fluctuations d’échantillonnage)
Test Z de l’écart réduit
• Si n1 30 et n2 30
• Sous H0 : µ1 = µ2 → µ1 - µ2 = 0
2
22
1
21
21
21
21
nn
mmmmvar
mmZ
2
22
1
21
21
nn
mmZss
→ N (0, 1)
s² est un estimateur de σ² →
Test t de Student
• Conditions d’application :
• - La distribution de la variable continue est normale dans les 2 populations
• - Les variances σ1² et σ2² sont comparables (rapport 1 à 3)
• Sous H0 : µ1 = µ2 → µ1 - µ2 = 0
21
2
21
n1
n1s
mmT
2nn
s1ns1ns21
222
2112
→ t (n1 + n2 - 2) ddl
Comparabilité des variances
µ1= µ2
σ1² < σ2²
Population 1
Population 2
La comparabilité des variances n’est pas qu’une « contrainte technique » pour l’application du test t de Student.La variance, comme la moyenne, est un paramètre caractérisant la distribution d’une variable.
Distributions très différentes bien que les moyennes soient égales
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une moyenne théorique• Test Z de l’écart réduit
• Test t de StudentIII. Comparaison de 2 moyennes observées sur 2
échantillons indépendants• Test Z de l’écart réduit
• Test t de StudentIV. Comparaison de 2 moyennes observées sur 2
échantillons appariés• Test Z de l’écart réduit
• Test t de Student
IV. Comparaison de deux moyennes observées (échantillons appariés)
Obs1 1
Obs1 2
Obs1 3
Obs1 n1
…
Obs2 1
Obs2 2Obs2 3
Obs2 n2
…
m1 m2
Obs 1
Obs 2
Obs 3
Obs n1
…
Obs1
Obs 2
Obs 3
Obs n2
…
échantillons indépendants
échantillons appariés
sujet pris comme son propre témoin2 membres d’une fratrie
(n1 = n2 ou n1 ≠ n2) (n1 = n2 = n)
IV. Comparaison de deux moyennes observées (échantillons appariés)
PAS1 1
PAS1 2
PAS1 3
PAS1 n
…
PAS2 1
PAS2 2PAS2 3
PAS2 n
…
Avant Après
Traitement anti-hypertenseur
H0 : mPASavant = mPASaprès
Les mesures PAS1 et PAS2 du sujet 1 ne sont pas indépendantes
Les 2 mesures ont été effectuées sur le même sujet : si PAS1 était très élevée, il est probable que PAS2 restera élevée (mais moins que PAS1 si le traitement est efficace)
Le test doit prendre en compte cette dépendance des observations PAS1 et PAS2
(En revanche, les mesures PAS2 du sujet 1 et PAS2 du sujet 2 sont indépendantes)
m1 – m2
var (m1 – m2) = var (m1) + var (m2) – 2 cov(m1, m2) = var (m1) + var (m2)
• Z pour échantillons indépendants
• Z pour échantillons appariés
21
21
mvarmvarmmZ
2121
21
m,mcov2mvarmvarmmZ
m1 – m2
var (m1 – m2) = var (m1) + var (m2) – 2 cov (m1, m2)
Zapparié > Zindépendant → gain de puissance
Echantillons appariés
2121
21
m,mcov2mvarmvarmmZ
1
2
nS1
2
2
nS2 ne peut pas être estimée directement
car on ne dispose que d’une mesure de m1 et une mesure de m2
→ Il faut estimer var(m1 - m2) d’une autre façon
Echantillons appariés
dd
2121
21
mvarm
m,mcov2mvarmvarmmZ
n
dm
n
1ii
d
• (m1 - m2) = md, avec
1n
mds
n
1i
2di
2d
• var (md) = sd² / n, avec
md est une réalisation de la V.A. « moyenne empirique des différences d’un échantillon de taille n » de moyenne µd et d’écart type σd/√n
n
dm
n
1ii
d
1n
mds
n
1i
2di
2d
Obs1 1
Obs1 2
Obs1 i
Obs1 n
…
Obs2 1
Obs2 2Obs2 i
Obs2 n
…
d1
d2
dn
di = (Obs1 i – Obs2 i)
m1 m2
Echantillons appariés
L’unité d’analyse devient la différence di entre l’observation 1 et l’observation 2 pour chaque sujet
di
Test Z de l’écart réduit pour échantillons appariés
• H0 : µd = 0 (µ1 = µ2)
• H1 : µd 0 (µ1 µ2)
• Si n 30 paires
nsmZ
2d
do
α/2
(rejet de H0)
1 – α
(non-rejet de H0)
z α
|Zo| Zα |Zo| > Zα|Zo| > Zα
-z α
α/2
(rejet de H0)
Test t de Student pour échantillons appariés
• H0 : µd = 0 (µ1 = µ2)
• H1 : µd 0 (µ1 µ2)
• Si la distribution des différences individuelles est normale:
nsmt2d
od
m1 m2 effectif test conditions
observée théorique n 30 Z -
n t (n-1) ddl normalité
observée observée n1, n2 30 Z -
(indépendantes) n1, n2 t (n1+n2 -2) ddl normalitéσ² comparables
observée observée n 30 paires Z -
(appariées) n paires t (n-1) ddl normalité di
Comparaison de moyennes
Annexe 1: Test t de Student
Pourquoi le nombre de ddl du test t est-il égal à (n – 1) et pas n ?Il s’agit en fait du nombre de ddl de la variance estimée s² :
Connaissant la moyenne (m) d’un échantillon de taille n,
Le nombre de ddl est le nombre nécessaire et suffisant d’observations dont il faut connaître la valeur,
pour pouvoir calculer la variance (s²)
(n – 1)
individu x1 16,42 0,63 4,44 12,85 ?
Vérification empirique
m = 9,7
Calculer s²
Pour calculer s², il n’est pas nécessaire de connaitre la valeur de l’individu 5. On peut la déduire de :
- La moyenne m
- La valeur des (n – 1) = 4 premiers individus
9,75
?12,84,40,616,4m
? = 14,3
s² = 46,6
Annexe 2 : var(b-a) = var(a) + var(b) - 2 cov(a,b)
A B (B-A)16,4 4 -12,40,6 7,7 7,14,4 13,5 9,112,8 18,9 6,114,3 18,7 4,45,1 19 13,91,2 7,6 6,42,6 18,4 15,85,4 15,2 9,86,6 17,3 10,72,9 2,9 04,1 7,7 3,67,7 15,4 7,719,4 5,8 -13,610,8 6,2 -4,68,4 15,9 7,510,9 20 9,16,1 18,7 12,63,3 13,8 10,515,2 15,6 0,4
moyenne 7,9 13,1 5,2variance 27,9 31,3 59,2
µB-A = µB - µA
var(B-A) = var(B) + var(A)
Vérification empirique pour 2 échantillons indépendants (cov(a,b) = 0)
Annexe 3: covariance
N
µYµXYX,cov
N
1iYiXi
XvarN
µX
N
µXµXXX,cov
N
1i
2Xi
N
1iXiXi
• Cas particulier : X = Y
• Variance conjointe de 2 variables X et Y
0N
µYµXYX,cov
N
1iYiXi
• X et Y indépendantes
cas particulier Y constant quelle que soit la valeur de X
0 car Yi = constante =µY
Mentions légales
Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine de Grenoble (Université Joseph Fourier – Grenoble 1)en collaboration avec l’Equipe Audiovisuel et Production Multimédia (EAEPM) de l’Université Stendhal de Grenoble.
L'ensemble de cette œuvre relève des législations française et internationale sur le droit d'auteur etla propriété intellectuelle, littéraire et artistique ou toute autre loi applicable.Tous les droits de reproduction, adaptation, transformation, transcription ou traduction de tout oupartie sont réservés pour les textes ainsi que pour l'ensemble des documents iconographiques,photographiques, vidéos et sonores.Cette œuvre est interdite à la vente ou à la location. Sa diffusion, duplication, mise à disposition dupublic (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sontstrictement réservées à l’université Joseph Fourier (UJF) Grenoble 1 et ses affiliés.L’utilisation de ce document est strictement réservée à l’usage privé des étudiants inscrits àl’Université Joseph Fourier (UJF) Grenoble 1, et non destinée à une utilisation collective, gratuiteou payante.