UE4 : Biostatistiquesunf3s.cerimes.fr/media/paces/Grenoble_1112/labarere_jose/labarere... · • Test t de Student IV. Comparaison de 2 moyennes observées sur 2 échantillons appariés

Chapitre 4 Tests paramétriques de

comparaison de 2 moyennesJosé LABARERE

Année universitaire 2011/2012Université Joseph Fourier de Grenoble - Tous droits réservés.

UE4 : Biostatistiques

Plan

I. Nature des variables

II. Comparaison d’une moyenne observée à une moyenne théorique• Test Z de l’écart réduit

• Test t de StudentIII. Comparaison de 2 moyennes observées sur 2

échantillons indépendants• Test Z de l’écart réduit

• Test t de StudentIV. Comparaison de 2 moyennes observées sur 2

échantillons appariés• Test Z de l’écart réduit

• Test t de Student

Plan









• Comparer 2 moyennes : tester l’association entre

• 1 variable quantitative continue• 1 variable qualitative binaire

• Exemple : µL1 santé (âge) µL1 sciences (âge) ?• âge : variable quantitative continue• L1 sante versus L1 sciences : variable qualitative binaire

(dichotomique)

Plan








II. Comparaison d’une moyenne observée à une moyenne théorique

échantillon m, s²

population µ, σ²

population de référence

µH0

1. Formulation des hypothèses

H0 : µ = µH0

H1 : µ µH0

Comparer une moyenne observée (m) sur un échantillon issu d’une population de moyenne inconnue (µ) à une valeur théorique ou moyenne théorique connue (µH0) d’une population de référence

II. Comparaison d’une moyenne observée à une moyenne théorique

échantillon m, s

population µ, σ


µH0


H0 : µ = µH0

H1 : µ µH0

3. Choix du test

Test Z de l’écart réduit (n 30)

Test t de Student (hypothèse de normalité)

2. Risque α = 0.05 (5%) – a priori

Test Z de l’écart réduit

• Sous H0 : µ = µH0 → µ - µH0 = 0

• Si n 30 : m → N (µ, σ/√n)• Rappel : m est une réalisation de la V.A. « moyenne empirique d’un échantillon de

taille n » de moyenne µ et d’écart type σ/√n (cf cours Pr Cinquin, chap 5, diapo 8)

échantillon m, s²

population µ, σ²


µH0m ≈ µ

(fluctuations d’échantillonnage)


• Sous H0 : µ = µH0 → µ - µH0 = 0

• Si n 30 : m → N (µ, σ/√n)

m - µH0 → N (0, σ/√n)

(on a « centré » m en lui retranchant sa moyenne µ. Or µ étant inconnue, on lui substitue µH0 qui est connue et dont on sait sous H0 que µ = µH0)

nσµmZ2H0

→ N (0, 1)

(on a « réduit » (m - µH0) en la divisant par son écart-type σ/√n)


nσµmZ2H0

nsµmZ2H0

→ N (0, 1)

La variance dans la population σ² étant le plus souvent inconnue, on lui substitue son estimateur s² (s² = estimation de σ² à partir de l’échantillon)

→ N (0, 1)

Densité de probabilité de loi normale centrée réduite N(0,1)

0 + ∞- ∞valeurs probables

de Zvaleurs peu

probables de Zvaleurs peu

probables de Z

Abscisse : valeurs possibles de Z sous H0

nsµmZ2H0

0

Densité de probabilité de loi normale centrée réduite (0,1)


nsµmZ2H0

-∞ +∞+Zα = 1,96-Zα = - 1,96

P(Z > 1,96) = 2,5%P(Z <- 1,96) = 2,5%

α = 5% (0,05)

Zα = valeur de Z pour le risque α


nsµmZ2H0

-z α

α/2

(rejet de H0 = acceptation de H1)

α/2

(rejet de H0 = acceptation de H1)

1 – α

(non-rejet de H0)

0z α

|Zo| Zα |Zo| > Zα|Zo| > Zα

Zα = valeur de Z pour le risque α

Zo = valeur observée de Z pour l’échantillon

• Z est la variable aléatoire

• Zα est une valeur particulière de la variable aléatoire Z telle que P(Z > Zα) = α

• (Zα est la valeur de Z pour le risque α)

• (en santé et biologie, α = 0.05)

• Zo est une réalisation de la variable aléatoire Z• (Zo est la valeur observée/calculée de Z sur l’échantillon dont on

dispose)

nsµmZ2H0

Détermination de la valeur de Zα correspondant à un risque α = 0.05 (5%)

α 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 ∞ 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695

0,1 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311

0,2 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058

0,3 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860

0,4 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690

0,5 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539

0,6 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399

0,7 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266

0,8 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138

0,9 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013

Table de l’écart réduit

La table donne la probabilité α pour que l'écart-réduit dépasse en valeur absolue une valeur donnée ε, c'est-à-dire la probabilité extérieure à l'intervalle [-ε,ε]. La probabilité α s'obtient par addition des nombres inscrits en marge

Détermination du degré de signification associé à Zo (P-value)

α 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 ∞ 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695

0,1 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311

0,2 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058

0,3 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860

0,4 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690

0,5 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539

0,6 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399

0,7 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266

0,8 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138

0,9 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013

Table de l’écart réduit

La table donne la probabilité α pour que l'écart-réduit dépasse en valeur absolue une valeur donnée ε, c'est-à-dire la probabilité extérieure à l'intervalle [-ε,ε]. La probabilité α s'obtient par addition des nombres inscrits en marge

Exemple : Zo = 1.37 → P-value = 0.17

Test t de Student

• Sous H0 : µ = µH0

• Si la distribution de la variable est normale dans la population (et quel que soit l’effectif de l’échantillon n) :

nsµmT2H0

→ t (n-1) ddl

Test t de Student : notion de ddl

nsµmt2H0

Sous H0 : → t (n-1) ddl

La fonction de densité de probabilité de t varie avec l’effectif de l’échantillon (en fait, avec l’effectif de l’échantillon – 1 = n – 1)

→ Il existe autant de lois t de Student qu’il existe d’échantillons d’effectif différent

Valeur de tα pour :

(n-1) ddl > 30 : 1.96

(n-1) ddl = 10 : 2.22

(n-1) ddl = 5 : 2.57

(n-1) ddl = 5

(n-1) ddl > 30

1,96- 1,96

(n-1) ddl = 10

2,22- 2,22

2,57- 2,57

(cf annexe 1)

Condition de validité du test t de Student : la variable continue suit une loi normale

• A l’examen :

• Soit c’est indiqué dans l’énoncé– (ex : « on suppose les conditions de validité vérifiées »)

• Soit on vous pose la question– (ex : « Quelles sont les conditions de validité de ce test ? »)

• Soit on vous demande de vérifier empiriquement qu’on ne s’écarte pas de cette hypothèse (visuellement le plus souvent)– (ex : on fournit un histogramme dans l’énoncé)

Distribution symétrique en cloche

distribution d’allure normale

Distribution asymétrique avec queue étalée vers la droite

distribution d’allure non normale

Plan








III. Comparaison de deux moyennes observées (échantillons indépendants)

échantillon m1, s1

population1 µ1, σ1

« Indépendant » signifie que l’échantillon 1 est constitué de manière indépendante de l’échantillon 2 (par opposition aux échantillons appariés) :

• Les sujets de l’échantillon 1 ne sont pas les mêmes que ceux de l’échantillon 2

• Les 2 échantillons peuvent être d’effectifs différents.

échantillon m2, s2

population 2 µ2 , σ2

III. Comparaison de deux moyennes observées (échantillons indépendants)

échantillon m1, s1

population1 µ1, σ1

échantillon m2, s2

population 2 µ2, σ2


H0 : µ1 = µ2

H1 : µ1 µ2

3. Choix du test

Test Z de l’écart réduit (n1 30 et n2 30 )

Test t de Student (hypothèse de normalité, variances comparables)

2. Risque α = 0.05 (5%) – a priori

Sous H0 : µ1 = µ2 = µ

m 1

µ2=µ

m 2µ1=µ

n1 30

n2 30

m1 ≈ µ1


m2 ≈ µ2


µ1 - µ2 = 0 et m1 – m2 ≈ 0


Sous H0 : µ1 - µ2 = 0

2

22

1

21

21 nσ

nσ,µµN

2

22

1

21

nσ

nσ,0N(m1 – m2) → (m1 – m2) →

Rappel : m1 est une réalisation de la V.A. « moyenne empirique d’un échantillon

de taille n1 » de moyenne µ1 et d’écart type σ1/√n1 : m1 → N(µ1, σ1/√n1)

idem : m2 → N(µ2, σ2/√n2)

NB : var(a-b) = var(a) + var(b) – 2 cov(a,b) cf analogie avec (a-b)² = a² + b² - 2a.b (cf annexe 2)

02nσ

nσmmvar

2

22

1

21

21

var (m1-m2) = var (m1) + var (m2) – 2 cov (m1,m2)

µ2

Sous H1 : µ1 µ2

µ1

m 1

m 2

n1 30

n2 30

m1 ≈ µ1


m2 ≈ µ2


m1 – m2 ≈ µ1 - µ2



• Si n1 30 et n2 30

• Sous H0 : µ1 = µ2 → µ1 - µ2 = 0

2

22

1

21

21

21

21

nn

mmmmvar

mmZ

2

22

1

21

21

nn

mmZss

→ N (0, 1)

s² est un estimateur de σ² →

Test t de Student

• Conditions d’application :

• - La distribution de la variable continue est normale dans les 2 populations

• - Les variances σ1² et σ2² sont comparables (rapport 1 à 3)

• Sous H0 : µ1 = µ2 → µ1 - µ2 = 0

21

2

21

n1

n1s

mmT

2nn

s1ns1ns21

222

2112

→ t (n1 + n2 - 2) ddl

Comparabilité des variances

µ1= µ2

σ1² < σ2²

Population 1

Population 2

La comparabilité des variances n’est pas qu’une « contrainte technique » pour l’application du test t de Student.La variance, comme la moyenne, est un paramètre caractérisant la distribution d’une variable.

Distributions très différentes bien que les moyennes soient égales

Plan








IV. Comparaison de deux moyennes observées (échantillons appariés)

Obs1 1

Obs1 2

Obs1 3

Obs1 n1

…

Obs2 1

Obs2 2Obs2 3

Obs2 n2

…

m1 m2

Obs 1

Obs 2

Obs 3

Obs n1

…

Obs1

Obs 2

Obs 3

Obs n2

…

échantillons indépendants

échantillons appariés

sujet pris comme son propre témoin2 membres d’une fratrie

(n1 = n2 ou n1 ≠ n2) (n1 = n2 = n)

IV. Comparaison de deux moyennes observées (échantillons appariés)

PAS1 1

PAS1 2

PAS1 3

PAS1 n

…

PAS2 1

PAS2 2PAS2 3

PAS2 n

…

Avant Après

Traitement anti-hypertenseur

H0 : mPASavant = mPASaprès

Les mesures PAS1 et PAS2 du sujet 1 ne sont pas indépendantes

Les 2 mesures ont été effectuées sur le même sujet : si PAS1 était très élevée, il est probable que PAS2 restera élevée (mais moins que PAS1 si le traitement est efficace)

Le test doit prendre en compte cette dépendance des observations PAS1 et PAS2

(En revanche, les mesures PAS2 du sujet 1 et PAS2 du sujet 2 sont indépendantes)

m1 – m2

var (m1 – m2) = var (m1) + var (m2) – 2 cov(m1, m2) = var (m1) + var (m2)

• Z pour échantillons indépendants

• Z pour échantillons appariés

21

21

mvarmvarmmZ

2121

21

m,mcov2mvarmvarmmZ

m1 – m2

var (m1 – m2) = var (m1) + var (m2) – 2 cov (m1, m2)

Zapparié > Zindépendant → gain de puissance

Echantillons appariés

2121

21

m,mcov2mvarmvarmmZ

1

2

nS1

2

2

nS2 ne peut pas être estimée directement

car on ne dispose que d’une mesure de m1 et une mesure de m2

→ Il faut estimer var(m1 - m2) d’une autre façon


dd

2121

21

mvarm

m,mcov2mvarmvarmmZ

n

dm

n

1ii

d

• (m1 - m2) = md, avec

1n

mds

n

1i

2di

2d

• var (md) = sd² / n, avec

md est une réalisation de la V.A. « moyenne empirique des différences d’un échantillon de taille n » de moyenne µd et d’écart type σd/√n

n

dm

n

1ii

d

1n

mds

n

1i

2di

2d

Obs1 1

Obs1 2

Obs1 i

Obs1 n

…

Obs2 1

Obs2 2Obs2 i

Obs2 n

…

d1

d2

dn

di = (Obs1 i – Obs2 i)

m1 m2


L’unité d’analyse devient la différence di entre l’observation 1 et l’observation 2 pour chaque sujet

di

Test Z de l’écart réduit pour échantillons appariés

• H0 : µd = 0 (µ1 = µ2)

• H1 : µd 0 (µ1 µ2)

• Si n 30 paires

nsmZ

2d

do

α/2

(rejet de H0)

1 – α

(non-rejet de H0)

z α

|Zo| Zα |Zo| > Zα|Zo| > Zα

-z α

α/2

(rejet de H0)

Test t de Student pour échantillons appariés

• H0 : µd = 0 (µ1 = µ2)

• H1 : µd 0 (µ1 µ2)

• Si la distribution des différences individuelles est normale:

nsmt2d

od

m1 m2 effectif test conditions

observée théorique n 30 Z -

n t (n-1) ddl normalité

observée observée n1, n2 30 Z -

(indépendantes) n1, n2 t (n1+n2 -2) ddl normalitéσ² comparables

observée observée n 30 paires Z -

(appariées) n paires t (n-1) ddl normalité di

Comparaison de moyennes

Annexe 1: Test t de Student

Pourquoi le nombre de ddl du test t est-il égal à (n – 1) et pas n ?Il s’agit en fait du nombre de ddl de la variance estimée s² :

Connaissant la moyenne (m) d’un échantillon de taille n,

Le nombre de ddl est le nombre nécessaire et suffisant d’observations dont il faut connaître la valeur,

pour pouvoir calculer la variance (s²)

(n – 1)

individu x1 16,42 0,63 4,44 12,85 ?

Vérification empirique

m = 9,7

Calculer s²

Pour calculer s², il n’est pas nécessaire de connaitre la valeur de l’individu 5. On peut la déduire de :

- La moyenne m

- La valeur des (n – 1) = 4 premiers individus

9,75

?12,84,40,616,4m

? = 14,3

s² = 46,6

Annexe 2 : var(b-a) = var(a) + var(b) - 2 cov(a,b)

A B (B-A)16,4 4 -12,40,6 7,7 7,14,4 13,5 9,112,8 18,9 6,114,3 18,7 4,45,1 19 13,91,2 7,6 6,42,6 18,4 15,85,4 15,2 9,86,6 17,3 10,72,9 2,9 04,1 7,7 3,67,7 15,4 7,719,4 5,8 -13,610,8 6,2 -4,68,4 15,9 7,510,9 20 9,16,1 18,7 12,63,3 13,8 10,515,2 15,6 0,4

moyenne 7,9 13,1 5,2variance 27,9 31,3 59,2

µB-A = µB - µA

var(B-A) = var(B) + var(A)

Vérification empirique pour 2 échantillons indépendants (cov(a,b) = 0)

Annexe 3: covariance

N

µYµXYX,cov

N

1iYiXi

XvarN

µX

N

µXµXXX,cov

N

1i

2Xi

N

1iXiXi

• Cas particulier : X = Y

• Variance conjointe de 2 variables X et Y

0N

µYµXYX,cov

N

1iYiXi

• X et Y indépendantes

cas particulier Y constant quelle que soit la valeur de X

0 car Yi = constante =µY

Mentions légales

Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine de Grenoble (Université Joseph Fourier – Grenoble 1)en collaboration avec l’Equipe Audiovisuel et Production Multimédia (EAEPM) de l’Université Stendhal de Grenoble.

L'ensemble de cette œuvre relève des législations française et internationale sur le droit d'auteur etla propriété intellectuelle, littéraire et artistique ou toute autre loi applicable.Tous les droits de reproduction, adaptation, transformation, transcription ou traduction de tout oupartie sont réservés pour les textes ainsi que pour l'ensemble des documents iconographiques,photographiques, vidéos et sonores.Cette œuvre est interdite à la vente ou à la location. Sa diffusion, duplication, mise à disposition dupublic (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sontstrictement réservées à l’université Joseph Fourier (UJF) Grenoble 1 et ses affiliés.L’utilisation de ce document est strictement réservée à l’usage privé des étudiants inscrits àl’Université Joseph Fourier (UJF) Grenoble 1, et non destinée à une utilisation collective, gratuiteou payante.

Documents

UE4 : Biostatistiquesunf3s.cerimes.fr/media/paces/Grenoble_1112/labarere_jose/labarere... · • Test t de Student IV. Comparaison de 2 moyennes observées sur 2 échantillons appariés