2. COMPARAISON DE DEUX GROUPES - edu.upmc.fr · • Important de tester préalablement l’homogénéité des variances car c’est une condition d’application de certains tests

2. COMPARAISON DE

DEUX GROUPES

• Il existe des tests spécifiques pour

• comparer des proportions

• comparer des moyennes

• Données par paires ou non

• Nécessite éventuellement de comparer préalablement les variances

• Des conditions d’applications doivent être respectées pour réaliser les tests

• 2 échantillons aléatoires simples indépendants (pas de correspondances entre les valeurs des 2 groupes)

• Pour chaque groupe d’effectif ni on a xi succès, et donc une proportion pi = xi/ni

• Test de l’hypothèse nulle p1 = p2

• Condition : xi et (ni - xi) ≥ 5

• On peut avoir à calculer les xi à partir de pi et ni

Comparaison de 2 proportions

• Estimation combinée de p1 et p2, notée p ̄

• p ̄= (x1 + x2)/(n1 + n2)

• et q ̄= 1 - p ̄

• Calcul de la statistique test z

• z = (p1 - p2)/√(p.̄q/̄n1 + p.̄q/̄n2)

• Sous H0, z suit une loi Normale (table de Student avec un nombre infini ("grand") de ddl)

• On peut calculer l’intervalle de confiance de p1 - p2

• Quand il ne s’agit pas de proportions :

• 2 groupes d’observations indépendantes : 2 échantillons pouvant être

• Indépendants

• Appariés

• H0 : Les 2 groupes sont issus de la même population,

avec donc la même moyenne

• 2 étapes :

• Comparaison des variances

• Comparaison des moyennes

• Important de tester préalablement l’homogénéité des variances car c’est une condition d’application de certains tests (tests paramétriques)

• Sinon, en cas d’hétéroscédasticité : test simultané de 2 hypothèses nulles

• Problème de Behrens-Fisher

➡Le rejet de H0 peut être due à la différence des

moyennes (la seule hypothèse qu’on veut tester) ou à celle des variances

• Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées

• Statistique F : rapport des variances, tenant compte du nombre d’objets par groupes par l’intermédiaire des degrés de liberté

• Si égalité des variances, F doit se situer autour de 1

• La variable F obéit à une loi de distribution de F

Comparaison de 2 variances

• Pour 2 groupes à n1 et n2 objets

F = s21/s2

2

• Sous H0, F suit une loi à (n1 - 1) et (n2 - 1) ddl

• Conditions

• Indépendance des observations

• Normalité des données

• Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution

• F = plus grande variance/plus petite variance

• Test unilatéral (souvent) ou bilatéral

• On peut également tester les écarts-types par un test F

• Il existe un test non paramétrique permettant de comparer 2 variances en cas de non normalité : test de Fligner-Killeen

• Test t

• Pour échantillons appariés ou non appariés

• Test statistique

• Paramétrique : référence à la loi Normale

• Comparaison de |t| au seuil dans une table de Student

• Par permutations

• Tests non paramétriques

• Test U de Wilcoxon-Mann-Whitney (échantillons non appariés)

• Test des rangs signés de Wilcoxon (échantillons appariés)

Comparaison de 2 moyennes

• Parfois appelé test Z

• H0 : µ1 = µ2

• Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents

• t suit une loi de distribution de Student à n1+n2-2

degrés de liberté sous H0

Test t pour échantillons indépendants

• Conditions d’utilisation

• Variable quantitative

• Grands échantillons (ni >30)

• Normalité des données (sauf si test par permutations)

• Egalité des variances (homoscédasticité)

• Indépendance des observations

• Quand ni < 30 (et en fait le plus souvent), on

utilise une statistique t corrigée

• Les variances estimées des 2 échantillons sont combinées : meilleure approximation de la variance de la population

• Test t de certains livres/logiciels

• Si les variances sont inégales, il existe également une correction

• Test t modifié selon Welch

• Même calcul de la statistique-test

• Distribution différente : formule pour modifier le nombre de ddl

Test t pour données appariées

• Correspondance 2 à 2 des observations

• Mesures avant-après des mêmes sujets

• Mesures de deux caractères sur les mêmes individus

• Informations supplémentaires

• Pas nécessaire de tester l’homogénéité des variances

• Analyse des différences observées pour chaque paire d’observations

di = xi1 - xi2

• Moyenne des différences = différences des moyennes

µd = µ1 - µ2

• Erreur-type (écart-type de la moyenne)

sd̅ = sd/√n

• Statistique-test

t = d̅/sd̅

• Sous H0 (µd = 0), t obéit à une loi de Student à (n - 1)

ddl, où n est le nombre de paires

• Pour deux groupes indépendants

• Données quantitatives

• Distribution non normale

• Variances inégales

• Echantillons trop petits pour test t (ex : n = 3)

• Données semi-quantitatives

• Moins puissants que les tests paramétriques

• Efficacité (/test t) = 0,95 : pour obtenir la même puissance, il faut 100 observations au test U contre 95 au test t

• Basé sur les rangs

Test non paramétrique U de Wilcoxon-Mann-Whitney

• On place l’ensemble des valeurs en ordre (les ex-aequos reçoivent un rang médian)

• Plus les groupes sont séparés, moins les valeurs seront entremêlées

• Le test consiste à estimer l’écart à un “entremêlement moyen” des valeurs placées en rang

• La statistique testée, U, mesure le degré de mélange des deux échantillons (H0 : pas de différence)

• Comparaison de la valeur observée par rapport à la valeur critique (Table)

• Convergence vers une loi Normale quand n augmente

• Exemple

Groupe 1 : 0,5 2 2,1 (n1 = 3)

Groupe 2 : 0,7 2,2 3 3,1 (n2 = 4)

Valeurs en ordre 1 2 3 4 5 6 7

Provenance 1 2 1 1 2 2 2

• U1 : nombre de fois qu’un élément du groupe 2 en

précède un du groupe 1 ; U1 = 0 + 1 + 1 = 2

• U2 : l’inverse ; = 1 + 3 + 3 + 3 = 10

• Il y a en tout n1n2 comparaisons : 4 x 3 = 12

U2 = n1n2 - U1

• Si les groupes sont parfaitement séparés

U2 = 0 et U1 = n1n2 , ou l’inverse

• Si les groupes sont parfaitement entremêlés

U1 = U2 = n1n2/2

• Tester H0 revient à mesurer l’écart du plus petit des U

à la valeur n1n2/2 (valeur sous H0)

• Statistique-test = min (U1, U2)

Test non paramétrique de Wilcoxon

• Pour données appariées

• Mêmes conditions que pour le test U

• Efficacité (/test t) = 0,95

• Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63

• Etude des différences entre paires de données

• H0 : pas de différence entre les moyennes des groupes

• On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d’ex-aequo)

• On attribue à chaque rang le signe de la différence originale

• On somme les rangs positifs (T+) et les rangs négatifs (T-)

• Sous H0, T+ = T- = n(n + 1)/4 (n excluant les

différences nulles)

• Statistique-test = min (T+, T-)

Comparaison de 2 groupesDonnées normales ?

Homoscédasticité

Test tparamétriquepermutation

Hétéroscédasticité

Homogénéiserles variances

Test F

Oui

Normaliser

Non

Succès

Succès

ni > 50 ?

OuiNon

Test tWelch

Echec

ni > 50 ?

Oui

Test tpermutation

Non

Homoscédasticité

Oui Non

Test U(ou si variables semi-

quantitatives)

Echec

ni petit

(pour des échantillons non appariés)

Risque relatif (RR) et Rapport de cotes (RC)

• Mesures de risque

• Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité

• Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle

• Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives

• Tableau d'une étude prospective ou rétrospective

• RR = (a/(a+b)/(c/(c+d)), que pour études prospectives

• RC = (a/b)/(c/d) = ad/bc

• Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre)

• Possibilité de calcul d'un intervalle de confiance

Maladie Pas de maladie

Traité (exposé) a b

Non traité (ou placebo ou non exposé) c d

Risque relatif• RR = relative risk

• Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe

• Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné

• RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin

• Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR

Rapport de cotes

• RC = odds ratio

• Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1

• En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles

• RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle

Documents

2. COMPARAISON DE DEUX GROUPES - edu.upmc.fr · • Important de tester préalablement l’homogénéité des variances car c’est une condition d’application de certains tests