Mesures et tests d'association - aliquote.org · Pour réaliser un tel test, il est nécessaire d’avoir (ou de construire) une statistiquedetest,dontladistributiond’échantillonnageestconnue(ou

.

.

Mesures et tests d’association

Introduction à R pour la recherche biomédicale

http://www.aliquote.org/cours/2012_biomed

http://www.aliquote.org/cours/2012_biomed

.

.

Objectifs

▶ Dans ce cours, on s’intéressera aux tests d’inférence simples visant à

comparer des indices de tendance centrale calculés sur des données

continues, des proportions, des mesures de concordance, estimés à

partir de données observées à la suite d’un procédé

d’échantillonnage.

▶ On considèrera deux échantillons ou plus, indépendants ou non.

▶ L’objectif est de démontrer le principe général de la démarche du test

d’hypothèse à partir de quelques statistiques de test rencontrées

fréquemment en recherche biomédicale.

Ce cours s’appuie en partie sur l’ouvrage de Everitt & Rabe-Hesketh (2001).

.

.

Hypothèse nulle, risque d’erreur en inférence fréquentiste

De manière générale, lorsque l’on s’intéresse à un effet particulier, l’idée est

de postuler l’absence d’effet (hypothèse nulle,H0) et de chercher à vérifier si

les données observées sont compatibles ou non avec cette hypothèse. C’est

le principe même de la démarche hypothético-déductive.

Pour réaliser un tel test, il est nécessaire d’avoir (ou de construire) une

statistique de test, dont la distribution d’échantillonnage est connue (ou

peut être approximée) sous H0, qui nous permettra de répondre à la ques-

tion suivante : en supposant qu’il n’existe pas d’effet dans la population,

quelle est la probabilité d’observer une statistique de test au moins aussi ex-

trême que celle estimée à partir de l’échantillon choisi aléatoirement dans

cette population ? Si cette probabilité se révèle “suffisamment petite”, on

concluera qu’il est vraisemblablement peu probable que le résultat observé

soit dû simplement au hasard de l’échantillonnage.

.

.

Risque de première et deuxième espèce

Supposons que l’on est à prendre une décision concernant une hypothèse

nulle. Le fameux “risque alpha” (type I) est le risque de conclure à tort à

l’existence d’un effet alors qu’en réalité ce dernier n’existe pas.

À ce risque est typiquement associé, de manière asymétrique, le risque (type

II) de ne pas rejeter H0 lorsque celle-ci est en réalité fausse ; le complémen-

taire de ce risque est appelée la puissance.

Ces risques sont effectivement asymétriques :

▶ dans un essai thérapeutique, si l’on doit décider si on un nouveau

traitement est meilleur que le traitement courant, on cherche à

minimiser le risque d’une mauvaise décision (α = 0.05). ;

▶ si à la fin de l’essai, on ne met en évidence aucune différences

significatives, cela ne signifie pas que les traitements sont équivalents

: il existe un risque β qu’il existe une réelle différence entre les deux.

.

.

En résumé

power.R

H1

(µ0 + !;"2)H0

(µ0;"2)Pr(! | H0 true)

Correct decision(TN)

Pr(+ | H0 true)Type I error risk

(#)

.

.

Comparer deux moyennes

Le test de Student est un test paramétrique permet de tester si deuxmoyennes

de groupe (indépendants ou appariés) peuvent être considérées comme sig-

nificativement différentes en considérant un seuil d’erreur α.

Exemples d’application : comparer un dosage biologique entre deux groupes

de patients, comparer desmesures physiologiques avant et après traitement

chez les mêmes patients.

Conditions d’application : normalité des distributions parentes, homogénéité

des variances, indépendance (dans le cas du test t pour échantillons in-

dépendants).

.

.

En détails

Le test t de Student

La statistique de test est définie comme suit :

tobs =x1 − x2

sc

√1n1

+ 1n2

,

où les xi et ni sont les moyennes et effectifs des deux échantillons, et

sc =[((n1 − 1)s2x1 + (n2 − 1)s2x2

)/(n1 + n2 − 2)

]1/2est la variance commune.

Sous H0, cette statistique de test suit une loi de Student à n1 + n2 − 2 degrés deliberté.Un intervalle de confiance à 100(1− α)% pour la différence x1 − x2 peut êtreconstruit comme suit :

x1 − x2 ± tα,n1+n2−2sc

√1

n1+

1

n2,

avec P(t < tα,n1+n2−2) = 1− α/2.

.

.

Application

Poids à la naissance : mères fumeur vs. non-fumeur. (Hosmer & Lemeshow,

1989)

data(birthwt , package=MASS)

birthwt$smoke <- factor(birthwt$smoke ,

labels=c("No","Yes"))

t.test(bwt ∼ smoke , data=birthwt , var.equal=TRUE)

data: bwt by smoke t = 2.6529, df = 187, p-value = 0.008667alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 72.75612 494.79735 sample estimates: mean in group No mean in group Yes 3055.696 2771.919

On conclut à l’existence d’une différence entre les poids moyens des enfants

des deux groupes de mère, p < 0.01 (∆ = +284 g [73; 495], en faveur

des non-fumeurs).

.

.

Vérification des conditions d’application

On doit essentiellement vérifier l’homogénéité des variances et la distribu-

tion des résidus.

bwplot(smoke ∼ bwt , data=birthwt)

qqmath(∼ bwt , data=birthwt , group=smoke)

bwt

No

Yes

1000 2000 3000 4000 5000

Quantiles N(0,1)

bwt

1000

2000

3000

4000

5000

-2 -1 0 1 2

NoYes

bwt (poids à la naissance, en g) vs. tabac

.

.

Cas des données non indépendantes

Dans le cas où les échantillons ne sont pas indépendants, p.ex. sujetsmesurés

à deux reprises ou données appariées, le même type de test peut être utilisé,

et la différence de moyennes est comparée à 0.

Le plus souvent ce sont les mêmes unités statistiques qui servent de sup-

port à la comparaison, mais n’importe quelle forme d’appariement, pourvu

qu’elle fasse sens, peut justifier le recours à un test apparié.

.

.

En détails

Le test t de Student pour données appariées

Si l’on note les valeurs observées pour la ième paire x1i et x2i, la différencedi = x1i − x2i est supposée suivre une loi normale. L’hypothèse nulle est µd = 0.La statistique de test est donnée par :

t =di

sd/√n

où di la différence moyenne, et sd est la déviation standard de di. Ici, on peutexploiter la corrélation intra-unité car si X1 et X2 ne sont pas indépendants, alorson sait que V(X1 − X2) = V(X1) + V(X2)− 2Cov(X1, X2).Cette statistique de test suit alors une loi de Student à n− 1 degrés de liberté.Un intervalle de confiance à 100(1− α)% pour la différence di peut êtreconstruit comme suit :

di ± tα,n−1sd/n,

avec P(t < tα,n−1) = 1− α/2.

.

.

Application

Effet de somnifères sur le temps de sommeil. (Student, 1908, p. 20)

t.test(extra ∼ group , data=sleep ,

var.equal=TRUE , paired=TRUE)

data: extra by group t = -4.0621, df = 9, p-value = 0.002833alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.4598858 -0.7001142 sample estimates:mean of the differences -1.58

On constate une diminution de la durée de sommeil lorsque le médicament

1 est administré (∆ = −1.6 h [−2.5;−0.7], p < 0.01).

.

.

Analyse graphique

On peut utiliser un diagramme de dispersion, de Tukey (tmd) ou de Bland-

Altman (Altman & Bland, 1983).

xyplot(extra[group ==2] ∼ extra[group ==1],

data=sleep , type=c("p","g"))

Groupe 1

Gro

upe

2

0

1

2

3

4

5

-1 0 1 2 3

Moyenne 1+2

Dif

fére

nce

2-1

0

1

2

3

4

0 1 2 3 4

.

.

Alternatives non-paramétriques

Dans le test t, on fait une hypothèse sur la nature de la distribution de la

réponse mesurée dans la population parente. Si l’on relaxe cette hypothèse

et que l’on exige simplement que les échantillons proviennent de popula-

tions ayant des distribution à peu près comparables en terme de forme,

alors on peut utiliser des tests dits non-paramétriques. Dans le cadre de la

comparaison de la tendance centrale de deux échantillons, l’alternative au

test t est le test de Wilcoxon.

Ce type de test est souvent utilisé dans le cas des petits effectifs lorsque les

données disponibles ne permettent pas réellement de vérifier la normalité

des distributions parentes, comme dans le test t. On retiendra toutefois que

le test de Wilcoxon a une puissance relative de 80 % par rapport au test de

Student. Ce type de test présente en outre l’avantage d’être moins sensible

à la présence de valeurs extrêmes.

.

.

En détails

Le test des rangs de (Mann-Whitney-)Wilcoxon

L’hypothèse nulle est que les deux échantillons comparés proviennent de deuxdistributions ayant les mêmes distributions (paramètre de position, i.e. médiane).La statistique de test est construite comme la plus petite somme des rangs d’undes deux échantillons ; quand n1, n2 > 15 et qu’il n’y a pas d’ex-aequo, on al’approximation suivante pour La statistique de test :

Z =S− n1(n1 + n2 + 1)/2√n1n2(n1 + n2 + 1)/12

∼ N (0; 1),

où S est la statistique de test pour l’échantillon avec n1 observations.Pour deux échantillons appariés, le test des rangs signés est utilisé : on calcule lasomme T+ des rangs des différences zi = x1i − x2i en valeurs absolues positifs ;dans le cadre asymptotique, la statistique de test correspondante est :

Z =T+ − n(n+ 1)/4√n(n+ 1)(2n+ 1)/24

∼ N (0; 1).

.

.

Application

Hamilton depression scale scores. (Hollander & Wolfe, 1999, p. 29)

occ1 <- c(1.83 ,0.50 ,1.62 ,2.48 ,1.68 ,1.88 ,1.55 ,3.06 ,1.30)

occ2 <- c(0.878 ,0.647 ,0.598 ,2.05 ,1.06 ,1.29 ,1.06 ,3.14 ,1.29)

wilcox.test(occ1 , occ2 , paired=TRUE)

Wilcoxon signed rank test

data: occ1 and occ2 V = 40, p-value = 0.03906alternative hypothesis: true location shift is not equal to 0

Le résultat du test suggère une amélioration de l’état (diminution du score

Hamilton de mean(occ2-occ1)=-0.43 points).

.

.

Comparer plus de deux moyennes

L’ANOVA constitue une extension naturelle au cas où plus de deux moyennes

de groupe sont à comparer. Attention, avec k échantillons, l’hypothèse nulle

se lit :

H0 : µ1 = µ2 = . . . = µk,

alors que l’alternative est l’existence d’au moins une paire de moyennes

qui diffèrent (négation logique de H0). Si l’on exprime chaque observation

comme une déviation par rapport à sa propre moyenne de groupe, yij =yi + εij, on voit que la variabilité totale peut se décomposer comme suit :

(yij − y)︸︷︷︸totale

= (yi − y)︸︷︷︸groupe

+(yij − yi)︸︷︷︸résiduelle

.

Conditions d’application : normalité des distributions parentes pour chaque

groupe, homogénéité des variances, indépendance des observations.

.

.

Illustration

Supposons trois groupes indépendants. Voici quelques scénarios imaginaires

concernant la distribution des scores individuels :

Variances homogènes Moyennes constantes

Variances non-homogènes Variance dépendant de la moyenne

.

.

Tableau d’ANOVA

On peut résumer les sources de variations observées au niveau de la variable

réponse comme suit :

Source SC dl CM F

Inter (B)∑k

i=1 ni(yi − y)2 k− 1 SCb/dl (1) (1)/(2)

Intra (W)∑k

i=1

∑nij=1(yij − yi)

2 N− k SCw/dl (2)

Total∑k

i=1

∑nij=1(yij − y)2 N− 1

(SC = somme de carrés, CM = carré moyen)

On rappelle qu’une variance se calcule comme la somme des écarts quadra-

tiques à la moyenne, i.e.∑

j(yj − y)2/(n− 1).La SCb représente la variance des moyennes de groupe (fluctuation autour

de la moyenne générale), et la SCw (“résiduelle”) représente la moyenne des

variances des mesures individuelles autour de la moyenne de groupe (dans

les deux cas, les moyennes sont pondérées).

y1j � y1

y1 � y

yij (j = 1, . . . , ni)

i = 1 i = 2 i = 3

.

.

En détails

Le modèle d’ANOVA à un facteur (effet fixe)

Soit yij la jème observation dans le groupe i. Le modèle d’ANOVA (“effect model”)s’écrit

yij = µ+ αi + εij,

où µ désigne la moyenne générale, αi l’effet du groupe i, et εij ∼ N (0, σ2) un

terme d’erreur aléatoire. On impose généralement que∑k

i=1 αi = 0.L’hypothèse nulle se lit

H0 : α1 = α2 = · · · = αk.

Sous l’hypothèse d’égalité des moyennes de groupe, la variance entre groupe(“between”) et la variance propre à chaque groupe (“within”) permettentd’estimer σ2. D’où le test F d’égalité de ces deux variances.Sous H0, le rapport entre les carrés moyens inter et intra-groupe (qui estiment lesvariances ci-dessus) suit une loi F de Fisher-Snedecor à k− 1 et N− k degrés deliberté.

.

.

Application

Polymorphisme et gène du récepteur estrogène. (Dupont, 2009)

library(foreign)

polymsm <- read.dta("polymorphism.dta")[,-1]

with(polymsm , tapply(age , genotype , mean))

aov.res <- aov(age ∼ genotype , data=polymsm)

summary(aov.res)

model.tables(aov.res)

plot.design(age ∼ genotype , data=polymsm)

Df Sum Sq Mean Sq F value Pr(>F) genotype 2 2316 1157.9 7.863 0.000978 ***Residuals 56 8246 147.2 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Le test F indique que l’on peut rejeter l’hypothèse nulle d’absence de dif-

férence d’âge entre les trois génotypes (Df=3-1=2). Il est possible d’utiliser

le rapport 2316/(2316+8246)=0.219 (η2) pour quantifier la variance expliquée.On pourrait poser la question de savoir quelles paires de moyennes diffèrent

significativement (comparaisons multiples post-hoc).

.

.

Distributions conditionnelles

Ci-dessous un diagramme en forme de boites à moustaches pour les trois

génotypes. Le trait horizontal indique la moyenne globale.

bwplot(age ∼ genotype , data=polymsm)

génotype

age

40

50

60

70

80

1.6/1.6 1.6/0.7 0.7/0.7

.

.

Diagnostic du modèle

Essentiellement, il faut vérifier la distribution des résidus

▶ à l’aide d’un QQ plot (normalité des résidus),

▶ selon les valeurs prédites (homoscédasticité).

On peut utiliser plot(aov.res) ou rfs (ci-dessous).

-20

-10

0

10

20

0.0 0.2 0.4 0.6 0.8 1.0

Résidus

0.0 0.2 0.4 0.6 0.8 1.0

Valeurs ajustées moins la moyenne

.

.

Diagramme en barres pour publication

Les diagrammes en barres ne sont pas très économes en termes de “data-

ink ratio”. On peut leur préferer des diagrammes en points (Cleveland, 1993),

voir dotplot.

Génotype

Âge

moy

en

0

20

40

60

1.6/1.6 1.6/0.7 0.7/0.7

.

.

Quelques remarques

▶ Dans le cas où on compare deux groupes (indépendants), un test t ou

un test F donneront le même résultat (t2 = F) :

summary(aov(bwt ∼ smoke , data=birthwt ))

t.test(bwt ∼ smoke , data=birthwt , var.equal=TRUE)

▶ Pour quoi ne pas faire une simple série de tests t au lieu de l’ANOVA ?

Comparer les m = ∁k(k−1)2 paires de moyennes entraîne une inflation

du risque de première espèce puisque le risque global vaut alors

1− (1− α)m (en supposant les tests indépendants), soit 40 % de

chances de conclure à tort à une différence lorsqu’en réalité il n’y en

a pas (H0 vraie) sur 5 groupes.

▶ On peut voir l’ANOVA comme une simple comparaison de modèles,

i.e. modèle complet (avec prédicteur) vs. modèle nul (résiduelle) :

aov0 <- aov(age ∼ 1, data=polymsm)

aov1 <- aov(age ∼ genotype , data=polymsm)

anova(aov0 , aov1)

.

.

Alternative non-paramétrique

La comparaison de k groupes peut se faire à l’aide d’un test non-paramétrique,

reposant sur des sommes de rangs. L’ANOVA de Kruskal-Wallis, qui est une

extension du test de Wilcoxon-Mann-Whitney, permet de tester si la distri-

bution de la variable réponse peut être considérée comme identique entre

les k groupes. On suppose toujours les groupes indépendants.

kruskal.test(age ∼ genotype , data=polymsm)

Kruskal-Wallis rank sum test

data: age by genotype Kruskal-Wallis chi-squared = 12.0734, df = 2, p-value = 0.002389

.

.

En détails

L’ANOVA de Kruskal-Wallis

Considérant la réponse yij du jème individu du groupe i, et ni le nombre de sujetsdans le groupe i (i = 1, . . . , k, n =

∑i ni), on calcule Ri comme la somme des

rangs du groupe i.En l’absence d’ex-aequo, la statistique de test

H =12

n(n+ 1)

(k∑

i=1

R2ini

)− 3(n+ 1)

suit une loi χ2(k− 1).

.

.

Mesures de corrélation

Le coefficient de corrélation de Bravais-Pearson permet d’évaluer le degré

d’association linéaire entre deux variables continues. Les variables jouent un

rôle symétrique. En pratique, il est calculé à partir de la covariance entre les

deux variables, et normalisé pour prendre des valeurs entre -1 (corrélation

négative parfaite) et +1 (corrélation positive parfaite).

Il est possible de tester si un coefficient de corrélation est nul (H0 : ρ = 0)ou égal à une certaine valeur.

.

.

En détails

Le test de corrélation linéaire

Soit x et y deux variables continues, observées sur n individus. On définit lecoefficient de corrélation linéaire comme suit :

r =

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2√∑n

i=1(yi − y)2.

Rappelons que l’écart-type de x s’écrit sx =√

1n

∑ni=1(xi − x)2.

Sous H0, la statistique de test

t =√n− 2

r√1− r2

suit une loi de Student à n− 2 degrés de liberté.La construction d’un intervalle de confiance pour le coefficient de corrélationestimé passe par une transformation logarithmique particulière (qui permet de seramener à une loi connue, en l’occurence la loi normale).

.

.

Illustration

Dans chacun des cas ci-dessous, le coefficient de corrélation de Bravais-

Pearson vaut 0.816 ! D’où l’importance de prendre en considération de pos-

sibles déviations par rapport à l’hypothèse de linéarité (b), la présence de

valeurs atypiques ou extrêmes (c et d).

Anscombe dataset

4

6

8

10

12

5 10 15

a b

c

5 10 15

4

6

8

10

12

d

.

.

Application

Health survey of paint sprayers. (Everitt & Rabe-Hesketh, 2001, p. 158)

paint <- read.table("PAINT.DAT" , header=TRUE)

with(paint , cor.test(HAEMO , PCV))

Pearson's product-moment correlation

data: HAEMO and PCV t = 12.4491, df = 101, p-value < 2.2e-16alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6882043 0.8444627 sample estimates: cor 0.7780983

On conclut à l’existence d’une corrélation significative entre le taux héma-

tocrite et la concentration en hémoglobine (p < 0.001).

.

.

Approche graphique

Undiagramme de dispersion est nécessaire pour vérifier la présence éventuelle

de valeurs aberrantes ou extrêmes. Il est possible de recalculer la corrélation

sans les points définissant l’enveloppe du nuage de points (“convex hull”).

xyplot(PCV ∼ HAEMO , data=paint , type=c("p","g","r"))

HAEMO

PCV

40

45

50

14 15 16 17

.

.

Alternative non-paramétrique

Le coefficient de corrélation de Spearman est calculé à partir des rangs des

observations et par conséquent permet d’estimer une mesure de la mono-

tonicité de la relation entre deux variables continues. Il est évidemment

moins sensible aux valeurs extrêmes. Le calcul de la statistique de test est

comparable au cas de la corrélation linéaire de Pearson, excepté que l’on

remplace les valeurs observées par leurs rangs.

Le coefficient de Spearman peut également être utilisé sur des variables or-

dinales, en particulier lorsque l’on souhaite s’affranchir des hypothèses sur

la distribution continue des réponses mesurées.

library(foreign)

anorex <- read.spss("anorectic.sav" , to.data.frame=TRUE)

with(subset(anorex , time ==1),

cor.test(binge , purge , method="spearman"))

.

.

Test d’association pour tableau à deux entrées

Lorsque les données sont qualitatives, ou catégorielles, un tableau de con-

tingence permet de résumer la distribution des effectifs pour chaque croise-

ment des modalités des variables. On se limitera ici au cas le plus simple

avec deux variables. Notons que l’on a besoin de connaître les marges du

tableau (totaux-lignes et colonnes) donc on a besoin des effectifs, et pas

seulement de données aggrégées comme des proportions.

La question de l’association entre ces deux variables revient le plus sou-

vent à formuler une hypothèse nulle d’indépendence entre les deux variables

étudiées. La notion d’association entre variables catégorielles peut être en-

visagée comme une certaine mesure de corrélation telle que celle discutée

précédemment.

Une discussion approfondie de ces mesures d’association est disponible

dans Bishop, Fienberg, & Holland (2007).

.

.

Illustration

Dans le cas général, un tableau des effectifs (ou des fréquences relatives)

peut être construit comme indiqué ci-dessous. Les ni· (i = 1, . . . , I) et lesn·j (j = 1, . . . , J) sont les distributions marginales des variables A et B,

respectivement.

B

b1 b2 . . . bJ Total

A

a1 n11 n12 . . . n1J n1·a2 n21 n22 . . . n2J n2·...

......

. . ....

...

aI nI1 nI2 . . . nIJ nI·Total n·1 n·2 . . . n·J N

Les modalités de A et B peuvent être nominales et/ou ordinales, les totaux

lignes/colonnes peuvent être fixés ou non, il peut y avoir des cellules vides,

les variables A et B peuvent être liées (pre/post, inter-juges), etc.

.

.

Extensions possibles

Plusieurs cas de figure sont envisageables : tableau 2x2 (e.g., exposition/mal-

adie), marge(s) fixe(s), tableau I lignes x J colonnes stratifié sur deux groupes,

tableau croisé avec variables en commun, tableau I lignes x J colonnes répétés

dans le temps.

A x BA x B

A x B

T1T2

T3

A x B A x C B x C

A x B A x BK=1 K=2

A x B

.

.

Écart à l’indépendance

Rappelons que, dans le cas général d’un tableau I x J, la statistique de Pear-

son consiste à comparer les données observées aux données attendues sous

une hypothèse d’indépendance (“produit desmarges”), soit, à une constante

près, la somme des écarts quadratiques entre les effectifs observée et les ef-

fectifs théoriques (“résidus”), normalisés par ces derniers, soit

Φ2 =I∑

i=1

J∑j=1

(pij − pi·p·j)2

pi·p·j.

Le “chi-deux” de Pearson est simplement NΦ2, et cette statistique de test

suit une loi χ2 à (I− 1)(J− 1) degrés de liberté. Dans le cas 2x2, on a

Φ2 =2∑

i=1

2∑j=1

(pij − pi·p·j)2

pi·p·j=

(p11p22 − p21p12)2

p1·p2·p·1p·2,

ce qui montre bien l’analogie avec une mesure de corrélation sur des vari-

ables dont les modalités ont été transformées en scores numériques.

p11 p12 p1·p21 p22 p2·p·1 p·2

.

.

Approche générale

On peut regrouper les mesures d’association pour les tableaux 2 x 2 en deux

classes, celles qui reposent sur une fonction du produit croisé des cellules

et celles qui se basent sur le coefficient de corrélation de Pearson.

Dans le premier cas, on retrouve l’odds-ratio,

α =p11p22p12p21

,

encore exprimé sous la formeα =p11/p12p21/p22

lorsque l’on considère les totaux-

lignes fixés (e.g., exposition) : p11/p12 est alors la probabilité d’être malade

(vs. non-malade) sachant que l’on a été exposé (vs. non-exposé).

Dans le second cas, si l’on assimile les modalités des variables à deux scores

0/1, alors la corrélation se définit naturellement comme

ρ =p11p22 − p21p12√

p1·p2·p·1p·2=

p22 − p2·p·2√p1·p2·p·1p·2

, d’où r2 = χ2/N.

Ces deuxmesures sont invariantes par permutations des lignes et des colonnes.

p11 p12 p1·p21 p22 p2·p·1 p·2

.

.

Quelques remarques

▶ Il y a de nombreux “tests de chi-deux”. Ne pas confondre la loi que

suit une statistique de test avec l’usage consacré du χ2 pour les

tableaux de contingence !

▶ Les tests du χ2 d’indépendance dans les tableaux I x J permettent de

répondre globalement à la question : y’a-t-il ou non association entre

les variables étudiées ? La nature précise de cette association doit

être étudiée plus en détails (résidus, décomposition du χ2, direction

et taille d’effet, etc.).

▶ Outre le fait qu’ils nécessitent généralement de grands échantillons,

ce type de tests ne reposent que sur les sommes marginales, sans

considération de la nature des variables (nominale, ordinale). Des

tests plus adaptés (et économes en termes de degrés de liberté)

existent dans le cas où l’une des variables ou les deux sont ordonnées.

▶ Bien que l’on ne les présente pas, il existe de nombreuses fonctions

graphiques pour la visualisation des données catégorielles dans les

packages vcd et vcdExtra (Friendly, 2000).

.

.

Application 1

Swedish study on aspirin use and myocardial infarction. (Agresti, 2002, p.

72)

aspirin <- matrix(c(28 ,18 ,656 ,658) , nrow =2)

dimnames(aspirin ) <- list(c("Placebo","Aspirin"),

c("Yes","No"))

library(vcd)

asp.or <- oddsratio(aspirin , log=FALSE)

print(list(or=asp.or , conf.int=confint(asp.or )))

summary(oddsratio(aspirin ))

Log Odds Ratio Std. Error z value Pr(>|z|) [1,] 0.44488 0.30362 1.4653 0.07143 .---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

L’estimé du “vrai” OR est plutôt imprécis (l’IC à 95% est large et contient

la valeur 1), et le test sur le log(OR) n’est pas significatif (p = 0.071). Onconcluera que rien ne permet d’affirmer que la probabilité de décès dûe à

un infarctus diffère selon le facteur d’exposition.

.

.

Application 2

Consommation de cafféine et statut marital. (Dalgaard, 2008, p. 84)

coffee <- matrix(c(652 ,1537 ,598 ,242 ,36 ,46 ,38 ,21 ,

218 ,327 ,106 ,67) , nrow=3, byrow=TRUE)

dimnames(coffee ) <- list("marital status"=c("Married",

"Prev.married","Single"), consumption=c("0","1-150",

"151 -300"," >300"))

prop.table(coffee , 1)

(chsq <- chisq.test(coffee ))

chsq$residuals

Pearson's Chi-squared test

data: coffee X-squared = 51.6556, df = 6, p-value = 2.187e-09

On conclut à l’existence d’une association forte entre le statut marital et

la consommation de caffeine (p < 0.001). Les célibataires sont beaucoupplus nombreux à ne pas consommer de café en comparaison de ce que l’on

attendrait en cas d’indépendance.

.

.

Illustration

Commeon l’a dit, des graphiques de type dotplot sont largement préférables

à la plupart des alternatives de type diagramme en barres.

dotplot(consumption ∼ value , data=melt(coffee),

groups=marital.status)

Effectif

0

1-150

151-300

>300

0 500 1000 1500

MarriedPrev.marriedSingle

Proportion

0

1-150

151-300

>300

0.0 0.2 0.4 0.6 0.8 1.0

Effectif

Married

Prev.married

Single

0 500 1000

01-150151-300>300

Effe

ctif

0

500

1000

1500

01-1

50

151-3

00>3

00

.

.

En détails

Le test de McNemar

Considérons un tableau 2× 2 où les mêmes unités statistiques ont été observéesde manière appariée (mesures pré/post, oeil droit/gauche, etc.). En casd’indépendance, on ne devrait pas observer de différence entre les fréquencesmarginales, soit πx· = π·x, où π désigne une probabilité.Un test d’homogénéité marginale peut être construit à partir de la statistique detest

X2 =(p12 − p21)

2

p12 + p21∼ χ2(1)

lorsque p12 + p21 > 10. Une continuité de correction (−0.5 ou−1, aunumérateur, selon les auteurs) permet d’améliorer l’approximation à la loi χ2(1)dans le cas des effectifs de taille modérée.Lorsque p12 + p21 < 25, on peut avantageusement remplacer ce test par un testbinomial (il s’agit d’un test exact).

.

.

Application 3

Données fictives pré/post traitement.

x <- cbind(c(50,10),c(20 ,40))

dimnames(x) <- list(c("+","-"),

c("+","-"))

margin.table(x, 1)

mcnemar.test(x)

mcnemar.test(x)

binom.test(apply(x, 1, sum), .5)

McNemar's Chi-squared test with continuity correction

data: x McNemar's chi-squared = 2.7, df = 1, p-value = 0.1003

Le résultat non-significatif du test (p = 0.100) suggère que la répartition

entre cas positifs et négatifs n’a pas évolué avec le traitement.

.

.

En détails

Le test exact de Fisher

Le test de Fisher est souvent utilisé en lieu et place du test de Pearson lorsque leseffectifs sont “petits”. Ce n’est pas un cas d’utilisation correcte !Le test de Fisher est un test exact permettant d’évaluer la probabilité d’observerun ceratin arrangement des fréquences des cellules d’un tableau 2× 2 lorsque lesmarges sont fixées et que les deux variables sont indépendantes. On montre quecette probabilité

P =(p11 + p12)!(p11 + p21)!(p21 + p22)!(p12 + p22)!

p11!p12!p21!p22!N!

suit une loi hypergéométrique.Ce test est relativement conservateur, de même que le test du χ2 corrigé pour lacontinuité (correction de Yates), mais l’usage du test de Fisher répond à des testd’hypothèses et un recueil des données particuliers.

Pour plus d’informations, se référer à Campbell (2007).

.

.

Application 4

Fisher’s Tea Drinker. (Agresti, 2002, p. 92)

TeaTasting <- matrix(c(3,1,1,3), nrow=2,

dimnames=list(Guess=c("Milk","Tea"),

Truth=c("Milk","Tea")))

fisher.test(TeaTasting , alternative="greater")

Fisher's Exact Test for Count Data

data: TeaTasting p-value = 0.2429alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 0.3135693 Inf sample estimates:odds ratio 6.408309

Rien ne permet d’établir qu’il existe une association entre l’ordre d’ajout

du thé et du lait et le choix du répondant sur la base de ces résultats (p =0.2429).

.

.

Concordance

Lorsque deux ou plusieurs évaluations catégorielles indépendantes sont ef-

fectuées sur la même unité d’analyse, et que l’on s’intéresse à l’association

ou la corrélation entre les séries d’évaluations, on parle de concordance

(“agreement” dans la littérature anglo-saxonne).

Dans le cas de données numériques, on utiliserait plutôt le coefficient de

corrélation intra-classe (Shrout & Fleiss, 1979).

.

.

En détails

Le coefficient kappa de Cohen

Considérons un tableau à I = J lignes et colonnes. L’idée est de comparer laprobabilité de concordance,

∑j πjj, à celle attendue en cas d’indépendance,

πj·π·j. Avec des variables nominales, le kappa de Cohen se définit comme

κ =

∑j πjj −

∑j πj·π·j

1−∑

j πj·π·j,

et il atteint une valeur de 1 en cas de concordance parfaite. La variance de cetestimateur est assez complexe mais on retiendra que cette statistique de test suitasymptotiquement une loi normale.Lorsque l’évaluation se fait sur une échelle de mesure ordinale, il est possible deconsidérer une version pondérée du kappa :

κw =

∑i

∑j wijπij −

∑i

∑j πi·π·j

1−∑

i

∑j πi·π·j

, 0 ≤ wij ≤ 1.

.

.

Application

Diagnoses of carcinoma. (Agresti, 2002, p. 432)

data(pathologist.dat , package="exactLoglinTest")

patho <- xtabs(y ∼ A + B, data=pathologist.dat)

sum(diag(patho ))/sum(patho)

library(reshape)

patho.expand <- untable(pathologist.dat [,2:3],

pathologist.dat$y)

library(irr)

kappa2(patho.expand)

Cohen's Kappa for 2 Raters (Weights: squared)

Subjects = 118 Raters = 2 Kappa = 0.779

La concordance entre les deuxmédecins apparaît relativement bonne puisque

la différence avec ce que l’on attendrait sous l’hypothèse d’indépendance est

presque de 50 %. On pourrait y associer un IC à 95 % calculé par bootstrap.

.

.

Index

alternative, 46anova, 25aov, 21, 25apply, 44binom.test, 44bwplot, 9, 22byrow, 41c, 8, 13, 16, 32, 40, 41,44, 46cbind, 44chisq.test, 41cor.test, 31, 33data, 8, 9, 12, 13, 21, 22,25, 26, 32, 42, 49diag, 49dimnames, 40, 41, 44, 46

dotplot, 24, 42factor, 8fisher.test, 46groups, 42header, 31kappa2, 49kruskal.test, 26labels, 8library, 21, 33, 40, 49list, 40, 41, 44, 46log, 40margin.table, 44matrix, 40, 41, 46mcnemar.test, 44mean, 16, 21method, 33

model.tables, 21nrow, 40, 41, 46oddsratio, 40package, 8, 49paired, 12, 16plot, 23plot.design, 21print, 40prop.table, 41qqmath, 9read.dta, 21read.spss, 33read.table, 31residuals, 41rfs, 23subset, 33

sum, 44, 49summary, 21, 25, 40t.test, 8, 12, 25tapply, 21time, 33tmd, 13to.data.frame, 33type, 13, 32untable, 49var.equal, 8, 12, 25wilcox.test, 16with, 21, 31, 33xtabs, 49xyplot, 13, 32

.

.

Bibliographie

Agresti, A. (2002). Categorical Data Analysis. John Wiley & Sons.Altman, D. G., & Bland, J. M. (1983). Measurement in medicine: the analysis ofmethod comparison studies. Statistician, 32, 307–317.Bishop, Y. M., Fienberg, S. E., & Holland, P. W. (2007). Discrete Multivariate Analysis.Springer.Campbell, I. (2007). Chi-squared and Fisher-Irwin tests of two-by-two tables withsmall sample recommendations. Statistics in Medicine, 26, 3661–3675.Cleveland, W. S. (1993). Visualizing Data. Hobart Press.Dalgaard, P. D. (2008). Introductory Statistics with R. Springer.Dupont, W. D. (2009). Statistical Modeling for Biomedical Researchers. CambridgeUniversity Press.Everitt, B., & Rabe-Hesketh, S. (2001). Analyzing Medical Data Using S-PLUS. Springer.Friendly, M. (2000). Visualizing Categorical Data. SAS Publishing.Hollander, M., & Wolfe, D. A. (1999). Nonparametric Statistical Methods. Wiley.Hosmer, D., & Lemeshow, S. (1989). Applied Logistic Regression. New York: Wiley.Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlation: Uses in assessing raterreliability. Psychological Bulletin, 86, 420–428.Student. (1908). The probable error of a mean. Biometrika, 6, 1–25.

Documents

Mesures et tests d'association - aliquote.org · Pour réaliser un tel test, il est nécessaire d’avoir (ou de construire) une statistiquedetest,dontladistributiond’échantillonnageestconnue(ou