12
University of Oran 1 ____________________________________________ Faculty of Medicine LA COMPARAISON DE DEUX MOYENNES N. BOUZIANI 1 , A. TADJEDDINE 1 Cours de Biostatistique de 1 ème année de graduation, en vue de la préparation d'un diplôme de Docteur en médecine générale ou en chirurgie dentaire. Objectifs du cours : Connaitre les principes et les outils d'analyse statistique de comparaison de 02 moyennes. Savoir choisir et interpréter les tests statistiques adéquats. Plan du cours : Introduction Contexte des comparaisons de deux moyennes Démarche et hypothèses de réalisation d'un test statistique Comparer deux moyennes de séries indépendantes (Ecart réduit, t de Student). Les principales étapes de réalisation d'un test statistique et importance du calcul du NSN. Comparer une moyenne observée à une moyenne de référence (Ecart réduit, t de Student). Conclusion Pour aller plus loin, il est conseillé de lire et de consulter des livres et autres documents sur la question (Exemple : voir les références bibliographiques de base de ce cours à la dernière page). Cours conçu pour être utilisé en version numérique ou imprimé sur papier recto verso. 1. Service d'Epidémiologie et de Médecine Préventive, Hôpital Enfants de Canastel, Oran.

LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

University of Oran 1

____________________________________________

Faculty of Medicine

LA COMPARAISON DE DEUX MOYENNES

N. BOUZIANI 1, A. TADJEDDINE

1

Cours de Biostatistique de 1ème

année de graduation, en vue de la préparation d'un diplôme de

Docteur en médecine générale ou en chirurgie dentaire.

Objectifs du cours :

Connaitre les principes et les outils d'analyse statistique de comparaison de 02 moyennes.

Savoir choisir et interpréter les tests statistiques adéquats.

Plan du cours :

Introduction

Contexte des comparaisons de deux moyennes

Démarche et hypothèses de réalisation d'un test statistique

Comparer deux moyennes de séries indépendantes (Ecart réduit, t de Student).

Les principales étapes de réalisation d'un test statistique et importance du calcul du NSN.

Comparer une moyenne observée à une moyenne de référence (Ecart réduit, t de Student).

Conclusion

Pour aller plus loin, il est conseillé de lire et de consulter des livres et autres documents sur la

question (Exemple : voir les références bibliographiques de base de ce cours à la dernière page).

Cours conçu pour être utilisé en version numérique ou imprimé sur papier recto verso.

1. Service d'Epidémiologie et de Médecine Préventive, Hôpital Enfants de Canastel, Oran.

Page 2: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2
Page 3: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

University of Oran 1

________________ ______________

Faculty of Medicine

LA COMPARAISON DE DEUX MOYENNES

N. BOUZIANI, A. TADJEDDINE

1. Introduction

Après le recueil de données et leur correction, l'analyse des résultats commence. On peut

voir enfin, les résultats. C’est une étape complexe, mais passionnante.

Dans ce cours, le contexte est le suivant : il s’agit de comparer deux moyennes de variables

quantitatives continues qui ressortent lors de la 1ère étape de l’analyse descriptive.

Ainsi on peut avoir des moyennes de : poids, Age, TA, Glycémie, taux paramètre biologique, …

Deux groupes se distinguent selon plusieurs facteurs : sexe, commune, groupe d'âge,

présence ou absence d’un facteur de risque, présence ou absence d’une maladie, …

La 1ère étape d’analyse de moyennes donne des tableaux et des graphes : (Output Epi Info 6)

(Output SPSS 20) :

Et c’est à partir de ce moment qu’on se demande, quelle est la meilleure stratégie d’analyse.

Selon les différents cas de figures, (comparaison de moyennes observées dans deux

échantillons différents, séries appariées, comparaison d’une moyenne observée à une

moyenne théorique de référence) il existe différentes solutions :

[email protected], Cours de Graduation, 2019 ©, Université d'Oran 1

Page 4: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

2

2. Comparaison de moyennes dans deux séries indépendantes

Lorsqu'on effectue une comparaison entre deux séries de données, on observe toujours une

différence ∆ entre les paramètres préalablement calculés (moyennes).

Le but d’un test statistique est de savoir si cette différence ∆ est " petite " due aux au

hasard, ou bien " grande " et bien réelle.

Les tests statistiques réalisent ainsi une économie de moyens en évaluant cette différence

sur un échantillon. En contrepartie, il faut admettre un certain risque d'erreurs, car les

tests statistiques obéissent à des lois de distributions théoriques, les lois de probabilités.

Avant d’effectuer les démarches pour réaliser un test statistique, il faut toujours réfléchir.

En effet, de nos jours, il est plus facile de réaliser un test statistique sur un PC que de

comprendre et d’interpréter l’output et ses résultats de sortie.

C’est pourquoi, un test statistique doit toujours être réalisé dans une certaine démarche

scientifique et non pas " pour voir " !

Cette démarche consiste à bâtir une hypothèse justifiée à partir des faits antérieurs

observés, ou de connaissances acquises à partir d'autres études scientifiques.

Ces hypothèses sont ensuite testées pour répondre à une question. Les résultats d'un test

statistique n'ont de valeur que s'ils s'inscrivent dans cette démarche logique.

Pour comparer deux moyennes issues d'échantillons indépendants, nous avons le choix

entre plusieurs méthodes, nous en décrivons dans ce cours, quelques-unes d'entre elles.

Mais le principe est le même :

On se demande si les distributions des populations, dont sont issus les deux échantillons

sont identiques ou non.

Page 5: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

3

2.1 Le test de l'écart réduit :

Le test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de deux moyennes. Il utilise

les propriétés de la loi normale centrée réduite, pour comparer :

• Deux moyennes observées dans 02 échantillons indépendants : m1 , m2

• Deux moyennes observées dans 02 échantillons appariés.

• Une moyenne observée dans un échantillon à une moyenne théorique : m , µ

Principe :

Pour savoir si les distributions des populations, dont sont issus les deux échantillons sont

identiques ou non, on compare la différence des moyennes (m1 - m2) de ces échantillons.

Cette différence ∆ ou écart est une variable aléatoire qui tend vers 0, si H0 est vraie.

Sous certaines conditions, le rapport de cet écart ∆ sur son écart type S∆, suit une loi

normale centrée sur sa moyenne 0, et dont l'écart est réduit à 1, car il est divisé sur son

écart type S, c'est la loi Normale centrée réduite, définie par ses paramètres N (0, 1).1

Le test z consiste à calculer ce rapport et le comparer à la loi normale centrée réduite.

z = ∆ / Sd S'il dépasse un certain seuil (zα = 1,96) pour un risque d'erreur consenti (α = 5 %); alors, la

table de la loi normale centrée réduite, nous donne en fonction de la valeur du z calculé, la

probabilité p de se tromper, en affirmant que cette différence (m1 - m2) est bien réelle et

non pas due au hasard.

Exemple :

On étudie la variable poids dans un échantillon, le calcul des moyennes par genre donne :

Hommes : (n1 = 50) m1 = 68,0 kg S12 = 53,7

Femmes : (n2 = 50) m2 = 71,5 kg S22 = 56,4

A première vue, le poids moyen semble être plus élevé chez les femmes.

1 (Voir le cours sur la loi normale centrée réduite)

Page 6: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

4

Mais, … les apparences sont souvent trompeuses, cette différence peut être due aux biais,

aux fluctuations d’échantillonnage ou simplement à un réel facteur.

Donc des questions se posent :

Existe-t-il une réelle différence entre ces deux groupes ?

L’écart observé est-il réel ou est-il dû aux fluctuations d’échantillonnage ?

Ces deux groupes proviennent-ils de la même population ?

On doit réaliser un test statistique pour répondre de manière objective à ces questions.

Rappelons les étapes de réalisation d'un test statistique :

1. Choix du seuil de signification α

2. Formulation des hypothèses H0 et H1.

3. Choix du test statistique à utiliser

4. Vérification des conditions d’application

5. Exécution du test et interprétation des résultats

1. Choix du seuil de signification α :

Tout test permet de quantifier le rôle du hasard dans ses résultats. Le hasard a toujours un

rôle à jouer, car n’oublions pas qu’un test statistique suit une loi de probabilités. Dans la

majorité des cas, le seuil de signification retenu est de 5 %.

2. Formulation des hypothèses H0 et H1 :

. Il n’existe pas de différence entre les 2 groupes, ils proviennent de la même population.

. Le poids du groupe 1 n’est pas différent de celui du groupe 2.

. Le poids et le sexe sont des variables indépendantes.

. H0 : m1 ≈ m2

. Il existe une différence entre les deux groupes, ils proviennent de populations différentes

. Le poids du groupe 1 est différent de celui du groupe 2.

. Le poids et le sexe sont des variables dépendantes.

. H1 : m1 ≠ m2

3. Choix du test statistique à utiliser :

Il s’agit de comparer des moyennes observées dans deux échantillons indépendants : on

choisit le Test z de l’écart réduit.

4. Vérification des conditions d’application :

Conditions d’application nécessaires pour pouvoir utiliser les théorèmes de la loi normale.

Grand échantillon : n1 et n2 ≥ 30

5. Exécution du test et interprétation des résultats

Page 7: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

5

Z = ∆

𝑆∆ Z =

I 𝒎𝟏 − 𝒎𝟐 I

𝑺𝟏𝟐

𝒏𝟏 +

𝑺𝟐𝟐

𝒏𝟐

= I 68 − 71,5 I

53,7

50 +

56,4

50

= 2,35

Z = I 68 − 71,5 I

53,7

30 +

56,4

30

= 1,82

Un test statistique calcule la probabilité que le hasard puisse expliquer les résultats. Si cette

probabilité est inférieure à un certain seuil α, on rejette H0 et on conclut que la différence

est significative. Ce seuil de signification est habituellement fixé à 5 %.

Si H0 est vraie, la différence ∆ (m1 - m2) suit une loi normale de moyenne 0 et le rapport de

cette différence sur son écart type suit une loi de z.

Si │z│ z : la différence ∆ est alors grande. On dit qu’elle est statistiquement significative.

H1 est alors retenue, avec un risque de se tromper, en affirmant cela, lu dans la table de z.

2,35 > 1,96 : la valeur calculée de z est supérieure à z

Conclusion et interprétation : H1 retenue. Le poids moyen du groupe 2 (Femmes) est

significativement plus élevé que celui du groupe 1. Il existe une différence significative

entre les moyennes des 2 groupes et cette différence est probablement due au sexe !

Et si l'échantillon était plus petit !

Examinons la relation entre signification du test statistique et la taille d'un échantillon.

n1 = n2 = 30

1,82 < 1,96 : la valeur calculée de z est inférieure à z

Interprétation : H0 retenue. Le poids moyen du groupe 2 n'est pas significativement plus

élevé que celui du groupe 1. Il n'existe pas de différence significative entre les moyennes

des 2 groupes et cette petite différence apparente est probablement due au hasard.

Importance du calcul du NSN :

Il arrive qu'après avoir réalisé toute une étude et avoir analysé ses données, l’on constate

qu'on n'obtient aucune différence significative et que si on avait augmenté la taille de

l’échantillon un tant soit peu, on aurait eu des résultats plus significatifs et intéressants.

C’est pourquoi, l'attitude intelligente consiste à définir dès le début de l’étude, la différence

minimale ∆ qu'on souhaite observer, et de calculer ensuite le Nombre de Sujets Nécessaire

(NSN) ou tailles minimales d’échantillons qu’on souhaite avoir pour détecter cette

différence souhaitée.

Il existe des formules de calcul de NSN pour les tests z qui s’adaptent aux différentes

situations rencontrées en pratique.

Page 8: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

6

2.2 Le test t de Student :

Lorsqu’un échantillon est trop petit (n1 ou n2 < 30), l'utilisation de la loi normale n'est plus

valable, il faut utiliser dans ce cas autre chose : le test t de Student.

Principe :

Deux échantillons n1 et n2, sont issus de populations de distributions normales. En cas de

petits effectifs, et sous certaines conditions, le rapport ∆ sur son écart type S∆ ; suit une loi t

de Student avec (n-2) degrés de liberté (car m et S ne sont pas indépendants).

t = ∆ / Sd On le compare à la table de la loi correspondante.

Exemple :

Les mesures de variables quantitatives des deux séries indépendantes : n1 = n2 = 16 :

Hommes : m1 = 68,0 kg S12 = 53.7

Femmes : m2 = 71,5 kg S22 = 56.4

Existe-t-il une différence entre ces groupes ? Pour cela, on réalise un test statistique :

1. Choix du seuil de signification α : α = 5 %

2. Formulation des hypothèses : H0 : m1 ≈ m2 H1 : m1 ≠ m2

3. Choix du test statistique à utiliser : il s’agit de comparer des moyennes observées

dans deux petits échantillons indépendants, on choisit le test t de Student.

4. Vérification des conditions d’application : les conditions d’application du test t de

Student sont exigeantes, mais c’est un test qui reste assez robuste :

• Normalité des distributions des populations sources et

• Egalité des variances des échantillons : S12 ≈ S22 Sinon : S12 / S22 < 3 ou n1 ≈ n2

5. Exécution du test et interprétation des résultats :

t =

𝒏𝟏

𝒏𝟐

=

S2 : variance commune. Particulière à la comparaison de 2 moy indépendantes avec le test t.

= 𝒏𝟏 –𝟏 𝑺𝟏𝟐 𝒏𝟐 –𝟏 𝑺𝟐

𝟐

𝒏𝟏 𝒏𝟐 – 𝟐

𝟏 𝟏

t =

= 1.33

Avec ddl = 30, tα de la table = 2. La valeur calculée t est donc inférieure à t. H0 est retenue,

et le risque de déclarer le contraire est grand.

Au sujet de l’utilisation du test t :

Exemple : n1 = n2 = 50 t =

= 2,35 = z

2,35 > 1,96 Avec un ddl de 98 (100 - 2) : t calculé > t. H0 est donc rejetée, p < 0,02.

L’utilisation du test t peut être généralisée aux effectifs supérieurs à 30, comme dans

l'exemple ci-dessus, car on trouve les mêmes résultats qu’avec le test z.

Page 9: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

7

3. Comparaison d’une moyenne observée à une moyenne théorique

Situation dans laquelle on compare une moyenne observée sur un échantillon à une

moyenne connue d’une population de référence locale, régionale, nationale ou étrangère.

3.1 Le test de l'écart réduit :

Lorsqu’on veut comparer une moyenne observée m, à une moyenne de référence μ.

Principe :

Si H0 est vraie, m est l’une des valeurs possibles d’une variable normale M centrée autour

de µ. La différence │m - µ│ suit une loi normale de moyenne 0.

H0 : m ≈ µ H1 bilatérale : m ≠ µ

Si H0 est vraie, z suit une loi Z normale centrée réduite : z =

𝑺𝟐

𝒏

On compare le z calculé à celui de la table de la loi correspondante.

Exemple :

Dans la continuité de l’exemple des sections précédentes, sur la comparaison de poids d'un

échantillon, on veut comparer maintenant le poids moyen d’un échantillon d’une commune

à celui de la population nationale.

Pour cela, on fait des recherches bibliographiques afin de trouver des chiffres qui

pourraient aider à déterminer le poids moyen de la population nationale.

Echantillon : m = 69,75 kg n = 100 S2 = 57,6

Population : µ = 70,00 kg

Le poids moyen des patients est-il différent de celui de la population de référence ?

Existera-t-il une différence statistique de l’échantillon cette fois-ci ?

1. Choix du seuil de signification α : α = 5 %

2. Formulation des hypothèses : H0 : m ≈ µ H1 bilatérale : m ≠ µ

3. Choix du test statistique à utiliser : il s’agit de comparer une moyenne observée à

une moyenne de référence, on choisit le test z.

4. Vérification des conditions d’application : n ≥ 30

5. Exécution du test et interprétation : l’écart type σ de µ est estimé par celui de m.

z =

𝑺𝟐

𝒏

=

= 0,33

Le poids de notre échantillon n'est pas statistiquement différent de celui de la population

de référence. H0 est retenue.

Page 10: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

8

3.2 Le test t de Student :

Lorsqu’on veut comparer une moyenne observée m, d'une variable x sur un échantillon de

taille n, à une moyenne μ, estimée sur une population de distribution normale et de taille N

Principe :

Si H0 est vraie, le rapport de la différence │m - µ│ sur l’écart type de µ suit une loi de t.

H0 : m ≈ µ H1 bilatérale : m ≠ µ ddl = (n - 1)

Si H0 est vraie, t suit une loi de Student centrée sur 0 :

Si H0 est vraie, t suit une loi t de Student centrée sur 0 : t =

On compare le t calculé à celui de la table de la loi correspondante.

Exemple :

Dans la continuité de l’exemple des sections précédentes, sur la comparaison de poids d'un

échantillon, on veut comparer le poids moyen d’un échantillon d’une commune à celui de la

population nationale.

Les recherches bibliographiques effectuées retrouvent une moyenne µ de 70 kg,

Echantillon : m = 69,75 kg n = 100 S2 = 57,6

Population : µ = 70,00 kg

Le poids moyen des patients est-il différent de celui de la population de référence ?

L’échantillon provient-il de la population de référence ?

Existera-t-il une différence statistique de l’échantillon cette fois-ci ?

On réalise un test selon les étapes recommandées, pour répondre à cette question :

1. Choix du seuil de signification α : α = 5 %

2. Formulation des hypothèses : H0 : m ≈ µ H1 bilatérale : m ≠ µ

3. Choix du test statistique à utiliser : il s’agit de comparer une moyenne observée à

une moyenne de référence, quelque soit la taille de l'échantillon. On choisit le test t.

4. Vérification des conditions d’application :

• Normalité de la distribution de la variable dans la population.

5. Exécution du test et interprétation des résultats :

t =

𝑺∆𝟐

𝒏

= 0,33

Avec ddl (n - 1) = 99. La valeur calculée t est donc inférieure à t. H0 est retenue.

Page 11: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

9

En conclusion :

Ce tableau synoptique résume les principaux tests de comparaison de deux moyennes

évoqués dans ce cours et leurs conditions d'application :

Références bibliographiques : 1. La comparaison de deux moyennes, Cours du CEBIO. Nassim Bouziani. Faculté de Médecine d'Oran.

2. Lexique de Biostatistique et d'Epidémiologie clinique. Mustapha Bouziani. Ed Dar El Qods El Arabi.

2014.

3. Statistique Epidémiologie, T. Ancelle, 3ème Edition, Maloine. 2011

4. Cours Comparaison de deux Moyennes avec l'écart réduit, Abdelaziz Mokhtari. Faculté de Médecine

d'Oran.

5. La comparaison de deux moyennes, Cours du Post Graduation. Nassim Bouziani. Faculté de

Médecine d'Oran.

6. Méthodes statistiques à l'usage des médecins et des biologistes. Daniel Schwartz. Flammarion

Médecine Sciences. 3ème Edition. 1993.

Page 12: LA COMPARAISON DE DEUX MOYENNES · Pour cela, on réalise un test statistique : 1. Choix du seuil de signification α : α = 5 % 2. Formulation des hypothèses : H 0: m 1 ≈ m 2

10