33
TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées Marie Morvan [email protected] 23/01/2020 Statistique 23/01/2020 1 / 31

TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

TRAITEMENT DE DONNEES BIOLOGIQUES

Cours 4 : Introduction aux tests d’hypothèseDonnées appariées

Marie [email protected]

23/01/2020

Statistique 23/01/2020 1 / 31

Page 2: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Plan du cours

1 Introduction

2 Comparaison de moyennes

3 Comparaison de proportions

4 Conclusion générale

Statistique 23/01/2020 2 / 31

Page 3: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Confusion

Un facteur de confusion est une variable différente de l’évènement étudié etqui peut modifier les résultats mesurés d’un essai :• associé à la fois à l’exposition et à l’évènement• mais non impliqué dans le lien causal entre l’exposition et l’évènement

Plusieurs possibilités pour le prendre en compte :• Etudier le lien en sous groupe (par exemple : chez les obèses et non

obèses de manière séparée)• Réaliser des modélisation statistiques ”multivariées” (ajustées)• Réaliser un appariement des patients

Statistique 23/01/2020 3 / 31

Page 4: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Confusion

Un facteur de confusion est une variable différente de l’évènement étudié etqui peut modifier les résultats mesurés d’un essai :• associé à la fois à l’exposition et à l’évènement• mais non impliqué dans le lien causal entre l’exposition et l’évènement

Plusieurs possibilités pour le prendre en compte :• Etudier le lien en sous groupe (par exemple : chez les obèses et non

obèses de manière séparée)• Réaliser des modélisation statistiques ”multivariées” (ajustées)• Réaliser un appariement des patients

Statistique 23/01/2020 3 / 31

Page 5: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Données appariées

Echantillons dépendants (appariés, liés) :• observations obtenues chez les mêmes individus, le patient est son

propre "témoin"Par exemple :• Etude avant/après (douleur avant et après la prise d’un antalgique)• Etude Cas/Témoin (deux pommades sur une même peau)• Essais en cross-over - Traitements comparés administrés successivement

• observations obtenues chez des individus différents présentant descaractéristiques similairesPar exemple :• Etude Cas/Témoin (appariement sur les facteurs de risque)• Etude en groupes (deux souris d’une même litière, deux jumeaux, etc )

Statistique 23/01/2020 4 / 31

Page 6: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Données indépendantes ou appariées ?

On désire étudier le volume globulaire moyen (VGM) chez les ouvriersembauchés dans une entreprise de produits chimiques. On dose le VGMchez 30 sujets avant embauche et trois mois après la prise de poste.

Statistique 23/01/2020 5 / 31

Page 7: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Données indépendantes ou appariées ?

On voudrait savoir s’il existe un lien entre la bronchite chronique etl’exposition à un certain toxique employé dans un groupe industriel. Pourcela, une étude a permis de recueillir, dans ce groupe industriel, lesinformations sur 100 sujets exposés au toxique et 200 sujets non exposés.

Statistique 23/01/2020 6 / 31

Page 8: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Données indépendantes ou appariées ?

On désire comparer deux techniques biologiques, l’ELISA etl’hémagglutination dans le diagnostic de l’hydatidose. Un total de 56malades a été testé simultanément par chacune des deux techniques.

Statistique 23/01/2020 7 / 31

Page 9: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Données indépendantes ou appariées ?

• Le taux d’insuline est mesuré sur 30 patients avant et après untraitement médical : données organisées par paires (chaque patient estassocié à deux mesures).

• Le taux d’insuline est mesuré sur 30 patients recevant un placebo et30 autres patients recevant un traitement médical : toutes les mesuressont indépendantes (chaque patient n’est associé qu’à une mesureunique).

Statistique 23/01/2020 8 / 31

Page 10: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Plan du cours

1 Introduction

2 Comparaison de moyennesTest paramétriqueTest non paramétrique

3 Comparaison de proportions

4 Conclusion générale

Statistique 23/01/2020 9 / 31

Page 11: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de moyennes - échantillons appariés

• On observe 2 échantillons dépendants A et B de même taillen = nA = nB

• On définit le couple (XA, XB) pour chaque sujet/paire

• On définit la variable aléatoire D = XB −XA continue de moyenneµD.

• On observe un échantillon de taille n : {d1, d2, ..., dn}.

Statistique 23/01/2020 10 / 31

Page 12: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de moyennes - échantillons appariés

Exemple : Double correction de 60 copies : deux correcteurs A et B notentchacun nA = nB = 60 copies.

Est ce que les notations sont différents ?

Correction A : 13,15,12,20,15,16,...Correction B : 14,16,13,17,15,18,...∆(B −A) : +1,+1,+1,-3,0,+2,...

Si les deux correcteurs notent de la même façon, alors la moyenne desdifférences ∆(B −A) est proche de 0.

Statistique 23/01/2020 11 / 31

Page 13: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de moyennes - échantillons appariés

Test bilatéral : on veut tester la nullité de la moyenne des différences desnotes.

• Hypothèses : H0 : µD = 0 vs H1 : µD 6= 0

• Grand échantillon n > 30 : différences normalement distribuées,indépendantes les unes des autres.

• Sous H0 : D̄ ∼ N(µD, σD/√n) donc

U =D̄ − µD√σ2D/n

∼ N(0, 1)

Statistique 23/01/2020 12 / 31

Page 14: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de moyennes - échantillons appariés

Exemple : Parmi les contrôles effectués lors de l’essai d’un médicament, ona dosé le chlore urinaire dans un échantillon de 40 sujets avant et aprèsinjection du médicament.

Les résultats de dosage exprimés en mmol/heure ont été rassemblés dans letableau ci-dessous.

Sujet 1 2 3 ... 38 39 40Avant x 5.89 3.96 0.83 ... 4.00 13.71 6.32Après y 11.32 2.32 1.99 ... 10.89 2.96 0.83

Le traitement est-il efficace pour réduire le chlore urinaire ?

Statistique 23/01/2020 13 / 31

Page 15: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de moyennes - échantillons appariés

Test de Student pour données appariées• échantillons de grandes tailles nécessaires• pour tester l’efficacité du traitement : test unilatéral

On rejette H0 au seuil α = 0.05 : il semble y avoir une diminutionsignicative du chlore urinaire après traitement.

Statistique 23/01/2020 14 / 31

Page 16: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Plan du cours

1 Introduction

2 Comparaison de moyennesTest paramétriqueTest non paramétrique

3 Comparaison de proportions

4 Conclusion générale

Statistique 23/01/2020 15 / 31

Page 17: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de distributions, cas non paramétrique -échantillons appariés

Test de Mann-Whitney : basé sur les rangs (classement des valeurs absolues|X| excluant les valeurs nulles et en notant le signe de la différence).

• Soit k le nombre de différence non nulles

• Somme des rangs :• R− : somme des rangs occupés par les différences négatives• R+ : somme des rangs occupés par les différences positives

• sous H0, aucune des sommes ne doit être trop importante par rapportà l’autre

• si des ex-aequo entre des valeurs, on affecte la moyenne des rangs

Statistique 23/01/2020 16 / 31

Page 18: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de distributions, cas non paramétrique -échantillons appariés

Des chimistes ont mis au point une nouvelle méthode de mesure deconcentration d’un toxique dans le sang. A partir de 12 prélèvementssanguins divisés en deux tubes, la nouvelle méthode (A) est comparée avecla méthode existante (B).

Les concentrations obtenues sont présentées dans le tableau suivant :Numéro tube 1 2 3 4 5 6 7 8 9 10 11 12Méthode A 55 25 21 7 16 14 7 9 5 4 4 1Méthode B 17 17 14 11 10 9 8 5 3 2 1 0

XA et XB : concentrations de toxiques sur les 12 prélévements obtenusrespectivement à l’aide des méthodes A et B.X = XA −XB : différence de chacune des paires.

Statistique 23/01/2020 17 / 31

Page 19: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de distributions, cas non paramétrique -échantillons appariés

Les concentrations de toxique obtenues avec la nouvelle méthode sont-ellessignificativement différentes de celles obtenues avec la méthode deréférence ?

• Test de Mann-Whitney pour données appariées• échantillons de petites tailles• Test bilatéral

H0 : les distributions issues des 2 méthodes de prélèvements sontidentiques : XA et XB ont la même distribution.

H1 : les distributions issues des 2 méthodes de prélèvements ne sont pasidentiques : XA et XB n’ont pas la même distribution.

Statistique 23/01/2020 18 / 31

Page 20: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de distributions, cas non paramétrique -échantillons appariés

Les concentrations de toxique obtenues avec la nouvelle méthode sont-ellessignificativement différentes de celles obtenues avec la méthode deréférence ?

• Test de Mann-Whitney pour données appariées• échantillons de petites tailles• Test bilatéral

H0 : les distributions issues des 2 méthodes de prélèvements sontidentiques : XA et XB ont la même distribution.

H1 : les distributions issues des 2 méthodes de prélèvements ne sont pasidentiques : XA et XB n’ont pas la même distribution.

Statistique 23/01/2020 18 / 31

Page 21: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de distributions, cas non paramétrique -échantillons appariésSur R :

Statistique 23/01/2020 19 / 31

Page 22: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Plan du cours

1 Introduction

2 Comparaison de moyennes

3 Comparaison de proportions

4 Conclusion générale

Statistique 23/01/2020 20 / 31

Page 23: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de 2 fréquences - test de Mc Nemar

Exemple : essai thérapeutique en cross-over : le patient est son propretémoin et les traitements comparés sont administrés successivement (ordred’administration tiré au sort)

Avant traitement Après traitement1 + -2 - +3 + +...N + +

Statistique 23/01/2020 21 / 31

Page 24: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de 2 fréquences - test de Mc Nemar

On réalise un test de Mc Nemar pour comparer 2 proportions théoriquesissues de 2 populations représentées par 2 échantillons.

4 configurations possibles :• + + : q sujets• + - : r sujets• - + : s sujets• - - : t sujets

+ - total+ q r q+r- s t s+t

totalt q+s r+t N=q+r+s+t

Statistique 23/01/2020 22 / 31

Page 25: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de 2 fréquences - test de Mc Nemar

Problème posé : comparer les proportions

p1(+) avant : q+rN = p1 et p2(+) après : q+s

N = p2

∆ = p1 − p2 = q+rN − q+s

N = rN −

sN

Ô Seuls interviennent les effectifs r et s relatifs à un changement

Remarque : La différence entre les proportions observées de succès dépenddes effectifs de paires discordantes et de l’effectif total.

Sous H0, on s’attend à avoir la même proportion de paires discordantesp(+−) et p(−+).

Statistique 23/01/2020 23 / 31

Page 26: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de 2 fréquences - test de Mc Nemar

• Soit π(+−) et π(−+) : proportions théoriques de paires discordantes.

H0 : π(+−) = π(−+) = 0.5 vs H1 : π(+−) 6= π(−+)

Ô Comparaison d’une proportion observée (“+-” ou “-+” parmi letotal de paires discordantes) à une proportion théorique (= 0.5).

• Statistique :• R = nombre de sujets (+-) parmi les n = r + s ayantexpérimenté un changement

• Si H0 est vraie, la probabilité d’observer un sujet (+-) =probabilité d’observer un sujet (-+) = 0.5Sous H0, R ∼ B(n, π(+−) = 0.5), doncE(R) = nπ(+−) = n/2 etV ar(R) = nπ(+−)(1− π(+−)) = n/4

Statistique 23/01/2020 24 / 31

Page 27: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de 2 fréquences - test de Mc Nemar

Choix du seuil α = 5% et RC : 2 possibilités (n = nombre de sujets ayantexpérimenté un changement) :• n = r+s < 30 : test binomial basé sur le calcul de la probabilité pc

sous H0

• n = r+s > 30 : approximation de la loi binomiale par une loi normale,et sous H0,

R ∼ N(µ = n/2, σ =√n/2)

doncR− n/2√

n/2∼ N(0, 1)

Statistique 23/01/2020 25 / 31

Page 28: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de 2 fréquences - test de Mc Nemar

Exemple : Dans un service de neurologie, une étude est mise en place dansle cadre de douleurs polyneuropathiques : elle vise à comparer le traitementde référence par tramadol à un traitement nouvellement mis sur le marché.On s’intéresse à l’association entre la satisfaction des patients et la douleurressentie.

On interroge 60 patients pris en charge pour une polyneuropathie avant laprise du nouveau médicament lorsqu’il sont traités par tramadol et aprèsl’introduction du nouveau médicament (+ : douleur ; - : pas de douleur).

+ -+ 18 26- 11 5

Statistique 23/01/2020 26 / 31

Page 29: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Comparaison de 2 fréquences - test de Mc Nemar

Le choix de la nouvelle thérapeutique semble-t-il pertinent ? ⇐⇒ Laproportion de patients ayant des douleurs polyneuropathiques après la prisedu nouveau médicament est-elle différente de celle d’avant ?

H0 : π(+−) = π(−+) = 0.5 vs H1 : π(+−) 6= π(−+)

Statistique 23/01/2020 27 / 31

Page 30: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Pour résumer - tests sur données appariées

Variable quantitative selon une variable qualitative à 2 modalités :comparaison de deux moyennes

• Test de Student : comparaison d’une différence à 0 pour 2populations appariées représentées par 2 grands échantillons (testparamétrique)

• Test de Wilcoxon de comparaison de 2 distributions de 2 variablesissues de 2 populations appariées représentées par 2 petits échantillons(test non-paramétrique)

Statistique 23/01/2020 28 / 31

Page 31: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Pour résumer - tests sur données appariées

Variable qualitative selon une variable qualitative à 2 modalités :comparaison de deux pourcentages

• Test de Mc Nemar : comparaison de deux fréquences issues de 2populations appariées représentées par 2 grands échantillons (testparamétrique)

• Test de Mc Nemar : comparaison de deux fréquences issues de 2populations appariées représentées par 2 petits échantillons (calculexact proba critique basé sur la loi binomiale)

Statistique 23/01/2020 29 / 31

Page 32: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Conclusion générale

Lorsque l’on souhaite réaliser un test :

• Bien poser les hypothèses pour répondre à notre question (test bilatéral ouunilatéral, ...)

• Connaître ses données Ô savoir quel test utiliser :

• Variable quantitative (comparaison de moyennes) ou qualitative(comparaison de fréquences)

• Données respectant certaines conditions théoriques (testparamétrique) ou non (test non paramétrique)

• données indépendantes ou dépendantes (test pour donnéesappariées)

• test unilatéral ou bilatéral

• Attention aux conclusions : si on ne met pas en évidence d’effet significatif,cela peut être dû à son absence, mais aussi au manque de puissance du test(petits effectifs)

Statistique 23/01/2020 30 / 31

Page 33: TRAITEMENT DE DONNEES BIOLOGIQUES 1em - Cours 4 : … · 2020-01-23 · TRAITEMENT DE DONNEES BIOLOGIQUES Cours 4 : Introduction aux tests d’hypothèse Données appariées MarieMorvan

Conclusion générale

Variable quantitative :

Variable qualitative :

Statistique 23/01/2020 31 / 31