57
I. Statistiques

Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Embed Size (px)

Citation preview

Page 1: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

I. Statistiques

Page 2: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (1)

I. Variable aléatoire

Définition : une variable aléatoire est une variable pouvant prendre l’une quelconque des valeurs d’un ensemble fini ou infini.

Page 3: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (2)

Il existe plusieurs types de variables aléatoires :• VA qualitative : variables à k modalités (exemple :

gaucher/droitier)

• VA censurée : délais de survenue d’un événement (exemple : temps de survie après opération chirurgicale)

• VA quantitatives : discrètes, continues (exemple : tailles des élèves d’une classe, taux de cholestérol)

Page 4: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (3)

Une variable aléatoire quantitative peut être de deux natures :

- Discrète : la variable aléatoire prend un nombre fini de valeurs distinctes

Exemples : la somme des points d’un jet de deux dés, le nombre de garçons dans une famille de trois enfants ou le nombre de personne arrivant à un guichet

- Continue : la variable aléatoire prend un nombre infini de valeurs dans un intervalle

Exemples : le taux de cholestérol.

A chaque valeur de la variable aléatoire est associée :- une probabilité si cette variable est discrète- une densité de probabilité si cette variable est continue

Page 5: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (4)

II. Lois de probabilité, loi normale et loi normale centrée réduite :

Loi de probabilité d’une variable aléatoire = l’ensemble des valeurs que peut prendre la variable ainsi que les probabilités associées à ces valeurs.

Parmi l’ensemble des lois de probabilités possibles, on distingue un certain nombre de familles usuelles qui correspondent à des phénomènes aléatoires simples : lancé de dés, jeu de pile ou face, …

Page 6: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (5)

Lois de probabilité de VA qualitatives : Bernouilli (succès/échec), binomiale (loi de Bernouilli répétée n fois)

Loi de probabilité d’une VA continue : c’est une fonction continue f(x) la probabilité pour que la VA prenne des valeurs comprises entre a et b est égale à l’aire sous la courbe représentative de la fonction f entre les valeurs a et b.

Parmi ces lois de probabilité des VA continues, il existe un certain nombre de familles comme celle de la loi normale et la normale centrée réduite.

La famille de la loi définie la forme de la courbe de f.Pour la loi normale, la courbe est de forme Gaussienne.

Page 7: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (6)

La loi normale N(μ,σ) :

Elle suit une fonction f(x) avec une expression barbare donc il faudrait calculer les intégrales !

On nous fournit des tables statistiques où sont calculées à l’avance les intégrales mais comme la loi normale dépend de deux paramètres (moyenne et écart type) et que ces deux paramètres peuvent prendre chacun une infinité de valeurs, il y aurait donc deux fois l’infini tables!

Une solution : la loi normale centrée réduite.

Page 8: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (7)

La loi normale centrée réduite :

On va ramener n’importe quelle loi normale N(μ,σ) à une loi normale centrée réduite qui est égale à Z=(X-μ)/σ ou Z suit la loi N(0,1).

On utilise ensuite la table de la loi normale centrée réduite avec une valeur à connaitre : 1.96 cette valeur a une grande utilité dans les tests statistiques.

Page 9: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (8)

Exemple d’utilisation de la loi normale centrée réduite :

Soit un test de QI. Les résultats du tests sont calibrés de facon à ce que la variable aléatoire de ces résultats suive une loi normale N(100,10).

Quelle est la probabilité d’avoir un résultat inférieur à 110 ? Supérieur à 110 ?

P(X<110)=P(Z<(110-100)/10)=P(Z<1)

On lit dans la fonction de répartition de la loi normale centrée réduite et on trouve :

P(Z<1)=P(X<110)=0.8413De plus P(X>110)=1-0.8413=0.1587

Page 10: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Attention : ici la table est une fonction de répartition et donne directement

la probabilité que Z < 1

Page 11: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (9)III. Risques alpha, béta et puissance :

Difficulté lors d’un test statistique état du monde réel inconnu (car travail sur échantillon). On ne sait pas si l’hypothèse émise est vrai ou fausse : il faut donc accepter de commettre certaines erreurs avec des risques connus et acceptés.

1. Risque de première espèce (alpha) :

C’est le risque de rejeter l’hypothèse émise alors qu’elle est vraie. Il est usuellement fixé à 5%.

Page 12: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (10)

2. Risque de deuxième espèce (béta) :

C’est la probabilité de ne pas rejeter l’hypothèse émise alors qu’elle est fausse.

Au total, une décision d’acceptation ou de rejet d’une hypothèse est toujours prise avec incertitude (car la réalité n’est pas connue). Ces situations sont récapitulées dans le tableau suivant :

Page 13: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et rappels (11)

Réalité (inconnue)

Hypothèse vraie Hypothèse fausse

Décision retenuelors du test

Non rejet de l’hypothèse

Pas d’erreur Risque beta

Rejet de l’hypothèse

Risque alpha Pas d’erreur(puissance)

Page 14: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et rappels (12)

3. Notion de puissance :

C’est la probabilité de rejeter l’hypothèse émise lorsque celle-ci est fausse (l’hypothèse alternative est vraie).

Par définition, la puissance est égale = 1 – β.

Page 15: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (13)

IV. Nombre de sujets nécessaires à un test :

Dans la recherche clinique ou l’épidémiologie, le but des tests va être de détecter une différence significative entre les groupes observés (exemple: à propos de l’efficacité d’un TTT).

Pour détecter cette différence, il faut un nombre de sujets étudiés suffisamment grand (équivalent du grossissement au microscope).

Page 16: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (14)

Exemple : soit une étude où l’on observe l’efficacité d’un TTT A par rapport à un TTT B. L’hypothèse émise est que le TTT A est plus performant que le B.

Dans la conclusion de l’étude (qui comporte un risque d’erreur), il y a plusieurs issues :

• Si la différence observée n’est pas statistiquement significative (non rejet de l’hypothèse émise) :– C’est peut être vrai l’hypothèse est vraie dans la réalité (pas d’erreur)– C’est peut être faux l’hypothèse est fausse dans la réalité (β)– La différence observée est peut être trop faible (manque de sujets dans

l’étude ?)

• Si la différence observée est statistiquement significative (rejet de l’hypothèse émise ) :– On a peut être raisonl’hypothèse est fausse dans la réalité (puissance)– On a peut être tord l’hypothèse est vraie dans la réalité (α)

Page 17: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Introduction et Rappels (15)

On va donc calculer le nombre de sujets nécessaires (NSN) lors de la mise en place du protocole de l’étude afin de mettre en évidence une différence significative.

Ce calcul (formule non donnée) met notamment en jeu les risques alpha et beta. Ainsi :

• Lorsque alpha diminue le NSN augmente• Lorsque beta diminue le NSN augmente

En effet, si le risque que l’on prend diminue, il sera plus dur de mettre en évidence une différence. Il faudra donc un plus grand nombre de sujet afin d’avoir une chance de voir cette différence (si elle existe !).

Page 18: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

« Les statistiques, c'est comme le bikini.

Ce qu'elles révèlent est suggestif.

Ce qu'elles dissimulent est essentiel. »

A. Levenstein

Page 19: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

2. Définitions• Population :

– C’est l’ensemble des individus sur lesquels porte l’étude stat.

• Exemple :

– On souhaite faire une étude sur les moyens de transports utilisés par les patients se rendant à l’hôpital, on obtient:

2000 viennent avec leur voiture

1500 utilisent les

ambulances/taxis

645 sont déposés en voiture

213 prennent le tramway

26 en vélo ou pied

• Population = l’ensemble de tous les patients inclus dans

l’étude.

Page 20: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

2. Définitions (2)

• Echantillons := Sous-ensemble de la population de départ

• Exemple :– On souhaite ne prendre qu’un échantillon de la population des

patients inclus dans l’étude précédente. Donc, on ne prend en compte que les patients ayant été à l’hôpital Lapeyronie. On obtient :

• Remarque :– Petit échantillon <30– Grand échantillon 30

647 viennent avec leur voiture

592 utilisent les ambulances/taxis

56 sont déposés en voiture

78 prennent le tramway

6 autres

Population

échantillon

Page 21: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

2. Définitions (3)

• Effectifs :

= nombre d’éléments de l’ensemble de la population (noté n)

• Exemple :

– Nombre de l’ensemble des patients s’étant rendu à l’hôpital. Ici : N=2000+1500+645+213+26

N=4384 patients

–L’effectif des patients ayant utilisé des transports écologiques ?

N1= 213+26=239

Page 22: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

2. Définitions (4)

• Caractère :– toute caractéristique prise par les éléments d’une

population

– C’est donc une variable !!!

– Peut-être quantitatif : si représenté par un nombre

o Ex : âge, distance, durée, lieu…

– Peut être qualitatif : si non mesurableo Ex : couleur, diplôme, prénom, notes…

• Exemple : Mode de transport (qualitatif!!)

Page 23: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

2. Définition (5)

• L’hypothèse nulle H0 :– Hypothèse contraire à ce que nous souhaitons prouver (H1).

– Le but étant de rejeter H0 !!!

– « Philosophiquement parlant, nous sommes certains de ce qui est faux, mais nous sommes toujours incertains de la vérité. »

• Exemple :– On veut prouver que la fréquence (fe) de l’échantillon

des patients venant en voiture n’est pas représentatives de celle de la population de départ (fp).

– On veut savoir si H1 : fp≠fe

– On pose donc H0 : fp=feIci : test

bilatéral!!

Page 24: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

3. Principe d’un test statistique

Méthodologie : 6 étapes

1. Question clinique

2. Problématique statistique

3. Poser les hypothèses

4. On suppose l’hypothèse nulle et on calcule

5. Conclusion statistique

6. Conclusion clinique

Page 25: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Principe d’un test statistique

Méthodologie : 6 étapes

1. Question clinique

2. Problématique statistique

3. Poser les hypothèses

4. On suppose l’hypothèse nulle et on calcule

5. Conclusion statistique

6. Conclusion clinique

Page 26: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

1. La question clinique

Durant cette première étape, on définit une question et l’on cherche la réponse, ce grâce au test statistique et ses différentes étapes.

Exemple :

- Est-ce que l’amiante est cancérigène ?

- Est-ce que les ondes téléphoniques sont cancérigènes ?

Principe d’un test statistique

Page 27: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Principe d’un test statistique

Méthodologie : 6 étapes

1. Question clinique

2. Problématique statistique

3. Poser les hypothèses

4. On suppose l’hypothèse nulle et on calcule

5. Conclusion statistique

6. Conclusion clinique

Page 28: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

2. Problématique statistique

- Soit on compare un paramètre observé dans la population à un paramètre théorique d’un échantillon.

- Soit on compare deux paramètres observés (entre deux échantillons)

Principe d’un test statistique

population TAS ? échantillon

population

Échantillon 1

Échantillon 2

TAS ?

Page 29: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Principe d’un test statistique

Méthodologie : 6 étapes

1. Question clinique

2. Problématique statistique

3. Poser les hypothèses

4. On suppose l’hypothèse nulle et on calcule

5. Conclusion statistique

6. Conclusion clinique

Page 30: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

3. Poser les hypothèses : Comparaison paramètre observé à théorique :

Hypothèses :

H0 : paramètre = paramètre théorique

H1 : paramètre ≠ paramètre théorique

Principe d’un test statistique

population TAS ?échantillon

VA qualitative : le paramètre est une

fréquence

Comparaison fréquence obs. à thé.

Donc H0 : Fobs. = Fthé.

Et H1 : Fobs. ≠ Fthé.

VA quantitative : le paramètre est une

moyenne

Comparaison moyenne obs.(m) à thé. (μ)

Donc H0 : m= μ

Et H1 : m≠ μ

Page 31: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

3. Poser les hypothèses : Comparaison de deux paramètres observés

Hypothèses :

H0 : paramètre 1 = paramètre 2

H1 : paramètre 1 ≠ paramètre2

Principe d’un test statistique

VA qualitative : le paramètre est une

fréquence

Comparaison de 2 fréquences

observées

Donc H0 : f1 = f2Et H1 : f1 ≠ f2

Exemple:

Sexe et pathologie sont-ils liés?

VA quantitative : le paramètre est une

moyenne

Comparaison de 2 moyennes observées

Donc H0 : μ1 = μ2

Et H1 : μ1≠ μ2

Exemple :

Âge et taille sont-ils liés?

population

Échantillon 1

Échantillon 2

TAS ?

Page 32: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

3. Poser les hypothèses :

On désigne H0 de telle façon que H0 soit le contraire de ce que l’on cherche à montrer.

Si on veut prouver une égalité :

H0 : Les variables sont indépendantes.

Si on veut prouver une différence :

H0 : Les variables sont égales.

Principe d’un test statistique

Page 33: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

3. Poser les hypothèses :

Exemple en thérapeutique :

Principe d’un test statistique

Test bilatéral :

Comparaison d’un nouveau ttt à un

ttt de référence.

H0 : Les variables sont identiques.

H1 : Les variables sont différentes.

Test unilatéral :

Comparaison d’un médicament à un

placebo.

H0 : Efficacité du médicament ≤

placebo.

H1 : Efficacité du médicament ≥

placebo.

Page 34: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Principe d’un test statistique

Méthodologie : 6 étapes

1. Question clinique

2. Problématique statistique

3. Poser les hypothèses

4. On suppose l’hypothèse nulle et on calcule

5. Conclusion statistique

6. Conclusion clinique

Page 35: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

4. On suppose l’hypothèse nulle et on calcule p

p: probabilité d’avoir une différence au moins égale à la différence observée.

p : aussi appelé degré de signification

Si l’on considère ici des VA qualitatives, on a alors deux possibilités de tests :

Principe d’un test statistique

Test de l’écart réduit :

2 échantillons au plus

Une variable binaire

(oui/non)

Test du Chi 2 de pearson :

2 échantillons au moins

Une variable à plusieurs

modalités

Page 36: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

4. On suppose l’hypothèse nulle et on calcule p

p : probabilité d’avoir une différence au moins égale à la différence observée.

p : aussi appelé degré de signification

Cas de VA à 2 modalités maximum

Si on compare une fréquence observée à une théorique, on applique alors le test de l’écart réduit.

On vérifie alors les conditions de réalisation :

NP ≥ 5 et (1-P)N ≥ 5

N: taille échantillon

P : fréquence dans la population

Principe d’un test statistique

Page 37: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

4. On suppose l’hypothèse nulle et on calcule p

p : probabilité d’avoir une différence au moins égale à la différence observée.

p : aussi appelé degré de signification

Cas de VA à deux modalités maximum

Si on compare deux fréquences observées, on applique alors le test de l’écart réduit.

On vérifie alors les conditions de réalisation :

N1P ≥ 5 et (1-P)N1 ≥ 5 et N2P ≥ 5 et (1-P)N2 ≥ 5

Si P est inconnue alors on peut faire une approximation

P=(N1P1 + N2P2)/N1+N2 = moyenne des fréquences observées

N : taille échantillon

P : fréquence dans la population

Principe d’un test statistique

Page 38: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

4. On suppose l’hypothèse nulle et on calcule p

p : probabilité d’avoir une différence au moins égale à la différence observée.

p : aussi appelé degré de signification

Cas de VA à plus de 2 modalités :

Si on compare une fréquence observée à une théorique on applique alors le test du chi 2 de Pearson.

On vérifie alors les conditions de réalisation :

On vérifie alors que tous les effectifs théoriques ≥ 5

On calcule le chi de pearson selon la formule suivante:

(cf quatrième partie)

Principe d’un test statistique

On lit dans la table du chi 2 au ddl (K-1) la probabilité p

Page 39: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

4. On suppose l’hypothèse nulle et on calcule p

p : probabilité d’avoir une différence au moins égale à la différence observée.

p : aussi appelé degré de signification

Cas de VA à plus de 2 modalités :

Si on compare deux fréquences observées ou liaison entre deux variables qualitatives alors on applique le test du chi 2 de Pearson.

On vérifie alors les conditions de réalisation :

On vérifie alors que tous les effectifs théoriques ≥ 5

On calcule le chi² de pearson selon la formule suivante:

(cf quatrième partie)

Principe d’un test statistique

On lit dans la table du chi 2 au ddl (K-1)(P-1) la probabilité

Oi nombre observé

Ci nombre théorique

Page 40: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Principe d’un test statistique

Méthodologie : 6 étapes

1. Question clinique

2. Problématique statistique

3. Poser les hypothèses

4. On suppose l’hypothèse nulle et on calcule

5. Conclusion statistique

6. Conclusion clinique

Page 41: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

5. Conclusion statistique

A partir de la valeur de p qu’on a pu lire dans le tableau, on regarde si une différence significative est présente.

Si p > 0,05 on ne rejette pas H0 avec calcul de la puissance à posteriori.

On ne met pas en évidence une différence significative.

Si p < 0,05 on rejette H0 avec un risque d’erreur.

On met en évidence une différence significative.

Si p < 0,01 on met en évidence une différence très significative.

Si p < 0,001 on met en évidence une différence hautement significative.

Principe d’un test statistique

Page 42: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Principe d’un test statistique

Méthodologie : 6 étapes

1. Question clinique

2. Problématique statistique

3. Poser les hypothèses

4. Conclusion statistique

5. On suppose l’hypothèse nulle et on calcule

6. Conclusion clinique

Page 43: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

6. Conclusion clinique

On ne peut conclure cliniquement uniquement après avoir mis en évidence l’absence de biais.

Si cherche à montrer qu’une substance est cancérigène, il faut voir s’il n’y a pas d’autres substances cancérigènes dans l’étude.

Principe d’un test statistique

Page 44: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

2 applications de tests statistiques dans l’étude de variables aléatoires qualitatives : test de l’écart réduit et test du chi2

Ex : Une population de souris développe spontanément 10 % de cancers.On injecte une substance à un échantillon de souris (de taille N = 50) de cette population : on relève alors 21 % de cancers.

La différence observée est-elle le simple fait du hasard, oula substance est-elle cancérigène ?

1) Question clinique ?

2) Problème statistique ?

Comparaison d’une fréquence observée (21 %) à une fréquence théorique (10 %)

La substance injectée est-elle cancérigène ?

3) Formulation des hypothèses :

H0 : le contraire de ce qu’on veut montrer (càd une différence significative) : fobs = fth

l’échantillon extrait est représentatif de la population

H1 : fobs ≠ fth

4) On suppose H0 vraie et on calcule p :

Le test qui va nous permettre de calculer p ici est le test de l’écart-réduit , que l’on n’utilise que lorsque la variable aléatoire qualitative présente 2 modalités (ici : cancer ? OUI / NON) :

Rappel : p est la probabilité qu’une telle différence (0,21 - 0,1) ne soit due qu’au hasard

Page 45: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Le test de l’écart-réduit

Pour l’appliquer, il faut tout d’abord vérifier deux conditions :- N x fth ≥ 5- N x (1 – fth) ≥ 5

On calcule alors une valeur ε0, appelée écart-réduit, qui suit la loi normale centrée réduite LN(0,1)(on ne peut faire cela que parce que fobs suit lui aussi une loi normale sous H0…)

0

p est la probabilité que ε > ε0

Pour trouver cette probabilité, il faut la lire dans le tableau de LN(0,1)

Ex : On vérifie les deux conditions : 50 x 0,1 = 5 et 50 x (1-0,1) = 45, les conditions sont vérifiées

On calcule ensuite ε0 :

Page 46: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Comment lire p dans la table de l’écart réduit ?

ε

On cherche dans la table de l’écart-réduit deux valeurs qui encadrent ε0 calculé (2,59 ici).De ces 2 valeurs, on sélectionne celle qui est inférieure à ε0 calculé

On obtient alors p en additionnant les valeurs en tête de la colonne et de la ligne contenant la valeur sélectionnée : ici, 0,00 + 0,01 = 0,01, donc p < 0,01 (p serait égal à 0,01 si ε0 valait 2,576)

Page 47: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

5) Conclusion statistique ?

p < 0,01, donc p < 0,05 et on rejette alors H0 au risque p

On peut ajouter que la différence est très significative

ex : Ici, on peut dire que le taux de cancers observés dans l’échantillon exposé à la substance est très significativement plus élevé que le taux théorique dans la population

6) Conclusion clinique ?

Attention à ne pas conclure cliniquement trop rapidement !

Il faut toujours penser à la présence de biais dans l’étude qui peuvent fausser le résultat.

ex : Ce n’est qu’en l’absence de biais que l’on peut conclure que la substance est cancérigène

Page 48: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Ex : Soient 3 échantillons de souris issus de 3 espèces différentes ; elles sont toutes exposées au virus grippal de la même manière. On relève le nombre d’infections grippales développées chez ces 3 espèces différentes :

Si la variable aléatoire qualitative présente plus de 2 modalités, on ne peut pas utiliser le test de l’écart-réduit, on utilise alors le test du chi2 de Pearson

Echantillon n°1 Echantillon n°2 Echantillon n°3 Total

Malade 27 35 22 84

Non malade 73 69 70 212

Total 100 104 92 296

Les différences de proportions de souris malades entre les 3 différentes espèces sont-elles significatives ? Autrement dit, la différence d’espèce peut-elle influer sur la susceptibilité au virus grippal ?

Effectif marginaux des lignes

Effectif marginaux des colonnes

Nombre total de sujets

Page 49: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

1) Question clinique ?

2) Problème statistique ?

Comparaison de 3 fréquences observées f1, f2, f3 (échantillons indépendants)

L’espèce d’une souris a-t-elle une influence sur la susceptibilité de la souris au virus grippal ?

3) Formulation des hypothèses :

H0 : Encore une fois, c’est le contraire de ce que l’on veut montrer; par conséquent, on va ici supposer qu’il n’y a aucune différence de fréquence d’infection entre les 3 échantillons, soit :

f1 = f2 = f3

H1 : au moins une fréquence est différente des autres

Page 50: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

4) On suppose H0 vraie et on calcule p :

Sous H0, on va réaliser un tableau des effectifs théoriques : on l’obtient en multipliant les effectifs marginaux des lignes par ceux des colonnes et en divisant par l’effectif total du tableau des observés (obtenu par l‘expérience) :

Echantillon n°1 Echantillon n°2 Echantillon n°3 Total

Malade 84x100/296 = 28,4 29,5 26,1 84

Non malade 71,6 74,5 65,9 212

Total 100 104 92 296

Page 51: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

On dispose donc des 2 tableaux suivants :

Echantillon n°1 Echantillon n°2 Echantillon n°3 Total

Malade 27 35 22 84

Non malade 73 69 70 212

Total 100 104 92 296

Echantillon n°1 Echantillon n°2 Echantillon n°3 Total

Malade 28,4 29,5 26,1 84

Non malade 71,6 74,5 65,9 212

Total 100 104 92 296

Tableau des effectifs observés (Oi) :

Tableau des effectifs théoriques (Ci) :

On va pouvoir maintenant calculer le χ² de Pearson.Une condition est à respecter : tous les effectifs théoriques (Ci) doivent être ≥ 5 : c’est le cas ici.

Rq : On conserve les mêmes effectifs marginaux… pas besoin de faire tous les calculs (cf notion de degré de liberté)

Page 52: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

La formule de calcul du χ² de Pearson est la suivante :

2 (Oi Ci)

Ci1

k

2

Echantillon n°1 Echantillon n°2 Echantillon n°3 Total

Malade (27-28,4)²/28,4 = 0,07

1,03 0,64 1,74

Non malade 0,04 0,41 0,26 0,71

Total 0,11 1,44 0,90 2,45

Pour ne pas se perdre, on peut réaliser un tableau des χ² :

χ² =

Page 53: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

On dit que le χ² de Pearson est une variable aléatoire qui suit une loi (appelée loi du χ²) à (k-1)(p-1) degrés de liberté (ddl)

(où k est le nombre de lignes composant le tableau, et p le nombre de colonnes)

Pourquoi (k-1) et (p-1) « degrés de liberté » ? Qu’est-ce que cela signifie ?

Le degré de liberté correspond au nombre de valeurs qui ne peuvent être fixées par une équation; ici, quand on calcule les effectifs théoriques, sachant que les effectifs marginaux restent les mêmes, on n’a pas besoin de faire le dernier calcul de chaque ligne et de chaque colonne (c’est-à-dire au total la colonne échantillon n°3 et la ligne « Non malade », 4 cases sur 6 au total).

Ici, il y a 6 variables aléatoires, mais seulement 2 degrés de liberté.On retrouve sinon par la formule ci-dessus: il y a (3-1).(2-1) = 2 ddl

Pourquoi s’intéresser au nombre de degrés de liberté ?

Parce qu’il est essentiel pour déterminer la valeur de p (qui reste l’objectif de départ, ne l’oublions pas…)

En effet, on va lire dans la table du χ² au degré de liberté correspondant la probabilité p que χ² soit supérieur à une valeur appelée u.

Page 54: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Comment lire p dans la table du χ² ?

On se focalise sur la ligne correspondant au nombre de degrés de liberté.

On cherche dans la table du χ² deux valeurs qui encadrent χ² calculé (2,45 ici).De ces 2 valeurs, on sélectionne celle qui est supérieure à χ² calculé.On lit alors p en tête de la colonne correspondante, ici p > 0,20, l’important étant que p > 0,05.

u

Page 55: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

5) Conclusion statistique ?

p > 0,2, donc p > 0,05 et on ne rejette pas H0

Autrement dit, on ne met pas en évidence de différence significative entre les 3 fréquences observées.

6) Conclusion clinique ?

Attention à ne pas conclure cliniquement trop rapidement !

Il faut toujours penser à la présence de biais dans l’étude qui peuvent fausser le résultat.

ex : Ce n’est qu’en l’absence de biais que l’on peut conclure que l’espèce d’une souris n’a pas d’influence sur la susceptibilité de la souris au virus grippal.

Rq : La loi du χ² à 1 degré de libertédonne les mêmes résultats que la loi de l’écart-réduit

Page 56: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Ces 2 tests sont utilisées lorsqu’il s’agit de variables aléatoires qualitatives, mais il existe aussi des tests pour les variables aléatoires quantitatives (que nous aborderons dans l’année).

VA qualitative VA quantitative

Comparaison fréquence observée (fobs) à fth

(μobs à μth)

Ecart-réduit, χ² Pearson Test Student

Comparaison de 2 fobsindépendantes (2 μobs indép)

Ecart-réduit, χ² Pearson Test Student

Comparaison de k fobsindépendantes (k μobs indép)

χ² Pearson Modèle ANOVA

Page 57: Statistiques - Bienvenue · Difficulté lors d [un test statistique état du monde réel inconnu (car travail sur échantillon). ... Au total, une décision dacceptation ou de rejet

Merci de votre attention