Cours 6 Biostatistique - uliege.be

09/09/2021

1

Cours VETE2111-1

Tests et modélisations statistiques22h Th, 10h Pr, 4h TD – 5 crédits

F. Farnir, L. Massart, A. Rives

Organisation du coursa) Cours théoriques

Quand ? Ou ? Quoi ?

15/09 – 08h30 Amphi A Rappels + tests t

17/09 – 10h30 Amphi A Intervalles de confiance

22/09 – 08h30 Amphi A F et ANOVA 1

24/09 – 10h30 Amphi A ANOVA 1 (suite) + exercices

29/09 – 15h30 Amphi A ANOVA II + exercices

01/10 – 10h30 Amphi A ANOVA II i et h + exercices

07/10 – 13h30 Amphi A Régression linéaire

08/10 – 15h30 Amphi A Régressions multiple et curviligne

14/10 – 13h30 Amphi A Corrélation

15/10 – 15h30 Amphi A Tests non paramétriques

21/10 – 13h30 Amphi A Récapitulatif

09/09/2021

2

Organisation du coursb) Travaux dirigés (exercices)

Seulement 2 séances (c’est trop peu !)

Quand ? Ou ? Qui ? Quoi ?

06/10 – 08h30 Amphi A B TD1

07/10 – 10h30 Amphi A A TD1

22/10 – 08h30 Amphi A A TD2

25/10 – 08h30 Amphi A B TD2

A = groupes 1 à 6

B = groupes 7 à 12

Organisation du coursc) Travaux pratiques (exercices sur ordinateurs)

=> Cfr CELCAT:

https://my.horaires.uliege.be

Salle info a b c

TP 1 30/09 – 08:30 04/10 – 10:30 29/09 – 08:30

TP 2 11/10 – 10:30 08/10 – 08:30 14/10 – 08:30

TP 3 28/10 – 10:30 27/10 – 08:30 27/10 – 10:30

TP 4 02/11 – 08:30 22/11 – 08:30 09/11 – 08:30

TP 5 30/11 – 08:30 07/12 – 08:30 17/11 – 08:30

a = groupes 1 à 4

b = groupes 5 à 8

c = groupes 9 à 12

09/09/2021

3

Organisation du coursd) Evaluations

• 1) Evaluations en 01/2021

• En principe, en salle informatique (cfr BMV1)

• Stat II (A)

• QCM informatisé (cfr BMV1)

• Pondération dans la note finale: 2/3

• TP II (B)

• Exercices sur logiciels (Excel et R)

• Pondération dans la note finale: 1/3

• Note globale (NG)

• min(A,B) < 8/20 => NG = min(A,B)

• min(A,B) ≥ 8/20 => NG = (2*A + B)/3

• Dispense partielle possible si A ou B ≥ 10/20

09/09/2021

4

Organisation du coursd) Evaluations

• 2) Evaluations en 09/2020

• En principe, en salle informatique (cfr BMV1)

• Mêmes modalités

• En cas d’échec (NG < 10/20)

• Dispense partielle possible si A ou B ≥ 12/20

Les tests d’hypothèses:

un bref rappel

F. Farnir, L. Massart, E. Moyse

09/09/2021

5

Rappel: les tests d’hypothèse

Rappelez vous que:

Partant d’une hypothèse initiale (« hypothèse nulle »,

p.e. π = 0.5), il est possible d’arriver à une conclusion

sur cette hypothèse (p.e. l’hypothèse est

vraisemblablement fausse).

La conclusion était basée sur des arguments

probabilistes, et était elle-même probabiliste

(p.e. l’hypothèse est vraisemblablement fausse).

Cette démarche a été développée pour certaines

situations en BMV1

9Cours VETE2111-1 Année académique 2021-2022

Rappel de la démarche

Il s’agit de la démarche classique des tests

d’hypothèses.

Choisir l’hypothèse de départ, appelée

hypothèse nulle (H0)

Choisir une hypothèse alternative H1 (qui sera

considérée vraie si H0 est considérée fausse)

Récolter des données permettant de corroborer

ou de rejeter H0.


09/09/2021

6

(Suite de la démarche)

Calculer la probabilité des observations si H0 est

vraie: Cette probabilité est appelée « valeur p »

(p-value) du test

Si la valeur p est inférieure à un seuil α, décider

que l’hypothèse nulle n’est pas soutenue par les

données et la rejeter.

Dans le cas contraire, décider que l’hypothèse

nulle est soutenue par les données et l’accepter.


Rappel de la démarche (suite)

L’aspirine protège-t-elle contre les AVC?

Hypothèse nulle H0: πA = πP

(en français: la proportion d’AVC parmi la sous-

population qui prend de l’aspirine est identique à

celle de la sous-population prenant un placebo)

Hypothèse alternative H1: πA < πP

(en français: la proportion d’AVC parmi la sous-

population qui prend de l’aspirine est inférieure à

celle de la sous-population prenant un placebo)


Rappel de la démarche (exemple)

09/09/2021

7


Remarque: on ne considère pas la situation πA > πP

(en français: on ne considère pas un éventuel effet

délétère de l’aspirine sur le taux d’apparition d’AVC)

On ne s’intéresse donc qu’à la question de savoir si

l’aspirine a un effet bénéfique (H1) ou pas (c’est-à-dire pas

d’effet ou un effet négatif)

Un tel test est dit « unilatéral »




Récolte de données (étude prospective)



98 902

AVC Pas d’AVC

Aspirine

Placebo 882118

1000

1000

216 1784

09/09/2021

8




• https://www.socrative.com/• Student login• Room name: FARNIR => JOIN• Entrez: Nom, Prénom => DONE• Choisissez une réponse A, B, C, D ou E => SUBMIT

Introduction


Calcul de la statistique χ²

Le calcul des attendus sous l’hypothèse nulle permet de

calculer la statistique χ² (cfr BMV1)

On obtient: χ² = 2,076 avec 1 degré de liberté (vérifiez...)

Calcul de la valeur p

On peut utiliser un logiciel (excel, R, ...) pour obtenir la

probabilité d’une valeur de χ² ≥ 2,076

En R: pchisq(2.076,df=1,lower.tail=FALSE) => p = 0.1496



09/09/2021

9


Conclusion statistique

La probabilité est supérieure au seuil classique α = 0.05

L’hypothèse nulle est donc supportée à ce seuil: pas d’effet

avéré de l’aspirine sur l’occurrence d’AVC (dans cette

expérience et à ce seuil)



18

Ne court-on pas le risque de se

tromper ?

Si ! Deux erreurs sont envisageables:

OK !Erreur type I

α

H0 acceptée H0 rejetée

H0 vraie

H0 fausse OK !Erreur type II

β

Cours VETE2111-1 Année académique 2021-2022

09/09/2021

10

19

Une mesure de la « qualité du test »?

Une mesure est la « puissance du test »:

P(H0 rejetée | H0 fausse)

En clair: la probabilité de détecter un

effet réel.

Mathématiquement: P = 1 - β

OK !Erreur type I

α

H0 acceptée H0 rejetée

H0 vraie

H0 fausse OK !Erreur type II

βCours VETE2111-1 Année académique 2021-2022

20

Illustration de la puissance ?

Exercice (script) en R

mypower.R

β=β(n,d,α)

Cours VETE2111-1 Année académique 2021-2022

09/09/2021

11

Quelles sont les autres situations ?


Tests de χ²

(cfr BMV1)

Régression

logistique

Discrète Continue

Discrète

Continue RégressionsComparaison

moyennes

Variable

indépendante

Variable

dépendante

Les comparaisons de moyennes

F. Farnir, L. Massart, A. Rives

09/09/2021

12

Une situation simple

� Considérons le problème suivant:

◦ Dans une race de chevaux de course, la fréquence

cardiaque au repos a une distribution supposée

connue (normale, de moyenne 70 bpm et de déviation

standard 5 bpm).

◦ Un échantillon de 9 chevaux est soumis à un

entrainement intensif. A l’issue de l’entrainement, la

fréquence cardiaque moyenne au repos de ces

chevaux vaut 65 bpm.

◦ Peut-on conclure à un effet de l’entrainement sur la

fréquence cardiaque (FC) ?

Cours VETE2111-1 Année académique 2021-2022 23


� Plus formellement:

◦ Une population est normale: X ~ N(µ,σ), et les

paramètres (µ = 70 ,σ = 5) sont supposés connus.

◦ On dispose d’un échantillon de taille n = 9 et

de moyenne m = 65

◦ La question est:

considère-t-on l’hypothèse (nulle) selon laquelle cet

échantillon provient de la population N(µ,σ)

corroborée ?


09/09/2021

13


� Plus formellement (suite):

◦ La question est:

considère-t-on l’hypothèse (nulle) selon laquelle cet

échantillon provient de la population N(µ,σ)

corroborée ?

◦ La réponse sera oui si la probabilité d’un tel résultat

est > α = 5%, et non dans le cas inverse.

◦ Tester l’hypothèse revient donc à calculer la

probabilité (appelée « valeur p ») de ce résultat sous

l’hypothèse nulle



� Question:

◦ Comment calculer la probabilité qu’une moyenne m de 9 mesures s’écarte aussi fort, voire plus fort de la moyenne µ de la population (des moyennes de 9 mesures) si l’hypothèse nulle est vraie (c-à-dsi µ = 70) ?


09/09/2021

14


� Graphiquement: combien vaut la probabilité

« à gauche » de m ?



� Solution empirique:

◦ Simuler des échantillons sous H0 et compter la

proportion d’échantillons dont la moyenne < 65


> compte<-0

> nb_simulations<-10000

> for (simulation in 1:nb_simulations) {

+ echantillon<-rnorm(9,mean=70,sd=5)

+ m<-mean(echantillon)

+ if (m<65) { compte<-compte+1 }

+ }

> p_valeur<-compte/nb_simulations

> p_valeur

[1] 0.0016

09/09/2021

15


� Solution plus formelle - théorie:

◦ m est la moyenne d’un échantillon provenant d’une distribution de moyenne µ et de déviation standard σ◦ TLC => m ~ N(µ , σ/√n)

=> z = (m - µ)/(σ/√n)

◦ Test unilatéraux (H1 et H2) ou bilatéral (H3)H1: µe < µ => P1 = P(zth < z)H2: µe > µ => P2 = P(zth > z)H3: µe ≠ µ => P3 = P1 + P2

◦ P < α => rejet de H0.P > α => acceptation de H0.



� Solution plus formelle - calculs:

◦ H0: µe = µoù µe est la « moyenne des entrainés ».

◦ H1: µe < µ (test unilatéral gauche)

◦ z = (65 – 70) / (5/ √9) = -3

◦ P = P(zth < -3) = 0.0013 < α = 0.05

◦ Rejet de l’hypothèse nulle. On en déduit que l’entrainement diminue la fréquence cardiaque (dans certaines limites…)


09/09/2021

16

Une question supplémentaire

� Que faire si on ne connait pas σ ?

◦ Le plus intuitif est probablement d’estimer σ à partir des données dont on dispose (on calcule s), et d’utiliser l’estimation en lieu et place de σ:

=> z ≈ (m - µ)/(s/√n)

◦ Le problème est que, dans cette expression, on a remplacé une constante par une variable, ce qui va modifier la distribution, qui n’est plus normale:

=> t = (m - µ)/(s/√n)


t de Student


� Une simulation

◦ Simulons les distributions qu’on obtient pour le

problème donné plus haut en supposant tout d’abord σconnue (on devrait alors retrouver une normale) et puis

en supposant σ inconnue

(pour obtenir la distribution de t)

Cours VETE2111-1 Année académique 2021-

2022 32

09/09/2021

17


2022 33

# Parametres

mu<-70

sigma=10

n<-9

#

nb_permut<-10000

t<-rep(0,nb_permut)

z<-rep(0,nb_permut)

# Boucle

for (i in 1:nb_permut) {

sample<-rnorm(n,mu,sigma)

m<-mean(sample)

s<-sd(sample)

z[i]<-(m-mu)/(sigma/sqrt(n))

t[i]<-(m-mu)/(s/sqrt(n))

};

# Affichage

plot(density(t),col="red",main="Comparaison z -

t",xlim=c(-5,5),ylim=c(0,0.5))

lines(density(z),col="blue")


09/09/2021

18


� Résultats

◦ Les distributions obtenues pour t sont plus étalées que celles obtenues pour z

◦ Les distributions (et donc aussi les valeurs seuil) varient en fonction de la taille de l’échantillon…

� Il y aura donc une famille de distributions, paramétrée par un paramètre dépendant de n: on utilise en général «le dénominateur utilisé pour le calcul de s », et on nomme ce paramètre « degrés de liberté »� Dans notre exemple: ddl = (n-1) = 8



� Exercice

◦ Calculer par simulation les valeurs de t avec 8

degrés de liberté qu’on ne dépasse qu’avec

une probabilité de 0.10, 0.05, 0.025, 0.01 et

0.005.


Percentile Expérimental Théorique

P(90) 1,413787103 1,3968153

P(95) 1,885880746 1,859548

P(97.5) 2,315094159 2,3060041

P(99) 2,90189636 2,8964594

P(99.5) 3,340581836 3,3553873

09/09/2021

19


2022 37

# Parametres

mu<-70

sigma=10

n<-9 # => ddl = 8

#

nb_permut<-10000

t<-rep(0,nb_permut)

# Boucle

for (i in 1:nb_permut) {

sample<-rnorm(n,mu,sigma)

m<-mean(sample)

s<-sd(sample)

t[i]<-(m-mu)/(s/sqrt(n))

};

# Affichage

ts<-sort(t)

cat(« seuil 5% = »,ts[0.95*nb_permut], «\n »)

cat(« seuil 1% = »,ts[0.99*nb_permut], «\n »)

cat(« seuil 0.1% = »,ts[0.999*nb_permut], «\n »)

Tables de t

� On pourrait construire de manière similaire:


ddl P(0.900) P(0.950) P(0.975) P(0.990) P(0.995)

1 3,078 6,314 12,706 31,821 63,657

2 1,886 2,92 4,303 6,965 9,925

3 1,638 2,353 3,182 4,541 5,841

4 1,533 2,132 2,776 3,747 4,604

5 1,476 2,015 2,571 3,365 4,032

6 1,44 1,943 2,447 3,143 3,707

7 1,415 1,895 2,365 2,998 3,499

8 1,397 1,86 2,306 2,896 3,355

9 1,383 1,833 2,262 2,821 3,25

10 1,372 1,812 2,228 2,764 3,169

11 1,363 1,796 2,201 2,718 3,106

12 1,356 1,782 2,179 2,681 3,055

13 1,35 1,771 2,16 2,65 3,012

14 1,345 1,761 2,145 2,624 2,977

15 1,341 1,753 2,131 2,602 2,947

16 1,337 1,746 2,12 2,583 2,921

17 1,333 1,74 2,11 2,567 2,898

18 1,33 1,734 2,101 2,552 2,878

19 1,328 1,729 2,093 2,539 2,861

20 1,325 1,725 2,086 2,528 2,845

30 1,31 1,697 2,042 2,457 2,75

100 1,29 1,66 1,984 2,364 2,626

1000 1,282 1,646 1,962 2,33 2,581

Voir syllabus…

09/09/2021

20

Tables de t

� Remarque

◦ Quand la taille de l’échantillon augmente,

l’esYmaYon de la variance s’améliore (s → σ), et

donc la valeur de t se rapproche de celle de z,

comme en témoignent les seuils de t quand le

nombre de degrés de liberté devient grand…


ddl P(0.900) P(0.950) P(0.975) P(0.990) P(0.995)

30 1,31 1,697 2,042 2,457 2,75

100 1,29 1,66 1,984 2,364 2,626

1000 1,282 1,646 1,962 2,33 2,581

z 1,282 1,645 1,96 2,326 2,576

En résumé

� Dans la situation où on confronte 1

échantillon, de moyenne m et de

déviation standard s, à une distribution

normale de moyenne µ

◦ Si σ est connue:

� utiliser z = (m-µ)/(σ/√n)

◦ Si σ est inconnue:

� utiliser t = (m-µ)/(s/√n) avec (n-1) degrés de liberté


09/09/2021

21

Schématiquement


1 moyenne

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

autres situations

Et maintenant ?


1 moyenne

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

2 moyennes

09/09/2021

22

Exemple introductif

� La problématique:

Un vétérinaire souhaite tester l’efficacité

d’un régime alimentaire sur l’évolution

pondérale de chiens en surpoids. Il

procède à une étude prospective sur deux

lots balancés de chiens pour lesquels la

seule différence (volontaire) est le régime

(classique ou nouveau).

Comment comparer ces deux groupes ?


Exemple introductif

� La solution :

Mettre cette expérience sous la forme

d’un test d’hypothèse, et utiliser la

démarche classique du test d’hypothèse…


09/09/2021

23

Exemple introductif

� Hypothèse testée (hypothèse nulle):

H0: µC = µT

� µC représente la moyenne de la population des

poids des chiens recevant le régime classique (C).

� µT représente la moyenne de la population des

poids des chiens recevant le régime testé (T).


Exemple introductif

� Hypothèse alternative:

H1: µC > µT

◦ On est intéressé uniquement de savoir si le

régime testé conduit à un poids adulte

inférieur en moyenne à celui des individus

recevant l’alimentation classique

(test unilatéral gauche).


09/09/2021

24

Exemple introductif

o Récolte de données:


Exemple introductif

� Discussion (1):

◦ Pas de tendance claire au niveau individuel…

◦ Il serait assez naturel de prendre une mesure de

position (typiquement, la moyenne…) sur les 2

échantillons et d’utiliser cette mesure comme

estimation de la tendance observée:

XC = 21.45 kg

XT = 20.64 kg

=> XC - XT = 0.81 kg > 0…


_

_

__

09/09/2021

25

Exemple introductif

� Discussion (2):

◦ La différence va dans le sens escompté…

◦ Mais elle n’est mesurée que sur un échantillon et rien

ne garantit que ce résultat peut être étendu à toute la

population:


�� ⇏ ��

Exemple introductif

� Discussion (3):

◦ Comment s’assurer que cette différence est

« significative » ?

◦ En d’autres mots, comment s’assurer que la

probabilité d’une telle différence, alors que

l’hypothèse nulle est vraie, est < α ?


09/09/2021

26

Exemple introductif

� Discussion (4):

◦ Idée: si l’hypothèse nulle est vraie, les données

ne sont réparties dans les colonnes de la

manière observée que par hasard, chaque

observation avait la même chance d’être dans

la première ou dans la seconde colonne


Exemple introductif

� Discussion (5):

◦ Idée (suite):

=> en mélangeant les données entre les deux colonnes,

tout se passe comme si on obtenait de nouveaux

échantillons, générés sous H0. On pourrait pour chacun

de ces « nouveaux » échantillons calculer la différence

entre les moyennes et vérifier si on observe rarement ou

pas des différences telles que celle réellement observée

(0.81)…


09/09/2021

27

Exemple introductif

� Discussion (6):

◦ Combien de (pseudo) échantillons peut-on générer ?

Le premier groupe peut comprendre n’importe quelle

combinaison de 10 individus pris parmi les 20. Le nombre

de possibilités est donc:


184756!10!*10

!2010

20 ==C

Exemple introductif

� Résultat (1):

◦ En générant tous ces pseudo-échantillons, on

s’aperçoit que la différence qui nous intéresse est

atteinte ou dépassée dans 53784 cas.

◦ La probabilité d’atteindre ou de dépasser une telle

différence vaut donc:


2911.0184756

53784)81.0( ==>DP

09/09/2021

28

Exemple introductif

� Résultat (2):

◦ P = 0.2911 > α = 0.05

◦ L’hypothèse nulle (égalité des moyennes) est donc

acceptée: le nouveau régime n’a pas un effet

significatif sur le poids.


Exemple introductif

� Problème:

◦ Très fastidieux…


09/09/2021

29

Exemple introductif

� Une solution moins coûteuse (mais moins

précise):

« échantillonner les (pseudo-)échantillons »

◦ On prend N (p.e. 1000) des pseudo-échantillons

au hasard, et on évalue la proportion de ces N

pseudo-échantillons pour laquelle D ≥ 0.81


� Une solution moins coûteuse (mais

moins précise):

« échantillonner les échantillons »


# Donnees

nouveau<-c(20.6,16.4,23.7,22.8,20.0,22.7,17.1,22.0,22.9,18.2)

ancien<-c(18.6,20.2,23.9,26.7,16.6,25.1,24.7,19.3,23.3,16.1)

diff<-mean(ancien)-mean(nouveau)

tous<-c(nouveau,ancien)

# Boucle de calcul

n<-0

nb_perm<-10000

for (i in 1:nb_perm) {

melange<-sample(tous,20,replace=F)

d<-mean(melange[11:20])-mean(melange[1:10])

if (d>=diff) { n<-n+1 }

}

# Affichage des résultats

cat("# d > ",diff," = ",n,"\n")

p_valeur<-1.0*n/nb_perm

cat("=> p-valeur =",p_valeur,"\n")

09/09/2021

30

Exemple introductif

� Résultat (3):

◦ P ≈ 0.286 > α = 0.05

◦ Le résultat:

� varie aléatoirement de sous-ensemble (de pseudo-

échantillons) en sous-ensemble…

� est très similaire à celui obtenu en exploitant tous

les pseudo-échantillons.

� Si N grand assez…

� moins fastidieux … mais toujours fastidieux !

� une solution plus simple reste désirable !


De manière plus générale

� Imaginons à présent une situation similaire, mais différente:◦ Deux échantillons sont prélevés dans une

population. Chaque échantillon est ensuite mis dans des conditions différentes. Par exemple:� Régime 1 – Régime 2

� Traitement – Placebo

� Traitement 1 – Traitement 2

� …

◦ La question: cette différence de conditions entraine-t-elle une différence de moyennes sur le caractère étudié ?


09/09/2021

31

De manière plus générale

� Hypothèse nulle :

◦ H0: µ1 = µ2 => H0: µ1 - µ2 = 0

◦ L’hypothèse est donc que les « traitements » n’ont pas conduit à des moyennes différentes

� Soit les moyennes correspondent à la moyenne de la population d’origine (p.e. Placebo)

� Soit les traitements ont le même effet sur la moyenne.

◦ Une hypothèse plus générale serait: H0: µ1 - µ2 = δ, où δ est une valeur éventuellement égale à 0.

� Hypothèses alternatives :

◦ H1: µ1 - µ2 ≠ δ ou H2: µ1 - µ2 > δ ou H3: µ1 - µ2 < δ


Une approche plus math...

� Résolution:

◦ On raisonne sur

◦ « La différence de deux variables normales

indépendantes est distribuée normalement (TLC)»

◦ Donc:

� Calculons �� et �� pour pouvoir faire les calculs de

probabilité nécessaires.


� ��

� �� ~� �� , ��

09/09/2021

32


� Résolution (2): on applique le TLC:

(car les 2 échantillons sont indépendants)


��

��

��

��

�

� � ��

� � 2 ∗ �� ∗ ��

� �

� � � �

�

�� 2 ∗ �� , ��

�

� � � �

�

��


� Résolution (3):

◦ En résumé: ~� � � ��, ��

��

�

��

◦ Cas particulier: � � �

� � �

� Par exemple, deux traitements appliqués sur la même population d’origine,

et on suppose que le traitement n’a pas altéré la variance. Alors:

et


~� � � ��, ∗1

� �

1��

" � � � � ��

∗ 1�

� 1��

09/09/2021

33

Un exemple: problème

� Un traitement médicamenteux pour combattre

l’hyperaldostéronisme (production excessive de l’aldostérone, une

hormone impliquée notamment dans le maintien de la fonction

cardiaque => voir le cours de physio) est testé sur une série de

patients, d’autres patients recevant un placebo.

� Suite à 2 semaines de traitement, les concentrations d’aldostérone

sont comparées pour les deux lots de 5 patients, pour tester si

l’effet du traitement médicamenteux est avéré.

� Les données sont présentées sur la dia suivante. On suppose:

◦ Une unité de mesure commune a été choisie

◦ Le traitement modifie éventuellement la concentration moyenne, mais

n’a pas d’effet sur la variation: la variance de cette concentration dans

la population est connue, et vaut: � � 225


Un exemple: données


Placebo Traitement

96,4 94,8

125,5 106,5

92,6 107,3

112,0 75,7

118,9 62,6

• https://www.socrative.com/• Student login• Room name: FARNIR => JOIN• Entrez: Nom, Prénom => DONE• Choisissez une réponse A, B, C, D ou E => SUBMIT

2 échantillons

09/09/2021

34


1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

Un autre problème

� Reprenons l’exemple introductif de comparaison des deux

régimes:

� Le problème est similaire au précédent, à la différence près

qu’on ne connait pas la variance � dans la population...


09/09/2021

35

Un autre problème (suite)

� Une idée, comme dans le cas d’un seul échantillon, serait

alors d’estimer cette variance (supposée encore une fois

commune aux deux sous-populations) sur base des deux

échantillons disponibles

� Pour estimer �, on peut prendre une moyenne (pondérée

par les tailles des échantillons, pour donner plus de poids à

la moyenne la mieux estimée) des variances $ � et $�

�

estimées à partir des deux échantillons:


$��

� � 1 ∗ $ � � �� 1 ∗ $�

�

� � 1 � �� 1�

∑ & ' � &� � � ∑ &�' � &��

�'(��'(

'(��'(

� � �� 2

Un autre problème (suite)

� Comme précédemment, on remplacera l’utilisation de la

statistique Z par celle de la statistique t, avec un nombre de

degrés de liberté égal au dénominateur du calcul de la

variance

◦ Donc, ici:

◦

⇒ * � � � �� 2

◦ Et la statistique est: + � ��, -�,-�

./∗ �0�

1 �0�


$��

∑ & ' � &� � � ∑ &�' � &��

�'(��'(

'(��'(

� � �� 2

09/09/2021

36

� Application:

◦ Reprenons les données de l’exemple


2022 71

147.14

900.6

45.21

64.20

2

2

2

1

2

1

====

s

s

X

X

Un autre problème: calculs


� Application:

◦ L’hypothèse testée est: H0: µ1 - µ2 = δ = 0

◦ L’alternative d’intérêt est:

H1: µ1 - µ2 = δ < 0 (test unilatéral)

◦ On a deux échantillons issus d’une même population mais ayant subi des régimes différents

� On suppose σ1² = σ2² = σ²

� σ² est inconnu => on emploiera le test de t et σ² sera estimée à partir des deux échantillons


09/09/2021

37

� Application:◦ t = [(20.64 – 21.45) – 0]/[s*√(1/10 + 1/10)]

= -1.811/s

◦ s²= (9 * 6.900 + 9 * 14.147)/(9 + 9)= 10.524

=> t = -1.811/3.244 = -0.558

◦ P = P(t18 < -0.558) = 0.292 (cfr résultats obtenus ↑)� pt(-0.558, df=18) => [1] 0.2918594

◦ L’hypothèse nulle est acceptée: pas d’effet du traitement



L’exemple avec R…

� L’exemple introductif avec R…

Cours VETE2111-1 Année académique

2021-2022 74

Fichier de données: "regime.txt"

> f<-read.table(file="regime.txt",head=T,sep="\t")

> t.test(f$Nouvelle.formule,f$Ancienne.formule,

var.equal=T,alternative="l")

Two Sample t-test

data: f$Nouvelle.formule and f$Ancienne.formule

t = -0.5583, df = 18, p-value = 0.2918

alternative hypothesis: true difference in means

is less than 0

95 percent confidence interval:

-Inf 1.705747

sample estimates:

mean of x mean of y

20.64 21.45

09/09/2021

38

Un autre problème: remarques

� Remarques:

1. Si σ1² ≠ σ2², on utilise un test approximatif, appelé « test t

de Welch »:

+2 3 � ��, -�,-�

4��

0�1

4��

0�

où:


Un autre problème: remarques

� Remarques:

2. Tous les tests présentés font intervenir (� � ��).

Si l’hypothèse nulle est:

56: � � �� ⇔ 56: � � �� 0on remplace :� ��; par 0

Si l’hypothèse nulle est:

56: � � �� <où < est une grandeur connue, on remplace :� ��;par <


09/09/2021

39

Cours VETE2111-1 Année

académique 2021-2022 77

1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

σ1²≠ σ2²

( ) ( )

2

2

2

1

2

1

2121

n

s

n

s

XXtWelch

+

−−−≈ µµ

σ1²= σ2² +��1��,� ��

>? ∗ 1�

� 1��

t ou z ?

� Règle:

◦ Quand la variance σ² des données est inconnue, elle

doit être estimée par s² et on utilise alors t plutôt que

z.

◦ Mais:

� Quand n ↑, t → z et il est raisonnable d’uYliser z

(typiquement, quand n > 30)

� Toutefois, l’hypothèse d’une population distribuée

normalement reste nécessaire, qu’on emploie t ou z


09/09/2021

40



1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

σ1²≠ σ2²

( ) ( )

2

2

2

1

2

1

2121

n

s

n

s

XXtWelch

+

−−−≈ µµ

σ1²= σ2²

+��1��,� ��

>? ∗ 1�

� 1��

n1+n2-2>30


� Quel est le risque de travailler avec de « petits échantillons » ?

◦ Puissance faible (P ↑ quand n↑)

◦ Biais dans l’échantillon� « Confusion » d’effets


Traitement 1 Traitement 2

09/09/2021

41


� Quel est le risque de travailler avec de

« petits échantillons » ?

◦ Puissance faible (P ↑ quand n↑)

◦ Biais dans l’échantillon

� Influence importante d’informations individuelles




� Quel est le risque de travailler avec de

« petits échantillons » ?

◦ Il est donc nécessaire de « balancer » les

observations dans les deux groupes.

Cours VETE2111-1 Année académique 2021-2022 82Cours VETE2111-1 Année académique 2019-2020


09/09/2021

42

Analyse de données « pairées »

� Considérons l’analyse suivante:

on a dosé l’hydroxyproline dans 5 muscles avec deux

méthodes (A et B). Voici les résultats:

Les deux méthodes donnent-elles le même résultat ?


Muscle A B

Ilio spinal

Gluteus Medius

Gracilis

Brachial

Tr. Femoram

12

11

13

8

8

9

11

10

7

9


� Hypothèse nulle:

Les deux méthodes donnent les mêmes résultats, et

donc:

H0: µ1 = µ2 => H0: δ = µ1 - µ2 = 0

H1: δ ≠ 0 (bilatérale)

� L’idée: en travaillant avec la différence entre mesures

faites sur le même muscle, on élimine l’effet individuel !


09/09/2021

43


� Algébriquement:

Notant di = Xi1 – Xi2, on obtient un échantillon

de nd différences,

◦ dont la moyenne estime δ = µ1 - µ2 (H0 : δ = 0)

◦ dont la variance $��peut s’estimer $��

� � .@�

�@

=> utilisation d’un test de t pour un

échantillon de �� différences

(et donc avec �� 1 degrés de liberté)


dds

d

s

dt =−= δ


� Exemple:


Muscle A B

Ilio spinal

Gluteus Medius

Gracilis

Brachial

Tr. Femoram

12

11

13

8

8

9

11

10

7

9

d = A-B

3

0

3

1

-1

2.1=d 2.32 =ds 64.05/2.3

2 ==d

s

5.18.0/2.1 ==t

( ) ( )( ) 208.044

=−<> ttouttp H0 est acceptée

� Calculs:

pt(-1.5,df=4)+pt(1.5,df=4,lower.tail=F)

09/09/2021

44


� Remarques:

◦ Le nombre de degrés de liberté est nd-1 (= 4) et non

pas n1 + n2 – 2 (=8)

◦ Comme il n’y a qu’un échantillon de valeurs

(différences), il n’ y a pas à se soucier des problèmes

d’homosédasticité.

◦ Ce type d’analyses n’est pas toujours faisable…

� Exemple: régimes sur la croissance


L’exemple avec R...

o Un autre exemple avec R…


Fichier de données: "muscles.txt"

Muscle A B

Ilio spinal

Gluteus Medius

Gracilis

Brachial

Tr. Femoram

12

11

13

8

8

9

11

10

7

9

> f<-read.table(file="muscles.txt",head=T,sep="\t")

> t.test(f$A,f$B,paired=T)

Paired t-test

data: f$A and f$B

t = 1.5, df = 4, p-value = 0.208

alternative hypothesis: true difference in means is not

equal to 0

95 percent confidence interval:

-1.021156 3.421156

sample estimates:

mean of the differences

1.2

09/09/2021

45



1 moyenne

2 moyennes

σ² connu

n

Xz

σµ−=

n>30

ns

Xt

n

µ−=−1

σ1², σ2² connus

( ) ( )

2

2

2

1

2

1

2121

nn

XXz

σσµµ

+

−−−=

σ1²≠ σ2²

( ) ( )

2

2

2

1

2

1

2121

n

s

n

s

XXtWelch

+

−−−≈ µµ

σ1²= σ2²

+��1��,� ��

>? ∗ 1�

� 1��

n1+n2-2>30pairées

utiliser

d=X1-X2

Voir chapitreANOVA

≥ 2 moyennes

Comparaison de pourcentages

� Considérons à présent le problème suivant:

15% des bovins d’une région sont porteurs d’une

tare génétique. Testant ses 20 bovins, un éleveur

n’en trouve qu’un qui soit porteur. Cette

observation est-elle compatible avec ce qui était

attendu dans cette région, ou bien peut-on conclure

que cette étable est moins touchée ?

� => On souhaite comparer une proportion

estimée pest = 1/20 avec la proportion

théorique π = 0.15


09/09/2021

46


� Mise sous la forme d’un test d’hypothèse:

H0: πétable = πrégion

H1: πétable < πrégion (unilatéral)

� Le calcul de la probabilité de ce qui a été observé si H0

est vraie peut se faire facilement (et de manière

exacte…)



� Calcul de la probabilité de ce qui a été observé (si H0

est supposée vraie)

=> p = 0.039 + 0.137 = 0.176 > α = 0.05


0

0,05

0,1

0,15

0,2

0,25

0,3

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Binomiale B(n=20,p=0.15)

pbinom(1,size=20,prob=0.15)

09/09/2021

47


� L’hypothèse nulle est acceptée (P > α):

on observe pas de différence significative entre la

situation régionale et la situation dans l’étable



� Si la taille de l’échantillon augmente:

◦ Le calcul binomial (direct et exact) devient fastidieux

◦ Il peut être remplacé par un calcul indirect (on passe par z puis on

calcule p(<z)…) et approximatif (on utilise l’approximation

gaussienne de la loi binomiale, vue précédemment)

� On a vu que:

" � AB4C,D

E∗ �FE0

� Dans notre exemple: " � 6,6G,6, GH,�I∗H,JI

�H

� �1,252

=> P(zth ≤ -1.252) = 0.105 > α = 0.05


09/09/2021

48

19


� Remarque:

◦ Comme il a été dit auparavant, cette approximation a

des limitations…

◦ Rappelons que ce test est équivalent à un test de χ²:

χ² = (3-1)²/3 + (17-19)²/17 = 1.569 = z² = (-1.252)²


Observés

Attendus

Porteurs Sains

1

3 17

15/34 = 0.441219


� Que faire si on compare deux pourcentages

observés (plutôt qu’un pourcentage observé à

un pourcentage prévu) ?

◦ Exemple:


Trait 1

Trait 2

Guéris Malades

15

12 48

%

12/60 = 0.2000

►

►

09/09/2021

49


� Mise sous la forme d’un test d’hypothèse:

H0: π1 = π2 = πH1: π1 ≠ π2 (hyp. bilatérale)

� On peut suivre la même approche que celle suivie plus

haut (comparaison de 2 moyennes), et calculer Z si H0 est

vraie:


+−

−=

−+−

−−−=

21

21

2

22

1

11

2121

11)1(

)(

)1()1(

)()(

nn

pp

nn

ppZ

ππππππππ

15/34 = 0.44121915

12 48 12/60 = 0.2000

27 67


� Problème: on ne connait pas π…

� Solution: on l’estime à partir des données ! (et on

emploie alors t au lieu de z)


Trait 1

Trait 2

Guéris Malades %

►

►

► 27/94 = 0.2872 ► p

► ►

09/09/2021

50


� On obtient donc:

� En pratique:

◦ On emploie souvent z, ce qui équivaut au test de χ² pour tables de contingence (voir dias suivantes)


+−

−=

21

21

11)1(

)(

nn

ppZ

ππ

+−

−=

21

21

11)1(

)(

nnpp

ppt

=>

avec (n1 + n2 – 2) ddl


� La solution est donc:

" �

1534 � 12

602794 ∗ 67

94 ∗ 134 � 1

60

� 2.483

=> " > 1.96 (seuil bilatéral pour α = 5%)

=> rejet de H0.

� Conclusion: l’efficacité des deux traitement est

différente (cfr H1)


09/09/2021

51

19 34*67/94


� La solution avec une table de contingence:

χ² = 6.166 (= 2.483²) > 3.841 (= 1.96²)

=> Même conclusion !


Trait 1

Trait 2

Guéris Malades

15

12 48

Observés

Trait 1

Trait 2

Guéris Malades

34*27/94

60*27/94 60*67/94

Attendus

m<-matrix(c(15,19,12,48),byrow=T,nr=2)

chisq.test(m,correct=F)

19 34*95/136


� L’avantage de cette solution: extensible aux situations où

on compare plus de deux pourcentages…

χ² = 6.287 => p(χ²th(2) > χ²) = 0.043

=> rejet de H0 pour α = 0.05


Trait 1

Trait 2

Guéris Malades

15

12 48

Observés

Trait 1

Trait 2

Guéris Malades

34*41/136

60*41/136 60*95/136

Attendus

Trait 3 14 28 Trait 2 42*41/136 42*95/136

pchisq(6.287,df=2,lower.tail=F)

09/09/2021

52



1 proportion

2 proportions

n petit

Loi

binomiale

n grandApprox.

normale

π connu n1+n2-2>30

χ²≥ 2 proportions

+−

−=

21

21

11)1(

)(

nn

ppZ

ππ

+−

−=

21

21

11)1(

)(

nnpp

ppt

Une autre vue des tests

d’hypothèses

� La vue étudiée jusqu’ici:

◦ On calcule un estimateur ponctuel d’un paramètrebasé sur les données

� Exemple: �� estime µ, s estime σ◦ On en déduit une « statistique » basée sur

l’hypothèse H0 impliquant le paramètre et son estimateur

� Exemple: + � �� / $ ∗ 1/�

◦ On regarde si cette statistique est probable (on accepte) ou pas (on rejette)

� Exemple: calcul de la « valeur p » et comparaison à α


09/09/2021

53


d’hypothèses

� La nouvelle vue proposée maintenant:

◦ On remplace l’estimateur ponctuel par un

« intervalle de confiance »

� Plus d’information sur l’estimation, en fournissant de

l’information sur la variabilité de l’estimateur

� Permet également de tester des hypothèses



d’hypothèses

� La vue étudiée jusqu’ici:


H0

α

données

(X,p,n…)

=> S

_distrib

(z,t,χ²…)P(data|H0)

P<α: rejet H0

P>α: accepte H0

H0

α

données

(X,p,n…)

=> S

_distrib

(z,t,χ²…)ICα(S)

S ∉ IC: rejet H0

S ∈ IC: accepte H0

� Une autre approche (équivalente):

09/09/2021

54



Intervalles de confiance

� Illustrons l’approche sur la situation suivante:

◦ Le poids moyen de la laine chez un mouton adulte Mérinos est de � � 4,5 kilos, avec un déviation standard valant � 0,5 kilos.

◦ On suspecte un gène d’être impliqué dans la production lainière: le gène a deux allèles M et m, et on pense que les individus mm auraient une production plus importante.

◦ Pour tester cette hypothèse, on obtient 9 individus de génotype mm, et on mesure la production lainière. On obtient: �� 4,8 kilos.

◦ Que peut-on conclure de cette expérience?


09/09/2021

55


� Commençons par l’approche vue plus haut:

◦ La situation est celle d’un échantillon comparé à une

population de moyenne µ connue, avec σ connu

◦ H0: µ(mm) = µ(population) = µ

◦ L’estimateur (ponctuel) de µ est �� ∼ � �, �� T56

◦ On peut calculer: " � U�,-� � ⁄

� W,X,W,G6,G Y⁄

� 1,8

◦ La valeur p unilatérale (pourquoi?) est:Z � Z " � 1,8 � 0,036

◦ Comme Z [ \, l’hypothèse nulle est rejetée au seuil

\ � 5%: il semble y avoir un effet de ce gène.



� Une approche alternative serait:

◦ Si l’hypothèse nulle est vraie, il est possible de

prédire entre quelles limites �� devrait se situer, en

utilisant �� ∼ � �, ��

◦ La dia suivante illustre le calcul:


09/09/2021

56


� Illustrons l’approche sur la situation suivante:


2022 111


� Le développement correspondant:

◦ Z "^�⁄ _ " _ " ,^

�⁄ � 1 � \

◦ On remplace " par sa valeur:

◦ Z "^�⁄ _ U�,-

� � ⁄_ " ,^

�⁄ � 1 � \

◦ On isole �� dans les deux inéquations:

◦ Z � � "^�⁄ ∗ �

� _ �� _ � � " ,^�⁄ ∗ �

� � 1 � \

◦ On obtient un intervalle dans lequel �� a une

probabilité 1 � \ de se situer, appelé « intervalle

de confiance au seuil \ de la moyenne d’un

échantillon »


09/09/2021

57


� Et le calcul correspondant:

◦ Z � � "^�⁄ ∗ �

� _ �� _ � � " ,^�⁄ ∗ �

� � 1 � \

◦ Si on utilise les données du problème et un seuil

\ � 5%, on obtient:

◦ Z 4,5 � 1,96 ∗ 6,GY

_ �� _ 4,5 � 1,96 ∗ 6,GY

� 0,95

◦ Soit:

◦ Z 4,17 _ �� _ 4,83 � 0,95



� Le graphique correspondant:


2022 114

09/09/2021

58


� On peut donc prédire l’intervalle dans lequel devrait

tomber la moyenne d’un échantillon si on connait la

moyenne de la population (et, dans notre exemple, la

déviation standard)

� Mais notre problème est différent ! Nous souhaitons

savoir si la moyenne (inconnue) de la population dont

provient notre échantillon est compatible avec le

moyenne (connue) d’une population de référence

◦ Ce qui revient à tester 56: � éaℎ � � Z�Z � �� Le raisonnement est tout-à-fait similaire...



� Le développement est le suivant:

◦ Z "^�⁄ _ " _ " ,^

�⁄ � 1 � \

◦ On remplace " par sa valeur:

◦ Z "^�⁄ _ U�,-

� � ⁄_ " ,^

�⁄ � 1 � \

◦ On isole � dans les deux inéquations:

◦ Z �� "^�⁄ ∗ �

� _ � _ �� " ,^�⁄ ∗ �

� � 1 � \

◦ On obtient un intervalle dans lequel � a une

probabilité 1 � \ de se situer, appelé « intervalle

de confiance au seuil \ de la moyenne de la

population »


09/09/2021

59


� Et le calcul est, cette fois:

◦ Z �� "^�⁄ ∗ �

� _ � _ �� " ,^�⁄ ∗ �

� � 1 � \

◦ Si on utilise les données du problème et un seuil

\ � 5%, on obtient:

◦ Z 4,8 � 1,96 ∗ 6,GY

_ � _ 4,8 � 1,96 ∗ 6,GY

� 0,95

◦ Soit:

◦ Z 4,47 _ � _ 5,13 � 0,95



� Remarques:

◦ On obtient donc, en plus de l’estimateur ponctuel

de µ, un intervalle dans lequel µ a une probabilité

donnée de se trouver

� Si \ ↘, la proba ↗ et l’intervalle s’élargit

◦ Il est possible d’utiliser l’intervalle obtenu pour

tester une hypothèse (bilatérale) sur µ

� Dans notre exemple, comme la moyenne de la population

(µ = 4.5) est incluse dans l’intervalle de confiance au seuil \de la moyenne de la population dont provient l’échantillon

(IC = [4.47; 5.13]), on ne peut pas exclure que ces deux

moyennes soient identiques: on accepte H0: µ(pop) = µ(ech)


09/09/2021

60


� Que fait-on si σ est inconnue ?

◦ Le développement est totalement similaire au cas

précédent, en remplaçant par s et Z par t

◦ On obtient alors:

Z �� +e�� , �, ∗

$� _ � _ �� + ,e

�� , �, ∗$� � 1 � \



� Exemple - énoncé:

◦ On a mesuré le taux basal du facteur de transcription

NF-Kβ dans le sang de 10 porcs pour identifier les

animaux où ce facteur est activé, traduisant une

infection virale. Les valeurs mesurées sont les

suivantes:

◦ Entre quelles limites l’expression moyenne de ce

facteur a-t-elle 95% de chance de se trouver ?


102 106 98 99 104 107 96 98 100 102

09/09/2021

61


� Exemple - solution:

◦ On calcule: �� 101,2

◦ On calcule: $� � 13,29 ⇒ $ � 3,65

◦ La valeur de +�, � +f qu’on ne dépasse que dans 2.5%

des cas vaut: +f 0,975 � 2,26

◦ L’intervalle de confiance de µ vaut donc:

�� +e�� , �, ∗

$� ; �� + ,e

�� , �, ∗$�

� 101,2 � 2,26 ∗3,65

10 ; 101,2 � 2,26 ∗3,65

10

� h98,59; 103,81i



� Que fait-on avec les proportions?

◦ Si l’échantillon est grand et qu’on peut utiliser l’approximation

normale de la binomiale:

Z Z �"e�� ∗

Z ∗ 1 � Z�

_ j _ Z � " ,e�� ∗

Z ∗ 1 � Z�

� 1 � \

� Remarque: comme n ↗, on a remplacé t par Z

◦ Si l’échantillon est petit, on aura recours aux distributions

binomiales (voir dia suivante)


09/09/2021

62


� Comment calculer k�e j quand n petit ?

◦ Si on a r individus (sur n) qui présentent la caractéristique qui nous

intéresse, notre estimation ponctuelle de j sera p = r/n

� On va chercher la valeur p1 (p2) menant à une distribution pour

laquelle obtenir « r ou plus »

(« r ou moins ») occurrences de l’évènement d’intérêt n’a qu’une

probabilité de α/2.

� La dia suivante illustre le principe dans le cas de figure suivant:

on a testé 10 moutons pâturant dans une zone humide pour la

présence de Fasciola hepatica (un parasite infectant le foie,

connue sous le nom de « douve du foie »). Trois résultats sont

positifs. Quelle est la prévalence π de ce parasite dans cette zone ?





Z 0,07 _ j _ 0,65 � 1 � \

� Comment obtenir les valeurs seuil de j?

09/09/2021

63


� Comment calculer ICa(p) quand n petit ?

◦ Algébriquement:

� B(r|p1,n) + B(r+1|p1,n) + … + B(n|p1,n) = α/2 où Z ∈ 0.0; 0.3� B(0|p2,n) + B(1|p2,n) + … + B(r|p2,n) = α/2 où Z� ∈ 0.3; 1.0

◦ Exemple avec R:

> # Valeurs possibles de p1 (au 1/1000 près)

> p<-seq(0,0.3,0.001)

> # Probas binomiales correspondantes

> probas<-1-pbinom(2,size=10,prob=p)

> # Différences avec alpha/2

> diffs<-abs(probas-0.025)

> # Calcul de p1

> p[diffs==min(diffs)]

[1] 0.067



� Un exemple similaire:

◦ Un cas de BSE a été reporté le mois passé. Sachant cela, et en

supposant l’épidémie stabilisée, à combien de cas par mois

dois-je m’attendre en moyenne ?

◦ Réponse:

� En moyenne, sur base de cet échantillon, on attend évidemment 1

cas par mois… (estimateur ponctuel)

� Il serait plus informatif de fournir une fourchette dans laquelle on a

par exemple 95% de chance de trouver le vrai nombre de cas

moyen (estimateur par intervalle de confiance) !

� Cherchons: IC0.05(µ) = [µI; µS]

où µ est la moyenne d’une distribution de Poisson


09/09/2021

64


� Solution:

◦ Il s’agit d’un exemple d’utilisation de la « loi de Poisson »

◦ On cherche �m et �n tels que:

o 1T�m � o 2T�m � ⋯ � \ 2⁄o 0T�n � o 1T�n � \ 2⁄

◦ La première équation est facile à résoudre, dans ce cas, en notant

que: o 1T�m � o 2T�m � ⋯ � 1 � o 0T�m � 1 � q,-r

⟹ q,-r � 1 � \ 2⁄ � 0.975⟹ �m � � ln 0.975 � 0.025

◦ La seconde équation nécessite de résoudre l’équation non-

linéaire: q,-v � � ∗ q,-v � 0.025� En utilisant R, on obtient la solution �n � 5.572


IC Poisson


� La prédiction d’un prochain tirage:

◦ Problème:

� Ayant échantillonné n individus dans une population

(normale), est-il possible de préciser un intervalle dans lequel

un (n+1)ème individu aurait une probabilité (1-α) de figurer ?

� En d’autres termes, on recherche l’intervalle de confiance d’un

prochain tirage X


09/09/2021

65



◦ Solution:

� On peut voir le problème comme un exemple de situations où

2 échantillons sont extraits d’une même population, un

échantillon de taille n et un de taille 1.

� Evidemment, ici, µ1 = µ2 = µ !

� On sait que:

+ � �� / $�� ∗

��

��

avec (n1 – 1) + (n2 – 1) degrés de liberté




◦ Solution (suite):

� On utilise:

� � � �, �� 1� � � �� , �� X� � � �� 2 � � � 1 � 2 � � � 1

� $��

∑ x��

1∑ x��

��1��,��

∑ x��

�, � $�

� Ce qui conduit à:

+ ��

$ ∗ � � 1�


09/09/2021

66



◦ Le même développement que plus haut conduit alors à:

Z �� +e�� ∗ $ ∗

� � 1�

_ � _ �� + ,e�� ∗ $ ∗

� � 1�

� 1 � \

avec t ~ t (n-1) degrés de liberté.




◦ Illustration:

� La teneur moyenne en glucose sanguin a été établie sur 36

chevaux de 4 à 6 ans, en parfaite santé: la moyenne m est de

86.4 mgr/100ml, avec un IC(α=0.05) = m ± 4.06

Entre quelles limites un cheval, pris au hasard dans les mêmes

conditions a-t-il 95% de chance d’avoir sa teneur en glucose?

� Solution:

� t*S/√n = 4.06 => S = 4.06* √n/t

� n = 36

� t = 2.03 (cfr table avec 35 ddl)

� => S = 12


09/09/2021

67


� La prédiction d’un prochain tirage:� Solution (suite):

� P(m – tα/2 *S*√ (n + 1)/n < X < m + tα/2 *S*√ (n + 1)/n ) = 1-α

� P(86.4 – 2.03*12* √37/36 < X < 86.4 + 2.03*12* √37/36 ) = 0.95

=> P(61.704 < X < 111.096) = 0.95



� Qu’en est-il des variances ?� Pour déduire un IC pour la prédiction S² d’une variance σ², il faut

connaitre la distribution des S².

� On montre (et on admettra…) que:

(n-1)*S²/σ² ~ χ² (n-1)

ou, de manière équivalente:

Σx²/σ² ~ χ² (n-1)


09/09/2021

68


� Qu’en est-il des variance (suite) ?

◦ On en déduit que:

Z ye��

� _∑ z�

� _ y ,e��

� � 1 � \

◦ De là, on peut également déduire que:

Z∑ z�

y ,e��

� _ � _∑ z�

ye��

� � 1 � \



� Qu’en est-il des variance (suite) ?� Exemple: si la variance mesurée sur 10 données est de 60, dans

quel intervalle la vraie variance σ² a-t-elle 95% de chance de se

trouver ?

� Solution:

� S² = 60 => Σx² = (10-1)*S² = 540

� χ²0.025(9) = 2.700, χ²0.975(9) = 19.023

� P(540/19.023 < σ² < 540/2.700) = 0.95

=> P(28.287 < σ² < 200.000) = 0.95

� Remarquez que cet IC n’est pas symétrique autour de l’estimateur

ponctuel.


Documents

Cours 6 Biostatistique - uliege.be