Upload
others
View
9
Download
2
Embed Size (px)
Citation preview
09/09/2021
1
Cours VETE2111-1
Tests et modélisations statistiques22h Th, 10h Pr, 4h TD – 5 crédits
F. Farnir, L. Massart, A. Rives
Organisation du coursa) Cours théoriques
Quand ? Ou ? Quoi ?
15/09 – 08h30 Amphi A Rappels + tests t
17/09 – 10h30 Amphi A Intervalles de confiance
22/09 – 08h30 Amphi A F et ANOVA 1
24/09 – 10h30 Amphi A ANOVA 1 (suite) + exercices
29/09 – 15h30 Amphi A ANOVA II + exercices
01/10 – 10h30 Amphi A ANOVA II i et h + exercices
07/10 – 13h30 Amphi A Régression linéaire
08/10 – 15h30 Amphi A Régressions multiple et curviligne
14/10 – 13h30 Amphi A Corrélation
15/10 – 15h30 Amphi A Tests non paramétriques
21/10 – 13h30 Amphi A Récapitulatif
09/09/2021
2
Organisation du coursb) Travaux dirigés (exercices)
Seulement 2 séances (c’est trop peu !)
Quand ? Ou ? Qui ? Quoi ?
06/10 – 08h30 Amphi A B TD1
07/10 – 10h30 Amphi A A TD1
22/10 – 08h30 Amphi A A TD2
25/10 – 08h30 Amphi A B TD2
A = groupes 1 à 6
B = groupes 7 à 12
Organisation du coursc) Travaux pratiques (exercices sur ordinateurs)
=> Cfr CELCAT:
https://my.horaires.uliege.be
Salle info a b c
TP 1 30/09 – 08:30 04/10 – 10:30 29/09 – 08:30
TP 2 11/10 – 10:30 08/10 – 08:30 14/10 – 08:30
TP 3 28/10 – 10:30 27/10 – 08:30 27/10 – 10:30
TP 4 02/11 – 08:30 22/11 – 08:30 09/11 – 08:30
TP 5 30/11 – 08:30 07/12 – 08:30 17/11 – 08:30
a = groupes 1 à 4
b = groupes 5 à 8
c = groupes 9 à 12
09/09/2021
3
Organisation du coursd) Evaluations
• 1) Evaluations en 01/2021
• En principe, en salle informatique (cfr BMV1)
• Stat II (A)
• QCM informatisé (cfr BMV1)
• Pondération dans la note finale: 2/3
• TP II (B)
• Exercices sur logiciels (Excel et R)
• Pondération dans la note finale: 1/3
• Note globale (NG)
• min(A,B) < 8/20 => NG = min(A,B)
• min(A,B) ≥ 8/20 => NG = (2*A + B)/3
• Dispense partielle possible si A ou B ≥ 10/20
09/09/2021
4
Organisation du coursd) Evaluations
• 2) Evaluations en 09/2020
• En principe, en salle informatique (cfr BMV1)
• Mêmes modalités
• En cas d’échec (NG < 10/20)
• Dispense partielle possible si A ou B ≥ 12/20
Les tests d’hypothèses:
un bref rappel
F. Farnir, L. Massart, E. Moyse
09/09/2021
5
Rappel: les tests d’hypothèse
Rappelez vous que:
Partant d’une hypothèse initiale (« hypothèse nulle »,
p.e. π = 0.5), il est possible d’arriver à une conclusion
sur cette hypothèse (p.e. l’hypothèse est
vraisemblablement fausse).
La conclusion était basée sur des arguments
probabilistes, et était elle-même probabiliste
(p.e. l’hypothèse est vraisemblablement fausse).
Cette démarche a été développée pour certaines
situations en BMV1
9Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche
Il s’agit de la démarche classique des tests
d’hypothèses.
Choisir l’hypothèse de départ, appelée
hypothèse nulle (H0)
Choisir une hypothèse alternative H1 (qui sera
considérée vraie si H0 est considérée fausse)
Récolter des données permettant de corroborer
ou de rejeter H0.
10Cours VETE2111-1 Année académique 2021-2022
09/09/2021
6
(Suite de la démarche)
Calculer la probabilité des observations si H0 est
vraie: Cette probabilité est appelée « valeur p »
(p-value) du test
Si la valeur p est inférieure à un seuil α, décider
que l’hypothèse nulle n’est pas soutenue par les
données et la rejeter.
Dans le cas contraire, décider que l’hypothèse
nulle est soutenue par les données et l’accepter.
11Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche (suite)
L’aspirine protège-t-elle contre les AVC?
Hypothèse nulle H0: πA = πP
(en français: la proportion d’AVC parmi la sous-
population qui prend de l’aspirine est identique à
celle de la sous-population prenant un placebo)
Hypothèse alternative H1: πA < πP
(en français: la proportion d’AVC parmi la sous-
population qui prend de l’aspirine est inférieure à
celle de la sous-population prenant un placebo)
12Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche (exemple)
09/09/2021
7
L’aspirine protège-t-elle contre les AVC?
Remarque: on ne considère pas la situation πA > πP
(en français: on ne considère pas un éventuel effet
délétère de l’aspirine sur le taux d’apparition d’AVC)
On ne s’intéresse donc qu’à la question de savoir si
l’aspirine a un effet bénéfique (H1) ou pas (c’est-à-dire pas
d’effet ou un effet négatif)
Un tel test est dit « unilatéral »
13Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche (exemple)
L’aspirine protège-t-elle contre les AVC?
Récolte de données (étude prospective)
14Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche (exemple)
98 902
AVC Pas d’AVC
Aspirine
Placebo 882118
1000
1000
216 1784
09/09/2021
8
L’aspirine protège-t-elle contre les AVC?
15Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche (exemple)
• https://www.socrative.com/• Student login• Room name: FARNIR => JOIN• Entrez: Nom, Prénom => DONE• Choisissez une réponse A, B, C, D ou E => SUBMIT
Introduction
L’aspirine protège-t-elle contre les AVC?
Calcul de la statistique χ²
Le calcul des attendus sous l’hypothèse nulle permet de
calculer la statistique χ² (cfr BMV1)
On obtient: χ² = 2,076 avec 1 degré de liberté (vérifiez...)
Calcul de la valeur p
On peut utiliser un logiciel (excel, R, ...) pour obtenir la
probabilité d’une valeur de χ² ≥ 2,076
En R: pchisq(2.076,df=1,lower.tail=FALSE) => p = 0.1496
16Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche (exemple)
09/09/2021
9
L’aspirine protège-t-elle contre les AVC?
Conclusion statistique
La probabilité est supérieure au seuil classique α = 0.05
L’hypothèse nulle est donc supportée à ce seuil: pas d’effet
avéré de l’aspirine sur l’occurrence d’AVC (dans cette
expérience et à ce seuil)
17Cours VETE2111-1 Année académique 2021-2022
Rappel de la démarche (exemple)
18
Ne court-on pas le risque de se
tromper ?
Si ! Deux erreurs sont envisageables:
OK !Erreur type I
α
H0 acceptée H0 rejetée
H0 vraie
H0 fausse OK !Erreur type II
β
Cours VETE2111-1 Année académique 2021-2022
09/09/2021
10
19
Une mesure de la « qualité du test »?
Une mesure est la « puissance du test »:
P(H0 rejetée | H0 fausse)
En clair: la probabilité de détecter un
effet réel.
Mathématiquement: P = 1 - β
OK !Erreur type I
α
H0 acceptée H0 rejetée
H0 vraie
H0 fausse OK !Erreur type II
βCours VETE2111-1 Année académique 2021-2022
20
Illustration de la puissance ?
Exercice (script) en R
mypower.R
β=β(n,d,α)
Cours VETE2111-1 Année académique 2021-2022
09/09/2021
11
Quelles sont les autres situations ?
21Cours VETE2111-1 Année académique 2021-2022
Tests de χ²
(cfr BMV1)
Régression
logistique
Discrète Continue
Discrète
Continue RégressionsComparaison
moyennes
Variable
indépendante
Variable
dépendante
Les comparaisons de moyennes
F. Farnir, L. Massart, A. Rives
09/09/2021
12
Une situation simple
� Considérons le problème suivant:
◦ Dans une race de chevaux de course, la fréquence
cardiaque au repos a une distribution supposée
connue (normale, de moyenne 70 bpm et de déviation
standard 5 bpm).
◦ Un échantillon de 9 chevaux est soumis à un
entrainement intensif. A l’issue de l’entrainement, la
fréquence cardiaque moyenne au repos de ces
chevaux vaut 65 bpm.
◦ Peut-on conclure à un effet de l’entrainement sur la
fréquence cardiaque (FC) ?
Cours VETE2111-1 Année académique 2021-2022 23
Une situation simple
� Plus formellement:
◦ Une population est normale: X ~ N(µ,σ), et les
paramètres (µ = 70 ,σ = 5) sont supposés connus.
◦ On dispose d’un échantillon de taille n = 9 et
de moyenne m = 65
◦ La question est:
considère-t-on l’hypothèse (nulle) selon laquelle cet
échantillon provient de la population N(µ,σ)
corroborée ?
Cours VETE2111-1 Année académique 2021-2022 24
09/09/2021
13
Une situation simple
� Plus formellement (suite):
◦ La question est:
considère-t-on l’hypothèse (nulle) selon laquelle cet
échantillon provient de la population N(µ,σ)
corroborée ?
◦ La réponse sera oui si la probabilité d’un tel résultat
est > α = 5%, et non dans le cas inverse.
◦ Tester l’hypothèse revient donc à calculer la
probabilité (appelée « valeur p ») de ce résultat sous
l’hypothèse nulle
Cours VETE2111-1 Année académique 2021-2022 25
Une situation simple
� Question:
◦ Comment calculer la probabilité qu’une moyenne m de 9 mesures s’écarte aussi fort, voire plus fort de la moyenne µ de la population (des moyennes de 9 mesures) si l’hypothèse nulle est vraie (c-à-dsi µ = 70) ?
Cours VETE2111-1 Année académique 2021-2022 26
09/09/2021
14
Une situation simple
� Graphiquement: combien vaut la probabilité
« à gauche » de m ?
Cours VETE2111-1 Année académique 2021-2022 27
Une situation simple
� Solution empirique:
◦ Simuler des échantillons sous H0 et compter la
proportion d’échantillons dont la moyenne < 65
Cours VETE2111-1 Année académique 2021-2022 28
> compte<-0
> nb_simulations<-10000
> for (simulation in 1:nb_simulations) {
+ echantillon<-rnorm(9,mean=70,sd=5)
+ m<-mean(echantillon)
+ if (m<65) { compte<-compte+1 }
+ }
> p_valeur<-compte/nb_simulations
> p_valeur
[1] 0.0016
09/09/2021
15
Une situation simple
� Solution plus formelle - théorie:
◦ m est la moyenne d’un échantillon provenant d’une distribution de moyenne µ et de déviation standard σ◦ TLC => m ~ N(µ , σ/√n)
=> z = (m - µ)/(σ/√n)
◦ Test unilatéraux (H1 et H2) ou bilatéral (H3)H1: µe < µ => P1 = P(zth < z)H2: µe > µ => P2 = P(zth > z)H3: µe ≠ µ => P3 = P1 + P2
◦ P < α => rejet de H0.P > α => acceptation de H0.
Cours VETE2111-1 Année académique 2021-2022 29
Une situation simple
� Solution plus formelle - calculs:
◦ H0: µe = µoù µe est la « moyenne des entrainés ».
◦ H1: µe < µ (test unilatéral gauche)
◦ z = (65 – 70) / (5/ √9) = -3
◦ P = P(zth < -3) = 0.0013 < α = 0.05
◦ Rejet de l’hypothèse nulle. On en déduit que l’entrainement diminue la fréquence cardiaque (dans certaines limites…)
Cours VETE2111-1 Année académique 2021-2022 30
09/09/2021
16
Une question supplémentaire
� Que faire si on ne connait pas σ ?
◦ Le plus intuitif est probablement d’estimer σ à partir des données dont on dispose (on calcule s), et d’utiliser l’estimation en lieu et place de σ:
=> z ≈ (m - µ)/(s/√n)
◦ Le problème est que, dans cette expression, on a remplacé une constante par une variable, ce qui va modifier la distribution, qui n’est plus normale:
=> t = (m - µ)/(s/√n)
Cours VETE2111-1 Année académique 2021-2022 31
t de Student
Une question supplémentaire
� Une simulation
◦ Simulons les distributions qu’on obtient pour le
problème donné plus haut en supposant tout d’abord σconnue (on devrait alors retrouver une normale) et puis
en supposant σ inconnue
(pour obtenir la distribution de t)
Cours VETE2111-1 Année académique 2021-
2022 32
09/09/2021
17
Cours VETE2111-1 Année académique 2021-
2022 33
# Parametres
mu<-70
sigma=10
n<-9
#
nb_permut<-10000
t<-rep(0,nb_permut)
z<-rep(0,nb_permut)
# Boucle
for (i in 1:nb_permut) {
sample<-rnorm(n,mu,sigma)
m<-mean(sample)
s<-sd(sample)
z[i]<-(m-mu)/(sigma/sqrt(n))
t[i]<-(m-mu)/(s/sqrt(n))
};
# Affichage
plot(density(t),col="red",main="Comparaison z -
t",xlim=c(-5,5),ylim=c(0,0.5))
lines(density(z),col="blue")
Cours VETE2111-1 Année académique 2021-2022 34
09/09/2021
18
Une question supplémentaire
� Résultats
◦ Les distributions obtenues pour t sont plus étalées que celles obtenues pour z
◦ Les distributions (et donc aussi les valeurs seuil) varient en fonction de la taille de l’échantillon…
� Il y aura donc une famille de distributions, paramétrée par un paramètre dépendant de n: on utilise en général «le dénominateur utilisé pour le calcul de s », et on nomme ce paramètre « degrés de liberté »� Dans notre exemple: ddl = (n-1) = 8
Cours VETE2111-1 Année académique 2021-2022 35
Une question supplémentaire
� Exercice
◦ Calculer par simulation les valeurs de t avec 8
degrés de liberté qu’on ne dépasse qu’avec
une probabilité de 0.10, 0.05, 0.025, 0.01 et
0.005.
Cours VETE2111-1 Année académique 2021-2022 36
Percentile Expérimental Théorique
P(90) 1,413787103 1,3968153
P(95) 1,885880746 1,859548
P(97.5) 2,315094159 2,3060041
P(99) 2,90189636 2,8964594
P(99.5) 3,340581836 3,3553873
09/09/2021
19
Cours VETE2111-1 Année académique 2021-
2022 37
# Parametres
mu<-70
sigma=10
n<-9 # => ddl = 8
#
nb_permut<-10000
t<-rep(0,nb_permut)
# Boucle
for (i in 1:nb_permut) {
sample<-rnorm(n,mu,sigma)
m<-mean(sample)
s<-sd(sample)
t[i]<-(m-mu)/(s/sqrt(n))
};
# Affichage
ts<-sort(t)
cat(« seuil 5% = »,ts[0.95*nb_permut], «\n »)
cat(« seuil 1% = »,ts[0.99*nb_permut], «\n »)
cat(« seuil 0.1% = »,ts[0.999*nb_permut], «\n »)
Tables de t
� On pourrait construire de manière similaire:
Cours VETE2111-1 Année académique 2021-2022 38
ddl P(0.900) P(0.950) P(0.975) P(0.990) P(0.995)
1 3,078 6,314 12,706 31,821 63,657
2 1,886 2,92 4,303 6,965 9,925
3 1,638 2,353 3,182 4,541 5,841
4 1,533 2,132 2,776 3,747 4,604
5 1,476 2,015 2,571 3,365 4,032
6 1,44 1,943 2,447 3,143 3,707
7 1,415 1,895 2,365 2,998 3,499
8 1,397 1,86 2,306 2,896 3,355
9 1,383 1,833 2,262 2,821 3,25
10 1,372 1,812 2,228 2,764 3,169
11 1,363 1,796 2,201 2,718 3,106
12 1,356 1,782 2,179 2,681 3,055
13 1,35 1,771 2,16 2,65 3,012
14 1,345 1,761 2,145 2,624 2,977
15 1,341 1,753 2,131 2,602 2,947
16 1,337 1,746 2,12 2,583 2,921
17 1,333 1,74 2,11 2,567 2,898
18 1,33 1,734 2,101 2,552 2,878
19 1,328 1,729 2,093 2,539 2,861
20 1,325 1,725 2,086 2,528 2,845
30 1,31 1,697 2,042 2,457 2,75
100 1,29 1,66 1,984 2,364 2,626
1000 1,282 1,646 1,962 2,33 2,581
Voir syllabus…
09/09/2021
20
Tables de t
� Remarque
◦ Quand la taille de l’échantillon augmente,
l’esYmaYon de la variance s’améliore (s → σ), et
donc la valeur de t se rapproche de celle de z,
comme en témoignent les seuils de t quand le
nombre de degrés de liberté devient grand…
Cours VETE2111-1 Année académique 2021-2022 39
ddl P(0.900) P(0.950) P(0.975) P(0.990) P(0.995)
30 1,31 1,697 2,042 2,457 2,75
100 1,29 1,66 1,984 2,364 2,626
1000 1,282 1,646 1,962 2,33 2,581
z 1,282 1,645 1,96 2,326 2,576
En résumé
� Dans la situation où on confronte 1
échantillon, de moyenne m et de
déviation standard s, à une distribution
normale de moyenne µ
◦ Si σ est connue:
� utiliser z = (m-µ)/(σ/√n)
◦ Si σ est inconnue:
� utiliser t = (m-µ)/(s/√n) avec (n-1) degrés de liberté
Cours VETE2111-1 Année académique 2021-2022 40
09/09/2021
21
Schématiquement
Cours VETE2111-1 Année académique 2021-2022 41
1 moyenne
σ² connu
n
Xz
σµ−=
n>30
ns
Xt
n
µ−=−1
autres situations
Et maintenant ?
Cours VETE2111-1 Année académique 2021-2022 42
1 moyenne
σ² connu
n
Xz
σµ−=
n>30
ns
Xt
n
µ−=−1
2 moyennes
09/09/2021
22
Exemple introductif
� La problématique:
Un vétérinaire souhaite tester l’efficacité
d’un régime alimentaire sur l’évolution
pondérale de chiens en surpoids. Il
procède à une étude prospective sur deux
lots balancés de chiens pour lesquels la
seule différence (volontaire) est le régime
(classique ou nouveau).
Comment comparer ces deux groupes ?
Cours VETE2111-1 Année académique 2021-2022 43
Exemple introductif
� La solution :
Mettre cette expérience sous la forme
d’un test d’hypothèse, et utiliser la
démarche classique du test d’hypothèse…
Cours VETE2111-1 Année académique 2021-2022 44
09/09/2021
23
Exemple introductif
� Hypothèse testée (hypothèse nulle):
H0: µC = µT
� µC représente la moyenne de la population des
poids des chiens recevant le régime classique (C).
� µT représente la moyenne de la population des
poids des chiens recevant le régime testé (T).
Cours VETE2111-1 Année académique 2021-2022 45
Exemple introductif
� Hypothèse alternative:
H1: µC > µT
◦ On est intéressé uniquement de savoir si le
régime testé conduit à un poids adulte
inférieur en moyenne à celui des individus
recevant l’alimentation classique
(test unilatéral gauche).
Cours VETE2111-1 Année académique 2021-2022 46
09/09/2021
24
Exemple introductif
o Récolte de données:
Cours VETE2111-1 Année académique 2021-2022 47
Exemple introductif
� Discussion (1):
◦ Pas de tendance claire au niveau individuel…
◦ Il serait assez naturel de prendre une mesure de
position (typiquement, la moyenne…) sur les 2
échantillons et d’utiliser cette mesure comme
estimation de la tendance observée:
XC = 21.45 kg
XT = 20.64 kg
=> XC - XT = 0.81 kg > 0…
Cours VETE2111-1 Année académique 2021-2022 48
_
_
__
09/09/2021
25
Exemple introductif
� Discussion (2):
◦ La différence va dans le sens escompté…
◦ Mais elle n’est mesurée que sur un échantillon et rien
ne garantit que ce résultat peut être étendu à toute la
population:
Cours VETE2111-1 Année académique 2021-2022 49
��� � ��� ⇏ �� � ��
Exemple introductif
� Discussion (3):
◦ Comment s’assurer que cette différence est
« significative » ?
◦ En d’autres mots, comment s’assurer que la
probabilité d’une telle différence, alors que
l’hypothèse nulle est vraie, est < α ?
Cours VETE2111-1 Année académique 2021-2022 50
09/09/2021
26
Exemple introductif
� Discussion (4):
◦ Idée: si l’hypothèse nulle est vraie, les données
ne sont réparties dans les colonnes de la
manière observée que par hasard, chaque
observation avait la même chance d’être dans
la première ou dans la seconde colonne
Cours VETE2111-1 Année académique 2021-2022 51
Exemple introductif
� Discussion (5):
◦ Idée (suite):
=> en mélangeant les données entre les deux colonnes,
tout se passe comme si on obtenait de nouveaux
échantillons, générés sous H0. On pourrait pour chacun
de ces « nouveaux » échantillons calculer la différence
entre les moyennes et vérifier si on observe rarement ou
pas des différences telles que celle réellement observée
(0.81)…
Cours VETE2111-1 Année académique 2021-2022 52
09/09/2021
27
Exemple introductif
� Discussion (6):
◦ Combien de (pseudo) échantillons peut-on générer ?
Le premier groupe peut comprendre n’importe quelle
combinaison de 10 individus pris parmi les 20. Le nombre
de possibilités est donc:
Cours VETE2111-1 Année académique 2021-2022 53
184756!10!*10
!2010
20 ==C
Exemple introductif
� Résultat (1):
◦ En générant tous ces pseudo-échantillons, on
s’aperçoit que la différence qui nous intéresse est
atteinte ou dépassée dans 53784 cas.
◦ La probabilité d’atteindre ou de dépasser une telle
différence vaut donc:
Cours VETE2111-1 Année académique 2021-2022 54
2911.0184756
53784)81.0( ==>DP
09/09/2021
28
Exemple introductif
� Résultat (2):
◦ P = 0.2911 > α = 0.05
◦ L’hypothèse nulle (égalité des moyennes) est donc
acceptée: le nouveau régime n’a pas un effet
significatif sur le poids.
Cours VETE2111-1 Année académique 2021-2022 55
Exemple introductif
� Problème:
◦ Très fastidieux…
Cours VETE2111-1 Année académique 2021-2022 56
09/09/2021
29
Exemple introductif
� Une solution moins coûteuse (mais moins
précise):
« échantillonner les (pseudo-)échantillons »
◦ On prend N (p.e. 1000) des pseudo-échantillons
au hasard, et on évalue la proportion de ces N
pseudo-échantillons pour laquelle D ≥ 0.81
Cours VETE2111-1 Année académique 2021-2022 57
� Une solution moins coûteuse (mais
moins précise):
« échantillonner les échantillons »
Cours VETE2111-1 Année académique 2021-2022 58
# Donnees
nouveau<-c(20.6,16.4,23.7,22.8,20.0,22.7,17.1,22.0,22.9,18.2)
ancien<-c(18.6,20.2,23.9,26.7,16.6,25.1,24.7,19.3,23.3,16.1)
diff<-mean(ancien)-mean(nouveau)
tous<-c(nouveau,ancien)
# Boucle de calcul
n<-0
nb_perm<-10000
for (i in 1:nb_perm) {
melange<-sample(tous,20,replace=F)
d<-mean(melange[11:20])-mean(melange[1:10])
if (d>=diff) { n<-n+1 }
}
# Affichage des résultats
cat("# d > ",diff," = ",n,"\n")
p_valeur<-1.0*n/nb_perm
cat("=> p-valeur =",p_valeur,"\n")
09/09/2021
30
Exemple introductif
� Résultat (3):
◦ P ≈ 0.286 > α = 0.05
◦ Le résultat:
� varie aléatoirement de sous-ensemble (de pseudo-
échantillons) en sous-ensemble…
� est très similaire à celui obtenu en exploitant tous
les pseudo-échantillons.
� Si N grand assez…
� moins fastidieux … mais toujours fastidieux !
� une solution plus simple reste désirable !
Cours VETE2111-1 Année académique 2021-2022 59
De manière plus générale
� Imaginons à présent une situation similaire, mais différente:◦ Deux échantillons sont prélevés dans une
population. Chaque échantillon est ensuite mis dans des conditions différentes. Par exemple:� Régime 1 – Régime 2
� Traitement – Placebo
� Traitement 1 – Traitement 2
� …
◦ La question: cette différence de conditions entraine-t-elle une différence de moyennes sur le caractère étudié ?
Cours VETE2111-1 Année académique 2021-2022 60
09/09/2021
31
De manière plus générale
� Hypothèse nulle :
◦ H0: µ1 = µ2 => H0: µ1 - µ2 = 0
◦ L’hypothèse est donc que les « traitements » n’ont pas conduit à des moyennes différentes
� Soit les moyennes correspondent à la moyenne de la population d’origine (p.e. Placebo)
� Soit les traitements ont le même effet sur la moyenne.
◦ Une hypothèse plus générale serait: H0: µ1 - µ2 = δ, où δ est une valeur éventuellement égale à 0.
� Hypothèses alternatives :
◦ H1: µ1 - µ2 ≠ δ ou H2: µ1 - µ2 > δ ou H3: µ1 - µ2 < δ
Cours VETE2111-1 Année académique 2021-2022 61
Une approche plus math...
� Résolution:
◦ On raisonne sur
◦ « La différence de deux variables normales
indépendantes est distribuée normalement (TLC)»
◦ Donc:
� Calculons ��� et �� pour pouvoir faire les calculs de
probabilité nécessaires.
Cours VETE2111-1 Année académique 2021-2022 62
� �� � ���
� �� � ���~� ��� , ��
09/09/2021
32
Une approche plus math...
� Résolution (2): on applique le TLC:
(car les 2 échantillons sont indépendants)
Cours VETE2111-1 Année académique 2021-2022 63
��� � � � � �� � ��� � � �� � � ��� � � � ��
��� � � � ���
�� � �� � ��� � � � ��
�� � �� � � � ��� � ��
�
� � �� � � � � ��� � ��
� � 2 ∗ �� � � ∗ ��� � ��
� �
� � � �
�
��� � 2 ∗ ��� �� , ��� �
�
� � � �
�
���
Une approche plus math...
� Résolution (3):
◦ En résumé: ~� � � ��, ���
��� ��
�
��
◦ Cas particulier: � � �
� � �
� Par exemple, deux traitements appliqués sur la même population d’origine,
et on suppose que le traitement n’a pas altéré la variance. Alors:
et
Cours VETE2111-1 Année académique 2021-2022 64
~� � � ��, ∗1
� �
1��
" � � � � ��
∗ 1�
� 1��
09/09/2021
33
Un exemple: problème
� Un traitement médicamenteux pour combattre
l’hyperaldostéronisme (production excessive de l’aldostérone, une
hormone impliquée notamment dans le maintien de la fonction
cardiaque => voir le cours de physio) est testé sur une série de
patients, d’autres patients recevant un placebo.
� Suite à 2 semaines de traitement, les concentrations d’aldostérone
sont comparées pour les deux lots de 5 patients, pour tester si
l’effet du traitement médicamenteux est avéré.
� Les données sont présentées sur la dia suivante. On suppose:
◦ Une unité de mesure commune a été choisie
◦ Le traitement modifie éventuellement la concentration moyenne, mais
n’a pas d’effet sur la variation: la variance de cette concentration dans
la population est connue, et vaut: � � 225
Cours VETE2111-1 Année académique 2021-2022 65
Un exemple: données
Cours VETE2111-1 Année académique 2021-2022 66
Placebo Traitement
96,4 94,8
125,5 106,5
92,6 107,3
112,0 75,7
118,9 62,6
• https://www.socrative.com/• Student login• Room name: FARNIR => JOIN• Entrez: Nom, Prénom => DONE• Choisissez une réponse A, B, C, D ou E => SUBMIT
2 échantillons
09/09/2021
34
Cours VETE2111-1 Année académique 2021-2022 67
1 moyenne
2 moyennes
σ² connu
n
Xz
σµ−=
n>30
ns
Xt
n
µ−=−1
σ1², σ2² connus
( ) ( )
2
2
2
1
2
1
2121
nn
XXz
σσµµ
+
−−−=
Un autre problème
� Reprenons l’exemple introductif de comparaison des deux
régimes:
� Le problème est similaire au précédent, à la différence près
qu’on ne connait pas la variance � dans la population...
Cours VETE2111-1 Année académique 2021-2022 68
09/09/2021
35
Un autre problème (suite)
� Une idée, comme dans le cas d’un seul échantillon, serait
alors d’estimer cette variance (supposée encore une fois
commune aux deux sous-populations) sur base des deux
échantillons disponibles
� Pour estimer �, on peut prendre une moyenne (pondérée
par les tailles des échantillons, pour donner plus de poids à
la moyenne la mieux estimée) des variances $ � et $�
�
estimées à partir des deux échantillons:
Cours VETE2111-1 Année académique 2021-2022 69
$�� �
� � 1 ∗ $ � � �� � 1 ∗ $�
�
� � 1 � �� � 1�
∑ & ' � &� � � ∑ &�' � &��
�'(��'(
'(��'(
� � �� � 2
Un autre problème (suite)
� Comme précédemment, on remplacera l’utilisation de la
statistique Z par celle de la statistique t, avec un nombre de
degrés de liberté égal au dénominateur du calcul de la
variance
◦ Donc, ici:
◦
⇒ * � � � �� � 2
◦ Et la statistique est: + � ��, -�,-�
./∗ �0�
1 �0�
Cours VETE2111-1 Année académique 2021-2022 70
$�� �
∑ & ' � &� � � ∑ &�' � &��
�'(��'(
'(��'(
� � �� � 2
09/09/2021
36
� Application:
◦ Reprenons les données de l’exemple
Cours VETE2111-1 Année académique 2021-
2022 71
147.14
900.6
45.21
64.20
2
2
2
1
2
1
====
s
s
X
X
Un autre problème: calculs
Un autre problème: calculs
� Application:
◦ L’hypothèse testée est: H0: µ1 - µ2 = δ = 0
◦ L’alternative d’intérêt est:
H1: µ1 - µ2 = δ < 0 (test unilatéral)
◦ On a deux échantillons issus d’une même population mais ayant subi des régimes différents
� On suppose σ1² = σ2² = σ²
� σ² est inconnu => on emploiera le test de t et σ² sera estimée à partir des deux échantillons
Cours VETE2111-1 Année académique 2021-2022 72
09/09/2021
37
� Application:◦ t = [(20.64 – 21.45) – 0]/[s*√(1/10 + 1/10)]
= -1.811/s
◦ s²= (9 * 6.900 + 9 * 14.147)/(9 + 9)= 10.524
=> t = -1.811/3.244 = -0.558
◦ P = P(t18 < -0.558) = 0.292 (cfr résultats obtenus ↑)� pt(-0.558, df=18) => [1] 0.2918594
◦ L’hypothèse nulle est acceptée: pas d’effet du traitement
Cours VETE2111-1 Année académique 2021-2022 73
Un autre problème: calculs
L’exemple avec R…
� L’exemple introductif avec R…
Cours VETE2111-1 Année académique
2021-2022 74
Fichier de données: "regime.txt"
> f<-read.table(file="regime.txt",head=T,sep="\t")
> t.test(f$Nouvelle.formule,f$Ancienne.formule,
var.equal=T,alternative="l")
Two Sample t-test
data: f$Nouvelle.formule and f$Ancienne.formule
t = -0.5583, df = 18, p-value = 0.2918
alternative hypothesis: true difference in means
is less than 0
95 percent confidence interval:
-Inf 1.705747
sample estimates:
mean of x mean of y
20.64 21.45
09/09/2021
38
Un autre problème: remarques
� Remarques:
1. Si σ1² ≠ σ2², on utilise un test approximatif, appelé « test t
de Welch »:
+2 3 � ��, -�,-�
4��
0�1
4��
0�
où:
Cours VETE2111-1 Année académique 2021-2022 75
Un autre problème: remarques
� Remarques:
2. Tous les tests présentés font intervenir (� � ��).
Si l’hypothèse nulle est:
56: � � �� ⇔ 56: � � �� � 0on remplace :� ���; par 0
Si l’hypothèse nulle est:
56: � � �� � <où < est une grandeur connue, on remplace :� ���;par <
Cours VETE2111-1 Année académique 2021-2022 76
09/09/2021
39
Cours VETE2111-1 Année
académique 2021-2022 77
1 moyenne
2 moyennes
σ² connu
n
Xz
σµ−=
n>30
ns
Xt
n
µ−=−1
σ1², σ2² connus
( ) ( )
2
2
2
1
2
1
2121
nn
XXz
σσµµ
+
−−−=
σ1²≠ σ2²
( ) ( )
2
2
2
1
2
1
2121
n
s
n
s
XXtWelch
+
−−−≈ µµ
σ1²= σ2² +��1��,� ��� � ��� � � � ��
>? ∗ 1�
� 1��
t ou z ?
� Règle:
◦ Quand la variance σ² des données est inconnue, elle
doit être estimée par s² et on utilise alors t plutôt que
z.
◦ Mais:
� Quand n ↑, t → z et il est raisonnable d’uYliser z
(typiquement, quand n > 30)
� Toutefois, l’hypothèse d’une population distribuée
normalement reste nécessaire, qu’on emploie t ou z
Cours VETE2111-1 Année académique 2021-2022 78
09/09/2021
40
Cours VETE2111-1 Année
académique 2021-2022 79
1 moyenne
2 moyennes
σ² connu
n
Xz
σµ−=
n>30
ns
Xt
n
µ−=−1
σ1², σ2² connus
( ) ( )
2
2
2
1
2
1
2121
nn
XXz
σσµµ
+
−−−=
σ1²≠ σ2²
( ) ( )
2
2
2
1
2
1
2121
n
s
n
s
XXtWelch
+
−−−≈ µµ
σ1²= σ2²
+��1��,� ��� � ��� � � � ��
>? ∗ 1�
� 1��
n1+n2-2>30
Une question supplémentaire
� Quel est le risque de travailler avec de « petits échantillons » ?
◦ Puissance faible (P ↑ quand n↑)
◦ Biais dans l’échantillon� « Confusion » d’effets
Cours VETE2111-1 Année académique 2021-2022 80
Traitement 1 Traitement 2
09/09/2021
41
Une question supplémentaire
� Quel est le risque de travailler avec de
« petits échantillons » ?
◦ Puissance faible (P ↑ quand n↑)
◦ Biais dans l’échantillon
� Influence importante d’informations individuelles
Cours VETE2111-1 Année académique 2021-2022 81
Traitement 1 Traitement 2
Une question supplémentaire
� Quel est le risque de travailler avec de
« petits échantillons » ?
◦ Il est donc nécessaire de « balancer » les
observations dans les deux groupes.
Cours VETE2111-1 Année académique 2021-2022 82Cours VETE2111-1 Année académique 2019-2020
Traitement 1 Traitement 2
09/09/2021
42
Analyse de données « pairées »
� Considérons l’analyse suivante:
on a dosé l’hydroxyproline dans 5 muscles avec deux
méthodes (A et B). Voici les résultats:
Les deux méthodes donnent-elles le même résultat ?
Cours VETE2111-1 Année académique 2021-2022 83
Muscle A B
Ilio spinal
Gluteus Medius
Gracilis
Brachial
Tr. Femoram
12
11
13
8
8
9
11
10
7
9
Analyse de données « pairées »
� Hypothèse nulle:
Les deux méthodes donnent les mêmes résultats, et
donc:
H0: µ1 = µ2 => H0: δ = µ1 - µ2 = 0
H1: δ ≠ 0 (bilatérale)
� L’idée: en travaillant avec la différence entre mesures
faites sur le même muscle, on élimine l’effet individuel !
Cours VETE2111-1 Année académique 2021-2022 84
09/09/2021
43
Analyse de données « pairées »
� Algébriquement:
Notant di = Xi1 – Xi2, on obtient un échantillon
de nd différences,
◦ dont la moyenne estime δ = µ1 - µ2 (H0 : δ = 0)
◦ dont la variance $���peut s’estimer $��
� � .@�
�@
=> utilisation d’un test de t pour un
échantillon de �� différences
(et donc avec �� � 1 degrés de liberté)
Cours VETE2111-1 Année académique 2021-2022 85
dds
d
s
dt =−= δ
Analyse de données « pairées »
� Exemple:
Cours VETE2111-1 Année académique 2021-2022 86
Muscle A B
Ilio spinal
Gluteus Medius
Gracilis
Brachial
Tr. Femoram
12
11
13
8
8
9
11
10
7
9
d = A-B
3
0
3
1
-1
2.1=d 2.32 =ds 64.05/2.3
2 ==d
s
5.18.0/2.1 ==t
( ) ( )( ) 208.044
=−<> ttouttp H0 est acceptée
� Calculs:
pt(-1.5,df=4)+pt(1.5,df=4,lower.tail=F)
09/09/2021
44
Analyse de données « pairées »
� Remarques:
◦ Le nombre de degrés de liberté est nd-1 (= 4) et non
pas n1 + n2 – 2 (=8)
◦ Comme il n’y a qu’un échantillon de valeurs
(différences), il n’ y a pas à se soucier des problèmes
d’homosédasticité.
◦ Ce type d’analyses n’est pas toujours faisable…
� Exemple: régimes sur la croissance
Cours VETE2111-1 Année académique 2021-2022 87
L’exemple avec R...
o Un autre exemple avec R…
Cours VETE2111-1 Année académique 2021-2022 88
Fichier de données: "muscles.txt"
Muscle A B
Ilio spinal
Gluteus Medius
Gracilis
Brachial
Tr. Femoram
12
11
13
8
8
9
11
10
7
9
> f<-read.table(file="muscles.txt",head=T,sep="\t")
> t.test(f$A,f$B,paired=T)
Paired t-test
data: f$A and f$B
t = 1.5, df = 4, p-value = 0.208
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-1.021156 3.421156
sample estimates:
mean of the differences
1.2
09/09/2021
45
Cours VETE2111-1 Année
académique 2021-2022 89
1 moyenne
2 moyennes
σ² connu
n
Xz
σµ−=
n>30
ns
Xt
n
µ−=−1
σ1², σ2² connus
( ) ( )
2
2
2
1
2
1
2121
nn
XXz
σσµµ
+
−−−=
σ1²≠ σ2²
( ) ( )
2
2
2
1
2
1
2121
n
s
n
s
XXtWelch
+
−−−≈ µµ
σ1²= σ2²
+��1��,� ��� � ��� � � � ��
>? ∗ 1�
� 1��
n1+n2-2>30pairées
utiliser
d=X1-X2
Voir chapitreANOVA
≥ 2 moyennes
Comparaison de pourcentages
� Considérons à présent le problème suivant:
15% des bovins d’une région sont porteurs d’une
tare génétique. Testant ses 20 bovins, un éleveur
n’en trouve qu’un qui soit porteur. Cette
observation est-elle compatible avec ce qui était
attendu dans cette région, ou bien peut-on conclure
que cette étable est moins touchée ?
� => On souhaite comparer une proportion
estimée pest = 1/20 avec la proportion
théorique π = 0.15
Cours VETE2111-1 Année académique 2021-2022 90
09/09/2021
46
Comparaison de pourcentages
� Mise sous la forme d’un test d’hypothèse:
H0: πétable = πrégion
H1: πétable < πrégion (unilatéral)
� Le calcul de la probabilité de ce qui a été observé si H0
est vraie peut se faire facilement (et de manière
exacte…)
Cours VETE2111-1 Année académique 2021-2022 91
Comparaison de pourcentages
� Calcul de la probabilité de ce qui a été observé (si H0
est supposée vraie)
=> p = 0.039 + 0.137 = 0.176 > α = 0.05
Cours VETE2111-1 Année académique 2021-2022 92
0
0,05
0,1
0,15
0,2
0,25
0,3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Binomiale B(n=20,p=0.15)
pbinom(1,size=20,prob=0.15)
09/09/2021
47
Comparaison de pourcentages
� L’hypothèse nulle est acceptée (P > α):
on observe pas de différence significative entre la
situation régionale et la situation dans l’étable
Cours VETE2111-1 Année académique 2021-2022 93
Comparaison de pourcentages
� Si la taille de l’échantillon augmente:
◦ Le calcul binomial (direct et exact) devient fastidieux
◦ Il peut être remplacé par un calcul indirect (on passe par z puis on
calcule p(<z)…) et approximatif (on utilise l’approximation
gaussienne de la loi binomiale, vue précédemment)
� On a vu que:
" � AB4C,D
E∗ �FE0
� Dans notre exemple: " � 6,6G,6, GH,�I∗H,JI
�H
� �1,252
=> P(zth ≤ -1.252) = 0.105 > α = 0.05
Cours VETE2111-1 Année académique 2021-2022 94
09/09/2021
48
19
Comparaison de pourcentages
� Remarque:
◦ Comme il a été dit auparavant, cette approximation a
des limitations…
◦ Rappelons que ce test est équivalent à un test de χ²:
χ² = (3-1)²/3 + (17-19)²/17 = 1.569 = z² = (-1.252)²
Cours VETE2111-1 Année académique 2021-2022 95
Observés
Attendus
Porteurs Sains
1
3 17
15/34 = 0.441219
Comparaison de pourcentages
� Que faire si on compare deux pourcentages
observés (plutôt qu’un pourcentage observé à
un pourcentage prévu) ?
◦ Exemple:
Cours VETE2111-1 Année académique 2021-2022 96
Trait 1
Trait 2
Guéris Malades
15
12 48
%
12/60 = 0.2000
►
►
09/09/2021
49
Comparaison de pourcentages
� Mise sous la forme d’un test d’hypothèse:
H0: π1 = π2 = πH1: π1 ≠ π2 (hyp. bilatérale)
� On peut suivre la même approche que celle suivie plus
haut (comparaison de 2 moyennes), et calculer Z si H0 est
vraie:
Cours VETE2111-1 Année académique 2021-2022 97
+−
−=
−+−
−−−=
21
21
2
22
1
11
2121
11)1(
)(
)1()1(
)()(
nn
pp
nn
ppZ
ππππππππ
15/34 = 0.44121915
12 48 12/60 = 0.2000
27 67
Comparaison de pourcentages
� Problème: on ne connait pas π…
� Solution: on l’estime à partir des données ! (et on
emploie alors t au lieu de z)
Cours VETE2111-1 Année académique 2021-2022 98
Trait 1
Trait 2
Guéris Malades %
►
►
► 27/94 = 0.2872 ► p
► ►
09/09/2021
50
Comparaison de pourcentages
� On obtient donc:
� En pratique:
◦ On emploie souvent z, ce qui équivaut au test de χ² pour tables de contingence (voir dias suivantes)
Cours VETE2111-1 Année académique 2021-2022 99
+−
−=
21
21
11)1(
)(
nn
ppZ
ππ
+−
−=
21
21
11)1(
)(
nnpp
ppt
=>
avec (n1 + n2 – 2) ddl
Comparaison de pourcentages
� La solution est donc:
" �
1534 � 12
602794 ∗ 67
94 ∗ 134 � 1
60
� 2.483
=> " > 1.96 (seuil bilatéral pour α = 5%)
=> rejet de H0.
� Conclusion: l’efficacité des deux traitement est
différente (cfr H1)
Cours VETE2111-1 Année académique 2021-2022 100
09/09/2021
51
19 34*67/94
Comparaison de pourcentages
� La solution avec une table de contingence:
χ² = 6.166 (= 2.483²) > 3.841 (= 1.96²)
=> Même conclusion !
Cours VETE2111-1 Année académique 2021-2022 101
Trait 1
Trait 2
Guéris Malades
15
12 48
Observés
Trait 1
Trait 2
Guéris Malades
34*27/94
60*27/94 60*67/94
Attendus
m<-matrix(c(15,19,12,48),byrow=T,nr=2)
chisq.test(m,correct=F)
19 34*95/136
Comparaison de pourcentages
� L’avantage de cette solution: extensible aux situations où
on compare plus de deux pourcentages…
χ² = 6.287 => p(χ²th(2) > χ²) = 0.043
=> rejet de H0 pour α = 0.05
Cours VETE2111-1 Année académique 2021-2022 102
Trait 1
Trait 2
Guéris Malades
15
12 48
Observés
Trait 1
Trait 2
Guéris Malades
34*41/136
60*41/136 60*95/136
Attendus
Trait 3 14 28 Trait 2 42*41/136 42*95/136
pchisq(6.287,df=2,lower.tail=F)
09/09/2021
52
Cours VETE2111-1 Année
académique 2021-2022 103
1 proportion
2 proportions
n petit
Loi
binomiale
n grandApprox.
normale
π connu n1+n2-2>30
χ²≥ 2 proportions
+−
−=
21
21
11)1(
)(
nn
ppZ
ππ
+−
−=
21
21
11)1(
)(
nnpp
ppt
Une autre vue des tests
d’hypothèses
� La vue étudiée jusqu’ici:
◦ On calcule un estimateur ponctuel d’un paramètrebasé sur les données
� Exemple: �� estime µ, s estime σ◦ On en déduit une « statistique » basée sur
l’hypothèse H0 impliquant le paramètre et son estimateur
� Exemple: + � �� � � / $ ∗ 1/�
◦ On regarde si cette statistique est probable (on accepte) ou pas (on rejette)
� Exemple: calcul de la « valeur p » et comparaison à α
Cours VETE2111-1 Année académique 2021-2022 104
09/09/2021
53
Une autre vue des tests
d’hypothèses
� La nouvelle vue proposée maintenant:
◦ On remplace l’estimateur ponctuel par un
« intervalle de confiance »
� Plus d’information sur l’estimation, en fournissant de
l’information sur la variabilité de l’estimateur
� Permet également de tester des hypothèses
Cours VETE2111-1 Année académique 2021-2022 105
Une autre vue des tests
d’hypothèses
� La vue étudiée jusqu’ici:
Cours VETE2111-1 Année académique 2021-2022 106
H0
α
données
(X,p,n…)
=> S
_distrib
(z,t,χ²…)P(data|H0)
P<α: rejet H0
P>α: accepte H0
H0
α
données
(X,p,n…)
=> S
_distrib
(z,t,χ²…)ICα(S)
S ∉ IC: rejet H0
S ∈ IC: accepte H0
� Une autre approche (équivalente):
09/09/2021
54
Cours VETE2111-1 Année
académique 2021-2022 107
Intervalles de confiance
� Illustrons l’approche sur la situation suivante:
◦ Le poids moyen de la laine chez un mouton adulte Mérinos est de � � 4,5 kilos, avec un déviation standard valant � 0,5 kilos.
◦ On suspecte un gène d’être impliqué dans la production lainière: le gène a deux allèles M et m, et on pense que les individus mm auraient une production plus importante.
◦ Pour tester cette hypothèse, on obtient 9 individus de génotype mm, et on mesure la production lainière. On obtient: �� � 4,8 kilos.
◦ Que peut-on conclure de cette expérience?
Cours VETE2111-1 Année académique 2021-2022 108
09/09/2021
55
Intervalles de confiance
� Commençons par l’approche vue plus haut:
◦ La situation est celle d’un échantillon comparé à une
population de moyenne µ connue, avec σ connu
◦ H0: µ(mm) = µ(population) = µ
◦ L’estimateur (ponctuel) de µ est �� ∼ � �, �� T56
◦ On peut calculer: " � U�,-� � ⁄
� W,X,W,G6,G Y⁄
� 1,8
◦ La valeur p unilatérale (pourquoi?) est:Z � Z " � 1,8 � 0,036
◦ Comme Z [ \, l’hypothèse nulle est rejetée au seuil
\ � 5%: il semble y avoir un effet de ce gène.
Cours VETE2111-1 Année académique 2021-2022 109
Intervalles de confiance
� Une approche alternative serait:
◦ Si l’hypothèse nulle est vraie, il est possible de
prédire entre quelles limites �� devrait se situer, en
utilisant �� ∼ � �, ��
◦ La dia suivante illustre le calcul:
Cours VETE2111-1 Année académique 2021-2022 110
09/09/2021
56
Intervalles de confiance
� Illustrons l’approche sur la situation suivante:
Cours VETE2111-1 Année académique 2021-
2022 111
Intervalles de confiance
� Le développement correspondant:
◦ Z "^�⁄ _ " _ " ,^
�⁄ � 1 � \
◦ On remplace " par sa valeur:
◦ Z "^�⁄ _ U�,-
� � ⁄_ " ,^
�⁄ � 1 � \
◦ On isole �� dans les deux inéquations:
◦ Z � � "^�⁄ ∗ �
� _ �� _ � � " ,^�⁄ ∗ �
� � 1 � \
◦ On obtient un intervalle dans lequel �� a une
probabilité 1 � \ de se situer, appelé « intervalle
de confiance au seuil \ de la moyenne d’un
échantillon »
Cours VETE2111-1 Année académique 2021-2022 112
09/09/2021
57
Intervalles de confiance
� Et le calcul correspondant:
◦ Z � � "^�⁄ ∗ �
� _ �� _ � � " ,^�⁄ ∗ �
� � 1 � \
◦ Si on utilise les données du problème et un seuil
\ � 5%, on obtient:
◦ Z 4,5 � 1,96 ∗ 6,GY
_ �� _ 4,5 � 1,96 ∗ 6,GY
� 0,95
◦ Soit:
◦ Z 4,17 _ �� _ 4,83 � 0,95
Cours VETE2111-1 Année académique 2021-2022 113
Intervalles de confiance
� Le graphique correspondant:
Cours VETE2111-1 Année académique 2021-
2022 114
09/09/2021
58
Intervalles de confiance
� On peut donc prédire l’intervalle dans lequel devrait
tomber la moyenne d’un échantillon si on connait la
moyenne de la population (et, dans notre exemple, la
déviation standard)
� Mais notre problème est différent ! Nous souhaitons
savoir si la moyenne (inconnue) de la population dont
provient notre échantillon est compatible avec le
moyenne (connue) d’une population de référence
◦ Ce qui revient à tester 56: � éaℎ � � Z�Z � �� Le raisonnement est tout-à-fait similaire...
Cours VETE2111-1 Année académique 2021-2022 115
Intervalles de confiance
� Le développement est le suivant:
◦ Z "^�⁄ _ " _ " ,^
�⁄ � 1 � \
◦ On remplace " par sa valeur:
◦ Z "^�⁄ _ U�,-
� � ⁄_ " ,^
�⁄ � 1 � \
◦ On isole � dans les deux inéquations:
◦ Z �� �"^�⁄ ∗ �
� _ � _ �� � " ,^�⁄ ∗ �
� � 1 � \
◦ On obtient un intervalle dans lequel � a une
probabilité 1 � \ de se situer, appelé « intervalle
de confiance au seuil \ de la moyenne de la
population »
Cours VETE2111-1 Année académique 2021-2022 116
09/09/2021
59
Intervalles de confiance
� Et le calcul est, cette fois:
◦ Z �� � "^�⁄ ∗ �
� _ � _ �� � " ,^�⁄ ∗ �
� � 1 � \
◦ Si on utilise les données du problème et un seuil
\ � 5%, on obtient:
◦ Z 4,8 � 1,96 ∗ 6,GY
_ � _ 4,8 � 1,96 ∗ 6,GY
� 0,95
◦ Soit:
◦ Z 4,47 _ � _ 5,13 � 0,95
Cours VETE2111-1 Année académique 2021-2022 117
Intervalles de confiance
� Remarques:
◦ On obtient donc, en plus de l’estimateur ponctuel
de µ, un intervalle dans lequel µ a une probabilité
donnée de se trouver
� Si \ ↘, la proba ↗ et l’intervalle s’élargit
◦ Il est possible d’utiliser l’intervalle obtenu pour
tester une hypothèse (bilatérale) sur µ
� Dans notre exemple, comme la moyenne de la population
(µ = 4.5) est incluse dans l’intervalle de confiance au seuil \de la moyenne de la population dont provient l’échantillon
(IC = [4.47; 5.13]), on ne peut pas exclure que ces deux
moyennes soient identiques: on accepte H0: µ(pop) = µ(ech)
Cours VETE2111-1 Année académique 2021-2022 118
09/09/2021
60
Intervalles de confiance
� Que fait-on si σ est inconnue ?
◦ Le développement est totalement similaire au cas
précédent, en remplaçant par s et Z par t
◦ On obtient alors:
Z �� �+e�� , �, ∗
$� _ � _ �� � + ,e
�� , �, ∗$� � 1 � \
Cours VETE2111-1 Année académique 2021-2022 119
Intervalles de confiance
� Exemple - énoncé:
◦ On a mesuré le taux basal du facteur de transcription
NF-Kβ dans le sang de 10 porcs pour identifier les
animaux où ce facteur est activé, traduisant une
infection virale. Les valeurs mesurées sont les
suivantes:
◦ Entre quelles limites l’expression moyenne de ce
facteur a-t-elle 95% de chance de se trouver ?
Cours VETE2111-1 Année académique 2021-2022 120
102 106 98 99 104 107 96 98 100 102
09/09/2021
61
Intervalles de confiance
� Exemple - solution:
◦ On calcule: �� � 101,2
◦ On calcule: $� � 13,29 ⇒ $ � 3,65
◦ La valeur de +�, � +f qu’on ne dépasse que dans 2.5%
des cas vaut: +f 0,975 � 2,26
◦ L’intervalle de confiance de µ vaut donc:
�� �+e�� , �, ∗
$� ; �� � + ,e
�� , �, ∗$�
� 101,2 � 2,26 ∗3,65
10 ; 101,2 � 2,26 ∗3,65
10
� h98,59; 103,81i
Cours VETE2111-1 Année académique 2021-2022 121
Intervalles de confiance
� Que fait-on avec les proportions?
◦ Si l’échantillon est grand et qu’on peut utiliser l’approximation
normale de la binomiale:
Z Z �"e�� ∗
Z ∗ 1 � Z�
_ j _ Z � " ,e�� ∗
Z ∗ 1 � Z�
� 1 � \
� Remarque: comme n ↗, on a remplacé t par Z
◦ Si l’échantillon est petit, on aura recours aux distributions
binomiales (voir dia suivante)
Cours VETE2111-1 Année académique 2021-2022 122
09/09/2021
62
Intervalles de confiance
� Comment calculer k�e j quand n petit ?
◦ Si on a r individus (sur n) qui présentent la caractéristique qui nous
intéresse, notre estimation ponctuelle de j sera p = r/n
� On va chercher la valeur p1 (p2) menant à une distribution pour
laquelle obtenir « r ou plus »
(« r ou moins ») occurrences de l’évènement d’intérêt n’a qu’une
probabilité de α/2.
� La dia suivante illustre le principe dans le cas de figure suivant:
on a testé 10 moutons pâturant dans une zone humide pour la
présence de Fasciola hepatica (un parasite infectant le foie,
connue sous le nom de « douve du foie »). Trois résultats sont
positifs. Quelle est la prévalence π de ce parasite dans cette zone ?
Cours VETE2111-1 Année académique 2021-2022 123
Cours VETE2111-1 Année
académique 2021-2022 124
Intervalles de confiance
Z 0,07 _ j _ 0,65 � 1 � \
� Comment obtenir les valeurs seuil de j?
09/09/2021
63
Intervalles de confiance
� Comment calculer ICa(p) quand n petit ?
◦ Algébriquement:
� B(r|p1,n) + B(r+1|p1,n) + … + B(n|p1,n) = α/2 où Z ∈ 0.0; 0.3� B(0|p2,n) + B(1|p2,n) + … + B(r|p2,n) = α/2 où Z� ∈ 0.3; 1.0
◦ Exemple avec R:
> # Valeurs possibles de p1 (au 1/1000 près)
> p<-seq(0,0.3,0.001)
> # Probas binomiales correspondantes
> probas<-1-pbinom(2,size=10,prob=p)
> # Différences avec alpha/2
> diffs<-abs(probas-0.025)
> # Calcul de p1
> p[diffs==min(diffs)]
[1] 0.067
Cours VETE2111-1 Année académique 2021-2022 125
Intervalles de confiance
� Un exemple similaire:
◦ Un cas de BSE a été reporté le mois passé. Sachant cela, et en
supposant l’épidémie stabilisée, à combien de cas par mois
dois-je m’attendre en moyenne ?
◦ Réponse:
� En moyenne, sur base de cet échantillon, on attend évidemment 1
cas par mois… (estimateur ponctuel)
� Il serait plus informatif de fournir une fourchette dans laquelle on a
par exemple 95% de chance de trouver le vrai nombre de cas
moyen (estimateur par intervalle de confiance) !
� Cherchons: IC0.05(µ) = [µI; µS]
où µ est la moyenne d’une distribution de Poisson
Cours VETE2111-1 Année académique 2021-2022 126
09/09/2021
64
Intervalles de confiance
� Solution:
◦ Il s’agit d’un exemple d’utilisation de la « loi de Poisson »
◦ On cherche �m et �n tels que:
o 1T�m � o 2T�m � ⋯ � \ 2⁄o 0T�n � o 1T�n � \ 2⁄
◦ La première équation est facile à résoudre, dans ce cas, en notant
que: o 1T�m � o 2T�m � ⋯ � 1 � o 0T�m � 1 � q,-r
⟹ q,-r � 1 � \ 2⁄ � 0.975⟹ �m � � ln 0.975 � 0.025
◦ La seconde équation nécessite de résoudre l’équation non-
linéaire: q,-v � � ∗ q,-v � 0.025� En utilisant R, on obtient la solution �n � 5.572
Cours VETE2111-1 Année académique 2021-2022 127
IC Poisson
Intervalles de confiance
� La prédiction d’un prochain tirage:
◦ Problème:
� Ayant échantillonné n individus dans une population
(normale), est-il possible de préciser un intervalle dans lequel
un (n+1)ème individu aurait une probabilité (1-α) de figurer ?
� En d’autres termes, on recherche l’intervalle de confiance d’un
prochain tirage X
Cours VETE2111-1 Année académique 2021-2022 128
09/09/2021
65
Intervalles de confiance
� La prédiction d’un prochain tirage:
◦ Solution:
� On peut voir le problème comme un exemple de situations où
2 échantillons sont extraits d’une même population, un
échantillon de taille n et un de taille 1.
� Evidemment, ici, µ1 = µ2 = µ !
� On sait que:
+ � �� � ��� � � � � / $�� ∗
���
��
avec (n1 – 1) + (n2 – 1) degrés de liberté
Cours VETE2111-1 Année académique 2021-2022 129
Intervalles de confiance
� La prédiction d’un prochain tirage:
◦ Solution (suite):
� On utilise:
� � � �, �� � 1� � � �� � �� �� � ��, ��� � X� � � �� � 2 � � � 1 � 2 � � � 1
� $�� �
∑ x��
1∑ x��
��1��,��
∑ x��
�, � $�
� Ce qui conduit à:
+ ��� � �
$ ∗ � � 1�
Cours VETE2111-1 Année académique 2021-2022 130
09/09/2021
66
Intervalles de confiance
� La prédiction d’un prochain tirage:
◦ Le même développement que plus haut conduit alors à:
Z �� � +e�� ∗ $ ∗
� � 1�
_ � _ �� � + ,e�� ∗ $ ∗
� � 1�
� 1 � \
avec t ~ t (n-1) degrés de liberté.
Cours VETE2111-1 Année académique 2021-2022 131
Intervalles de confiance
� La prédiction d’un prochain tirage:
◦ Illustration:
� La teneur moyenne en glucose sanguin a été établie sur 36
chevaux de 4 à 6 ans, en parfaite santé: la moyenne m est de
86.4 mgr/100ml, avec un IC(α=0.05) = m ± 4.06
Entre quelles limites un cheval, pris au hasard dans les mêmes
conditions a-t-il 95% de chance d’avoir sa teneur en glucose?
� Solution:
� t*S/√n = 4.06 => S = 4.06* √n/t
� n = 36
� t = 2.03 (cfr table avec 35 ddl)
� => S = 12
Cours VETE2111-1 Année académique 2021-2022 132
09/09/2021
67
Intervalles de confiance
� La prédiction d’un prochain tirage:� Solution (suite):
� P(m – tα/2 *S*√ (n + 1)/n < X < m + tα/2 *S*√ (n + 1)/n ) = 1-α
� P(86.4 – 2.03*12* √37/36 < X < 86.4 + 2.03*12* √37/36 ) = 0.95
=> P(61.704 < X < 111.096) = 0.95
Cours VETE2111-1 Année académique 2021-2022 133
Intervalles de confiance
� Qu’en est-il des variances ?� Pour déduire un IC pour la prédiction S² d’une variance σ², il faut
connaitre la distribution des S².
� On montre (et on admettra…) que:
(n-1)*S²/σ² ~ χ² (n-1)
ou, de manière équivalente:
Σx²/σ² ~ χ² (n-1)
Cours VETE2111-1 Année académique 2021-2022 134
09/09/2021
68
Intervalles de confiance
� Qu’en est-il des variance (suite) ?
◦ On en déduit que:
Z ye��
� _∑ z�
� _ y ,e��
� � 1 � \
◦ De là, on peut également déduire que:
Z∑ z�
y ,e��
� _ � _∑ z�
ye��
� � 1 � \
Cours VETE2111-1 Année académique 2021-2022 135
Intervalles de confiance
� Qu’en est-il des variance (suite) ?� Exemple: si la variance mesurée sur 10 données est de 60, dans
quel intervalle la vraie variance σ² a-t-elle 95% de chance de se
trouver ?
� Solution:
� S² = 60 => Σx² = (10-1)*S² = 540
� χ²0.025(9) = 2.700, χ²0.975(9) = 19.023
� P(540/19.023 < σ² < 540/2.700) = 0.95
=> P(28.287 < σ² < 200.000) = 0.95
� Remarquez que cet IC n’est pas symétrique autour de l’estimateur
ponctuel.
Cours VETE2111-1 Année académique 2021-2022 136