Cours VETE0432-4 Distributions théoriques

Preview:

Citation preview

Cours VETE0432-4Distributions théoriques

F. Farnir – A. Rives – L. Massart

Faculté de Médecine Vétérinaire

Université de Liège

Vue synoptique du cours

1. Récolte de données Quoi ? Combien ? Comment ?

2. Représentation des données Tables, graphiques, paramètres synthétiques

3. Calcul de probabilités Simples, conjointes, conditionnelles,

marginales

4. Distributions Bernoulli, binomiale, hypergéométrique,

Poisson, uniforme, normale, χ²

Existe-t-il des calculs théoriques de distributions ?

Partons d’une situation simple: un événement pour lequel seules deux issues sont possibles.

Exemples: mâle (0) ou femelle (1), mort (0) ou vivant (1), malade (0) ou sain (1).

Une variable aléatoire X, représentant un tel événement, ne peut prendre que deuxvaleurs, 0 ou 1. On parle de variable de Bernoulli.

Quelle est la distribution d’une variable de Bernoulli ?

La distribution d’une variable de Bernoulli peut s’écrire:

θ est un paramètre, représentant la proba que X = 1

Exemple: si la prévalence d’une maladie est 0.2, X représente l’expérience aléatoire consistant à prélever un individu dans la population. L’événement aléatoire « choix d’un individu sain (malade) » correspond à X = 0 (1).

( ) XXX

−−= 11)Pr( θθ

Et si on répète l’expérience aléatoire ?

Si on fait n fois l’expérience aléatoire, une question est: combien de fois l’événement aléatoire a-t-il eu lieu ?

Exemple: si je prélève n=5 individus, combien d’individus malades vais-je avoir ?

Théoriquement, je peux avoir entre 0 et n fois l’événement qui m’intéresse, chaque valeur possible ayant une certaine probabilité (à déterminer). On représente ce nombre de réalisations par une variable aléatoire, notée r.

Comment calculer la distribution de r ?

Repartons de l’exemple des n = 5 individus prélevés dans une population où la prévalence d’une maladie est π = 0.2

On peut représenter tous les cas de figure pouvant se présenter lors d’une expérience de ce type (soit, prélever 5 individus dans une population binaire)

Quels sont tous les cas possibles dans l’expérience ?

Sain Malade

Comment calculer la probabilité d’avoir 0 malade ?

On a fait les hypothèses que:

Les tirages successifs sont indépendants

La prévalence reste constante de tirage en tirage (on parle de tirage avec remise).

�� � � 0|�, � � 1 � � � 1 0.2 � � 0.328

Comment calculer la probabilité d’avoir 1 malade ?

9

�� � � 1|�, � � 5 ∗ �� ∗ 1 � ��� � 5 ∗ 0.2 ∗ 0.8� � 0.410

Comment calculer la probabilité d’avoir 2 malades ?

�� � � 2|�, � � 10 ∗ �� ∗ 1 � ���� 10 ∗ 0.2� ∗ 0.8� � 0.205

Comment calculer la probabilité d’avoir r malades ?

Dans chaque situation, il y aura r malades et (n - r) sains. La probabilité de chaque situation est donc:

Combien de situations (mutuellement exclusives) y a-t-il ?

�� ∗ 1 � ���

��� � �!�! ∗ � � !

Comment calculer la probabilité d’avoir r malades ?

En sommant (probabilités totales), on obtient la probabilité globale d’avoir r malades:

Cette distribution de r comporte donc deux paramètres n et π. Elle s’appelle « distribution binomiale »

�� �|�, � � ��� ∗ �� ∗ 1 � ���

Calcul des combinaisons

Réaliser r fois l’événement étudié en n essais revient à réaliser (r-1) fois l’événement lors des (n-1) premiers essais puis le réaliser encore au dernier essai, ou à le réaliser r fois lors des (n-1) premiers essais et ne pas le réaliser lors du dernier essai. Par conséquent:

��� � ������� � ����� Par ailleurs, il est évident que:

��� � ��� � 1

Triangle de Pascal

D’où, la disposition pratique du triangle de Pascal

n�0n�1n�2n�3

n-1n

r�0 r�1 r�2 r�3 r�n-1 r�n

Calculs avec la distribution binomiale dans R

Fonctions binomiales de R

dbinom(x,size=n,prob=p)

donne la probabilité de B(r = x | n,p)

Exemple : si la probabilité d ’une affection est de 0.2, quelle est la probabilité d ’avoir exactement 2 atteints parmi 10 animaux ?

> dbinom(2,size=10,prob=0.2)

[1] 0.3019899

Calculs avec la distribution binomiale dans R

Fonctions binomiales de R

pbinom(x,size=n,prob=p)

donne la probabilité cumulée B(r <= x | n,p)

Exemple : si la probabilité d ’une affection est de 0.2, quelle est la probabilité d ’avoir jusqu’à 2 atteints parmi 10 animaux ?

> pbinom(2,size=10,prob=0.2)

[1] 0.6777995

Calculs avec la distribution binomiale dans R

Fonctions binomiales de R

qbinom(q,size=n,prob=p)

donne la valeur de x: B(r <= x | n,p) = q

Exemple : si la probabilité d ’une affection est de 0.2, à combien d’atteints maximum doit on s’attendre avec une probabilité de 0.8 parmi 10 animaux ?

> qbinom(0.8,size=10,prob=0.2)

[1] 3

> pbinom(3,size=10,prob=0.2)

[1] 0.8791261

Calculs avec la distribution binomiale dans R

Fonctions binomiales de R

rbinom(v,size=n,prob=p)

tire v valeurs de x dans B(r | n,p)

Exemple : simulez le nombre de malades obtenus dans 20 échantillons si la probabilité d ’une affection est de 0.2 et qu’on échantillonne parmi 10 animaux ?

> rbinom(20,size=10,prob=0.2)

[1] 2 2 4 2 1 3 3 2 1 1 1 2 2 1 1

[16] 4 1 3 2 3

Représentation graphique d’une distribution binomiale.

Représentons la distribution binomiale ayant pour paramètres n = 50 et p = 0.3 (par exemple)

> r<-0:50

> pr<-dbinom(r,size=50,prob=0.3)

> plot(r,pr,main=ʺBinomiale(r=50,p=0.3)ʺ,

+ type= ʺhʺ)

Représentation graphique d’une distribution binomiale.

Représentons la distribution binomiale ayant pour paramètres n = 50 et p = 0.3 (par exemple)

Utilisation d’une distribution binomiale.

Exemple : si une affection est présente dans une population avec une fréquence de 0.02, combien d ’animaux dois-je examiner pour être sûr à 99% de détecter l ’affection ?

r Pr(r)

0 Pr(0)

1 Pr(1)

n Pr(n)

Détection

� ! � 1 � "! � 1 � � � 0

Utilisation d’une distribution binomiale.

Exemple (suite) :

> log(1-0.99)/log(1-0.02)

[1] 227.9482

Réponse: on choisit n pour que la probabilité de non-détection (c’est-à-dire Pr(r=0)) soit 1%:

1 � � # 1 0.99⇒ � ∗ &'( 1 � # &'( 1 0.99

La moyenne et la vraince sont les espérances mathématiques de r et de (r - µr)², respectivement.

On peut les calculer puisque toutes les valeurs de r et les probabilités associées sont connues.

Paramètres d’une binomiale

Calcul avec R

> n<-50 # Par exemple

> p<-0.3 # Par exemple

> r<-0:n

> pr<-dbinom(r,size=n,prob=p)

> mu<-sum(r*pr)

> var<-sum((r-mu)**2*pr)

> cat(“mu = “,mu,”\n”)

mu = 15

> cat(“var = “,var,”\n”)

var = 10.5

Paramètres d’une binomiale

La distribution binomiale se généralise à des situations avec k issues (distribution polynomiale)

Que faire si j’ai plus de deux issues dans mon expérience ?

�� ��, ��, … , �*|��, ��, … , �* , � � �!��! ��! … �*! ∗ ���+ ∗ ���, ∗ ⋯ ∗ �*�.

/ �**

01�� � / �*

*

01�� 1

Exemple: s’il y a 20% de labradors chocolats, 30% de noirs et 50% de dorés, quelle est la probabilité d’avoir 5 dorés et 5 chocolats dans un échantillon de taille 10 ?

Un exemple

Solution: calcul « trinomial »

�� 5,0,5|0.2,0.3,0.5,10 � 10!5! 0! 5! ∗ 0.2� ∗ 0.3� ∗ 0.5�

> r<-c(5,0,5)

> p<-c(0.2,0.3,0.5)

> dmultinom(r,size=10,prob=p)

[1] 0.00252

Exemple: 60% des labradors sont dorés, 30% sont noirs et 10% sont chocolat. Si on prend 10 labradors au hasard, quelle est la composition la plus probable en termes de robes ?

Solution: voir les dias suivantes

Un exemple (cfr cours de math)

> n<-10

> p<-c(0.6,0.3,0.1)

> maxpr<-0

> for (d in 0:n) {

+ for (b in 0:(n-d)) {

+ c<-n-d-b

+ pr<-dmultinom(c(d,b,c),size=n,prob<-p)

+ if (pr>maxpr) {

+ maxpr<-pr

+ maxd<-d;maxb<-b;maxc<-c

+ }

+ }

+ }

> cat("Dores: ",maxd,", Noirs: ",maxb,", Chocolat: ",maxc,"\n")

Dores: 6 , Noirs: 3 , Chocolat: 1

> cat("Proba maximale: ",maxpr,"\n")

Proba maximale: 0.1058158

La mortalité, mesurée sur une longue période dans un exploitation aquacole, est de 1.2 poissons/jour en moyenne (soit, 6 poissons tous les 5 jours). Dans ces conditions, quelle est la probabilité d’avoir 3 poissons morts la même journée ?

Réponse: lorsque la variable aléatoire correspond à un nombre d’événements/unité (de temps, d’espace, …), on utilise la « loi de Poisson »

Un autre cas de figure

Loi de Poisson

Il s’agit d’une loi avec un seul paramètre (µ). La variable aléatoire k (= # de fois que l’événement se produit) peut prendre n’importe quelle valeur entière positive ou nulle.

Propriétés:

P 3|4 � 5�6 ∗ 4*3!

4 � 7 3 8� � 7 3 4 � � 4

Exemple: revenons au problème sur la mortalité. On sait que 4 � 1.2 et on demande � 3 � 3 ?

Solution:

Solution avec R:

Un exemple

� 3 � 3|4 � 1.2 � 5��.� ∗ 1.2�3! � 0.0867

> # La moyenne est fourni par l’argument lambda

> dpois(3,lambda=1.2)

[1] 0.08674393

Un autre exemple en bactériologie

Dilution 0 ([X])20 tubes avec bactéries

Dilution k ([X]*10-k):17 tubes avec bactéries

Exemple: après ensemencement de 20 tubes avec 0.1 ml d’une solution, 3 sont restés stériles. Quelle est la concentration moyenne de ce liquide en bactéries ?

Solution:

µ est inconnue

Pr (0 | µ) = 3 / 20 = 0.15 = exp(-µ)

µ = -ln (0.15) = 1.897 (bactéries par 0.1 ml)

La concentration initiale était donc 1.897*10k (bactéries/0.1 ml)

Un autre exemple en bactériologie

Exercice: le nombre de cas de BSE en Belgique, au moment de la crise de la « vache folle », était de 1 toutes les 5 semaines. Quelle est la probabilité d’avoir 2 cas en 3 semaines ?

Un autre exemple

Solution:

– µ(#cas / sem) = 0.2 => µ(# cas / 3 sem) = 0.6

– Pr (2 | µ) = exp(-µ) * µ² / 2! ≈ 0.099

> dpois(2,lambda=0.6)

[1] 0.09878609

Que faire si la probabilité entre tirages successifs varie ?

On parle toujours d’événements binaires (malade ou pas, mâle ou femelle, vivant ou mort, …), répétés n fois, mais sans remise (ce qui revient à dire que p varie de tirage en tirage)

Exemple: quelle est la probabilité de tirer deux individus malades en tirant deux individus au hasard dans une aquarium contenant 10 individus dont 2 sont malades ?

Que faire si la probabilité entre tirages successifs varie ?

Exemple:

P( E1 = ) = 0.2

P( E1 = et E2 = ) = 0.2 * 0.111 = 0.0222

P( E2 = | E1 = ) = 0.111

36

Et pour une situation plus compliquée ?

Exemple: Un lot de 30 poissons en contient 5 qui sont contaminés. Quelle est la probabilité de prélever 2 de ces 5 poissons contaminés en prélevant 10 poissons du lot ?

Idée: compter le nombre de choix possibles de 10 poissons parmi 30 (nombre de cas possibles N). Ensuite, compter le nombre cas n parmi ceux-là qui répondent à la question. La probabilité cherchée est le rapport n/N

Distribution hypergéométrique: exemple

Exemple (solution I) :

Une solution (parmi les possibles) consiste à prendre d’abord 2 poissons contaminés puis ensuite 8 sains.

La probabilité correspondante est:

Comme chaque solution est équiprobable:

2

10C

!30

!20*

!17

!25*

!3

!5

21

18**

27

24*

28

25*

29

4*

30

5 == Lp

!30

!10!*20*

!8!*17

!25*

!2!*3

!5

!30

!20*

!17

!25*

!3

!5*

!8!*2

!10*

2

10 === pCP

Distribution hypergéométrique: exemple

Exemple :

25 5

8 2

Lot:

Prélevé:

ContaminéSain

10

30CN = 8

25

2

5CCn =

36.030045015

10815750

C

CCPr

1030

825

25 ===

Distribution hypergéométrique: exemple

Calcul avec R :

25 5

8 2

Lot:

Prélevé:

ContaminéSain

30

10

d

b

a

c

> a<-2;b<-5;c<-25;d<-10

> dhyper(a,b,c,d)

[1] 0.3599848

cC

bB

aA

C

CC)C;c;A;a(H =

CBA

cba

=+=+

Formule hypergéométrique

Distribution hypergéométrique: encore un autre exemple

Exemple : Un lot de 30 poissons en contient 20% qui sont contaminés. Quelle est la probabilité d’avoir plus de 4 poissons contaminés en prélevant 10 poissons ?

Solution avec R:

> # En employant ‘dhyper’

> dhyper(5,6,24,10)+dhyper(6,6,24,10)

[1] 0.008841733

> # En employant ‘phyper’

> phyper(4,6,24,10,lower.tail=F)

[1] 0.008841733

> p<-0

> for (i in 5:6) { p<-p+dhyper(i,6,24,10) }

> p

[1] 0.008841733

Distribution hypergéométrique: un dernier exemple

Exemple : probabilité de rang à euro-million

5 45 5 0

2 10 2 0

� � ��� ∗ �������� ∗ ��� ∗ ����

���� � 550 ∗ 4

49 ∗ 348 ∗ 2

47 ∗ 146 ∗ 2

12 ∗ 111 � 1

139838160

Comment fait-on avec une variable continue ?

Problème : Il n’est pas possible d’attribuer une probabilité à chaque valeur de la variable aléatoire X (il y en a une infinité !).

Solution : on définit une fonction f(X) appelée « densité de probabilité ». La probabilité d’être entre X1 et X2 se calcule par la surface sous la courbe entre ces deux valeurs

Comment fait-on avec une variable continue ?

� ; < = < > � ? @ = ∗ A=B

C

� ∞ < = < �∞ � ? @ = ∗ A= � 1EF

�F

Exemple de distribution continue

� La distribution la plus simple est la distribution uniforme:

◦ Si X < P, f(X) = 0

◦ Si P ≤ X ≤ Q, f(X) = 1/(Q-P)

◦ Si Q < X, f(X) = 0

f (X)

P QX

1/(Q-P)

� L’utilisation est très simple, le calcul de la surface (rectangulaire) étant trivial !

◦ P[a ≤ X ≤ b] = (b-a)/(Q-P)

f (X)

P QX

a b

1/(Q-P)

Exemple de distribution continue

� Exemple: dans une distribution uniforme entre 0 et 10, quelle est la probabilité de tomber entre 3 et 5 ?

� Réponse: P = (5-3)/(10-0) = 0.2

� Réponse avec R:

> punif(5,min=0,max=10)-punif(3,min=0,max=10)

[1] 0.2

Exemple de distribution continue

Proba de 0 à 5 = 0.5 Proba de 0 à 3 = 0.3

Les distributions normales

� La distribution probablement (!) la plus utilisée est la distribution normale

◦ Une justification théorique: le « théorème de la limite centrale »

◦ Propriétés:

� 7 = � 4 et 7 = 4 � � 8�

@ = � 5� G�6 ,�∗H,

8 ∗ 2 ∗ �I

Formes de ces distributions

Un exercice théorique avec un résultat intéressant...

� On tire 1000 valeurs dans une distribution uniforme entre 0 et 1, et on calcule la somme S de ces 1000 valeurs

� Quelle forme prend la distribution de (la variable continue) S?

Un exercice théorique avec un résultat intéressant...

Distribution normale réduite

� Toutes les distributions normales sont définies uniquement par les deux paramètres 4 et 8, et notées " 4, 8

� Tous les calculs sur ces distributions peuvent être ramenés à des calculs sur la distribution " 0,1 par un changement de variable. Cette distribution est appelée distribution normale réduite.

Distribution normale réduite� Le changement de variable est le

suivant:

� Exemple: si =~"K100,10L, quelle est la probabilité que 88 < = < 105 ?◦ � � � 88 < = < 105

⇒ � � � 88 10010 < M < 105 100

10◦ ⇒ � � � 1.2 < M < 0.5◦ Résultat: voir un peu plus loin…

=~" 4G, 8G ⇒ O � G�6PHP

⇒ M~" 0,1

Distribution normale réduite� L’intérêt de ce changement de variable

de X vers Z est que les probabilités sont tabulées pour Z

Extrait de la tabledes surfaces de Z

P( X1 < X < X2 ) = ?

Z1 = ( X1 - µ ) / σ Z2 = ( X2 - µ ) / σ

P( Z1 < Z < Z2 ) = P

Utilisation de la distribution normale réduite

Valeurs classiques de la distribution normale réduite

� Valeur de Z qu’on excède dans 95% des cas ?

> qnorm(0.05)

[1] -1.644854

Valeurs classiques de la distribution normale réduite

� Valeur de Z qu’on excède dans 97.5% des cas ?

> qnorm(0.025)

[1] -1.959964

Calcul des probabilités avec R

On remplace donc le calcul d’une intégralepar la consultation d’une table

Alternativement, on utilise un logiciel (R…)

> proba<-pnorm(x,mu,sigma)

> sample<-rnorm(1,mu,sigma)

> fx<-dnorm(x,mu,sigma)

Distribution normale réduite

◦ Exemple: si =~"K100,10L, quelle est la probabilité que 88 < = < 105 ?

# En travaillant avec X

> pnorm(105,mean=100,sd=10)-pnorm(88,mean=100,sd=10)

[1] 0.5763928

# En travaillant avec Z

> pnorm((105-100)/10)-pnorm((88-100)/10)

[1] 0.5763928

Autres exemples

Exemple 1: Sachant qu ’en moyenne, une espèce pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, quelle est la probabilité:- qu ’un individu pèse entre 4 et 4.3 kgs ?

- qu ’un individu pèse plus de 4.5 kgs ?

> pnorm(4.3,mean=4,sd=0.3)-pnorm(4,mean=4,sd=0.3)

[1] 0.3413

> 1-pnorm(4.5,mean=4,sd=0.3)

[1] 0.0478

Une autre utilisation de la distribution normale…

Représentons (par exemple) la distribution binomiale suivante: n=100, π=0.4.

Histogrammede B(r|n=100,π=0.4)

Diagrammede N(r|µ=40,σ²=24)

A toutes fins utiles, les deux distributions >K�, QLet N(µ � � ∗ �,8 � � ∗ � ∗ 1 �I

) coïncident.

On passe de l ’une à l ’autre par le changement de variable:

En général, si n augmente, et p est « proche » de 0.5, une binomiale peut être approchée par une distribution normale.

Une autre utilisation de la distribution normale…

Z � � 4�8�

� � � ∗ �� ∗ � ∗ 1 �I ~" 0,1

Un exemple d’utilisation de l’approximation normale ?

Exemple 1: sachant qu ’en moyenne, une espèce de poissons pèse 4 kgs (à un âge donné), avec une déviation standard de 0.3kg, combien de poissons dois-je prélever pour être sûr à 95% d ’avoir au moins 20 poissons de plus de 4.5 kgs ?

Approximation normale: exemple

Solution 1: si on suppose le poids réparti normalement, la probabilité de peser plus de 4.5 kgs pour un poisson prélevé au hasard est :

> 1-pnorm(4.5,mean=4,sd=0.3)

[1] 0.0478

Approximation normale: exemple (suite)

Solution 1A: Approche binomiale

Choisir n tel que B(0) + B(1) + … + B(19) <= 0.05

Équation non linéaire en n…

On peut résoudre le problème avec un logiciel.

> p<-1-pnorm(4.5,mean=4,sd=0.3)

> n<-1:1000

> pr<-pbinom(19,size=n,prob=p)

> for (i in 2:1000) {

+ if ((pr[i-1]>0.05) && (pr[i]<0.05)) {

+ print(i)

+ }

+ }

[1] 579

Approximation normale: exemple (suite)

Solution 1B: Approche normale

Choisir n tel que: -1.64 < z

z = (20 - n*π) / (n*π*(1-π))1/2

=> (n*π*(1-π)) z2 = (20 -n*π)2

=> n = 601

L ’approximation n ’est pas très bonne (π << 0.5) dans ce problème.

Distribution normale: autre utilisation

Divisant le numérateur et le dénominateur par n dans le changement de variable donné plus haut, on obtient:

Distribution d ’une proportion (r/n estime π, et la racine est la déviation standard)

O ��� �

� ∗ 1 ��

I

Distribution d’une proportion: exemple

Exemple 2: dans un échantillon de 100 poissons, 68 sont des mâles. Peut on conclure à une distorsion de la proportion des sexes ?

Solution 2: on répond à cette question en calculant la probabilité d ’avoir 68% des mâles si la vraie proportion (π) est 50%.

Distribution d’une proportion: exemple

Solution 2 (suite): le calcul est le suivant:

La probabilité d ’avoir une telle valeur de z (ou une plus grande encore) est 1.6E-4, et donc très peu probable. On en déduit que π=0.5 n ’est probablement pas la valeur correcte.

O ��� �

� ∗ 1 ��

I� 0.68 0.5

0.5 ∗ 0.5100

I� 3.6

En résumé:

Il est possible de déduire (ou tout du moins de prendre pour hypothèse) la distributioncorrespondant à de nombreuses variables aléatoires.

L’utilisation de ces distributions permet de calculer les probabilités correspondant à une situation observée sous une hypothèse donnée.

Si la probabilité est faible, on peut mettre en doute la validité de l’hypothèse sur laquelle le calcul repose (avec un certain risque, voir plus loin)

Recommended