Applications des statistiques Tests, résultats d'expérience, sondages pharmacologie,...

Preview:

Citation preview

Applications des statistiques

• Tests, résultats d'expérience, sondages• pharmacologie,

• médecine,• agronomie,

• gestion de production,• sociologie,• économie,• politique,

• Banque :• gestion de portefeuille,

• scoring de clientèle

• Marketing

• Informatique• (reconnaissance de forme,

• de codes barres,• reconnaissance d'image,

• reconnaissance de la parole,• imagerie médicale)

• Assurances (actuariat)

• Télécommunications,• codage et filtrage d'erreur

• ………

Numéros de production d'avions de combat adverses

tirés au hasarddans {1,2, …,n}

Estimer n à l’aide de l’échantillon suivant

1403 339 565 597 2404 2132

Moyenne: 1240

Médiane: 1000

Minimum: 339

Maximum: 2404

La loi forte des grands nombres

• X1, X2, …, Xn, …• Une suite de variables aléatoires indépendantes et de même loi,

• de moyenne (espérance): E(Xi)=• Alors pour (presque) toute expérience (réalisation)

limn→ ∞

X1 +X2 +L +Xn

n=μ

chaque expérience, poussée suffisamment longtemps, permet de s'approcher de la vraie moyenne, ou de la vraie fréquence (c'est la justification des sondages, estimations de moyennes, et tracés d'histogrammes, entre autres).

Bernoulli (loi faible des grands nombres, 1630)Kolmogorov (loi forte des grands nombres, 1930)

À quelle vitesse ?

Théorème central-limiteX1, X2, …, Xn, …

une suite de variables aléatoires indépendantes et de même loi,

de moyenne (espérance): E(Xi)=et de variance Var(Xi)=

X1 +X2 +L +Xn

n= μ + σ

Zn

n

avec, pour tout a et b

limn→ ∞

Pr a≤Zn ≤b( ) = 12π

e−x2

2 dxa

b

De Moivre (1660, cas binomial)Laplace (1780, cas général)

Gauss (1805, application aux statistiques)

Intervalle de confiance (sondage)

Le nombre de réponses “oui” suit la loi binomiale de parametre n et p :

proportion de réponses "oui" =

X1 +X2 +L +Xn

n

Pr X1 +X2 +L +Xn =k( ) =Cnkpk 1−p( )

n−k

Xk =1 si la kème réponse est "oui"

0 si la kème réponse est "non"

⎧ ⎨ ⎪

⎩ ⎪

Pr Xk =1( ) = p

μ =E Xk[ ]=p

σ 2 =Var Xk( ) =p1−p( )

Zn =X1 +X2 +L +Xn −nμ

σ n

=X1 +X2 +L +Xn −np

np1−p( )

= X −p( ) n

p(1−p)

12π

e−x2

2dx−A

A

∫ ≈ Pr −A≤Zn ≤A( )

=Pr −A p(1−p)n ≤X −p≤A p(1−p)

n( )

=Pr p∈ X −A p(1−p)n ;X +A p(1−p)

n[ ]( )

12π e

−x2

2dx−A

A

∫ =0,95 si A=1,96...

p(1−p) ≤0,25donc

1,96 p(1−p)n ≤

1n

donc

Pr p∈ X − 1n ;X + 1

n[ ]( )≥ 0,95

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 100 200 300 400 500 600 700 800 900

Intervalles de confiance à 95% et 99% pour p=0,5

Résultats de 756 sondageschacun sur des échantillons de 400 personnes

pris au hasard dans une populationoù la proportion de « oui » est 42%

04

9

16

46

71

99

107

114 112

90

43

33

14

50

20

40

60

80

100

120

0,34 0,35 0,36 0,37 0,38 0,39 0,4 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48

résultat du sondage

Intervalle de confiance (moyenne)

12π e

−x2

2dx−A

A

∫ =0,95 si A=1,96...

Xk =1 si la kème réponse est "oui"

0 si la kème réponse est "non"

⎧ ⎨ ⎪

⎩ ⎪

0,95=Pr p∈ X −A p(1−p)n ;X +A p(1−p)

n[ ]⎛ ⎝ ⎜ ⎞

⎠ ⎟

≈Pr p∈ X −A X (1−X )n ;X +A X (1−X )

n⎡ ⎣ ⎢

⎤ ⎦ ⎥

⎛ ⎝ ⎜

⎞ ⎠ ⎟

Cas particulier du sondage

Zn =X1 +X2 +L +Xn −nμ

σ n

≈X1 +X2 +L +Xn −nμ

nSX2

Cas général

SX2 =

1n

Xi2

i=1

n

∑ − X 2 LFGN ⏐ → ⏐ ⏐ σ 2

0,95≈Pr −A ≤ X −μ( )nSX

2 ≤A⎛

⎝ ⎜ ⎜

⎠ ⎟ ⎟

=Pr μ∈ X −ASX

2

n;X +A

SX2

n

⎣ ⎢ ⎢

⎦ ⎥ ⎥

⎝ ⎜ ⎜

⎠ ⎟ ⎟

Pr Xk ≥x( )=e−λx et E Xk[ ] =1λ

Var Xk( ) =1λ2

Durée de vie exponentielle

Xk durée de vie du kème composant

Intervalle de confiance (durée de vie 1/= 1000)

600,0

700,0

800,0

900,0

1000,0

1100,0

1200,0

1300,0

1400,0

1500,0

1600,0

0 100 200 300 400

Théorème central-limiteE(Xi)= et Var(Xi)=

X1 +X2 +L +Xn −nμσ n

= Zn

avec, pour n assez grand,

limn→ ∞

Pr a≤Zn ≤b( ) = 12π

e−x2

2 dxa

b

Xk: résultat du kème lancer d’un dé

μ =3,5 et σ 2 =3512

Z12 =

X1 +X2 +L +X12 −4235

01

23

45

67

89

1011

1213

S1

S2

0

70

140

210

280

350

420

350

280

210

140

70

00

072

140

199

304334

423

338

303

219

147

410

0

0

50

100

150

200

250

300

350

400

450

Somme de 2 lancers:2520=70*36 expériences

Courbe de Gauss

f(x) = 12π

exp−x2

2( )

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

-4 -3 -2 -1 0 1 2 3

0

50

100

150

200

250

300

350

400

450

500

Somme de 12 lancers de dés,centrée et réduite

Histogramme basé sur 2500 expériences

Théorème central-limite

E(Xi)= et Var(Xi)=

X1 +X2 +L +Xn −nμσ n

= Zn

Xk: nombre uniforme entre 0 et 1

μ =0,5 et σ 2 =112

Z12 =X1 +X2 +L +X12 −6

Somme de 12 uniformes

1500

0

50

100

150

200

250

300

350

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

30

0

1

2

3

4

5

6

7

8

9

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

400

0

10

20

30

40

50

60

70

80

90

100

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Courbe de Gauss

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

Test du chi(2) (2)

Y a-t-il bonne adéquation entre l ’histogramme etla loi de probabilité attendue ??

Petits calculs sur sondage 42%, 400 personnes

La proportion estimée est comprise entre

42%− 1,96×0,42×0,58

400

⎝ ⎜

⎠ ⎟ =37,16%

et

42%+ 1,96×0,42×0,58

400

⎝ ⎜

⎠ ⎟ =46,84%

avec une probabilité de

95%

Fréquence observée:

Recommended