30
Introduction ` a la statistique et aux probabilit´ es Math´ ematiques G´ en´ erales B Universit´ e de Gen` eve Sylvain Sardy 21 f´ evrier 2008

Introduction a la statistique et aux probabilit es ·  · 2008-02-12Introduction a la statistique et aux probabilit es ... 2 Objectifs : apprendre concepts clefs en statistique et

  • Upload
    hathu

  • View
    219

  • Download
    2

Embed Size (px)

Citation preview

Introduction a la statistiqueet aux probabilites

Mathematiques Generales BUniversite de Geneve

Sylvain Sardy

21 fevrier 2008

1

0. Organisation du cours

Page web : A visiter regulierement.

Horaires du cours : jeudis de 10h15 a 12h00.

Horaires des TD/TP : jeudis de 8h15 a 10h00.

Software statistique : R disponible gratuitement

Assistants et leurs heures de reception : voir page web.

Examen : voir page web.

Introduction

2

Objectifs : apprendre concepts clefs en statistique et probabilites, tels que :

– Analyse exploratoire et utilisation du software statistique R.

– Analyse combinatoire

– Calculs elementaires de probabilites

– Calculs de probabilites conditionnelles, formule de Bayes, independance

– Distributions univariees, discretes et continues. En particulier, distributionsBernoulli, Binomial et Poisson, ainsi que Uniforme, Gaussienne et Exponen-tielle.

– Distribution de plusieurs variables, conjointes, marginales, conditionnelles

– Esperance, variance, quantile

– Introduction a la regression.

Introduction

3

Livres :

– E. Cantoni, Ph. Huber & E. Ronchetti (2006), Maıtriser l’aleatoire : exercicesresolus de probabilites et statistique, ed. Springer-France.

– Baillargeon, G. (1995). Probabilites, statistique et technique de regression.Les Editions SMG.

– Dagnelie, P. (1998). Statistique theorique de appliquees, Tome 1. Bi-bliotheques des Universites : statistique. De Boeck et Larcier.

– Delmas, B. (1996). Statistique Descriptive. Editions Nathan, Paris.– Dodge (1999). Analyse de regression appliquee.– Erikson, B.H. et Nosanchuk, T.A. (1985). Understanding Data. The Open

University Press, Philadelphia.– Freedman, D., Pisani, R., Purves, R. et Adhikari, A. (1991). Statistics. W.

W. Norton& Co., New York.– Goldfarb, B. et Pardoux, C. (2004). Introdction a la methode statistique.

Dunod.

Introduction

4

– Klatzmann, J. (1985). Attention Statistiques ! Comment en dejouer lespieges. Cahiers libres 405, Editions La Decouverte, Paris.

– Sanders, D.H., Murph, A.F. et Eng, R.G. (1984). Les Statistiques : uneApproche Nouvelle. McGraw-Hill, Montreal.

– Tukey, J.W. (1977). Exploratory Data Analysis. Addison-Wesley, Reading,Massachusetts, London.

– Wonnacott, R.J. et Wonnacott, T.H. (1985). Introductory Statistics. Wiley,New York.

Introduction

5

1. Motivations

La statistique est une science qui consiste a :– recueillir– analyser– et interpreter

des mesures d’information (les donnees) dans le but de :– mieux comprendre– influer, controler– predire– tester– optimiser– detecter

des phenomenes complexes et aleatoires/stochastiques/random.

Introduction

6

L’aleatoire et les applications de la statistique sont partout :

Jeux de hasard : pile ou face.

Quelle est la probabilite de gagner ?

P(gagner) =12.

Introduction

7

Jeux de hasard : euro million.

Quelle est la probabilite de gagner au loto/euro million ?

P(gagner) =550

449

348

247

146

soit 1 chance sut 76’000’000 de trouver les 5 bons chiffres entre 1 et 50.

Peut-on augmenter ses chances de gagner au loto/euro million ?

Introduction

8

Votation/Election/Referendum : les sondages tentent de predire l’opiniond’une population.

Supposons un referendum entre OUI et NON. Comment feriez-vous pourpredire lequel va passer ?

Introduction

9

Nos donnees

Taille Sexe Branche† MoisJour Nbr freres/soeurs+moi Interet math(cm) (H/F) (0-10)170 H 5 0227 3 ***

† 1 : Pharmacie, 2 : Sciences de la terre, 3 : Biologie, 4 : (Bio)chimie, 5 : Autre.

Introduction

10

Analyse des donnees Taille de l’annee derniere a l’aide du boxplot :

HF H F

150

160

170

180

190

Tailles en 2007

Introduction

11

Analyse des donnees Nbr enfants/famille a l’aide de l’histogramme :

Histogramme du nombre d’enfants

Nombre

Freq

uenc

y

0 2 4 6 8 10

010

2030

4050

Introduction

12

Birthday problem.

D’apres vous, quelle est la probabilite qu’au moins deux personnes soient neesle meme jour dans un groupe de 20 personnes ?

Simulation Monte Carlo.

Courbe de probabilite.

Introduction

13

Pharmaceutique : tester un nouveau medicament. Comment feriez-vous pourtester si une hormone de croissance est efficace ?

Recueillir des donnees :

Placebo 1.65m 1.80m . . . 1.63mMedicament 1.47m . . . 1.92m

Introduction

14

Faire une analyse exploratoire :> boxplot(data1, data2)

P M

1.21.4

1.61.8

2.02.2

Boxplot tailles

Faire un test statistique approprie.Dangers : bien choisir la population, qui fait les mesures, avec quoi, etc.

Introduction

15

Agriculture : ameliorer les bles en faisant une experience dans un champ.

Introduction

16

B26 B24 B4 B14 B16 B6B4 B6 B34 B24 B14 B26B9 B26 B14 B6 B34 B24

B15 B14 B9 B4 B24 B5B34 B5 B11 B26 B15 B16B11 B16 B6 B9 B5 B15B6 B15 B26 B16 B4 B11

B16 B9 B15 B5 B11 B14B14 B4 B5 B11 B26 B34B5 B34 B24 B15 B6 B9

B24 B11 B16 B34 B9 B4B C D A C D A B D A B C C B A D B A D C A D C B

B4 B9 B11 B34 B6 B15B6 B24 B4 B5 B11 B16B11 B4 B9 B15 B24 B34B15 B11 B34 B6 B26 B5B9 B34 B16 B24 B5 B14B5 B26 B14 B11 B16 B6B16 B14 B26 B4 B9 B24B14 B16 B6 B26 B15 B4B34 B15 B5 B14 B4 B26B26 B6 B24 B9 B14 B11B24 B5 B15 B16 B34 B9

C D A B D A B C A B C D D C B A A D C B D C B A

B4 B34 B5 B6 B24 B14B14 B5 B11 B4 B9 B26B16 B26 B14 B9 B34 B11B24 B9 B34 B14 B16 B4B6 B11 B9 B24 B26 B5B26 B24 B4 B15 B11 B9B9 B4 B15 B34 B5 B24B15 B14 B16 B5 B6 B34B34 B6 B24 B11 B15 B16B5 B15 B26 B16 B14 B6B11 B16 B6 B26 B4 B15

D A B C A B C D B C D A A B C D B C D A C D A B

B9 B6 B14 B5 B16 B26B26 B14 B5 B9 B15 B24B14 B24 B6 B11 B34 B4B24 B4 B15 B34 B6 B16B11 B26 B9 B15 B4 B34B6 B34 B11 B16 B9 B15B4 B11 B16 B14 B26 B5B15 B5 B4 B6 B24 B11B34 B16 B26 B4 B5 B14B16 B15 B34 B24 B11 B9B5 B9 B24 B26 B14 B6

A B C D B C D A C D A B B C D A C D A B D A B C4,5 m 18 m

BLOC I BLOC II

BLOC IVBLOC III

118 m

89 m

1,5 m1

1

1

1 2

2

2

2

3

3

3

3

4 4

4

4 5

5

5

5 6 6

6

6

Introduction

17

Astronomie : 720×360 capteurs comptent un nombre aleatoire de particules.

Introduction

18

Sport : optimiser les performances d’Alinghi.

Introduction

19

Economie/Social : observer la sante d’un pays par son inflation, sa produc-tion, sa consommation, son developpement durable, etc.

Avoir des statistiques comparables entre pays europeens, e.g., baisser l’emissionde CO2 de 20% !

Chimie : mieux comprendre et controler les processus chimiques.

Introduction

20

Physique : mieux comprendre la fusion dans le soleil ou dans un tokamak.

Introduction

21

Militaire : detecter un missile.

Onboard Jamming Signals

Incoming Signals

Aircraft radarwarning receiver

Target Signal

-1.0

-0.5

0.0

0.5

1.0

Real

85 90 95 100

Imag

85 90 95 100

microseconds

KH

z

Introduction

22

0

10

20

30

40

50

60

bp.cptable.spectrogram

50 55 60 65

0

10

20

30

40

50

60

ew.cptable.spectrogram

microseconds

KHz

-40

-30

-20

-10

0

10

20

Introduction

23

Finance : optimiser les portefeuilles boursiers tout en controlant le risque.

−1

0−

50

51

0

1985 1987 1989 1991 1993 1995 1997 1999 2001 2003

log−returns

10

00

30

00

50

00 nasdaq

Introduction

24

Imagerie medicale : agir sur les crises d’epilepsie, detecter une tumeur.

Introduction

25

Vous avez vu en mathematiques des outils varies :– Nombres : entier, rationnel, reel, etc.– Figures geometriques : triangle, sphere, etc.– Fonctions : bijective, convexe, derivable, etc.

Nous allons voir en statistiques un nouvel outil : la variable aleatoire.

Introduction

26

Definition de v.a. reelle : une fonction definie sur l’ensemble des resultatspossibles, appele ensemble fondamental ou univers Ω, d’une experience aleatoire

X : Ω −→ X(Ω) ⊂ IR.

Deux types de variables aleatoires :– discrete quand X(Ω) = x1, x2, x3, . . . est un ensemble fini ou

denombrable.– continue quand X(Ω) est un intervalle de IR.

Introduction

27

Examples de processus aleatoires– Pile ou face :

P(X = pile) = 1− P(X = face).

– Nombre de faces de deux P/F successifs :

– Euro million :

Introduction

28

– Pharmaceutique : Ω = taille d’une personne avec Placebo ou Medicament.X(Ω) = [0,∞). On modelise X comme une v.a. continue.

Questions : Quelle est la probabilite qu’une personne avec placebo mesuremoins de 180cm ?

P(XP 6 180) =?

Si on arrive a determiner une fonction de densite fXP (·), on verra querepondre a la question consiste a calculer une integrale

P(XP 6 180) =∫ 180

0

fXP (u)du.

Introduction

29

– Astronomie : Comptages possibles Ω = 0, 1, 2, . . .

La loi de Poisson est un modele possible pour modeliser l’aspect aleatoire

de cette image : P(X0,−20 = 3) = exp(−λ)λ3

3! .

Introduction