59
Notes de cours – Probabilit´ es et Statistiques Elisabeth Gassiat

Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Notes de cours – Probabilites et Statistiques

Elisabeth Gassiat

Page 2: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

2

Page 3: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Table des matieres

0 Preliminaires 50.1 Questions pratiques 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50.2 Introduction historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50.3 Questions pratiques 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60.4 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

0.4.1 Objectif general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60.4.2 Objectif seance par seance . . . . . . . . . . . . . . . . . . . . . . . . . 7

1 Variables aleatoires reelles 91.1 Loi et evenements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 Variables aleatoires discretes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2.2 Quelques variables aleatoires discretes importantes . . . . . . . . . . . 11

1.3 Variables aleatoires a densite . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.2 Quelques variables aleatoires continues importantes . . . . . . . . . . . 14

1.4 Fonction de repartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.1 Definition et proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.2 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.4.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.5 Mediane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.6 Esperance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.6.1 Esperance d’une variable aleatoire . . . . . . . . . . . . . . . . . . . . 211.6.2 Esperance d’une fonction d’une variable aleatoire . . . . . . . . . . . . 211.6.3 Variance, ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.7 Inegalites utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.7.1 Inegalite de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.7.2 Inegalite de Bienayme-Tchebychev . . . . . . . . . . . . . . . . . . . . 25

2 Independance et sommes de variables aleatoires 272.1 Independance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2 Sommes de variables aleatoires independantes . . . . . . . . . . . . . . . . . . 282.3 Moyennes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.4 Sommes de Gaussiennes independantes, sommes de variables de Poisson independantes 302.5 Approximations de sommes de variables aleatoires . . . . . . . . . . . . . . . 31

2.5.1 Approximations de la Binomiale . . . . . . . . . . . . . . . . . . . . . 31

3

Page 4: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

4 TABLE DES MATIERES

2.5.2 Cas general : Theoreme central limite . . . . . . . . . . . . . . . . . . 322.5.3 Methodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Tests d’hypothese 353.1 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2 Variables gaussiennes de variance connue . . . . . . . . . . . . . . . . . . . . . 373.3 Variables de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4 Puissance d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.5 Niveau de signification (p-value) . . . . . . . . . . . . . . . . . . . . . . . . . 413.6 La problematique des tests multiples . . . . . . . . . . . . . . . . . . . . . . . 41

4 Couples de variables aleatoires 434.1 Loi jointe, loi marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.1.1 Couples aleatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . 434.1.2 Couples aleatoires a densite . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2 Esperance d’une fonction d’un couple aleatoire . . . . . . . . . . . . . . . . . 464.2.1 Critere d’independance . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2.2 Covariance et correlation . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.3 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.4 Generalisation a plus de deux variables aleatoires . . . . . . . . . . . . . . . . 524.5 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5 Introduction aux chaines de Markov 555.1 Chaine de Markov homogene . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2 Lois, loi stationnaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3 Decomposition en classes de communication . . . . . . . . . . . . . . . . . . . 575.4 Theoremes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.5 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Page 5: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Chapitre 0

Preliminaires

0.1 Questions pratiques 1

Interrogation ecrite (5 mns) a chaque TD a partir du deuxieme TD.

Un partiel et un examen.Les notes de cours sont interdites au partiel et a l’examen.On peut apporter une page manuscrite recto au partiel, une page manuscrite recto-verso al’examen.

Note finale= Max (0,2 Interro + 0,3 Partiel + 0,5 Examen ; Examen).

Page web du cours : https ://www.imo.universite-paris-saclay.fr/∼gassiat/PolytechMath2.html

0.2 Introduction historique

Les temps modernes : Les Big Data. L’apprentissage. Les bases de donnees, l’informatique.L’Intelligence Artificielle. On va ou ? On vient d’ou ?

Ici : cours de mathematiques. Ah les mathematiques !La mathematique, une discipline tres ancienne, presente deja dans l’antiquite. Thales, autourde 625 avant JC, Pythagore, ne autour de 580 avant JC.Probabilites et statistiques : des disciplines mathematiques recentes. Le debut de la theoriedes probabilites date de la correspondance entre Pierre de Fermat et Blaise Pascal, en 1654,developpement du traitement mathematique du sujet par Jakob Bernoulli (deuxieme moitie du17 eme siecle). La theorie des probabilites prend son essor avec Kolmogorov, debut du 20emesiecle, elle recoit la reconnaissance supreme des mathematiciens en 2006 (premiere medailleFields en proba en 2006), elle est presente en mathematiques dans de nombreux domainesmaintenant. Les statistiques comme recueil de donnees et representation des donnees existentdepuis tres longtemps, mais la statistique comme branche mathematique liee aux probabilitesest tres recente, et reliee au developpement des probabilites. Thomas Bayes (debut 18emesiecle) : on lui doit le theoreme de Bayes, tres utilise en classement automatique (exemple :lutte contre le spam par inference bayesienne). Fin du 19eme siecle debut du 20eme sieclel’ecole anglaise de statistique et de genetique, Pearson, Galton ; Ronald Fisher pose les fon-

5

Page 6: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

6 CHAPITRE 0. PRELIMINAIRES

dements de la theorie de la vraisemblance.

Importance de comprendre la modelisation aleatoire et la problematique statistique.Comme citoyen, et comme ingenieur.

La modelisation aleatoire peut etre liee au hasard, mais pas forcement. Exemple de latheorie de l’information avec Shannon (deuxieme moitie du 20eme siecle). Une decision enmilieu aleatoire ne peut etre parfaite : limitations intrinseques liees au modele, mais quanti-fication precise de ce qu’on peut faire.

0.3 Questions pratiques 2

Le codage source sans perte et la compression.Le virus chinois va-t-il se propager et conduire a une epidemie mondiale ?Reconnaitre les spams dans les boites mails.Variables meteorologiques.Geolocalisation en interieur.Sondages.

0.4 Objectifs

0.4.1 Objectif general

L’objectif du cours est de comprendre la demarche mathematique developpee pour repondrea des questions du type de celles presentees en Section 0.3 et de presenter des procedures sta-tistiques permettant de repondre a des questions concernant des phenomenes comportant unepart aleatoire ou que l’on choisit de modeliser par des variables aleatoires. L’objectif est ausside comprendre les limitations intrinseques de ces questions que permet de preciser la theoriemathematique.

Pour repondre a des questions statistiques, on dispose de donnees, decrites comme resultatsd’“experiences”, dont les resultats ne pourront donner une reponse exacte et certaine, puisqueces resultats ont une variabilite intrinseque. Les resultats de ces experiences sont des variablesaleatoires. Pour repondre aux questions, il faut leur donner une formulation simple, qui porteen general sur un nombre “idealise” de la variable aleatoire : sa valeur moyenne, sa dispersion,etc...

Choisir un modele c’est choisir le type de loi de probabilite qui va decrire les variablesaleatoires de l’experience. Ensuite, il faut aussi choisir le ou les parametre(s) de cette loi enutilisant au mieux les informations que l’on a a sa disposition.

Dans ce cours, on commencera par rappeler les lois de variables aleatoires les plus cou-ramment utilisees dans des modelisations simples ; les parametres descriptifs utiles ; on rap-pellera les calculs de probabilite ; on abordera ensuite les tests et intervalles de confiance, eton etudiera un certain nombre de procedures statistiques permettant de resoudre quelquesproblemes typiques.

Page 7: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

0.4. OBJECTIFS 7

0.4.2 Objectif seance par seance

Cours 1

Comprendre la modelisation : quelle variable aleatoire, quel type de loi.Utilisation de la loi pour comprendre le comportement de la variable aleatoire.Savoir calculer la probabilite d’un evenement, calculer une fonction de repartition, calculeravec la fonction de repartition, ce qu’elle represente.

Cours 2

Retour sur la fonction de repartition. Comprendre ce que represente un quantile, l’utiliseret le calculer.Convergence en loi et approximation de la loi Binomiale par la loi de Poisson. Savoir ce queca veut dire et quand utiliser cette approximation.Comprendre ce que represente mediane, esperance et variance d’une variable aleatoire et savoirles calculer. Proprietes : linearite de l’esperance, variance d’une fonction affine d’une variablealeatoire.

Cours 3

Objectif fondamental : comprendre les methodes empiriques et ce qu’est lamodelisation.Inegalite de Markov et de B-T.Savoir la definition de l’independance de variables aleatoires. Reflechir a quand il est raison-nable de choisir cette modelisation.Savoir les proprietes de l’esperance d’un produit de variables independantes et de la varianced’une somme de variables independantes.La moyenne empirique : sa moyenne, sa variance, l’inegalite B-T pour la moyenne empirique.

Cours 4

Objectif fondamental : comprendre les methodes empiriques et ce qu’est lamodelisation.Connaitre la propriete particuliere des lois de Poisson et Gaussiennes sur les sommes devariables independantes.Comprendre la loi des grands nombres, l’importance de la moyenne empirique, et comprendresa difference et son lien avec l’esperance.Comprendre le TCL et ce qu’il signifie pour les methodes empiriques.

Cours 5

Comprendre le point de vue statistique, et la quantification des erreurs.Le principe du test statistique.

Cours 6

Approfondissement de la notion de test statistique. Puissance ; niveau de signification.Sensibilisation au probleme des tests multiples.

Page 8: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

8 CHAPITRE 0. PRELIMINAIRES

Cours 7

Couple de variables aleatoires : loi, calcul d’esperance.Variables dependantes et independantes, concept.Covariance et correlation : definition, manipulation, interpretation.

Cours 8

Lois conditionnelles.Generalisation multidimensionnelle.Perspectives : ouverture sur la methodologie de la science des donnees pour la comprehensionde lien entre variables a partir d’exemples actuels.

Cours 9

Introduction aux chaines de Markov.

Page 9: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Chapitre 1

Variables aleatoires reelles

Une variable aleatoire X est le resultat d’une experience a l’issue incertaine : si on recom-mence l’experience, le resultat ne sera en general pas le meme. Donc une variable aleatoire peutavoir un ensemble de resultats possibles, et la loi de la variable aleatoire quantifie commentces resultats vont se produire.

1.1 Loi et evenements

La loi de la variable aleatoire X permet de definir les probabilites P (X ∈ A), pour Aun sous-ensemble des resultats possibles. On parle de ”l’evenement (X ∈ A)”. La loi de Xest definie par la donnee des P (X ∈ A) pour tous les evenements (X ∈ A). Comme lesprobabilites obeissent a certaines regles que l’on va rappeler, on peut se limiter a la donneedes P (X ∈ A) pour certains types d’ensembles A qui permette de deduire toutes les autresprobabilites d’evenements. On note Ac = R\A le complementaire de A.

Ces probabilites obeissent a certaines regles. Nous allons preciser maintenant les regles decalcul des quantites P (X ∈ A), c’est-a-dire les axiomes qu’on suppose etre valables :

1. P (X ∈ A) ≥ 0 pour tout A ⊂ R (positivite)2. P (X ∈ ∅) = 0 et P (X ∈ R) = 1,3. Si A,B ⊂ R sont disjoints, alors

P (X ∈ A ∪B) = P (X ∈ A) + P (X ∈ B) (additivite).

Nous allons tout de suite introduire un quatrieme axiome, mais tout d’abord, remarquonsque ces axiomes entraınent les proprietes suivantes :

— Si A ⊂ B, alors

P (X ∈ A) ≤ P (X ∈ B) (monotonie de P (X ∈ A) en A).

— P (X ∈ A) ∈ [0, 1] pour tout A ∈ R.— Si A ⊂ B, alors

P (X ∈ B\A) = P (X ∈ B)− P (X ∈ A).

En particulier (B = R),P (X ∈ Ac) = 1− P (X ∈ A).

9

Page 10: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

10 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

— Si A0, A1, . . . , An ⊂ R sont deux a deux disjoints, alors

P

(X ∈

n⋃k=0

Ak

)=

n∑k=0

P (X ∈ Ak) (additivite finie).

En effet, la propriete de monotonie et la formule pour P (X ∈ B\A) se montrent ainsi : pourA ⊂ B, on a B = A ∪ (A\B), les deux ensembles etant disjoints. L’axiome 3 donne alors :

P (X ∈ B) = P (X ∈ A) + P (X ∈ B\A).

La propriete de monotonie decoule puisque P (X ∈ B\A) ≥ 0 par l’axiome 1. La formuleP (X ∈ B\A) s’obtient en rearrangeant. Finalement, le fait que P (X ∈ A) ∈ [0, 1] pour toutA ∈ R est une simple consequence de la monotonie. La propriete d’additivite finie decoule dela propriete d’additivite par une recurrence finie.

On peut finalement presenter le quatrieme axiome :4. Si A0, A1, A2, . . . est une suite croissante d’ensembles (c’est-a-dire An ⊂ An+1 pour

tout n ∈ N) et telle que⋃n∈NAn est encore un ensemble de la forme ci-dessus, alors

P

X ∈ ⋃n∈N

An

= limn→∞

P (X ∈ An).

Notons que cette limite existe puisque P (X ∈ An) est une suite croissante par lamonotonie de P (X ∈ A) en A enoncee ci-dessus.

Cet axiome necessite eventuellement une explication : avec les axiomes 1 a 3, on avait dejal’inegalite � ≥ � (exercice). Le vrai enonce de l’axiome 4 est qu’on a aussi l’inegalite inverse,a savoir � ≤ �. Intuitivement, cela signifie que lors un passage a la limite, on ne peut pascreer de la probabilite ex nihilo.

Remarquons aussi que l’axiome 4 est equivalent a l’axiome suivant, comme le demontreun passage au complementaire :

4’. Si A0, A1, A2, . . . est une suite decroissante d’ensembles (c’est-a-dire An ⊂ An+1 pourtout n ∈ N) et telle que

⋂n∈NAn est encore un ensemble de la forme ci-dessus, alors

P

X ∈ ⋂n∈N

An

= limn→∞

P (X ∈ An).

Une consequence importante de l’axiome 4 et de l’axiome d’additivite est la propriete desigma-additivite :

1. SiA0, A1, A2, . . . est une suite d’ensembles deux a deux disjoints (c’est-a-dire quem 6= nimplique Am ∩An = ∅), alors

P

X ∈ ⋃n∈N

An

=∑n∈N

P (X ∈ An) (sigma-additivite).

Posons en effet Bn = ∪nk=0Ak (reunion disjointe), alors B0, B1, B2, . . . est une suitecroissante d’ensembles qui verifie ∪n∈NBn = ∪n∈NAn, appliquant alors successivementl’axiome 4 et la propriete d’additivite, on obtient :

P

X ∈ ⋃n∈N

An

= P

X ∈ ⋃n∈N

Bn

= limn→∞

P (X ∈ Bn) = limn→∞

n∑k=0

P (X ∈ Ak),

et cette derniere expression correspond bien a∑n∈N P (X ∈ An) par definition.

Page 11: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.2. VARIABLES ALEATOIRES DISCRETES 11

1.2 Variables aleatoires discretes

1.2.1 Generalites

Lorsque X prend ses valeurs dans un ensemble E qui est fini ou denombrable, on dit quela variable X est discrete. La loi de X est alors la donnee des nombres px ou x parcourtl’ensemble E. Pour chaque resultat possible x, le nombre px represente la probabilite pourque X = x. Ceci est note px = P (X = x). Par exemple lorsque X est le resultat du lancerd’un de a six faces, alors E = {1, 2, 3, 4, 5, 6}, et pour tout x dans E, px = 1/6. On a toujourspx ∈ [0, 1]. Si on somme toutes les valeurs px ou x varie dans E, on obtient 1. On note cecide la maniere suivante : ∑

x : x∈Epx = 1.

On exprime parfois px en pourcentage. Lorsque px = 0.2 on dit que la probabilite est 20%(on multiplie px par 100 pour obtenir le pourcentage. Par exemple px = 0.001 signifie 0.1%).

On dit que l’on a equiprobabilite lorsque E est fini et lorsque tous les px sont egaux. Dansle cas du lancer du de, on a par exemple equiprobabilite. En fait, puisque

∑x∈E px = 1, si on

a equiprobabilite, alors tous les px sont egaux a l’inverse du nombre d’elements de E.Pour calculer la probabilite pour que X appartienne a un certain sous-ensemble A de E,

il suffit d’additionner les px pour tous les x dans A. On note :

P (X ∈ A) =∑x:x∈A

px.

Notons que l’on a bien P (X ∈ E) = 1.

1.2.2 Quelques variables aleatoires discretes importantes

Loi de Dirac

La loi de Dirac est la loi la plus simple qui existe : Si x ∈ R, on dit que X suit la loi deDirac en x (note parfois symboliquement X ∼ δx), si l’ensemble des valeurs possibles E estreduit au point x, et donc

P (X = x) = 1.

Ceci est equivalent a

P (X ∈ A) = 1A(x) ={

1, si x ∈ A0, si x 6∈ A.

On note parfois symboliquement : X ∼ δx, ce qu’on lit � X suit la loi de Dirac en x. �

Loi uniforme

La loi uniforme est la loi la plus simple d’une variable aleatoire prenant un nombre finide valeurs. Soit S une partie finie de R, par exemple S = {1, . . . , n} pour n ∈ N. Une v.a. Xsuit la loi uniforme sur S (symboliquement : X ∼ Unif(S)) si pour tout x ∈ S,

P (X = x) = 1Card(S) ,

Page 12: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

12 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

ce qui implique pour tout A ⊂ R,

P (X ∈ A) = Card(A ∩ S)Card(S) .

La loi uniforme intervient dans de nombreuses applications, par exemple dans les jeux dehasard (lancer de des, tirage de cartes,. . . ). La loi uniforme modelise l’equiprobabilite sur S.

Loi de Bernoulli

On dit que X suit la loi de Bernoulli de parametre p ∈ [0, 1] (symboliquement : X ∼Ber(p)), si

P (X = 1) = p, P (X = 0) = 1− p.

Le nom de la loi de Bernoulli vient de l’experience Bernoulli : c’est une experience aleatoireayant deux issues possibles : succes ou echec. Si on pose alors X = 1 en cas de succes etX = 0 en cas d’echec, et si p et la probabilite de succes de l’experience, alors X suit la loi deBernoulli de parametre p.

Loi binomiale

La loi binomiale est une generalisation importante de la loi de Bernoulli. On dit que Xsuit la loi binomiale de parametres n ∈ N et p ∈ [0, 1] (symboliquement : X ∼ Bin(n, p)), si

P (X = k) =(n

k

)pk(1− p)n−k,

ou on rappelle la definition du coefficient binomial :(n

k

)= n!k!(n− k)! , si k ∈ {0, . . . , n}, = 0 sinon.

Notons que cela coıncide avec la loi de Bernoulli de parametre p quand n = 1. Une variablealeatoire X de loi binomiale de parametres n et p represente le nombre de succes dans nrepetitions independantes d’une experience de Bernoulli ayant une probabilite de succes p.L’independance de variables aleatoires sera definie au chapitre suivant.

Loi de Poisson

On dit que X suit la loi de Poisson de parametre λ ≥ 0 (symboliquement, X ∼ Poi(λ)),si pour tout k ∈ N,

P (X = k) = e−λλk

k! .

La loi de Poisson de parametre λ ≥ 0 peut servir a approcher la loi binomiale de parametresn et p = λ/n, des lors que p est petit. En effet, on peut verifier (exercice) que pour λ ≥ 0 etk ∈ N fixes, (

n

k

)(λ

n

)k (1− λ

n

)n−k→ e−λ

λk

k! , n→∞.

Plus precisement, on a le theoreme suivant :

Page 13: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.3. VARIABLES ALEATOIRES A DENSITE 13

Theoreme 1.1 (Prokhorov, Stein,. . . ). Pour tout n ∈ N et p ∈ [0, 1],

∑k∈N

∣∣∣∣∣(n

k

)pk(1− p)n−k − e−np (np)k

k!

∣∣∣∣∣ ≤ 2p.

Ce theoreme montre donc de maniere tres precise que la loi de Poisson de parametreλ = np est une bonne approximation de la loi binomiale de parametres n et p des lors que pest petit 1.

Loi geometrique

On dit que X suit la loi geometrique de parametre p ∈ ]0, 1] (symboliquement : X ∼Geo(p)), si

P (X = k) = p× (1− p)k−1, k ∈ N∗ = {1, 2, . . .}.

En particulier, on peut retenir la formule suivante :

P (X > k) = (1− p)k, pour tout k ∈ N.

Une v.a. X de loi geometrique de parametre p represente le nombre de fois que l’on doitrepeter une experience de Bernoulli de probabilite de succes p jusqu’au premier succes. Eneffet, la probabilite d’avoir eu des echecs pendant les k − 1 premiers essais et un succes auk-ieme essai est exactement egal a (1− p)k−1 × p.

La loi geometrique est aussi la seule loi d’une variable aleatoire a valeurs dans N∗ ayantla propriete suivante, dite la propriete de perte de memoire :

P (X − k > ` |X > k) = P (X > `), pour tout k, ` ∈ N..

Ceci peut se reformuler de la facon suivante : pour tout k ∈ N, la loi de X − k conditionnel-lement a l’evenement {X > k} est la meme que celle de X.

1.3 Variables aleatoires a densite

1.3.1 Generalites

Si on peut mesurer X avec une precision infinie (par exemple X est un instant, unedistance etc), comment caracteriser sa loi ? Par exemple, X est le resultat d’un lancer dejavelot. Si on mesure au metre pres P (X ∈ [20, 21]) = 9%. Si on mesure au decimetrepres, P (X ∈ [20.0, 20.1]) = 1%. Si on mesure au centimetre pres, la probabilite pour quex ∈ [20.00, 20.01] sera encore environ 10 fois plus petite. En fait lorsque δ est tres petit, onvoit apparaıtre une relation de proportionnalite entre P (X ∈ [20, 20 + δ]) et δ. Le coefficientde proportionnalite est la densite de la loi de X en x = 20.

On dit qu’une variable aleatoire X a pour densite la fonction f , si pour tout reel x,

P (X ∈ [x, x+ dx]) = f(x)dx.

1. On voit souvent dans la litterature la contrainte supplementaire que λ = np ne soit pas trop grand pourque l’approximation soit bonne. Meme si la preuve est plus facile avec cette contrainte, celle-ci n’est en faitpas necessaire, comme le montre le theoreme 1.1. Ceci dit, quand λ est grand, la loi de Poisson elle-meme estsouvent approchee par la loi normale (voir Section 1.3.2).

Page 14: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

14 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

f(x) est le coefficient de proportionnalite en x.On calcule alors P (X ∈ A) en integrant f :

P (X ∈ A) =∫x∈A

f(x)dx.

La densite definit donc completement la loi de X. Notons que f est une fonction positive telleque ∫

x∈Rf(x)dx = P (X ∈ R) = 1.

1.3.2 Quelques variables aleatoires continues importantes

Loi uniforme

Soit I ⊂ R un intervalle borne et notons |I| sa longueur. On dit que X suit la loi uniformesur I (symboliquement, X ∼ Unif(I)), si X possede la densite

fX(x) = 1|I|1I(x).

Si on note a = inf I et b = sup I, |I| = b − a. Notons que la loi ne depend que de a et b etnon de la forme exacte de I, ainsi, on voit egalement la notation Unif(a, b) pour cette loi.

Cette loi est l’analogue continu de la loi uniforme discrete. En effet, alors que la fonction demasse de cette derniere est constante sur l’ensemble des valeurs que prend la variable aleatoire,c’est cette fois-ci la densite qui est constante sur I. Insistons sur le fait que l’intervalle estnecessairement borne : a ne peut prendre la valeur −∞, b ne peut prendre la valeur +∞. Enparticulier, il n’existe pas de mesure unforme sur R (tout comme il n’existe pas de mesureuniforme sur N dans le cas discret). A titre d’exercice on pourra determiner la loi de a ·X + blorsque X ∼ Unif([0, 1]), et a, b ∈ R.

Loi normale (ou gaussienne)

On dit que X suit la loi normale (ou gaussienne) de moyenne m ∈ R et variance σ2 > 0(symboliquement, X ∼ N (m,σ2)), si X possede la densite

fX(x) = 1√2πσ2

e−(x−m)2

2σ2 .

Pour calculer l’integrale∫∞−∞ fX(x) dx, on se ramene par changement de variables a l’integrale

de Gauss∫∞−∞ e

−t2 dt et on montre ainsi que fX est bien une densite de probabilite, c’est-a-direson integrale vaut 1.

Si m = 0, on dit que X est centree et si de plus σ2 = 1 on dit que X est centree reduite.La forme de la densite fX est la fameuse � courbe en forme de cloche � de Gauss. Elle estsymetrique autour de m, croissante a gauche de m et decroissante a droite. Plus σ2 est petit,plus la densite est resserree autour de m.

On peut facilement relier les lois normales pour les differentes valeurs des parametres parla formule suivante (qu’on verra plus tard) :

Si N ∼ N (0, 1) et m,σ ∈ R, σ 6= 0, alors m+ σN ∼ N (m,σ2).

Page 15: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.3. VARIABLES ALEATOIRES A DENSITE 15

Pour cette raison, on definit la loi N (m, 0) comme etant la loi de Dirac en m, ce n’est doncplus une loi continue mais une loi discrete. De meme,

Si pour m,σ ∈ R et σ 6= 0, X ∼ N (m,σ2), alors (X −m)/σ ∼ N (0, 1).

La loi normale est omnipresente en sciences. Ceci est du au fait qu’elle sert comme bonneapproximation pour nombre de lois des lors qu’un parametre devient grand. Par exemple, letheoreme de de Moivre–Laplace dit que la loi binomiale est bien approchee quand n est grandpar la loi gaussienne :

Theoreme 1.2 (de Moivre, Laplace). Soit p ∈ ]0, 1[. Pour tout n ∈ N, soit Xn une variablealeatoire de loi binomiale de parametres n et p. Alors, pour tout −∞ ≤ a < b ≤ +∞,

P

(np+ a×

√p(1− p)n ≤ Xn ≤ np+ b×

√p(1− p)n

)→ Φ(b)− Φ(a), n→∞.

Heuristiquement, ce theoreme dit que si X ∼ Bin(n, p), alors quand n est grand et p fixe,

X ≈ np+√p(1− p)n×N, avec N ∼ N (0, 1).

Une generalisation significative de ce theoreme sera apportee par le theoreme central limiteque nous verrons plus tard.

Correction de continuite En pratique on utilise cette approximation a n fixe, et souventpour de petits intervalles. L’exemple typique est celui ou on veut approcher la probabiliteque la variable binomiale prenne une valeur donnee k. Mais alors on ne peut pas directementecrire :

P(X = k) ≈ P(np+√p(1− p)n×N = k)

car le membre de droite vaut 0, ce qui est une approximation peu interessante. . . On utiliseradonc la correction de continuite : cette methode, qui est utilisee a chaque fois qu’on approchela loi d’une variable aleatoire discrete (ici, X a valeurs dans N) par la loi d’une variablealeatoire a densite (ici, N ou sa transformee lineaire), consiste a ecrire :

P(X = k) ≈ P(k − 12 ≤ np+

√p(1− p)n×N ≤ k + 1

2)

En particulier, on approchera

P(X < k + 1) = P(X ≤ k) ≈ P(np+√p(1− p)n×N ≤ k + 1

2)

Cette correction peut representer des differences numeriques significatives. On notera pourretenir cette formule que k + 1/2 est la moyenne entre k et k + 1.

Loi exponentielle

On dit que X suit la loi exponentielle de parametre λ > 0 (symboliquement, X ∼ Exp(λ)),si X possede la densite

fX(x) = λe−λx1R+(x)

Page 16: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

16 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

En particulier, on peut retenir la formule suivante :

P (X > x) = e−λx, x ≥ 0.

La loi exponentielle est l’analogue continu de la loi geometrique. Comme elle, elle satisfaitla propriete de perte de memoire

P (X − x > y |X > x) = P (X > y), pour tout x, y ≥ 0

Ceci peut se reformuler de la facon suivante : pour tout x ≥ 0, la loi de X − x condition-nellement a l’evenement {X > x} est la meme que celle de X. Du fait de cette propriete, laloi exponentielle est choisir pour modeliser la duree de vie d’une piece qui ne presente pasde phenomene de vieillissement : Le temps qu’il lui reste a vivre sachant qu’il vit encore autemps t ne depend pas de t (en loi) en effet. La propriete d’absence de memoire caracteriseen fait la loi exponentielle (il s’agit d’un exercice difficile).

Loi gamma

On dit qu’une variable aleatoire X suit la loi gamma de parametres α, β > 0 (symboli-quement, X ∼ Γ(α, β)) si elle admet la densite

fX(x) = βα

Γ(α)xα−1e−βx1]0,+∞[(x),

ou Γ(α) =∫∞

0 xα−1e−x dx est appelee la fonction gamma d’Euler ; elle verifie Γ(n) = (n− 1)!pour tout entier naturel n, et interpole donc la fonction factorielle. La fonction de repartitionde la loi Γ(α, β) n’admet pas d’expression simple.

La loi gamma est une generalisation de la loi exponentielle : d’abord, on retrouve Exp(β)quand α = 1. Ensuite, lorsque le parametre α est un entier, la loi gamma de parametresα, β > 0 peut etre obtenue comme la loi de la somme de α variables aleatoires independantesde loi Exp(β). Les valeurs non entieres de α donnent un sens a des sommes non entieres devariables aleatoires Exp(β), tout comme la fonction Γ peut etre vue comme une interpolationde la fonction factorielle.

Elle est aussi reliee a la loi de Poisson, et intervient par ce biais dans de nombreusesapplications.

Les variables aleatoires ne sont pas toutes discretes ou avec une densite. Ellespeuvent par exemple avoir une loi qui est une combinaison de ces deux types, voirl’exercice en TD sur la pluie. Par contre, la fonction de repartition caracterise laloi d’une variable aleatoire reelle, quel soit le type de cette variable aleatoire.

1.4 Fonction de repartition

1.4.1 Definition et proprietes

La fonction de repartition de la variable aleatoire X est la fonction FX : R→ [0, 1] definiepar

FX(x) = P (X ≤ x) pour tout x ∈ R.La fonction de repartition d’une variable aleatoire definit sa loi : les probabilites de tous lesevenements de la forme (X ∈]−∞, x]), x ∈ R, suffisent a determiner la loi.

Page 17: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.4. FONCTION DE REPARTITION 17

Theoreme 1.3. 1. La fonction de repartition FX d’une variable aleatoire reelle a lesproprietes suivantes :— elle est croissante,— FX(−∞) := limx→−∞ FX(x) = 0,— FX(+∞) := limx→+∞ FX(x) = 1,— elle est continue a droite.

2. La loi d’une v.a.r. X est determinee de maniere unique par sa fonction de repartitionFX .

3. Chaque fonction sur R ayant les proprietes donnees dans 1. est la fonction de repartitiond’une v.a. reelle.

Demonstration. 1. Montrons les proprietes enoncees :— Croissance : Ceci est une consequence immediate de la monotonie de P (X ∈ A) en

A. Plus precisement, soient x, y ∈ R avec x < y. Alors ]−∞, x] ⊂ ]−∞, y], si bienque

FX(x) = P (X ∈ ]−∞, x]) ≤ P (X ∈ ]−∞, y]) = FX(y).

— On remarque d’abord que puisque la fonction FX est croissante et bornee inferieurement(par 0), la limite FX(−∞) = limx→−∞ FX(x) existe. En particulier,

FX(−∞) = limn→∞

FX(−n) = limn→∞

P (X ∈ ]−∞,−n]).

La suite d’ensemblesAn = ]−∞,−n] est decroissante et d’intersection vide. L’axiome4’ donne donc :

FX(−∞) = P

(X ∈

∞⋂n=1

]−∞,−n])

= P (X ∈ ∅) = 0.

— Pareil que FX(−∞), on utilise le fait que FX est bornee par 1 pour montrer l’exis-tence de la limite, puis l’axiome 4 pour l’identifier.

— Continuite a droite. Soit x ∈ R. Puisque FX est croissante et bornee inferieurement,la limite FX(x+) := limy↓x FX(y) existe. En particulier,

FX(x+) = limn→∞

FX(x+ 1n) = P (X ∈

∞⋂n=1

]−∞, x+ 1n ]),

ou on a encore utilise l’axiome 4’. Le point cle est alors l’egalite suivante :∞⋂n=1

]−∞, x+ 1n ] = ]−∞, x].

Cela donne que FX(x+) = P (X ∈ ]−∞, x]) = FX(x) et donc FX est continue adroite en x. Puisque x ∈ R etait arbitraire, FX est continue a droite sur R.

2. On veut montrer que pour tout ensemble A qui est une union finie d’intervalles dis-joints, P (X ∈ A) s’ecrit a partir de la fonction de repartition FX . On procede cas parcas :— A = ]−∞, x], x ∈ R : Par definition, P (X ∈ ]−∞, x]) = P (X ≤ x) = FX(x).

Page 18: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

18 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

— A = ]−∞, x[, x ∈ R : L’intervalle ouvert ]−∞, x[ s’ecrit comme l’union denombrabled’intervalles fermes :

]−∞, x[ =∞⋃n=1

]−∞, x− 1n ].

L’axiome 4 donne alors

P (X < x) = limn→∞

P (X ≤ x− 1n) = lim

n→∞FX(x− 1

n) = FX(x−),

ou FX(x−) := limy↑x FX(x) qui existe car la fonction FX est croissante.— A = ]x,∞[ ou A = [x,∞[, x ∈ R : On utilise le fait que F (A) = 1−F (Ac) et on se

ramene aux deux premiers cas.— A = ]x, y], x < y : On obtient

P (x < X ≤ y) = P (X ≤ y)− P (X ≤ x) = FX(y)− FX(x).

— A = [x, y], A = [x, y[ ou A = ]x, y[ : Similaire a A = ]x, y], avec eventuellementF (y−) et F (x−) a la place de F (y) ou F (x). Par exemple

P(X ∈ [x, y]) = P(X ≤ x)− P(X < y) = FX(x)− Fx(y−)

— A = I1 ∪ · · · ∪ In, avec I1, . . . , In des intervalles disjoints, alors par l’axiome 3, on a

P (X ∈ A) = P (X ∈ I1) + · · ·+ P (X ∈ In).

On se ramene alors au cas d’un intervalle traite precedemment.3. Si F est une fonction avec les proprietes du theoreme, on definit la loi d’une variable

aleatoire X a partir de F en utilisant les formules pour P (X ∈ A) ci-dessus. Il suffitalors de montrer que cette loi satisfait aux axiomes 1 a 4. On omet la preuve de sefait qui est laissee en exercice. La fonction F est alors par definition la fonction derepartition de cette variable aleatoire.

Soulignons le fait important suivant rencontre au cours de la preuve : la fonction derepartition FX admet (en tant que que fonction croissante) une limite a gauche en tout point,egale a :

FX(x−) = P(X < x)

pour tout reel x.

Voici quelques exemples de fonctions de repartition.La fonction de repartition de la loi Dirac en x est donnee par

FX(y) = 1]−∞,y](x) ={

1, si y ≥ x0, sinon.

La fonction de repartition de la loi uniforme sur l’ensemble fini S est

FX(x) = Card(]−∞, x] ∩ S)Card(S) .

Page 19: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.4. FONCTION DE REPARTITION 19

La fonction de repartition de la loi de Bernoulli Ber(p) s’ecrit :

FX(x) =

0, si x < 01− p, si x ∈ [0, 1[1, si x ≥ 1.

La fonction de repartition de la loi geometrique Geo(p) admet une expression simple (exer-cice) ; on rappelle que pour x ∈ R, la partie entiere bxc est le plus grand entier plus petit ouegal a x. On obtient alors :

FX(x) ={

1− (1− p)bxc, si x ≥ 00, si x < 0.

La fonction de repartition de la loi uniforme Unif(a, b) s’ecrit

FX(x) =

0, si x < ax−ab−a , si x ∈ [a, b]1, si x > b.

La fonction de repartition de la loi normale centree reduite N (0, 1) est notee Φ :

Φ(x) =∫ x

−∞

1√2πe−

y22 dy.

Des tables de valeurs de ϕ seront distribuees en TD.La fonction de repartition de la loi exponentielle Exp(λ) admet une expression simple (exer-cice) :

FX(x) = (1− e−λx)1R+(x)

1.4.2 Quantiles

Soit q un reel entre 0 et1 et X une variable aleatoire de fonction de repartition F . Onappelle quantile d’ordre q le nombre uq qui est le plus petit des reels t tels que F (t) ≥ q :

uq = inf {t : F (t) ≥ q} .

En pratique, pour les lois dont la fonction de repartition est tabulee, on regarde la table eton regarde quand on depasse q pour trouver uq. Les quantiles sont une autre facon d’utiliserla fonction de repartition pour comprendre comment une variable aleatoire fluctue. On a tou-jours F (uq) ≥ q, mais pas toujours F (uq) = q (voir l’exemple de la binomiale).

Par exemple, pour la loi N (0, 1), le quantile d’ordre 0, 95 verifie (d’apres la table) 1, 64 <u0,95 < 1, 65. Ici, comme il s’agit d’une loi a densite de densite strictement positive partout,on a F (u0,95) = 0, 95.Pour la loi Bin(10, 1/2) d’apres la table, le quantile d’ordre 0, 95 est u0,95 = 8, pour lequelF (8) = 0, 9893 alors que F (7) = 0, 9453.

Page 20: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

20 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

1.4.3 Convergence en loi

Si pour tout n, Xn est une variable aleatoire de fonction de repartition Fn, et si Y est unevariable aleatoire de fonction de repartition F , on dit que Xn converge en loi vers Y quandn tend vers l’infini si et seulement si, pour tout t point de continuite de F , on a

limn→+∞

Fn(t) = F (t).

Theoreme 1.4. Si pour tout n, Xn est une variable aleatoire de loi Bin(n, pn), si il existeλ > 0 tel que npn tend vers λ quand n tend vers l’infini, et si Y est une variable aleatoire deloi Poi(λ), alors Xn converge en loi vers Y quand n tend vers l’infini.

Demonstration. Notons Fn la fonction de repartition de Xn et F la fonction de repartitionde Y . Les points de continuite de F sont les reels t tels que t /∈ N. Soit donc t /∈ N fixe. Pourn ≥ t, on a, si Nt designe le plus grand entier inferieur ou egal a t :

Fn(t) =Nt∑k=0

P (Xn = k) et F (t) =Nt∑k=0

P (Y = k).

Pour montrer que Fn(t), il suffit donc de montrer que pour tout entier k ≥ 0, P (Xn = k)tend vers P (Y = k) quand n tend vers l’infini. Soit donc un entier k ≥ 0.

P (Xn = k) = n!k!(n− k)!p

kn(1− pn)n−k

= n(n− 1) · · · (n− k + 1)nkk! (npn)k(1− pn)n−k.

Quand n tend vers l’infini, n(n−1)···(n−k+1)nk

tend vers 1 et (npn)k tend vers λk, et on a

(1− pn)n−k = exp[(n− k) log

(1− npn

n

)]= exp

[(n− k) log

(1− λ

n+ o( 1

n))]

= exp[(n− k)

(−λn

+ o( 1n

))]

= exp [−λ+ o(1)]

de sorte que quand n tend vers l’infini, P (Xn = k) tend vers λk

k! e−λ = P (Y = k).

1.5 Mediane

On appelle mediane de la variable aleatoire X un nombre reel m tel que

P (X ≤ m) ≥ 12 et P (X ≥ m) ≥ 1

2 .

Une mediane indique quelle valeur partage la loi de la variable aleatoire. C’est une valeurcentrale de la variable aleatoire en ce qui concerne la masse de probabilite.Le quantile d’ordre 1/2 est une mediane. La mediane est unique pour une variable aleatoirea densite et dont la densite est strictement positive, mais si la variable aleatoire est discrete,il peut y avoir plusieurs medianes.

Page 21: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.6. ESPERANCE ET VARIANCE 21

1.6 Esperance et variance

Supposons qu’on lance une piece equilibree n fois et qu’on s’interesse a la proportion delancers � pile � parmi ces n lancers. On s’attend alors a ce que cette proposition approche1/2 quand n tend vers l’infini. Plus generalement, supposons qu’on ait une variable aleatoireX decrivant le resultat d’une experience aleatoire et qu’on repete n fois cette experience ennotant x1, . . . , xn les valeurs de cette variable aleatoire observees lors des n repetitions (lecas precedant correspond a X suivant la loi Bernoulli de parametre 1/2). On s’attend alorsa ce que la moyenne (X1 + · · · + Xn)/n approche une constante quand n tend vers l’infini,cette constante serait d’un sens la moyenne de la variable aleatoire X. Ceci est en effet vraiet on appelle cette moyenne l’esperance de la variable aleatoire X, notee E[X]. La definitionde cette esperance (et plus generalement, celle de f(X) ou f est une fonction) est l’un desconcepts les plus importants en theorie des probabilites.

1.6.1 Esperance d’une variable aleatoire

L’esperance d’une variable aleatoire est la moyenne a priori des valeurs prises par X(ponderees par leurs probabilite). Elle est notee E(X).

Si X est une variable aleatoire discrete :

E(X) =∑x:x∈E

xP (X = x).

Par exemple, pour le de a six faces,

E(X) = 1× 16 + · · ·+ 6× 1

6 = 72 .

Si X est une variable aleatoire qui a pour densite f :

E(X) =∫xf(x)dx.

Exemples :

— Si X a pour loi la loi de Bernoulli de parametre p, E(X) = p.— Si X a pour loi la loi Binomiale Bin(n, p), E(X) = np.— Si X a pour loi la loi de Poisson de parametre λ, E(X) = λ.— Si X a pour loi la loi uniforme sur [a, b], E(X) = (a+ b)/2.— Si X a pour loi la loi gaussienne N (m,σ2), E(X) = m.— Si X a pour loi la loi exponentielle de parametre λ, alors E(X) = 1/λ.— Si X a pour loi N (m,σ2) alors E(X) = m.

1.6.2 Esperance d’une fonction d’une variable aleatoire

Il sera utile d’etendre la definition de l’esperance ci-dessus a l’esperance d’une fonctiond’une variable aleatoire. Soit X une variable aleatoire discrete ou a densite et ϕ une fonction.

Page 22: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

22 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

Alors l’esperance de ϕ(X), notee E[ϕ(X)], est definie par

E[ϕ(X)] =

∑x∈E

ϕ(x)P (X = x) si X est discrete et a valeurs dans E∫ +∞

−∞ϕ(x)fX(x) dx si X admet la densite fX .

(1.1)

Cette definition generalise celle de E[X] qu’on retrouve en prenant f l’application identiteϕ(x) = x. L’esperance E[ϕ(X)] est encore intuitivement la moyenne ponderee des valeurs queϕ(X) peut prendre a priori, les poids etant les probabilites que ces valeurs soient prises.

La definition de E[ϕ(X)] ci-dessus devrait susciter une question. Car quand ϕ(X) est-ellememe discrete ou continue, en appliquant la premiere definition de l’esperance a la variablealeatoire Y = ϕ(X), on devrait obtenir

E[ϕ(X)] =

∑y∈S

yP (ϕ(X) = y) si ϕ(X) est discrete et a valeurs dans E∫ +∞

−∞yfϕ(X)(y) dy si ϕ(X) admet la densite fϕ(X).

(1.2)

La question est donc : Les deux expressions de E[ϕ(X)] dans (1.1) et (1.2) sont-elles equivalentes ?Autrement dit, l’esperance E[ϕ(X)] est-elle bien definie ? Le theoreme suivant (admis) dit quec’est effectivement le cas :

Theoreme 1.5. Les deux expressions de l’esperance dans (1.1) et (1.2) sont equivalentes.

Soit ϕ une fonction affine, ϕ(x) = ax+b, a, b ∈ R. Si X est une variable aleatoire discrete,par (1.1),

E[aX + b] =∑x∈S

(ax+ b)P (X = x) = a∑x∈S

xP (X = x) + b∑x∈S

P (X = x) = aE[X] + b,

car∑x∈S P (X = x) = 1. De meme, si X est a densite, par (1.1),

E[aX + b] =∫ +∞

−∞(ax+ b)fX(x) dx = a

∫ +∞

−∞xfX(x) dx+ b

∫ +∞

−∞fX(x) dx = aE[X] + b,

car∫+∞−∞ fX(x) dx = 1. L’esperance est alors une application lineaire : pour toute variable

aleatoire X et tout a, b ∈ R,E[aX + b] = aE[X] + b.

on appelle cette propriete plus simplement la linearite de l’esperance. De maniere analogueon montre que si ϕ1, . . . , ϕn sont des fonctions, alors

E[ϕ1(X) + · · ·+ ϕn(X)] = E[ϕ1(X)] + · · ·+ E[ϕn(X)],

ce qu’on appelle encore la linearite de l’esperance.

Proprietes de l’esperance. Nous resumons ici quelques proprietes importantes de l’esperance :

Proposition 1.6. Soit X et Y des variables aleatoires.1. Si a, b ∈ R,

E(aX + bY ) = aE(X) + bE(Y )

2. Si X ≤ Y , alors E(X) ≤ E(Y ).

Page 23: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.6. ESPERANCE ET VARIANCE 23

1.6.3 Variance, ecart-type

La variance d’une variable aleatoire X de moyenne µ = E(X) est definie par

Var(X) = E[(X − µ)2].

La variance est un coefficient de dispersion : il mesure comment les valeurs de X sont dis-persees autour de la moyenne. Si la variance est grande, les valeurs sont tres dispersees, alorsque si la variance est petite, les valeurs sont concentrees autour de la moyenne.

Si X a une � dimension � , c’est a dire si que X mesure une quantite dans une dimensionphysique (par exemple une longeur en metres), alors la variance aura comme dimension lecarre de la dimension de X (par exemple metres carres). Pour obtenir une quantite de la memedimension que X on prend alors la racine carree de la variance qu’on nomme ecart-type, notesouvent σ ≥ 0, et definit par

σ =√

Var(X).

Cela conduit a noter la variance par σ2. L’ecart-type donne l’ordre de grandeur de la distanceentre les valeurs typiques de X et sa moyenne µ. Par exemple, si µ = 20 et σ = 0.1 on auratypiquement des valeurs du type 20.1, 20.02, 19.9, 19.95. Lorsque µ = 20 et σ = 10, alors ona plutot des valeurs du type 8, 18, 30, 25 etc.

Si X est une v.a. de moyenne µ et ecart-type σ (fini), on appelle (X − µ)/σ la variablecentree reduite (ou simplement variable reduite). Elle est de moyenne nulle et de varianceegale a 1 (et ecart-type egal a 1), car

E

[X − µσ

]= 1σE[X − µ] = 1

σ× 0 = 0

Var(X − µσ

)= E

[(X − µσ

)2]

= 1σ2E[(X − µ)2] = 1

σ2 Var(X) = 1.

En poursuivant le raisonnement � dimensionnel � ci-dessus, la variable centree reduite est unequantite adimensionnelle, car c’est le quotient de deux quantites de meme dimension. Passera la variable centree reduite est le moyen � naturel � de normaliser une variable aleatoire detelle facon a obtenir une variable d’esperance nulle et de variance 1.

Proprietes de la variance. Nous resumons ici quelques proprietes importantes de la va-riance :

Proposition 1.7. Soit X une variable aleatoire de moyenne µ = E(X).1. Si a, b ∈ R,

Var(aX + b) = a2 Var(X)

En particulier, Var(X + b) = Var(X).2.

Var(X) = E[X2]− µ2

3. Var(X) = 0 si et seulement si X ∼ δµ.

Demonstration. 1. Par linearite de l’esperance, E[aX + b] = aE[X] + b = aµ+ b, si bienque

Var(aX+ b) = E[(aX+ b− (aµ+ b))2] = E[a2(X−µ)2] = a2E[(X−µ)2] = a2 Var(X).

Page 24: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

24 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

2. On developpe :Var(X) = E[(X − µ)2] = E[X2 − 2µX + µ2].

Par linearite de l’esperance, on obtient,

Var(X) = E[X2]− 2µE[X] + µ2 = E[X2]− µ2.

3. On definit la variable aleatoire Y = (X − µ)2. Alors Y ≥ 0 et Y = 0 si et seulement siX = µ. Le Lemme 1.8 ci-dessous applique a Y donne alors

X ∼ δµ ⇐⇒ E[Y ] = 0 ⇐⇒ Var(X) = 0.

Lemme 1.8. Soit Y une v.a. positive. Alors Y ∼ δ0 si et seulement si E[Y ] = 0.La preuve sera faite a la fin de la Section 1.7.1

1.7 Inegalites utiles

1.7.1 Inegalite de Markov

L’inegalite de Markov est l’inegalite fondamentale permettant de borner des probabilitespar des esperances. Au fond de cette inegalite il y a deux observations simples mais puissantes.Lemme 1.9. Soit y ≥ 0 et x > 0. Alors

1y≥x ≤y

x.

Demonstration. On distingue les deux cas : si y ≥ x, alors 1y≥x = 1 ≤ y/x, et si y < x, alors0 ≤ y/x, car y et x sont positifs.

Lemme 1.10. Soit X une v.a. et B ⊂ R. Alors

P (X ∈ B) = E[1X∈B].

Demonstration. La v.a. 1X∈B suit la loi de Bernoulli de parametre P (X ∈ B) car elle esta valeurs dans {0, 1} et elle vaut 1 avec probabilite P (X ∈ B). Son esperance vaut alorsP (X ∈ B).

Theoreme 1.11 (Inegalite de Markov). Soit X une v.a. positive. Alors pour tout x > 0,

P (X ≥ x) ≤ E[X]x

.

Demonstration. Soit x > 0. Puisque X ≥ 0, le Lemme 1.9 montre que 1X≥x ≤ X/x. Par leLemme 1.10,

P (X ≥ x) = E[1X≥x] ≤ E[X

x

]= E[X]

x,

par linearite de l’esperance.

Corollaire : preuve du Lemme 1.8. Si Y ∼ δ0, alors par definition de l’esperance, E[Y ] =0× 1 = 0. Si Y 6∼ δ0, alors il existe x > 0 tel que P (Y ≥ x) > 0. Par l’inegalite de Markov,

E[Y ] ≥ P (Y ≥ x)× x > 0.

Ceci conclut la preuve.

Page 25: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

1.7. INEGALITES UTILES 25

1.7.2 Inegalite de Bienayme-Tchebychev

L’inegalite de Bienayme-Tchebychev est une inegalite de concentration. Cette inegalite ditque quand la variance de X n’est pas grande, X ne peut pas etre trop eloigne de son esperanceavec une grande probabilite.

Theoreme 1.12 (Inegalite de Bienayme-Tchebychev). Soit X une variable aleatoire d’esperancefinie. Alors pour tout x > 0,

P (|X − E[X]| ≥ x) ≤ Var(X)x2 .

Demonstration. On remarque que

P (|X − E[X]| ≥ x) = P ((X − E[X])2 ≥ x2).

La variable (X−E[X])2 etant positive, on peut appliquer l’inegalite de Markov (Theorem 1.11)pour obtenir

P (|X − E[X]| ≥ x) ≤ E[(X − E[X])2]x2 = Var(X)

x2 .

Page 26: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

26 CHAPITRE 1. VARIABLES ALEATOIRES REELLES

Page 27: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Chapitre 2

Independance et sommes devariables aleatoires

2.1 Independance

On dit que les variables aleatoires X1, . . . , Xn sont independantes si pour tous A1, . . . An,la probabilite que les evenements (X1 ∈ A1),. . . , (Xn ∈ An) se produisent simultanement estle produit de leur probabilite individuelle, ce qui s’ecrit :

P [(X1 ∈ A1) et (X2 ∈ A2) et . . . et (Xn ∈ An)]= P (X1 ∈ A1)× P (X2 ∈ A2)× · · · × P (Xn ∈ An).

SiX1, . . . , Xn sont des variables aleatoires discretes, on peut montrer qu’elles sont independantessi pour tous x1, . . . , xn, on a

P (X1 = x1 et X2 = x2 et . . . et Xn = xn)= P (X1 = x1)× P (X2 = x2)× · · · × P (Xn = xn).

Par exemple, lorsque l’on lance un de a six faces deux fois de suite et que l’on observe X1puis X2 on a

P (X1 = x1 et X2 = x2) = 136

pour tous x1 et x2 dans {1, 2, . . . , 6}.

De meme, si X1, . . . , Xn sont des variables aleatoires a densite et de densite respectivef1,. . . ,fn, elles sont independantes si pour tous A1, . . . An,

P [(X1 ∈ A1) et (X2 ∈ A2) et . . . et (Xn ∈ An)]

=(∫

A1f1(x)dx

)×(∫

A2f2(x)dx

)× · · · ×

(∫Anfn(x)dx

).

Lorsque Y et Z sont deux variables aleatoires independantes, l’esperance de leur produitest le produit de leur esperance.

Theoreme 2.1. Si Y et Z sont deux variables aleatoires independantes, alors

E(Y Z) = E(Y )E(Z).

27

Page 28: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

28 CHAPITRE 2. INDEPENDANCE ET SOMMES DE VARIABLES ALEATOIRES

Demonstration. On va faire la preuve lorsque Y et Z sont des variables aleatoires discretes.Dans tous les autres cas, le theoreme est admis. Supposons donc que Y et Z sont des variablesaleatoires discretes. On a alors que (Y,Z) est une variable aleatoire discrete, et par le calculd’esperance de fonctions de variables aleatoires

E(Y Z) =∑y,z

yzP (Y = y, Z = z)

=∑y,z

yzP (Y = y)P (Z = z) (independance)

=∑y

yP (Y = y)∑z

zP (Z = z) (factorisation)

= E(Y )E(Z)

Attention ! Il se peut que E(Y Z) = E(Y )E(Z) meme si Y et Z ne sont pas independantes.

On peut maintenant demontrer ce qui a ete dit sur la loi Binomiale en Section 1.2.2.

Proposition 2.2. Si X1, X2, . . . , Xn sont des variables aleatoires independantes et de memeloi Ber(p), alors

X1 + · · ·+Xn ∼ Bin(n, p).

Demonstration. X1+· · ·+Xn est une variable aleatoire qui peut prendre les valeurs 0, 1, . . . , n.Soit k ∈ {1, . . . , n}.Pour tous i1, . . . , ik distincts entre 1 et n, notons A(i1, . . . , ik) l’evenement

”Xi1 = 1 et . . . et Xik = 1 et Xi = 0 pour tout i /∈ {i1, . . . , ik}”.Lorsque les i1, . . . , ik ne sont pas tous les memes que les j1, . . . , jk, les evenements A(i1, . . . , ik)et A(j1, . . . , jk) sont incompatibles. Donc

P (X1 + · · ·+Xn = k) =∑

i1,...,ikdistincts

P (A(i1, . . . , ik)).

Comme X1, X2, . . . , Xn sont des variables aleatoires independantes,

P (A(i1, . . . , ik)) = P (Xi1 = 1) · · ·P (Xik = 1)∏

i/∈{i1,...,ik}P (Xi = 0)

= pk(1− p)n−k

de sorte que P (X1 + · · ·+Xn = k) est egal a pk(1− p)n−k multiplie par le nombre de facons

de choisir k elements distincts dans {1, . . . , n} c’est a dire multiplie par(nk

).

2.2 Sommes de variables aleatoires independantes

On suppose que X1, . . . , Xn sont n variables aleatoires independantes. Posons Sn = X1 +· · · + Xn la somme des variables X1, . . . , Xn. On a deja vu (linearite de l’esperance) quel’esperance de Sn est egale a la somme des esperances :

E (X1 + · · ·+Xn) = E(X1) + · · ·+ E(Xn).

Page 29: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

2.3. MOYENNES EMPIRIQUES 29

Lorsque les variables sont independantes, on a en fait que la variance de la somme est lasomme des variances. En d’autres termes :

Proposition 2.3. Si X1, · · · , Xn sont n variables aleatoires independantes,

Var(X1 + · · ·+Xn) = Var(X1) + · · ·+ Var(Xn).

Demonstration. On fait la preuve par recurrence.Pour n = 1, la proposition est vraie.Supposons qu’elle est vraie pour n. Soient ensuite X1, · · · , Xn+1 des variables aleatoiresindependantes. Posons Y = X1 + · · · + Xn − E(X1 + · · · + Xn) et Z = Xn+1 − E(Xn+1).Ce sont deux variables aleatoires independantes de moyenne nulle de sorte que E(Y Z) = 0.Alors,

Var(X1 + · · ·+Xn+1) = Var(Y + Z)= E((Y + Z)2) (variable centree)= E(Y 2 + 2Y Z + Z2)= E(Y 2) + 2E(Y Z) + E(Z2) (linearite de l’esperance)= Var(Y ) + Var(Z) (independance)= Var(X1) + · · ·+ Var(Xn) + Var(Xn+1) (hypothese de recurrence).

Attention : si les variables ne sont pas independantes, la variance de leur somme n’est engeneral pas la somme des variances.

2.3 Moyennes empiriques

On suppose maintenant que X1, . . . , Xn sont n variables aleatoires independantes de memeloi. On appelle m leur esperance commune, et σ2 leur variance commune. On pose

Xn = X1 + · · ·+Xn

n.

Xn est une variable aleatoire, qui est la moyenne de X1, . . . Xn. On l’appelle moyenne empi-rique. D’apres ce qui precede

E(Xn) = 1nE(X1 + · · ·+Xn) = 1

n(m+ · · ·+m) = m.

De meme, comme les variables sont independantes,

var(Xn) = 1n2 var(X1 + · · ·+Xn) = 1

n2nσ2 = σ2

n.

Si l’on ecrit l’inegalite de Bienayme-Tchebychev pour Xn on obtient l’inegalite importantesuivante.Pour tout x > 0,

P (|Xn −m| > x) ≤ σ2

nx2 .

On voit alors que lorsque n augmente vers l’infini, alors le terme de droite tend vers zero :Donc la probabilite pour que |X −m| > x tend vers zero. C’est la loi des grands nombres : lamoyenne empirique tend vers l’esperance.

Page 30: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

30 CHAPITRE 2. INDEPENDANCE ET SOMMES DE VARIABLES ALEATOIRES

Definition 2.4. On dit que la suite Z1, Z2, . . . , Zn, . . . converge en probabilite vers x ∈ R eton note Zn

P→ x, si

pour tout ε > 0 : P (|Zn − x| > ε)→ 0, n→∞.

Theoreme 2.5 (Loi des grands nombres). Soient X1, X2, . . . des variables aleatoires independanteset de meme loi, ayant une meme variance. Alors

X1 + · · ·+Xn

nP→ E[X1].

Remarque 2.6. Comme explique lors de l’introduction de l’esperance, la loi des grands nombresjustifie l’interpretation de celle-ci comme � moyenne � de la v.a. : la moyenne empirique den realisation de cette v.a. approche son esperance quand n est grand.

Il est important de ne pas confondre X, la moyenne empirique, avec m, l’esperance desXi, que l’on appelle parfois leur moyenne. m est un nombre fixe (la moyenne “a priori” desvaleurs que peut prendre la variable), alors que X est une variable aleatoire.

2.4 Sommes de Gaussiennes independantes, sommes de va-riables de Poisson independantes

Les lois gaussiennes et les lois de Poisson possedent toutes deux une propriete remar-quable :

Proposition 2.7.— Si X1, . . . , Xn sont n variables gaussiennes independantes alors la loi de X1 + · · ·+Xn

est encore une loi gaussienne.— De meme, si X1, . . . , Xn sont n variables de Poisson independantes alors la loi de

X1 + · · ·+Xn est encore une loi de Poisson.

Rappelons que l’esperance de Sn = X1 + · · ·+Xn est la somme des esperances, et que lavariance de Sn est la somme des variances lorsque X1, . . . , Xn sont independantes.

Donc, siX1, · · · , Xn sont des variables aleatoires independantes de loi de Poisson d’esperancesλ1, . . . , λn alors la loi de Sn = X1 + · · · + Xn est une loi de Poisson Poi(λ) d’esperanceλ = λ1 + · · ·+ λn. Ceci peut se montrer de la maniere suivante, dans le cas ou n = 2 :

P (X1 +X2 = k) =k∑l=0

P (X1 = l et X2 = k − l)

=k∑l=0

P (X1 = l)P (X2 = k − l)

=k∑l=0

e−λ1 λl1l! e−λ2 λk−l2

(k − l)!

= e−λ1−λ2

k!

k∑l=0

k!l!(k − l)!λ

l1λ

k−l2

= e−(λ1+λ2) (λ1 + λ2)k

k! .

Page 31: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

2.5. APPROXIMATIONS DE SOMMES DE VARIABLES ALEATOIRES 31

LorsqueX1, · · · , Xn sont des variables gaussiennes independantes de lois respectivesN (m1, σ21),

. . . , N (mn, σ2n) alors la loi de Sn est N (m1 + · · ·+mn, σ

21 + · · ·+ σ2

n).Dans le cas particulier important ou m1 = m2 = · · · = mn et ou σ2

1 = · · · = σ2n, c’est a

dire que X1, · · · , Xn sont gaussiennes independantes de meme loi, alors :— La loi de Sn est N (nm, nσ2)— La loi de Xn = Sn/n est N (m,σ2/n)— La loi de

√nXn−m

σ = Sn−nmσ√n

est N (0, 1).

2.5 Approximations de sommes de variables aleatoires

Plus generalement, on dit queX1, . . . , Xn est un n-echantillon d’une loi L lorsqueX1, . . . , Xn

sont n variables aleatoires independantes de meme loi L. En d’autres termes, ce sont lesresultats d’une meme experience recommencee n fois de maniere independante.

2.5.1 Approximations de la Binomiale

Supposons maintenant que X1, . . . , Xn est un n-echantillon de la loi de Bernoulli de pa-rametre p. En d’autres termes, chacun des Xi vaut 1 avec probabilite p et 0 avec probabilite1− p.

Notons que l’esperance de X1 est p et que la variance de X1 est E(X21 )−E(X1)2 = p(1−p).

Alors, lorsque n est grand, et suivant la valeur de p, on peut approximer la loi de Sn =X1 + · · · + Xn en utilisant une loi de Poisson ou en utilisant une loi gaussienne. Rappelonsque la loi de Sn est alors une loi binomiale Bin(n, p). Cependant, lorsque n est grand, la loibinomiale fait intervenir des termes enormes (n !) difficiles a manipuler. On utilise alors desapproximations de la loi binomiale.

Proposition 2.8 (Approximation par une loi de Poisson). Lorsque le nombre n est grand etλ = np est petit (en pratique, n superieur a 30 et np inferieur a 5), alors la loi de Sn estproche d’une loi de Poisson de parametre λ.

Notons que l’esperance de la loi de Poisson est λ qui est bien identique a l’esperance deSn. Prenons un exemple : p = 0.001 et n = 1000. Que vaut P (S = 3) ? On approxime la loide Sn par une loi de Poisson de parametre 1000× 0.001 = 1. Alors :

P (Sn = 3) ∼ e−113/3! = 0.061 = 6.1%.

Proposition 2.9 (Approximation par une Gaussienne). Lorsque n est grand, et lorsque npet n(1− p) ne sont pas trop petits (en pratique : tous deux superieurs a 10), alors la loi de

Sn − np√np(1− p)

est proche d’une loi Gaussienne N (0, 1).

Notons que E(Sn) = np et donc que l’esperance de (Sn − np)/√np(1− p) est nulle (tout

comme celle de la loi N (0, 1). De meme, la variance de Sn est egale a n fois la variance de X1(comme somme de n variables independantes de meme loi que X1). Donc var(Sn) = np(1−p).La variance de (Sn−np)/

√np(1− p) est donc bien 1, tout comme la variance de la loi N (0, 1).

Page 32: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

32 CHAPITRE 2. INDEPENDANCE ET SOMMES DE VARIABLES ALEATOIRES

En pratique, dire que la loi de (Sn−np)/√np(1− p) est proche d’une loi N (0, 1), revient

a dire que pour tout a < b fixes, la probabilite

P

(S − nm√np(1− p)

∈ [a, b])

peut etre approximee par1√2π

∫ b

ae−x

2/2dx.

Par exemple, supposons que p = 0.5 et que n = 10000. Ceci se produit par exemple lorsquel’on joue 10000 fois a pile ou face. Sn = X1 + · · ·+Xn represente alors le nombre de fois ouest apparu ‘face’. Que vaut alors P (Sn ∈ [4900, 5100]) ? Pour determiner cela, on note queSn ∈ [4900, 5100] est equivalent a (Sn − 5000)/50 ∈ [−2, 2]. Mais la loi de (Sn − 5000)/50 estproche d’une loi gaussienne N (0, 1). On regarde dans la table la probabilite pour qu’une tellegaussienne soit plus grande que 2 : Cette probabilite vaut 0.0228. La probabilite pour qu’ellesoit inferieure a −2 est egalement 0.0228. Donc

P (Sn ∈ [4900, 5100]) ∼ 0.9544 = 1− 2P (N > 2).

On peut remarquer ici que l’utilisation de l’inegalite B-T conduit a P (Sn ∈ [4900, 5100]) ≥0.75, ce qui est moins precis.

Quand on peut les employer, les approximations par des lois de Poisson ou gaussiennesdonnent des informations plus precises que l’inegalite B-Tv.

2.5.2 Cas general : Theoreme central limite

La loi des grands nombres nous dit que si X1, . . . , Xn iid d’esperance finie, alors X1 + · · ·+Xn ≈ n × E[X1]. Il est naturel de se demander quelles sont les fluctuations autour de cettemoyenne, c’est-a-dire, quelle est l’ordre de grandeur et la loi de X1 + · · ·+Xn − n×E[X1] ?Les reponses different selon que σ2 = Var(X1) est finie ou non, et on suppose dorenavant queσ2 <∞. Alors Var(X1 + · · ·+Xn) = nσ2, ce qui laisse penser que X1 + · · ·+Xn−n×E[X1]est d’ordre σ

√n. Le theoreme central limite donne une reponse positive et tres precise a

cette question :en fait, l’approximation par une variable aleatoire gaussienne est licite pourn’importe quelle loi.

On note Φ la fonction de repartition de la loi normale centree reduite.

Theoreme 2.10 (Theoreme central limite). Soient X1, X2, . . . des variables aleatoires independanteset de meme loi d’esperance m et de variance σ2 = Var(X1) <∞.Alors la suite de v.a.

X1 + · · ·+Xn − nmσ√n

=√nXn −m

σ

converge en loi vers la loi normale centree reduite. Autrement dit, pour tout x ∈ R,

P

(X1 + · · ·+Xn − nm

σ√n

≤ x)→ Φ(x), n→∞.

Page 33: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

2.5. APPROXIMATIONS DE SOMMES DE VARIABLES ALEATOIRES 33

2.5.3 Methodes empiriques

Il faut noter l’importance du theoreme central limite : Il permet non seulement de direque lorsque n est grand alors Sn/n est tres proche de la moyenne m, mais il donne egalementune information precise sur l’ecart entre la valeur observee de Sn/n et m.

Par exemple si l’on sait a priori que σ2 = 1 et que n = 100, et que l’approximation estlicite, alors la probabilite pour que Xn > m+ σ × 1.96/

√n = m+ 0.196 est proche de 2.5%.

En particulier, si m est inconnue, on voit que la probabilite pour que m soit plus petite quela valeur observee Xn moins 0.196 est de l’ordre de 2.5%.

Plus generalement, si l’on cherche a obtenir des informations sur une quantite (inconnue)qui peut s’ecrire comme l’esperance d’une certaine variable reliee a l’experience, une moyenneempirique bien choisie sera le bon outil statistique. Autrement dit, si l’experience conduit aobserver les variables aleatoires X1, . . . , Xn, et que l’on cherche a obtenir des informationssur la valeur (inconnue) θ = E(φ(X1)) ou φ est une fonction donnee, alors on peut definir lesvariables Yi = φ(Xi) et leur appliquer le theoreme central limite pour voir que la moyenneempirique

Y n = Y1 + . . .+ Ynn

= φ(X1) + . . .+ φ(Xn)n

a une loi proche de N (θ, σ2/n) lorsque n est grand pour σ2 egal a la variance de Y1.

Page 34: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

34 CHAPITRE 2. INDEPENDANCE ET SOMMES DE VARIABLES ALEATOIRES

Page 35: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Chapitre 3

Tests d’hypothese

On cherche a tirer de l’information generale a partir de donnees particulieres. Cela peutetre parce que l’on se posait une question sur un phenomene, et l’on a organise des experiencesou recolte des donnees. Cela peut etre parce que l’on dispose de bases de donnees dejaconstituees a partir desquelles on espere comprendre des choses generales.Le point de vue statistique est le suivant : les donnees sont interpretees comme le resultatde variables aleatoires, dont la loi (inconnue) porte l’information cherchee. On construit desmethodes pour deduire de l’information a partir des observations, et pour quantifier la validitede l’information. On fait des hypotheses plus ou moins contraignantes sur la loi inconnue :c’est la modelisation. La theorie probabiliste permet de comprendre le comportement desdonnees. Cette comprehension permet de choisir des strategies.Une des methodes statistiques fondamentale est la construction de test d’hypothese. L’objec-tif de ce chapitre est d’introduire la methodologie du test statistique comme illustration dupoint de vue ”modelisation stochastique/analyse statistique” et de donner quelques elementsde base pour comprendre comment construire de telles procedures.

3.1 Principe des tests

Commencons par un exemple simple. Un fabricant annonce que parmi les nombreux pro-duits qu’il vend, moins de 10% sont defectueux. On en choisit par exemple 10 au hasard eton constate qu’ils ont tous un defaut. On a envie d’en conclure que le fabricant a menti.Evidement, il se peut que le fabricant n’ait pas menti et qu’on a eu une malchance terriblede tomber dix fois de suite sur un produit defectueux. Cependant, on sent bien que cela estfort peu probable, et on peut declarer avec relative certitude qu’il a menti.

Maintenant, supposons que parmi les 10 produits testes, 4 s’averent defectueux. On esta ce moment moins confiant lorsque l’on affirme que le fabricant a menti. Le principe destests statistiques que nous allons decrire dans la suite du cours est d’utiliser les calculs deprobabilites que nous avons presente jusqu’a maintenant pour pouvoir determiner a partir dequel nombre de produits defectueux on peut affirmer que le producteur a menti en controlantla probabilite de se tromper en declarant qu’il a menti.

Si l’on appelle Z le nombre de produits defectueux parmi les 10, Z suit la loi Bin(10, p)ou p est inconnu mais vaut 0, 1 si le fabricant n’a pas menti. On fixe une regle de decision :

— On decide que le fabricant a menti si Z > s (ou s est un seuil a fixer),— On decide que le fabricant dit vrai sinon (donc si Z ≤ s).

35

Page 36: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

36 CHAPITRE 3. TESTS D’HYPOTHESE

On prend la mauvaise decision si Z > s et que p = 0, 1, ce qui arrive avec probabiliteP (Z > s) pour Z ∼ Bin(10, 0, 1), ou si Z ≤ s et que p > 0, 1, ce qui arrive avec probabilite∑sz=0

(10z

)pz(1− p)10−z.

On appelle erreur de premiere espece α la premiere erreur, erreur de deuxieme espece β(p) laseconde.Par exemple, avec s = 3, α = 0, 013, avec s = 2, α = 0, 03.

On ne peut eviter ces erreurs : si on augmente le seuil s, on diminue l’erreur de premiereespece, mais on augmente l’ erreur de deuxieme espece. Et si on diminue le seuil s, on diminuel’erreur de deuxieme espece, mais on augmente l’ erreur de premiere espece.

On appelle test statistique une regle de decision entre deux choix possibles, a partir dedonnees X1, . . . , Xn considerees comme realisations de variables aleatoires. Le principe est lesuivant.On se pose une question et on dispose de donnees. On choisit une modelisation, c’est a direqu’on choisit comme loi possible pour X1, . . . , Xn une loi Pθ, θ inconnu. On formule la ques-tion sous la forme est-ce que ”θ ∈ Θ0”, ou est-ce que ”θ ∈ Θ1” ? (Pour des ensembles Θ0 etΘ1 disjoints).

On dit que φ est un test de niveau α de H0 : ”θ ∈ Θ0” contre H1 : ”θ ∈ Θ1” si φ est unefonction de X1, . . . , Xn qui vaut 0 ou 1 et telle que :

∀θ ∈ Θ0, Pθ (φ = 1) ≤ α.

Si φ = 1, on decide que H1 est vrai (on rejette H0), si φ = 0, on decide que H0 est vrai. Onne peut pas etre sur que la decision choisie est vraie, mais on est surs que l’erreur de premiereespece est inferieure ou egale a α.

Schema de la construction d’un test :1. Determiner dans quel cadre on se situe, c’est a dire preciser le modele.2. Au vu de la question posee, determiner quelles seront les hypotheses (H0) et (H1)

du test. Attention : il faut choisir pour H0 l’hypothese sous laquelle on sait faire descalculs.

3. Determiner une statistique Z (une fonction des variables X1, . . . , Xn) dont on connaıtla loi sous (H0) et dont la loi sous (H0) est differente de la loi sous (H1).

4. A partir de la loi de la statistique sous (H0) et sous (H1), on etablit une regle quipermet de decider quand on rejette et quand on accepte (H0). On en deduit la formede la region de rejet R de (H0) a partir de Z.

5. On calcule enfin le ou les seuil(s) de la region de rejet grace a la loi de la statistiquesous (H0).

6. Le test est alors φ = 1Z∈R, c’est a dire la variable qui vaut 1 si la statistique Z estdans la region de rejet R, et 0 sinon. La regle de decision est la suivante : on rejette H0si Z est dans la region de rejet, on accepte H0 si Z n’est pas dans la region de rejet.

On peut alors calculer la valeur observee de Z et prendre une decision.

Page 37: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

3.2. VARIABLES GAUSSIENNES DE VARIANCE CONNUE 37

Reprise de l’exemple du fabricant avec le formalisme.Pour choisir une statistique Z : on peut penser aux methodes empiriques (cf l’exemple dusondage vu en cours).

3.2 Variables gaussiennes de variance connue

Reprise des exercices de TD sur le taux de sel dans une piscine.Taux de sel m, on veut tester H0 : ”m = 5” contre H1 : ”m 6= 5”.Exercice 9 : on fait une mesure X, on choisit le modele X ∼ N (m, (0.3)2). Le test estφ = 1|X−5|≥u. La question 3 calcule une erreur de deuxieme espece.Exercice 14 : on fait 7 mesures independantes X1, . . . , X7. La statistique de test est X et letest est φ = 1|X−5|≥0.588. La question 1 calcule l’erreur de premiere espece.

On considere le cas ou le modele est X1, . . . , Xn independantes, de meme loi N (m,σ2),pour une valeur m inconnue et σ fixe et connu. On veut tester des hypotheses sur m. Pour cela,il faut alors choisir une variable de test Z qui est une fonction des n observations X1, . . . , Xn,et qui donne de l’information sur m. Il est naturel de choisir

Z = X1 + · · ·+Xn

n.

La loi de Z est la loi N (m,σ2/n), et son centre de symetrie se deplace selon les valeurs de m.

Supposons que l’on souhaite tester au niveau 5% l’hypothese H0 : “m = m0” contre H1 :“m 6= m0” pour une valeur fixee m0 (par exemple 5 dans les exercices sur la piscine). SousH0, la loi de Z est concentree autour de m0, alors que sous H1 la loi de Z s’ecarte de m0 ;Il est donc naturel de choisir de rejeter Z pour des grandes valeurs de |Z −m0|. Et donc deposer, pour un seuil s a determiner,

φ = 1|Z−m0|>s.

Pour avoir un test de niveau α, il faut que, si la loi de X1, . . . , Xn est N (m0, σ2), Pm0(|Z −

m0| > s) ≤ α. Ici, quand on note Pm (pour un m donne) cela signifie que la probabilite estcalculee lorsque la loi de X1, . . . , Xn est N (m,σ2). On a, si F est la fonction de repartitionde la loi N (0, 1)

Pm0(|Z −m0| > s) = Pm0

(∣∣∣∣√n(Z −m0σ

)∣∣∣∣ > √nsσ)

= 2(1− F(√

ns

σ

)).

Donc si u est tel que F (u) = 1− α/2 (par exemple, u = 1.96 si α = 0.05), on a s = σu/√n,

et doncφ = 1|Z−m0|> uσ√

n

est un test de niveau α de H0 : “m = m0” contre H1 : “m 6= m0”.

Supposons maintenant que l’on souhaite tester au niveau α l’hypothese H0 : “m ≥ m0”contre H1 : “m < m0” (par exemple, si l’on s’interesse au taux de chocolat dans une patisserie,

Page 38: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

38 CHAPITRE 3. TESTS D’HYPOTHESE

et que l’on veut savoir si il est bien de au moins 70%, on fait ce test avec m0 = 70 et desmesures sur quelques patisseries), on choisit de rejeter H0 seulement si Z est plus petit qu’unecertaine valeur seuil s. En effet, sous H1, Z a tendance a prendre des plus petites valeurs quesous H0. On pose donc, pour un seuil s a determiner,

φ = 1Z<s.

Pour avoir un test de niveau α, il faut que

∀m < m0, Pm (Z < s) ≤ α

On a, si F est la fonction de repartition de la loi N (0, 1), pour tout m :

Pm(Z < s) = Pm

(√n

(Z −mσ

)<

√n(s−m)σ

)= F

(√n(s−m)σ

).

La fonction m 7→ F(√

n(s−m)σ

)est decroissante, donc son maximum pour m ≥ m0 est en

m0, donc pour que le test soit de niveau α il suffit que F(√

n(s−m0)σ

)= α. Donc si u est tel

que F (u) = α (par exemple, u = −1.64 si α = 0.05), on a s = m0 + σu/√n, et donc, en

notant v = −u (car u est negatif des que α < 1/2 ! Reflechir pourquoi, en dessinant la densitegaussienne et ce que vaut u selon α, et voir que v est tel que F (v) = 1− α) :

φ = 1Z<m0− vσ√n

est un test de niveau α de H0 : “m ≥ m0” contre H1 : “m < m0”.

3.3 Variables de Bernoulli

Reprenons l’exemple du sondage avant un referendum fait en cours.On se demande si le oui va l’emporter. On interroge n individus, et on note Xi = 1 si le i-emeindividu dit qu’il va voter oui. On note p la proportion d’intentions de vote ”oui” dans lapopulation totale.

Reprenons le schema de la construction d’un test.

1. Determiner dans quel cadre on se situe, c’est a dire preciser le modele.Le modele est : X1, . . . , Xn sont des variables aleatoires independantes et de meme loiBer(p).

2. Au vu de la question posee, determiner quelles seront les hypotheses (H0) et (H1)du test. Attention : il faut choisir pour H0 l’hypothese sous laquelle on sait faire descalculs. On veut tester H0 : ”p ≥ 1/2 contre H1 : ”p < 1/2”.

3. Determiner une statistique Z (une fonction des variables X1, . . . , Xn) dont on connaıtla loi sous (H0) et dont la loi sous (H0) est differente de la loi sous (H1). La loi desgrands nombres nous dit que la moyenne empirique Xn converge en probabilite versp quand n tend vers l’infini, c’est a dire que si n est grand, la probabilite que Xn soitproche de p est grande. On va choisir comme statistique de test Z = Xn.

Page 39: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

3.3. VARIABLES DE BERNOULLI 39

4. A partir de la loi de la statistique sous (H0) et sous (H1), on etablit une regle quipermet de decider quand on rejette et quand on accepte (H0). On en deduit la formede la region de rejet R de (H0) a partir de Z. D’apres la loi des grands nombres, Xn

a tendance a etre plus grand si H0 est vraie que si H1 est vraie. On va donc choisir dedecider H0 si Xn est plus grand qu’un seuil t, et on decidera H1 si Xn est plus petitque ce seuil t. Autrement dit la region de rejet sera R = [0, t[.

5. On calcule enfin le ou les seuil(s) de la region de rejet grace a la loi de la statistiquesous (H0). On va noter Pp la loi de probabilite de Xn si X1, . . . , Xn sont de loi Ber(p).On choisit un niveau α. On doit alors calculer t de sorte que

∀p ≥ 1/2, Pp(Xn < t

)≤ α.

6. Le test est alors φ = 1Z∈R, c’est a dire la variable qui vaut 1 si la statistique Z estdans la region de rejet R, et 0 sinon. La regle de decision est la suivante : on rejetteH0 si Z est dans la region de rejet, on accepte H0 si Z n’est pas dans la region derejet.

Remarquer que c’est equivalent de choisir comme statistique de test Z = X1 + · · ·+Xn, etune region de rejet R = [0, s[. Noter que l’exemple introductif du paragraphe 3.1 correspondau meme modele, et on a choisi Z = X1 + · · · + Xn. La region de rejet etait de la formeR =]s, n[ parce que la question posee etait differente (bien comprendre ce point, il est essen-tiel !).

Rappelons qu’il y a deux erreurs de decision possible :

α = supp≥1/2

Pp(Xn < t

).

l’ erreur de premiere espece qui quantifie la probabilite maximum de l’erreur que l’on fait endecidant que p < 1/2 alors qu’en fait p ≥ 1/2.Si l’on note maintenant

β = supp<1/2

Pp(Xn ≥ t

),

β est l’erreur de deuxieme espece qui quantifie la probabilite maximum de l’erreur que l’onfait en decidant que p ≥ 1/2 alors qu’en fait p < 1/2.On a dit que si on diminue t, on diminue l’erreur de premiere espece mais on augmentel’erreur de deuxieme espece, et si on augmente t, on diminue l’erreur de deuxieme espece maison augmente l’erreur de premiere espece. La proposition suivante montre que leur somme faittoujours 1, quel que soit le choix du seuil t.

Proposition 3.1. Soient X1, . . . , Xn des variables aleatoires reelles independantes et dememe loi Ber(p). Alors, pour t fixe, la fonction p 7→ Pp

(Xn ≥ t

)est croissante, et pour

tout t, supp≥1/2 Pp(Xn < t

)+ supp<1/2 Pθ

(Xn ≥ t

)= 1.

Preuve : Soient U1, . . . , Un des variables aleatoires reelles independantes et de meme loiuniforme sur [0, 1]. Pour tout p ∈ [0, 1], 1U1≤p est de loi Ber(p) (le demontrer !), et donc

Pp(Xn ≥ t

)= P

(1n

n∑i=1

1Ui≤p ≥ t).

Page 40: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

40 CHAPITRE 3. TESTS D’HYPOTHESE

Mais p 7→ 1Ui≤p est une fonction croissante, donc p 7→ P(

1n

∑ni=1 1Ui≤p ≥ t

)est aussi

une fonction croissante. C’est aussi une fonction continue de p (car polynomiale ; l’ecrire !)Donc son maximum pour p ∈ [0, 1/2) est atteint en 1/2. De meme, Pp

(Xn < t

)= 1 −

P(

1n

∑ni=1 1Ui≤p < t

)est une fonction decroissante de p, donc son maximum pour p ∈ [1/2, 1]

est en 1/2. On a donc supp≥1/2 Pθ(Xn < t

)+ supθ<1/2 Pθ

(Xn ≥ t

)= P1/2

(Xn < t

)+

P1/2(Xn ≥ t

)= 1.

Comment choisir t ? Si l’on cherche a rendre α petit, il faut choisir t assez petit, mais alorsβ = 1− α ne sera pas petit.Si l’on choisit t = 1/2, alors pour n grand α et β sont proches de 1/2 (expliquer pourquoi,avec le TCL !), ce qui n’est pas satisfaisant.Ce que l’on peut faire, c’est choisir t de sorte que α soit petit (on n’a pas envie de se tromperen decidant que l’on va remporter le referendum), et que, lorsque p1 < 1/2, pour p1 pastrop proche de 1/2 on ait supp<p1 Pp

(Xn ≥ t

)soit petit. C’est ce qu’on va comprendre avec

l’etude de la puissance d’un test.

3.4 Puissance d’un test

On a vu que l’erreur de deuxieme espece β est l’erreur que l’on fait en decidant H0 alorsque H1 est vraie. On souhaite qu’elle soit petite.La quantite 1− β s’appelle puissance du test, et on souhaite qu’elle soit grande. Elle mesurela capacite a detecter H1.

Souvent H1 est une alternative composite, qui n’est pas reduite a une seule possibilite,et la puissance est une fonction. C’est la fonction qui a tout θ ∈ Θ1 associe Pθ(decider H1).C’est donc le complement a 1 de l’erreur de deuxieme espece.

Retour sur l’exercice du chocolat. Dans ce cas : θ = m et Θ1 = [0,m0[ (avec m0 = 70). Lafonction puissance est donc celle qui a m associe Pm(Z < s). On a deja calcule cette fonctionpour calculer un seuil avec un niveau α fixe (revoir dans le paragraphe 3.2), on a vu que

Pm(Z < s) = Pm

(√n

(Z −mσ

)<

√n(s−m)σ

)= F

(√n(s−m)σ

).

Et puisque on a fixe s = m0 − σv/√n, on a

Pm(Z < s) = F

(√n(m0 −m)

σ− v

).

Notamment, on retrouve que pour m = m0, Pm0(Z < s) = α. La fonction puissance m 7→Pm(Z < s) est decroissante. Donc si m1 < m0 est tel que Pm1(Z < s) ≥ 1 − β, alors pour

Page 41: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

3.5. NIVEAU DE SIGNIFICATION (P -VALUE) 41

tout m ≤ m1, on aura Pm(Z < s) ≥ 1− β. Par exemple, si on se fixe β = α :

Pm1(Z < s) ≥ 1− α ⇐⇒ F

(√n(m0 −m1)

σ− v

)≥ 1− α

⇐⇒√n(m0 −m1)

σ− v ≥ v.

Donc en prenantm1 = m0 −

2σv√n

on a pour tout m ≤ m1, Pm(Z < s) ≥ 1− α.

3.5 Niveau de signification (p-value)

Lorsqu’ayant fixe un niveau, on repond par “oui” ou “non” apres avoir compare la valeurobservee avec la valeur seuil, on n’indique pas si la valeur observee est proche ou loin de lavaleur seuil. Or cette information a un sens : si la valeur observee est loin de la valeur seuil,c’est que le resultat est hautement probable sous H0. On prefere alors souvent repondre al’aide du niveau de signification (ou niveau observe).On appelle niveau de signification (ou niveau observe) d’un test la valeur du niveauαobs a partir de laquelle, etant donnee l’observation, on rejetterait H0. Autrement dit, telleque, si α etait le niveau du test,

— Pout α ≤ αobs, on accepterait H0,— Pour α > αobs, on rejetterait H0.

On a donc d’autant plus confiance en H0 que αobs est grand.

Reprise des exemples du cours, calcul des p-values et interpretation.

3.6 La problematique des tests multiples

Cette question est devenue un sujet de recherche intense au moment de l’explosion desdonnees genomiques. Prenons un exemple. Les puces a ADN ont permis d’obtenir des donneesd’expression de gene simultanement pour des milliers de gene. Si l’on s’interesse a l’expres-sion d’un gene i particulier (qui signifie quelque chose par rapport a la situation biologique,medicale, que l’on etudie), la question se pose sous forme d’un simple test statistique deH0,i : ”pas d’expression du gene i” contre H1,i : ”expression du gene i”. Par exemple, chaquetest individuel peut se presenter comme un test de moyenne de gaussienne comme au pa-ragraphe 3.2. Si l’on fait chaque test au niveau α, on se demande ce que signifie l’ensembledes decisions. Par exemple, que vaut la probabilite de rejeter une des hypotheses H0,i, c’esta dire de detecter au moins une expression de gene, alors que toutes les hypotheses H0,i sontvraies ? En l’absence d’information sur la collection de donnees, on ne peut que majorer cetteprobabilite par nα, ou n est le nombre de genes. Si toutes les donnees sont independantes, onpeut ameliorer cette evaluation en

1− (1− α)n

mais avec n grand, c’est tres proche de 1. Si n est grand, cela veut dire qu’on est presque surd’avoir de fausses detections.

Page 42: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

42 CHAPITRE 3. TESTS D’HYPOTHESE

Ou encore, si φi est le test de H0,i contre H1,i, le nombre de fausses detections est

FD =∑

i: H0,i est vrai1φi=1

dont l’esperance vaut, si chaque test φi a une erreur de premiere espece α :

E(FD) =∑

i: H0,i est vraiE(1φi=1) = α #{i : H0,i est vrai } = αn0

si parmi les n tests faits, il y en a n0 pour lesquels H0 est vrai. On ne connait pas n0, maissi on fait de la detection, c’est en general que n0 est comparable a n. Donc si on fait de ladetection dans une masse de donnees, on va en moyenne faire pas mal de fausses decouvertes....

En resume, quand on fait beaucoup de tests de detection a propos d’une question parti-culiere, sans prendre en compte l’aspect multiple, on est presque certain de faire de faussesdecouvertes. Cette reflexion sur les tests multiples a ete un des elements de discussion aumoment de la crise de la ”reproductibilite des resultats scientifiques”.

Wikipedia : La crise de la reproductibilite (replication crisis ou replicability crisis ou re-producibility crisis en anglais) fait reference a la crise methodologique dans le domaine dessciences selon laquelle de nombreux resultats publies dans des revues scientifiques sont dif-ficiles, voire impossibles a reproduire au cours d’etudes subsequentes. Initiee au milieu desannees 2000, la crise prend de l’ampleur au milieu des annees 2010, nourrie par la publica-tion de plusieurs articles sur le phenomene.

Ainsi, selon une etude realisee aupres de 1 500 scientifiques et publiee par Nature en2016, plus de 70 % des chercheurs affirment avoir ete incapables de reproduire l’experiencescientifique d’un autre chercheur et plus de la moitie affirment avoir echoue a reproduireleur propre experience. Un autre sondage sur la reproductibilite des recherches sur le cancermontre que 50 % des repondants affirment avoir fait l’experience d’au moins un episoded’incapacite a reproduire des donnees publiees. Plusieurs etant incapable de determiner lasource du probleme, meme en interrogeant les auteurs originaux. En 2015, les resultats du”Reproductibility project”, lance en 2011 afin de mieux quantifier le phenomene en psychologie,montrent que moins de la moitie des experiences dans ce domaine ont pu etre reproduites.

La crise n’est pas propre a un domaine unique bien qu’elle semble moins toucher lessciences fondamentales et appliquees que les sciences medicales. Les facteurs qui en sontresponsables semblent nombreux. Des pistes d’amelioration de la reproductibilite au sein despublications scientifiques, dont notamment l’amelioration des criteres de publication, sont ex-plorees.

L’importance de la prise en compte serieuse de la methode statistique est un des elementsessentiel de ce debat, la question des tests multiples en est une partie.

Les chercheurs en statistique ont propose des methodes de procedure de test multiplequi permettent de controler le taux de fausse decouverte par exemple. C’est un domaine derecherche qui reste tres actif, et ou beaucoup de questions sont encore a explorer !

Page 43: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Chapitre 4

Couples de variables aleatoires

Un couple de variables aleatoires est une variable aleatoire (X,Y ) a valeur dans un en-semble a deux dimensions (avec une abscisse et une ordonnee), c’est a dire un couple de deuxnombres, resultat d’une experience a l’issue incertaine. Par exemple, une urne contient troisboules numerotees 1,2 et 3. On tire successivement et sans remise deux boules de l’urne. SoitX le numero obtenu au premier tirage, et Y le resultat obtenu au deuxieme tirage. (X,Y ) estalors un couple de variables aleatoires discretes. Ou bien on tire au hasard un individu dansune grande population, et on note sa taille X et son poids Y . (X,Y ) est alors un couple devariables aleatoires continues.

4.1 Loi jointe, loi marginale

Il est utile de voir la donnee de deux variables aleatoires X,Y comme la donnee d’un(seul) couple aleatoire (X,Y ) a valeurs dans R2. La loi du couple (X,Y ) est alors la fonction

A 7→ P ((X,Y ) ∈ A) , A ⊂ R2.

On doit encore se restreindre a des ensembles A pas completement arbitraires, mais nousallons passer cela sous le silence. Cette fonction devra encore satisfaire a des axiomes tout afait analogues aux axiomes 1.-4. vus au debut du cours pour des variables aleatoires reelles :il suffit de remplacer dans ces axiomes X par (X,Y ) et A ⊂ R par A ⊂ R2.

Si (X,Y ) est un couple de variables aleatoires, X est une variable aleatoire, et Y est unevariable aleatoire. On peut donc identifier leur loi a partir de la loi du couple. Les lois de Xet Y sont donnees par :

P (X ∈ A) = P ((X,Y ) ∈ A× R), P (Y ∈ A) = P ((X,Y ) ∈ R×A), A ⊂ R,

Du coup, pour distinguer, on parlera de loi jointe pour designer la loi du couple (X,Y ),de loi marginale de X pour parler de la loi de la variable aleatoire X, de loi marginale deY pour parler de la loi de la variable aleatoire Y .

4.1.1 Couples aleatoires discrets

La loi du couple aleatoire discret (X,Y ) est determinee par l’ensemble S ou il prend sesvaleurs et la fonction de masse

(x, y) 7→ P (X = x, Y = y), x, y ∈ S.

43

Page 44: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

44 CHAPITRE 4. COUPLES DE VARIABLES ALEATOIRES

On a alors pour tout ensemble A

P ((X,Y ) ∈ A) =∑

(x,y)∈S∩AP (X = x, Y = y).

En choisissant A = {x} × R ou A = R × {y}, on obtient l’expression suivante pour les loismarginales :

P (X = x) =∑

y:(x,y)∈SP (X = x, Y = y)

P (Y = y) =∑

x:(x,y)∈SP (X = x, Y = y).

Exemple 4.1. On teste des individus d’une population pour l’infection a un virus. Pour unindividu pris au hasard, on note X = 1 si l’individu est infecte, X = 0 sinon ainsi que Y = 1si le test est positif, Y = 0 sinon. La loi jointe de X et Y est representee dans le tableau croisesuivant :

X = 0 X = 1Y = 0 0.7 0Y = 1 0.2 0.1

On calcule les lois marginales :

P (X = 0) = P (X = 0, Y = 0) + P (X = 0, Y = 1) = 0.9P (X = 1) = 1− P (X = 1) = 0.1P (Y = 0) = P (X = 0, Y = 0) + P (X = 1, Y = 0) = 0.7P (Y = 1) = 1− P (Y = 0) = 0.3.

En mots, 10% de la population sont infectes et le test est positif chez 30% de la population.

4.1.2 Couples aleatoires a densite

Un couple aleatoire (X,Y ) est a densite fX,Y : R2 → R+ si, pour tout A ⊂ R2,

P ((X,Y ) ∈ A) =∫ ∞−∞

∫ ∞−∞

1A(x, y)fX,Y (x, y) dxdy.

La fonction fX,Y est alors appelee la densite jointe des v.a. X,Y .

Le lecteur qui n’est pas familier avec les integrales doubles peut les voir comme deuxintegrales que l’on calcule l’une apres l’autre (on parle aussi dans ce cas d’integrales � interieure� et� exterieure �, l’integrale interieure etant calculee en premier). L’ordre des integrales nechange pas le resultat ; ceci est une consequence immediate du theoreme de Fubini–Tonelli.

Les lois marginales d’un couple aleatoire (X,Y ) a densite sont egalement a densite :

Proposition 4.2. Si (X,Y ) admet la densite fX,Y , alors les v.a. X et Y admettent lesdensites fX et fY suivantes :

fX(x) =∫ ∞−∞

fX,Y (x, y) dy

fY (y) =∫ ∞−∞

fX,Y (x, y) dx.

Page 45: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

4.1. LOI JOINTE, LOI MARGINALE 45

Demonstration. On fait la preuve pour X, celle pour Y est analogue.Pour tout ensemble B ⊂ R, on a :

P (X ∈ B) = P ((X,Y ) ∈ B × R)

=∫ ∞−∞

∫ ∞−∞

1B(x)fX,Y (x, y) dxdy

=∫ +∞

−∞1B(x)

(∫ +∞

−∞fX,Y (x, y) dy

)dx.

Ceci montre que X est a densite avec la densite de l’enonce.

Exemple 4.3. Soit (X,Y ) un couple aleatoire de loi uniforme sur le triangle T = {(x, y) ∈[0, 1]2 : x+ y ≥ 1}, i.e. de loi jointe fX,Y = 1T / aire(T ) = 21T . Alors X est de densite

fX(x) =∫ +∞

−∞fX,Y (x, y) dy

=∫ +∞

−∞21[0,1](x)1(y∈[0,1],x+y≥1) dy

= 21[0,1](x)∫ 1

1−x1 dy

= 2x1[0,1](x).

Par symetrie ((X,Y ) loi= (Y,X)), on a egalement fY (x) = fX(x) = 2x1[0,1](x).

Rmarque : Il ne suffit pas que chacune des variables X,Y soit a densite pour que(X,Y )soient un couple aleatoire a densite. Par exemple, si X est une v.a. a densite et Y = −X,alors (X,Y ) ne definit pas un couple aleatoire a densite. En effet, le couple (X,Y ) prend sesvaleurs dans la droite D = {(x,−x) : x ∈ R}, or, pour toute fonction positive f , d’apres letheoreme de Fubini-Tonelli :∫ ∞

−∞

∫ ∞−∞

1D(x, y)f(x, y)dxdy =∫ ∞−∞

(∫ ∞−∞

1{−y}(x)f(x, y)dx)dy = 0,

car la fonction 1{−y}(x)f(x, y) est nulle sauf en un point, donc son integrale est nulle.

On termine par une caracterisation (sans preuve) des densites de couples aleatoires simi-laire a celle des v.a. reelles :

Proposition 4.4. Une fonction f : R2 → R est la densite d’un couple aleatoire de R2 si etseulement si

— f est positive et—

∫+∞−∞

∫+∞−∞ f(x, y) dxdy = 1.

Come les variables aleatoires, les couples aleatoires ne sont pas tous discretsou avec une densite.

Page 46: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

46 CHAPITRE 4. COUPLES DE VARIABLES ALEATOIRES

4.2 Esperance d’une fonction d’un couple aleatoire

Si (X,Y ) est un couple aleatoire discret/a densite et ϕ : R2 → R une fonction, alors ondefinit l’esperance de ϕ(X,Y ) dans le cas discret (et support S) par :

E[ϕ(X,Y )] =∑

(x,y)∈Sϕ(x, y)P (X = x, Y = y),

et dans le cas a densite par :

E[ϕ(X,Y )] =∫ ∞−∞

∫ ∞−∞

ϕ(x, y)fX,Y (x, y) dxdy

La linearite de l’esperance s’ecrit ainsi : si ϕ1, . . . , ϕm : R2 → R sont des fonctions, alors

E[ϕ1(X,Y ) + · · ·+ ϕm(X,Y )] = E[ϕ1(X,Y )] + · · ·+ E[ϕm(X,Y )].

Exemple 4.5. On reprend l’exemple de la loi uniforme sur le triangle T = {(x, y) ∈ [0, 1]2 :x+ y ≥ 1}. On souhaite calculer E[XY ]. On obtient

E[XY ] = 2∫ 1

0

∫ 1

0xy1(x+y≥1) dxdy

= 2∫ 1

0x

(∫ 1

1−xy dy

)dx

=∫ 1

0x(1− (1− x)2) dx

=∫ 1

02x2 − x3 dx

= 23 −

14

= 512

4.2.1 Critere d’independance

Rappels sur les variables aleatoires independantes. Revoir les paragraphes 2.1 et 2.2

Theoreme 4.6. (admis). De maniere generale, on peut montrer le critere d’independancesuivant : X et Y sont independantes, si et seulement si pour toutes fonctions reelles g et h,

E [g(X)h(Y )] = E [g(X)]E [h(Y )] .

De ce theoreme, on peut deduire une caracterisation de l’independance simple pour uncouple aleatoire discret et pour un couple aleatoire a densite.

Pour un couple aleatoire discret : on retrouve que deux variables discretes X et Y sontindependantes si et seulement si pour tous x et y on a P (X = x et Y = y) = P (X = x)P (Y =y).

Page 47: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

4.2. ESPERANCE D’UNE FONCTION D’UN COUPLE ALEATOIRE 47

Pour un couple aleatoire a densite, X et Y sont independantes si et seulement si la densitejointe est egale au produit des densites marginales, c’est a dire pour tous x et y,

fX,Y (x, y) = fX(x)fY (y).

On peut resumer cela en :

Proposition 4.7. Les variables X et Y sont independantes si et seulement si la loi jointe de(X,Y ) est egale au produit des lois marginales de X et Y .

4.2.2 Covariance et correlation

On definit la covariance de X et Y par

Cov(X,Y ) = E[(X − E[X])(Y − E[Y ])].

En developpant le produit et en utilisant la linearite de l’esperance, on obtient

Cov(X,Y ) = E[XY −XE[Y ]− E[X]Y + E[X]E[Y ]] = E[XY ]− 2E[X]E[Y ] + E[X]E[Y ],

si bien queCov(X,Y ) = E[XY ]− E[X]E[Y ],

une formule qui rappelle la formule Var(X) = E[X2]− E[X]2. D’ailleurs, par definition,

Var(X) = Cov(X,X),

donc la variance d’une v.a. est egale a sa covariance avec elle-meme.

Proposition 4.8. Soient X,Y, Z des v.a. et a, b ∈ R,1. Cov(X,Y ) = Cov(Y,X)2. Cov(aX + bY, Z) = aCov(X,Z) + bCov(Y,Z).3. Cov(a,X) = 0.4. Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X,Y ).

NB : Les deux premieres proprietes de la proposition ci-dessus disent que la covarianceest une forme bilineaire symetrique.

Demonstration. 1. Evident par la definition.2. Par linearite de l’esperance,

Cov(aX + bY, Z) = E[(aX + bY − E[aX + bY ])(Z − E[Z])]= aE[(X − E[X])(Z − E[Z])] + bE[(Y − E[Y ])(Z − E[Z])]= aCov(X,Z) + bCov(Y, Z).

3. Puisque E[a] = a,Cov(a,X) = E[(a− a)X] = E[0X] = 0.

Page 48: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

48 CHAPITRE 4. COUPLES DE VARIABLES ALEATOIRES

4. On suppose que E[X] = E[Y ] = 0 quitte a remplacer les v.a. par leurs variablescentrees. Alors,

Var(X + Y ) = E[(X + Y )2]= E[X2 + Y 2 + 2XY ]= E[X2] + E[Y 2] + 2E[XY ]= Var(X) + Var(Y ) + 2 Cov(X,Y ).

La covariance est une mesure de dependance entre les variables X et Y . Pour illustrercela, on considere un exemple :

Exemple 4.9. Soient A et B des evenements (par exemple de la forme {X ∈ S} pour unev.a. X et S ⊂ R) et soient 1A et 1B leurs indicatrices. On calcule

E[1A] = P (A), E[1B] = P (B)E[1A1B] = P (A ∩B)Cov(1A,1B) = E[1A1B]− E[1A]E[1B] = P (A ∩B)− P (A)P (B).

Par consequent,

Cov(1A,1B) = 0 ⇐⇒ P (A ∩B) = P (A)P (B) ⇐⇒ A et B sont independants.

Ceci conforte l’idee de la covariance comme une mesure de dependance entre les v.a.On peut meme interpreter le signe de la covariance. Supposons que P (A) 6= 0 et P (B) 6= 0,

alors on peut egalement ecrire

Cov(1A,1B) = P (B)(P (A | B)− P (A)) = P (A)(P (B | A)− P (B))

avec P (A | B) = P (A ∩B)/P (B) la probabilite de A conditionnellement a B. Cette ecrituremontre que

Cov(1A,1B) > 0 ⇐⇒ P (A | B) > P (A) ⇐⇒ P (B | A) > P (B).

Les deux dernieres inegalites signifient que la realisation d’un des deux evenements augmentela chance que l’autre evenement se realise. On dit dans ce cas que les deux evenementssont positivement correles. Dans le cas d’une inegalite dans l’autre sens, on dit qu’ils sontnegativement correles.

On resume : Soient A et B deux evenements. Alors, A et B sont— positivement correles si P (A ∩B) > P (A)P (B) (⇐⇒ Cov(1A,1B) > 0)— negativement correles si P (A ∩B) < P (A)P (B) (⇐⇒ Cov(1A,1B) < 0)— independantes si P (A ∩B) = P (A)P (B) (⇐⇒ Cov(1A,1B) = 0).

En vue du dernier exemple, on dit que deux v.a. X et Y sont— positivement correlees si Cov(X,Y ) > 0— negativement correlees si Cov(X,Y ) < 0— non correlees si Cov(X,Y ) = 0

Page 49: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

4.2. ESPERANCE D’UNE FONCTION D’UN COUPLE ALEATOIRE 49

On remarque que l’absence de correlation est equivalente a E[XY ] = E[X]E[Y ]. On a alorsl’implication

X et Y independantes =⇒ X et Y non correlees.

La reciproque est fausse en general, mais elle est vraie dans certains cas particuliers (parexample quand X et Y sont des v.a. de Bernoulli, cf exercice de TD).

Exemple 4.10. Soit X une v.a. de loi symetrique avec E[X4] <∞, par exemple X ∼ N (0, 1).On pose Y = X2 qui est de carre integrable. Evidemment, X et Y ne sont en general pasindependantes. En effet, on verifie facilement que X et Y sont independantes si et seulementsi X ∼ δ0 (calculer P (Y > ε2 | |X| > ε) pour tout ε > 0). Par contre,

Cov(X,Y ) = E[XY ]− E[X]E[Y ] = E[X3]− E[X]E[X2] = 0,

car E[X3] = E[X] = 0 par la symetrie de X. Ceci donne un example ou les v.a. X sont noncorrelees mais dependantes.

Pour quantifier la correlation entre deux variables aleatoires, on introduit le coefficient decorrelation ρ(X,Y ) comme suit :

ρ(X,Y ) = Cov( X√Var(X)

,Y√

Var(Y )) = Cov(X,Y )√

Var(X) Var(Y ).

Proposition 4.11. Le coefficient de correlation satisfait aux l’inegalites suivantes :

−1 ≤ ρ(X,Y ) ≤ 1.

ρ(X,Y ) = 1 si et seulement si Y est une fonction affine de X de coefficient directeur positif,et ρ(X,Y ) = −1 si et seulement si Y est une fonction affine de X de coefficient directeurnegatif.

Demonstration. Soit U = X−E(X)√Var(X)

et soit V = Y−E(Y )√Var(Y )

. On a

0 ≤ E (U − V )2 = 2− 2ρ(X,Y )

donc ρ(X,Y ) ≤ 1, et ρ(X,Y ) = 1 si et seulement si U = V , soit Y = aX + b avec a =√Var(X)√Var(Y )

> 0 et b = E(Y )− aE(X).De meme

0 ≤ E (U + V )2 = 2 + 2ρ(X,Y )

donc ρ(X,Y ) ≥ −1, , et ρ(X,Y ) = −1 si et seulement si U = −V , soit Y = aX + b aveca = −

√Var(X)√Var(Y )

< 0 et b = E(Y )− aE(X).

Exemple 4.12. Soient U, V,W des v.a. de carres integrables, independantes, et de varianceegale a 1. On pose

X = U + aV, Y = U + bW,

pour a, b ∈ R. On peut voir X et Y comme des observations � bruitees � d’une meme quantiteU , les v.a. aV et bW modelisant le � bruit �. Par independance,

Cov(X,Y ) = Cov(U,U) + Cov(U, bW ) + Cov(aV, U) + Cov(aV, bW ) = Var(U) = 1.

Page 50: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

50 CHAPITRE 4. COUPLES DE VARIABLES ALEATOIRES

et Var(X) = Var(U) + Var(aV ) = 1 + a2 et Var(Y ) = 1 + b2. Par consequent,

ρ(X,Y ) = 1√(1 + a2)(1 + b2)

.

On observe :— Les v.a. X et Y sont positivement correlees.— La correlation est parfaite (c’est-a-dire ρ = 1) si a = b = 0.— La correlation tend vers 0 quand |a| → ∞ ou |b| → ∞, ce qui correspond a un bruit

qui devient de plus en plus fort.

Il transperce des deux derniers examples que le coefficient de correlation mesure bien desrelations lineaires entre les v.a., mais pas necessairement des relations non-lineaires.

Exemple 4.13. On reprend l’exemple du test d’infection. On calcule

Var(X) = E[X2]− E[X]2 = P (X = 1)− P (X = 1)2 = 0.1− 0.12 = 0.09Var(Y ) = P (Y = 1)− P (Y = 1)2 = 0.3− 0.32 = 0.21

Cov(X,Y ) = E[XY ]− E[X]E[Y ] = P (X = 1, Y = 1)− P (X = 1)P (Y = 1) = 0.1− 0.03 = 0.07

ρ(X,Y ) = 0.07√0.09× 0.21

≈ 0.51.

Ce calcul montre que les v.a. X et Y sont sensiblement correlees, mais loin d’etre parfaitementcorrelees.

Exemple 4.14. On reprend l’example de la loi uniforme sur le triangle. On calcule

E[X] =∫ 1

0x× 2x dx = 2/3

E[X2] =∫ 1

0x2 × 2x dx = 2/4 = 1/2

Var(X) = E[X2]− E[X]2 = 1/2− 4/9 = 1/18.

Et pareil pour Y , car Y loi= X. De plus,

E[XY ] =∫ 1

0

∫ 1

02xy1x+y≥1 dxdy

=∫ 1

0x[y2]11−x dx

=∫ 1

0x(1− (1− x)2) dx

=∫ 1

0(2x2 − x3) dx

= 2/3− 1/4= 5/12.

Par consequent,

Cov(X,Y ) = E[XY ]− E[X]E[Y ] = 5/12− (2/3)2 = 15/36− 16/36 = −1/36

ρ(X,Y ) = Cov(X,Y )√Var(X) Var(Y )

= −1/361/18 = −1/2.

Page 51: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

4.3. LOIS CONDITIONNELLES 51

Les v.a. X et Y sont alors sensiblement mais pas parfaitement negativement correlees.Ceci s’explique par le fait que si l’une des v.a. est petite, l’autre doit etre grande pour que lasomme soit superieure a 1, il s’agit donc d’un biais � dans l’autre sens �.

4.3 Lois conditionnelles

On a un autre moyen de comprendre la dependance entre deux variables aleatoires : la loiconditionnelle.

Soient X et Y deux v.a. discretes. Alors pour tout y tel que P (Y = y) > 0, la loi de Xconditionnellement a Y = y est la loi discrete de fonction de masse

pX|Y (x | y) = P (X = x | Y = y) = P (X = x, Y = y)P (Y = y) .

Dans le cas ou les v.a. X et Y ont une densite conjointe fX,Y , et y ∈ R est tel que fY (y) > 0,on definit de maniere analogue la loi de X conditionnellement a Y = y comme etant la loi dedensite

fX|Y (x | y) = fX,Y (x, y)fY (y) .

On remarquera que les v.a. X et Y sont independantes si et seulement si— pX|Y (x | y) = pX(x) pour tout y tel que P (Y = y) > 0 (cas discret)— fX|Y (x | y) = fX(x) pour tout y tel que fY (y) > 0 (cas a densite).

On peut bien sur echanger les roles de X et Y .On peut traiter la loi conditionnelle comme n’importe quelle loi. En particulier, on peut

definir l’esperance conditionnelle :

E[f(X) | Y = y] ={∑

x∈S f(x)× pX|Y (x | y) (cas discret)∫+∞−∞ f(x)fX|Y (x | y) dx (cas a densite).

On verifie aisement les formules suivantes (dites formules de la probabilite totale) :— Si X,Y discretes de fonctions de masse pX et pY , alors

pX(x) =∑y

pX|Y (x | y)pY (y)

E[f(X)] =∑y

E[f(X) | Y = y]pY (y) pour tout f .

— Si X,Y conjointement a densite,

fX(x) =∫ +∞

−∞fX|Y (x | y)fY (y) dy

E[f(X)] =∫ +∞

−∞E[f(X) | Y = y]fY (y) dy pour tout f .

Page 52: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

52 CHAPITRE 4. COUPLES DE VARIABLES ALEATOIRES

Exemple 4.15. On reprend l’example du test d’infection de la section precedente. On calculeles lois conditionnelles :

P (Y = 1 | X = 0) = 0.2/0.9 ≈ 22% P (Y = 0 | X = 0) ≈ 78%P (Y = 1 | X = 1) = 0.1/0.1 = 1 P (Y = 0 | X = 1) = 0P (X = 1 | Y = 0) = 0/0.7 = 0 P (X = 0 | Y = 0) = 1P (X = 1 | Y = 1) = 0.1/0.3 ≈ 33% P (X = 0 | Y = 1) ≈ 67%.

En mots, on retient— Chez une personne infectee, le test est positif dans 100% des cas, mais aussi dans 22%

des cas chez une personne non infectee.— Une personne dont le test est negatif peut etre 100% sure de ne pas etre infectee.— Une personne dont le test est positif est reellement infectee dans un tiers des cas

seulement.

Exemple 4.16. On reprend l’example de la loi uniforme sur le triangle. On calcule pour touty ∈ [0, 1] la densite de X conditionnellement a Y = y :

fX|Y (x | y) = fX,Y (x, y)fY (y) =

21T (x,y)2y1[0,1](y) = 1

y1(x∈[0,1],x+y≥1) = 1

y1[1−y,1](x).

Autrement dit, conditionnellement a Y = y, X suit la loi uniforme sur l’intervalle [1 − y, 1].En particulier, l’esperance de X conditionnellement a Y = y vaut

E[X | Y = y] = 1− y + 12 = 1− y

2 .

Et si l’une des variables est discrete et l’autre continue ?Exemple : on tire au hasard un individu dans une grande population, et on note (X,Y ) lecouple aleatoire tel que X est la temperature de l’individu et Y vaut 1 si l’individu a unemaladie donnee et 0 sinon. On peut faire une modelisation de X par une loi a densite, enconsiderant que la densite est f1 si l’individu est malade et f0 sinon, et que la probabilited’etre malade est p. Quelle est alors la loi de Y conditionnelle a X = x ?

4.4 Generalisation a plus de deux variables aleatoires

Pour tout entier k, on peut considerer les k-uplets de variables aleatoires (X1, . . . , Xk).

Toutes les notions vues au paragraphe precedent se generalisent a k variables aleatoires.La loi jointe est donnee par les probabilites P ((X1, . . . , Xk) ∈ A) pour les sous-ensembles Ade Rk.Si le k-uplet est discret, alors il suffit de connaitre l’ensemble des valeurs possibles et la fonc-tion de masse, c’est-a-dire les probabilites individuelles des k-uplets possibles.Si le k-uplet est a densite, il suffit de connaitre la densite f qui est une fonction de Rk dansR+, et les calculs de probabilite se font par integration multiple de la densite.

Page 53: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

4.5. PERSPECTIVES 53

Les lois marginales sont les lois des coordonnees du k-uplet, ou aussi les lois des m-upletsde sous-ensemble de m coordonnees parmi les k. Ces lois marginales s’obtiennent par margi-nalisation (somme ou integrale) sur les variables que l’on ne considere plus.

La notion d’esperance comme moyenne a priori ne change pas. Si on considere une fonctionh de k variables a valeur reelle, E[h(X1, . . . , Xk)] se calcule en sommant les valeurs de lafonction ponderee par la loi (somme discrete et ponderation par la masse ponctuelle, ousomme integrale et ponderation par la densite).

Le critere d’independance se generalise : les k variables X1, . . . , Xk sont independantes siet seulement si pour toutes fonctions reelles h1, . . . , hk,

E [h1(X1) · · ·hk(Xk)] = E [h1(X1)] · · ·E [hk(Xk)] .

On a de meme que les k variables X1, . . . , Xk sont independantes si et seulement si la loijointe du k-uplet est egal au produit des k lois marginales des coordonnees.

On peut definir les lois conditionnelles par des formules analogues.

4.5 Perspectives

Savoir definir des lois de probabilite pour plusieurs variables simultanement, et travailleravec ces lois est essentiel pour mener une etude de variables telles que l’on peut trouver dansdes bases de donnees. En effet, souvent la question d’interet porte sur la mise en evidence decertains liens entre les donnees, que ce soit pour comprendre un phenomene, l’expliquer, oupredire des issues incertaines. Comprendre le lien entre la loi et le comportement des variablespermet de proposer des modelisations pertinentes de l’ensemble des variables.

Ce paragraphe a pour objectif d’introduire a quelques idees fondamentales de la sciencedes donnees et, a partir de quelques exemples, de comprendre la demarche qui repose sur desallers-retours entre :

— question posee— modelisation stochastique— methodologie statistique a partir d’observations : estimation, test, prediction.Ce qui suit ne fait que donner quelques exemples d’etudes du lien entre variables, mais

n’est bien sur pas exhaustif de toutes les questions, methodes, champs de recherche dans ledomaine !

Spams et anti-spams.Y = 1 si le mail est un spam, Y = 0 sinon. A partir de quoi decider ? Choix de covariablesX1, . . . , Xk : occurence de certains mots, sujet du mail, adresse d’origine, etc....Pour decider si un mail qui arrive est un spam ou non : connaitre la loi de Y sachant lescovariables ; verifier que les covariables choisies sont bonnes et bien representatives.→ Apprentissage statistique. Education individuelle de l’outil anti-spam : il faut avoirdes donnees etiquetees pour mener a bien l’identification des covariables et l’estimation deslois conditionnelles, souvent par une methode empirique (qui tire partie de loi des grandsnombres et theoreme centrale limite etendu).

Page 54: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

54 CHAPITRE 4. COUPLES DE VARIABLES ALEATOIRES

Co-infection paludisme et arbovirus.Objectif : comprendre le lien entre ces infections pour ameliorer les diagnostics.Choix de covariables. Selection de variables.Modele logistique : exemple de modele reliant des covariables a une variable d’interet. Selection/Choixde modele.

Le ”probleme Netflix”.Tableau a deux entrees (film/rang) avec donnees manquantes a predire.Structure de grandes matrices pour des objectifs de prediction.Variables cachees. Faible rang.

Consommation electrique.Series chronologiques. Modele lineraire. Regression.

Modelisation de variables meteorologiques.Objectif : outil de production de grosses quantites de donnees ”plausibles” pour des simula-teurs.Saisonnalite. Non stationnarite. Coherence des variables.

File d’attente.Comportement de la longueur de la file en fonction du temps.

Processus stochastique (Xt)t∈T ; a valeurs dans un ensemble discret ou continu ; indexepar un ”temps” discret ou continu.Galton et Watson (survie des patronymes des familles aristocrates anglaises au cours desgenerations) ; dynamique de populations ; evolution des cours boursiers ; physique des parti-cules ; ...

Page 55: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

Chapitre 5

Introduction aux chaines de Markov

Dans ce chapitre, nous allons considerer un exemple fondamental de suites de variablesaleatoires (Xn)n≥0 qui decrivent a chaque instant n l’etat d’un systeme aleatoire defini parrecurrence de sorte que l’etat du futur du processus ne depend du passe que par l’etat presentdu systeme. Nous nous restreindrons aux processus a valeurs discretes.

Exemple 1 : Disponibilite de 2 machines avec 1 technicien.Une unite de production comprend 2 machines automatiques qui fonctionnent independammentl’une de l’autre. Chaque machine fonctionne toute la journee avec la probabilite p ou bientombe en panne durant la journee avec probabilite 1 − p. L’unite de production possede 1technicien travailleur de nuit qui peut reparer une machine tombee en panne et la remettreen etat de marche pour le lendemain. En revanche, le technicien ne peut reparer qu’une etune seule machine par nuit. On souhaite comprendre le comportement du processus (Xn)n≥1,ou Xn represente le nombre de machines en panne au matin du n-ieme jour.

Exemple 2 : Disponibilite de m machines avec r techniciens.On se replace dans le cadre de l’exemple 1 mais avec m machines et r < m techniciens.

5.1 Chaine de Markov homogene

On notera Xm:n pour le (n−m+ 1)-uplet (Xm, . . . , Xn).Definition 5.1. Soit S un ensemble fini ou denombrable, et (Xn)n≥0 une suite de variablesaleatoires a valeurs dans S. On dit que (Xn)n≥0 est une chaine de Markov homogene si

1. (Propriete de Markov) Pour tout entier n, pour tous x0, . . . , xn+1 dans S,

P (Xn+1 = xn+1|X0:n = x0:n) = P (Xn+1 = xn+1|Xn = xn)

2. (Homogeneite) La probabilite de transition P ((Xn+1 = y|Xn = x) ne depend pasde n pour tous x et y de S. On la notera Q(x, y).

Si S est fini, Q est une matrice carree k × k si le nombre d’elements de S est k.C’est une matrice stochastique : elle verifie ∀(x, y) ∈ S2, Q(x, y) ≥ 0 et la somme de seslignes vaut 1 :

∀x ∈ S,∑y∈S

Q(x, y) = 1.

55

Page 56: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

56 CHAPITRE 5. INTRODUCTION AUX CHAINES DE MARKOV

Exemples : calcul de Q pour l’exemple 1 ; et pour l’exemple 2 si m = 4 et r = 2 ?

On peut representer une matrice de transition par un graphe oriente ou les aretes sontetiquetees par la valeur de la probabilite de transition. Remarque : il n’est pas necessaire dedessiner les boucles. Pourquoi ?Representation des graphes associes aux exemples.

5.2 Lois, loi stationnaire

On considere maintenant une chaine de Markov de transition Q et de loi initiale de X0donnee par la fonction de masse notee µ. La loi de la chaine de Markov est entierementdeterminee par µ et Q.

Proposition 5.2. Pour tout n, pour tout (x0, . . . , xn) ∈ Sn+1,

P (X0:n = x0:n) = µ(x0)Q(x0, x1) · · ·Q(xn−1, xn).

Preuve : par recurrence.Si l’on ecrit le vecteur de fonction de masse comme un vecteur ligne, on a

Proposition 5.3. Pour tout n, pour tout x ∈ S,

P (Xn = x) = (µQn) (x).

Preuve : sommer sur x0, . . . , xn−1 dans la formule precedente.

Reviser le calcul matriciel !

Exemple 1 : supposons p = 0.9. Alors Q(0, 0) = 0.99, Q(0, 1) = 0.01, Q(1, 0) = 0.9,Q(1, 1) = 0.1. Si on note µn la loi de Xn, et que l’on suppose qu’au depart, toutes les machinessont en fonctionnement, on a µ1 = (1, 0), puis µ2 = (0.99, 001), µ3 = (0.9891, 0.0109), µ4 =(0.989, 0.011), . . . , µ10 = (0.989, 0.011).Si maintenant p = 0.7, alors Q(0, 0) = 0.91, Q(0, 1) = 0.09, Q(1, 0) = 0.7, Q(1, 1) = 0.3.Si on a µ1 = (1, 0), alors µ2 = (0.91, 09), µ3 = (0.891, 0.109), µ4 = (0.887, 0.113), . . . , µ10 =(0.886, 0.114).On a l’impression que quand n augmente, la loi de Xn se stabilise. Dans la suite du chapitre,on va voir sous quels criteres la loi de Xn en effet se stabilise quand n tend vers l’infini.Comme µn = µn−1Q, en passant a la limite (si elle existe) quand n tend vers l’infini, la loililite doit alors etre invariante au sens suivant.

Definition 5.4. On dit que la loi λ est invariante (ou stationnaire) pour Q si λQ = λ.

Si la loi initiale µ est invariante pour Q, alors pour tout n, Xn est de loi µ (le demontrer !).On dit que la chaine est stationnaire.

Exemple 1 : supposons p = 0.9. Alors il existe une unique mesure invariante donnee parλ = (90/91, 1/91), soit λ ≈ (0.989, 0011).Si p = 0.7, alors il existe une unique mesure invariante donnee par λ = (70/79, 9/79), soitλ ≈ (0.886, 0.114).

Page 57: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

5.3. DECOMPOSITION EN CLASSES DE COMMUNICATION 57

5.3 Decomposition en classes de communication

On va noter Px pour la loi de la chaine de Markov ”partant de x”, c’est -a-dire de loiinitiale µ telle que µ(x) = 1 donc pour une chaine (Xn)n≥0 telle que X0 = 1. Par exemple :

Px(Xn = y) = P (Xn = y|X0 = x) .

Definition 5.5. Soient x et y deux elements de S. On dit que x mene a y (et l’on notex→ y) si

Px (il existe n ≥ 0 tel que Xn = y) > 0.

On dit que x et y communiquent (et l’on note x↔ y) si x→ y et y → x.

Proposition 5.6. Pour tous x et y elements distincts de S, x→ y si et seulement si il existen ≥ 1 et x1, . . . , xn−1 elements de S tels que Q(x, x1) · · ·Q(xn−1, y) > 0.

Preuve : facile !Le fait que x mene a y se voit sur le graphe de la chaine de Markov par le fait qu’il existedans le graphe un chemin qui mene de x a y.

La relation ←→ une relation d’equivalence sur S. En effet,— si x communique avec y et y communique avec z, alors x communique avec z ;— l’etat x communique avec lui-meme ;— si x communique avec y, alors y communique avec x.

Ainsi, on peut decomposer S en classes de communication qui forment une partition deS.

Definition 5.7. On dit qu’une classe C est fermee si x ∈ C et x→ y impliquent que y ∈ C.

une classe est fermee si on ne peut pas en sortir.

Definition 5.8. Une chaine de Markov (ou une matrice de transition Q) est irreductible sitous les etats communiquent.

Exemples !

5.4 Theoremes de convergence

Nous cherchons le comportement limite des probabilites de transition Px(Xn = y) quandn devient grand.

Tout d’abord, regardons un exemple pour lequel un comportement uniforme n’existe pas.Soit Q la matrice de transition donnee par

Q =(

0 11 0

).

On Q2 = Id, ce qui implique que Q2n = Id et Q2n+1 = Q pour tout entier naturel n. Enparticulier, nous avons P1(X2n = 1) = 1 et P1(X2n+1 = 1) = 0, pour tout entier natureln. Une telle suite ne peut pas converger. C’est le fait que nous sommes face a une chaıneperiodique de periode 2 que la convergence n’est pas possible.

Page 58: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

58 CHAPITRE 5. INTRODUCTION AUX CHAINES DE MARKOV

Definition 5.9. Un etat x de S est dit aperiodique si il existe n0 tel que pour tout n ≥ n0,Px(Xn = x) > 0.On dit qu’une matrice de transition Q est aperiodique si lorsque la chaine de Markov atransition Q, tous les etats sont aperiodiques.

Proposition 5.10. Supposons que Q est une matrice de transition irreductible et possedeau moins un etat aperiodique x. Alors, pour tous etats y et z, pour tout n assez grand,Py(Xn = z) > 0. En particulier, tous les etats sont aperiodiques.

Preuve : a ecrire !Exemple : Soit Q une matrice de transition possedant un etat x tel que Q(x, x) > 0.

Montrer que l’etat x est aperiodique.

Proposition 5.11. Si S est un ensemble fini, si Q est une matrice de transition irreductibleet aperiodique, alors Q possede une unique mesure invariante π.

Theoreme 5.12. (Convergence vers l’equilibre). Soit (Xn)n≥0 une chaine de Markov surun ensemble S fini, de loi initiale µ et de transition Q irreductible et aperiodique. Soit π samesure invariante. Alors pour tous x et y elements de S,

limn→+∞

P (Xn = x) = π(x), limn→+∞

Px(Xn = y) = π(y)

Reprise de l’exemple 1 : convergence vers la loi stationnaire.Ceci ne signifie pas qu’en moyenne sur 100 jours une machine est en panne 11.4 jours. Pourune telle affirmation, il est necessaire de disposer d’une loi des grands nombres comme dansun modele de pile ou face. Dans le cadre des chaınes de Markov, il existe aussi une loi desgrands nombres sous reserve que la chaıne satisfasse de bonnes hypotheses. Nous omettronsleur demonstration dans ce cours.

Theoreme 5.13. Supposons que S est fini. Soit Q une matrice de transition irreductibleet aperiodique de mesure invariante π. Alors, pour toute fonction reelle f , 1

n

∑ni=1 f(Xi)

converge en probabilite vers∑x∈S π(x)f(x).

Interpreter la limite !Rappeler ce que signifie la convergence en probabilite !

Ainsi, en prenant la fonction f definie par f(x) = 11(x), et en appliquant le theoremeon obtient que la proportion de temps pour laquelle une machine est en panne converge enprobabilite vers π(1) ≈ 11.4%.

On a meme une loi des grands nombres qui permet d’estimer les parametres de la matriceQ.

Theoreme 5.14. Supposons que S est fini. Soit Q une matrice de transition irreductibleet aperiodique de mesure invariante π. Alors, pour toute fonction f de S × S dans R,1n

∑ni=1 f(Xi−1, Xi) converge en probabilite vers

∑x∈S,y∈S π(x)Q(x, y)f(x, y).

Voir comment utiliser tout cela pour faire des statistiques !

Page 59: Elisabeth Gassiat - Université Paris-Saclaygassiat/...Chapitre 0 Pr´eliminaires 0.1 Questions pratiques 1 Interrogation ´ecrite (5 mns) a chaque TD a partir du deuxi`eme TD. Un

5.5. COMMENTAIRES 59

5.5 Commentaires

Il y a tant d’autres choses a dire ! Attention que l’etude des chaines de Markov ne seresume pas a ce que l’on a vu... !