84
Cours de probabilités L. Decreusefond Contexte public } sans modifications Voir page 83 2009

1 Master

  • Upload
    maxhk

  • View
    51

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 2009

Page 2: 1 Master

Table des matières

1 Conventions et notations 51.1 Conventions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Événements 92.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Espaces d’états dénombrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3 Espaces d’états non dénombrables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Variables aléatoires 193.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.3 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.6 Formulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4 Moments 374.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2 Variance et autres moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Indépendance et conditionnement 435.1 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6 Transformées intégrales 496.1 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496.2 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

7 Vecteurs gaussiens 537.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537.2 Représentation canonique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547.3 Gaussiennes et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

L. Decreusefond

Contexte public sans modificationsVoir page 83 1/83

Page 3: 1 Master

Cours de probabilités

8 Convergences 598.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598.2 Limité centrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

9 Construction de variables aléatoires 639.1 Tribu, mesures, etc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649.2 Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669.3 Construction de variables aléatoires et simulation . . . . . . . . . . . . . . . . . . . . . . . . . 679.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

10 Intégration 7110.1 Principe de construction de l’intégrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7110.2 Propriétés et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7310.3 Théorème de Riesz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7610.4 Espaces L1 et L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7610.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82Index alphabétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

L. Decreusefond

Contexte public sans modificationsVoir page 83 2/83

Page 4: 1 Master

Prolégomènes

Il existe autant de façon de présenter les probabilités que d’enseignants. Chacun en fonction de sonparcours personnel, de ses affinités, orientera sa présentation qui vers le formalisme abstrait de la théorie dela mesure, qui vers des calculs élémentaires, qui vers la modélisation des phénomènes, etc.

L’approche adoptée ici ne se veut pas radicalement différente de celles existantes par ailleurs mais, peut-être, plus équilibrée entre les différents points de vue. Les notions de théorie de la mesure, même si elleseffraient, ne sont pas si abominablement complexes que l’on doive les éviter. Historiquement, ce sont ellesqui ont permis de dépasser les apparents paradoxes des probabilités telles qu’on les pratiquait jusqu’audébut du xxe siècle. Elles sous-tendent maintenant les avancées profondes dans le domaine, même dansles « applications » telles que les, si alléchantes, mathématiques financières. L’objectif de ce cours est decomprendre ce qu’est une loi. Cela signifie en connaître la définition mais aussi comment et pourquoi onmanipule cet objet et sa relation avec la notion plus immédiate de variable aléatoire.

La lecture de cet ouvrage n’est pas supposée être linéaire : le parcours supposé est celui du cours. Nouscommençons par introduire, dans le cas des espaces de probabilités dénombrables, les concepts fondamentaux :variable aléatoire, événement, espérance, fonction génératrice, probabilité conditionnelle, etc. L’utilisationdes notions de théorie de la mesure permet ensuite de donner les définitions générales des concepts vusprécédemment. Nous espérons que le cas des espaces dénombrables servira alors de support à l’intuition pourappréhender ces concepts dans toute leur généralité.

La conséquence principale de ce parti pris est la multiplicité des définitions de certaines notions. Ainsi,la notion de variable aléatoire se réduit à celle d’application dans le cas d’un espace d’états dénombrables,d’où la première définition 3.1, ensuite, une fois appréhendés les éléments de théorie de la mesure, on donnela définition générale 3.8. Cet ouvrage est aussi conçu pour rendre la e-lecture la plus agréable possible. Àchaque fois que cela nous semblait pertinent et que nous y avons pensé, un hyperlien renvoie aux partiespertinentes mais peut-être lointaines du texte. La magie de LATEXet de ses extensions permet de se promenererratiquement dans le fichier pdf.

Tout ce qui est dans cet ouvrage est au programme du contrôle de connaissances final . . . sauf en cequi concerne les deux derniers chapitres. Comme il a été dit ci-dessus, ces chapitres ont pour unique but dedonner les idées et les concepts nécessaires à la bonne compréhension de ce qu’est une « loi ». De cette partie,seuls les théorèmes fondamentaux seront donc susceptibles d’apparaître aux contrôles : Fubini, convergencesmonotone et dominée, continuité et dérivabilité sous le signe somme.

Ce document est le fruit des cours donnés à l’ENST. Il a bénéficié des remarques constructives de mescollègues et plus particulièrement Gersende Fort et Olivier Hudry. Qu’ils en soient ici chaudement remerciés.

L. Decreusefond

Contexte public sans modificationsVoir page 83 3/83

Page 5: 1 Master

Cours de probabilités

v

L. Decreusefond

Contexte public sans modificationsVoir page 83 4/83

Page 6: 1 Master

Chapitre 1

Conventions et notations

1.1 Conventions

Nous serons amenés à faire de l’arithmétique dans R+ = R+ ∪ +∞ selon les conventions suivantes.– a+ (+∞) = +∞, pour tout a ∈ R+,– ∞.0 = 0,– toute série à termes positifs converge dans R+, c’est-à-dire vers éventuellement +∞.

On note aussi R la droite numérique achevée, R = R ∪ ±∞.

1.2 Notations

Pour deux ensembles A et B, A∪B représente leur réunion, A∩B leur intersection et A∆B leur différencesymétrique, c’est-à-dire

A∆B =(

A\(A ∩B))

∪(

B\(A ∩B))

= (A ∪B)\(A ∩B).

On rappelle que l’intersection est distributive sur la réunion :

A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩C),

A ∪ (B ∩ C) = (A ∪B) ∩ (A ∩ C)

et que

(

A ∪B)c

= Ac ∩ Bc.

On note P(E), l’ensemble des parties de l’ensemble E. Nous aurons régulièrement besoin de la notion defonction indicatrice. Pour un ensemble A, 1A est sa fonction indicatrice. Elle est définie par

1A(x) =

1 si x ∈ A,0 si x < A.

Il est immédiat que

1A∩B = 1A.1B1A∪B = 1A + 1B, si A ∩ B = ∅.

et 1A∪B = 1A + 1B − 1A∩B dans le cas général.

Les notions de parties positives et négatives sont aussi fort utiles : pour tout réel x,

x+ = max(x, 0) et x− = max(−x, 0).L. Decreusefond

Contexte public sans modificationsVoir page 83 5/83

Page 7: 1 Master

Cours de probabilités

On se convainc aisément quex = x+ − x− et |x| = x+ + x−.

On prendra garde à ne pas confondre cette notation avec la suivante. Pour une fonction f définie sur R onintroduit

f(x−) = limy↑x

f(y) et f(x+) = limy↓x

f(y),

dès que ces limites existent. La continuité de f en x équivaut à l’égalité f(x−) = f(x+) = f(x). Dans le cascontraire, on note ∆f(x) = f(x+)− f(x−).

Pour les suites de nombres réels, la limite supérieure et la limite inférieure sont respectivement la plusgrande et la plus petite des valeurs d’adhérence :

lim supn

un = infk

supn≥k

un

lim infn

un = supk

infn≥k

un.

Comme les suites (supn≥k uk, k ≥ 1) et (infn≥k uk, k ≥ 1) sont monotones donc convergentes dans R, leslimites supérieure et inférieure existent toujours dans R. Pour une suite (fn, n ≥ 1) de fonctions à valeursréelles, les fonctions lim infn fn et lim supn fn sont naturellement définies par :

(lim infn

fn)(x) = lim infn

(

fn(x))

(lim supn

fn)(x) = lim supn

(

fn(x))

.

Pour une suite (An, n ≥ 1) d’ensembles, on introduit les mêmes concepts de limites supérieure et inférieure.

lim supn

An =∞∩k=1∪n≥k

An

lim infn

An =∞∪k=1∩n≥k

An.

Notons que

1lim supn An = lim supn

1An

1lim infn An = lim infn

1An .

Lemme 1.1. Un élément b appartient à lim supnAn si et seulement si b appartient à une infinité de An.Un élément b appartient à lim infnAn si et seulement si b appartient à tous les An sauf un nombre fini

d’entre eux.

Démonstration. Dire que B appartient à lim supnAn équivaut à dire que

∀k ≥ 1, ∃n ≥ k tel que B ∈ An.

Traduit en français, cela équivaut exactement à dire que B appartient à une infinité de An. Le même raison-nement s’applique pour la limite inférieure.

En ce qui concerne les fonctions, nous aurons souvent besoin de parler d’image inverse d’un ensemble parune fonction. Rappelons-en la définition et les premières propriétés. Soit f : E → F une application, pourune partie A de F , son image inverse est définie par :

f−1(A) = x ∈ E : f(x) ∈ A.

Dire que f est injective équivaut à dire que f−1(x) contient au plus un élément pour tout x ∈ F . L’ap-plication f est surjective si et seulement si f−1(x) contient au moins un élément pour tout x ∈ F . UnL. Decreusefond

Contexte public sans modificationsVoir page 83 6/83

Page 8: 1 Master

Cours de probabilités

raisonnement élémentaire permet de se convaincre que

∀x ∈ f−1(A), f(x) ∈ Af−1(A ∩B) = f−1(A) ∩ f−1(B), et

f−1(A ∪B) = f−1(A) ∪ f−1(B),(

f−1(A))c

= f−1(Ac).

Par abus de notation, on omettra souvent la variable x et on notera souvent

f−1(A) = (f ∈ A).

L. Decreusefond

Contexte public sans modificationsVoir page 83 7/83

Page 9: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 8/83

Page 10: 1 Master

Chapitre 2

Événements

2.1 Introduction

Motivons la nécessité d’une formalisation précise des probabilités par deux paradoxes, dits de Bertrand,remontant au xixe siècle.

Figure 2.1 – J. Bertrand (1822-1900) (DR).

Premier paradoxe de Bertrand : on dispose de trois boîtes à deux tiroirs chacune. Chacun des tiroirs dela boîte A contient une médaille en or, chacun des tiroirs de la boîte B contient une médaille en argent, l’undes tiroirs de la boîte C contient une médaille en or et l’autre une médaille en argent.

Le joueur ouvre un tiroir au hasard et essaie de déterminer s’il a ouvert la boîte C. Avant d’ouvrir letiroir, il a une chance sur 3 d’avoir choisi la boîte C. Sil trouve une médaille en or, alors c’est que la boîtequ’il avait ouverte ne pouvait être que la boîte A ou la boîte C donc il a en fait une chance sur 2 d’avoirouvert la boîte C. Le même raisonnement s’applique aussi s’il trouve une médaille en argent. Conclusion,quel que soit ce qu’il trouve dans le tiroir, il en conclut qu’il a une chance sur 2 d’avoir ouvert la boîte C.Mais puisque ce raisonnement ne dépend pas de ce qu’il a trouvé dans le tiroir ouvert, autant ne pas l’ouvriret décréter avant l’expérience qu’il a une chance sur 2 de choisir la boîte C... (voir exercice 1).Deuxième paradoxe de Bertrand : quelle est la probabilité que deux points choisis au hasard sur lasphère de R3 fasse un angle de moins de 10′ = 1/6. Par symétrie, on peut toujours supposer que l’un despoints est le pôle nord. Dans ce cas, la probabilité que l’événement voulu soit réalisé est le rapport de lasurface de la calotte concernée sur la surface de la sphère, on trouve 2,1.10−6. Mais Bertrand remarqua quesi l’on connaît les deux points, on connaît aussi le grand cercle qui passe par eux deux. Pour trouver laprobabilité recherchée, il suffit donc de calculer le rapport d’un arc de grand cercle d’amplitude angulaire de1/3 au périmètre d’un grand cercle soit 1/(3.360) = 9,26. 10−4.

La solution est ici plus sophistiquée (et due à Borel), il faut remarquer qu’un grand cercle est de surfacenulle. En conséquence, on est obligé de considérer une tranche de largeur infinitésimale quand on choisit M ′

et la figure 2.2 montre qu’on a alors plus de chance de choisir un point proche de l’équateur qu’un pointproche du pôle. La probabilité « induite » sur le grand cercle n’est donc pas la probabilité uniforme et ledeuxième raisonnement est donc faux.L. Decreusefond

Contexte public sans modificationsVoir page 83 9/83

Page 11: 1 Master

Cours de probabilités

M

M ′b

b

Figure 2.2 – Deuxième paradoxe de Bertrand.

2.2 Espaces d’états dénombrables

Définition 2.1. Un ensemble E est dit dénombrable s’il est en bijection avec N, l’ensemble des entiersnaturels.

Il est dit au plus dénombrable s’il est inclus dans un ensemble dénombrable.

Quelques exemples :– Les ensembles de cardinal fini sont évidemment au plus dénombrables. Ceci recouvre non seulement les

ensembles de la forme 1, · · · , n mais aussi des produits cartésiens d’ensembles de cette forme ou desensembles comme celui des permutations sur un ensemble à n éléments.

– L’ensemble des entiers relatifs, l’ensemble des rationnels sont des ensembles dénombrables.– La réunion et le produit cartésien de deux ensembles dénombrables sont dénombrables.

Définition 2.2. Une mesure µ, sur un ensemble E au plus dénombrable, est une application de P(E),l’ensemble des parties de E, dans R+ qui satisfait les deux propriétés suivantes :

– µ(∅) = 0,– pour toute famille (Aj , j ∈ N∗) de parties deux à deux disjointes de E,

µ(∞∪j=1

Aj) =+∞∑

j=1

µ(Aj). (2.1)

Les parties de E s’appellent plus souvent des « événements ».

Définition 2.3. Une mesure µ est dite mesure de probabilité (ou probabilité) lorsque µ(E) = 1. Dans cecas, on la note usuellement P et non µ.

Théorème 2.4. Pour caractériser une mesure, il faut et il suffit de connaître la mesure des singletons.

Démonstration. Si on connaît la mesure µ, on connaît en particulier sa valeur sur les singletons.Réciproquement, toute partie d’un ensemble dénombrable est réunion au plus dénombrable des singletons

qui la composent : A = ∪i∈Ai. Comme l’intersection de deux singletons distincts est vide, le deuxième axiome

L. Decreusefond

Contexte public sans modificationsVoir page 83 10/83

Page 12: 1 Master

Cours de probabilités

vérifié par les mesures permet d’écrire :µ(A) =

i∈A

µ(i).

Il suffit donc de connaître µ(i) pour tout i pour savoir calculer µ(A).

Mesure (de probabilité) uniforme Si E est fini à n éléments, la mesure uniforme est caractérisée par

P(i) =1n

pour tout i ∈ E.

Dans ces conditions, d’après (2.1), il est clair que

P(A) =|A|n.

– Lorsqu’on lance un dé « non pipé », cela revient à dire que l’on munit l’espace d’états E = 1, · · · , 6de la mesure uniforme.

– Lorsque l’on dispose deN dés « non pipés », l’espace d’état estE = 1, · · · , 6N et il est naturellementéquipé de la mesure uniforme définie par

P((n1, · · · , nN)) =1

6N

pour tout (n1, · · · , nN) ∈ E. Ce qui signifie que la probabilité que le dé 1 indique n1, le dé 2 indiquen2, etc. est exactement 6−N .

– L’état d’un jeu de n cartes peut se représenter par les permutations : les cartes sont numérotées de 1à n ainsi que les positions dans le paquet. L’application qui, à un numéro de carte i associe la positionσ(i) de la carte i dans le paquet, est en fait une bijection de 1, · · · , n dans lui-même, c’est-à-direune permutation. Choisir un mélange « au hasard » revient à dire que

P(état du paquet = σ) =1n!,

pour toute permutation σ.

Mesure non uniforme On peut tout aussi bien être amené à considérer des mesures non uniformes. Parexemple sur E = 2, · · · , 12, la mesure définie par

P(i) =6− |7− i|

36

est une bonne mesure de probabilité. À vous de déterminer à quel phénomène physique elle correspond.

L’équation (2.1) décrit ce que vaut la probabilité d’une réunion disjointe d’événements. Le crible de Poincarépermet d’affiner ce résultat quand les parties ne sont plus disjointes deux à deux.

Théorème 2.5 (Crible de Poincaré). Soit A1, · · · , An des événements.

P(n∪j=1

Aj) =n∑

j=1

P(Aj)−∑

j1<j2

P(Aj1 ∩Aj2 ) + . . .

+ (−1)k+1∑

j1<j2<...<jk

P(Aj1 ∩Aj2 ∩ . . . ∩Ajk) + . . .+ (−1)n+1P(n∩j=1

Aj).

Démonstration. On procède par récurrence sur n, le nombre d’ensembles. Pour n = 2, on écrit A∪B commela réunion disjointe de A ∩B, de la partie de A qui n’est pas dans B et de la partie de B qui n’est pas dansA :

A ∪B =(

A\(A ∩B))

∪(

B\(A ∩B))

∪(

A ∩B)

.L. Decreusefond

Contexte public sans modificationsVoir page 83 11/83

Page 13: 1 Master

Cours de probabilités

D’autre part, A est la réunion disjointe de A ∩ B et A\(A ∩ B), le deuxième axiome de la définition d’uneprobabilité donne

P(A) = P(A\(A ∩B)) + P(A ∩B),

d’où

P(A ∪B) = P(A) −P(A ∩B) + P(B)−P(A ∩B) + P(A ∩B)

= P(A) −P(A ∩B) + P(B).

La propriété est donc établie pour n = 2. Si elle est vraie au rang n, on applique la propriété au rang 2 à

A =n∪j=1

Aj et B = An+1. Le calcul de P(A) s’explicite par la formule au rang n et on obtient la relation

désirée au rang n+ 1.

Cette formule illustre au passage l’intérêt de savoir calculer la probabilité d’une intersection d’événements.

Définition 2.6. Deux événements A et B sont indépendants lorsque

P(A ∩ B) = P(A)P(B). (2.2)

Les événements (Aj , j ∈ N∗) sont dits indépendants dans leur ensemble lorsque pour toute sous-famille finieAj1 , · · · , Ajl ,

P(l∩k=1

Ajk) =l∏

k=1

P(Ajk ).

Remarque 1. Des événements peuvent être indépendants deux à deux sans être indépendants dans leurensemble, cf. exercice 10.

S’il existe, en quelque sorte, une seule façon d’être indépendant, deux événements « dépendants » peuventl’être plus ou moins. Ceci est reflété par la notion de conditionnement.

Définition 2.7. Soit B un événement tel que P(B) , 0, la probabilité de A sachant B, notée P(A |B) estdéfinie par

P(A |B) =P(A ∩B)

P(B).

Si on associe probabilité et « poids », la probabilité d’un ensemble étant son poids relatif par rapport àcelui de l’ensemble total, la probabilité conditionnelle de A sachant B est le poids de la trace de A sur Brelativement au poids total de B.

A

B

A ∩B

Figure 2.3 – Interprétation graphique du conditionnement.

Dans un grand nombre d’applications, on impose des probabilités dites a priori et l’on veut faire des calculsa posteriori, c’est-à-dire après observation (voir exercice 11). L’outil mathématique est alors la formule deBayes.L. Decreusefond

Contexte public sans modificationsVoir page 83 12/83

Page 14: 1 Master

Cours de probabilités

Théorème 2.8 (Bayes, 1763). Soit A1, · · · , An une famille d’événements deux à deux disjoints dont laréunion est E. On se donne les probabilités a priori de chaque Ai. Pour un événement B, on suppose connuesles probabilités P(B |Ai) pour i = 1, . . . , n. Maintenant, si B se produit alors les probabilités a posteriori desAi sont les quantités P(Ai |B) et sont données par :

P(Ai |B) =P(Ai)P(B |Ai)

∑ni=1 P(Ai)P(B |Ai)

.

2.3 Espaces d’états non dénombrables

Deux problèmes se posent dans le cas des ensembles non dénombrables : est-il possible de définir unemesure au sens de la définition 2.2 ? Comment caractériser une mesure puisqu’on ne peut certainement plusécrire que toute partie est réunion dénombrable de ses singletons.

Ces deux problèmes sont résolus dans le chapitre sur la théorie de la mesure (cf. chapitre 9). Les résultatsessentiels sont les suivants :

– Dans tout ce qui nous intéresse, les espaces E seront R ou Rd ou des sous-parties de ceux-ci.– On ne peut pas construire de mesures sur l’ensemble des parties de R (voir exercice 70), on est donc

obligé de restreindre l’ensemble des parties « mesurables » à un ensemble plus petit.– L’ensemble des parties mesurables, c’est-à-dire le domaine de définition d’une mesure, est l’ensemble

des boréliens.– Les parties mesurables s’appellent aussi les événements.– Une mesure sur R est parfaitement déterminée dès lors que l’on connaît sa valeur sur les intervalles

ouverts à extrémités rationnelles. Cela signifie que deux mesures qui coïncident sur les intervalles ouvertsà extrémités rationnelles sont égales.

– Les formules du crible de Poincaré et de Bayes restent valables sans changement. Les notions d’indé-pendance et de conditionnement sont également inchangées.

2.4 Exercices

⊲ Exercice 1. Construire l’espace probabilisé correspondant au problème du premier paradoxe de Bertrand.Résoudre le paradoxe.

⊲ Exercice 2. Dans un lot de 20 articles, 12 sont parfaits, 6 comportent un défaut mineur et 2 un défautmajeur.

1. Deux articles sont choisis au hasard, calculer les probabilités suivantes :

(a) Les deux sont parfaits,

(b) Les deux ont un défaut majeur,

(c) Au moins l’un d’entre eux est parfait,

(d) Au plus l’un d’entre eux est parfait„

(e) Exactement un est parfait,

(f) Aucun n’a de défaut majeur,

(g) Aucun n’est parfait.

2. Un lot de 20 articles est accepté lorsque 3 éléments choisis au hasard n’ont pas de défaut majeur. Quelleest la probabilité que le lot décrit ci-dessus soit accepté ?

⊲ Exercice 3. On lance simultanément trois dés à 6 faces non pipés.

1. Quel est l’espace des événements ?

2. Quelle est la probabilité d’avoir au moins 1 as ?

3. Montrer que les événements « la somme des faces est paire » et « la somme des faces est impaire » ontmême probabilité.

4. Quelle est la probabilité que la somme des faces soit paire ?L. Decreusefond

Contexte public sans modificationsVoir page 83 13/83

Page 15: 1 Master

Cours de probabilités

5. Même question si on a N dés avec N quelconque. On pourra traiter d’abord le cas N impair puis le casN pair.

⊲ Exercice 4. Une boîte contient 4 piles usagées et 6 piles neuves. On tire deux piles au hasard. L’une d’entreelles seulement est testée. Quelle est la probabilité que l’autre soit bonne si la pile testée est bonne ? Mêmequestion si la pile testée est usagée.

On teste l’ensemble de la boîte par la méthode suivante : les piles sont tirées les unes après les autres auhasard sans remise. À chaque tirage, on teste la pile courante, le protocole s’arrête lorsque l’on a sorti les 4piles usagées. Quelle est la probabilité que le test s’arrête au cinquième tirage (au dixième tirage) ?

⊲ Exercice 5 (Arnaque ou pas ?). Dans le jeu « Vegas », il est vendu 500 000 tickets à 3e chaque. Ces ticketssont distribués aux buralistes sous forme de bandes de 50 tickets attachés les uns aux autres. La répartitiondes gains est la suivante :

Nb de lots Gains1 40 000e1 20 000e2 10 000e5 1 000e

18 500e800 200e850 100e

2 020 50e4 000 20e9 000 10e

28 000 6e25 000 4e47 500 3e

1. Quel est le montant moyen des gains ?

2. Quelle est la probabilité d’avoir un lot supérieur à 20e ?

3. Sur 50 tickets, quelle est la probabilité (exacte et approchée) d’avoir 0 ou 1 lot supérieur à 20e ?

4. M. R. a acheté 100 bandes de 50 tickets et il a constaté qu’aucune d’entre elles ne comportait plus d’unlot supérieur à 20e. Quelle est la probabilité (approchée, en supposant que 5 000 est négligeable devant500 000) d’un tel événement ?

5. Même question avec 25 bandes.

« Le montant ou la nature des gains ou lots est déterminé par le règlement du jeu ou par l’inter-vention du hasard. L’attribution des lots aux gagnants est déterminée par le hasard. L’interventiondu hasard, totale ou prépondérante, peut être antérieure, concomitante ou postérieure à la miseà disposition du support. Les jeux doivent respecter le principe d’égalité des chances entre lesjoueurs, ce qui n’interdit pas de tenir compte des différences objectives de situations entre ceux-ci. »Journal Officiel de la République Française, décret 2002-651 du 29 avril 2002

⊲ Exercice 6 (Canal binaire symétrique). On considère un canal de communication qui transmet des bits avecerreur selon le modèle suivant : un bit à une probabilité p d’être transmis correctement et 1−p d’être inversé.On suppose que n canaux de ce type sont en série. On note Xn le bit reçu en sortie du n-ıème canal. On note

πn =(

P(Xn = 0 |X0 = 0), P(Xn = 1 |X0 = 1))

.

1. Exprimer la relation matricielle entre πn et πn−1 pour tout n ≥ 1. On traitera à part les cas p = 0 etp = 1.

2. On suppose dorénavant que p ∈]0, 1[. Calculer la probabilité pn pour que l’information soit fidèlementtransmise.

3. Que se passe-t-il quand n tend vers l’infini ?L. Decreusefond

Contexte public sans modificationsVoir page 83 14/83

Page 16: 1 Master

Cours de probabilités

⊲ Exercice 7. Un étang contient un nombre de poissons N inconnu. Pour estimer N, on prélève un échantillonde r poissons que l’on marque et que l’on remet dans l’étang. Une semaine plus tard, un autre échantillon des < r individus est prélevé. On appelle X le nombre de poissons marqués lors du premier prélèvement quisont aussi dans le deuxième échantillon.

1. Calculer la loi de X (dite loi hypergéométrique).On note pour la suite de cet exercice

pk =

(

rk

)(

N−rs−k

)

(

Ns

) ,

pour k ≤ min(r, s) et k ≥ max(s+ r −N, 0).

2. Montrer que p2k ≥ pk−1pk+1.

3. En déduire qu’il existe une unique valeur de k telle que pk = maxj pj .

4. Soit k0 tel cette valeur. Par définition, pk0+1 < pk0 et pk0−1 < pk0 . En déduire que

k0 =(r + 1)(s+ 1)

N + 2.

On pourra poser pour simplifier les calculs, r′ = r + 1, s′ = s+ 1, N ′ = N + 2.

5. En déduire une estimation de N .

6. Lors du dépouillement, on pose Xi = 1 si le i-ème poisson est marqué, Xi = 0 sinon. En utilisant larelation évidente X =

∑si=1 Xi, montrer que

E [X ] = sp et var(X) = sp(1− p)N − sN − 1

,

où p = r/N.

⊲ Exercice 8. Dans le protocole WiMaX, la bande de fréquences est découpée en N = 48 groupes de M =32 fréquences. Un sous-canal est constitué d’une fréquence dans chaque groupe. Dans une cellule donnée,les algorithmes de construction des sous-canaux garantissent que deux sous-canaux ne partagent pas defréquences. On peut donc faire au maximum M sous-canaux dans une cellule. En revanche, rien ne garantitqu’un sous-canal d’une cellule voisine n’ait pas de fréquence commune avec un sous-canal de la cellule deréférence. Lorsqu’une fréquence est partagée, il y a interférence d’où perte du signal.

On suppose que la cellule A dispose de x sous-canaux avec 0 < x ≤ M . La cellule B a construit ysous-canaux.

1. Quelle est la probabilité qu’il y ait c collisions dans un groupe donné ?

2. Comment calculer la probabilité d’avoir C collisions sur l’ensemble de la bande de fréquences ?

3. Quel est le nombre moyen de collisions en fonction de x, y, N et M ?

⊲ Exercice 9. Lors d’un bal, n couples dansent. Les cavaliers ont choisi leur cavalière aléatoirement. Quelleest la probabilité qu’aucun des couples d’origine ne soit réuni ?

⊲ Exercice 10. Construire un espace de probabilité et déterminer 3 événements A, B et C indépendants deuxà deux mais pas dans leur ensemble.

⊲ Exercice 11. On suppose que l’on dispose d’un test déterminant d’une maladie donnée. Malheureusement,comme tout test, celui-ci est faillible : 1% des individus que l’on sait sains sont déclarés malades et 2% desindividus que l’on sait malades sont déclarés sains. On suppose que la maladie atteint 1% de la populationtestée. Quelle est la probabilité qu’un individu réagissant positivement au test soit effectivement malade ?

⊲ Exercice 12. Un actif financier de prix initial S0 vaut S0.M avec probabilité p ou S0.m (avec probabilité1− p) (m < M)à la fin de la période d’observation. On a aussi à disposition, un compte rémunéré à r% parpériode : pour xe placés sur ce compte initialement, on récupère (1 + r)xe en fin de période.

On dispose d’une fortune initiale X0, que l’on peut répartir à volonté entre des actions et le compterémunéré.L. Decreusefond

Contexte public sans modificationsVoir page 83 15/83

Page 17: 1 Master

Cours de probabilités

1. À quelle condition sur m et M est-il possible d’avoir une fortune finale fixée égale à K ?

2. Quelle est la stratégie (dite stratégie de couverture) pour y parvenir ?

⊲ Exercice 13 (Erdös et Renyi (1960)). On fabrique un graphe sur n sommets en choisissant ses arêtes« au hasard ». Plus précisément, on considère le graphe Gn,p obtenu en choisissant chacune des

(

n2

)

arêtespotentielles indépendamment avec probabilité p. Le but de ce problème est d’étudier la probabilité que Gn,psoit connexe. On s’intéressera au cas où p est de la forme

p = p(n) =lnnn

+c

n

où c est une constante fixée.

1. Soit (Xi, 1 ≤ i ≤ n) un n-uple de variables aléatoires à valeurs dans 0, 1 et soit X =∑ni=1 Xi.

Montrer que pour tout r tel que r ≥ 1 et 2r + 1 ≤ n on a :

2r+1∑

k=0

(−1)kF (k) ≤ P(X = 0) ≤2r∑

k=0

(−1)kF (k)

où l’on a posé F (0) = 1 et pour k ≥ 1

F (k) =∑

j1<j2<...<jk

E [Xj1Xj2 . . . Xjk ] .

Suggestion. On pourra montrer que

P(X = 0) = E

[

n∏

i=1

(1−Xi)]

et appliquer une formule de Taylor à la fonction∏ni=1(1 − xi).

2. On dira qu’un sommet est isolé s’il n’est l’extrémité d’aucune arête. Dans un premier temps, on étudiele nombre X de sommets isolés. On peut écrire X =

∑ni=1 Xi où Xi est la variable aléatoire qui vaut

1 si le sommet i est isolé, 0 sinon. Que valent E [Xi] et E [X ] ?

3. On suppose dorénavant c fixé. Montrer que la quantité F (k), pour la variable X , converge, lorsque ntend vers l’infini, vers e−ck/k!.

4. Montrer que limn→∞P(X = 0) = e−e−c

.

5. Calculer l’espérance du nombre de composantes connexes à 2 sommets, et constater que celle-ci tendvers zéro quand n tend vers l’infini.

6. Plus généralement, soit Ct le nombre de composantes connexes à t sommets. Montrer que pour 2 ≤ t ≤n/2,

E [Ct] ≤1t!

t−1≤k≤(t2)

((

t2

)

k

)(

p

1− p

)k

.

En déduire que la probabilité que Gn,p soit connexe tend, quand n→∞, vers e−e−c

. On admettra que∑

2≤t≤n/2 E [Ct]→ 0 quand n→∞.

7. Que peut-on dire de la probabilité que Gn,p soit connexe ?

Commentaire : on pourrait montrer de la même manière que

P(X = j)→ e−e−c

e−cj/j!.

La loi de X se rapproche d’une loi de Poisson, ce qui veut dire que les Xi se comportent demanière « de plus en plus indépendantes ».

L. Decreusefond

Contexte public sans modificationsVoir page 83 16/83

Page 18: 1 Master

Cours de probabilités

– Il y a(

n2

)

paires de sommets. la probabilité qu’une paire de sommets donnée constitue une

composante connexe vaut p(1 − p)2(n−2). L’espérance du nombre de composantes connexes àdeux sommets vaut donc

(

n

2

)

p(1− p)2(n−2) ∼ p

2(ne−pn)2 =

p

2e−2c → 0

car p tend vers 0 quand n→∞.– On en déduit qu’avec probabilité tendant vers 1 le nombre de composantes connexes à t élé-

ments avec 2 ≤ t ≤ n/2 tend vers 0. Or Gn,p n’est pas connexe si et seulement s’il existe unecomposante connexe à t sommets pour 1 ≤ t ≤ n/2. La probabilité d’être non connexe se com-porte donc comme la probabilité d’avoir (au moins) un point isolé. Autrement dit, la probabilité

que Gn,p soit connexe tend vers e−e−c

. En particulier on en déduit que si p grandit moins viteque lnn/n+ c/n pour tout c, alors Gn,p n’est pas connexe avec probabilité tendant vers 1. Parcontre si p grandit plus vite que lnn/n+c/n pour tout c, alors Gn,p est connexe avec probabilitétendant vers 1.

L. Decreusefond

Contexte public sans modificationsVoir page 83 17/83

Page 19: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 18/83

Page 20: 1 Master

Chapitre 3

Variables aléatoires

3.1 Variables aléatoires discrètes

Définition 3.1. Soit Ω un espace dénombrable, muni d’une probabilité P sur A = P(Ω). Une variablealéatoire discrète est une application définie sur Ω à valeurs dans un espace E, que l’on peut supposerdénombrable.

Définition 3.2. La loi d’une variable aléatoire, à valeurs dans E dénombrable, est la suite (P(X = n), n ∈E).

Définition 3.3. On dit qu’une variable aléatoire X suit une loi Bernoulli de paramètre p ∈ [0, 1] lorsque

P(X = 1) = p et P(X = 0) = 1− p.On notera dorénavant ceci par X ∼ B(p).

Définition 3.4. On dit qu’une variable aléatoire X suit une loi binomiale de paramètres n et p lorsque

P(X = j) =(

n

j

)

pj(1− p)n−j , pour tout j ∈ 0, · · · , n.

On notera dorénavant ceci par X ∼ B(n, p).C’est la loi du nombre de succès lorsque l’on fait n tentatives indépendantes avec probabilité p de succès

à chaque fois.

Définition 3.5. On dit qu’une variable aléatoire X suit une loi géométrique de paramètre p ∈ [0, 1] lorsque

P(X = j) = (1− p)j−1p, pour tout j ∈ N∗.

On notera dorénavant ceci par X ∼ Geom(p).C’est la loi du nombre de tentatives indépendantes qu’il faut faire avant d’avoir un succès lorsque chaque

tentative a une probabilité p de succès.

Définition 3.6. On dit qu’une variable aléatoire X suit une loi de Poisson de paramètre λ > 0 lorsque

P(X = j) = e−λλj

j!, pour tout j ∈ N.

On notera dorénavant ceci par X ∼ Po(λ).

Définition 3.7 (Voir Théorème 4.2). Soit X une variable aléatoire discrète. Pour toute fonction h de E dansR qui vérifie l’une des deux hypothèses suivantes

– h est à valeurs positives,–∑

j∈E |h(j)|P(X = j) est finie,on définit l’espérance de h(X), notée E [h(X)] par :

E [h(X)] =∑

j∈E

h(j) P(X = j).

L. Decreusefond

Contexte public sans modificationsVoir page 83 19/83

Page 21: 1 Master

Cours de probabilités

3.2 Variables aléatoires réelles

On suppose dorénavant que l’on dispose d’un espace probabilisé (Ω, A, P).

Définition 3.8. Une variable aléatoire X est une fonction de (Ω, A, P) dans R telle que pour tout intervalle]a, b[ de R, l’événement (ω : X(ω) ∈]a, b[) est dans A.

Définition 3.9. La loi d’une variable aléatoire réelle (v.a.r. en abrégé) X est la mesure image de P par X ,c’est-à-dire la mesure PX sur R définie par

PX(A) = P(ω : X(ω) ∈ A) = P(X ∈ A).

Comme PX est une mesure sur R, on sait qu’elle est totalement caractérisée (voir 9) par les valeurs dePX(]−∞, b]) pour b parcourant R.

Définition 3.10. Soit X une v.a.r., la fonction

FX : R −→ [0, 1]

x 7−→ PX(]−∞, x]) = P(X ≤ x)

s’appelle la fonction de répartition de X .

En vertu des propriétés de monotonie des mesures (voir exercice 66), FX possède les propriétés suivantes :– limx→−∞ FX(x) = 0,– limx→+∞ FX(x) = 1,– FX est croissante, continue à droite, i.e., limy↓x FX(y) = FX(x).

Remarque 2. Réciproquement, toute fonction satisfaisant ces propriétés est la fonction de répartition d’unev.a.r., voir chapitre 9.

On a, d’après les propriétés de monotonie des mesures (exercice 66),

FX(x−) = limn→+∞

P(∞∪n=1

]−∞, x− 1n

]) = PX(]−∞, x[).

Par conséquent, FX(x−) = PX(]−∞, x[) et donc

FX(x)− FX(x−) = P(X = x).

En d’autres termes, si FX est continue en x, P(X = x) = 0. Comme FX est bornée, le nombre de ces pointsde discontinuité est au plus dénombrable (voir exercice 14). Soit xn, n ∈ N∗ ces points. On peut alorsparler de F cX , la régularisée de FX :

F cX(x) = FX(x)−∞∑

n=1

(

FX(xn)− FX(xn−))

1[xn,+∞[(x).

= FX(x)−∞∑

n=1

∆FX(x)1[xn,+∞[(x).

La fonction F cX est continue et croissante par définition. Elle est d’après un théorème de Lebesgue, dérivablesauf sur un ensemble de mesure de Lebesgue nulle. Dans la suite, nous ne nous préoccuperons pas de savoirce qui se passe si elle n’est pas dérivable en tout point.

Théorème 3.11. Soit X une v.a.r. de fonction de répartition FX . Si F cX est dérivable sur R, alors

dPX(x) =∞∑

n=1

∆FX(xi)δxi + (F cX)′(x) dx. (3.1)

Si FX est continue alorsdPX(x) = (F cX)′(x) dx

et (F cX)′ s’appelle la densité de la loi de X.L. Decreusefond

Contexte public sans modificationsVoir page 83 20/83

Page 22: 1 Master

Cours de probabilités

Démonstration. Remarquons que1[x,+∞[(x) = δxn(]−∞, x]),

puisque le terme de gauche ne vaut 1 que si x ≥ xn, soit de manière équivalente xn ∈] −∞, x]. Si F cX estdérivable en tout point alors on a

FX(x) = F cX(x) +∞∑

n=1

∆FX(x)1[xn,+∞[(x)

soit

P(X ∈]−∞, x]) =∫ x

−∞

(F cX)′(s) ds+∞∑

n=1

∆FX (xi)δxi(]−∞, x]).

Les deux mesures de part et d’autre de l’égalité (3.1) coïncident donc sur les ensembles de la forme ]−∞, x]pour tout x réel. C’est suffisant (cf. théorèmes de classe monotone 9.6) pour assurer que ces deux mesuressont égales.

Remarque 3. Dans le cas où F cX ≡ 0,

dPX(x) =∞∑

i=1

∆FX(xi)δxi ,

ce qui signifie que X prend un nombre dénombrable de valeurs, c’est une v.a. à valeurs discrètes et P(X =xi) = ∆FX(xi).

Théorème 3.12. Soit X une v.a. à valeurs dans R telle que

dPX(x) =∞∑

i=1

αiδxi + fX(x) dx,

avec α1, · · · , αn des réels strictement positifs. Soit h une fonction mesurable de R dans R. Si h vérifie l’unedes deux propriétés suivantes :

– h est à valeurs positives,– E [|h(X)|] est finie,

alors

E [h(X)] =∞∑

i=1

αih(xi) +∫

h(x)fX(x) dx. (3.2)

Définition 3.13. Une v.a.r. X est dite de loi exponentielle de paramètre λ > 0 lorsque

dPX(x) = λ exp(−λx)1R+ (x) dx

ou de manière équivalenteFX(x) = 1− exp(−λx).

On notera dorénavant ceci par X ∼ E(λ).

Définition 3.14. Une v.a.r. X est dite de loi uniforme sur [a, b] lorsque

dPX(x) =1

b− a1[a, b](x) dx.

On notera dorénavant ceci par X ∼ U(a, b).

Définition 3.15. Une v.a.r. X est dite de loi gaussienne (ou normale) de paramètres m et σ2 lorsque

dPX(x) =1

σ√

2πexp(

− (x−m)2

2σ2

)

dx.

On notera dorénavant ceci par X ∼ N (m, σ2).L. Decreusefond

Contexte public sans modificationsVoir page 83 21/83

Page 23: 1 Master

Cours de probabilités

Définition 3.16. Une v.a.r. X est dite de loi de Cauchy de paramètre c lorsque

dPX(x) =c

π(c2 + x2)dx.

On notera dorénavant ceci par X ∼ C(c).Exemple 3.17. Soit Z une v.a.r. de loi exponentielle de paramètre λ et T un réel fixé. Soit X = min(Z, T ),on veut calculer la loi de X .

Il est clair que X est positive et majorée par T donc P(X ≥ T ) = 0 et P(X < 0) = 0. Pour 0 ≤ x < T ,X ne peut être inférieure à x que si X = Z donc

P(X ≤ x) = P(Z ≤ T, Z ≤ x) = P(Z ≤ x),

puisque x < T . Par conséquent, pour x ∈ [0, T [,

P(X ≤ x) = 1− e−λx.

En particulier, FX(T−) = 1 − exp(−λT ). Comme P(X ≤ T ) = 1, on a P(X = T ) = exp(−λT ). Le tout serésume dans le graphique 3.1.

1e−λT

T

F cX

Figure 3.1 – Fonction de répartion de min(E(λ), T ).

3.3 Vecteurs aléatoires

Définition 3.18. Un vecteur aléatoire (ou variable aléatoire vectorielle) est une application mesurable de(Ω, A, P) dans Rn, c’est-à-dire telle que

(X ∈]−∞, x1]× . . .×]−∞, xn]) ∈ A,

pour tout n-uple (x1, · · · , xn).

Sa loi est la mesure image de P par X et sa fonction de répartition est donnée par

FX(x1, · · · , xn) = P(X ∈]−∞, x1]× . . .×]−∞, xn])= P(X1 ≤ x1, · · · , Xn ≤ xn)

L. Decreusefond

Contexte public sans modificationsVoir page 83 22/83

Page 24: 1 Master

Cours de probabilités

où l’on a noté X1, · · · , Xn les composantes de X , qui sont bien évidemment des v.a. réelles. La loi d’unvecteur à n composantes est une mesure sur Rn. Cette loi est dite à densité lorsqu’il existe fX : Rn −→ R+

telle que pour toute h continue borné de Rn dans R,

E [h(X1, · · · , Xn)] =∫

Rn

h(x1, · · · , xn)fX(x1, · · · , xn) dx1 . . . dxn.

Définition 3.19. Les lois des Xi pour chaque i ∈ 1, · · · , n sont appelées les lois marginales.

Remarque 4. Si l’on connaît la loi d’un vecteur aléatoire X à valeurs dans Rn, on peut calculer toutes leslois marginales, car

P(Xi ∈]−∞, b]) = P(X1 ≤ +∞, · · · , Xi ≤ b, · · · , Xn ≤ +∞).

Réciproquement, on ne peut pas, sans hypothèse supplémentaire, déterminer la loi d’un vecteur à partir dela seule connaissance des marginales. Le seul cas où c’est possible est lorsque les composantes de X sontsupposées être indépendantes. Dans ce cas, par définition de l’indépendance 5.4,

P(X ∈]−∞, x1]× . . .×]−∞, xn]) = P(X1 ≤ x1) . . .P(Xn ≤ xn).

La loi de X est alors bien entièrement caractérisée par les lois PXi .

3.4 Changement de variables

L’un des types de calcul qui revient régulièrement dans la pratique des probabilités est celui du calcul dela loi de la tranformation d’un vecteur aléatoire de loi connue. L’outil principal pour ces calculs est la formulede changement de variables dans les intégrales multiples.

Définition 3.20. Soit T : O ⊂ Rn → Rn dont toutes les dérivées partielles existent sur O, la jacobiennede T au point x, est la matrice JT (x) où

JT (x) =( ∂Ti∂xj

(x), 1 ≤ i ≤ n, 1 ≤ j ≤ n)

=

∂T1

∂x1(x)

...

. . .∂Ti∂xj

(x) . . .

...∂Tn∂xn

(x)

.

Le jacobien de T est le déterminant de JT .

Définition 3.21. Soit O un ouvert de Rn, T : O ⊂ Rn → Rn, T est un C1-difféomorphisme de O sur∆ ⊂ Rn, lorsque

– les dérivées partielles de T existent et sont continues sur O,– T est une bijection de O sur ∆,– le jacobien de T ne s’annule pas sur O.

Théorème 3.22. Soit O un ouvert de Rn, T : O ⊂ Rn → Rn un C1-difféomorphisme de T sur ∆. Pourtout fonction continue bornée,

O

f(T (x)) dx =∫

f(y)1

| detJT (T−1(y))| dy.

L. Decreusefond

Contexte public sans modificationsVoir page 83 23/83

Page 25: 1 Master

Cours de probabilités

Exemple 3.23. Soit (X1, X2) deux variables aléatoires réelles indépendantes, de même loi

dP(x) = 1[1,∞[(x)1x2

dx.

On pose U = X1.X2 et V = X1/X2 .

1. Calculer la loi du vecteur (U, V ).

2. Calculer la loi de U et celle de V .

3. U et V sont-elles indépendantes ?

On part de l’hypothèse que la loi du couple (U, V ) a une densité par rapport à la mesure de Lebesgue, cequi en utilisant la caractérisation des mesures induites par le théorème de Riesz 10.17, revient à trouverh : R2 → R+ telle que que pour toute fonction f continue bornée de R2 dans R, on ait

E [f(U, V )] =∫

R2

f(x, y)h(x, y) dx dy.

Posons

T : R2 → R2

(x, y) 7→ (xy, x/y).

On a

E [f(U, V )] = E [(f T )(X, Y )] =∫

(f T )(x, y) dPX, Y (x, y),

où la deuxième égalité découle du théorème de transfert. Maintenant, les v.a. X et Y sont indépendantes, cequi équivaut (cf. (5.4)) à dire que

dPX, Y (x, y) = dPX(x) ⊗ dPY (y).

Par hypothèse,

dPX(x) = 1[1,∞[(x)1x2

dx et dPY (y) = 1[1,∞[(y)1y2

dy,

doncdPX, Y (x, y) = 1[1,∞[(x)

1x2

1[1,∞[(y) dx dy.

On a donc obtenu

E [f(U, V )] =∫

[1,+∞[2

(f T )(x, y)1

x2y2dx dy.

Rappelons-nous que nous voulons aboutir à une identité de la forme

E [f(U, V )] =∫

R2

f(x, y)h(x, y) dx dy.

On est naturellement enclin à utilise le théorème de changement de variables 3.22, pour cela, il nous fautcalculer ∆, l’ensemble image de [1, +∞[2 par T et le jacobien de T . Posons u = xy et v = x/y,

detJT (x, y) = det

y x

1y− xy2

= −2

x

y= −2v.

Si x et y sont tous deux plus grands que 1 alors u l’est, et v est strictement positif. Par ailleurs,

u = xy

v = x/y⇐⇒

x2 = uv

y2 = u/v.

L. Decreusefond

Contexte public sans modificationsVoir page 83 24/83

Page 26: 1 Master

Cours de probabilités

u

v

v = 1/u

v = u

1

∆∆

Figure 3.2 – Le domaine ∆ dans le plan (u, v).

On déduit de ces dernières équations que u ≥ v et uv ≥ 1. On vérifie alors facilement que T est une bijectionde [1, +∞[2 sur

∆ = (u, v), u ≥ v ≥ 0 et uv ≥ 1.On tire du théorème de changement de variables que

[1,+∞[2

(f T )(x, y)1

x2y2dx dy =

f(u, v)1

uv.u/v

1−2v

du dv

=∫

f(u, v)1

2 u2vdu dv,

d’où par identification,

dP(U, V )(u, v) =1

2 u2v1∆(u, v) du dv.

Pour calculer la loi de U , on veut exprimer E [f(U)] pour toute fonction continue bornée de R dans R. Onremarque alors que l’application f(x, y) = f(x) est continue bornée de R2 dans R donc

E [f(U)] = E[

f(U, V )]

=∫

f(u)1

2 u2vdu dv

=∫ +∞

1

f(u)1

2u2

(

∫ u

1/u

1v

dv

)

du,

d’après le théorème de Fubini 10.14. Par conséquent,

dPU (u) =1

2u2

(

∫ u

1/u

1v

dv

)

1[1,+∞[(u) du

=lnuu2

1[1,+∞[(u) du.

De même,

E [f(V )] =∫

f(v)1

2 u2vdu dv

=∫ +∞

0

f(v)12v

(∫

∆v

1u2

du)

dv,

L. Decreusefond

Contexte public sans modificationsVoir page 83 25/83

Page 27: 1 Master

Cours de probabilités

∆v = u : (u, v) ∈ ∆

=

[1/v, +∞[ si 0 ≤ v ≤ 1[v, +∞[ si v ≥ 1.

Par conséquent,

dPV (v) =12v

(

∫ +∞

1/v

1u2

du 1[0, 1](v) +∫ +∞

v

1u2

du 1]v,+∞[(v)

)

=12v

(

v1[0, 1](v) +1v

1]1,+∞[(v))

.

CommedP(U, V ) , dPU ⊗ dPV ,

les v.a. U et V ne sont pas indépendantes.

3.5 Exercices

⊲ Exercice 14. Soit f une fonction de R dans R bornée, croissante, continue à droite. On peut sans restreindrela généralité supposer que f prend ses valeurs dans [0, 1]. Pour n ≥ 1, montrer que l’ensemble x : f(x) ≥f(x−) + 1/n est de cardinal fini. En déduire que l’ensemble des points de discontinuité de f est au plusdénombrable.

⊲ Exercice 15. Soit (X1, X2), une variable aléatoire à valeurs dans R2 et N une deuxième variable aléatoireindépendante de (X1, X2) et de loi αδ1 + (1 − α)δ2, où α ∈]0, 1[.

1. Calculer E[XN ], σ2XN

en termes de celles de X1 et de X2.

2. On suppose que X1 et X2 sont indépendantes et de même loi, calculer la loi de XN .

⊲ Exercice 16. En codage correcteur d’erreurs, les erreurs interviennent au hasard sur l’un quelconque desbits. Si on transmet des mots de n bits, on pose Ω = 0, 1n, que l’on munit de la loi uniforme. Onintroduit Xi(ω) = ωi pour i = 1, · · · , n. La distande de Hamming entre mots de code x = (x1, · · · , xn) ety = (y1, · · · , yn), est définie par :

d(x, y) =n∑

i=1

1xi,yi.

On appelle longueur d’un mot x, sa distance au mot nul 0 = (0, · · · , 0).

1. Quelle est la longueur moyenne d’un mot ?

2. Quelle est la variance de la longueur d’un mot ?

3. On choisit deux mots au hasard indépendamment l’un de l’autre, soit X et Y les variables aléatoirescorrespondantes. Calculer

E[

d(X, Y )2]

.

⊲ Exercice 17. Trois personnes A,B et C arrivent à la poste en même temps pour téléphoner. Il y a deux ca-bines téléphoniques qu’occupent A et B tout de suite. C remplace le premier sorti. On désigne par X1, X2, X3

les temps d’occupation de la cabine par A,B et C respectivement. On suppose que (X1, X2, X3) sont indé-pendantes, de même loi exponentielle de paramètre α.

1. Calculer la probabilité que C sorte le dernier.

2. Donner la loi du temps T passé par C à la poste.

3. Donner la loi de probabilité de l’instant du dernier départ ; l’instant 0 étant l’instant d’arrivée des troispersonnes à la poste.

L. Decreusefond

Contexte public sans modificationsVoir page 83 26/83

Page 28: 1 Master

Cours de probabilités

⊲ Exercice 18 (Castor et Pollux). Castor et Pollux se sont donnés rendez-vous en convenant de ne pas attendrel’autre plus de dix minutes. Ils arrivent tous les deux indépendamment à un instant « au hasard » entre midiet 13 heures. On note X , respectivement Y , l’heure d’arrivée de Castor, respectivement celle de Pollux. Onnote W le temps d’attente de Castor.

1. Quelle est la probabilité qu’ils se rencontrent ?

2. Exprimer en fonction de X et Y , la valeur du temps d’attente de Castor. On pourra utilement faire undessin en identifiant dans le pavé [0, 1]× [0, 1], différentes zones où l’expression de W est simple – voirFigure 3.3.

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Figure 3.3 – Castor et Pollux

3. Quelle est la loi du temps d’attente de Castor ?

4. Quel est le temps d’attente moyen de Castor ?

5. Quelle est la loi du temps d’attente de Castor sachant qu’il y a rencontre ?

⊲ Exercice 19. Soit

dP(x, y) = c exp(

−x2 + y2

2

)

1x>y dx dy

une mesure sur le plan R2.

1. Trouver la constante c pour que P soit une probabilité.

2. Soit (Ω,F ,P) un espace de probabilité et (X,Y ) : Ω→ R2 une variable aléatoire de loi P. Trouver laloi de X et celle de Y .

3. Sont-elles indépendantes ?

4. On définit les nouvelles variables aléatoires U = X2 + Y 2 et V = Y . Calculer la loi du vecteur (U, V ).

5. Les variables U et V sont-elles indépendantes ?

⊲ Exercice 20. Soient X et Y deux v.a. réelles indépendantes sur (Ω, F , P), de même loi uniforme sur [0, a](a > 0 réel, fixé). On note par R =

√X2 + Y 2 , Z = Y/X et par Pa une nouvelle probabilité définie par

Pa(A) = P(A |R < a),

pour tout A ∈ F .

1. Pour tout borélien B de [0, a]2, exprimer P((X,Y ) ∈ B) à l’aide de la surface S(B) de B.L. Decreusefond

Contexte public sans modificationsVoir page 83 27/83

Page 29: 1 Master

Cours de probabilités

2. Montrer que R et Z sont indépendantes pour la probabilité Pa mais pas pour P.

3. Trouver deux fonctions simples f et g telles que pour Pa, f(R) et g(Z) soient uniformes ; sont-ellesindépendantes ?

⊲ Exercice 21. Soient X et Y deux v.a. indépendantes de loi uniforme sur [0, 1].

1. Quelle est la loi du couple (X,Y ) ?

2. Quelle est la loi du couple (min(X,Y ), max(X,Y )) ?

⊲ Exercice 22. Soient Z = (X,Y ) la loi de densité π−11D(x, y) où est D est le disque unité de R2.

1. Calculer les lois marginales de X et Y.

2. Ces deux variables sont-elles indépendantes ?

3. Calculer la loi du couple (min(X,Y ), max(X,Y )).

⊲ Exercice 23. Comment simuler le tirage de points uniformément répartis dans un triangle scalène en utilisantle moins possible le générateur de nombres pseudo-aléatoires. Même question avec un disque.

⊲ Exercice 24. Soit D une variable aléatoire de loi uniforme sur [0, 3], c’est-à-dire

dPD(x) =13

1[0,3](x) dx.

Soient s et t deux réels positifs tels que 0 ≤ t+ s ≤ 3.

1. Pour x ∈ [0, 3], simplifier l’expression (t− (x− s)+)+ où x+ = max(x, 0).

2. Calculer la loi de R = (t− (D − s)+)+.

⊲ Exercice 25 (Statistiques d’ordre). Soit (X1, · · · , Xn) des v.a. i.i.d. de loi P et de fonction de répartitionF . On définit par récurrence sur p, la suite de v.a. X(p) par

X(1) = min1≤j≤n

Xj

τ1 = infj, Xj = X(1)X(2) = min

j,τ1

Xj

τ2 = infj , τ1, Xj = X(2)......

X(n) = maxjXj

τn = maxj, Xj = X(n).

1. Montrer que presque sûrement, Xi , Xj pour i , j.

2. Calculer la fonction de répartition de X(1) et de X(n).

3. Soit τ la permutation définie par τ(i) = τi. Calculer la loi de τ .

4. Calculer la loi de X(k).

5. Soit α ∈]0, 1[ et Fnα (x) = P(X([αn]) ≤ x). On définit xα par

xα = infx, F (x) ≥ α.

Montrer que

Fnαn→+∞−−−−−→

1 si x ≥ xα0 sinon.

L. Decreusefond

Contexte public sans modificationsVoir page 83 28/83

Page 30: 1 Master

Cours de probabilités

⊲ Exercice 26 (Recouvrement d’un cercle, cf. [1]). Soit U = (U1, · · · , Un) des v.a. i.i.d. de loi uniforme sur[0, 1]. Soit W = (W1, · · · , Wn) la statistique d’ordre (cf. exercice 25) associée à U , i.e.,

Wi = U(i), pour tout i = 1, · · · , n.

On poseV1 = 1 +W1 −Wn, V2 = W2 −W1, . . . ,Wn = Wn −Wn−1.

On considère aussi X1, · · · , Xn des v.a. indépendantes de loi exponentielle de paramètre 1. On pose Sn =n−1

∑nj=1 Xj .

1. Montrer que la loi de W est donnée par

dPW (w1, · · · , wn) = n!1A(w1, · · · , wn) dw1 . . . dwn,

oùA = (x1, · · · , xn), 0 ≤ x1 ≤ x2 ≤ . . . ≤ xn ≤ 1.

2. Calculer la loi de V = (nV1, · · · , nVn−1).

3. Calculer la loi de (X1, · · · , Xn−1, Sn).

4. Montrer que la loi de(

X1

Sn, · · · , Xn−1

Sn

)

est la même que celle de V .

5. Soit Nα le nombre minimum d’arcs de longueur α nécessaires pour recouvrir la circonférence du cercleunite. Montrer que

(Nα ≤ n) = (maxk≤n

Vk ≤ α).

⊲ Exercice 27. Soient P et Q deux mesures de probabilité sur N. On note pi = P(i) et qi = Q(i). Ondéfinit la distance en variation totale entre P et Q par

dTV (P, Q) = supA∈N|P(A)−Q(A)|.

1. Montrer que+∞∑

i=0

(pi − qi)+ =12

+∞∑

i=0

|pi − qi|.

On pourra utiliser le fait∑

i pi =∑

i qi = 1.

2. Montrer que pour toute partie A de N,

|P(A) −Q(A)| ≤+∞∑

i=0

(pi − qi)+.

3. En choisissant convenablement l’ensemble A, montrer que

dTV (P, Q) =12

+∞∑

i=0

|pi − qi|.

4. On suppose maintenant que P est donnée par P(0) = p = 1 − P(1) et que Q est une mesure dePoisson de paramètre λ = − ln(p), c’est-à-dire que

qi = e−λλi

i!.

Calculer dTV (P, Q).L. Decreusefond

Contexte public sans modificationsVoir page 83 29/83

Page 31: 1 Master

Cours de probabilités

⊲ Exercice 28. Un nombre est choisi au hasard dans l’intervalle [0, 10] suivant une loi P donnée par

dP(t) = K t1[0,10](t) dt ,

où K est une constante à calculer. On note par X sa partie entière et par Y sa partie fractionnaire.

1. Calculer la loi du vecteur (X,Y ). Est-ce que les composantes sont indépendantes ?

2. Calculer la matrice de covariance de (X,Y ).

⊲ Exercice 29. Pour a > 0, on définit

Γ(a) =∫ ∞

0

e−tta−1 dt .

Une v.a.r. X est dite de loi gamma de paramètres a et λ > 0 si sa loi est donnée par

dPX(t) = 1[0,∞[(t)λa

Γ(a)e−λtta−1 dt ,

notée par X ∼ G(a, λ).

1. Calculer l’espérance et la variance de X .

2. Soit Y une autre v.a.r. indépendante de X , de loi G(b, λ). Montrer que X +Y etX

X + Ysont indépen-

dantes, calculer leur loi.

3. En déduire que

β(a, b) =∫ 1

0

ta−1(1− t)b−1 dt =Γ(a)Γ(b)Γ(a+ b)

.

⊲ Exercice 30. On considère E = x = (x1, x2) ∈ R2, x21 + x2

2 ≤ 1 et on considère Ω l’ensemble des famillesfinies de points de E, c’est-à-dire qu’un ω ∈ Ω est une famille finie de points de E. On munit E de la tribuborélienne et d’une probabilité P. Pour toute partie A de E on définit la variable aléatoire N(A)(ω) quireprésente le nombre de points de ω qui sont dans A. Les seules hypothèses que l’on fait sur P sont :

– Pour toute partie borélienne A de E,

P(N(A) = k) = e−m(A)m(A)k

k!, pour tout k ∈ N,

où m est la mesure de Lebesgue sur R2.– Si (Ai, i ∈ N) sont des boréliens disjoints deux à deux, les v.a. (N(Ai), i ∈ N) sont indépendantes dans

leur ensemble.On appelle le triplet (E,P, N) un processus de Poisson ponctuel d’intensité m.

1. Calculer la moyenne et la variance de N(A) pour A borélien de E. Calculer la probabilité que A necontienne pas de points de ω.

2. Soient A ⊂ B deux boréliens, calculer la loi de la variable aléatoire (N(A), N(B)).

3. Pour C = x, a2 < x21 + x2

2 ≤ b2, calculer la loi de N(C).

4. On pose U(ω) = infα,N(B(0, α))(ω) > 0 où B(0, α) est la boule fermée de centre O et de rayon r.Calculer P(U > x) pour tout x.

5. On fixe r > 0, on considère Arα le secteur angulaire composé des points distants de O de moins de ret d’argument compris entre 0 et α. On pose V r = infβ, N(Arβ) > 0 avec la convention V r = 0 siB(0, r) ne contient pas de point de ω. Calculer P(V > x) pour tout x ∈ [0, 2π[.

6. Calculer la loi de l’argument du point le plus proche de O.

7. On suppose n fixé, pour k ∈ 0, . . . , n− 1, on appelle Brk,n le secteur angulaire des éléments de E demodule inférieur à r et d’argument supérieur à 2kπ/n et strictement inférieur à 2(k + 1)π/n. Calculerla loi de (N(B1

1,n), . . . , N(B1n−1,n)) conditionnellement à N(E) = k.

L. Decreusefond

Contexte public sans modificationsVoir page 83 30/83

Page 32: 1 Master

Cours de probabilités

8. On admet que les secteurs angulaires définis précédemment engendrent la tribu borélienne de E quandr parcourt [0, 1] et n décrit N. Montrer que si on met k points répartis uniformément dans E la loi de

(N(B11,n), . . . , N(B1

n−1,n))

est celle que l’on vient de trouver. En déduire (en utilisant l’exercice 23) une façon de simuler unprocessus Poisson ponctuel d’intensité m.

9. Dans l’avant-dernière question, que se passe-t-il si on change m en une constante fois m ?

10. Calculer E[

e−sN(A)]

pour tout borélien. Pour f fonction mesurable positive de E dans R+, on pose

N(f)(ω) =∑

ξ∈ω

f(ξ).

Calculer E[

e−sN(f)]

.

11. Chaque point de ω est effacé avec probabilité p et conservé avec probabilité 1−p et ce indépendammentdes autres. On appelle Np(A) le nombre de points qui restent dans A après l’opération d’effacement.Montrer que (E,P, Np) est un processus de Poisson ponctuel d’intensité (1−p)m. Calculer E

[

e−sN(A)]

pour tout borélien.

⊲ Exercice 31. Soit X une v.a. réelle de fonction de répartition FX et F−1X l’inverse à droite de FX défini par :

F−1X (y) = infu; FX(u) ≥ y.

Soit U une v.a. de loi uniforme sur [0, 1], montrer que F−1X (U) a la loi de X. Cette relation permet de générer

des v.a. de loi arbitraire à partir de variables de loi uniforme sur [0, 1]. Ceci est très fréquemment utiliséen simulation et connu sous le nom de méthode d’inversion.Trouver comment générer des variables de loiexponentielle et de Cauchy avec cette méthode.

⊲ Exercice 32. La difficulté qui apparaît lors de la mise en oeuvre de la méthode précédente est l’inversion dela fonction de répartition. On a fréquemment la densité de façon explicite mais pas la fonction de répartition.Dans ce cas, on applique la méthode de rejet. Soit fX la densité de X et g une densité qui majore à uneconstante près fX et pour laquelle on sait facilement générer des v.a. dont la loi a pour densité g. On procèdede la manière suivante : soit a tel que fX(u) ≥ ag(u) pour tout u, on tire une v.a. de loi de densité g, soit Yle résultat de ce tirage, on tire une v.a. de loi uniforme sur [0, ag(y)] et on note Z le résultat de ce tirage. SiZ ≤ f(Y ) alors le résultat est Y sinon on recommence au début.

1. Quel est l’espace de probabilité sous-jacent sur lequel sont définies les v.a. Z et Y.

2. Montrer que P(Y ≤ t |Z ≤ fX(Y )) = FX(t).

3. Soit X et Y deux v.a. indépendantes de loi exponentielle de paramètre µ. Calculer la densité de la loide Z = X − Y.

4. En déduire une façon d’engendrer des v.a. de loi de densité :

µ

2γ(1 + 1/α)exp(−µ|x|α)

où α ≥ 1 et µ > 0.

⊲ Exercice 33. Soit U et V deux v.a. indépendantes de loi uniforme sur [0, 1]. Posons :

X =√

−2 ln(U) cos(2πV ) et Y =√

−2 ln(U) sin(2πV ).

Montrer que X et Y sont des v.a. gaussiennes centrées, réduites, indépendantes.

⊲ Exercice 34 (Processus de Poisson). L’un des modèles stochastiques les plus utilisés est le processus dePoisson. Nous allons ici le décrire et exhiber quelques unes de ses propriétés. Soit (Sn, n ≥ 1) une suite dev.a.r. indépendantes, identiquement distribuées, de loi exponentielle de paramètre λ. On note

T1 = S1 et Tn+1 = Tn + Sn+1.L. Decreusefond

Contexte public sans modificationsVoir page 83 31/83

Page 33: 1 Master

Cours de probabilités

Les instants (Tn, n ≥ 1) sont usuellement vus comme des instants d’arrivée. Les durées Sn s’appellentlogiquement inter-arrivées. On pose

Nt =+∞∑

n=1

1[0,t](Tn).

1. Calculer la loi de (T1, · · · , Tn).2. Calculer la loi de Tn.

3. Montrer que (Nt = k) = (Tn ≤ t < Tn+1).

4. Calculer la loi de Nt.

5. Soit Wt = t− TNt et Zt = TNt+1 − t. Calculer la loi de (Wt, Zt).

6. Montrer que Wt et Zt sont indépendantes et que Zt suit une loi exponentielle de paramètre λ.

7. En quoi, ce résultat est-il surprenant ?

⊲ Exercice 35. Soit W une v.a. de loi de Poisson de paramètre λ > 0 :

P(W = k) = e−λλk

k!.

1. Montrer que pour toute fonction positive f :

λE [f(W + 1)] = E [Wf(W )] . (3.3)

2. Réciproquement, soit W une v.a. discrète, à valeurs dans N, telle que pour toute fonction positive,l’identité 3.3 soit satisfaite. En appliquant 3.3 à des fonctions f judicieusement choisies, montrer que

P(W = j) =λ

jP(W = j − 1),

pour tout j ≥ 1.

3. En déduire la loi de W .

⊲ Exercice 36. On tire un nombre X uniformément sur [0, 1]. On tire ensuite des nombres Y1, Y2, · · · indé-pendamment les uns des autres et indépendamment de X , uniformément sur [0, 1]. Le jeu s’arrête dès queYi > X . Vous gagnez alors (i− 1)e. On appelle G le gain. Pour k entier, on définit

ϕk(x, y1, · · · , yk+1) =

1y1>x si k = 01y1≤x,..., yk≤x, yk+1>x si k > 0.

1. Pour k entier, montrer que∫

[0, 1]k+2

ϕk(x, y1, · · · , yk+1) dy1 dy2 . . . dyk+1 dx =1

k + 1− 1k + 2

·

On traitera séparément les cas k = 0 et k > 0.

2. Calculer la loi de G.

3. Calculer l’espérance de G.

⊲ Exercice 37. Pour tout a réel strictement positif, Ga désigne une variable aléatoire de loi gamma deparamètres (a, 1) : la densité ga de sa loi est donnée par

ga(x) =1

Γ(a)xa−1e−x1R+(x),

Γ(a) =∫ +∞

0

xa−1e−x dx.

L. Decreusefond

Contexte public sans modificationsVoir page 83 32/83

Page 34: 1 Master

Cours de probabilités

En particulier, G1 suit une loi exponentielle de paramètre 1. On admet que

E [eitGa ] = (1 − it)−a, pour tout t ∈ R.

De plus, pour a, b réels strictement positifs, Ba, b désigne une variable aléatoire de loi bêta de paramètres(a, b) : la densité ha, b de sa loi est donnée par

ha, b(y) =Γ(a+ b)Γ(a)Γ(b)

ya−1(1− y)b−11[0,1](y).

1. Calculer la loi du couple (Ga+bBa, b, Ga+b) lorsque les v.a. Ga+b et Ba,b sont indépendantes.

2. En déduire que pour deux variables Ga+b, Ba,b indépendantes, la loi de Ba, bGa+b est identique à cellede Ga.

3. Soit n ≥ 0. Montrer par récurrence, que lorsque les variables aléatoires Ba,1, · · · , Ba+n,1, Ga+n+1 sontindépendantes, la loi de

Pn = Ga+n+1

n∏

j=0

Ba+j, 1

est la même que celle de Ga.On utilisera la question précédente et les hypothèses d’indépendance. On évitera les longs calculs.

4. Soit X une v.a. de loi exponentielle de paramètre 1 indépendante de Ga, montrer que Ga + X a lamême loi que Ga+1.

5. En déduire que pour tout entier n, Ga+n a même loi que

Hn = Ga + X1 +X2 + . . .+Xn,

où les Xi sont des v.a. dont on précisera les propriétés.

On pose Wn = Ga + X1 + X2 + . . . + Xn où les Xi sont indépendantes, identiquement distribuées de loiexponentielle de paramètre 1. On suppose de plus que les v.a. Ga et Xk, k ≥ 1 sont définies sur le mêmeespace de probabilité.

6. Quelle est la limite presque-sûre de (n−1Wn, n ≥ 1) ?7. Montrer que la suite (n−1Ga+n, n ≥ 1) converge en loi, vers une loi que l’on précisera.

⊲ Exercice 38. On rappelle que∫ 1

0

u−1/2(1− u)−1/2 du = π.

Soit X = (X1, X2) un vecteur gaussien de R2, centré, de matrice de covariance (ou dispersion) Γ = Id.On pose

U =X2

1

X21 +X2

2

et V = X21 +X2

2 .

1. Calculer la densité de la loi de (U, V ).2. Donner les densités marginales de U et V . On précisera les constantes de normalisation.

3. Soit Z =X2

2

X21

. Exprimer Z en fonction de U puis calculer la densité de la loi de Z.

On note Rθ la rotation d’angle θ dans R2. Si x ∈ R2,

Rθ x =(

x1 cos θ − x2 sin θx1 sin θ + x2 cos θ

)

=(

cos θ − sin θsin θ cos θ

)(

x1

x2

)

,

où x1 et x2 sont les composantes de x dans la base canonique de R2.Soit X = (X1, X2) une v.a. à valeurs dans R2 telle que pour tout θ ∈ [−π, π], RθX a même loi que X .

C’est-à-dire queE [g(RθX)] = E [g(X)] , (3.4)

pour toute fonction g mesurable bornée de R2 dans R. On suppose que la loi de X a une densité par rapportà la mesure de Lebesgue, notée v.L. Decreusefond

Contexte public sans modificationsVoir page 83 33/83

Page 35: 1 Master

Cours de probabilités

4. Montrer que pour toute fonction g mesurable bornée de R2 dans R, pour tout θ ∈ [−π, π],∫

R2

g(x)v(x) dx =∫

R2

g(y)v(Rθy) dy.

On admet qu’alors il existe w : R+ → R+, mesurable, telle que

v(x) = w(‖x‖) pour tout x ∈ R2.

5. Montrer que dans ce cas,∫ +∞

0

w(r) r dr =1

2π.

On suppose maintenant que X = (X1, X2) est un vecteur gaussien centré de matrice de covariance (oudispersion) Γ.

6. Soit θ ∈ [−π, π], quelle est la loi de RθX ?

7. Montrer que RθX a même loi que X pour tout θ si et seulement si ΓRθ = RθΓ.

8. Supposons que ΓRθ = RθΓ pour tout θ ∈ [−π, π]. En écrivant les équations satisfaites par les coefficientsde Γ, montrer que Γ est la matrice d’une homothétie positive (c’est-à-dire qu’il existe σ2 tel queΓ = σ2 Id).

L. Decreusefond

Contexte public sans modificationsVoir page 83 34/83

Page 36: 1 Master

Cours de probabilités

3.6 FormulaireDistribution Espérance Variance Loi

B(n, p) np np(1− p) ∑nj=0

(

nj

)

pj(1− p)n−j δj

Geom(p)1p

1− pp2

∑+∞j=1(1 − p)j−1p δj

P(λ) λ λ∑+∞j=0 e

−λλj

j!δj

U([a, b])a+ b

2(b − a)2

121

b− a1[a, b](x) dx

E(λ)1λ

1λ2

λe−λx1R+(x) dx

N (m, σ2) m σ2 1

σ√

2πe−

(x−m)2

2σ2 dx

C(c) non définie non définiec

π(c2 + x2)dx

L. Decreusefond

Contexte public sans modificationsVoir page 83 35/83

Page 37: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 36/83

Page 38: 1 Master

Chapitre 4

Moments

4.1 Espérance

Considérons un paquet de N copies toutes notées de 0 à 20 dont on veut calculer la moyenne. On note xila note de la copie numéro i. Deux solutions s’offrent à nous. La première consiste à sommer toutes les noteset à diviser le résultat par N :

1N

N∑

j=1

xj .

L’autre solution consiste à classer les copies par note obtenue, on note alors Pn le nombre de copies ayantobtenue la note n. La moyenne se calcule alors par

1N

20∑

n=0

nPn.

Les deux méthodes donnent (espérons-le) un résultat identique. On passe de la première à la deuxième enréordonnant les xi de sorte que ceux qui sont égaux soient numérotés consécutivement.

Si on représente les notes dans un graphique avec en abscisse, le numéro de la copie et en ordonnée, lanote attribuée. Dans la première méthode, on lit le diagramme le long de l’axe des abscisses et pour chaquevaleur, on regarde la note. C’est exactement ce que l’on fait dans la définition de l’intégrale de Riemann.

Dans la deuxième méthode, on lit le diagramme le long de l’axe des ordonnées et pour chaque note, onregarde le nombre de copies qui ont eu cette note. C’est cette approche qui est à la base de l’intégrale deLebesgue.

Apparemment, il y a peu de différences entre les deux méthodes. En fait, l’intégration « à la Lebesgue »nécessite moins d’informations sur les notes que l’intégration « à la Riemann » : dans la première méthode,on doit connaître la note de chaque copie, dans la deuxième, on se contente de savoir juste le nombre de copiesqui ont une note donnée sans se préoccuper de savoir lesquelles car cela ne compte pas dans le calcul de lamoyenne. Il se trouve qu’en probabilités, c’est exactement ce qui se passe : on ne connaît pas le résultat d’uneexpérience a priori, on connaît juste la probabilité qu’un événement donné a de se produire. Par exemple,avant de lancer un dé, on sait juste que la probabilité d’avoir un 5 (ou n’importe quel autre chiffre) estd’un-sixième. En utilisant la deuxième approche, la « moyenne » d’un lancer de dé est donc

6∑

j=1

j16

=16

6.72

= 3,5.

On verra dans le chapitre 8 que cette moyenne signifie que si l’on lance le même dé, un grand nombre defois, la moyenne des lancers sera approximativement 3,5. On traduit ceci en disant que « l’espérance » d’unlancer de dé est 3,5.L. Decreusefond

Contexte public sans modificationsVoir page 83 37/83

Page 39: 1 Master

Cours de probabilités

Définition 4.1. Soit (Ω, A, P) un espace probabilisé et X une variable aléatoire à valeurs dans Rk. Onappelle espérance de X , notée E [X ] la quantité

E [X ] =∫

Ω

X(ω) dP(ω).

Remarque 5. Retrouvons l’espérance d’un lancer de dé avec cette définition. Ici, Ω = 1, · · · , 6 et P(ω) =1/6. La v.a. X qui représente le résultat du lancer d’un dé est définie par X(ω) = ω. Par conséquent,

E [X ] =6∑

ω=1

ωP(ω) =6∑

ω=1

ω16

= 3,5.

Théorème 4.2 (Théorème de transfert). Soit (Ω, A, P) un espace probabilisé et X une variable aléatoire àvaleurs dans Rk de loi PX . Pour toute fonction f : Rk → R+,

E [f(X)] =∫

Rk

f(x) dPX(x). (4.1)

On note L1(PX) l’ensemble des fonctions (mesurables) f : Rk → R telles que

E [|f(X)|] < +∞.

Pour toute fonction f ∈ L1(PX),

E [f(X)] =∫

Rk

f(x) dPX(x).

Preuve (Hors programme). Par définition de la loi d’une v.a.

P(X ∈ A) = PX(A).

En termes d’intégrales, cela signifie∫

Ω

1A(

X(ω))

dP(ω) =∫

Rk

1A(x) dPX(x).

Ce qui signifie que la relation (4.1) est vraie pour f = 1A. Par linéarité, cette relation est donc satisfaite pourles fonctions étagées. Par convergence monotone, elle est satisfaite pour les fonctions mesurables positives.En prenant les parties positives et négatives de f X , elle l’est aussi dès que f appartient à L1(PX).

Remarque 6. On réalise que pour calculer l’espérance de f(X) on ne travaille que sur l’espace des valeurs dela variable aléatoire X : on n’a pas besoin de réellement préciser l’espace de départ, d’où le flou systématiquequi entoure cet objet.

Remarque 7. On remarque que deux v.a. qui ont la même loi, ont mêmes espérances. Réciproquement,d’après le théorème de Riesz 10.17, si E [f(X)] = E [f(Y )] pour toute fonction f continue bornée alors X etY ont la même loi.

Remarque 8. Connaissant PX , on peut donc calculer l’espérance de f(X). Pour les cas particuliers, voir lesthéorèmes 3.7 et 3.12. On peut aussi quelquefois, calculer l’espérance de X sans connaître sa loi, voir exercice45.

4.2 Variance et autres moments

Si l’espérance indique la valeur « moyenne » d’une variable aléatoire, on peut s’intéresser à mesurer lesécarts moyens de ces valeurs par rapport à la moyenne. On introduit ce que l’on appelle la variance :

var(X) = E[

|X −E [X ] |2]

= E[

X2]

−E [X ]2 .

Remarque 9. Si var(X) = 0 alors X est p.s. constante, autrement dit, X est déterministe.

Plus généralement, le moment d’ordre p d’une v.a.r. X est défini par E [|X |p].L. Decreusefond

Contexte public sans modificationsVoir page 83 38/83

Page 40: 1 Master

Cours de probabilités

4.3 Inégalités

Théorème 4.3 (Inégalité de Cauchy-Schwarz). Soient X et Y deux v.a. de carré intégrable,

|E [XY ]| ≤(

E[

X2]

)1/2(

E[

Y 2]

)1/2

Corollaire 4.3.1. Si X est de carré intégrable alors X est intégrable.

L’inégalité de Cauchy-Schwarz peut se démontrer en recopiant la démonstration qui existe pour l’intégralede Riemann mais elle peut aussi se voir comme un cas particulier des inégalités de Hölder.

Théorème 4.4 (Inégalités de Hölder). Soit X et Y deux v.a. réelles. Soit p ≥ 1 et q tel que 1/p+ 1/q = 1.

|E [XY ]| ≤(

E [|X |p])1/p(

E [|Y |q])1/q

Théorème 4.5 (Inégalité de Jensen). Soit X une v.a. réelle et φ une fonction convexe définie sur R alors

φ(E [X ]) ≤ E [φ(X)] .

En particulier, pour φ(x) = |x|, on obtient

|E [X ] | ≤ E [|X |] .

Théorème 4.6 (Inégalité de Bienaymé-Tcebycev). Soit X une v.a.r. de variance finie, pour tout réel η > 0,

P(|X −E [X ] | ≥ η) ≤ 1η2

var[X ].

Ce théorème est un cas particulier de l’identité suivante.

Théorème 4.7 (Inégalité de Markov). Soit p ≥ 1 et X une v.a.r. de moment d’ordre p fini, pour tout réelη > 0,

P(|X | ≥ η) ≤ 1ηp

E [|X |p] .

Démonstration. En découpant l’intégrale, on obtient

E [|X |p] = E[

|X |p1|X|≥η]

+ E[

|X |p1|X|<η]

≥ ηpP(|X | ≥ η) + 0.

Le résultat s’obtient en divisant les deux membres de l’inégalité par ηp.

4.4 Exercices

⊲ Exercice 39. Soit X la v.a. dont la loi est donnée par

P(X = n) =6π2

1n2, pour n ≥ 1.

Montrer que P(X < +∞) = 1 mais que X n’a pas d’espérance.

⊲ Exercice 40. On veut calculer les moments d’une v.a. de uj]loi hypergéométriqueloi hypergéométrique. Onse donne donc une urne contenant r boules rouges et b boules blanches de sorte que N = r + b. Muni d’uneépuisette à boules, on tire m boules parmi les N présentes. On range ces boules dans des cases numérotéesde 1 à m. On note X le nombre de boules rouges ressorties et

Xi =

1 si la case icontientuneboulerouge,0 sinon.

On a donc X =∑mi=1 Xi.

L. Decreusefond

Contexte public sans modificationsVoir page 83 39/83

Page 41: 1 Master

Cours de probabilités

1. Pourquoi les vecteurs aléatoires (X1, · · · , Xm) et (Xσ(1), · · · , Xσ(n)) ont-ils la même loi ?

2. Calculer P(Xi = 1) et P(XiXj = 1) pour i , j.

3. En déduire E [X ] et var(X).

⊲ Exercice 41. Calculer la moyenne et la variance des loi usuelles : binomiale, géométrique, Poisson, expo-nentielle, normale, Cauchy, gamma.

⊲ Exercice 42. On dit qu’une suite de variables aléatoires (Xn, n ∈ N) converge en probabilité vers la variablealéatoire X si et seulement si pour tout ǫ > 0,

limn→+∞

P(|Xn −X | ≥ ǫ) = 0.

1. Soit X une v.a. discrète à valeurs positives. Montrer l’inégalité dite de Markov : pour tout p ≥ 1, pourtout η > 0,

P(X ≥ η) ≤ 1ηp

E [Xp] .

2. Soit (Xn, n ∈ N) une suite de v.a. de moyenne µn et de variance σ2n. Soit (bn, n ∈ N) une suite de

réels positifs tels que σ2n/b

2n tende vers 0. Montrer que

Xn − µnbn

tend vers 0 en probabilité.

⊲ Exercice 43 (Borne de Chernoff). Soit X une v.a. de loi de Poisson de paramètre λ.

1. Montrer que(

X ≥ η)

=(

exp(θX) ≥ exp(θη))

.

2. Montrer que, pour tout θ ≥ 0,

P(X ≥ Kλ) ≤ e−KθλE [exp(θX)] . (4.2)

3. Calculer E [exp(θX)].

4. Trouver θ qui minimise le terme de droite de (4.2).

5. Trouver K tel que P(X ≥ Kλ) ≤ 0, 001.

⊲ Exercice 44 (Diffusion de gaz). Un modèle simple de diffusion de deux gaz dû à Ehrenfest est le suivant. Onconsidère deux urnes A et B qui contiennent respectivement n boules blanches et n boules noires. À chaqueétape, on choisit une boule dans chacune des urnes et on permute la position de ces deux boules : celle quiétait en A passe en B et réciproquement. On note Xk le nombre de boules blanches dans A après le k-ıèmemélange.

1. Pour k ≥ 1, calculer la loi de Xk sachant Xk−1.

2. Calculer E [Xk].

3. Quelle est la limite de E [Xk] quand k tend vers l’infini ?

⊲ Exercice 45. Dans le tri rapide (quicksort), on note Mn le nombre de comparaisons nécessaires pour ordonnerun tableau de n nombres. Montrer que E [Mn] vérifie la relation

E [Mn] = n− 1 +2n

n−1∑

k=1

E [Mk] .

En déduire que

E [Mn] = 2(n+ 1)n−1∑

i=1

i

(i+ 1)(i+ 2)

et trouver un équivalent asymptotique de Mn quand n tend vers +∞.L. Decreusefond

Contexte public sans modificationsVoir page 83 40/83

Page 42: 1 Master

Cours de probabilités

⊲ Exercice 46. On veut collectionner N images dont une et une seule apparaît dans chaque tablette de chocolatachetée. Les images sont mises au hasard dans les tablettes. On appelle Ti le nombre de tablettes nécessairesavant d’avoir i images distinctes. On pose T0 = 0.

1. Montrer que Ti+1 − Ti suit une loi géométrique de paramètre 1− i/N.2. Montrer que les variables aléatoires T0, T1−T0, . . . , TN −TN−1 sont indépendantes dans leur ensemble.

3. Calculer l’espérance et la variance de TN . Trouver un équivalent de l’espérance et montrer que lavariance est un O(N) quand N tend vers +∞.

4. En utilisant l’exercice 42, montrer que TN/(N logN) tend vers 1 en probabilité.

⊲ Exercice 47. Soit N un processus de Poisson (cf. exercice 34) d’intensité λ, on note Tn le n-ième instant desaut. Par convention, T0 = 0. Soit (Zn, n ≥ 1), une suite de variables aléatoires de même loi telles que pourtout n, Tn et Zn sont indépendantes. Soit g la densité de la loi commune aux Zn.

1. Montrer que pour toute fonction f,

E[f(Tn, Zn)] =∫ +∞

0

f(t, z)g(z)λe−λt(λt)n−1

(n− 1)!dz dt.

2. En déduire que

E[∑

n≥1

f(Tn, Zn)] = λ

∫ +∞

0

f(t, z)g(z) dz dt.

3. On suppose que les communications téléphoniques d’un abonné durent un temps aléatoire de loi expo-nentielle de moyenne 3 minutes. Ces durées sont indépendantes entre elles. Au siècle dernier, le coûtd’une communication était fonction de sa durée t selon la formule suivante :

c(t) = α si t ≤ t0, et c(t) = α+ β(t− t0) si t ≥ t0.

Déduire de ce qui précède que le coût moyen d’une heure totale de communication est donné par :

λ

∫ 1

0

c(t)λe−λt dt

avec λ = 20. (Indication : Considérer Zn = Tn+1 − Tn et expliquer pourquoi on peut appliquer lerésultat précédent.)

⊲ Exercice 48. Soit N un processus de Poisson sur R+. Soit f : R+ → R+. Considérons∫

f(s) dNs =∑

n≥1

f(Tn).

1. Montrer que Nt −Ns a même loi que Nt−s pour tout couple (t, s) avec t ≥ s.2. Montrer que

E[

exp(−∫

1]a,b](s) dNs)]

= exp(

−∫

1− e−1]a, b](s)λ ds)

.

3. En déduire E[

exp(−∫

f(s) dNs)]

pour toute fonction f positive.

4. Pour B ⊂ R+, calculer de deux manières différentes

d

dtE[

exp(−∫

(f + t1B)(s) dNs)]

t=0

.

L. Decreusefond

Contexte public sans modificationsVoir page 83 41/83

Page 43: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 42/83

Page 44: 1 Master

Chapitre 5

Indépendance et conditionnement

5.1 Indépendance

On travaille ici sur un espace probabilisé (Ω, A, P). Au départ, la notion d’indépendance s’applique àdeux événements. Rappelons la définition déjà vue dans le chapitre 2.

Définition 5.1. Deux événements A et B sont indépendants lorsque

P(A ∩ B) = P(A)P(B). (5.1)

Les événements (Aj , j ∈ N∗) sont dits indépendants dans leur ensemble lorsque pour toute sous-famille finieAj1 , · · · , Ajl ,

P(l∩k=1

Ajk) =l∏

k=1

P(Ajk ).

Pour des variables aléatoires X et Y , dire qu’elles sont indépendantes revient à exiger que les événementsde la forme (X ∈ A) sont indépendants des événements de la forme (Y ∈ B). Formellement, cela donne :

Définition 5.2. Soit X : Ω → (E, E) et Y : Ω → (F, F) deux variables aléatoires. Les v.a. X et Y sontindépendantes lorsque les événements (X ∈ A) et (Y ∈ B) sont indépendants au sens de la définition 5.1pour tout A ∈ E et tout B ∈ F .

Théorème 5.3. Soit X et Y deux v.a. à valeurs discrètes. Les v.a. X et Y sont indépendantes si et seulementsi

P(X = i, Y = j) = P(X = i)P(Y = j) (5.2)

pour tout (i, j) ∈ E × F .

Démonstration. Si X et Y sont indépendantes alors il suffit de considérer A = i et B = j, l’équation(5.2) découle de la définition.

Réciproquement, si l’équation (5.2) est vérifiée,

P(X ∈ A, Y ∈ B) = P(

∪i∈A

(X = i) ∩ ∪j∈B

(Y = j))

= P(

∪i∈A, j∈B

(X = i, Y = j))

=∑

i∈A, j∈B

P(X = i, Y = j)

=∑

i∈A, j∈B

P(X = i)P(Y = j)

=∑

i∈A

P(X = i)∑

j∈B

P(Y = j)

= P(X ∈ A)P(Y ∈ B),L. Decreusefond

Contexte public sans modificationsVoir page 83 43/83

Page 45: 1 Master

Cours de probabilités

pour tous les événements A et B.

Malheureusement, le théorème 5.3 n’est pas intéressant pour les variables aléatoires non discrètes. Lecritère général valable dans tous les cas est le suivant.

Théorème 5.4. Deux variables aléatoires X : Ω → (E, E) et Y : Ω → (F, F) sont indépendantes si etseulement pour toutes les fonctions mesurables bornées f : E → R et g : F → R,

E [f(X)g(Y )] = E [f(X)] E [g(Y ]). (5.3)

Si E = F = R, X et Y sont indépendantes si et seulement si

P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b),pour tout réel a et b.

Démonstration. La preuve du cas général repose sur la théorie de la mesure.En revanche, dans le cas où E et F sont dénombrables, on peut démontrer ce résultat comme suit. Pour

X et Y indépendantes, calculons E [f(X)g(Y )] .

E [f(X)g(Y )] =∑

i, j

f(i)g(j)P(X = i, Y = j)

=∑

i, j

f(i)g(j)P(X = i)P(Y = j)

=∑

i

f(i)P(X = i)∑

j

g(j)P(Y = j)

= E [f(X)] E [g(Y )] .

Réciproquement, si l’équation (5.3) est vérifiée, on obtient (5.2) en spécialisant (5.3) pour f = 1i etg = 1j.

Avec un langage de théorie de la mesure (voir la section 9.1.1 et la remarque 19), l’équation (5.3) s’écrit∫

X×Y

f(x)g(y) dP(X, Y )(x, y) =∫

X

f(x) dPX(x)∫

Y

g(y) dPY (y)

=∫

X×Y

f(x)g(y) dPX(x) dPY (y),

soitdP(X, Y )(x, y) = dPX(x) ⊗ dPY (y). (5.4)

Théorème 5.5. Deux v.a. X et Y sont indépendantes si et seulement si

dP(X, Y )(x, y) = dPX(x)⊗ dPY (y).

La conséquence pratique de cette formulation est que si les lois des v.a. X et Y ont des densités alors laloi du couple (X,Y ) a une densité qui est le produit des densités marginales. Réciproquement, si la densitéde la loi du couple (X, Y ) s’écrit comme le produit tensoriel de deux fonctions alors les deux v.a. sontindépendantes et leur loi sont les composantes du produit tensoriel :

f(X,Y )(x, y) = f1(x)f2(y) =⇒ dPX(x) = f1(x) dx et dPY (y) = f2(y) dy.

On admettra enfin le théorème suivant.

Théorème 5.6. Soit X : Ω → Rn et Y : Ω → Rm. Pour t = (t1, · · · , tn) ∈ Rn, on note t.X =∑ni=1 tiXi le produit scalaire des vecteurs t et X. L’espérance d’une v.a. complexe Z est définie comme le

nombre complexe dont la partie réelle, respectivement imaginaire, est l’espérance de la partie réelle de Z,respectivement l’espérance de la partie imaginaire de Z.

Les v.a. sont indépendantes si et seulement si

E[

ei(t.X+s.Y )]

= E[

eit.X]

E[

eis.Y]

(5.5)

pour tout t ∈ Rn et s ∈ Rm.

L. Decreusefond

Contexte public sans modificationsVoir page 83 44/83

Page 46: 1 Master

Cours de probabilités

5.2 Conditionnement

Quand deux événements ne sont pas indépendants, on a déjà introduit la notion de probabilité condition-nelle. En particulier, pour un événement B de probabilité non nulle, on peut considérer la probabilité PBdéfinie par

PB(A) = P(A |B).

Il n’est pas difficile de montrer que PB satisfait tous les axiomes qui font d’elle une mesure de probabilité -voir la définition 9.2.

Parallèlement, quand deux v.a. ne sont pas indépendantes, on peut considérer la notion de loi condition-nelle. Le cas le plus simple est quand la variable par rapport à laquelle on veut conditionner est à valeursdans un espace dénombrable.

Définition 5.7 (Cas où Y est à valeurs discrètes). Soit Y une v.a. à valeurs dans un espace au plusdénombrable E et E′ = i : P(Y = i) , 0 (en d’autres termes, E′ est le support de la mesure PY ).

Soit X une v.a., la loi de X conditionnellement à (Y = i), pour tout i ∈ E′, notée par PX |Y=i est lamesure image de PB par X . Cela signifie que

PX |Y=i(A) = P(X ∈ A |Y = i).

Théorème 5.8. Si X est aussi à valeurs discrètes et si pi, j = P(X = i, Y = j), on a

PX |Y=i(j) =pj, i

j pj, i.

Démonstration. Par définition de la loi conditionnelle, on a

PX |Y=i(j) = P(X = j |Y = i)

=pj, i

P(Y = i)

=pj, i

j pj, i,

d’où le résultat.

Définition 5.9. L’espérance conditionnelle de X sachant Y = i, que l’on note E [X |Y = i], est définie par

E [X |Y = i] =∫

x dPX |Y=i.

On note E [X |Y ] la variable aléatoire qui vaut E [X |Y = i] sur l’événement (Y = i).

Dans le cas où X est discrète, on obtient, pour toute fonction mesurable bornée,

E [f(X) |Y = i] =∑

j

f(j)pj, i

j pj, i. (5.6)

On remarque alors que

Théorème 5.10. Pour toute fonction mesurable bornée g

E [f(X)g(Y )] = E [E [f(X) |Y ] g(Y )] ,

en particulier pour g ≡ 1,E [f(X)] = E [E [f(X) |Y ]] .

Dans le cas où la variable de conditionnement n’est pas à valeurs dénombrables, la situation est pluscompliquée parce qu’il est fréquent que P(Y = i) soit nul. Nous ne rentrerons pas dans la théorie généralede ce cas, nous donnons juste la définition de la loi conditionnelle et de l’espérance conditionnelle.L. Decreusefond

Contexte public sans modificationsVoir page 83 45/83

Page 47: 1 Master

Cours de probabilités

Définition 5.11. Soit (X, Y ) un couple de v.a. dont la loi a pour densité f , c’est-à-dire dP(X, Y )(x, y) =f(x, y) dx dy, la loi conditionnelle de X sachant Y = y est la loi de densité

f(x, y)∫

f(x, y) dx, (5.7)

c’est-à-dire que

dPX |Y=y(x) =f(x, y)

f(x, y) dxdx.

L’espérance conditionnelle de h(X) sachant Y s’exprime alors par

E [h(X) |Y = y] =∫

h(x)f(x, y)

f(x, y) dxdx.

On pose

E [h(X) |Y ] =∫

h(x)f(x, Y )

f(x, Y ) dxdx

Le théorème 5.10 reste alors vrai sans changement d’énoncé.

5.3 Exercices

⊲ Exercice 49. Les règles du jeu du not-seven sont les suivantes : on part d’un score X0 = 0. À chaque coup,on lance deux dés non pipés, si la somme des faces égale 7, le score retourne à 0 et la partie est terminée.Sinon, le score augmente de la somme des faces et on a le droit de rejouer ou pas. Si l’on ne rejoue pas, lescore est acquis et la partie est terminée. Si l’on rejoue, on relance les deux dés avec la même règle.

1. Calculer la loi de la somme S des deux faces. Calculer son espérance.On considère une suite (Sn, n ∈ N) de variables aléatoires indépendantes de même loi que S.

2. Soit τ = infn ≥ 1, Sn = 7, trouver la loi de τ .

3. Calculer la moyenne de τ .

4. Quelle est la stratégie d’un Initié (celui qui sait le résultat du prochain lancer de dés) ?

5. Calculer son gain moyen.

6. On appelle Xn le score au n-ième coup en l’absence de stratégie d’arrêt. Montrer que

E [Xn+1 |Xn = i] =56i+

356.

7. En déduire que la stratégie optimale consiste à jouer tant que l’on n’a pas atteint 35 et à s’arrêterimmédiatement après avoir franchi ce seuil.

8. Calculer par simulation le gain moyen avec cette stratégie.

⊲ Exercice 50. En radio-mobiles, on est souvent amené à simuler des usagers répartis de façon uniforme dansune cellule hexagonale (voir la figure 5.1 pour les éléments caractéristiques d’une telle cellule). Comment faireen utilisant un minimum d’appels au générateur de nombres aléatoires ?

On rappelle pour simplifier les calculs que pour un hexagone de longueur de côté 1, l’aire est A = 3√

3/2.

⊲ Exercice 51. Soient (X1, X2, X3) des variables aléatoires indépendantes de même loi à valeurs dans N. Onnote pi = P(Xl = i), l = 1, 2, 3. On introduit Z de loi uniforme sur 1, 2.

1. Quelle est la loi de Y = (XZ , X3−Z) ?

2. Soit W le vecteur aléatoire défini par :

W = (X1, X3) si Z = 2 et W = (X3, X2) si Z = 1.

Quelle est la loi de W ?L. Decreusefond

Contexte public sans modificationsVoir page 83 46/83

Page 48: 1 Master

Cours de probabilités

1

−1

1−1

y = 1− x

1 +√

3

π/6

Figure 5.1 – Hexagone régulier.

⊲ Exercice 52. Soient 1 ≤ n ≤ N deux entiers. Soit M une v.a. de loi binomiale (N, θ) et X une v.a. dont laloi est donnée par

P(X = k |M = m) =

(

mk

) (

N−mn−k

)

(

Nn

) pour tout k ∈ 0, · · · , n.

1. Calculer la loi de M sachant X = k, dite loi a posteriori de M.

2. Pour k = 0, identifier cette loi.

L. Decreusefond

Contexte public sans modificationsVoir page 83 47/83

Page 49: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 48/83

Page 50: 1 Master

Chapitre 6

Transformées intégrales

6.1 Fonctions génératrices

Définition 6.1. Soit X une v.a. à valeurs dans N, sa fonction génératrice ΦX est définie par :

ΦX(s) = E[

sX]

, pour s ∈ [−1, 1].

Comme

ΦX(s) =+∞∑

n=0

P(X = n)sn

et que∑

nP(X = n) = 1, on voit que ΦX est développable en série entière de rayon de convergence supérieurou égal à 1. La théorie des séries entières permetw de montrer les propriétés suivantes :

– ΦX(1) = 1,– pour tout entier n,

P(X = n) =Φ(n)X (0)n!

,

– si ΦX ≡ ΦY alors X et Y ont même loi.– Soit k ∈ N∗, si E

[

Xk]

< +∞ alors ΦX est k-fois dérivable à gauche en 1 et

Φ(k)X (1) = E [X(X − 1) . . . (X − k + 1)] .

Théorème 6.2. Si X et Y sont deux v.a. discrètes indépendantes, alors

ΦX+Y (t) = ΦX(t)ΦY (t).

Démonstration. Découle immédiatement de la caractérisation de l’indépendance du théorème 5.4.

6.2 Fonctions caractéristiques

La fonction caractéristique a des propriétés similaires à celles des fonctions génératrices mais elle existepour toutes les variables aléatoires, même vectorielles.

Définition 6.3. Soit X une v.a.r., on note ϕX sa fonction caractéristique définie par

ϕX(t) = E[

eitX]

, pour tout t ∈ R.

Pour X = (X1, · · · , Xn) vecteur aléatoire, sa fonction caractéristique est définie par

ϕX(t1, · · · , tn) = E[

ei∑

n

j=1tjXj

]

= E[

eit.X]

, pour tout t1, · · · , tn ∈ R,

où t.X est le produit scalaire dans Rn de t et X .L. Decreusefond

Contexte public sans modificationsVoir page 83 49/83

Page 51: 1 Master

Cours de probabilités

Remarque 10. La fonction caractéristique peut s’écrire

ϕX(t) =∫

eitx dPX(x),

ce n’est donc rien d’autre que la transformée de Fourier de la mesure PX . À ce titre, elle jouit des mêmespropriétés formelles que la transformée de Fourier des fonctions.

Théorème 6.4. Soit X une v.a.r. et ϕX sa fonction caractéristique. Les propriétés suivantes sont vérifiées :

1. ϕX(0) = 1.

2. la fonction ϕX est continue sur R.

3. Si ϕX ≡ ϕY alors X et Y ont même loi.

4. Si, pour un entier k ≥ 1, E[

|X |k]

<∞ alors ϕX est k-fois continûment différentiable et

d

dtϕX(t) = ikE

[

XkeitX]

,

en particulier,E[

Xk]

= i−kϕ(k)(0).

Démonstration. Le premier point est immédiat. Les propriétés 2 et 4 découlent respectivement des théorèmes10.15 et 10.16. Le point 2 qui traduit l’injectivité de la transformée de Fourier dans les mesures est admis. Ilrepose sur la formule d’inversion de Fourier.

Théorème 6.5. Soient X et Y deux vecteurs aléatoires indépendants à valeurs dans Rn et Rm respective-ment,

E[

ei(t.X+s.Y )]

= ϕX(t)ϕY (s), pour tout t ∈ Rn, s ∈ Rm.

Démonstration. Découle immédiatement de la caractérisation de l’indépendance du théorème 5.4.

Remarque 11. On a admis dans le théorème 5.6 que la réciproque était vraie.

Théorème 6.6. Soit X une v.a.r. de loi gaussienne de paramètre m et σ2,

E[

eitX]

= exp(

itm− σ2t2

2

)

. (6.1)

Démonstration. Par définition et par le changement de variable u = (x−m)σ,

E[

eitX]

=1√2π

R

eitxe−(x−m)2

2σ2 dx

= eitm1√2π

R

ei(σt)ue−u2

2 du.

Posons

ϕ(t) =1√2π

R

eitue−u2

2 du,

on a alorsE[

eitX]

= eitmϕ(σt). (6.2)

Le théorème de dérivation sous le signe somme (cf. théorème 10.16) permet d’écrire

ϕ′(t) =i√2π

R

eituue−u2

2 du.

En intégrant par parties, on obtient

ϕ′(t) = −tϕ(t) d’où ϕ(t) = e−t2

2 .

En reportant cette expression dans (6.2), on obtient (6.1).

L. Decreusefond

Contexte public sans modificationsVoir page 83 50/83

Page 52: 1 Master

Cours de probabilités

6.3 Exercices

⊲ Exercice 53. Soit (Xn, n ≥ 1) une suite de v.a. indépendantes, de loi exponentielle de paramètre λ. SoitTn = X1 + . . .+Xn.

1. Calculer la loi de (T1, T2, · · · , Tn).2. En déduire la loi de Tn.

3. Calculer directement la fonction caractéristique de Tn.

⊲ Exercice 54. Dans ce qui suit, X et Y sont deux variables indépendantes, on demande de calculer la loi deleur somme.

1. X ∼ B(n, p) et Y ∼ B(m, p).

2. X ∼ Geom(p) et Y ∼ Geom(p′).

3. X ∼ Po(λ) et Y ∼ Po(µ).

4. X ∼ N (m, σ2) et Y ∼ N (r, ν2).

5. X ∼ E(λ) et Y ∼ E(µ).

⊲ Exercice 55 (Processus de branchement). Soit X0 une v.a. à valeurs entières. Soit (Xn, j , n ≥ 1, 1 ≤ j ≤ n)une famille dénombrable de variables aléatoires indépendantes, de loi PX0 . On note G la fonction génératricede PX0 . On considère un individu « racine » qui a un nombre X0 de descendants Chacun de ses descendantsa un nombre aléatoire de descendant, ce nombre est indépendant de celui des autres descendants et de loiPX0 . On pose Zn le nombre total d’individus au rang n.

1. Calculer la fonction génératrice de Zn en fonction de celle de Zn−1.

2. Soit un = P(Zn = 0). Montrer que un = G(un−1).

3. Trouver des conditions nécessaires et suffisantes sur PX0 qui garantissent que G est strictement convexe.

4. Montrer que u converge vers une limite non nulle si et seulement si E [X0] < 1.

Ce processus représente tout aussi bien l’évolution de la contamination par un virus ( X0 est le nombred’individus contaminés par le malade initial ), que la transmission d’un nom de famille ( X0 étant alors lenombre d’enfants portant le nom de leur père )et bien d’autres situations.

⊲ Exercice 56. Peut-on piper deux dés de sorte que la loi de leur somme soit la loi uniforme sur 2, · · · , 12 ?

⊲ Exercice 57 (Somme aléatoire). Soient X = (Xn, n ≥ 1) une suite de v.a. indépendantes de loi exponentiellede paramètre λ. Soit N une v.a. indépendante de la suite X de loi géométrique de paramètre ρ. Calculer laloi de Z où

Z =N∑

j=1

Xj .

L. Decreusefond

Contexte public sans modificationsVoir page 83 51/83

Page 53: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 52/83

Page 54: 1 Master

Chapitre 7

Vecteurs gaussiens

Les vecteurs gaussiens ont une importance toute particulière pour deux raisons : d’une part, le théorèmede la limité centrée montre que la loi de Gauss est le domaine d’attraction de nombreuses limites et d’autrepart, les calculs sur les lois normales se ramènent à de l’algèbre linéaire. Nous aurons en particulier besoinde considérer la transposée d’une matrice A, que nous noterons At . Le produit scalaire de deux vecteurs xet y de Rk est noté x.y. On rappelle que

x.y =∑

j = 1kxjyj = xt y.

En particulier, Ax. y = x.At y, pour une matrice réelle A quelconque.

7.1 Définition et premières propriétés

Rappelons d’abord la définition d’une v.a. gaussienne réelle.

Définition 7.1. X : Ω→ R est une v.a. gaussienne réelle de paramètres m et σ2 lorsque

dPX(x) =1

σ√

2πexp(

− (x−m)2

2σ2

)

dx.

La fonction caractéristique est donnée par :

E[

eitX]

= exp(

itm− σ2 t2

2

)

.

En dimension supérieure, la définition d’un vecteur gaussien ne repose pas sur la densité de sa loi maissur une caractérisation différente.

Définition 7.2. X : Ω → Rn est un vecteur gaussien lorsque t.X est une v.a. gaussienne réelle pour toutt = (t1, · · · , tn) ∈ Rn.

Remarque 12. En particulier, chacune des composantes est une v.a. gaussienne réelle. Réciproquement,si (X1, · · · , Xn) sont des v.a. gaussiennes réelles indépendantes alors X = (X1, · · · , Xn) est un vecteurgaussien.

Théorème 7.3. Soit X = (X1, · · · , Xn) un vecteur gaussien, on note

m = E [X ] = (E [X1] , · · · , E [Xn])

ΓX =(

cov(Xi, Xj), 1 ≤ i, j ≤ n)

où cov(X,Y ) est la covariance des v.a. X et Y :

cov(X,Y ) = E [XY ]−E [X ] E [Y ] = E [(X −E [X ])(Y −E [Y ])] .L. Decreusefond

Contexte public sans modificationsVoir page 83 53/83

Page 55: 1 Master

Cours de probabilités

La fonction caractéristique de X est donnée par :

E[

eis.X]

= exp(

it.m− 12st ΓXs

)

= exp(

i

n∑

j=1

tjXj −12

n∑

k=1

n∑

l=1

ΓX(k, l)sksl)

,

pour tout s = (s1, · · · , sn) ∈ Rn.

Démonstration. Par définition, d’un vecteur gaussien, s.X est une v.a. gaussienne réelle dont on sait que laloi est caractérisée par la moyenne et la variance. Par linéarité de l’espérance,

E [s.X ] = E

[

n∑

k=1

skXk

]

=n∑

k=1

skE [Xk] = s.m .

D’autre part,

var(s.X) = E

[

(

n∑

k=1

sk(Xk −mk))2]

= E

n∑

k=1

s2k(Xk −mk)2 + 2

1≤k<l≤n

sksl(Xk −mk)(Xl −ml)

=n∑

k=1

s2k var(Xk) + 2

1≤k<l≤n

sksl cov(Xk, Xl)

= ΓX s.s,

d’où le résultat.

Théorème 7.4. Soit X un vecteur gaussien de Rn, de vecteur moyen m et matrice de covariance ΓX , soitA une matrice à r lignes et n colonnes et B un vecteur colonne de r lignes. Le vecteur aléatoire

Y = AX +B

est un vecteur gaussien de vecteur moyen Am+B et de matrice de covariance AΓXAt .

Démonstration. Vérifions d’abord que Y est un vecteur gaussien de Rr. Soit s ∈ Rr,

s.Y = s.AX + s.B = At s.X + s.B

est une v.a. gaussienne réelle puisque X est un vecteur gaussien. Il reste à calculer moyenne et variance des.Y pour tout s ∈ Rr. Le calcul de la moyenne est immédiat. Pour la variance, remarquons d’abord que

var(s.Y ) = var(At s.X),

puisque la partie s.B est déterministe donc a une variance nulle. Les calculs du théorème précédent appliquésà At s montrent que

var(At s.X) = ΓXAt s.At s = AΓXAt s.s

7.2 Représentation canonique

Théorème 7.5 (Représentation canonique). Soit X un vecteur gaussien de Rn, de vecteur moyen m et dematrice de covariance ΓX . Il existe une matrice A symétrique, positive telle que AAt = ΓX . Si Y est unvecteur gaussien de Rn de vecteur moyen nul et de matrice de covariance l’identité alors en loi, on a l’égalitésuivante :

X = AY +m.L. Decreusefond

Contexte public sans modificationsVoir page 83 54/83

Page 56: 1 Master

Cours de probabilités

Démonstration. Comme

ΓX(k, l) = cov(Xk, Xl) = cov(Xl, Xk) = ΓX(l, k),

ΓX est une matrice symétrique. Comme

ΓXs.s =∑

k, l

ΓX(k, l)sksl

= var(s.X) ≥ 0,

la forme bilinéaire associée à ΓX est positive donc les valeurs propres de ΓX sont positives ou nulles. Il existeune matrice orthogonale O telle que

OΓXO−1 =

0. . .

0λ1

. . .

λr

où (λi, i = 1, · · · , r) sont les valeurs propres non nulles de ΓX . La matrice

A = O−1

0. . .

0 √λ1

. . . √λr

O

satisfait AAt = Γx. En vertu du théorème 7.4, AY +m est bien un vecteur gaussien de vecteur moyen m etde matrice de covariance ΓX donc a la loi de X .

Remarque 13. Le théorème précédent implique que si ΓX est non inversible, où r < n, X prend ses valeursdans un sous-espace affine strict (de dimension r strictement inférieure à n) de Rn donc sa loi ne peut avoirde densité par rapport à la mesure de Lebesgue. En revanche, si ΓX est inversible, le théorème précédentpermet le calcul de la densité de la loi de X .

Théorème 7.6. Soit X un vecteur gaussien de Rn, si sa matrice de covariance ΓX est inversible alors

dPX(x) =1

(2π)n det ΓXexp(

−12

Γ−1X (x −m).(x−m)

)

dx.

7.3 Gaussiennes et indépendance

Théorème 7.7. Soit X = (Y, Z) un vecteur gaussien de Rn avec Y ∈ RnY et Z ∈ RnZ (n = nY + nZ). Lesvecteurs gaussiens Y et Z sont indépendants si et seulement si ils sont non-corrélés :

cov(Yk, Zl) = 0, pour tout k ∈ 1, · · · , nY, l ∈ 1, · · · , nZ.Démonstration. Notons ΓYZ la matrice de covariance de Y et Z, de taille nY × nZ définie par :

ΓYZ(k, l) = cov(Yk, Zl).

Par définition, la matrice de covariance de X se décompose en matrices-blocs sous la forme

ΓX =

ΓY

... ΓYZ

. . . . . . . . .

ΓYZ

... ΓZ

.

L. Decreusefond

Contexte public sans modificationsVoir page 83 55/83

Page 57: 1 Master

Cours de probabilités

En décomposant chaque vecteur s ∈ Rn sous la forme s = (sY, sZ) avec sY ∈ RnY et sZ ∈ RnZ , on a d’unepart

s.m =n∑

k=1

skmk =nY∑

k=1

skmk +n∑

k=nY+1

skmk = sY.mY + sZ.mZ,

et d’autre part

ΓXs. s = (ΓYsY + ΓYZsZ).sY + (ΓYZsZ + ΓZsZ).sZ

= ΓYsY.sY + ΓZsZ.sZ + 2ΓYZsZ.sY.

Par conséquent,

E[

eis.X]

= E[

ei(sY.Y+sZ.Z)]

= exp(

isY.mY + isZ.mZ

)

. exp(

−12

(ΓYsY.sY + ΓZsZ.sZ + 2ΓYZsZ.sY))

= E[

eisY.Y]

E[

eisZ.Z]

exp(

−ΓYZ sZ.sY

)

.

D’après la caractérisation (5.5) de l’indépendance, on en déduit que Y et Z sont indépendantes si et seulementsi

ΓYZ sZ.sY = 0 pour tout sY, sZ. (7.1)

Soit (ek, k = 1, · · · , nY), respectivement (fl, l = 1, · · · , nZ), la base canonique de RnY , respectivement deRnZ . Comme ΓYZ ek.fl = ΓYZ(k, l), il s’ensuit que (7.1) est équivalent à ΓYZ = 0.

Remarque 14. En conséquence, les composantes d’un vecteur gaussien sont indépendantes si et seulementsi la matrice de covariance est diagonale.

7.4 Exercices

⊲ Exercice 58. Soit X et Y deux gaussiennes centrées réduites indépendantes. Montrer que les v.a. X + Y etsin(X − Y ) sont indépendantes.

⊲ Exercice 59. Soit deux v.a. indépendantes X ∼ N (0, 1) et Y de loi dPY = 12 (δ−1 + δ1).

1. Montrer que Z = Y X est une v.a. gaussienne.

2. Montrer que X et Z sont non corrélées.

3. Si (X, Z) était un vecteur gaussien, quelle serait sa loi ?

4. Calculer la loi de (X, Z).

5. Est-ce que (X, Z) est un vecteur gaussien ?

6. Est-ce que X et Z sont indépendantes ?

⊲ Exercice 60. On rappelle que pour a > 0, b > 0,

B(a, b) =∫ 1

0

ua−1(1 − u)b−1 du =Γ(a)Γ(b)Γ(a+ b)

.

On suppose que X1, . . . , Xn sont des v.a.r., gaussiennes, indépendantes, de même loi N (m, σ2). On pose

X =1n

n∑

i=1

Xi, Σ2 =1n

n∑

i=1

(Xi −m)2

et

S2 =1n

n∑

i=1

(Xi − X)2 .

L. Decreusefond

Contexte public sans modificationsVoir page 83 56/83

Page 58: 1 Master

Cours de probabilités

1. Soit In(z) la suite de fonctions définies par

I0(z) =1√z, In(z) =

∫ z

0

1√z − w In−1(w) dw pour n ≥ 1.

Montrer que

In(z) =Γ(

12

)n+1

Γ(

n+ 12

) zn/2−1.

2. Soit Y1, . . . , Yn des v.a.r., indépendantes, de même loi gaussienne N (0, 1). Calculer la loi de

Z =n∑

i=1

Y 2i .

3. Calculer la loi de X.

4. Calculer la loi de (n/σ2)Σ2.

5. Montrer que X est indépendante du vecteur Z = (X1 − X, . . . , Xn − X) et que X est indépendante deS2.

6. Maintenant on veut calculer la loi de (n/σ2)S2. Pour cela, supposer d’abord que m = 0 et trouver unematrice orthogonale A telle que Y = AX et que

nS2 =n∑

1

Y 2i − Y 2

1 .

Ensuite traiter le cas où m , 0.

⊲ Exercice 61. Soit Γ une matrice carrée réelles à n lignes. Montrer qu’il existe un vecteur gaussien de matricede covariance Γ si et seulement si Γs.s ≥ 0 pour tout s ∈ Rn. On pourra s’aider de l’exercice 33.

⊲ Exercice 62. Dans la représentation canonique des vecteurs gaussiens, montrer que l’on peut remplacer lamatrice A par une matrice de la forme AO où O est orthogonale sans changer la loi de AY .

⊲ Exercice 63 (Sphere hardening). Soit XN un vecteur gaussien de RN , centré, réduit. Soit ‖XN‖, la normeeuclidienne de XN et X ′N = ‖XN‖/

√N .

1. Calculer E[

(X ′N )2]

.

2. Calculer var[(X ′N )2].

3. Montrer que, pour tout η > 0,P(|X ′N − 1| ≥ η) N→+∞−−−−−→ 0.

On pourra utiliser l’inégalité de Bienaymé-Tcebycev, Théorème 4.6.

⊲ Exercice 64 (Polynômes d’Hermite). Soit X une v.a.r. gaussienne centrée, reduite et ϕ(t, x) = exp(tx).

1. Trouver g(t) telle que g(t)E [ϕ(t,X)] = 1.

2. On poseψ(t, x) = g(t)ϕ(t, x).

Montrer queE [ψ(t,X)ψ(s,X)] = exp(σ2ts).

3. Montrer que

ψ(t, x) =∞∑

n=0

[n/2]∑

k=0

xn−2k

(n− 2k)!(−σ2)k

2kk!

tn.

L. Decreusefond

Contexte public sans modificationsVoir page 83 57/83

Page 59: 1 Master

Cours de probabilités

4. On pose

Pn(x) =[n/2]∑

k=0

xn−2k

(n− 2k)!(−σ2)k

2kk!.

Montrer queE [Pn(X)Pm(X)] = δn,m.

L. Decreusefond

Contexte public sans modificationsVoir page 83 58/83

Page 60: 1 Master

Chapitre 8

Convergences

On fixe dans ce qui suit un espace probabilisé (Ω, A, P).

8.1 Loi des grands nombres

Définition 8.1. On dit qu’une suite (Xn, n ≥ 1) de v.a. converge P-presque-sûrement (ou P-presque-partout) vers une v.a. X lorsqu’il existe un ensemble A tel que P(Ac) = 0 et pour tout ω ∈ A,

Xn(ω) n→+∞−−−−−→ X(ω).

En d’autres termes, il s’agit de la convergence simple à un ensemble de mesure nulle près.

Théorème 8.2 (Loi forte des grands nombres). Soit (Xn, n ≥ 1) une suite de v.a. indépendantes, identi-quement distribuées telles que E [|X1|] <∞ alors

1n

n∑

j=1

Xjn→+∞−−−−−→ E [X1] , P− p.p.

8.2 Limité centrée

Définition 8.3. Pour un ensemble ouvert A ∈ Rk, on note ∂A sa frontière définie par

∂A = A−A.

Pour un intervalle ]a, b[, on a alors ∂A = a, b. Pour un pavé ouvert de Rk, la frontière au senstopologique correspond à la notion intuitive de bord.

Remarque 15. Si Y a même loi que X et si (Xn, n ≥ 1) converge en loi vers X alors (Xn, n ≥ 1) convergeaussi vers Y . La convergence en loi, malgré sa présentation, n’est pas une convergence de variables aléatoiresmais une convergence des mesures associées aux v.a..

Théorème 8.4. La convergence presque sûre implique la convergence en loi mais la réciproque est fausse.

Démonstration. Si (Xn, n ≥ 1) converge p.s. vers X alors pour toute fonction continue bornée,

– f(Xn)n→+∞−−−−−→ f(X), presque-sûrement,

– pour tout n ≥ 1, |f(Xn)| ≤ ‖f‖∞– et E [‖f‖∞] <∞,

donc toutes les hypothèses du théorème de convergence dominée sont satisfaites, d’où

E [f(Xn)]n→+∞−−−−−→ E [f(X)] .

L. Decreusefond

Contexte public sans modificationsVoir page 83 59/83

Page 61: 1 Master

Cours de probabilités

D’après la première caractérisation de la convergence en loi, cela signifie que (Xn, n ≥ 1) converge en loi versX .

Construisons un contre-exemple à la réciproque. Soit X une v.a. gaussienne de moyenne nulle. Commela densité gaussienne est paire, −X suit la même loi que X . Considérons pour tout n ≥ 1, la suite Xn = X .Il est clair que Xn converge en loi vers X donc vers −X . En revanche, Xn ne converge vers −X que surl’ensemble (X = −X), c’est-à-dire l’ensemble (X = 0), qui est de probabilité nulle puisque la loi gaussienneest absolument continue.

Définition 8.5. On dit qu’une suite (Xn, n ≥ 1) de v.a., à valeurs dans Rk, converge en loi vers X lorsquel’une des propriétés équivalentes suivantes est vérifiée :

– Pour toute fonction continue bornée f de Rk dans R,

E [f(Xn)]n→+∞−−−−−→ E [f(X)] ,

– pour tout ensemble ouvert A ∈ Rk tel que P(X ∈ ∂A) = 0,

P(Xn ∈ A) n→+∞−−−−−→ P(X ∈ A),

– pour tout t ∈ Rk,

E[

eit.Xn] n→+∞−−−−−→ E

[

eit.X]

.

Théorème 8.6. Soit (Xn, n ≥ 1) une suite de v.a. indépendantes, identiquement distribuées telles queE[

|X1|2]

<∞ alors√n

σ(

1n

n∑

j=1

Xj −E [X1]) n→+∞−−−−−→ N (0, 1), en loi

σ2 = var(X1).

8.3 Exercices

⊲ Exercice 65. 1. Pour z réel positif, on pose

Γ(z) =∫ ∞

0

e−xxz−1 dx.

Soient 0 < zm < zM , montrer que pour k entier strictement positif, z ∈]zm, zM [, il existe une constanteck (que l’on ne cherchera pas à expliciter) telle que

| lnk(x)xz−1e−x| ≤ cke−x pour x ≥ 1

≤ ck ln(x)kxzm−1 pour x ≤ 1.

2. On admet que lnk(x)xzm−1 est intégrable sur [0, 1]. Montrer que Γ est k fois dérivable sur R+.

3. Pour a, b des réels strictement positifs et k réel positif, montrer que

b−a

Γ(a)

∫ +∞

0

xk ln(x)xa−1e−bx dx = bk(Γ′(a)

Γ(a)− ln(b)

)

.

4. Soit X la variable aléatoire dont la densité est donnée par

fβ,λ,µ(x) = Kxβe−λxµ

1R+(x).

On ne demande pas de calculer K. Calculer la loi de Y = Xµ.L. Decreusefond

Contexte public sans modificationsVoir page 83 60/83

Page 62: 1 Master

Cours de probabilités

5. Soit (X1, · · · , Xn) n v.a.r. indépendantes et de même loi que X. Quelle est la limite presque sûre, notéeS, du couple

Sn =( 1n

n∑

j=1

ln(Xj),1n

n∑

j=1

Xj

)

.

6. Quelle est la limite de1√n

(

Sn − S)

.

L. Decreusefond

Contexte public sans modificationsVoir page 83 61/83

Page 63: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 62/83

Page 64: 1 Master

Chapitre 9

Construction de variables aléatoires

Les premières formalisations des probabilité datent du xviiie siècle avec les travaux de Jacob Bernoulli(1713) et de Abraham de Moivre (1718). La probabilité d’un événement y était définie comme le rapportdu nombre de cas favorables sur le nombre total de cas. De là, découlait aisément le principe d’additivité(autrement dit, l’équation (2.1) mais pour un nombre fini d’événements) et la formule des « probabilitéscomposées », que l’on écrit maintenant

P(A ∩ B) = P(A |B)P(B).

Au début du xixe siècle, les « probabilités géométriques » firent leur apparition. Dans ce cadre, la probabilitéd’un événement s’exprime comme un rapport de volumes ou d’aires. Ces approches permettaient de faire bonnombre de calculs mais butaient sur certains paradoxes (voir chapitre 2).

Les probabilités sont au départ, une tentative de représentation mathématique de l’incertain. Elles doiventêtre tout à la fois suffisamment formalisées pour permettre des calculs justes et rigoureux et garder uneconnexion forte et immédiate avec les phénomènes « physiques » analysés. Cette tension a longtemps posédes problèmes. Notamment, à la fin de xixe siècle, se posait le problème des événements « presque certains »ou « presque impossible » : y-a-t’il un seuil en dessous un événement de probabilité inférieure à ce seuil nepeut se réaliser ?

Au début du xxe siècle, David Hilbert assigna aux mathématiciens, 23 problèmes, ou plutôt 23 défis, pourles années à venir. Parmi ceux-ci figurait l’axiomatisation de la « physique » par laquelle il fallait entendrel’axiomatisation des probabilités.

Le formalisme correct ne se fit jour qu’en 1930 dans les travaux d’Andreï Kolmogorov, qui réussit lasynthèse des réflexions de Émile Borel, Jacques Hadamard, Maurice Fréchet et Paul Lévy entre autres.

Le concept de mesure permet d’avoir une vision unifiée des probabilités discrètes et des probabilités

Figure 9.1 – É. Borel (1871-1956), M. Fréchet (1878-1973), J. Hadamard (1865-1963), P. Lévy (1886-1971).(DR)L. Decreusefond

Contexte public sans modificationsVoir page 83 63/83

Page 65: 1 Master

Cours de probabilités

dites « continues ». Le vocabulaire de l’intégration permet de simplifier la présentation des différentes no-tions probabilistes. Par ailleurs, ainsi que l’illustre le deuxième paradoxe de Bertrand, la modélisation decertains phénomènes même simples impose de comprendre finement les liens entre théorie et interprétationphysique. Enfin, la simulation, outil indispensable tellement est grande la complexité des systèmes, requiertde « construire » des variables et des processus aléatoires. Tout cela ne peut se faire sans une solide compré-hension de la théorie sous-jacente.

L’objectif, ici, n’est pas de donner un cours « classique » de théorie de la mesure[2, 3] mais plutôt d’énoncerles grands principes et de comprendre leur utilisation.

9.1 Tribu, mesures, etc.

Comme le montre l’exercice 70, on ne peut pas construire de mesure sur toutes les parties de n’importequel espace. Il faut donc définir l’ensemble des parties « mesurables ». Pour ce faire, on introduit la notionde tribu. Ensuite seulement, viendra la notion de mesure.

Définition 9.1. Soit Ω un ensemble. Un sous-ensemble A de P(Ω) est une tribu lorsque les trois conditionssuivantes sont vérifiées :

1. ∅ ∈ A,

2. A ∈ A =⇒ Ac ∈ A,

3. Ai ∈ A pour tout i ∈ N =⇒ ∪iAi ∈ A.

Les éléments d’une tribu sont appelés événements en probabilités ou (ensembles) mesurables en théorie de lamesure.

Les exemples suivantes sont d’une utilisation constante.– La tribu grossière est la tribu constituée des seuls éléments ∅ et Ω.– La tribu la plus fine est la tribu P(Ω).– Si A1 et A2 sont deux tribus alors A1 ∩ A2 est encore une tribu.– Pour C ⊂ P(Ω), P(Ω) est une tribu qui contient C donc l’ensemble des tribus qui contiennent C est non

vide. Par conséquent, cet ensemble a un plus petit élément,au sens de l’intersection : c’est la plus petitetribu qui contient C. On appelle cette tribu la tribu engendrée par C, elle est notée σ(C).Pour un ensemble A de Ω, σ(A) = A, Ac, ∅, Ω.

Le cas qui nous préoccupera est celui de R. La tribu borélienne sur R est la plus petite tribu qui contientles intervalles ouverts de la forme ]a, b[ avec −∞ ≤ a < b. De même, sur Rk, la tribu borélienne est la pluspetite tribu qui contient les pavés ]a1, b1[× . . .×]ak, bk[.

On peut alors définir une mesure sur un espace (Ω, A).

Définition 9.2. Une application µ de A dans R+ est une mesure lorsqu’elle satisfait les deux propriétéssuivantes :

– µ(∅) = 0,– µ est une application pour σ-additive : pour toute famille (Aj , j ∈ N∗) d’éléments de A deux à deux

disjoints,

µ(∪∞j=1 Aj) =+∞∑

j=1

µ(Aj). (9.1)

Une mesure est dite de probabilité lorsque la masse totale, i.e., µ(Ω), vaut 1. Dans ce cas, on parle de mesurede probabilités et on la note P plutôt que µ.

Exemple 9.3. L’exemple le plus simple de mesure est donnée par la mesure de Dirac en un point a ∈ Ω :

δa(A) = 1 si a ∈ A, δa(A) = 0 sinon.

Dès que Ω n’est pas dénombrable, il est impossible de décrire une mesure en donnant sa valeur pour tousles ensembles mesurables. Arrive à notre secours le théorème de classe monotone qui nous dit, en substance,qu’une mesure est totalement déterminée par sa valeur sur un ensemble d’ensembles suffisamment riche.L. Decreusefond

Contexte public sans modificationsVoir page 83 64/83

Page 66: 1 Master

Cours de probabilités

Définition 9.4. Un ensemble C de parties de Ω est une algèbre s’il satisfait les propriétés suivantes :– ∅ ∈ C,– si A et B appartiennent à C alors A ∪ B et A\(A ∩ B) aussi.

En particulier, on montre que

R = n∪i=1Ii, n ∈ N∗, Ii =]ai, bi]

est une algèbre de P(R).

Définition 9.5. Un ensembleM de parties de Ω est une classe monotone si– toute limite décroissante d’ensembles deM est dansM, c’est-à-dire si l’on a une suite décroissante, au

sens de l’inclusion, d’éléments deM alors leur intersection est dansM.– toute limite croissante (i.e., réunion d’ensembles inclus les uns dans les autres) d’éléments de M est

dansM.

En particulier, pour deux mesures de probabilité P et Q, l’exercice 66 montre que

S = A ∈ P(R), P(A) = Q(A)

est une classe monotone.On a le résultat pratique suivant :

Théorème 9.6 (classe monotone). Soit C une algèbre et M une classe monotone contenant C alors σ(C) ⊂M.

En conséquence, on en déduit :

Théorème 9.7. Deux mesures qui coïncident sur R sont égales.

Corollaire 9.7.1. Pour identifier une mesure sur R, il faut et il suffit que l’on connaisse P(]−∞, x]) pourtout réel x.

Remarque 16. Ce résultat s’étend sans changement aux dimensions supérieures : pour identifier une pro-babilité sur Rd, il faut et il suffit que l’on connaisse

P(]−∞, x1]× . . .×]−∞, xd])

pour tout d-uple (x1, · · · , xd).

Un autre théorème fondamental de la théorie de la mesure est le suivant :

Théorème 9.8. Il existe une unique mesure sur Rk, notée λ, muni de la tribu des boréliens, qui coïncidentavec la mesure de longueur/surface/volume sur les pavés, i.e., telle que

λ(]a1, b1[× . . .]ak, bk[) = (b1 − a1) . . . (bk − ak).

Cette mesure s’appelle la mesure de Lebesgue.

9.1.1 Mesure produit

Si on dispose de deux espaces mesurés (Ω1, A1, µ) et (Ω2, A2, ν), on veut construire une mesure sur leproduit cartésien Ω1 × Ω2. La première difficulté à surmonter est la définition de la tribu sur E × F . Leséléments de A1 × A2 sont les produits cartésiens d’un élément de A1 et d’un élément de A2. Comme laréunion de deux rectangles n’est pas un rectangle, A1 ×A2 n’est pas une tribu, voir figure 9.2. Qu’à cela netienne, on note A1 ⊗A2 la plus petite tribu qui contient A1 ×A2 et le tour est joué !

Il est alors possible de montrer qu’il existe une unique mesure, notée µ⊗ ν, dite mesure produit de µ etν, sur (Ω1 × Ω2, A1 ×A2) qui soit telle que

µ⊗ ν(A×B) = µ(A)ν(B), pour tout A ∈ A1, B ∈ A2. (9.2)L. Decreusefond

Contexte public sans modificationsVoir page 83 65/83

Page 67: 1 Master

Cours de probabilités

Ω1

Ω2 A1 ×B1

A2 ×B2

A1

B1

B2

A2

Figure 9.2 – (A1 ×B1) ∪ (A2 ×B2) n’est pas un rectangle.

9.2 Fonctions mesurables

Les fonctions mesurables sont à la théorie de la mesure ce que les fonctions continues sont à la topologie.

Définition 9.9. Une fonction f de (Ω1,A1) dans (Ω2, A2) est mesurable lorsque

f−1(C) ∈ A1 pour tout C ∈ A2.

Par le théorème de classe monotone, on peut se restreindre à prouver cette propriété pour des élémentsC d’une algèbre engendrant la tribu A2. Ce qui signifie, que si Ω2 = R et que A2 est la tribu borélienne, onpeut se contenter de le prouver pour les éléments de R (voir ci-dessus).

– Une fonction continue est mesurable.– La somme, le produit de deux fonctions mesurables sont mesurables.– La composition de deux fonctions mesurables est mesurable.– Le suprémum et l’infimum d’une famille de fonctions mesurables sont mesurables :

supnfn et inf

nfn sont mesurables.

– Par conséquent, les limites inférieures et supérieures d’une suite de fonctions sont mesurables.– En particulier, si une suite de fonctions converge simplement, ses limites inférieures et supérieures

coïncident donc une limite simple de fonctions mesurables est mesurable.Ce dernier résultat est très intéressant parce que pour les fonctions continues, on est assuré de la continuitéd’une limite de fonctions continues que si la convergence est uniforme.

Définition 9.10. Une variable aléatoire est une fonction mesurable.

9.2.1 Mesure image

Partant d’un espace mesuré (Ω1, A1, µ) et d’une application mesurable f de (Ω1, A1, µ) dans (Ω2, A2),il est naturel de se demander comment se transforme la mesure µ sous l’effet de f . Par exemple, si Ω1 est uneplaque inhomogène à laquelle, on fait subir divers traitement, on peut se demander comment seront répartiesles inhomogénéités de la plaque transformée.L. Decreusefond

Contexte public sans modificationsVoir page 83 66/83

Page 68: 1 Master

Cours de probabilités

Définition 9.11. Soit (Ω1, A1, µ) un espace mesuré et d’une application mesurable f de (Ω1, A1, µ) dans(Ω2, A2), la mesure image de µ par f , notée f∗µ est définie par :

f∗µ(A) = µ(f−1(A)) pour tout A ∈ A2.

A

f−1(A)

f

Ω1 Ω2

Figure 9.3 – Principe de construction d’une mesure image.

Remarque 17 (Vocabulaire). La loi d’une v.a. X de Ω dans Rn, notée PX , est la mesure image de P parX :

PX(A) = P(X−1(A)) = P(X ∈ A) = P(ω : X(ω) ∈ A),

pour tout A borélien de Rn. Si on avait respecté la notation de la TdM, on devrait avoir noté P∗X au lieude PX .

Remarque 18. Peu importe l’espace de départ, la loi est une mesure sur l’espace des valeurs de la v.a.considérée. Comme dans tous les cas pratiques que nous étudierons, cet espace est N ou Rn, il faut et il suffitque nous sachions travailler avec les mesures sur ces espaces.

Remarque 19. Si µ et ν sont des lois, c’est-à-dire si µ est la loi d’une v.a. X et ν la loi d’une v.a. Y , cesdeux v.a. sont indépendantes si et seulement si

P((X, Y ) ∈ A×B) = P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B) = µ(A)ν(B),

autrement dit, d’après (9.2), si et seulement si la loi du couple (X, Y ) est la mesure produit des lois dechacune des composantes, voir (5.4).

9.3 Construction de variables aléatoires et simulation

Après avoir développé toute une théorie, il n’est que temps de s’interroger sur « l’existence » des objetsque nous avons défini. Si on perçoit bien ce qu’est une variable en tant que résultat d’une expérience, si onperçoit bien ce qu’est une variable aléatoire en tant que fonction d’un espace dans un autre, il reste à éclairerL. Decreusefond

Contexte public sans modificationsVoir page 83 67/83

Page 69: 1 Master

Cours de probabilités

les liens entre ces deux notions et comment on passe d’une construction phénoménologique à une constructionmathématique la moins abstraite possible.

Au delà de l’intérêt intellectuel de cette question, c’est tout le principe de la simulation qui est en jeu.Une variable aléatoire est au départ une fonction d’un espace Ω à valeurs dans un autre espace, générale-

ment N, R ou Rn ou des sous-ensembles de ceux-ci. Quand on parle de « fonction », on pense naturellementà son graphe ou à tout le moins on suppose connue pour chaque point de l’espace de départ, la valeur de lafonction en ce point. L’important pour une variable aléatoire, ce n’est pas tant sa valeur en chaque point quela fréquence avec laquelle elle vaut une valeur donnée plus ou moins un petit quelque chose, c’est-à-dire saloi. En ce sens, une variable aléatoire est indissociable d’une probabilité de référence et c’est tout autant lavariable aléatoire qui est à construire que sa loi, c’est-à-dire une mesure sur l’espace d’arrivée de la dite v.a. !

Notre objectif est donc pour toute loi sur Ω1 = N, R ou Rn, de « construire » un ensemble qui jouera lerôle de Ω, une fonction de Ω dans Ω1 de sorte que la fréquence avec laquelle cette fonction prendra une valeurdonnée coïncide avec la loi donnée au départ. Par construction, on entend ici, construction sur ordinateur.Cela signifie que l’on suppose au départ que l’on a, à notre disposition, une fonction que l’on peut invoquerautant de fois que nécessaire et qui retourne une suite de nombres réels pris au hasard entre 0 et 1. Lepostulat, très fort, que nous faisons est donc le suivant :

on suppose que l’on « a » construit Ω = [0, 1]N muni de la mesure λ⊗N et les variables aléatoires(Un, n ≥ 1) définies par Ui(ω) = ωi pour ω = (ωn, n ≥ 1).

C’est-à-dire que le résultat ω1, ω2, · · · , ωn, · · · des appels successifs à la fonction rand (ou drand48)de l’ordinateur peut-être considérée comme les suites de valeurs U1(ω), U2(ω), · · · où les Un sont des v.a.indépendantes, de loi uniforme sur [0, 1].

L’exercice 31 montre qu’en considérant la suite (F−1(Un), n ≥ 1) on obtient une suite de réels qui peuventpasser pour les tirages successifs indépendants d’une v.a. de fonction de répartition F .

La construction même d’une mesure produit et son lien avec l’indépendance (voir la remarque 19) montrentque pour construire deux v.a. réelles indépendantes, il suffit de construire chacune séparément et de les mettreen couple. Ainsi, si l’on veut simuler un couple de v.a. indépendantes de loi exponentielle de paramètre λ, onconsidérera la suite de couples

(

(− 1λ

lnU2n, −1λ

lnU2n), n ≥ 1)

.

Pour les cas plus compliqués, il faut recourir à des méthodes ad-hoc. Par exemple, l’exercice 33 montreque les v.a.

X =√

−2 ln(U1) cos(2πU2) et Y =√

−2 ln(U1) sin(2πU2)

sont indépendantes de loi normale centrée, réduite. À partir de (U1, · · · , Un), on peut donc construire levecteur gaussien X = (X1, · · · , Xn) centré et de matrice de covariance égale à l’identité. Pour construire unvecteur gaussien Y de dimension n, de matrice de covariance quelconque ΓY , on calcule (par la méthode deCholesky) une matrice A symétrique telle que AAt = ΓY et le théorème de représentation canonique desvecteurs gaussiens 7.5 nous indique que AX est un vecteur gaussien centré de matrice de covariance ΓY .

9.4 Exercices

⊲ Exercice 66 (Monotonie des mesures). Soit µ une mesure quelconque. Soit (An, n ∈ N∗) une suite croissanted’ensembles mesurables, montrer que

limn→+∞

µ(An) = µ(∞∪n=1

An).

Soit (Bn, n ∈ N∗) une suite décroissante d’ensembles mesurables telle que µ(B1) < +∞, montrer que

limn→+∞

µ(Bn) = µ(∞∩n=1

Bn).

⊲ Exercice 67. Soit µn la suite de mesure sur [0, 1] donnée par

dµn(x) =1n

n−1∑

j=0

δj/n.

L. Decreusefond

Contexte public sans modificationsVoir page 83 68/83

Page 70: 1 Master

Cours de probabilités

Pour f continue sur [0, 1], quelle est la limite de∫

f(t) dµn(t) quand n tend vers +∞ ?

⊲ Exercice 68 (Ensemble triadique de Cantor). L’objectif est de construire un ensemble non dénombrable demesure de Lebesgue nulle. Soit S les éléments de 0, 1, 2N qui ne se terminent pas par une infinité de 2.

1. Montrer que tout nombre x de [0, 1[ s’écrit de manière unique sous la forme

x =+∞∑

n=1

xn3−n où (xn, n ≥ 1) ∈ S.

On appelle la suite (xn, n ≥ 1) le développement triadique de x.2. On appelle C, l’ensemble de Cantor, constitué des réels de [0, 1[ qui n’ont pas de 1 dans leur dévelop-

pement triadique. Montrer que C =∞∩n=1

En où les En sont des ensembles que l’on construira (voir la

figure 9.4).3. Montrer que la mesure de Lebesgue de C est nulle.4. Montrer que C est non dénombrable.5. Montrer que Cc est partout dans [0, 1[ : quel que soit ǫ > 0, pour tout x ∈ [0, 1[, il existe y ∈ Cc tel

que |x− y| < ǫ.

6. En déduire que l’intérieur de C est vide.

Figure 9.4 – Les premières étapes de la construction de l’ensemble de Cantor.

⊲ Exercice 69 (Fonction de Cantor). À partir de l’ensemble de Cantor, on va maintenant construire unefonction continue, croissante, nulle en 0, qui vaut 1 en 1 et dont la dérivée est presque-partout nulle...

– La fonction f0 est définie par f0(x) = x.– La fonction f1 est continue, affine par morceaux, est telle que f1(0) = 0, f1(1) = 1 et vaut 1/2 sur Ec1

donc

f1(x) =

32x pour x ≤ 1

3

12

pour13≤ x ≤ 2

3

12

+32

(x − 23

) pour x ≥ 23.

L. Decreusefond

Contexte public sans modificationsVoir page 83 69/83

Page 71: 1 Master

Cours de probabilités

3−(N+1)

2−(N+1)

Figure 9.5 – Vue partielle de deux étapes successives dans la construction de la fonction de Cantor.

– Au rang n, fn est continue, affine par morceaux, égale à j2−n sur le j-ième intervalle de Ecn et telle quefn(0) = 0 et fn(1) = 1.

1. Montrer que ‖fn − fn+1‖∞ ≤ 2−(n+1).2. En déduire que la suite (fn, n ≥ 1) est de Cauchy dans l’ensemble des fonctions continues muni de la

norme uniforme. Soit f sa limite.3. Montrer que f est croissante, vaut 0 en 0 et 1 en 1, est dérivable et de dérivée nulle sur Cc.

⊲ Exercice 70 (Construction d’un ensemble non-mesurable). Soit E = [0, 1] muni de la mesure de Lebesguenotée µ. Pour A ⊂ E\1 et x ∈ R, on pose

τx(A) = t+ x− [t+ x], t ∈ Aoù [a] est la partie entière de a.

1. Montrer que si A est mesurable alors τx(A) l’est aussi et µ(τx(A)) = µ(A).2. Soit R la relation d’équivalence définie par xRy ssi x − y ∈ Q. On construit F en choisissant un et

un seul représentant de chaque classe d’équivalence. Montrer que les (τr(F ), r ∈ [0, 1[∩Q) forment unepartition de [0, 1] et en déduire que F n’est pas mesurable.

⊲ Exercice 71. Soit (E, E , µ) un espace mesuré.1. Montrer que pour f mesurable positive,

f dµ = 0 implique f = 0 p.p..2. Montrer que pour f mesurable à valeurs réelles, si pour tout mesurable A,

Af dµ = 0 alors f = 0

p.p..3. Montrer que pour tout f ∈ L1, pour tout ǫ > 0, il existe η tel que

µ(A) < η =⇒∫

A

|f | dµ ≤ ǫ.

4. En déduire que si la mesure µ sur Rn est de la forme

dµ(x) = f(x1, . . . , xn) dx1 . . . dxn

avec f ∈ L1(Rn), alors µ(x0) = 0 pour tout x0 ∈ Rn.

⊲ Exercice 72. Montrer qu’une fonction mesurable de (E, ∅, E) dans (R,B(R)) est constante. Caractériserles fonctions mesurables de (E, ∅, A,Ac, E) dans (R,B(R)) où A est un sous-ensemble propre de E.

L. Decreusefond

Contexte public sans modificationsVoir page 83 70/83

Page 72: 1 Master

Chapitre 10

Intégration

10.1 Principe de construction de l’intégrale

Sur un espace mesuré, c’est-à-dire un espace muni d’une tribu et d’une mesure µ, on peut définir unenotion d’intégrale.

Définition 10.1. Soit (Ω, A) un espace mesuré et f une fonction mesurable de (Ω, A) dans (R, B(R)). Lafonction f est dite étagée lorsqu’elle prend un nombre fini de valeurs, f est alors de la forme

f(x) =n∑

i=1

αi1Ai(x)

où (αi, i = 1, · · · , n) est une famille de réels et (Ai, i = 1, · · · , n) une famille d’éléments de A disjoints deuxà deux.

Définition 10.2. Pour s =∑ni=1 αi1Ai étagée, on définit sa µ-intégrale sur Ω par

s =n∑

i=1

αiµ(Ai).

Définition 10.3. Pour f mesurable de Ω dans R+, sa µ-intégrale est définie par∫

f dµ = sup∫

s, 0 ≤ s ≤ f, s étagée

.

Lemme 10.4. Si s est étagée positive∫

s dµ =∫

s. De plus, si f ≥ 0 alors∫

f dµ ≥ 0.

Démonstration. Le deuxième point est évident. Quant au premier, si t étagée est inférieure à s alors∫

t ≤∫

sdonc

s dµ = supt

t ≤∫

s.

D’autre part, s est étagée et s ≤ s donc∫

s dµ ≥∫

s. Il s’ensuit que∫

s =∫

s dµ.

Le théorème suivant est l’un des théorèmes principaux à la fois pour l’établissement de la théorie del’intégration mais aussi pour ces applications pratiques.

Théorème 10.5. Soit (fn, n ≥ 1) une suite croissante de fonctions qui converge simplement vers f ≥ 0. Lafonction f est mesurable et

f dµ = limn→+∞

fn dµ.

Lemme 10.6. Toute fonction mesurable f à valeurs dans R+ est limite croissante simple de fonctionsétagées positives.

L. Decreusefond

Contexte public sans modificationsVoir page 83 71/83

Page 73: 1 Master

Cours de probabilités

Démonstration. Soit

I = x : f(x) = +∞ et En, k = f−1(

[k

n,k + 1n

[)

.

Posons

tn(ω) =2n∑

k=0

k

n1En, k(ω) + n1I(ω).

Il est clair que tn(ω) ≤ f(ω) et que tn converge simplement vers f . En posant,

f1 = t1, f2 = t1 ∨ t2, fn = fn−1 ∨ tn, . . .

on construit une suite de fonctions qui prennent chacune un nombre fini de valeurs donc sont étagées,croissante et qui converge simplement vers f .

Figure 10.1 – Une fonction (en clair) et son approximation par une fonction étagée.

Compte-tenu de ce lemme et du théorème de convergence monotone, on aurait pu définir l’intégrale de fpar

f dµ = limn→+∞

fn dµ,

pour une suite (fn, n ≥ 1) de fonctions étagées tendant vers f en croissant. Il aurait alors fallu montrer quela limite ne dépend pas de la suite approchante, étape que l’on évite avec la présentation choisie ici.

Définition 10.7. Soit (E, E) un espace mesuré et f une fonction mesurable de (E, E) dans (R, B(R)). Ondit que f est intégrable lorsque

|f | dµ < +∞.

Dans ce cas,∫

f dµ =∫

f+ dµ−∫

f− dµ.

Exemple 10.8 (Mesure de comptage). Si µ =∑

n∈Nδn, alors

µ(A) = card (A) =∑

n∈A

1 =∑

n∈N

1A(n) =∫

1A dµ.

L. Decreusefond

Contexte public sans modificationsVoir page 83 72/83

Page 74: 1 Master

Cours de probabilités

Par conséquent, pour f : N→ R, intégrable,∫

f dµ =∑

n∈N

f(n).

Il faut donc garder à l’esprit que l’intégrale de Lebesgue peut se réaliser en ce qui est communément appeléune série.

Exemple 10.9 (Mesure de Lebesgue). La mesure de Lebesgue, que nous notons temporairement λ, est, pardéfinition, telle que

λ(]a, b[) = b− a.

Réécrit dans le langage de le TdM, cela revient à dire

1]a, b[ dλ = b− a =∫ b

a

dx, (10.1)

où∫

f(x) dx représente l’intégrale de Riemann. Pour les fonctions en escalier, qui sont des cas particuliers defonctions étagées avec des Ai qui sont nécessairement des intervalles, les intégrales de Riemann et Lebesguecoïncident. L’intégration « à la Lebesgue » permet d’intégrer plus de fonctions qu’avec l’intégrale de Riemann :pour être Riemann intégrable, une fonction (positive) se doit d’être continue sauf en un nombre dénombrablede points. Pour être Lebesgue intégrable, une fonction positive peut se contenter d’être mesurable. La notionde mesurabilité est nettement moins contraignante que la continuité ainsi que le prouve le théorème suivant :

Théorème 10.10 (Théorème de Lusin). Soit f une fonction mesurable, pour tout ǫ > 0, il existe unefonction continue fǫ qui coïncide avec f sauf sur un ensemble de mesure inférieure à ǫ.

Il est par exemple clair que Q est mesurable (en tant que réunion dénombrable de singletons, tous me-surables puisque fermés), de mesure de Lebesgue (puisque les singletons sont de mesure nulle) nulle. Parconséquent, 1Q est mesurable mais discontinue en tout point irrationnel : soit r ∈ Q, il existe une suite(qn, n ≥ 1) de rationnels qui converge vers r et

limn→+∞

1Q(qn) = 1 , 0 = 1Q(r).

Cette fonction est donc Lebesgue intégrable mais pas Riemann intégrable. D’une manière générale, chaquefois qu’une fonction est Riemann intégrable (au sens de la convergence absolue), elle est Lebesgue intégrableet les deux intégrales coïncident. C’est pour cette raison que l’on notera

f dλ =∫

f(x) dx,

même si maintenant le terme de droite désigne l’intégrale de Lebesgue de f . Plus généralement, l’intérêt del’intégrale de Lebesgue se trouve aussi dans la complétude de l’espace des fonctions intégrables, voir la section10.4.

10.2 Propriétés et notations

Les propriétés élémentaires sont celles que l’on peut attendre naturellement d’une intégrale :– Si f et g sont intégrables alors αf + βg l’est pour tout réel α et β et

(αf + βg) dµ = α

f dµ+ β

g dµ.

– Si f est mesure positive alors∫

f dµ ≥ 0 en particulier si f ≥ g,∫

f dµ ≥∫

g dµ.L. Decreusefond

Contexte public sans modificationsVoir page 83 73/83

Page 75: 1 Master

Cours de probabilités

Remarque 20 (Notations). Les notations en théorie de l’intégration sont fluctuantes parce qu’aucune n’estabsolument meilleure qu’une autre, toutes ont leur intérêt (simplicité ou clarté) en fonction du contexte. Ainsila notation

f dµ s’applique tant que l’on travaille abstraitement et avec une seule mesure. Il est parfoisagréable de garder une trace de la variable « muette » par rapport à laquelle on intègre, on utilisera alors

f(x) dµ(x) pour∫

f dµ.

L’intégrale de f par rapport à f est définie a priori sur tout l’ensemble de départ de f . Si on veut restreindreà un ensemble d’intégration plus petit A, on intégrera f.1A, on pourra alors tout aussi bien noter

f1A dµ ou∫

A

f dµ.

Lorsque µ est la mesure de Lebesgue, on préfère souvent remplacer dµ par dx et lorsque A = [a, b] est unintervalle de R on écrira évidemment

f1A dµ =∫ b

a

f(x) dx,

puisqu’à chaque fois que l’intégrale de Riemann est définie, l’intégrale de Lebesgue l’est aussi et elles coïn-cident.

Il reste à étudier le passage des notations « théorie de la mesure » (TdM) aux notations « probabilistes ».– En TdM, les fonctions sont mesurables et la variable est x, en probabilité, au lieu de fonction mesurable,

on parle de variables aléatoires et la variable est notée ω.– La mesure µ lorsqu’elle est de probabilité, c’est-à-dire lorsque µ(Ω) = 1, devient P. La mesure d’un

ensemble devient sa probabilité et est notée P(A).– L’intégrale d’une fonction mesurable est, en probabilité, l’espérance d’une v.a. :

Ω

X dP = E [X ] .

Théorème 10.11 (Convergence monotone). Soit (fn, n ≥ 1) une suite de fonctions (mesurables) positivesqui converge en croissant, µ-p.p. vers f alors

limn→∞

fn dµ =∫

(

limn→∞

fn

)

dµ =∫

f dµ.

Si la mesure est finie, on peut évidemment remplacer l’hypothèse de positivité par l’hypothèse que les fnsont inférieurement bornées. Dans le cas où toutes les fonctions ne sont pas positives, il faut une contraintede domination.

Théorème 10.12 (Convergence dominée). Soit (fn, n ≥ 1) une suite de fonctions (mesurables) qui convergeµ p.p. vers f. Si de plus, il existe g telle que

|fn(x)| ≤ g(x), pour presque tout x et

g dµ <∞

alors

limn→∞

fn dµ =∫

( limn→∞

fn) dµ =∫

f dµ.

Le théorème de Fubini est celui qui permet de calculer des intégrales multiples en choisissant l’ordre desintégrations. Son énoncé exige en toute rigueur de définir proprement les notions de mesure et tribu produit,nous renvoyons pour ça à [3].

Théorème 10.13 (Fubini-Tonnelli). Soit (E × F, E ⊗F , µ⊗ ν) un espace mesuré produit et f une fonctionde E × F dans R+. On a

– x 7→∫

f(x, y) dν(y) est E mesurable,– y 7→

f(x, y) dµ(x) est F mesurable,L. Decreusefond

Contexte public sans modificationsVoir page 83 74/83

Page 76: 1 Master

Cours de probabilités

–∫

E

(∫

F

f(x, y) dν(y))

dµ(x) =∫

F

(∫

E

f(x, y) dµ(x))

dν(y).

Dans le cas où n’est pas de signe constant, on vérifie d’abord que l’intégrale double de |f | est finie (enutilisant le théorème précédent pour la calculer) puis on applique le théorème de Fubini proprement dit.

Théorème 10.14 (Fubini). Soit (E×F, E ⊗F , µ⊗ ν) un espace mesuré produit et f une fonction de E×Fdans R. Si "

E×F

|f(x, y)| dµ(x) dν(y) <∞,

alors– x 7→

f(x, y) dν(y) est E mesurable,– y 7→

f(x, y) dµ(x) est F mesurable,–

E

(∫

F

f(x, y) dν(y))

dµ(x) =∫

F

(∫

E

f(x, y) dµ(x))

dν(y).

Théorème 10.15 (Continuité sous le signe somme). Soit I un ouvert de Rn et f(x, t), t ∈ I une famillede fonctions mesurables telle que pour tout t ∈ I, f(., t) soit µ-intégrable. S’il existe G(x) une fonctionmesurable telle que

dµ p.p., |f(x, t)| ≤ G(x), pour tout t ∈ I,

et

G dµ <∞,

alors l’application

I : −→ R

t 7−→∫

f(x, t) dµ(x)

est continue.

Théorème 10.16. Soit I un ouvert de Rn et f(x, t), t ∈ I une famille de fonctions mesurables telles quepour tout t ∈ I, f(., t) soit µ-intégrable. Si t 7→ f(x, t) est dérivable sur I, dµ p.p., s’il existe G(x) unefonction mesurable telle que

dµ p.p., | d

dtf(x, t)| ≤ G(x), pour tout t ∈ I,∫

G dµ <∞,

alors l’application

I −→ R

t 7−→∫

f(x, t) dµ(x)

est dérivable sur I etd

dt

f(x, t) dµ =∫

d

dtf(x, t) dµ(x).

L. Decreusefond

Contexte public sans modificationsVoir page 83 75/83

Page 77: 1 Master

Cours de probabilités

10.3 Théorème de Riesz

Une autre présentation des mesures est souvent utile, notamment en probabilité. Soit Cb(Rd), l’ensembledes fonctions numériques, continues sur Rd et bornées. On munit Cb(Rd) de la norme uniforme :

‖ f ‖ = supx∈Rd

|f(x)|.

On dit qu’une forme linéaire θ de Cb(Rd) dans R est continue lorsqu’il existe une constante c, telle que pourtout f ∈ Cb(Rd),

|θ(f)| ≤ c‖ f ‖. (10.2)

D’après ce qu’on a vu sur l’intégrale, pour une probabilité P, il ressort de qui précède que l’application

Θ : Cb(Rd) −→ R

f 7−→∫

f dP

satisfait (10.2). En fait, toutes les applications qui satisfont (10.2) sont de ce type.

Théorème 10.17 (Théorème de Riesz). Les mesures de probabilités sur Rd sont en bijection avec les formeslinéaires continues positives sur Cb(R).

Cela signifie que pour identifier une loi P, il faut et il suffit que l’on sache calculer∫

f dP pour toutefonction continue bornée, voir la partie 3.2.

10.4 Espaces L1 et L2

10.4.1 Rôle des ensembles de mesure nulle

Soit (Ω, A, P) un espace probabilisé. Soit X une variable aléatoire positive de P-intégrale nulle. Pourtout η > 0 et Aη = ω : X(ω) > η,

0 =∫

X dP ≥∫

X dP ≥ ηP(Aη),

donc P(A1/n) = 0 pour tout n ≥ 1. Comme ∩n≥1

A1/n = A0, par monotonie, on obtient P(A0) = 0. On a donc

démontré le théorème suivant :

Théorème 10.18. Soit X v.a. positive, d’espérance nulle alors X est nulle P-presque partout.

Mais une fonction nulle « presque partout » n’est pas une fonction nulle. Par exemple, la fonction indi-catrice de Q, l’ensemble des rationnels, est presque-partout nulle pour la mesure de Lebesgue mais elle estnon nulle sur un ensemble dense !

En échange, que l’application X 7→∫

|X | dP ne soit pas une norme est trop embêtant pour être éludé.La solution est de décréter que les fonctions nulles presque partout sont « indistinguables » en un certainsens, de la fonction nulle. Mathématiquement, on procède comme suit.

Définition 10.19. Soit X et Y deux variables aléatoires, X est en relation d’égalité p.s. avec Y lorsqueP(X , Y ) = 0. On note XRY .

Il est évident que– XRX ,– si XRY alors YRX ,– si XRY et YRZ alors XRZ.

Ce qui signifie queR est une relation d’équivalence. On peut donc considérer les classes d’équivalence induitespar cette relation.

Comme travailler avec des classes d’équivalence n’est jamais facile, on peut continuer de penser les fonc-tions mesurables (ou variables aléatoires) comme des fonctions ordinaires en prenant garde qu’elles ne sontdéfinies qu’à un ensemble de mesure nulle près. Ainsi, si f est une fonction mesurable de R dans R, f(0)n’est pas bien défini mais

f dx l’est parfaitement dans le sens où si on modifie f sur un ensemble de mesurenulle, f(0) peut changer tandis que l’intégrale ne sera pas modifiée.L. Decreusefond

Contexte public sans modificationsVoir page 83 76/83

Page 78: 1 Master

Cours de probabilités

10.4.2 Fonctions intégrables

Soit (Ω, A, P) un espace probabilisé, on considère l’espace vectoriel :

L1 =

X : E → R,

|X | dP <∞

.

En vertu des remarques précédentes, ce n’est pas un espace vectoriel normé puisque la nullité de l’intégralede |X | n’entraîne la nullité de X que P-p.p.. On introduit alors

L1 = L1/R,

c’est-à-dire l’ensemble des classes d’équivalence dans L1 pour la relation d’équivalence R.

Théorème 10.20. L’espace L1, muni de la norme

‖X‖L1 =∫

|X | dP = E [|X |] ,

est un espace de Banach.

Théorème 10.21. Soit (Xn, n ≥ 1) une suite de v.a. qui converge dans L1 vers X. Il existe une sous-suite(Xnk , k ≥ 1) qui converge presque-sûrement vers X : il existe A tel que P(Ac) = 0 et

Xnk(ω) k→∞−−−−→ X(ω) pour tout ω ∈ A.

Remarque 21. Lorsque l’on travaille avec l’intégrale de Riemann sur [0, 1], on peut bien entendu considérerl’analogue de l’ensemble L1 en imposant de plus que f soit continue pour que son intégrale de Riemannexiste. Dans ce cas, la nullité de l’intégrale implique la nullité de la fonction. Toutefois, L1 n’est pas unespace vectoriel complet parce qu’une limite simple de fonctions continues n’est pas forcément continue doncpas nécessairement suffisamment régulière pour que son intégrale de Riemann soit définie. C’est là l’un despoints clés de l’intégrale de Lebesgue.

Au delà de l’espace L1, il est souvent agréable de considérer l’espace des v.a. de carré intégrable parcequ’il est naturellement équipé d’un produit scalaire.

Théorème 10.22. L’espace des v.a. de carré intégrable, c’est-à-dire

L2 =

X : Ω→ R, E[

|X |2]

< +∞

/R

muni du produit scalaire〈X, Y 〉 = E

[

XY]

,

où X (respectivement Y ) est un représentant quelconque de la classe X (respectivement Y ), donc de la norme

‖X‖L2 = E[

|X |2]1/2

est un espace de Hilbert.

Remarque 22. Ce résultat reste vrai même si P n’est pas de masse totale finie. En particulier, si µ est lamesure de comptage sur N alors les fonctions mesurables de Ω = N dans R sont les suites et L2 est dans cecas l’ensemble des suites de carré sommable :

∞∑

n=1

|un|2 <∞.

Remarque 23. Si P est la mesure de Lebesgue sur I ⊂ R alors L2 est l’ensemble des fonctions de I dansR telles que

I

|f(x)|2 dx < +∞.

L. Decreusefond

Contexte public sans modificationsVoir page 83 77/83

Page 79: 1 Master

Cours de probabilités

10.5 Exercices

⊲ Exercice 73. Soit (E, E , µ) un espace mesurable et T une application de E dans lui-même. On dit que µ estinvariante par T si

E

f T dµ =∫

f dµ

pour toute fonction f mesurable bornée.

1. Montrer que la mesure de Lebesgue sur R est invariante par translation.

2. Soit E = Rn et

dµ(x1, . . . , xn) =1

(2π)n/2exp(

−12

(x21 + . . .+ x2

n))

dx1 . . . dxn.

Montrer que µ est invariante par rotation.

3. Soit E = [0, 1] et T (x) = 2x − [2x] (T (x) est la partie fractionnaire de x). Montrer que la mesure deLebesgue restreinte à E est invariante.

⊲ Exercice 74. Montrer que toute mesure de Radon sur R (c’est-à-dire µ(K) < +∞ quel que soit le compactK) invariante par translation est proportionnelle à la mesure de Lebesgue.

⊲ Exercice 75. Soit (E, E , µ) un ensemble mesuré, (F,F) un ensemble et une tribu et T une applicationmesurable de E dans F. On définit la mesure T ∗µ (appelée mesure image de µ par T ) par

∀B ∈ F , (T ∗µ)(B) = µ(T−1(B)).

ou de manière équivalente par∫

F

f d(T ∗µ) =∫

E

f T dµ.

pour toute fonction f mesurable bornée de F dans R. Soit E = R/Z×Z/2Z, muni de µ la mesure uniforme.

1. Montrer que µ est invariante par translation.

2. Considérons l’application T de E dans O2(R) (le groupe des transformations orthogonales de R2)donnée par :

T (θ, ǫ) =(

cos 2πθ sin 2πθ(−1)ǫ sin 2πθ (−1)1−ǫ cos 2πθ

)

Quelle est la mesure de l’ensemble des symétries (respectivement des rotations d’angle inférieur à θ0

donné) sous T ∗µ?

3. Montrer que T ∗µ est invariante par translation.

4. On considère S l’application de O2(R) dans C qui à une transformation orthogonale associe la valeurpropre de plus grandes parties réelle et imaginaire. Décrire S∗(T ∗µ).

⊲ Exercice 76. En quoi la fonction définie sur [0, 1] × [0, 1] par (x2 − y2)/(x2 + y2)2 montre-t-elle que leshypothèses du théorème de Fubini sont optimales ?

⊲ Exercice 77. Soit (E, E ,P) un espace probabilisé et T une application mesurable de E dans lui-même. Onsuppose que P est invariante par T, c’est-à-dire que

P(T−1(A)) = P(A) pour tout A ∈ E .

1. Montrer que l’ensemble des mesurables invariants par T, c’est-à-dire qui vérifie T−1(A) = A, est unetribu (notée I par la suite).

2. Soit f une fonction mesurable de E dans R. Montrer que si f est invariante par T (c’est-à-dire f T = f)alors f est mesurable de (E, I) dans (R,B(R)).

L. Decreusefond

Contexte public sans modificationsVoir page 83 78/83

Page 80: 1 Master

Cours de probabilités

3. Le système dynamique (E, T,P) est dit ergodique lorsque

I ⊂ σA ⊂ E ,P(A) = 0 ou P(A) = 1.

Montrer que (E, T,P) est ergodique si et seulement si les fonctions invariantes par T sont constantespresque partout.

4. On dit que T est mélangeante si et seulement si pour tout couple f, g d’éléments de L2(dP),

limn→+∞

E

f T ng dP =∫

E

f dP∫

E

g dP. (10.3)

Montrer que si T est mélangeante alors (E, T ) est ergodique.

5. Montrer que si la condition de mélange (10.3) est vérifiée pour f, g appartenant à un sous-ensembledense de L2(dP) alors T est mélangeante.

On veut maintenant étudier le système dynamique donnée par l’équation d’évolution :

xan+1 = T (xan) où T (x) = 4x(1 − x), xa0 = a ∈ [0, 1].

On veut montrer en particulier que pour presque tout a ∈ [0, 1],

limn→+∞

1n

n∑

j=0

f(xaj ) =∫ 1

0

f(u)(π√u√

1− u)−1 du.

On admet que si (E, T,P) est un système ergodique alors

limn→+∞

1n

n∑

j=0

f T j(x) =∫

E

f dP

pour presque tout x. Il nous faut donc trouver une mesure invariante µ par T et montrer que le systèmedynamique ([0, 1], T, µ) est ergodique. Pour ce faire on considère un autre système dynamique :

E1 = [0, 1[, T1x = 2x si 0 ≤ x ≤ 1/2, T1(x) = 2− 2x pour 1/2 ≤ x < 1.

(où [x] est la partie entière de x) muni de la mesure de Lebesgue sur [0, 1[, notée λ.

1. Montrer que λ est invariante par T1.

2. En admettant (ou se souvenant, cf. séries de Fourier) que la famille de fonctions ek(x) = exp(2iπkx)pour k ∈ Z est une famille dense de L2(dλ), montrer que T1 est mélangeante.

3. Soit Θ l’application de E1 dans [0, 1] définie par :

Θ(x) = sin2(πx/2).

4. Identifier µ la mesure image de λ par Θ.

5. Montrer que ([0, 1[, T, µ) est ergodique et conclure.

L. Decreusefond

Contexte public sans modificationsVoir page 83 79/83

Page 81: 1 Master

Cours de probabilités

L. Decreusefond

Contexte public sans modificationsVoir page 83 80/83

Page 82: 1 Master

Bibliographie

[1] L. Holst. On multiple covering of a circle with random arcs. J. Appl. Probab., 17(1) :284–290, 1980.

[2] K. Kuttler. Modern analysis. Studies in Advanced Mathematics. CRC Press, Boca Raton, MA, 1998.

[3] W. Rudin. Analyse réelle et complexe. Masson, Paris, 1980. Translated from the first English edition byN. Dhombres and F. Hoffman, Third printing.

L. Decreusefond

Contexte public sans modificationsVoir page 83 81/83

Page 83: 1 Master

Cours de probabilités

Notations

B(p), 19B(n, p), 19

ϕX , 47C(c), 22

∆f , 6A∆B, 5δa, 62

E [X ], 36E(λ), 21

ΦX , 47Geom(p), 19N (m, σ2), 21

f−1(A), 61A, 5

lim inf, 6f(x+), 6f(x−), 6lim sup, 6

P(E), 5x+, 5x−, 5Po(λ), 19x.y, 51

R, 5R+, 5FX , 20

At , 51

U(a, b), 21

var(X), 36

L. Decreusefond

Contexte public sans modificationsVoir page 83 82/83

Page 84: 1 Master

Cours de probabilités

Index alphabétique

changementvariables, 23

différencesymétrique, 5

espérance, 36

fonctionétagée, 69caractéristique, 47génératrice, 47indicatrice, 5mesurable, 64répartition, 20

imageinverse, 6

injective, 6

limiteinférieure, 6supérieure, 6

loi, 65Bernoulli, 19binomiale, 19Cauchy, 22exponentielle, 21géométrique, 19gaussienne, 21, 51marginale, 23normale, 21Poisson, 19uniforme, 21v.a. discrète, 19

mesure, 62Dirac, 62Lebesgue, 63probabilité, 62

partiesnégatives, 5positives, 5

ProcessusPoisson, 31

processusPoisson, 39

surjective, 6

transposée, 51

variable aléatoire, 64discrète, 19réelle, 20vectorielle, 22

variance, 36vecteur

gaussien, 51

L. Decreusefond

Contexte public sans modificationsVoir page 83 83/83