131
Intégration et probabilités Grégory Miermont L3 2014–2017 ENS de Lyon

Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Intégration et probabilitésGrégory Miermont

L3 2014–2017

ENS de Lyon

Page 2: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 3: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Avant-propos

Ces notes correspondent au cours « Intégration et probabilités » donné au secondsemestre de 2014 à 2017 à l’Ecole Normale Supérieure de Lyon. Les prérequis de cecours sont les fondamentaux de la théorie de la mesure : mesures positives, intégralespar rapport à une mesure, théorèmes limites usuels, mesure de Lebesgue, espaces Lp.

Le cours contient deux parties. Outre quelques compléments d’intégration surla convolution et le changement de variables, la première partie donne les bases del’analyse de Fourier : séries de Fourier pour les fonctions périodiques sur R, et latransformation de Fourier des fonctions intégrables et des mesures de probabilitéssur Rd. La seconde partie est une introduction à la théorie moderne des probabilités,en se focalisant sur les notions fondamentales suivantes :

• espaces de probabilités, variables aléatoires

• indépendance

• théorèmes limites : lois des grands nombres et théorème central limite.

Ces points sont illustrés par des exemples concrets, ponctués par deux chapitres decompléments.

3

Page 4: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 5: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Table des matières

Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

I Introduction à l’analyse de Fourier . . . . . . . . . . . . . . . . 11

1 Quelques compléments d’intégration . . . . . . . . . . . . . . . . . . . . 15

Quelques notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.1 Compléments sur les espaces Lp . . . . . . . . . . . . . . . . . . . . . . . . . . 151.2 Lemme de Riemann-Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 Approximations de l’unité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.1 Polynômes et séries trigonométriques . . . . . . . . . . . . . . . . . . . . . . . 242.2 Série de Fourier d’une fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3 Convergence des séries de Fourier dans L2 . . . . . . . . . . . . . . . . . . . 272.4 Convergence ponctuelle des séries de Fourier . . . . . . . . . . . . . . . . . . 28

2.4.1 Le cas C1 par morceaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.4.2 Convergence de Cesaro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.5 *Preuve du théorème de Stone-Weierstrass . . . . . . . . . . . . . . . . . . . 31

3 La transformée de Fourier dans Rd . . . . . . . . . . . . . . . . . . . . . 33

3.1 Transformée de Fourier d’une fonction intégrable . . . . . . . . . . . . . . . 33b. Continuité, lemme de Riemann-Lebesgue . . . . . . . . . . . . 34c. Régularité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35d. Lien avec la convolution . . . . . . . . . . . . . . . . . . . . . . . 37

3.2 L’exemple de la densité gaussienne. . . . . . . . . . . . . . . . . . . . . . . . 373.3 La formule d’inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4 La transformée de Fourier L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.5 Transformée de Fourier d’une mesure signée . . . . . . . . . . . . . . . . . . 423.6 Une application à l’analyse de l’équation de la chaleur . . . . . . . . . . . . 45

4 Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.1 Mesure image . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Coordonnées polaires dans Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.3 Changement de variables linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 484.4 Changement de variables C1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5

Page 6: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

II Bases des probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5 Bases de la théorie des probabilités . . . . . . . . . . . . . . . . . . . . . 53

5.1 Espaces de probabilités, variables aléatoires . . . . . . . . . . . . . . . . . . 53Premiers exemples d’espaces de probabilités. . . . . . . . . . . . 53Une infinité de lancers de pièces ? . . . . . . . . . . . . . . . . . . 54Variables aléatoires. . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Variables aléatoires discrètes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56Variables aléatoires à densité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.2 Espérance d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 57

a. Définition et formule de transfert . . . . . . . . . . . . . . . . . 57b. Caractérisation de la loi à l’aide de l’espérance . . . . . . . . 58c. Moments d’une variable aléatoire . . . . . . . . . . . . . . . . . 59d. Variance et covariance . . . . . . . . . . . . . . . . . . . . . . . . 60e. Médiane et quantiles . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.3 Fonctions associées à une variable aléatoire . . . . . . . . . . . . . . . . . . . 63a. Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . 63b. Fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . 64c. Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . 65d. Transformée de Laplace . . . . . . . . . . . . . . . . . . . . . . . 66

5.4 Exemples fondamentaux de lois de variables aléatoires . . . . . . . . . . . . 67a. Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Loi uniforme sur un ensemble fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

b. Lois à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Loi uniforme sur un sous-ensemble mesurable de Rd. . . . . . . . . . . . . . . . 69Lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69Lois gaussiennes sur R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.1 Probabilités conditionnelles élémentaires . . . . . . . . . . . . . . . . . . . . 716.2 Indépendance d’événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.3 Indépendance de σ-algèbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736.4 Indépendance de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . 75

a. σ-algèbre associée à une variable aléatoire . . . . . . . . . . . . 75b. Indépendance de variables aléatoires . . . . . . . . . . . . . . . 75c. Critères d’indépendance de variables aléatoires . . . . . . . . . 76

6.5 Sommes de variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 786.6 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.6.1 L’énoncé, et un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6 Table des matières

Page 7: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Exemple. Nombre de « pile » consécutifs . . . . . . . . . . . . . . . . . . . . . . . 806.6.2 Lemme « réciproque » . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Une mesure « uniforme » sur N ? . . . . . . . . . . . . . . . . . . . . . . . . . . . 83Motifs dans une suite de pile ou face . . . . . . . . . . . . . . . . . . . . . . . . . . 836.7 Loi du 0-1 de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846.8 Complément : existence d’une suite de variables aléatoires indépendantes 86

7 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

7.1 Différentes notions de convergence pour des variables aléatoires . . . . . . 89a. Convergence presque sure . . . . . . . . . . . . . . . . . . . . . . 89b. Convergence Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89c. Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . 90

7.2 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . 927.2.1 Le cas L4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 937.2.2 Le cas L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947.2.3 Le cas L1 par la méthode d’écrêtement . . . . . . . . . . . . . . . . . . 957.2.4 Le cas L1 : une seconde preuve . . . . . . . . . . . . . . . . . . . . . . . 977.2.5 Quelques ramifications de la loi des grands nombres . . . . . . . . . . 98

Cas d’une espérance bien définie, mais infinie . . . . . . . . . . . 98Cas où l’espérance n’existe plus nécessairement . . . . . . . . . . 98

7.3 Quelques applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987.3.1 Marches aléatoires non centrées . . . . . . . . . . . . . . . . . . . . . . . 987.3.2 Approximation d’intégrales par la méthode de Monte-Carlo . . . . . 99

8 Convergence en loi et théorème central limite . . . . . . . . . . . . . . 101

8.1 Convergence étroite, convergence en loi . . . . . . . . . . . . . . . . . . . . . 1018.1.1 Exemples élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

Lois sur N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102Lemme de Scheffé et convergence ponctuelle de densités . . . . 103Exemple d’approximation de la mesure de Lebesgue . . . . . . . 104

8.1.2 Liens avec les autres notions de convergence. . . . . . . . . . . . . . . 104Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . 104Convergence en variation totale . . . . . . . . . . . . . . . . . . . . 105

8.1.3 Caractérisations de la convergence en loi . . . . . . . . . . . . . . . . . 1058.2 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Application aux statistiques : estimation paramétrique et intervallesde confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

8.3.1 Vecteurs aléatoires gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . 1128.3.2 Théorème central limite : le cas de Rd . . . . . . . . . . . . . . . . . . . 1158.3.3 Une application : le test d’adéquation du χ2 . . . . . . . . . . . . . . . 116

8.4 L’inégalité de Hœffding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

9 Récurrence et transience pour la marche aléatoire simple sur Zd . 121

Table des matières 7

Page 8: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

10 Processus de branchement . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Phase sous-critique : m< 1 . . . . . . . . . . . . . . . . . . . . . . . 129Phase critique : m=1 . . . . . . . . . . . . . . . . . . . . . . . . . . 129Phase sur-critique : m> 1 . . . . . . . . . . . . . . . . . . . . . . . . 130

Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

8 Table des matières

Page 9: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Partie I

Introduction à l’ana-lyse de Fourier

Page 10: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 11: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Table des matières 11

Page 12: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 13: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 1

Quelques compléments d’intégration

Quelques notationsSi d> 1 est un entier, notons 〈x, y〉=

i=1

dxi yi le produit scalaire usuel de Rd,

et |x|= 〈x, x〉√

la norme euclidienne.On considérera des fonctions mesurables définies sur l’espace mesuré (Rd,B(Rd),

λd), où B(Rd) est la tribu borélienne de Rd, et λd est la mesure de Lebesgue. Onnotera en général

Rd

f(x)dx=

Rd

f(x)λd(dx).

Sauf mention contraire, les fonctions considérées seront à valeurs dans le corps C

des nombres complexes, lui-même muni de la tribu borélienne.

1.1 Compléments sur les espaces Lp

Soit p ∈ [1,∞[. On note Lp = Lp(Rd, B(Rd), λd) l’ensemble des telles fonctions fmesurables telles que |f |p est intégrable, et on note L∞ l’ensemble des fonctionsmesurables essentiellement bornées, c’est-à-dire telles qu’il existe M > 0 tel queλd(|f |>M )= 0.

On note également Lp l’ensemble quotient Lp/≡, où l’on a noté f ≡ g si λd(f =/g)= 0. On le munit de la norme Lp usuelle notée ‖·‖p.

Nous aurons recours au résultat suivant. Si f :Rd→C est une fonction mesurable,et y ∈Rd, on note

τyf(x) = f(x− y) , x∈Rd

Lemme 1.1. Pour tout p ∈ [1,∞] et tout y ∈Rd, l’application f 7→ τyf définit uneisométrie linéaire de Lp sur lui-même. De plus, si 16 p<∞ et si f ∈Lp, l’applicationy 7→ τyf est uniformément continue de Rd dans Lp.

Démonstration. Fixons d’abord y ∈Rd. Il est évident que deux fonctions f et gsont égales presque partout au sens de Lebesgue si et seulement s’il en est de mêmede τyf et τyg, et donc τy induit bien une transformation de Lp, qui est clairementlinéaire et préserve la norme (y compris pour p=∞).

On se donne alors p=/ ∞. Soit f ∈ Lp, et ε > 0. Soit g une fonction continue àsupport compact telle que ‖f − g‖p<ε/3. Alors pour tout x, y ∈Rd, on a

‖τyf − τxf ‖p 6 2‖f − g‖p + ‖τyg− τxg‖p 62ε

3+

Rd

|g(z− (x− y))− g(z)|dz,

13

Page 14: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

où l’on a utilisé l’inégalité triangulaire et la propriété d’isométrie de τy et τx, etun changement de variable affine simple. Comme g est à support compact, si l’onsuppose que |x − y | 6 1, on voit que la dernière intégrale est égale à la mêmeintégrale restreinte au compact K =V1(supp(g)), où par définition Vr(A)= x∈Rd:infy∈A |x− y |6 r est le r-voisinage fermé de A. Le compact K ne dépend plus dex et y, et par conséquent on conclut que la dernière intégrale ci-dessus (une foisrestreinte à K) converge vers 0 lorsque |x− y |→ 0, par convergence dominée. On abien montré qu’il existe un α> 0 tel que |x− y |<α implique que ‖τyf − τxf ‖p 6 ε,comme voulu.

Question: où a-t-on utilisé le fait que p<∞ ?

Exemple 1.2. Si A⊂R est un ensemble mesurable avec λ(A)> 0, alors l’ensembleA−A= x− y :x, y ∈A contient un voisinage de 0.

En effet, supposons sans perte de généralité que λ(A)∈ ]0,∞[, quitte à prendrel’intersection avec un intervalle compact assez grand. Alors 1A est dans L1, et parconséquent τh1A converge dans L1 vers 1A lorsque h→ 0. Mais τh1A(x) = 1A+h(x)et donc ‖τh1A − 1A‖1 = λ(A∆(A+ h)) converge vers 0 lorsque h→ 0, où ∆ désignela différence symétrique.

Or on a λ(A ∩ (A + h)) = λ(A ∪ (A + h)) − λ(A∆(A + h)), qui est supérieur àλ(A) − λ(A∆(A + h)), et on conclut que A ∩ (A + h) est non vide car de mesurestrictement positive pour tout |h| assez petit. cela revient à dire que h appartientà A−A dès que |h| est assez petit.

1.2 Lemme de Riemann-Lebesgue

Le théorème ci-dessous traite du comportement à l’infini de certaines intégrales« oscillantes ». Nous verrons très vite que l’intégrale définie dans l’énoncé est, àquelques détails près, la transformée de Fourier de f en ξ.

Théorème 1.3. (Lemme de Riemann-Lebesgue) Pour tout élément f ∈ L1,l’intégrale

Rd

f(x) exp (i〈ξ, x〉) dx

est bien définie pour tout ξ ∈Rd, et converge vers 0 lorsque |ξ |→∞.

Démonstration. Tout d’abord, il est clair que pour tout ξ, l’intégrale ci-dessus estbien définie puisque |f(x)exp(i〈ξ, x〉)|= |f(x)| est intégrable en x.

On démontre d’abord le résultat pour f de la forme f(x) = 1Q(x), où Q =∏

j=1

d[aj , bj[ est un pavé. Dans ce cas,

Rd

f(x) exp (i〈ξ, x〉) dx=∏

j=1

d (

eiξjbj − eiξjaj

iξj

)

14 Quelques compléments d’intégration

Page 15: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

où le j-ème terme du produit s’interprète comme (bj − aj) si ξj = 0. Clairement,ce produit tend vers 0 lorsque |ξ | →∞. Par linéarité, on obtient le même résultatpour les fonctions f qui sont combinaisons linéaires de telles indicatrices. En serestreignant aux pavés Q dyadiques, c’est-à-dire pour lesquels il existe des entiers n,k1, ..., kd tels que ai=ki2

−n et bi=(ki+1)2−n avec les notations ci-dessus, on constatepar un argument aisé de compacité que les telles combinaisons linéaires sont densesdans l’ensemble Cc(R

d) des fonctions continues à support compact, pour la norme L1.En utilisant la densité de Cc(R

d) dans L1, on conclut que pour tout f ∈L1, et pourtout ε> 0, il existe une fonction g qui est une combinaison linéaire d’indicatrices depavés telle que ‖f − g‖1<ε. On a alors

Rd

f(x) exp (i〈ξ, x〉) dx

6 ‖f − g‖1 +

Rd

g(x) exp (i〈ξ, x〉) dx

,

et on déduit que la limite supérieure du membre de gauche lorsque |ξ | → ∞ estmajorée par ε. Comme ε est arbitraire, on conclut.

On peut avoir recours à une autre méthode, également instructive. Tirant partide la formule eiπ =−1, on peut réécrire

Rd

f(x) exp (i〈ξ, x〉) dx = −∫

Rd

exp

(

i

ξ, x+πξ

|ξ |2⟩)

f(x)dx

= −∫

Rd

exp (i〈ξ, x〉)f(

x− πξ

|ξ |2)

dx.

De ce fait, on a

2

Rd

f(x) exp (i〈ξ, x〉) dx=

Rd

exp (i〈ξ, x〉)(

f(x)− f

(

x− πξ

|ξ |2))

dx,

et on déduit par l’inégalité triangulaire que le module est majoré par

‖τπξ/|ξ |2f − f ‖1.

Lorsque |ξ |→∞, on a ξ/|ξ |2 → 0, et par conséquent la preuve découle immédiate-ment du Lemme 1.1.

1.3 Convolution

Soit f , g ∈ L1. Le produit de convolution de f par g, noté f∗g, est défini par laformule

f ∗g(x)=

Rd

f(x− y)g(y)dy=

Rd

f(y)g(x− y)dy=g∗f(x),

ce qui a bien un sens à condition que∫

Rd|f(x− y)g(y)|dy <∞.

Proposition 1.4. La formule ci-dessus est bien définie pour λd-presque tout x, etdéfinit un élément de L1 pour lequel on a ‖f∗g‖1 6 ‖f ‖1‖g‖1.

1.3 Convolution 15

Page 16: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration. La fonction (x, y) 7→ |f(x− y)g(y)| est mesurable et positive surl’espace produit Rd ×Rd muni de la tribu produit, et de plus, par le théorème deFubini, son intégrale est

Rd

dy |g(y)|∫

Rd

|f(x− y)|dx= ‖f ‖1‖g‖1<∞ .

Par conséquent, on déduit des résultats généraux sur les espaces produit que lafonction (x, y) 7→ f(x− y)g(y) est dans L1(Rd×Rd, λd⊗λd) et que son intégrale parrapport à la variable y est finie pour λd-presque tout x, et intégrable en la variablex. La majoration de la norme provient alors de l’inégalité triangulaire.

Il existe de nombreuses autres situations où la formule définissant la convolutionest bien définie. On donne deux tels exemples.

Proposition 1.5. Supposons que f ∈Lp et g∈Lq, où p, q∈ [1,∞] et (1/p)+(1/q)=1. Alors f∗g(x) est bien défini pour tout x, et définit une fonction uniformémentcontinue et bornée sur Rd.

Démonstration. Pour le fait que f∗g(x) est bien défini et est borné en x, il suffitde constater que par l’inégalité de Hölder,

Rd

|f(x− y)g(y)|dy6 ‖τ−xf ‖p ‖g‖q =‖f ‖p ‖g‖q ,

ce qui fait que y 7→ f(x− y)g(y) est bien intégrable pour tout x∈Rd. Ensuite, onécrit, toujours par l’inégalité de Hölder,

|f∗g(x)− f∗g(y)|6 ‖τ−xf − τ−yf ‖p ‖g‖q

et on conclut par le lemme 1.1 si p <∞, dans le cas contraire on échange les rôlesde f et g.

On voit dans le résultat précédent la première expression d’un fait général : laconvolution a tendance à régulariser les fonctions. Si par exemple f est une fonctionde classe Cc

∞(Rd), on pourra par exemple montrer aisément que pour tout g∈Lp(Rd)pour un p∈ [1,∞], f∗g est de classe C∞(Rd), avec toutes ses dérivées bornées.

Dans la suite, nous aurons besoin d’une troisième situation où le produit deconvolution est bien défini.

Proposition 1.6. Soit f ∈ L1 et g ∈ Lp pour un p ∈ [1, ∞]. Alors le produit deconvolution f∗g(x) est bien défini pour λd-presque tout x, et définit un élément deLp. De plus, on a ‖f ∗g‖p 6 ‖f ‖1‖g‖p.

Démonstration. Le résultat pour p=∞ est traité par la proposition précédente.On suppose donc p <∞, et que f n’est pas nulle presque partout (le résultat esttrivial dans le cas contraire). On utilise alors le fait que pour tout x, la mesure |f(x−y)|dy/‖f ‖1 est une mesure de probabilités, ce qu’il permet d’utiliser l’inégalité deJensen :

Rd

dx

(∫

Rd

|f(x− y)g(y)|dy)p

6 ‖f ‖1p

Rd

dx

Rd

dy|f(x− y)|

‖f ‖1|g(y)|p

16 Quelques compléments d’intégration

Page 17: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et le majorant vaut ‖f ‖1p ‖g‖p

p , qui est fini par hypothèse. Cela montre que f∗g(x)est bien défini pour presque tout x, et la conclusion suit aisément par inégalitétriangulaire.

Enfin, notons que le produit de convolution s’étend aux mesures de la façonsuivante.

Définition 1.7. Soit µ, ν deux mesures positives finies, ou signées, sur Rd. Leproduit de convolution de µ par ν, noté µ∗ν, est la mesure sur Rd définie commemesure image de la mesure produit µ⊗ν par l’application (x, y) 7→x+ y de Rd×Rd

dans Rd. Autrement dit, pour toute fonction f mesurable bornée, on a∫

Rd

f(z)µ∗ν(dz)=

Rd×Rd

f(x+ y)µ(dx)ν(dy) .

Notons que si µ(dx)= f(x)dx est absolument continue, avec (nécessairement)fdans L1, le produit de convolution µ∗ν est la mesure absolument continue dont ladensité est donnée par f∗ν définie par :

f∗ν(x)=

Rd

f(x− y)ν(dy) .

La preuve est aisée, et laissée en exercice. Si à son tour ν(dx)= g(x)dx est à densité,on a f∗ν = f∗g.

1.4 Approximations de l’unité

Avec les notations de la fin de la section précédente, notons que f∗δ0= f pour toutefonction f dans L1. On peut montrer (cela sera facile avec la transformée de Fourier)qu’il n’existe pas de fonction g qui puisse remplacer la mesure δ0 dans ce rôle, c’est-à-dire telle que f∗g= f pour toute fonction f dans L1. Néanmoins, on peut trouverdes fonctions qui remplissent presque ce rôle. Il s’agit de fonctions d’intégrale 1(comme δ0) qui sont « très concentrées » autour de 0, au sens suivant.

Définition 1.8. On dit que la suite de fonctions mesurables (γn, n > 0) est uneapproximation de l’unité si

• supn>0 ‖γn‖1<∞,

•∫

Rdγn(x)dx=1 pour tout n> 0, et

• pour tout δ > 0 on a∫

|x|>δ |γn(x)|dx→ 0.

Une classe importante de partitions de l’unité s’obtient en se donnant une fonc-tion γ ∈ L1 d’intégrale 1, et en posant γn(x) = ndγ(nx), ou plus généralementγn(x)=an

dγ(anx) pour une suite (an, n>0) de limite +∞. Remarquons que si γn >0pour tout n, le premier point est impliqué par le second.

1.4 Approximations de l’unité 17

Page 18: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 1.9. Soit (γn, n> 0) une approximation de l’unité et f une fonction

continue bornée sur Rd. Alors γn∗f converge vers f uniformément sur les compacts.Si de plus f est à support compact, alors γn ∗f converge uniformément sur Rd.

Démonstration. Comme γn est positive d’intégrale 1, on a pour tout x ∈Rd, ettout δ ∈ ]0, 1[,

|γn ∗f(x)− f(x)| =

Rd

γn(y)dy(f(x− y)− f(x))

6

Rd

|γn(y)|dy |f(x− y)− f(x)|

6 2‖f ‖∞∫

|y |>δ|γn(y)|dy

+C sup |f(x− y)− f(x)|: |y |6 δ.

où C est un majorant uniforme des normes ‖γn‖1.Si x prend ses valeurs dans un compact K donné, on peut utiliser l’uniforme

continuité de f sur le 1-voisinage fermé V1(K)= x∈Rd :∃y ∈K, |x− y |6 1 de Kpour obtenir le résultat : pour un ε>0 donné, on choisit δ∈ ]0,1[ tel que le deuxièmeterme du majorant soit plus petit que ε/2, et on a alors que pour tout n assezgrand, le premier terme est majoré par ε/2. Si de plus f est à support compact, ona automatiquement l’uniforme continuité de f partout, et il n’est pas nécessaire derestreindre x à un compact dans l’argument précédent.

Proposition 1.10. Fixons p∈ [1,∞[. Soit (γn, n>0) une approximation de l’unité,et f ∈Lp. Alors ‖γn ∗f − f ‖p→ 0 lorsque n→∞.

Démonstration. On écrit, en utilisant que γn est d’intégrale 1,

‖γn ∗f − f ‖pp =

Rd

dx

Rd

γn(y)(f(x− y)− f(x))dy

p

.

Ensuite, on utilise l’inégalité triangulaire, et on divise et remultiplie γn par sa norme1 pour obtenir que ceci est majoré par

‖γn‖1p

Rd

dx

(∫

Rd

|γn(y)|‖γn‖1

|f(x− y)− f(x)|dy)p

comme la mesure |γn(y)|dy/‖γn‖1 est une mesure de probabilités, on peut majorerpar l’inégalité de Jensen, et on trouve le majorant

‖γn‖1p

Rd

dx

Rd

|γn(y)|‖γn‖1

|f(x− y)− f(x)|p dy

À ce stade, on applique le théorème de Tonelli pour changer l’ordre d’intégration,et on majore ‖γn‖1 uniformément par une constante C, ce qui donne le majorant

Cp−1

Rd

|γn(y)|dy‖τyf − f ‖p 6 2C p−1‖f ‖p

|x|>δ|γn(y)|dy

+Cp−1 sup ‖τyf − f ‖p : |y |6 δ

18 Quelques compléments d’intégration

Page 19: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

pour tout δ > 0. Si l’on se donne ε> 0, on peut choisir δ > 0 tel que le second termede droite soit borné supérieurement par ε, par le lemme 1.1. En faisant alors tendren→∞ pour ce choix de δ, le premier terme de droite converge vers 0 par définitiond’une approximation de l’unité, ce qui donne le résultat.

Comme exemple d’application, citons le théorème d’approximation de Weiers-trass pour les polynômes.

Théorème 1.11. Soit f une fonction continue sur un intervalle compact [a, b].Alors pour tout ε > 0, il existe un polynôme P réel tel que sup |f(x) − P (x)|:x∈ [a, b]<ε.

Démonstration. Quitte à changer f en f(2(b−a)x+(3a−b)/2), on peut supposerque a=1/4 et b=3/4 sans perte de généralité. On prolonge la fonction f à R toutentier par la valeur 0 en dehors de [0, 1], et par des fonctions affines sur [0, 1/4] et[3/4, 1] de sorte que la fonction prolongée, encore appelée f , soit continue à supportdans [0, 1]. Posons γn(x)= cn(1−x2)n

1|x|61, où

cn =1

−1

1 (1−x2)n dx

de sorte que∫

Rγn = 1. Comme γn > 0, on aura montré que (γn, n > 0) est une

approximation de l’unité si∫

|y |>δγn(y)dy→0 pour tout δ>0. Pour cela, on montre

aisément (cn−1 est une intégrale de Wallis d’ordre impair) que

cn =(2n+1)!

2.4n(n!)2∼

n→∞n

π

où l’on a utilisé la formule de Stirling pour trouver l’équivalent. On voit donc quepour tout δ ∈ ]0, 1[,

cn

|y |>δ

(1− y2)n dy6 2cn (1− δ2)n −→n→∞

0 ,

ce qui montre bien que (γn, n> 0) est une approximation de l’unité. Or

γn ∗f(x)= cn

0

1

f(y)(1− (x− y)2)n1|x−y |61dy .

Pour x, y∈ [0, 1] on a que |x− y |6 1, et par conséquen on peut enlever l’indicatricedans l’intégrale précédente. En développant le produit, on voit qu’en restrictionà [0, 1], la fonction γn∗f(x) est un polynôme (en x) de degré au plus 2n. Par laproposition 1.9, on a convergence uniforme vers la fonction f . D’où le résultat.

1.4 Approximations de l’unité 19

Page 20: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 21: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 2

Séries de Fourier

Dans ce chapitre, on étudie la décomposition d’une fonction périodique de R dans Cen termes de « signaux » élémentaires, les fonctions trigonométriques. Nous allonsnous concentrer sur les fonctions 2π-périodiques, sachant que toute la discussion dece chapitre peut être faite dans le cas d’une période quelconque. À l’origine de cettethéorie, Fourier s’intéresse à l’équation décrivant la propagation de la chaleur dansR, donnée par

∂u

∂t=

1

2

∂2u

∂x2

et dont l’inconnue est une fonction u(t, x) de deux variables, décrivant la tempé-rature d’un milieu donné au point x et au temps t. On s’intéresse de plus à dessolutions définies sur un domaine [0,∞[× [−π, π]. Fourier note que pour tout n∈N

et an, bn∈R, les fonctions

(t, x) 7→ exp (−n2t/2)(an cos (nx) + bn sin (nx))

sont des solutions, ainsi que toute somme d’un nombre fini d’entre elles. Il stipulealors que toute solution est une superposition, éventuellement infinie, de telles solu-tions élémentaires. Cela pose une double question

• sous quelles conditions une série infinie de fonctions de la forme ci-dessusconverge-t-elle ?

• sous quelles condition une fonction peut-elle se représenter sous la formed’une telle série ?

Dans la suite, on note T=R/2πZ, que l’on identifie à l’intervalle ]−π, π], muni dela restriction de la mesure de Lebesgue λ(dx)=dx1−π<x6π/2π. La renormalisationpar 2π de la mesure de Lebesgue est utile en de nombreuses occasions, et elle serasystématique. En particulier, si f , g sont deux fonctions intégrables sur T, onadoptera la notation renormalisée

f∗g(x) =1

−π

π

f(x− y)g(y)dy .

Une fonction f sur T est naturellement associée à une fonction f :R→C périodiquede période 2π, et vice-versa. Pour k>0, on notera Ck(T,C) l’espace des fonctions surT dont l’extension à R tout entier est de classe Ck(R,C). On notera Lp(T)=Lp(T,B(T), λ).

21

Page 22: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

L’espace L2(T) est muni du produit scalaire hermitien usuel, qui en fait un espacede Hilbert

(f , g) =1

−π

π

f(x) g(x) dx.

2.1 Polynômes et séries trigonométriques

Pour tout n ∈ Z, notons en la fonction en(x) = exp (inx), qui est continue et 2π-périodique.

Lemme 2.1. La famille (en, n∈Z) est orthonormale dans L2(T).

Démonstration. Il suffit de constater que si n=/ m,

(en, em) =1

−π

π

exp (i(m−n)x) =

[

exp (i(n−m)x)

i(n−m)

]

−π

π

=0 ,

et que cette même intégrale vaut 1 si m=n.

Définition 2.2. Une combinaison linéaire des fonctions (en, n ∈ Z) est appeléeun polynôme trigonométrique. Le degré d’un polynôme trigonométrique est la plusgrande valeur de |n| pour laquelle le coefficient de en est non nul.

Notons que l’écriture∑

n∈Zcn en d’un polynôme trigonométrique, où (cn, n∈Z)

est une suite à support fini, est unique, puisque (en, n∈Z) est une famille libre.

Théorème 2.3. (Théorème d’approximation de Weierstrass) L’espaceVect(en, n ∈ Z) est dense dans C(T,C) : toute fonction continue sur T est limiteuniforme d’une suite de polynômes trigonométriques.

Ce théorème est la conséquence d’un résultat très général.

Théorème 2.4. (Stone-Weierstrass) Soit X un espace topologique compact, etA une algèbre de fonctions continues X → C contenant au moins une fonctionconstante, stable par conjugaison complexe f 7→ f, et qui sépare les points, au sensoù pour tout x, y ∈X avec x=/ y, il existe f ∈A telle que f(x) =/ f(y).

Alors A est dense dans C(X,C) pour la norme uniforme.

On laisse en exercice le soin de vérifer que le théorème s’applique dans le casoù X = T et où A est l’algèbre des polynômes trigonométriques. Nous donneronsun peu plus loin deux autres preuves, plus directes et ad hoc, du Théorème 2.3. Lethéorème de Stone-Weierstrass sera démontré à la fin du chapitre.

Une série trigonométrique est une somme infinie de la forme∑

n∈Z

cn en .

Bien sûr une telle série n’est pas définie pour tout choix de (cn, n ∈ Z). On anéanmoins le résultat suivant.

22 Séries de Fourier

Page 23: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 2.5. Soit (cn, n ∈ Z) une suite sommable de nombres complexes.Alors la série trigonométrique

n∈Zcnen converge normalement vers une fonction

f continue sur T. De plus, on a que cn = cn(f) pour tout n∈Z.

Démonstration. La convergence normale est immédiate puisque ‖en‖∞ = 1. Ondéduit le résultat du théorème classique d’interversion entre somme et intégrale,conséquence de la convergence dominée.

Un exemple important de séries trigonométriques est donné à partir de sériesentières. En effet, si S(z)=

n>0sn z

n est une série entière de rayon de convergence

R > 0, alors pour tout r ∈ [0, R[, la série S(reix) =∑

n>0rnsne

inx convergenormalement.

Exemple 2.6. La série trigonométrique suivante converge normalement pour toutr ∈ [0, 1[.

n∈Z

r|n|einx =1− r2

1− 2r cos (x)+ r2,

on l’appelle le noyau de Poisson, il joue un rôle important en analyse.

Si f =∑

n∈Zcn en est la somme d’une série entière normalement convergente, on

peut retrouver le coefficient cn par la formule

cn =1

−π

π

f(x) e−inxdx=(en, f).

Il suffit pour le voir d’intervertir la somme et l’intégrale (ce qui est valide car la sérieconverge uniformément, et l’intégrale est sur un compact), et utiliser le lemme 2.1.Ceci motive la définition ci-dessous.

2.2 Série de Fourier d’une fonction

Soit f ∈L1(T). Le n-ème coefficient de Fourier de f , où n∈Z, est par définition lenombre

cn(f) =1

−π

π

f(x)exp(−inx)dx.

Si f ∈L2(T), ce nombre est bien sûr égal au produit scalaire (en, f), mais la quantitéci-dessus est bien définie dès que f est intégrable. La définition et le lemme de Rie-mann-Lebesgue montré au chapitre précédent donnent immédiatement le résultatsuivant.

Proposition 2.7. Soit f ∈L1(T). Alors on a que |cn(f)|6 ‖f ‖1 pour tout n∈Z.De plus, cn(f)→ 0 lorsque |n|→∞.

Remarque 2.8. En revanche, il n’est pas vrai que toute suite de nombre complexesde limite nulle à l’infinie est la suite des coefficients de Fourier d’une fonction inté-grable.

2.2 Série de Fourier d’une fonction 23

Page 24: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Pour N > 0, la N -ème somme de Fourier de f est par définition le polynômetrigonométrique

SNf =∑

n=−N

N

cn(f) en .

Soit f ∈L1(T). Notons que l’on a une autre écriture de cette somme, en regroupantles termes deux par deux. En effet, pour tout n> 0,

cn(f)einx + c−n(f)e−inx =1

π

−π

π

f(y)cos(n(x− y))dy

= an(f)cos(nx)+ bn(f)sin(nx)

an(f)=1

π

−π

π

f(x)cos(nx) dx , bn(f)=1

π

−π

π

f(x)sin(nx) dx.

Avec la convention a0(f) = (1/π)∫

−π

πf(x)dx= 2c0(f), on obtient ainsi que

SNf(x) =a0(f)

2+∑

n=1

N

(an(f) cos (nx) + bn(f) sin (nx)) .

On appelle cette expression l’écriture réelle de la somme de Fourier de f . Noter queles coefficients an(f), bn(f), sont des nombres complexes en général.

Proposition 2.9. Si f est à valeurs réelles, on a

an(f) = 2ℜ(cn(f)), et bn(f) =−2ℑ(cn(f)).

La question que l’on se pose alors est celle de la convergence de SNf , lorsqueN→∞. Un cas particulier relativement simple est quand la suite de coefficients deFourier est sommable.

Proposition 2.10. Soit f ∈L1(T) telle que la famille (cn(f), n∈Z) est sommable,c’est-à-dire dans ℓ1(Z). Alors sa série de Fourier

n∈Zcn(f) en converge normale-

ment, et est de plus égale à f presque partout.

Lemme 2.11. Soit f , g∈L1(T) telles que cn(f)=cn(g) pour tout n∈Z. Alors f = g.

Démonstration. Posons h= f − g∈L1(T), de sorte que cn(h)=0 pour tout n∈Z.Alors on a que pour tout polynôme trigonométrique P ,

1

T

P (x)h(x)dx= 0 .

Par le théorème de Weierstrass, on en déduit que∫

Tψ(x)h(x)dx = 0 pour toute

fonction ψ continue sur T. En utilisant la densité des fonctions continues dansl’espace L1(T, h(x)dx), on obtient la même identité pour tout ψ dans cet espace.En appliquant le résultat à |h(x)|1h(x)=/ 0/h(x), qui est bornée par 1 en module etdonc dans cet espace, on obtient que

T|h(x)|dx= 0. Donc h= 0.

24 Séries de Fourier

Page 25: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration de la proposition 2.10. Le fait que la série trigonométrique∑

n∈Zcn(f) en converge normalement vers une fonction continue g telle que cn(g)=

cn(f) pour tout n∈Z est une conséquence de la proposition 2.5. On en déduit quef = g presque partout par le lemme 2.11.

2.3 Convergence des séries de Fourier dans L2

La réponse la plus simple à la question précédente est que dans le cadre L2 hilbertien,cette convergence a toujours lieu.

Une conséquence du théorème d’approximation de Weierstrass est que la familleen, n∈Z forme une base hilbertienne de L2(T), c’est-à-dire que tout élément deL2(T) se décompose comme série sur cette base. Rappelons la preuve de ce fait, quiest un résultat général sur les espaces de Hilbert.

Théorème 2.12. Pour toute fonction f ∈ L2(T), la famille (cn(f), n ∈ Z) est decarré sommable, et de plus, l’application f 7→ (cn(f), n∈Z) réalise une isométrie deL2(T) sur ℓ2(Z), muni de la structure hilbertienne usuelle :

‖f ‖L2(T)2 =

1

−π

π

|f(x)|2dx=∑

n∈Z

|cn(f)|2 = ‖(cn(f), n∈Z)‖ℓ2(Z)2 .

Cette identité s’appelle égalité de Parseval.

Démonstration. Ce résultat est un théorème général sur les espaces de Hilbertmunis d’une base hilbertienne, c’est-à-dire une famille orthonormale qui engendreun sous-espace dense. Nous la redonnons dans le cas particulier qui nous intéresse.

Pour tout N > 0, soit TN = Vect(en, −N 6 n 6 N) l’espace des polynômestrigonométriques de degré au plus N . Par définition, la somme de Fourier SNf estla projection orthogonale de f sur TN. On a alors par le théorème de Pythagore

‖f ‖22 = ‖f −SNf ‖2

2 + ‖SNf ‖22 = ‖f −SNf ‖2

2 +∑

n=−N

N

|cn(f)|2 .

Comme tous les termes sont positifs, on a que

‖f ‖22 >

n=−N

N

|cn(f)|2

pour tout N , et donc

‖f ‖22 >∑

n∈Z

|cn(f)|2 ,

ce que l’on appelle l’inégalité de Bessel. On utilise alors le théorème d’appproxima-tion de Weierstrass : comme Vect(en, n∈Z) est dense dans C(T,C) pour la normeuniforme, la même chose est vraie pour la norme L2, et par densité des fonctionscontinues dans les fonction L2, on déduit que Vect(en, n ∈ Z) est dense pour lanorme L2 dans L2(T). On en déduit que pour tout ε > 0, il existe un polynômetrigonométrique P tel que ‖f −P ‖2<ε. Mais si le degré de P est N0, on voit que

‖f −SN0f ‖2 6 ‖f −P ‖2<ε ,

2.3 Convergence des séries de Fourier dans L2 25

Page 26: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

par la propriété de la projection orthogonale : SN0f est le point de TN0

le plusproche de f en norme L2. On en déduit immédiatement que SNf→ f dans L2(T).Finalement, on a bien que l’inégalité de Bessel est une égalité.

Il reste à montrer que l’application f 7→ (cn(f), n ∈ Z) est surjective sur ℓ2(Z).Mais si (cn, n∈Z) est de carré sommable, alors

n∈Zcn en converge dans L2(T) et

définit un élément f , tel que cn(f)= (en, f) = cn, d’où le résultat.

Corollaire 2.13. Pour tout f ∈L2(T), on a que la somme∑

n∈Zcn(f) en converge

dans L2(T) et est égale à f. C’est également la limite de SNf dans L2(T) lorsqueN→∞.

Il convient cependant de ne pas se laisser abuser par l’énoncé précédent. En effet,il ne stipule absolument pas que les deux fonctions

f(x) et∑

n∈Z

cn(f)exp(inx)

sont égales en tout x, ni même en un seul x : en fait, la convergence de la série àdroite en un point donné n’est pas garantie, puisque cn(f) est seulement supposéede carré sommable.

2.4 Convergence ponctuelle des séries de Fourier

La question de savoir si l’on a convergence en un point x de la série de Fourierd’une fonction est un problème en général très difficile. Nous allons donner quelquesrésultats très partiels en ce sens. De façon évidente à partir de nos résultats sur lesséries trigonométriques, on a que SNf converge uniformément vers f dès lors que∑

n∈Z|cn(f)|<∞. Nous allons montrer que cela est impliqué par une condition de

régularité de f .

2.4.1 Le cas C1 par morceaux

Une remarque importante est que la série de Fourier peut être représentée par unproduit de convolution.

Définition 2.14. Le noyau de Dirichlet d’ordre N est la fonction

DN(x)=∑

n=−N

N

einx =sin ((N +1/2)x)

sin (x/2), x∈T.

Pour vérifier la formule annoncée, il suffit de constater que la somme est géomé-trique, et vaut (ei(N+1)x − e−iNx)/(eix − 1) et factoriser haut et bas par eix/2.

Lemme 2.15. Soit f ∈L1(T). La N-ème somme de Fourier de f est donnée par

SNf(x)=DN∗f(x) , x∈T.

26 Séries de Fourier

Page 27: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

La preuve est immédiate : par définition

SNf(x) =∑

n=−N

N1

−π

π

f(y)ein(x−y) dy=1

−π

π

f(y)DN(x− y) dy .

Il est assez tentant d’appliquer les résultats sur les approximations de l’unité duchapitre précédent. Malheureusement, la famille (DN , n> 0) n’est pas une approxi-mation de l’unité, même si l’on a la propriété que

1

−π

π

DN(x) dx=1 ,

ce qui est clair à partir de la définition de DN comme somme de fonctions trigono-métriques.

Théorème 2.16. Soit f : T → C une fonction de classe C1(T, C) par morceaux.Pour tout x∈T, on a la convergence

SNf(x) −→N→∞

f(x+ )+ f(x− )

2= f (x) ,

où f(x− ), f(x+ ) désignent les limites à gauche et à droite de f en x.

Démonstration. Fixons x∈T. On écrit, en utilisant le fait queDN est une fonctionpaire

SNf(x)=DN∗f(x)=1

0

π

f(x− y)DN(y)dy+1

0

π

f(x+ y)DN(y)dy .

Comme DN est d’intégrale (normalisée) 1, on en déduit que

SNf(x)− f (x)=1

0

π(

f(x− y) + f(x+ y)− 2f (x))

DN(y)dy .

Notons g(y) =(

f(x − y) + f(x + y) − 2f (x))

/sin (y/2) pour y =/ 0, et g(0) =

f ′(x+ )− f ′(x− ). Alors la fonction g est continue sur T, et

SNf(x)− f (x) =1

0

π

g(y) sin

((

N +1

2

)

y

)

dy −→N→∞

0

par le lemme de Riemann-Lebesgue.

De même, on montrerait le résultat suivant par la même méthode.

Proposition 2.17. Soit f :T→C une fonction Hölder-continue d’exposant α∈ ]0,1], c’est-à-dire telle qu’il existe C ∈ ]0,∞[ avec

|f(x)− f(y)|6C |x− y |α , x, y ∈T.

Alors SNf(x) converge en tout point vers f.

On peut se demander si le résultat précédent peut se renforcer en une convergenceuniforme. Clairement, si f n’est pas continue, il n’est pas possible de l’approcheruniformément par une suite de fonctions continues, donc par un polynôme trigono-métrique. Nous allons

2.4 Convergence ponctuelle des séries de Fourier 27

Page 28: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 2.18. Soit f :T→C une fonction de classe C1(T,C), ou plus géné-ralement continue, et de classe C1 par morceaux. Alors

cn(f′)= incn(f) .

De plus, on a que∑

n∈Z|cn(f)|<∞. En particulier, la série de Fourier converge

normalement vers f, et les sommes de Fourier SNf convergent uniformément vers f.

Démonstration. L’identité sur les coefficients de Fourier est immédiate par inté-gration par parties

−π

π

f ′(x)e−inx dx= [f(x)e−inx]−ππ + in

−π

π

f(x)e−inx dx ,

en constatant que le terme de crochet est nul par périodicité. Comme on a supposéque f ′ est une fonction continue sur T, elle est en particulier dans L2 et donc sescoefficients de Fourier forment une famille de carré sommable. Ainsi

n∈Z

|ncn(f)|2<∞ .

Ensuite, on utilise l’inégalité de Cauchy-Schwarz en écrivant cn(f)=ncn(f)/n :

n∈Z

|cn(f)|6∑

n∈Z

|ncn(f)|2 ·∑

n∈Z

1

n2

<∞

et on en déduit que (cn(f), n∈Z) est sommable. De ce fait, les sommes de FourierSNf convergent uniformément, et la limite est f par le théorème 2.16.

Notons que cette proposition n’utilise pas les résultats que nous avons énoncéssur le cas hibertien, à l’exception de l’inégalité de Bessel stipulant que

n∈Z

|cn(g)|2 6 ‖g‖22

pour toute fonction g de carré intégrable, ce qui est simplement une conséquencedu théoème de Pythagore. Or, en constatant que SNf est un polynôme trigonomé-trique pour tout N , ceci montre par un argument différent la densité des polynômestrigonométriques dans C1(T, C) pour la norme uniforme, et donc dans C0(T, C)(théorème de Weierstrass).

2.4.2 Convergence de Cesaro

Enfin, une manière d’obtenir une convergence uniforme pour des fonctions continuesest de remplacer la convergence des sommes de Fourier par leur moyenne de Cesaro

CNf(x)=S0f(x)+ ···+SN−1(x)

N.

Théorème 2.19. Soit f ∈ C0(T,C). Alors la suite (CNf , N > 1) converge unifor-mément vers f.

28 Séries de Fourier

Page 29: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration. On constate d’abord que

CNf =KN∗foùKN(x)=N−1

k=0

N−1Dk(x) est le noyau de Féjer . Ceci est une conséquence directe

du fait que SNf =DN∗f et de la définition de CN. On constate alors que

KN(x) =1

N

k=0

N−1∑

n=−k

k

einx =1

N

k=0

N−1ei (k+1)x − e−ikx

eix − 1

=1

N(eix − 1)

(

eiNx − 1

1− e−ix− 1− e−iNx

1− e−ix

)

=2−2 cos (Nx)

N |eix − 1|2 =1

N

sin2 (Nx/2)

sin2 (x/2)

À partir de la définition de KN, on voit que∫

−π

πKN(y)dy = 2π, et par la formule

précédente, on a KN > 0. Enfin, on a clairement que pour tout δ ∈ ]0,π[,∫

−π

π

KN(y)1|y |>δdy61

N

sin2 (δ/2)−→

N→∞0 .

Donc (KN , N > 1) est une approximation de l’unité, et le résultat découle de laproposition 1.9.

Remarquons que CNf est un polynôme trigonométrique pour tout N , et donc cerésultat nous donne une troisième preuve, encore différente des deux autres, de ladensité des polynômes trigonométriques dans C0(T,C).

2.5 *Preuve du théorème de Stone-Weierstrass

On montre d’abord que la fonction x 7→ |x| peut être approximée uniformément sur[−1, 1] par une suite de polynômes réels. Pour cela, on peut utiliser le théorèmed’approximation de Weierstrass pour les polynômes. Ou bien, on peut utiliser lefait que |x|= 1− (1−x2)

=∑

n>0

(

1/2n

)

(−(1−x2))n, du fait du développement en

série entière de la fonction z 7→ 1− z√

, où la convergence des sommes partielles dela série a lieu uniformément sur [−1, 1].

Supposons d’abord que l’algèbre A soit formée de fonctions à valeurs réelles.Notre but est de montrer que l’adhérence de A est égale à C0(X,R), et sans pertede généralitén on peut supposer que A est fermée. Dans ce cas, pour toute fonctionf ∈A, on a que P (f)∈A pour tout polynôme réel P , puisqueA contient les fonctionsconstantes. Comme f est continue sur X compact, elle est bornée, et f/‖f ‖∞ prendses valeurs dans [−1,1]. Par le résultat d’approximation de la valeur absolue rappeléplus haut, et comme A est fermée, on en déduit que |f |/‖f ‖∞∈A, et donc |f | ∈A.

On en déduit alors que pour tout f , g ∈A, les fonctions

f ∧ g=f + g− |f − g |

2, f ∨ g=

f + g+ |f − g |2

sont aussi dans A.

2.5 *Preuve du théorème de Stone-Weierstrass 29

Page 30: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Fixons maintenant une fonction f ∈C(X,R), et x∈X. Pour tout y∈X, commeA sépare les points, on peut trouver une fonction gx,y ∈A telle que gx,y(x) = f(x)et gx,y(y) = f(y). Pour tout ε > 0, il existe alors un voisinage Vx,y de y tel quegx,y(z) > f(z) − ε pour tout z ∈ Vx,y. Par compacité, on peut recouvrir X par unnombre fini de tels voisinages, disons Vx,y1

, ..., Vx,yk. Notons gx=max (gx,y1

, ..., gx,yk),

de sorte qu’on a gx ∈ A par ce que l’on a montré ci-dessus. La construction étantvalide pour tout x ∈ X, on obtient une famille de fonctions (gx, x ∈ X) telles quegx(x)=x et gx(z)> f(z)− ε pour tout z ∈X.

Pour tout x, on peut alors trouver un voisinage Vx de x tel que gx(z)< f(z)+ ε

pour tout z ∈ Vx. Comme précédemment, on peut trouver un sous-recouvrementfini par Vx1

, ..., Vxldisons. Si l’on pose g=min (gx1

, ..., gxl)∈A, on obtient que pour

tout z ∈X, on a f(z)− ε < g(z)< f(z) + ε, c’est-à-dire que ‖f − g‖∞<ε. D’où lerésultat dans le cas où A est constitué de fonctions réelles.

Dans le cas complexe, on utilise le fait que A est stable par conjugaison pourobtenir que si f ∈ A, alors ℜf et ℑf sont aussi dans A. Donc A contient unealgèbre de fonctions réelles qui séparent les points, et qui contient les fonctionsconstantes, et donc son adhérence contient C(X,R). Donc l’adhérence de A contientC(X,C) en approchant partie réelle et partie imaginaire de la fonction que l’on essaied’approcher.

30 Séries de Fourier

Page 31: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 3

La transformée de Fourier dans Rd

Dans tout ce chapitre, nous travaillerons avec la mesure de Lebesgue sur Rd renor-malisée par (2π)d/2, que nous noterons λd(dx)=dx/(2π)d/2, plutôt qu’avec la mesurede Lebesgue standard. La raison de ce choix apparaîtra un peu plus tard.

3.1 Transformée de Fourier d’une fonction inté-grable

DéfinitionsSoit f ∈L1 =L1(Rd,B(Rd), λd). Pour tout ξ ∈Rd, on note

f (ξ) =1

(2π)d/2

Rd

exp (−i〈ξ, x〉)f(x)dx

=

Rd

exp (−i〈ξ, x〉)f(x)λd(dx)

Comme l’intégrande a pour module |f(x)|, qui est intégrable, cette intégrale est biendéfinie pour tout ξ ∈Rd. On dit que la fonction f est la transformée de Fourier def. Plus généralement, si f ∈L1, alors la formule ci-dessous détermine également unefonction f indépendante du choix du représentant de f dans L1. Par la suite, nousne préciserons pas toujours si l’on travaille avec une fonction mesurable ou avec uneclasse de fonctions égales presque partout.

Il est légitime de se demander pourquoi la normalisation ci-dessus a été choisie.Notons que formellement, on peut noter

f (ξ)= 〈eξ, f 〉L2

où 〈., .〉L2 est le produit scalaire hermitien usuel sur L2 = L2(Rd, B(Rd), λd) définipar 〈f , g〉L2 =

Rdf(x)g(x)dx/(2π)d/2, et eξ(x) = exp (i〈ξ, x〉). Bien sûr, eξ n’est

pas un élément de L2, donc cette écriture est seulement formelle. La raison pour larenormalisation par (2π)d/2 apparaîtra plus clairement plus loin, lorsque l’on verra

que l’application f 7→ f est une isométrie sur une partie dense de L2.

a. Propriétés élémentaires.La transformée de Fourier est clairement C-linéaire: si f , g sont intégrables et

a∈C, on a af + g = af + g .Si f est une fonction mesurable, et y ∈Rd, on note

τyf(x)= f(x− y) et eyf(x)= ei〈y,x〉f(x), x∈Rd

31

Page 32: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Soit f ∈L1 et y ∈Rd. Alors

τyf = e−yf , et eyf = τyf . (3.1)

La première formule s’obtient par un simple changement de variable, et la secondeest une conséquence immédiate de la définition.

Si maintenant M est une matrice de GLd(R), et si g(x) = f(M−1x), où f esttoujours supposée intégrable, on a

g(ξ)= |detM |f (M∗ξ) (3.2)

où M ∗ est la matrice transposée de M . À nouveau, ceci s’obtient facilement par unchangement de variables3.1 linéaire (poser u=M−1x) dans l’intégrale

g(ξ)=1

(2π)d/2

Rd

e−i〈ξ,x〉f(M−1x)dx,

en notant que 〈ξ, Mu〉 = 〈M∗ξ, u〉. Par exemple, pour M la matrice diagonaledont tous les coefficients diagonaux sont égaux à un réel non nul a, on obtientg(x) = f(x/a) et

g (ξ)= |a|df (aξ). (3.3)

Pour a=−1, ceci donne, si l’on note Rf(x)= f(−x), la formule

Rf (ξ)= f (−ξ)=Rf (ξ).

Par ailleurs, notons que

f (−ξ)=1

(2π)d/2

Rd

e−i〈ξ,x〉f(x)dx = f (ξ),

où z est le complexe conjugué de z. On peut réécrire cela sous la forme concise

=Rf . (3.4)

Noter que si f est réelle, alors cela se simplifie en f (ξ) = f (−ξ), et si on suppose

que f est réelle et paire, alors clairement f (ξ) = f (−ξ) et on en déduit que f estune fonction paire à valeurs réelles.

b. Continuité, lemme de Riemann-Lebesgue

Proposition 3.1. Soit f une fonction de L1. Alors la fonction f est continue, etvérifie

∥ f∥

∞6 ‖f ‖1 .

En particulier, l’application linéaire f 7→ f de L1 dans L∞ est continue. Par ailleurs,on a

lim|ξ |→∞

f (ξ) = 0.

3.1. Nous verrons au le chapitre suivant quelques compléments concernant le changement de variables,dont une justification de cette formule

32 La transformée de Fourier dans Rd

Page 33: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Noter que la proposition implique en particulier que f est uniformément continue(exercice). Le fait qu’une transformée de Fourier (d’une fonction intégrable) soitnulle à l’infini est appelé Lemme de Riemann-Lebesgue. Noter également le fait sui-vant: même si l’on suppose que f est un élément de L1, la même conclusion est vraie:rappelons qu’une transformée de Fourier de fonction L1 est bien définie partout, etdéfinit bien une vraie fonction et non une classe de fonctions. En particulier, parlerde continuité de f a bien un sens.

Démonstration. La continuité est une conséquence triviale de (3.1) et de la conti-nuité sous le signe intégrale.

Le fait qu’une transformée de Fourier soit une fonction mesurable bornéeimplique que, si f , φ sont toutes deux dans L1, alors fφ et fφ sont dans L1. L’énoncésuivant est appelé « formule de réciprocité ».

Proposition 3.2. Soit f , φ∈L1. Alors on a∫

Rd

f(x)φ(x)dx=

Rd

f (ξ)φ(ξ)dξ.

Démonstration. La fonction (x, ξ) 7→ ei〈ξ,x〉f(x)φ(ξ) est intégrable par rapportà dxdξ, ce qui est exactement ce dont on a besoin pour appliquer le théorème deFubini permettant l’interversion suivante:

Rd

f(x)dx

Rd

e−i〈x,ξ〉φ(ξ)dξ

(2π)d/2=

Rd

φ(ξ)dξ

Rd

e−i〈ξ,x〉f(x)dx

(2π)d/2,

ce qui est exactement ce qu’on voulait.

c. Régularité

Proposition 3.3. Soit f ∈ L1 une fonction telle que x 7→ |x|f(x) est intégrable.Alors la fonction f est de classe C1(Rd,C) et de plus, pour tout j∈1,2, ..., d, on a

∂f

∂ξj

(ξ) =−∫

Rd

e−i〈ξ,x〉ixjf(x)dx

(2π)d/2,

qui est la transformée de Fourier de x 7→ ixjf(x).Plus généralement, si x 7→ |x|kf(x) est intégrable pour un entier k>1, alors f est

de classe Ck(Rd,C), et pour tout α=(α1, ...,αd)∈Nd tel que |α|=∑j=1

dαj 6k, on a

∂|α|f

∂ξ1α1...∂ξd

αd(ξ)=

Rd

e−i〈ξ,x〉(−ix)αf(x)dx

(2π)d/2,

où l’on note par convention xα =x1α1...xd

αd.

Pour simplifier, on notera par la suite ∂xαh= ∂|α|h/∂x1α1...∂xd

αd les dérivées par-tielles d’une fonction x 7→h(x). Par exemple, si h est une fonction de deux variablesx et y, on pose ∂xh= ∂h/∂x, ou ∂xyh= ∂2h/∂x∂y.

Démonstration. C’est une conséquence immédiate du théorème de dérivation sousle signe intégrale, en remarquant que |ei〈ξ,x〉(ix)αf(x)|6 |x|k|f(x)|.

3.1 Transformée de Fourier d’une fonction intégrable 33

Page 34: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

On voit donc qu’une propriété de décroissance à l’infini de f implique une pro-priété de régularité de f . Nous allons montrer une sorte de propriété duale de celleci: la régularité de f implique une propriété de décroissance à l’infini de f .

Proposition 3.4. Soit f ∈L1∩C1(Rd,C) une fonction de classe C1 intégrable, telleque ∂f/∂xj est intégrable pour tout j ∈1, 2, ..., d. Alors on a

∂f

∂xj

(ξ)= iξjf (ξ).

Plus généralement, si l’on suppose qu’il existe un entier k> 1 tel que f ∈Ck(Rd,C)et ∂xαf ∈L1 pour tout multi-indice α vérifiant |α|6 k, alors on a, pour ces mêmesmulti-indices,

∂xαf (ξ)= (iξ)αf (ξ).

Remarque. En réalité l’hypothèse que f est de classe C1(Rd,C) est superflue, ilsuffit de supposer que les dérivées partielles considérées existent en tout point (maispas seulement en presque tout point !). En utilisant le Théorème 7.21 du livre deRudin, stipulant que si f est dérivable en tout point d’un intervalle [a, b] et a sadérivée f ′ dans L1, alors on a

x

yf ′(z)dz= f(y)− f(x), la preuve ci-dessous s’adapte

verbatim.

Démonstration. Supposons sans perte de généralité que j=1. Pour un (x2, x3, ...,

xd)∈Rd−1 fixé, on a

f(y, x2, x3, ..., xd)− f(x, x2, x3, ..., xd)=

x

y

∂x1f(z, x2, x3, ..., xd)dz.

Comme f et ∂x1f sont supposées intégrables, le théorème de Fubini montre que pourλd−1-presque tout (x2, ...,xd), les fonction x 7→ f(x,x2, ...,xd) et x 7→∂x1f(x,x2, ...,xd)sont intégrables. On déduit de la formule précédente que pour λd−1-presque tout(x2, ..., xd), la fonction x 7→ f(x, x2, ..., xd) admet une limite en ±∞. Comme f estintégrable, cette limite est nulle pour λd−1-presque tout (x2, ..., xd), par une nouvelleapplication du théorème de Fubini. On écrit alors, en notant x′ = (x2, ..., xd) etξ ′= (ξ2, ..., ξd),

(2π)d/2∂x1f (ξ) =

Rd−1

e−i〈ξ ′,x′〉dx′ limK→∞

−K

K

e−iξ1x1∂x1f(x1, x′)dx1

=

Rd−1

e−i〈ξ ′,x′〉dx′

× limK→∞

(

[e−iξ1x1f(x1, x′)]x1=−K

x1=K + iξ1

−K

K

e−iξ1x1f(x1, x′)dx1

)

= iξ1

Rd−1

e−i〈ξ ′,x′〉dx′∫

−∞

∞e−iξ1x1f(x1, x

′)dx1 = (2π)d/2iξ1f (ξ).

Ici, on a utilisé le théorème de Fubini à la première et dernière étapes, et les observa-tions précédentes conjointement à une intégration par parties pour les autres étapes.

Le résultat plus général s’obtient par une récurrence aisée, qui est laissée aulecteur.

34 La transformée de Fourier dans Rd

Page 35: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Le lemme de Riemann-Lebesgue appliqué à ∂xαf , conjointement au précédentrésultat, donne le résultat suivant.

Corollaire 3.5. Si l’on suppose qu’il existe un entier k>1 tel que f ∈Ck(Rd,C) et∂xαf ∈L1 pour tout multi-indice α vérifiant |α|6 k, alors on a

f (ξ)= o

(

1

|ξ |k)

.

d. Lien avec la convolutionLa transformée de Fourier est un morphisme multiplicatif pour la convolution

dans L1. Nous noterons, lorsque cela a un sens,

f ∗g(x) =1

(2π)d/2

Rd

f(x− y)g(y)dy ,

=

Rd

f(x− y)g(y)λd(dy)

avec la normalisation par (2π)d/2, contrairement à la convention adoptée au premierchapitre.

Proposition 3.6. Soit f , g∈L1, alors on a f ∗g (ξ)= f (ξ)g(ξ) pour tout ξ ∈Rd.

Démonstration. On écrit simplement

f ∗g (ξ) =

Rd

e−i〈ξ,x〉λd(dx)

Rd

f(x− y)g(y)λd(dy)

=

Rd

g(y)λd(dy) τyf (ξ) = f (ξ)

Rd

e−i〈ξ,y〉g(y)λd(dy),

où l’on a appliqué le théorème de Fubini dans la deuxième inégalité, (x, y) 7→e−i〈ξ,x〉f(x− y)g(y) étant clairement intégrable par rapport à dxdy.

Cette propriété élémentaire est l’une des plus importantes de la transformée deFourier. On verra en particulier le rôle qu’elle joue lorsqu’on somme des variablesaléatoires indépendantes.

3.2 L’exemple de la densité gaussienne.

Pour σ > 0, on note

gσ(x)=1

σdexp

(

−|x|22σ2

)

, x∈Rd,

que l’on appelle densité gaussienne isotrope dans Rd. Notons que l’on a la relationélémentaire de changement d’échelle suivante : pour tout σ > 0,

gσ(x)=1

σdg1

(

x

σ

)

, x∈Rd. (3.5)

3.2 L’exemple de la densité gaussienne. 35

Page 36: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 3.7. Pour tout σ > 0, on a que∫

Rdgσ(x)λd(dx)= 1.

Démonstration. Du fait de la relation (3.5), il suffit de montrer ce résultat pour

σ= 1. Par ailleurs, comme g1(x) =∏

i=1

dexi

2/2 , le théorème de Tonelli montre qu’ilsuffit de traiter le cas où d=1.

On utilise alors le théorème de Tonelli et un changement de variables en coor-données polaires pour obtenir :(∫

R

e−

x2

2 dx

)

2

=

R2

e−x2+y2

2 dxdy=

R+

rdre−r2

2

−π

π

dθ=2π

[

−e−r2

2

]

r=0

r=∞

= 2π,

d’où le résultat.

Comme g1 est une fonction positive, noter que pour la relation (3.5) implique quepour toute suite (σn, n> 0) strictement positive de limite nulle, la suite (gσn

, n> 0)est une approximation de l’unité.

Il est évident que la fonction gσ est une fonction de classe C∞(Rd, C), et desurcroît que |x|k∂xαgσ(x) est de limite nulle lorsque |x| → ∞ pour tout k > 0 ettout multi-indice α. On dit que gσ est un élément de la classe de Schwartz S. Enparticulier, gσ et toutes ses dérivées partielles sont dans L1, et on peut bien parlerde leur transformée de Fourier.

Proposition 3.8. On a, pour tout ξ ∈Rd,

gσ(ξ)= exp

(

− σ2|ξ |22

)

=1

σdg1/σ(ξ).

Démonstration. Du fait de la relation (3.5), les propriétés usuelles de la trans-formée de Fourier donnent que gσ(ξ) = g1(σξ), et il suffit donc de traiter le cas oùσ=1. Par ailleurs, de façon similaire à la preuve de la proposition 3.7, il suffit, parune application du théorème de Fubini, de montrer le résultat pour d=1. On supposedonc maintenant que σ=1, d=1, et on pose g= g1. Les remarques précédant l’énoncéde la proposition, jointes aux propositions 3.3 et 3.4, montrent que

g ′(ξ) =−i

Rd

e−iξxxe−x2

2dx

2π√ = i

Rd

e−iξxg ′(x)dx

2π√ = ig ′(ξ)=−ξ g(ξ).

La fonction g est donc solution de l’équation différentielle h′(ξ) =−ξh(ξ), et doncon a

g(ξ)= g(0)e−ξ2/2, ξ ∈R,

et comme g(0)=∫

Rdg(x)dx/ 2π

√=1 par la proposition 3.7, on conclut.

3.3 La formule d’inversion

Le résultat principal de ce chapitre dit que, lorsque l’on peut prendre la transforméede Fourier de f , cette transformée égale Rf presque partout.

36 La transformée de Fourier dans Rd

Page 37: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Théorème 3.9. Soit f ∈L1 une fonction telle que f ∈L1. Alors si l’on pose

g(x) =1

(2π)d/2

Rd

ei〈x,ξ〉f (ξ)dξ,

on a que f(x) = g(x) pour λd-presque tout x, c’est-à-dire que f = g dans L1. Defaçon concise, si Rf(x) = f(−x),

Rfˆ

=f

Remarque. Noter que ce théorème admet la conséquence suivante, du fait de laproposition 3.1 : si f ∈L1 est telle que f ∈L1, alors f (et f ) est égale presque partoutà une fonction continue de limite nulle à l’infini. Cela restreint donc sensiblementl’ensemble des fonctions auxquelles le théorème précédent est susceptible de s’appli-quer !

Avant de donner la preuve, notons qu’une approche naïve consisterait à appliquerla formule de réciprocité (Proposition 3.2) dans la définition de g(x), et à écrire

g(x) =1

(2π)d/2

Rd

ei〈x,·〉(y)f(y)dy.

Le problème est que cette expression n’a pas de sens bien défini, car ex = ei〈x,·〉

n’est pas un élément de L1. Néanmoins, on peut se convaincre que la seule valeur «naturelle » à donner à ex(y) est 0 si y=/ x et +∞ si y=x, ce qui semble indiquer quela « fonction » ex est la masse de Dirac en x. On peut donner un sens à cela dansle cadre de la théorie des distributions qui sera étudiée en M1 : en fait, le théorème3.9 permet de définir ex = δx .

Démonstration du théorème 3.9. Comme l’approche naïve décrite ci-dessus nepeut pas fonctionner, l’idée est de « lisser » les fonctions considérées par convolutionavec une gaussienne. On remplace donc f par fσ = gσ∗f avec les notations duparagraphe 3.2, et on rappelle que fσ = gσf par la proposition 3.6. En utilisant laproposition 3.8 donnant gσ , et la formule de réciprocité, on calcule alors

Rd

ei〈x,ξ〉fσ(ξ)λd(dξ) =1

σd

Rd

ei〈x,ξ〉g1/σ(ξ)f (ξ)λd(dξ) (3.6)

=1

σd

Rd

ex g1/σ (y)f(y)λd(dy)

=

Rd

gσ(y−x)f(y)λd(dy)

= fσ,

où l’on a utilisé à nouveau la proposition 3.8 et les propriétés élémentaires de latransformée de Fourier à l’avant-dernière étape, et la parité de la fonction gσ à ladernière étape. Lorsque σ→ 0, on a que fσ → f dans L1 par la proposition 1.10 etles remarques effectuées après la proposition 3.7. Par ailleurs,

1

σdei〈x,ξ〉g1/σ(ξ)f (ξ)= ei〈x,ξ〉e−σ2|ξ |2/2f (ξ)−→

σ→0ei〈x,ξ〉f (ξ),

3.3 La formule d’inversion 37

Page 38: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

la convergence étant dominée par∣

∣ f (ξ)∣

∣, qui est dans L1 par hypothèse. On enconclut que le membre de gauche de (3.9) converge ponctuellement vers g(x) lorsqueσ → 0. On en conclut bien que g = f presque partout, et c’est ce qu’on voulaitdémontrer.

Corollaire 3.10. La transformée de Fourier est injective : si f , g ∈ L1 sont tellesque f = g, alors f = g.

Remarque. Attention au fait que cette égalité est valide dans L1 ! Si f , g sont devraies fonctions dans L1, alors l’énoncé dit seulement que f = g implique que f = g,λd-presque partout.

Démonstration. Si f = g , alors f − g =0 par linéarité, et comme 0 est évidemmentintégrable, on a que f − g=R0 = 0.

3.4 La transformée de Fourier L2

La formule d’inversion de la transformée de Fourier L1 est un analogue direct de laproposition 2.10 pour les séries de Fourier. On peut se demander s’il existe égalementun analogue de la théorie hilbertienne de ces séries.

Rappelons que la théorie L2 des séries de Fourier stipule que l’application f 7→(cn(f), n ∈ Z) est une isométrie, en fait un isomorphisme d’espaces de Hilbert, deL2(T,B(T), λ) sur ℓ2(Z) par la formule de Bessel-Parseval :

‖f ‖2 =∑

n∈Z

|cn(f)|2.

Une différence notable entre séries et transformée de Fourier vient du fait que L2(Rd,

B(Rd),λd) n’est pas inclus dans L1(Rd,B(Rd),λd), du fait que la mesure λd est infinie,et que la transformée de Fourier d’une fonction f ∈L2(Rd,B(Rd), λd) n’est pas unobjet bien défini a priori . Néanmoins, on a bien la propriété d’isométrie suivante.

Proposition 3.11. Soit f ∈ Cc∞(Rd,C) une application infiniment dérivable, et à

support compact. Alors f appartient à L2, et de plus l’application f 7→ f de Cc∞(Rd,C)

dans L2, est une isométrie si l’on munit ces deux espaces de la norme ‖·‖2.

Démonstration. Comme f et ses dérivées sont continues à support compact, ellessont dans L1, donc la proposition 3.1 et le corollaire 3.5 impliquent que f est danstous les ensembles Lp pour p ∈ [1, ∞]. Pour montrer la propriété d’isométrie, onécrit, pour f ∈Cc

∞(Rd,C), (et avec Rf(x)= f(−x)),∫

Rd

f (ξ)f (ξ)dξ=

Rd

f (ξ)Rf (ξ)dξ=

Rd

f(x)Rfˆ(x)dx=

Rd

f(x)f(x)dx

où l’on a utilisé (3.4), la formule de réciprocité, puis la formule d’inversion, qui

s’applique puisque f ∈L1.

38 La transformée de Fourier dans Rd

Page 39: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Comme Cc∞(Rd, C) est dense dans L2, et qu’une isométrie est uniformément

continue, on en déduit qu’il existe un unique prolongement continu de f 7→ f de L2

dans L2, qui demeure une isométrie linéaire. Pour le distinguer de la transformée deFourier classique, on le note F :L2 →L2, que l’on appelle parfois la transformée deFourier-Plancherel.

Théorème 3.12. L’application F prolonge la transformée de Fourier L1, au sens

où, si f ∈L1∩L2, alors Ff = f presque partout. De plus, F est une isométrie de L2

sur lui-même.

Démonstration. Soit f ∈ L1 ∩ L2, et fσ = gσ ∗f où gσ est la densité gaussiennedu paragraphe 3.2. On sait par la proposition 1.10 que fσ converge vers f dans L1

et dans L2, et de plus, la fonction fσ est de classe C∞(Rd, C) par une applicationaisée du théorème de dérivation sous le signe somme, en utilisant que gσ et toutesses dérivées partielles sont bornées.

Pour qu’on puisse lui appliquer la proposition précédente, on tronque fσ enintroduisant une fonction ψ de Cc

∞(Rd,C), à valeurs dans [0, 1], telle que ψ(x) = 1si |x|6 1 et ψ(x) = 0 si |x|> 2. On laisse au lecteur le soin de construire une tellefonction explicitement. Pour tout entier n> 1, posons alors hn(x) = ψ(x/n)f1/n(x),de sorte que hn∈Cc

∞(Rd) pour tout n. On a alors, pour p∈ [1,∞[,

‖hn − f ‖p 6 ‖ψ(·/n)(f1/n − f)‖p + ‖(1− ψ(·/n))f ‖p

6 ‖f1/n − f ‖p +

(∫

Rd

|f(x)|p1|x|>nλd(dx)

)

1/p

ce qui converge vers 0 lorsque n→∞. Ceci est valable en particulier pour p= 1 etp=2, et de la continuité de F :L2→L2 et de · :L1→L∞, on en déduit que Fhn = hn

converge respectivement dans L2 et dans L∞ vers Ff et f . En particulier, ces deuxfonctions sont égales presque partout.

Il ne reste plus qu’à démontrer la surjectivité de F . Or on peut construireune seconde application F prolongeant la transformée de Fourier inverse f 7→ Rf

de Cc∞(Rd, C) dans L2, qui est une isométrie linéaire pour les mêmes raisons que

précédemment. On a alors FFf = f pour toute fonction f ∈ Cc∞(Rd, C), et par

densité et continuité, on en conclut que la même chose est vraie pour tout f ∈ L2.Donc F est inversible à droite, et en particulier, elle est surjective.

Remarque. Attention, si f ∈L2 on n’a pas en général la formule

Ff(ξ) =1

(2π)d/2

Rd

e−i〈ξ,x〉f(x)dx, (3.7)

car cette formule n’a pas toujours de sens ! En revanche, on peut noter que pourtout A> 0, la formule

FAf(ξ) =1

(2π)d/2

[−A,A]de−i〈ξ,x〉f(x)dx, ξ ∈Rd

3.4 La transformée de Fourier L2 39

Page 40: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

a bien un sens, puisqu’une fonction dans L2 est localement intégrable par l’inégalitéde Cauchy-Schwarz. Comme f 1[−A,A]d converge dans L2 vers f lorsque A→∞, onen déduit que FAf = F(f1A) converge dans L2 vers Ff , ce qui est une façon dedonner un sens à l’intégrale impropre (3.7).

3.5 Transformée de Fourier d’une mesure signée

Comme on l’a mentionné brièvement un peu plus haut, la transformée de Fouriers’étend naturellement au-delà des fonctions de L1, et peut être définie même pour desobjets qui ne sont pas des fonctions (les distributions). Même si nous n’allons pastraiter de cela ici, il nous sera très utile en théorie des probabilités de manipuler latransformée de Fourier de mesures de probabilités. Il est cependant utile de traiterle cas plus général des mesures signées. Si µ est une telle mesure, on note |µ| lamesure de variation totale associée, et on rappelle qu’il s’agit d’une mesure positivefinie, dont la masse totale est notée |µ|(Rd) = ‖µ‖, et appelée norme de variationtotale de µ.

Soit donc µ une mesure signée sur Rd. On définit la transformée de Fourier deµ par la formule

µ(ξ)=1

(2π)d/2

Rd

e−i〈ξ,x〉µ(dx), ξ ∈Rd.

Un cas particulier important sera celui des mesures à densité (sous-entendu parrapport à λd), c’est-à-dire des mesures µ qui s’écrivent sous la forme

µ(dx)= f(x)dx/(2π)d/2

pour une fonction f ∈L1 à valeurs réelles3.2. Il est immédiat par définition que dansce cas on a µ(ξ) = f (ξ). Ceci permet d’étendre strictement le cadre des fonctionsL1, au moins à valeurs réelles. De fait, un certain nombre de propriétés que nousavons étudiées dans le cadre L1 restent vraies ici.

Proposition 3.13. La transformée de Fourier d’une mesure de signée µ sur Rd estune fonction continue, et bornée par ‖µ‖. De plus, si l’on a

Rd|x|k|µ|(dx)<∞,

alors µ est de classe Ck(Rd,C), et l’on a pour tout multi-indice α tel que |α|6 k,

∂xαµ(ξ) =

Rd

(−ix)αe−i〈ξ,x〉µ(dx).

Enfin, si µ et ν sont deux mesures de probabilités, on a la formule de réciprocité∫

Rd

µ(ξ)ν(dξ)=

Rd

ν (x)µ(dx).

3.2. En fait, on pourrait aussi définir la transformée de Fourier d’une mesure complexe, c’est-à-dired’une application s’écrivant sous la forme µ= µ1+iµ2, avec µ1 et µ2 des mesures signées. Ceci permettraitd’étendre strictement le cadre L1 étudié ici, et les énoncés de ce paragraphe restent tous vrais dans cettesituation. On renvoie au chapitre 6 du livre de Rudin, Real and complex analysis pour les rudiments surles mesures complexes.

40 La transformée de Fourier dans Rd

Page 41: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

La preuve est exactement la même que pour les fonctions L1, et est laissée enexercice.

Remarque. Attention, le lemme de Riemann-Lebesgue n’est plus vrai dans cecontexte ! Par exemple, la mesure de Dirac δ0 vérifie δ0 = 1, et n’est donc pas delimite nulle en l’infini.

Une autre propriété importante qui est conservée est celle de morphisme multi-plicatif par rapport à la convolution. Si µ est une mesure signée, rappelons qu’ellepeut s’écrire de façon unique sous la forme µ = µ+ − µ− où µ+ et µ− sont deuxmesures positives finies de supports disjoints (décomposition de Jordan), auquel cason a |µ| = µ+ + µ− . La mesure produit de deux mesures signées µ et ν est alorsdéfinie comme

µ⊗ ν = µ+⊗ ν+− µ+⊗ ν−− µ−⊗ ν+ + µ−⊗ ν−,

et définit une nouvelle mesure signée, de variation totale |µ| ⊗ |ν |. Dans ce cadre,le théorème de Fubini s’énonce ainsi :

Théorème 3.14. Soit µ et ν deux mesures signées, et soit f une fonction mesurableintégrable par rapport à |µ| ⊗ |ν |, alors on a

µ(dx)

f(x, y)ν(dy) =

ν(dy)

f(x, y)µ(dx) =

f(x, y)µ⊗ ν(dxdy).

Définition 3.15. La convolution de deux mesures signées µ et ν est la mesure imagepar l’application (x, y) 7→ x+ y de la mesure produit µ ⊗ ν, et on la note µ∗ν. Lamesure µ∗ν est caractérisée par le fait que

Rd

f(z)µ∗ν(dz)=

Rd×Rd

f(x+ y)µ(dx)ν(dy)

pour toute fonction f mesurable bornée.

On laisse au lecteur le soin de montrer que l’opération ∗ est associative etcommutative sur l’ensemble des mesures signées, et admet δ0 pour élément neutre.Si µ est une mesure à densité, µ(dx) = f(x)λd(dx), notons que pour toute fonctionh mesurable bornée, on a par le théorème de Tonelli

Rd

h(z)µ∗ν(dz) =

Rd

Rd

h(x+ y)f(x)λd(dx )ν(dy)

=

Rd

h(z)λd(dz)

Rd

f(z− y)ν(dy),

ce qui signifie que µ∗ν admet une densité par rapport à λd, cette densité étant

f∗ν(x)=

Rd

f(x− y)ν(dy).

On notera que si à son tour ν est à densité, disons ν(dx) = g(x)λd(dx), alorsf ∗ν = f ∗g.

3.5 Transformée de Fourier d’une mesure signée 41

Page 42: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 3.16. Si µ est ν sont deux mesures signées, on a µ∗ν = µν.

La preuve est laissée en exercice. On a également une sorte de généralisation dela formule d’inversion.

Théorème 3.17. Soit µ une mesure signée telle que µ ∈ L1. Alors µ admet unedensité par rapport à λd, qui est égale presque partout à la fonction

1

(2π)d/2

Rd

ei〈x,ξ〉µ(ξ)dξ, x∈Rd.

Démonstration. La preuve est similaire à celle du théorème 3.9. On remplace ànouveau la mesure µ par la fonction µσ = gσ ∗µ, où gσ est la densité gaussienne duparagraphe 3.2. On a alors µσ = gσ µ. Alors les mêmes manipulations que pour lapreuve du théorème 3.9 donnent

Rd

ei〈x,ξ〉µσ(ξ)λd(dξ) =1

σd

Rd

ei〈x,ξ〉g1/σ(ξ)µ(ξ)λd(dξ)

=1

σd

Rd

ex g1/σ (y)µ(dy)

=

Rd

gσ(y−x)µ(dy)

= µσ(x).

Et toujours comme auparavant, le théorème de convergence dominée (par |µ |)montre que la seconde intégrale de cette chaîne d’égalités converge lorsque σ→0 vers

1

(2π)d/2

Rd

ei〈x,ξ〉µ(ξ)dξ,

que l’on notera f(x). Notons aussi que ces intégrales sont toutes majorées par ‖µ‖1.Il reste à montrer que f est la densité de µ par rapport à λd. Pour cela, soit h unefonction continue à support compact. On a alors, par une nouvelle application duthéorème de Fubini

Rd

h(x)µσ(x)λd(dx) =

Rd

gσ∗h(x)µ(dx).

Par ce qui précède, et le théorème de convergence dominée, le membre de gaucheconverge vers

Rdh(x)f(x)λd(dx). Par ailleurs, comme gσ∗h converge vers h uni-

formément sur les compacts par la proposition 1.9, tout en restant bornée par‖h‖∞, on conclut par convergence dominée que le membre de droite converge vers∫

Rdh(x)µ(dx). Comme ceci est valable pour tout choix de h, continue à sup-

port compact, on déduit par un argument de densité que µ(dx) = f(x)λd(dx).

Corollaire 3.18. La transformée de Fourier définie sur les mesures signées est uneapplication injective : si µ et ν sont deux mesures signées telles que µ= ν, alors µ=ν.

Démonstration. Sous ces hypothèses, on a µ− ν =0, qui est dans L1, et on déduitque µ− ν est à densité, et que cette densité est nulle. Donc µ= ν.

42 La transformée de Fourier dans Rd

Page 43: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

3.6 Une application à l’analyse de l’équation de lachaleur

Soit f une fonction intégrable sur Rd. L’équation de la chaleur sur Rd ×R+ aveccondition initiale f est le système d’équations suivant, d’inconnue une fonctionu= u(x, t) sur Rd ×R+ :

∂tu=1

2∆u sur Rd × ]0,∞[

u(·, 0) = f. (3.8)

Ici, ∆ désigne le laplacien de Rd agissant sur la première coordonnée :

∆u(x, t)=∑

j=1

d∂2u

∂xj2 (x, t).

Cette équation décrit la température u(x, t) au point x et à l’instant t d’un matériauhomogène, étant donnée la condition initiale u(x, 0) = f(x).

En supposant que la solution u soit assez « régulière » pour qu’on puisse enprendre la transformée de Fourier u = u(ξ, t), en la variable x, et pour que lesformules usuelles sur la transformée de Fourier des dérivées partielles de u soientautorisées, on obtient que l’équation de la chaleur revient à

∂tu=− |ξ |22u sur Rd × ]0,∞[

u(·, 0) = f

On résout cette équation en

u(ξ, t) = e−t

|ξ|2

2 f (ξ)= g t√ (ξ)f (ξ)= g t

√ ∗f (ξ),

où gσ est comme d’habitude la densité gaussienne. Par injectivité de la transforméede Fourier, cela conduit à u= g t

√ ∗f .Rétrospectivement, le théorème de dérivation sous l’intégrale, joint au fait que la

fonction (x, t) 7→ g t√ (x) vérifie la première équation de (3.8), implique que u= g t

√ ∗fla satisfait aussi. En revanche, il convient de s’interroger sur la mesure dans laquellela condition initiale est bien vérifiée, puisque g0 n’est pas définie a priori. Cependant,les résultats sur les approximations de l’identité montrent que g t

√ ∗f converge dansL1 vers f , ce qui peut s’interpréter comme une version faible de la condition initiale.Si f est plus régulière, par exemple continue et bornée surRd, alors la proposition 1.9montre que la convergence est au sens ponctuel, et même uniforme sur les compacts.On dit que la fonction (x, t) 7→ g t

√ (x) est la solution fondamentale de l’équation dela chaleur dans Rd,

Bien sûr, nous n’avons pas parlé ici du problème d’unicité de la solution, quin’est d’ailleurs pas vérifiée ici.

La transformée de Fourier est un outil tout aussi commode pour analyser d’autreséquations aux dérivées partielles, comme l’équation des ondes

∂ttu=1

2∆u sur Rd × ]0,∞[

u(·, 0)= f , ∂tu(·, 0) = g,

3.6 Une application à l’analyse de l’équation de la chaleur 43

Page 44: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

ou l’équation de Schrödinger

i∂tu+1

2∆u= 0 sur Rd × ]0,∞[

u(·, 0) = f.

On laisse au lecteur le soin de proposer des solutions (plus ou moins) explicites deces équations.

Remarque. La méthode de résolution d’une équation différentielle ou aux dérivéespartielles consistant à « passer aux transformées de Fourier » présuppose toujoursune régularité et une décroissance à l’infini a priori sur les solutions, et elle peutdonner en principe que des solutions particulières. On pourra par exemple s’enconvaincre en essayant de trouver une solution à l’équation différentielle y ′ = y+ f

par cette méthode.

44 La transformée de Fourier dans Rd

Page 45: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 4

Changement de variables

Ce court chapitre a pour objet de faire quelques commentaires sur la notion demesure image et de changement de variables.

4.1 Mesure image

Rappelons que si (E,E) et (F ,F) sont deux espaces mesurables, si µ est une mesure(disons positive, même si la discussion peut s’étendre naturellement au cas signé) sur(E, E) et si f :E→ F est une fonction mesurable (par rapport aux tribus E et F),alors on peut définir une nouvelle mesure f∗µ sur (F ,F), appelée la mesure-imagede µ par f , par la formule

f∗µ(A)= µ(f−1(A)) , A∈F .De facon équivalente, pour toute fonction g:F→R+ mesurable positive, on a que

F

g(y)f∗µ(dy)=

E

g(f(x))µ(dx) .

Pour le voir, constatons que cette formule est exactement équivalente à la définitiondans le cas où g= 1A est une indicatrice, avec A∈F , et que l’on déduit la formuleci-dessus par un argument standard, en commençant par les fonctions étagées, puisen passant par une limite monotone à toutes les fonctions mesurables positives.

On voit avec cette formule qu’un calcul de mesure image est un « changementde variables », où la variable d’intégration y devient f(x).

4.2 Coordonnées polaires dans Rd

Pour calculer des intégrales sur Rd, il est souvent commode d’avoir recours auxcoordonnées polaires, surtout lorsque la fonction intégrée ne dépend que de la norme(euclidienne) f(x) = f (|x|). C’est-à-dire qu’on veut décrire un point x ∈ Rd\0par sa norme et son « argument » (|x|, x/|x|), la quantité x/|x| étant un point

de la sphère unité Sd−1 =

x ∈ Rd:∑

j=1

dxj

2 = 1

. On munit ce dernier espace dela topologie induite par Rd (ainsi un ouvert de Sd−1 est de la forme U ∩ Sd−1, oùU est un ouvert de Rd) et de la tribu borelienne B(Sd−1) associée. La fonction θ:

x 7→ x/|x| est continue, donc mesurable, de Rd \ 0 dans Sd−1. On la prolonge defaçon arbitraire au point 0, ce qui ne jouera pas de rôle dans ce qui suit.

45

Page 46: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Définition 4.1. La mesure uniforme sur Sd−1 est la mesure image de ddx1Bd(0,1)(x)

par l’application θ, où Bd(0,1) est la boule euclidienne fermée x∈Rd: |x|61. Onla note ωd. Plus explicitement, pour A∈B(Sd−1), on a

ωd(A)= dLeb(rx:x∈A, r ∈ [0, 1]) .

La masse totale de ωd est donnée par

ωd(Sd−1)= dLeb(Bd(0, 1))=

2πd/2

Γ(d/2),

de sorte que (ωd(Sd−1), d> 1)= (2, 2π, 4π, 2π2, ...). En particulier

ω1 = δ−1 + δ1 ,

ω2 est l’image de la mesure de Lebesgue sur ]−π, π] par l’application x 7→ eix, sil’on identifie Rd à C (ce qu’on laisse en exercice), et sa masse totale est 2π, lacirconférence du cercle unité.

Proposition 4.2. La mesure image de la mesure de Lebesgue sur Rd par l’applica-tion ϕ:x 7→ (|x|, x/|x|) (définie de façon arbitraire en x=0) de Rd dans R+×Sd−1

est la mesure produit rd−1dr1r>0ωd(du).

Démonstration. Fixons 06 a< b et A∈B(Sd−1), et montrons que

ϕ∗Leb(]a, b]×A) =

]a,b]

rd−1dr

A

ωd(du) ,

la conclusion s’ensuira par un lemme de classe monotone, puisque les ensembles dela forme ]a, b]×A ci-dessus engendrent la tribu produit, et que l’on peut recouvrirRd\0 par une réunion dénombrable de tels ensembles, par exemple ]2n, 2n+1] ×Sd−1, n∈Z. Or

ϕ−1(]a, b]×A)= bC(A)\aC(A)

où C(A) = x∈B(0, 1): x/|x| ∈A est tel que Leb(C(A)) =ωd(A)/d par définition.Par les propriétés élémentaires de la mesure de Lebesgue, on a donc

ϕ∗Leb(]a, b]×A)=bd − ad

dωd(A) =

]a,b]

rd−1drωd(A)

comme voulu.

On en déduit le changement de variables en « coordonnées polaires » dans Rd :∫

Rd

f(x)dx=

R+

rd−1dr

Sd−1

ωd(du) f(ru)

pour toute fonction f mesurable positive de Rd dans R.

4.3 Changement de variables linéaire

La mesure image de la mesure de Lebesgue par un isomorphisme affine s’exprimetrès simplement.

46 Changement de variables

Page 47: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 4.3. Soit M ∈Md(R) une matrice carrée, et a∈Rd. Alors pour toutA∈B(Rd), on a que

Leb(MA+ a) = |det (M )|Leb(A) ,

où MA+ a= Mx+ a:x∈A.

En particulier, pour a= 0 et A= [0, 1]d, on obtient que la mesure de Lebesguedu parallélépipède déterminé par les vecteurs colonne de M , c’est-à-dire l’ensembleM [0, 1]d, a pour volume |det (M )|. Un déterminant est un volume !

Démonstration. Si M n’est pas inversible, son image est continue dans un hyper-plan de Rd, dont la mesure est nulle (par une transformation orthogonale, on peuttoujours ramener un tel hyperplan sur x1 = 0, dont la mesure est nulle par lethéorème de Fubini). On obtient bien le résultat dans ce cas. Donc supposonsM ∈GLd(R). Par invariance de la mesure de Lebesgue par les translations, on peutaussi supposer que a=0.

La formule µ(A) = Leb(MA), avec A ∈ B(Rd), définit de façon évidente unemesure (carM est inversible), qui est de plus invariante par translation puisque pourtout b∈Rd,

µ(A+ b)=Leb(MA+Mb) =Leb(MA) = µ(A).

Par conséquent, µ est nécessairement un multiple scalaire de la mesure de Lebesgue,c’est-à-dire qu’il existe c> 0 tel que µ(A)= cLeb(A) pour tout A. Clairement, on ac> 0. Il reste à montrer que c= |det (M)|.

Si M ∈ Od(R) est orthogonale, c’est l’invariance de la mesure de Lebesgue parles transformations orthogonales que nous avons déjà utilisé ci-dessus, mais quenous pouvons redémontrer facilement en constatant que Leb(MB(0, 1))=Leb(B(0,1)) > 0, puisqu’une transformation orthogonale préserve la norme euclidienne. Onen tire immédiatement que c= 1= |det (M )|.

SiM ∈Sd++(R) est symétrique définie positive, le théorème spectral stipule qu’on

peut trouver une matrice orthogonale U telle que MP =P∆, où ∆=diag(a1, ..., ad)est la matrice diagonale dont les coefficients diagonaux sont les valeurs propres deM , qui sont strictement positives par hypothèse. On obtient alors que

µ(P [0, 1]d)=Leb(MP [0, 1]d) =Leb(P∆[0, 1]d)=Leb(∆[0, 1]d)

où l’on a utilisé le cas précédent. Cette dernière quantité est la mesure du pavé[0, a1] × ... × [0, ad], de mesure a1...ad = det (M). Mais par ailleurs, ceci vautcLeb(P [0, 1]d) = cLeb([0, 1]d) = c, en utilisant encore le cas orthogonal. Le résultats’ensuit.

Dans le cas général, on peut écrire M ∈GLd(R) de façon unique sous la formeM = OS avec O ∈ Od(R) orthogonale, et S ∈ Sd

++(R) symétrique définie positive.C’est la décomposition polaire des matrices : il est facile de voir que S est l’uniqueracine carrée symétrique positive de la matrice M ∗ M , et que O = MS−1 est bienorthogonale dans ce cas... On déduit des deux cas précédents que

µ(A)=Leb(OSA)=Leb(SA) =det (S)Leb(A) = |det (M)|Leb(A) .

D’où le résultat.

4.3 Changement de variables linéaire 47

Page 48: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

4.4 Changement de variables C1

Nous concluons par un théorème très utile en pratique.

Théorème 4.4. Soit D un ouvert de Rd et f un C1-difféomorphisme de D sur sonimage f(D). Alors pour toute fonction g:Rd→R+ mesurable, on a

D

g(f(x))Jf(x)dx=

f(D)

g(y)dy ,

où le Jacobien Jf(x)= |detDfx| est la valeur absolue du déterminant de la différen-tielle de f en x. Autrement dit, la mesure image de dx1D(x) par f est la mesuredy1f(D)(y)/Jf(f

−1(y)).

La preuve est omise.

48 Changement de variables

Page 49: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Partie II

Bases des probabilités

Page 50: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 51: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 5

Bases de la théorie des probabilités

Dans ce chapitre, nous donnons les premières notions de la théorie moderne desprobabilités (issue des années 1930)

5.1 Espaces de probabilités, variables aléatoires

L’objet de base de la théorie des probabilités est un espace de probabilités , souventnoté

(Ω,F ,P) ,

qui est un espace mesuré, où P est une mesure de probabilités sur (Ω, F), c’est-à-dire une mesure positive telle que P(Ω) = 1. Intuitivement, les éléments de Ω,parfois appelés « événements élémentaires », correspondent aux issues possiblesd’une expérience aléatoire donnée, et les parties mesurables A⊂F sont appelés desévénements . La quantité P(A) désigne la probabilité que l’événement A soit observé.On dit que l’événement A est presque sûr si P(A)= 1.

Premiers exemples d’espaces de probabilités. L’exemple le plus familier et leplus élémentaire d’expérience aléatoire consiste à choisir uniformément un élémentdans un ensemble E fini. Un choix naturel d’espace de probabilités adapté est deprendre Ω = E, F = 2Ω la tribu des parties de E, et P la mesure uniforme sur E,définie par

P=1

card(E)

x∈E

δx,

ou plus explicitement,

P(A)=card(A)

card(E), A⊂E.

Par exemple, si l’on cherche à modéliser un jeu de pile-ou-face équilibré, on peutposer Ω = 0, 1 et F = ∅, 0, 1, 0, 1 = 2Ω, et enfin P = (δ0 + δ1)/2 est lamesure de Bernoulli. Un lancer de n pièces successivement est modélisé par l’espaceproduit Ω = 0, 1n, muni de la tribu des parties 2Ω et de la mesure uniforme

P(ω1, ..., ωn) =1

2n,

qui est aussi la mesure produit des mesures de Bernoulli.De même, un lancer de dé équilibré à 6 faces peut être modélisé en posant

Ω = 1, 2, 3, 4, 5, 6, F = 2Ω et P la mesure uniforme sur Ω : P= 6−1∑

i=1

6δi , et n

lancers successifs correspondent à l’espace produit n fois.

51

Page 52: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Une infinité de lancers de pièces ? Il est plus difficile de considérer l’expérience(de pensée !) consistant à jeter une pièce ou un dé une infinité de fois. Il est naturelde considérer l’espace produit Ω=0, 1N∗

de toutes les suites à valeurs dans 0,1.Mais cette fois on ne va pas considérer la σ-algèbre de tous les sous-ensembles, quiest trop grande. Si ε1, ..., εn ∈0, 1, notons

Aε1,...,εn= ω= (ω1, ω2, ...)∈Ω:ω1 = ε1, ..., ωn = εn .

Soit F la plus petite σ-algèbre rendant mesurable les ensembles Aε1,...,εnpour tout

choix de ε1, ..., εn. C’est aussi la plus petite σ-algèbre rendant mesurable les appli-cations de projection Xi: Ω→0, 1 définies par Xi(ω)=ωi. On dit que F est la σ-algèbre produit sur l’espace produit Ω. Enfin, on munit l’espace (Ω,F) de la mesureproduit P, qui est l’unique mesure de probabilités vérifiant

P(Aε1,...,εn)=

1

2n, pour tout ε1, ..., εn ∈0, 1.

Notons que, si elle existe, cette mesure est bien unique par le lemme de classemonotone, les événements Aε1,...,εn

formant une famille stable par intersection finie,et qui engendre F . L’existence de P est plus subtile. Nous allons la construireexplicitement à l’aide d’un espace de probabilités annexe ([0,1[,B([0,1[), λ) où λ estla mesure de Lebesgue sur [0, 1[.

À tout x∈ [0,1[, on associe une suite (ω1(x),ω2(x), ...) donnant le développementdyadique de x :

x=∑

i=1

∞ωi(x)

2i.

Pour que cette suite soit définie de façon unique, on suppose que l’on choisit sinécessaire la suite (ωi(x), i > 1) de sorte qu’elle ne stationne pas à 1. Ainsi, parexemple, on associe la suite (1,0,0,0...) au nombre 1/2, et non la suite (0,1,1,1, ...).Les applications ωi : [0, 1[ → 0, 1 sont alors mesurables. En effet, si l’on poseθ(x)=2x−⌊2x⌋ la partie fractionnaire de 2x, on a la formule explicite ω1(x)= ⌊2x⌋,et pour tout i> 1,

ωi(x) = ⌊2θ(i−1)(x)⌋=⌊2ix⌋− 2⌊2i−1x⌋,

où θi est la composée de θ avec elle-même i fois. De ce fait, l’application ϕ : x 7→(ω1(x), ω2(x), ...) de ([0, 1[,B([0, 1[) dans (Ω,F) est mesurable, puisque les applica-tions coordonnées ωi : x 7→ ωi(x) le sont. On laisse au lecteur le soin de vérifier cesassertions. Posons alors P la mesure image de λ par ϕ. On a que pour tout ε1, ...,

εn∈0, 1,

P(Aε1,...,εn) =λ(ϕ−1(Aε1,...,εn

))=λ(x∈ [0, 1[:ω1(x) = ε1, ..., ωn(x) = εn) =1

2n,

la dernière égalité s’obtenant en remarquant que ϕ−1(Aε1,...,εn) est le sous-intervalle

[

i=1

nεi

2i,∑

i=1

nεi

2i+

1

2n

[

.

52 Bases de la théorie des probabilités

Page 53: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Ainsi, la mesure P répond bien à la définition de la mesure produit, ce qui donnel’existence de cette dernière. Notons que l’espace (Ω, F , P) que nous venons deconstruire est d’une complexité similaire à l’espace ([0,1[,B([0,1[), λ), au sens précisque ϕ réalise entre ces espaces un isomorphisme d’espaces mesurés. L’inverse de ϕest en effet mesurable à son tour, et l’on a λ= (ϕ−1)∗P. En ce sens, construire unespace de probabilités modélisant une infinité de lancers de pièces équilibrées estdonc du même ordre de difficulté que de construire la mesure de Lebesgue sur R.

Exercice. Construire un espace de probabilités modélisant une infinité de lancers de pile-ou-face, mais où la probabilité d’obtenir pile est un nombre p∈ [0, 1] quelconque.

Variables aléatoires. Le choix d’un espace de probabilités correspondant à unesituation concrète donnée n’est pas (jamais !) unique. Si l’on peut considérer lesdeux exemples ci-dessus comme « minimaux » en un sens, considérons par exemplel’expérience consistant à jeter deux dés à 6 faces et à observer le résultat de lasomme des chiffres indiqués. Une première possibilité consiste à lister les résultatspossibles, qui sont Ω1 =2,3,4,5,6,7,8,9, 10, 11, 12. On munit Ω1 de la tribu F1 del’ensemble des parties. Le choix de la mesure de probabilités P1 nécessite un tempsde réflexion : l’on pose

P1 =δ2 +2δ3 + 3δ4 +4δ5 + 5δ6 +6δ7 + 5δ8 +4δ9 + 3δ10+ 2δ11+ δ12

36.

En effet, parmi les 36 possibilités de résultats des deux dés (i, j)∈ 1, 2, 3, 4, 5, 62,où la première coordonnée donne le résultat du premier dé et la seconde coordonnéedonne le résultat du second dé, il y en a une, (1, 1), qui donne le résultat 2, deux,(1, 2) et (2, 1), qui donnent le résultat 3, et ainsi de suite. On a donc fait une petiteexcursion par un autre espace de probabilités, qui est l’espace Ω2 = 1, 2, 3, 4, 5, 62,muni de la tribu F2 des parties, et de la mesure de probabilité uniforme P2. Cettetribu modélise le résultat des deux lancers de dés, et quand on s’intéresse seulementà la probabilité P1(k) que la somme des résultats fasse k ∈ Ω1, on voit que ceciest la probabilité de l’événement (i, j)∈Ω2 : i+ j= k, c’est-à-dire que l’on pose :

P1(k)=P2((i, j)∈Ω2 : i+ j= k).

On peut réexprimer cela en introduisant l’application X: Ω2→Ω1 définie par X((i,j)) = i+ j, en disant que pour tout k,

P1(k)=P2(X−1(k)),

et ceci reste évidemment valable si l’on remplace k par n’importe quelle partiede Ω1. Autrement dit, la mesure P1 est la mesure image de P2 par l’application X.On appelle les applications mesurables entre espaces de probabilités des variablesaléatoires , et ces dernières sont, en quelque sorte, les objets qui permettent depasser d’un choix d’espace de probabilités à un autre. Souvent, c’est l’étude desvariables aléatoires qui est prépondérante en probabilités, bien plus que l’espace(Ω,F ,P), qu’il suffit en général de choisir « assez gros ». Nous reviendrons sur cesconsidérations plus tard.

5.1 Espaces de probabilités, variables aléatoires 53

Page 54: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Noter que dans le choix de Ω2, nous avons distingué les deux dés, comme s’ily en avait un rouge et un noir par exemple. On aurait pu procéder autrement, etposer Ω3 = i, j: i, j ∈ 1, 2, 3, 4, 5, 6 l’ensemble des parties de 1, 2, 3, 4, 5, 6 àau plus deux éléments : l’événement élémentaire i est interprété par le fait queles deux dés ont donné le résultat i. On pose alors P3(i, j) = 1/18 si i =/ j etP3(i) = 1/36. La variable aléatoire donnant la somme des dés est l’applicationX ′ telle que X ′(i, j)= i+ j si i=/ j et X3(i) = 2i. Bien sûr, ce choix est plutôtmaladroit, mais il donne le même résultat que ci-dessus : P1 est aussi la mesureimage de P3 par X ′.

Exercice. Trouver une variable aléatoire X ′′:Ω2→Ω3 envoyant la mesure P2 sur P3, et telleque X =X ′ X ′′.

Définition 5.1. Une variable aléatoire sur l’espace de probabilités (Ω,F ,P) est uneapplication mesurable X: (Ω,F)→ (E, E) où (E, E) est un ensemble mesurable.

Remarque. Certains ouvrages appellent variable aléatoire une application mesu-rable d’un espace de probabilités dans R ou C, et vecteur aléatoire une applicationmesurable d’un espace de probabilités dans Rd ou Cd, nous préférons ici nous placerdans la plus grande généralité.

Définition 5.2. La loi de la variable aléatoire X est alors la mesure image PX =X∗P de P par X, définie par

PX(A) =P(X−1(A)) , A∈E .

C’est une mesure de probabilités sur (E, E), définissant un nouvel espace de proba-bilités (E, E ,PX).

Remarque. Noter que, stricto sensu, une variable aléatoire est seulement définiesur un espace mesurable (Ω,F) plutôt que sur un espace de probabilités (la mesureP n’intervient pas). En revanche, la loi d’une variable aléatoire en dépend de façoncruciale, et c’est pourquoi on fait rentrer P dans la définition de X pour parler dela loi de X . Les puristes diront qu’une variable aléatoire est un couple (X,P), ouun sextuplet (Ω,F ,P, E, E ,X), etc...

Remarque. On adopte souvent l’écriture suivante

PX(A)=P(X ∈A),

c’est-à-dire qu’on écrit X−1(A) = ω : X(ω) ∈ A = X ∈ A, ce qui est encore unefaçon d’effacer le rôle de Ω. Par extension, cela donne l’écriture parfois utiliséePX(dx)=P(X ∈ dx) pour la loi de X .

Variables aléatoires discrètes. Notons que, si X est à valeurs dans un ensembledénombrable E (on parle de variable aléatoire discrète), muni de la tribu 2E, alorson a, pour tout A⊂E,

P(X ∈A) =PX(A) =PX

(

x∈A

x)

=∑

x∈A

PX(x) =∑

x∈A

P(X =x) .

54 Bases de la théorie des probabilités

Page 55: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Autrement dit, la connaissance de la loi de X revient à celle des quantités px =P(X =x), et l’on a

PX(dx)=∑

x∈E

px δx.

Variables aléatoires à densité. Soit X une variable aléatoire à valeurs dans Rd.On dit que X est à densité si sa loi est absolument continue par rapport à λd. Dansce cas, le théorème de Radon-Nikodym implique qu’il existe une fonction mesurablepositive fX:Rd→R+ d’intégrale 1 par rapport à λd, telle que

PX(dx) = fX(x)dx.

On appelle cette fonction la densité de (la loi de) X, même si elle n’est définie queλd-presque partout.

Remarque. Soit (E, E) un espace mesurable, et µ une mesure de probabilités sur(E, E). On peut naturellement poser la question suivante : existe-t-il un espace deprobabilités (Ω, F ,P) et une variable aléatoire X: Ω → E sur cet espace, telle queX a pour loi µ, c’est-à-dire que PX = µ. La réponse est oui : il suffit de prendre(Ω, F , P) = (E, E , µ) et de prendre pour X la fonction identité de E. On a bienPX =X∗P=X∗µ= µ.

Définition 5.3. L’application X construite ci-dessus est appelée la variable aléatoirecanonique de loi µ.

5.2 Espérance d’une variable aléatoire

a. Définition et formule de transfertSoit (Ω, F , P) un espace de probabilités et X: Ω → R une variable aléatoire à

valeurs réelles. Si X est positive, ou si X ∈L1(Ω,F ,P) est intégrable, on note

E[X ] =

Ω

X(ω)P(dω)

l’intégrale de X par rapport à P, et on l’appelle l’espérance de X, ou encore lamoyenne de X. On définit de même l’espérance d’une variable aléatoire intégrableà valeurs complexes. Plus généralement, si X: Ω→Cd est à valeurs vectorielles, onnote E[X ] = (E[X1], ...,E[Xd]) où X1, ..., Xd sont les coordonnées de X , qui sont àleur tour des variables aléatoires.

Si par exemple X =1A est l’indicatrice de l’événement A∈F , on a

E[1A] =P(A).

C’est ce dont on s’est servi pour montrer la formule d’inclusion-exclusion.L’espérance hérite des propriétés de linéarité et de positivité de l’intégrale.

Proposition 5.4. Pour tout scalaire a et toutes variables aléatoires X et Y, on a

E[aX +Y ] = aE[X] +E[Y ]

5.2 Espérance d’une variable aléatoire 55

Page 56: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

dès lors que X,Y sont intégrables, ou bien que X,Y , a sont positifs.

De plus, si X>0, on a E[X]>0 avec égalité si et seulement si X=0 P-presquepartout.

La preuve est immédiate.

Proposition (Formule de transfert). Soit X: Ω→E est une variable aléatoireà valeurs dans un espace mesurable (E, E), et si f : E → R+ est une applicationmesurable positive, alors f(X) = f X est une variable aléatoire positive, et on a

E[f(X)]=

Ω

f(X(ω))P(dω)=

E

f(x)PX(dx).

Si maintenant f :E→R+ est mesurable, on a que f(X)∈L1(Ω,F ,P) si et seulementsi f ∈L1(E, E ,PX), et dans ce cas cette même formule reste valable.

Démonstration. Pour f de la forme 1A avec A ∈ E c’est juste la définition de lamesure image, et par linéarité on déduit la formule pour toutes les fonctions éta-gées, puis toutes les fonctions mesurables positives par un argument de convergencemonotone. Enfin, on obtient le résultat pour toutes les fonctions f intégrables endécomposant f = f+− f−, où l’on rappelle que x+ = x∨ 0 et x−= (−x)+.

Noter que le dernier membre de la formule de transfert ne fait plus intervenir Xqu’à travers sa loi PX, et en particulier, elle ne fait pas intervenir l’espace (Ω,F ,P).Comme mentionné plus haut, les probabilistes aiment bien se débarrasser de l’espacede probabilités à la première occasion !

b. Caractérisation de la loi à l’aide de l’espérance

Notons que la formule de transfert permet de caractériser efficacement la loid’une variable aléatoire.

Proposition 5.5. Soit X une variable aléatoire à valeurs dans un espace mesu-rable E. Alors la loi de X est caractérisée par les espérances E[f(X)], où f décritl’ensemble des fonctions mesurables bornées.

Démonstration. La preuve est triviale : si X et X ′ sont deux telles variablesaléatoires telles que E[f(X)] = E[f(X ′)] pour toute fonction f mesurable bornée,on prend f = 1A avec A ∈ E pour obtenir que PX(A) =PX ′(A), et donc PX = PX ′

puisque ceci est valable pour tout A∈E .

Par exemple, soit X = (X1, X2, ..., Xd) une variable aléatoire à valeurs dans Rd.On suppose que la loi de X admet une densité fX. Alors la loi de Xi admet à sontour une densité, donnée par

fXi(x)=

Rd−1

fX(x1, ..., xi−1, x, xi+1, ..., xd)dx1...dxi−1dxi+1...dxd .

56 Bases de la théorie des probabilités

Page 57: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

En effet, si h: R→R est une fonction mesurable bornée, on a par le théorème deFubini (et en notant dxi =dx1···dxi−1dxi+1···dxd)

E[h(Xi)] =

Rd

h(xi)fX(x1, ..., xd)dx1···dxd

=

R

h(x)dx

Rd−1

fX(x1, ..., xi−1, x, xi+1, ..., xd)dxi

=

R

h(x) fXi(x)dx

et l’on reconnaît la formule de E[h(Y )] où Y est une variable aléatoire de densitéfXi

. Noter que fXiest bien une fonction positive d’intégrale 1, ce qu’on obtient en

prenant h= 1 dans le calcul précédent.

Remarque (lois marginales). En général, si X = (X1, ..., Xd) est une variablealéatoire à valeurs dans un espace produit E1× ...×Ed, la loi deXi, qui est une loi surEi, est appelée la i-ème loi marginale de X . Il est vrai que la loi de X caractérise laloi de ses marginales : la i-ème loi marginale est en effet la mesure image de PX par lai-ème application de projection E1× ...×Ed→Ei. En revanche, la réciproque estfausse ! Pour s’en convaincre, on peut prendre X1(i, j)= i et X2(i, j)= j, variablesaléatoires définies sur Ω = 0, 12, muni de la mesure produit (δ0/2 + δ1/2)⊗2, etconstater que X=(X1,X2) et Y =(X1,X1) ont les mêmes lois marginales (uniformessur 0, 1), tandis que X et Y n’ont certainement pas même loi, puisque

P(X1 =X2)= 1/2=/ 1=P(X1 =X1).

En pratique, il est utile de caractériser la loi d’une variable aléatoire X en cal-culant E[f(X)] pour le moins de fonctions f possible. Par exemple :

Exercice. Soit d >1 un entier fixé, et H un sous-ensemble de Cc(Rd,R) dense pour la norme

uniforme. Si X est une variable aléatoire à valeurs dans Rd, alors sa loi est caractérisée parles espérances (E[f(X)], f ∈H).

On reviendra plus abondamment au paragraphe 5.3 sur d’autres critères decaractérisation de la loi d’une variable aléatoire.

c. Moments d’une variable aléatoire

Définition 5.6. Soit X une variable aléatoire à valeurs dans R ou C, et k > 0 unnombre entier. Si X ∈Lk(Ω,F ,P), le nombre E[Xk] est appelé le moment d’ordre

k de X. On appelle également la quantité E[|X |k] le moment absolu d’ordre k de X.

Notons encore une fois que le moment d’ordre k ne dépend que de la loi de X,puisque

E[Xk] =

R

xk PX(dx)

dès que cette intégrale a un sens, par la formule de transfert. On parle donc aussides moments d’une mesure de probabilités µ sur R, égaux à

Rxkµ(dx) si x 7→ x

est dans Lk(R,B(R), µ).

5.2 Espérance d’une variable aléatoire 57

Page 58: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Ainsi, le moment d’ordre 1 de X n’est autre que l’espérance de X , lorsqu’elleest bien définie. Notons que, comme une mesure de probabilités est une mesurefinie, l’inégalité de Hölder implique que les espaces Lp(Ω,F ,P) forment une familledécroissante en p ∈ [0,∞] (par définition on note L0(Ω,F ,P) l’ensemble de toutesles fonctions mesurables, définies P-presque partout). En particulier, si X admet unmoment d’ordre k, alors X admet un moment d’ordre k ′ pour tout entier k ′ 6 k.

Les moments de variables aléatoires sont des outils très utiles pour étudier laqueue de distribution d’une variable aléatoire réelle X, que l’on définit comme lafonction x 7→P(X >x).

Proposition (inégalité de Markov). Soit X une variable aléatoire positive. Alorson a, pour tout réel p> 0,

P(X >x)6E[X p]

xp , x> 0.

Démonstration. Quitte à remplacer X par X p, il suffit de traiter le cas p=1. Ona alors

P(X >x)=E

[

X

X1X>x

]

6E[X1X>x]

x,

et on conclut en majorant l’indicatrice par 1. Noter cependant que cette étapeintermédiaire est parfois utile.

Par ailleurs, en appliquant l’inégalité de Markov à la variable aléatoire positiveeλX, on obtient

Corollaire (inégalité de Chernov). Soit X une variable aléatoire à valeursréelles, alors pour tout λ> 0 et tout x∈R on a

P(X >x) 6 e−λxE[eλX].

Cette borne est le point de départ de la théorie des grandes déviations de sommesde variables aléatoires indépendantes, dont nous toucherons un mot plus bas.

d. Variance et covariance

Définition 5.7. Soit X ∈L2(Ω,F ,P) une variable aléatoire de carré intégrable. Laquantité

Var(X)=E[(X −E[X])2] = ‖X −E[X]‖22

est appelée la variance de X. La quantité Var(X)√

= ‖X − E[X ]‖2 est appeléel’écart-type de X.

Notons que l’écart-type de X est la distance au sens L2 de X à la constanteE[X ]. Comme par définition E[(X − E[X])·1] = 0, on en déduit que X − E[X]est orthogonale (au sens du produit scalaire dans L2(Ω, F ,P)) au sous-espace desfonctions constantes. Par conséquent, l’écart-type est également la distance de X(au sens L2) à ce sous-espace, et

Var(X) = infc∈R

E[(X − c)2] .

58 Bases de la théorie des probabilités

Page 59: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

De plus, cet infimum est atteint uniquement en E[X], qui est donc la meilleureapproximation possible de X par une constante, au sens des moindres carrés.

En développant le carré dans la définition de la variance, et par linéarité del’espérance, on trouve la formule utile suivante :

Var(X)=E[X2]−E[X]2 ,

valable pour tout X ∈L2(Ω,F ,P). Notons que, par définition, une variable aléatoirede carré intégrable est constante presque sûrement si et seulement si Var(X)= 0.

En appliquant l’inégalité de Markov à la variable aléatoire |X − E[X]| et avecp=2, on obtient le résultat très utile suivant.

Corollaire (inégalité de Bienaymé-Chebychev). Soit X une variable aléatoiredans L2(Ω,F ,P). Alors on a, pour tout x> 0,

P(|X −E[X ]|>x)6Var(X)

x2.

Ainsi, la variance permet d’estimer la probabilité qu’une variable aléatoires’écarte de sa moyenne.

Définition 5.8. Soit X,Y ∈L2(Ω,F ,P) des variables aléatoires de carré intégrable.La covariance de X et Y est définie par

Cov(X, Y )=E[(X −E[X])(Y −E[Y ])].

La covariance est donc le produit scalaire dans L2(Ω, F ,P) des variables aléa-toires X −E[X] et Y −E[Y ]. Une formule alternative est donnée par

Cov(X, Y ) =E[XY ]−E[X]E[Y ].

On a évidemment Cov(X,X) =Var(X) et Cov(X, Y ) =Cov(Y ,X).On appelle parfois corrélation de X et Y la quantité normalisée

Corr(X,Y )=Cov(X,Y )

Var(X)Var(Y )√ ,

qu’on peut interpréter comme le cosinus de l’angle formé dans l’espace L2(Ω,F ,P)par les vecteursX−E[X] et Y −E[Y ]. C’est une quantité dans [−1,1] par l’inégalitéde Cauchy-Schwarz.

Si maintenant X est une variable aléatoire à valeurs dans Rd pour un entierd> 1, on note Xi, 1 6 i6 d les applications coordonnées de X, qui sont à leur tourdes variables aléatoires à valeurs dans R. La matrice de variance-covariance de Xest alors donnée par

ΣX =(Cov(Xi, Xj))16i,j6d∈Md(R) .

Il s’agit d’une matrice symétrique positive. En effet, pour tout x ∈ Rd, on a, parlinéarité,

〈x,ΣXx〉=Var(〈x,X 〉)> 0

5.2 Espérance d’une variable aléatoire 59

Page 60: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

e. Médiane et quantilesSoit X une variable aléatoire à valeurs réelles. Soit α∈ ]0, 1[. On dit que qα est

un α-quantile de la loi de X (ou simplement de X) si

P(X 6 qα) >α et P(X > qα)> 1−α.

Notons que tout nombre q est un FX(q)-quantile de X, puisque

P(X 6 q)+P(X > q) = 1 +P(X = q)>1.

Plus précisément, un même nombre q peut être un α-quantile de X pour différentesvaleurs de α. Cela arrive si et seulement si q est un atome de PX, et dans ce casles valeurs correspondantes de α sont [FX(q− ), FX(q)].

Par ailleurs, en général, il n’y a pas unicité d’un α-quantile. Plus exactement, sil’on note

qα−= sup x∈R:FX(x)<α et qα

+ = inf x∈R:FX(x)>α

alors l’ensemble des α-quantiles de X est l’intervalle [qα−, qα

+]. Si qα− < qα

+, alors]qa

−, qα+[ est l’intervalle ouvert maximal où FX est constante égale à α, et l’on a

P(qα−<X < qα

+) = 0.Enfin, si qα et qβ sont respectivement un α-quantile et un β-quantile de X avec

α< β, alors qα< qβ.

Définition 5.9. On appelle médiane de la loi de X (ou plus simplement médianede X) un 1/2-quantile de X. De façon équivalente, m est une médiane de X si

P(X >m) > 1/2 et P(X 6m)> 1/2 .

En général il n’y a pas unicité de la médiane de X.

Nous avons vu que l’espérance s’interprète comme meilleure approximation de Xpar une fonction constante au sens des moindres carrés. Une interprétation similairede la médiane est possible, mais au sens L1.

Proposition 5.10. Soit X une variable aléatoire dans L1. Alors m est une médianede X si et seulement si

E[|X −m|] = infc∈R

E[|X − c|] ,

c’est-à-dire si m réalise la distance pour la norme L1 de X à l’espace des fonctionsconstantes.

Démonstration. Notons que la fonction φ: c 7→E[|X − c|] est une fonction convexesur R, et comme E[|X − c|] > |c| − E[|X |] cette fonction tend vers +∞ quand|c|→+∞. Par conséquent, elle atteint son minimum sur un intervalle [a, b].

Si l’on dérive cette fonction formellement au point c, on obtient E[1X<c −1X>c]=P(X<c)−P(X>c). Soyons plus précis : on a pour tout h=/ 0, et x, c∈R,

|x− (c+h)| − |x− c|h

6 1

60 Bases de la théorie des probabilités

Page 61: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et l’accroissement (|x− (c+ h)| − |x− c|)/h tend vers 1x<c− 1x>c lorsque h↓0,et vers 1x6c− 1x>c lorsque h↑0. On en déduit par la convergence dominée queφ est dérivable à gauche et à droite en c, de dérivées

φg′ (c)=P(X <c)−P(X > c) et φd

′ (c)=P(X 6 c)−P(X >c)

Ces fonctions sont bien sûr croissantes, vérifient φg′ 6 φd

′ , et elles sont non nulles si cest un α-quantile deX avec α=/ 1/2. Si c est une médiane deX on a φg

′ (c)606φd′ (c).

On conclut que le minimum de φ est atteint exactement aux médianes de X.

Toute variable aléatoire admet une médiane même si elle n’admet pas d’espé-rance, et même si c’est le cas, les deux notions peuvent donner des résultats trèsdifférents. Le résultat suivant montre de façon quantitative que si on considère desvariables L2, alors espérance et médiane sont proches.

Proposition 5.11. Si X est une variable aléatoire dans L2 et m est une médianede X, alors |E[X]−m|6 Var(X)

.

Démonstration. Pour toute constante c, on a ‖X − c‖1 6 ‖X − c‖2 par l’inégalitéde Cauchy-Schwarz. Par conséquent, on obtient infc∈R ‖X − c‖1 6 infc∈R ‖X − c‖2.À gauche, on reconnaît E[|X −m|] pour toute médiane m, et à droite, on reconnaît

Var(X)√

. On conclut par inégalité triangulaire.

5.3 Fonctions associées à une variable aléatoire

Nous allons maintenant associer à une variable aléatoire à valeurs scalaires ouvectorielles un certain nombre de fonctions qui caractérisent la loi des variablesconsidérées

a. Fonction de répartitionSoit X une variable aléatoire à valeurs dans R, définie sur un espace de proba-

bilités (Ω,F ,P). On définit sa fonction de répartition par la formule

FX(x)=P(X 6x), x∈R.

Par la propriété de continuité des mesures de probabilités par réunion croissante etintersection décroissante, on déduit que FX est une fonction croissante, continue àdroite. Plus précisément, la limite à gauche de FX en un point x∈R, notée FX(x− ),est donnée par

FX(x− )=P(X <x),

ou autrement dit,

FX(x)−FX(x− )=P(X = x).

En particulier, la fonction FX est également continue si et seulement si la loi de Xest sans atome, puisque P(X = x) =PX(x) par définition. En termes de théoriede la mesure, la loi PX de X n’est autre que la mesure de Stieltjes dFX associée à lafonction FX, c’est-à-dire l’unique mesure µ sur R telle que µ(]a, b])=FX(b)−FX(a)pour tout a 6 b. En particulier la fonction de répartition d’une variable aléatoireréelle X caractérise sa loi.

5.3 Fonctions associées à une variable aléatoire 61

Page 62: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 5.12. Soit X et X ′ deux variables aléatoires à valeurs dans R, tellesque FX =FX ′. Alors X et X ′ ont la même loi.

Noter que, dans l’énoncé précédent, comme dans ceux, similaires, qui sont à venirdans ce chapitre, on ne suppose pas que X et X ′ sont définies sur le même espacede probabilités (Ω,F ,P).

La fonction de répartition FX est un outil pratique pour calculer des moments.

Exercice. Soit X une variable aléatoire positive, et p∈ [1,∞[, alors

E[Xp] =

0

pxp−1P(X > x) dx.

Notons que la fonction GX(x) = 1− FX(x− ) =P(X > x) a déjà été considéréeplus haut, sous le nom de la queue de distribution de X.

b. Fonction génératriceSoitX une variable aléatoire à valeurs dansN=0,1,2.... On définit sa fonction

génératrice comme la série entière

gX(z)=E[zX] =∑

n∈N

P(X =n)zn .

Comme par définition la somme des coefficients P(X = n) vaut 1, le rayon deconvergence de cette série entière est supérieur ou égal à 1, et la formule ci-dessousest bien définie pour z un nombre complexe dans le disque fermé D=z∈C: |z |61,et définit une fonction continue sur D. De plus, gX est analytique sur le disqueouvert D= z ∈C: |z |< 1 et l’on a

P(X =n)=gX

(n)(0)

n!, n∈N.

En particulier, on voit que la fonction génératrice caractérise la loi de X, puisqu’onretrouve à partir de ces quantités toutes les probabilités P(X ∈A) avec A⊂N.

Proposition 5.13. Si X et X ′ sont deux variables aléatoires à valeurs dans N

telles que gX(z) = gX ′(z) pour tout z ∈ [0, 1](ou plus généralement pour tout z dansun sous-ensemble de D ayant au moins un point d’accumulation), alors X et X ′ ontmême loi, c’est-à-dire dans ce cas que P(X =n)=P(X ′ =n) pour tout n∈N.

Démonstration. On utilise le fait que si les zéros d’une fonction analytique surun ouvert connexe D ont un point d’accumulation dans D, alors cette fonction estnulle.

Un des intérêts de la fonction génératrice est son lien avec les moments de lavariable aléatoire X. En effet, le théorème de dérivation sous le signe intégrale (oule théorème de dérivation des séries entières) montre que pour tout z ∈D, on a

gX′ (z) =E[XzX−1] =

n>1

nP(X =n)zn−1.

Si l’on prend z ∈ [0, 1[ et que l’on fait tendre z ր 1, le théorème de convergencemonotone montre que

E[X] = gX′ (1− ),

62 Bases de la théorie des probabilités

Page 63: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et cette limite à gauche existe toujours (elle peut valoir +∞). Plus généralement,on a le résultat suivant.

Proposition 5.14. Pour tout k > 0, la limite à gauche de gX(k) en 1 existe dans

[0,+∞], et vaut

gX(k)(1− )=E[X(X − 1)...(X − k+ 1)] .

Démonstration. En dérivant k fois gX en un point z de D, on trouve

gX(k)(z)=

n>k

n(n− 1)...(n− k+ 1)P(X =n)zn−1,

et ceci converge vers la quantité voulue lorsque z converge vers 1 le long de [0, 1[.Noter que l’on aurait pu faire partir la somme de n=0 plutôt que de n=k, puisqueles k premiers termes sont nuls : de même, dans l’énoncé, on peut invariablementajouter l’indicatrice de l’événement X > k dans l’espérance.

c. Fonction caractéristiqueFixons d > 1 un entier, et soit X une variable aléatoire à valeurs dans Rd. La

fonction caractéristique de X est définie par

ϕX(ξ) =E[ei〈ξ,X 〉], ξ ∈Rd .

Par la formule de transfert, ceci n’est autre que

ϕX(ξ)=

Rd

ei〈ξ,x〉PX(dx) = (2π)d/2PX (−ξ) ,

où PX est la transformée de Fourier de la loi de X. La propriété d’injectivité de latransformée de Fourier sur les mesures signées implique (c’est bien le moins) que lafonction caractéristique d’une variable aléatoire caractérise la loi de cette variable.

Proposition 5.15. Soit X et X ′ deux variables aléatoires à valeurs dans Rd tellesque ϕX = ϕX ′. Alors X et X ′ ont même loi.

Remarque. Attention, on doit bien supposer que ϕX(ξ)=ϕX ′(ξ) pour tout ξ∈Rd.La situation est différente de celle pour les fonctions génératrices.

Les propriétés de la transformée de Fourier que nous avons étudiées impliquentque la régularité de la fonction caractéristique est intimement liée à l’existence demoments.

Proposition 5.16. Soit X une variable aléatoire à valeurs dans R. Si X admet unmoment d’ordre k, alors ϕX est de classe Ck(R,C), et l’on a

E[Xk] = (−i)kϕX(k)(0) .

Démonstration. Sous nos hypothèses, les théorèmes de dérivation sous le signeintégrale s’appliquent et donnent ϕX

(k)(ξ) = E[(iX)keiξX]. On peut aussi appliquerla formule de transfert et invoquer les résultats de dérivation des transformées deFourier.

5.3 Fonctions associées à une variable aléatoire 63

Page 64: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

d. Transformée de LaplaceSoit X une variable aléatoire à valeurs dans R+. On peut alors définir sa trans-

formée de Laplace par la formule

LX(λ)=E[e−λX], λ> 0 .

La transformée de Laplace est étroitement liée à la fonction génératrice : si X est àvaleurs dans N, on a

LX(λ)= gX(e−λ).

Proposition 5.17. Si X et X ′ sont deux variables aléatoires positives telles queLX =LX ′, alors X et X ′ ont la même loi.

Démonstration. Soit A l’ensemble des fonctions de [0, ∞] dans R de la formex 7→∑

i=1

kaie

−λi x, avec a1, ..., ak dans R et λ1, ..., λk dans R+. Alors A est unealgèbre de fonctions continues sur le compact [0, ∞], séparant les points de cecompact. Le théorème de Stone-Weierstrass montre que A est dense dans l’ensembleC([0, ∞], R) des fonctions continues sur R+ admettant une limite à l’infini, pourla norme uniforme. Par linéarité, si LX = LX ′ alors on a E[f(X)] = E[f(X ′)] pourtout f ∈A, et par densité, le même résultat est valable pour f ∈ C([0,∞],R). Parun argument d’approximation, on en déduit que P(X ∈ I) = P(X ′ ∈ I) pour toutintervalle ouvert I ∈R+, c’est-à-dire que PX(I)=PX ′(I) et on conclut par le lemmede classe monotone.

Proposition 5.18. La transformée de Laplace d’une variable aléatoire positive estune fonction continue sur R+, et de classe C∞(]0,∞[,R). Par ailleurs, on a pourtout entier k> 0,

E[Xk] = (−1)kLX(k)(0+ ) ,

la limite à droite en 0 de LX(k).

Démonstration. La dérivée k-ième de λ 7→ e−λx est (−x)ke−λx, et pour tout inter-valle compact I ⊂ ]0,∞[, on a

sup xke−λx :x∈R+, λ∈ I<∞.

On peut donc appliquer le théorème de dérivation sous le signe intégrale et obtenirle caractère C∞ sur ]0,∞[. La continuité sur R+ est similaire, et utilise juste quee−λx 6 1 pour tout λ, x> 0. Enfin, on déduit que pour tout λ> 0, on a

(−1)kLX(k)(λ) =E[Xke−λX] ,

et on conclut en faisant tendre λց 0, et par convergence monotone.

Noter que la définition de la transformée de Laplace s’étend verbatim à toutnombre complexe λ tel que ℜ(λ)> 0, et que LX(iξ)= ϕX(ξ) est la fonction caracté-ristique de X. De plus, la preuve précédente montre que LX est en fait holomorphesur le demi-plan ouvert λ ∈C: ℜ(λ) > 0. En particulier, ceci implique que pourvérifier que X et X ′ ont même loi, il suffit de montrer que LX(λ)=LX ′(λ) pour toutλ dans un sous-ensemble deR+ ayant au moins un point d’accumulation dans ]0,∞[.

64 Bases de la théorie des probabilités

Page 65: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

On notera aussi que s’il existe ε>0 tel que E[eεX]<∞ (on dit alors que X admetdes moments exponentiels), alors la définition de la transformée de Laplace s’étend àtout λ∈ [−ε,∞[, et même5.1 à λ∈C:ℜ(λ)>−ε. Si c’est le cas, le développementen série entière de LX au voisinage de 0 donne, du fait de la proposition 5.18,

LX(λ) =∑

k>0

E[Xk](−λ)k

k!, λ∈ ]−ε,∞[.

On appelle de ce fait LX la fonction génératrice des moments .

Corollaire 5.19. Soit X une variable aléatoire positive. Supposons qu’il existe ε>0tel que E[eεX]<∞. Alors la suite (E[Xk], k> 1) des moments de X caractérise saloi.

En particulier, une loi de probabilités sur R à support borné est caractérisée parses moments.

Même si nous avons considéré ici des variables aléatoires positives, toutes lesconsidérations précédentes s’étendent mutatis mutandis à des variables aléatoiresréelles telles que E[eλX]<+∞ pour tout λ dans un intervalle [a, b] contenant 0 etnon réduit à un point, auquel cas LX(λ)=E[e−λX] définit une fonction holomorphedans la bande λ∈C:ℜ(λ)∈ ]−b,−a[.

5.4 Exemples fondamentaux de lois de variablesaléatoires

Dans toute cette partie, X désignera une variable aléatoire définie sur un espace deprobabilités (Ω,F ,P).

a. Lois discrètes

Loi uniforme sur un ensemble finiSoit E un ensemble fini, alors X : Ω→E est de loi uniforme sur E si

P(X = x) =1

card(E), x∈E.

Ceci implique évidemment que P(X ∈A)= card(A)/card(E) pour tout A⊂E.Plus généralement, si E est un ensemble fini ou dénombrable et (px, x ∈E) est

une famille de nombres réels positifs de somme 1, on lui associe une loi de probabilitépar la formule

P(X =x)= px ,

c’est-à-dire que P(X ∈A) =∑

x∈Apx. Noter qu’il n’y a pas de loi uniforme sur un

ensemble strictement dénombrable !

5.1. Dans ce cas, la fonction caractéristique ϕX s’étend donc en une fonction holomorphe sur undomaine ouvert de C contenant R.

5.4 Exemples fondamentaux de lois de variables aléatoires 65

Page 66: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Loi de BernoulliSoit p∈ [0, 1], on dit que X: Ω→0, 1 suit une loi de Bernoulli de paramètre p

(ou encore, que X est une variable aléatoire de Bernoulli de paramètre p) si

P(X = 1)= p , P(X = 0)= 1− p.

On a alors E[X] = p, Var(X) = p(1− p), gX(z) = 1− p+ pz. Pour p= 1/2, c’est laloi uniforme sur 0, 1. Ceci modélise un lancer d’une pièce, biaisée si p=/ 1/2.

Loi binomialeSoit n∈N, p∈ [0, 1]. On dit que X: Ω→0, 1, 2, ..., n suit une loi binomiale de

paramètres (n, p) si

P(X = k)=(

n

k

)

pk(1− p)n−k, 06 k6n.

On a alors E[X]=np, Var(X)=np(1− p), gX(z)=(1− p+ pz)n. Ceci correspond aunombre de pile lorsqu’on lance n fois une pièce biaisée, avec probabilité p d’obtenirpile. Formellement, c’est la loi de la variable aléatoire X: 0, 1n→N définie par

X(ω1, ..., ωn) =ω1 + ···+ωn

sur l’espace de probabilités (0,1n,20,1n

,Ber(p)⊗n) où Ber(p)= pδ1 +(1− p)δ0 estla loi de Bernoulli.

Nous anticipons un peu sur le prochain chapitre en notant qu’une telle loi estobtenue en prenant la somme de n variables de Bernoulli de paramètre p indépen-dantes.

Loi géométriqueSoit p∈ ]0, 1]. On dit que X: Ω→N suit une loi géométrique de paramètre p si

P(X = k) = p(1− p)k−1, k> 1.

On notera que les conventions diffèrent selon les ouvrages : notre choix est motivépar la définition suivante : X a la même loi que le premier temps de succès dans unesuite de tirages de variables de Bernoulli indépendantes (un succès étant interprétécomme le fait que la variable aléatoire prenne la valeur 1). En effet, si (X1,X2, ...) estune suite de lancers de pile-ou-face biaisés, la variable aléatoire T = infk>1:Xk=1a bien la loi voulue, puisque

P(T = k) =P(X1 = 0, ...,Xk−1 = 0,Xk =1)= (1− p)k−1p.

Noter que la variable aléatoire T est à valeurs dans N∪ ∞, puisqu’elle prend lavaleur ∞ sur la suite constante égale à 0. Cependant, cette suite n’est pas chargéepar la mesure produit Ber(p)N

∗, et on a donc que P(T <∞)= 1.

On a E[X] = 1/p, Var(X) = (1− p)/p2,

gX(z)=pz

1− (1− p)z.

Loi de Poisson

66 Bases de la théorie des probabilités

Page 67: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Soit θ> 0. On dit que X : Ω→N suit une loi de Poisson de paramètre θ si

P(X = k)= e−θ θk

k!, k> 0 .

On a que E[X] = θ, Var(X) = θ, gX(z) = exp (−θ(1 − z)). Mentionnons dèsmaintenant qu’une variable de loi de Poisson de paramètre θ peut être vue commeune variable de Bernoulli de paramètres n,θ/n pour n très grand : une loi de Poissoncorrespond donc au nombre d’occurrence d’un phénomène très rare (de probabilitéinversement proportionnelle au nombre d’expériences réalisées), et s’appelle parfoisla loi des événements rares . En effet, pour tout k fixé, on a, pour tout k> 0 fixé,

(

n

k

)

(

θ

n

)

k(

1− θ

n

)

n−k

−→n→∞

e−θ θk

k!.

b. Lois à densité

Loi uniforme sur un sous-ensemble mesurable de Rd.

Soit A∈B(Rd) un borélien tel que 0<λd(A)<∞. On dit que la variable aléatoireX: Ω→Rd est de loi uniforme sur A si

PX(dx)=dx

λd(A)1A(x).

Par exemple, si d = 1 et A = [a, b] est un intervalle avec a < b, la loi uniforme estdx1[a,b](x)/(b− a). La fonction de répartition associée est

FX(x) = 0∨ x− a

b− a∧ 1 , x∈R,

où nous notons x∨ y=max x, y et x∧ y=min x, y.La fonction caractéristique est donnée par

ϕX(ξ) =eibξ − eiaξ

iξ(b− a)= e

iξa+b

2 · sin ((b− a)ξ)

(b− a)ξ, ξ ∈R\0, ϕX(0)= 1.

Lois exponentielles

Soit θ > 0. La variable aléatoire X: Ω→R suit la loi exponentielle de paramètreθ si

PX(dx)= θe−θx1R+(x) dx.

La fonction de répartition est FX(x)=1−e−θx pour tout x>0, et FX(x)=0 si x<0.On travaille plutôt avec la queue de distribution GX(x) = e−θx.

La propriété fondamentale des variables exponentielles est l’absence de mémoire :si X a une loi exponentielle alors GX(x+ y) =GX(x)GX(y) pour tout x, y > 0, cequi se traduit par

P(X >x+ y) =P(X >x)P(X > y)

ou encore par

P(X >x+ y |X >x)=P(X > y).

5.4 Exemples fondamentaux de lois de variables aléatoires 67

Page 68: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

On parle également de « non-vieillissement » de la loi exponentielle. Cette propriétéest caractéristique des lois exponentielles (si l’on accepte en plus la masse de Diracen 0 comme loi exponentielle de paramètre +∞). La fonction caractéristique de Xet la transformée de Laplace sont données par

ϕX(ξ)=θ

θ− iξ, LX(λ) =

θ

θ+λ.

Lois gaussiennes sur R.On a vu que la densité gaussienne gσ(x) = exp (−x2/2σ2)/(2πσ2)1/2 est une

fonction positive d’intégrale 1 par rapport à la mesure de Lebesgue sur R (on parlede densité de probabilité). On dit que la variable aléatoire X: Ω→R admet une loigaussienne de moyenne m et de variance σ2 si sa loi est donnée par

PX(dx) = gσ(x−m)dx.

Comme on l’a vu au chapitre précédent, sa fonction caractéristique est donnée par

ϕX(ξ) = exp

(

imξ − σ2|ξ |22

)

.

En dérivant, on en déduit que l’espérance de X est m, et sa variance est σ2, ce quiest cohérent avec la définition.

Il est par ailleurs facile de constater que E[eλX] <∞ for every λ ∈ R, puisquee−x2/2σ2

décroît bien plus vite à l’infini que e−ax, pour tout a>0. Donc la transforméede Laplace existe bien (au sens étendu que nous avons donné à la fin du paragraphesur cette transformée), et vaut

LX(λ)= exp

(

−λm+σ2λ2

2

)

.

On parlera plus tard, au paragraphe 8.3, de la famille des lois gaussiennes sur Rd.

68 Bases de la théorie des probabilités

Page 69: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 6

Indépendance

Dans tout ce chapitre, on fixe l’espace de probabilités (Ω,F ,P).

6.1 Probabilités conditionnelles élémentaires

Soit (Ω, F ,P) un espace de probabilités, et B ∈F un événement tel que P(B)> 0.On définit alors, pour tout A∈F ,

P(A|B)=P(A∩B)

P(B),

et on l’appelle probabilité de A sachant B. Comme P(Ω|B) = P(B)/P(B) = 1, onobtient que l’application A 7→P(A|B) est une mesure de probabilités. Intuitivement,l’espace de probabilités (Ω,F ,P(·|B)) est l’espace correspondant à une expériencealéatoire pour laquelle on sait a priori que l’événement B est réalisé. Si A et Bsont tous deux des événements tels que P(A)P(B)> 0, alors on obtient facilementla formule de Bayes

P(B |A)=P(A|B)P(B)

P(A).

Soit I un ensemble d’indices fini ou dénombrable. Si (Bi, i ∈ I) est une partitionmesurable de Ω, c’est-à-dire que les ensembles Bi sont des événements deux-à-deuxdisjoints et de réunion Ω, alors pour tout événement A, on a la formule des proba-bilités totales

P(A) =∑

i∈I

P(A|Bi)P(Bi),

où l’on pose par convention P(A|Bi) = 0 si P(Bi) = 0. Cette formule est égalementaisée à démontrer. À l’aide de cette formule, on peut réécrire la formule de Bayessous la forme

P(B |A) =P(A|B)P(B)

P(A|B)P(B)+P(A|Bc)P(Bc).

69

Page 70: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Exemple. Les probabilités conditionnelles sont réputées donner des résultats par-fois inattendus. En voici un exemple. Supposons qu’une certaine maladie frappeun individu sur 100, c’est-à-dire qu’un individu donné a une probabilité 0, 01 d’enêtre affecté. On suppose que l’on dispose d’un test de dépistage de la maladie,mais qu’il n’est fiable qu’à 99%, c’est-à-dire qu’il a une probabilité 0, 01 de donnerun résultat positif quand on l’utilise sur un individu sain (faux positif), et uneprobabilité 0, 01 de donner un résultat négatif quand on l’utilise sur un individumalade. Supposons qu’un individu donné soit testé positif. Quelle est la probabilitéqu’il soit effectivement malade ?

En notant ⊕ et ⊖ les événements « être diagnostiqué » positif/négatif, et parM,S les événements « être malade/sain », les données du problème sont

P(M)=1

100=1−P(S), P(⊕|M )=

99100

, P(⊕|S) =1

100.

On cherche à calculer P(M |⊕), et la formule de Bayes donne

P(M |⊕)=P(⊕|M)P(M)

P(⊕|M)P(M)+P(⊕|S)P(S)=

99

100· 1

10099

100· 1

100+

1

100· 99

100

=1

2.

En y réfléchissant un peu, comme peu d’individus sont effectivement malades, sitoute la population fait le test, il y aura clairement beaucoup plus de faux positifsque de faux négatifs ! Ceci illustre le fait que pour qu’un test soit efficace, il vautmieux qu’il soit pratiqué a priori sur une population considérée comme « à risque ».

6.2 Indépendance d’événements

Soit A,B ∈F deux événements. On dit que A et B sont indépendants si

P(A∩B)=P(A)P(B) .

Autrement dit, si de plus P(B) > 0, ceci signifie que P(A|B) = P(A), c’est-à-direque l’information donnée par B n’a aucune influence sur la probabilité que A aitlieu. Plus généralement, si A1, A2, ..., An sont des événements, on dit qu’ils sontindépendants si pour tout I ⊂1, 2, ..., n, on a

P

(

i∈I

Ai

)

=∏

i∈I

P(Ai) . (6.1)

Il convient de faire attention ici :

• Si les événements (A1, ..., An) sont indépendants, alors ils sont aussi indé-pendants deux-à-deux (prendre pour I les paires d’éléments de 1, ..., n),mais la réciproque n’est pas vraie. Par exemple, si l’on jette deux pièceséquilibrées, et qu’on note ω1, ω2∈0, 1 les résultats (0 face, 1 pile), alors lesévénements ω1=0,ω2=0,ω1=ω2 sont indépendants deux-à-deux, maispas indépendants. On parle parfois « d’indépendance dans leur ensemble »des événements (A1, ..., An) pour insister sur ce point.

• Dans la définition, il ne suffit pas de vérifier P(A1∩ ...∩An)=P(A1)···P(An),puisque par exemple on peut avoir A1 = ∅.

70 Indépendance

Page 71: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

La définition précédente s’étend à une famille quelconque (Aj , j ∈J) d’événements :on dit que ces événements sont indépendants si l’on a (6.1) pour tout sous-ensembleI ⊂ J fini.

Remarque. Si A1,A2, ...,An sont des événements indépendants, alors A1c,A2, ...,An

sont également indépendants. En effet, pour tout 1<i2< ...< ik 6n, on a

P(A1c ∩Ai2∩ ...∩Aik) = P(Ai2∩ ...∩Aik)−P(A1∩Ai2∩ ...∩Aik)

= (1−P(A1))∏

j=2

k

P(Aij)

= P(A1c)P(Ai2)···P(Aik).

Cela suffit clairement pour conclure.

6.3 Indépendance de σ-algèbres

Rappelons que si C est une classe de sous-ensembles d’un même ensemble Ω, on noteσ(C) la plus petite σ-algèbre contenant C. Par ailleurs, si (Fi, i∈ I) est une famillequelconque de sous-σ-algèbres d’une même σ-algèbre F , on note

i∈I

Fi = σ

(

i∈I

Fi

)

la plus petite σ-algèbre contenant toutes les Fi, i∈ I.

Soit F1, ..., Fn des sous-σ-algèbres de F . On dit qu’elles sont indépendantes siet seulement si l’on a

P

(

i=1

n

Ai

)

=∏

i=1

n

P(Ai) , pour tout A1∈F1, ..., An ∈Fn.

Proposition 6.1. Les σ-algèbres F1, ..., Fn sont indépendantes si et seulement sipour tout A1∈F1, ..., An ∈Fn, les événements A1, ..., An sont indépendants.

Démonstration. Le sens direct est le seul sens non trivial à démontrer. Supposonsdonc que les σ-algèbres F1, ...,Fn sont indépendantes et prenons A1∈F1, ...,An∈Fn.Soit I⊂1, ..., n, posons Bi =Ai si i∈ I et Bi=Ω si i∈/ I. Alors pour tout i∈1, ...,n on a Bi∈Fi, et la définition de l’indépendance de σ-algèbres implique que

P

(

i∈I

Ai

)

=P

(

i=1

n

Bi

)

=∏

i=1

n

P(Bi)=∏

i∈I

P(Ai).

Ceci montre que A1, ..., An sont indépendants.

Exercice. Montrer que A1, ..., An sont indépendants si et seulement si les σ-algèbresσ(A1), ..., σ(An) sont indépendantes, où σ(A) = ∅, A, Ac, Ω est la plus petiteσ-algèbre contenant A.

6.3 Indépendance de σ-algèbres 71

Page 72: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Plus généralement, si (Fi, i∈ I) est une famille quelconque de σ-algèbres, on ditqu’elles sont indépendantes si les σ-algèbres (Fj , j ∈ J) sont indépendantes pourtoute partie finie J ⊂ I.

En pratique, il n’est pas nécessaire de vérifier la formule de factorisation ci-dessuspour tous les événements, comme le montre le résultat suivant.

Lemme 6.2. Soit C1, ...,Cn des sous-ensembles des σ-algèbres F1, ...,Fn, stables parintersection finie, contenant Ω, et tels que σ(Ci)=Fi pour tout i∈1, 2, ..., n. Onsuppose que pour tout choix de Ci∈Ci, i∈1, 2, ..., n on a

P

(

i=1

n

Ci

)

=∏

i=1

n

P(Ci) .

Alors les σ-algèbres F1, ...,Fn sont indépendantes.

Démonstration. Fixons C2, ...,Cn dans leurs classes C2, ...,Cn respectives, et notons

M1 = A∈F1 :P(A∩C2∩ ...∩Cn)=P(A)P(C2)...P(Cn).AlorsM1 contient C1 par hypothèse (et donc Ω∈M1 en particulier), et est une classemonotone : elle contient ∅, est stable par réunion dénombrable disjointe, et enfinpar complémentaire, puisque Ω∩C2∩ ...∩Cn\A∩C1∩ ...∩Cn=Ac∩C2∩ ...∩Cn, etP(Ac)=P(Ω)−P(A). Par le lemme de classe monotone, on a doncM1=σ(C1)=F1.Ensuite, on fixe A1∈F1 et C3, ...,Cn dans leurs classes respectives C3, ...,Cn, et on note

M2 = A∈F2 :P(A1∩A∩C3∩ ...∩Cn) =P(A1)P(A)P(C3)...P(Cn).Pour les mêmes raisons que ci-dessus, on a que M2 = F2. En procédant ainsi parrécurrence, on obtient que

P

(

i=1

n

Ai

)

=∏

i=1

n

P(Ai) , pour tout A1∈F1, ..., An∈Fn ,

ce qu’on voulait démontrer.

On en déduit le lemme de « regroupement par paquets ».

Lemme 6.3. Soit (Fi, i∈ I) une famille de σ-algèbres indépendantes, et (Ij , j ∈J)une partition de I. Alors les σ-algèbres

(

i∈IjFi, j ∈ J

)

sont indépendantes.

Démonstration. Soit K ⊂ J un sous-ensemble fini. Il suffit de montrer que lesσ-algèbres

i∈IjFi, j ∈ K sont indépendantes. Pour cela, on définit Cj comme

l’ensemble des intersections finies d’éléments de⋃

i∈IjFi pour tout j ∈ K, et on

applique le lemme 6.2. En effet, un élément Cj de Cj s’écrit sous la forme A1j ∩ ...∩

Ak(j)j où les événements Am

j sont dans des σ-algèbres Fim distinctes, avec im∈ Ij. Enchoisissant les Cj de cette forme, la propriété d’indépendance de (Fi, i∈ I) impliqueclairement que

P

(

j∈K

Cj

)

=∏

j∈K

m=1

k(j)

P(Amj ) =

j∈K

P(Cj) .

72 Indépendance

Page 73: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

On conclut par le lemme 6.2.

6.4 Indépendance de variables aléatoires

a. σ-algèbre associée à une variable aléatoire

À toute variable aléatoire X à valeurs dans un espace mesurable (E, E), onassocie une σ-algèbre (tribu)

σ(X)= X−1(A):A∈E ,qui est une sous-σ-algèbre de F , appelée la σ-algèbre engendrée par la variablealéatoire X. On interprète la σ-algèbre σ(X) comme l’information contenue dans lavariable X, ou encore les événements mesurables par rapport à X.

Exercice. Soit Y une variable aléatoire à valeurs dans un espace mesurable (E,E), et soit X

une variable aléatoire à valeurs dans R telle que X est mesurable par rapport à σ(Y ). Alors ilexiste un fonction mesurable f de (E, E) dans (R,B(R)) telle que X = f(Y ). [Pour montrer

cela on peut commencer par supposer que X est une fonction indicatrice, et on rappelle qu’une

fonction mesurable positive est limite croissante de fonctions étagée presque partout.]

Plus généralement, si (Xi, i∈I) est une famille quelconque de variables aléatoires,on lui associe la tribu engendrée par cette famille comme

σ(Xi, i∈ I) =∨

i∈I

σ(Xi) .

b. Indépendance de variables aléatoires

Définition 6.4. Soit X1, ..., Xn des variables aléatoires, respectivement à valeursdans les espaces mesurables (Ei, Ei), 1 6 i 6 n. On dit que ces variables aléatoiressont indépendantes si les tribus σ(Xi), 1 6 i 6 n sont indépendantes. Ceci signifieque pour tout choix d’ensembles mesurables Ai∈Ei, 16 i6n, on a

P(Xi∈Ai, 16 i6n)=∏

i=1

n

P(Xi∈Ai) . (6.2)

Plus généralement, on dit que les variables aléatoires d’une famille quelconque(Xi, i∈ I) sont indépendantes si toutes les sous-familles finies (Xj , j ∈J) avec J finiinclus dans I sont formées de variables aléatoires indépendantes.

Remarque. Si les σ-algèbres (Fi, i ∈ I) sont indépendantes, et si les variablesaléatoires (Xi, i∈ I) sont telles que, pour tout i∈ I , Xi est mesurable par rapport àFi, alors les variables aléatoires (Xi, i∈ I) sont indépendantes.

Proposition 6.5. Soit X1, X2, ..., Xn des variables aléatoires, respectivement àvaleurs dans des espaces mesurables (E1, E1), (E2, E2), ..., (En, En). Ces variablesaléatoires sont indépendantes si et seulement si la loi de (X1, X2, ..., Xn) est la loiproduit des marginales :

P(X1,...,Xn) =PX1⊗PX2⊗ ...⊗PXn.

6.4 Indépendance de variables aléatoires 73

Page 74: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration. Supposons que X1, X2, ..., Xn sont indépendantes. Par la défini-tion de l’indépendance, les deux mesures de probabilités apparaissant dans l’énoncéde part et d’autre de l’égalité sont égales sur les pavés mesurables de E1×E2× ...×En. Elles sont donc égales partout par le lemme des classes monotones. La réciproqueest immédiate.

Exemple. On a construit au chapitre 5.1 une suite infinie de variables aléatoiresindépendantes uniformes sur 0, 1, à l’aide de l’écriture dyadique d’une variablealéatoire de loi uniforme sur [0, 1[.

Corollaire 6.6. Soit X1, ..., Xn des variables aléatoires indépendantes, respective-ment à valeurs dans un espace mesurable (Ei,Ei), et pour tout i∈1, ..., n, soit fi:Ei→R une fonction mesurable. On suppose, ou bien que toutes les fonctions fi sontpositives, ou bien que fi∈L1(PXi

) pour tout i∈1, ..., n. Alors

E

[

i=1

n

fi(Xi)

]

=∏

i=1

n

E[fi(Xi)] .

En particulier, si fi∈L1(PXi) pour tout i∈1, ..., n, alors ∏

i=1

nfi(Xi)∈L1(P).

Par exemple, soit X1, ...,Xn des variables aléatoires à valeurs réelles, intégrables,et indépendantes, alors X1···Xn est aussi intégrable et E[X1···Xn]=E[X1]···E[Xn].

Remarque. Soit X,Y deux variables aléatoires indépendantes et dans L2. Alors lesvariables aléatoires X −E[X] et Y −E[Y ] sont indépendantes et dans L2, et l’on a

Cov(X, Y ) =E[(X −E[X])(Y −E[Y ])] = 0.

On dit que des variables aléatoires indépendantes sont décorrélées (de corrélationnulle). La réciproque n’est pas vraie. Si (ε,X) sont deux variables aléatoires indépen-dantes, où P(ε=1)=P(ε=−1)=1/2 et où X est une variable aléatoire gaussienneN (0, 1), alors les variables aléatoires X et εX sont décorrélées. En effet, on afacilement E[X] =E[εX ] = 0, et

Cov(X, εX)=E[εX2] =E[ε]E[X2] = 0.

Cependant, les variables aléatoires X et εX ne sont clairement pas indépendantes,sinon la loi de (X, εX) serait à densité sur R2. Or il est clair que la loi de (X, εX)est en fait portée par les bissectrices (x, x) :x∈R∪ (x,−x) :x∈R.

c. Critères d’indépendance de variables aléatoires

Proposition 6.7. Soit X1, ..., Xn des variables aléatoires discrètes, à valeurs dansdes ensembles E1, ..., En. Alors ces variables sont indépendantes si et seulement sil’on a, pour tout (x1, ..., xn) dans E1× ···×En

P(X1 = x1, ...,Xn =xn)=P(X1 =x1)···P(Xn =xn) .

La preuve de ce résultat est évidente.

74 Indépendance

Page 75: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 6.8. Soit X1, ..., Xn des variables aléatoires à valeurs dans R. Alorselles sont indépendantes si et seulement si l’on a, pour tout x1, ..., xn∈R,

P(X1 6x1, ...,Xn 6xn)=∏

i=1

n

FXi(xi).

Démonstration. Pour le voir, il suffit d’appliquer le lemme 6.2 en prenant pour Ci

la classe des intervalles de la forme ]−∞, x], ou égaux à R tout entier. Noter que lafactorisation ci-dessus a encore lieu si l’on prend certains xi =∞, par la continuitédes mesures de probabilités par limite monotone. La réciproque est évidente.

Proposition 6.9. Soit X1, ..., Xn sont des variables aléatoires réelles, alors ellessont indépendantes si et seulement si pour tout ξ= (ξ1, ..., ξn)∈Rn, on a

ϕ(X1,...,Xn)(ξ) =∏

j=1

n

ϕXj(ξj) .

Ceci est une application immédiate du lemme 6.6 et de l’injectivité de la trans-formée de Fourier.

Exemple : variables aléatoires gaussiennes. Soit σ>0 et m=(m1, ...,md)∈Rd.On dit que la variable aléatoire X = (X1, ..., Xd) à valeurs dans Rd est gaussiennede moyenne m et de matrice de variance-covariance σ2Id si la loi de X a pourdensité gσ(x−m) par rapport à λd, où gσ(x)= (2πσ2)−d/2 exp (−|x|2/2σ2). On notegénéralement N (m, σ2Id) cette loi. Par les propriétés de la transformée de Fourierdes densités gaussiennes, on a que

ϕX(ξ)= exp

(

imξ − σ2|ξ |22

)

=∏

j=1

d

exp

(

imj ξj − σ2ξj2

2

)

. (6.3)

En prenant ξ= ξ ′ej, où ξ ′∈R et où ej est le j-ème vecteur de la base canonique deRd, on en déduit en particulier que

ϕXj(ξ ′)= exp

(

imj ξ′− σ2(ξ ′)2

2

)

,

c’est-à-dire que Xj suit la loi gaussienne N (mj , σ2) sur R. De plus, la formule 6.3

implique que les variables aléatoires X1, ...,Xd sont indépendantes.Remarquons enfin que l’espérance de X est bien égale à m, et sa matrice de

variance-covariance est ΣX =σ2Id. Ceci peut s’obtenir en dérivant la fonction carac-téristique, et nous laissons la vérification en exercice. Pour simplifier, noter que Xsuit la loi N (m,σ2Id) si et seulement si X −m suit la loi N (0, σ2Id). En effet, pourtoute fonction f :Rd→R mesurable bornée,

E[f(X −m)] =

Rd

f(x−m)gσ(x−m)dx=

Rd

f(x)gσ(x)dx ,

et la réciproque est similaire. De ce fait, à une translation près par un vecteur deRd, on peut se ramener à l’étude des lois N (0, σ2Id).

6.4 Indépendance de variables aléatoires 75

Page 76: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Enfin, voici un dernier exemple de critère d’indépendance pratique pour desvariables aléatoires à densité.

Proposition 6.10. Soit X = (X1, ..., Xd) une variable aléatoire à valeurs dansRd. On suppose que la loi de X admet une densité fX, et qu’il existe des fonctionsmesurables fi:R→R+ pour 16 i6 d telles que

fX(x)=∏

i=1

d

fi(xi).

Alors les variables aléatoires X1, ...,Xd sont indépendantes, et il existe des nombresréels ci> 0, 16 i6 d tels que fXi

= cifi, où fXiest la densité de la loi de Xi.

Rappelons que sous nos hypothèses, les variables Xi sont bien à densité, du faitde la discussion suivant la proposition 5.5.

Démonstration. Soit h1, ..., hd :R→R des fonctions mesurables bornées. Alors ona

E

[

i=1

d

hi(Xi)

]

=

Rd

i=1

d

hi(xi)fi(xi)dxi =∏

i=1

d ∫

Rd

hi(y)fi(y)dy ,

par le théorème de Fubini. Posons ci =(∫

Rfi(y)dy

)−1. En prenant toutes lesfonctions hi≡ 1 dans l’équation précédente, on obtient c1 ···cd =1, et en particulier,les nombres ci sont tous strictement positifs et finis. On réécrit donc l’équationprécédente sous la forme

E

[

i=1

d

hi(Xi)

]

=∏

i=1

d ∫

Rd

hi(y) cifi(y)dy .

En prenant toutes les fonctions hi≡ 1 sauf une (disons hj), on déduit de ceci que laloi de Xj admet pour densité la fonction cjfj. Enfin, on a obtenu que

E

[

i=1

d

hi(Xi)

]

=∏

i=1

d

E[hi(Xi)] ,

pour toutes les fonctions hi mesurables bornées, ce qui montre l’indépendance desvariables aléatoires X1, ...,Xd.

Comme exemple d’application, on peut montrer une nouvelle fois que les com-posantes d’une variable aléatoire gaussienne N (m, σ2Id) sont indépendantes.

6.5 Sommes de variables aléatoires indépendantes

Soit X et Y deux variables aléatoires à valeurs dans Rd, définies sur un espace deprobabilités (Ω,F ,P). On suppose X et Y indépendantes.

Lemme 6.11. La loi de la variable aléatoire X +Y est la convolée PX∗PY.

76 Indépendance

Page 77: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration. Soit f une fonction mesurable bornée. Comme X et Y sontindépendantes, la loi de (X,Y ) est la mesure PX ⊗PY , et donc

E[f(X + Y )] =

Rd×Rd

f(x+ y)PX(dx)PY (dy) =

Rd

f(z)(PX∗PY )(dz),

par définition de la convolée. D’où le résultat.

Par récurrence, on en déduit que si X1, X2, ..., Xn sont des variables aléatoiresindépendantes à valeurs dansRd, la loi de la sommeX1+X2+ ···+Xn est la convoléePX1∗PX2 ∗...∗PXn

. En particulier, la fonction caractéristique de X1 + ··· + Xn estdonnée par

ϕX1+···+Xn(ξ)=

i=1

n

ϕXi(ξ) , ξ ∈Rd .

Si l’on a une suite de variables aléatoires X1, X2, ... indépendantes et de même loi(on abrège cela en i.i.d., pour « indépendantes et identiquement distribuées »), lasuite des sommes partielles

Sn =∑

i=1

n

Xi , n> 0

est appelée une marche aléatoire à pas i.i.d.Notons que si l’on suppose que les variables aléatoires réelles X1, ..., Xn sont de

carré intégrable, alors

Var(X1 + ···+Xn)=∑

i=1

n

Var(Xi) + 2∑

16i<j6n

Cov(Xi,Xj).

En particulier, si les variables aléatoires X1, ...,Xn sont de plus indépendantes, on a

Var(X1 + ···+Xn) =∑

i=1

n

Var(Xi) .

Corollaire (loi faible L2 des grands nombres). Soit X1, X2, ... une suite devariables aléatoires réelles indépendantes et de même loi, telles que E[X1

2]<∞. Alors

X1 + ···+Xn

n−→n→∞

E[X1] ,

la convergence ayant lieu dans l’espace L2(Ω,F ,P).

Démonstration. On constate simplement que, comme E[X1] =E[X2] = ...,

E

[∣

X1 + ···+Xn

n−E[X1]

2]

= E

[∣

X1 + ···+Xn −E[X1 + ···+Xn]

n

2]

= Var

(

X1 + ···+Xn

n

)

=1

n2

i=1

n

Var(Xi)=1

nVar(X1) ,

6.5 Sommes de variables aléatoires indépendantes 77

Page 78: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

ce qui tend vers 0 lorsque n→∞.

On remarquera que l’on a utilisé uniquement le fait que les variables aléatoiresX1, ..., Xn ont même espérance et variance, et sont décorrélées, c’est-à-dire queCov(Xi, Xj) = 0 pour tout i =/ j. Comme on l’a vu, cette condition est plus faibleque la condition i.i.d.

6.6 Lemme de Borel-Cantelli

Si A1, A2, ... est une suite d’événements, on définit

limsupn→∞

An =⋂

k>1

n>k

An

qu’on peut voir comme l’ensemble des ω ∈ Ω qui appartiennent à une infinité desévénements An. De même, on pose

liminfn→∞

An =⋃

k>1

n>k

An

qui est l’ensemble des ω∈Ω qui appartiennent à tous les événements An, sauf peut-être un nombre fini d’entre eux. Les sous-ensembles limsupn→∞An et liminfn→∞An

sont eux-mêmes des événements. Par ailleurs on a clairement

limsupn→∞

Anc =(

liminfn→∞

An

)c

, liminfn→∞

Anc =

(

limsupn→∞

An

)c

.

6.6.1 L’énoncé, et un exemple

Le lemme de Borel-Cantelli est une observation simple mais extrêmement utile.

Lemme 6.12. Soit A1, A2, ... une suite d’événements. Si∑

n>1P(An)<∞, alors

P(limsupn→∞An)= 0.

Démonstration. L’hypothèse stipule que E[∑

n>11An

]

<∞. Ceci implique que∑

n>11An

<∞ presque surement, c’est-à-dire que presque tout ω ∈Ω n’appartientqu’à un nombre fini des événements An. Autrement dit, P(liminfn→∞An

c )=1, et onconclut en passant au complémentaire.

La conclusion importante du lemme est queP(liminfn→∞Anc )=1, c’est-à-dire que

les événements Anc ont lieu à partir d’un certain rang. En pratique, si l’on cherche

à montrer que des événements ont lieu à partir d’un certain rang, on estime doncles probabilités des complémentaires (An est donc un « mauvais » événement) et onessaie de montrer que ces probabilités sont petites (au sens où elles sont sommables).Illustrons ceci par un exemple instructif.

Exemple. Nombre de « pile » consécutifs

78 Indépendance

Page 79: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Soit (X1,X2, ...) une suite de variables aléatoires de Bernoulli de paramètre 1/2indépendantes. Pour tout n> 1, on note Rn le nombre maximal des Xi consécutifsvalant 1, à partir de l’indice n. Formellement

Rn = sup m> 1:Xn =Xn+1 = ...=Xn+m−1 = 1.Remarquons alors que pour tout K > 0,

P(Rn>K)6P(Xn =Xn+1 = ...=Xn+K−1 = 1)=1

2K.

Prenons K = K(n) = ⌊(1 + ε) log2 (n)⌋ où ε > 0 est fixé. On voit alors que siAn = Rn>K(n), on a

P(An) 61

2(1+ε) log2(n)−16

2

n1+ε

Par conséquent, le lemme de Borel-Cantelli implique que Rn 6 (1 + ε) log2 (n)pour tout n assez grand, disons n > n0(ε) où n0(ε) est aléatoire, mais fini presquesurement. En prenant ε de la forme 2−k pour k>0, on obtient que presque surement,

limsupn→∞

Rn

log2 (n)6 1 .

Notons Mn =max (R1, R2, ..., Rn). Avec la notation ci-dessus, pour tout n>n0(ε),

Mn 6max (R1, ..., Rn0(ε))∨ (1+ ε)log2(n)

et on déduit que l’on a également

limsupn→∞

Mn

log2 (n)6 1 .

Nous montrons à présent le résultat suivant.

Proposition 6.13. On a presque surement

limn→∞

Mn

log2 (n)= 1 .

Par exemple, une suite de 2n lancers de pile ou face contient au moins un blocayant environ n valeurs 1 consécutives si n est assez grand. Par exemple, pour 1000valeurs consécutives, on devrait vraisemblablement trouver des blocs d’environ 10valeurs identiques consécutives, mais pas beaucoup plus.

Démonstration. Fixons ε ∈ ]0, 1[, et notons ln = ⌊(1− ε)log2(n)⌋, et Nn = ⌊n/ln⌋.On note alors Bj = jln + 1, jln + 2, ..., (j + 1)ln pour 0 6 j 6Nn − 1, de sorte queles ensembles Bj sont disjoints deux-à-deux, de cardinal ln et de réunion inclusedans 1, 2, ..., n. Clairement, s’il existe j ∈0, ..., Nn − 1 tel que Xi =1 pour touti∈Bj, alors on a Mn > ln. Montrons donc que cela arrive presque surement à partird’un certain rang.

Pour cela, notons

An = ∀j ∈0, ..., Nn − 1, ∃i∈Bj :Xi = 0 ,

6.6 Lemme de Borel-Cantelli 79

Page 80: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et notons que par le lemme de regroupement par paquets, les tribus σ(Xi, i ∈Bj),j ∈0, ..., Nn − 1 sont indépendantes. Par conséquent

P(An) =∏

j=0

Nn−1

P(∃i∈Bj:Xi =0)

=∏

j=0

Nn−1

(1−P(∀i∈Bj:Xi = 1))

=

(

1− 1

2ln

)

Nn

6

(

1− 1

2n1−ε

)

Nn

,

où l’on a utilisé une nouvelle fois l’indépendance des Xi à la dernière étape. Parconséquent

P(An)= exp

(

Nn ln

(

1− 1

2n1−ε

))

= exp

(

−(

n

log2 (n)− 1

)

1

2n1−ε(1+ o(1))

)

ce que l’on peut borner par exp (−nε/2) pour tout n assez grand. Ce majorant estsommable, et le lemme de Borel-Cantelli permet de conclure que Mn > ln à partird’un certain rang, comme on l’a vu. Ainsi, on obtient que pour tout ε∈ ]0, 1[ on a

liminfn→∞

Mn

log2 (n)> 1− ε

presque sûrement, et on conclut.

6.6.2 Lemme « réciproque »

Noter que le lemme de Borel-Cantelli ne fait aucunement intervenir une hypothèsed’indépendance des événements An ! En revanche, une telle hypothèse est nécessairepour l’énoncé « réciproque » ci-dessous.

Lemme 6.14. Soit A1, A2, ... des événements indépendants. Si∑

n>1P(An)=∞,

alors P(limsupn→∞An) = 1.

Démonstration. Pour tout k> 1, on a par le théorème de convergence dominée,

P

(

n>k

Akc

)

=E

[

n>k

1Anc

]

= limN→∞

E

[

n=k

N

1An

c

]

= limN→∞

n=k

N

E[1Anc ] ,

où l’on a utilisé l’indépendance à la dernière étape. Cette limite vaut

n>k

(1−P(An))6 exp

(

n>k

−P(An)

)

= 0,

où l’on a utilisé la borne 1−x6 e−x, et l’hypothèse de divergence de∑

P(An). Onen déduit que

P(

liminfn→∞

Anc)

6∑

k>1

P

(

n>k

Akc

)

= 0,

et on conclut par passage au complémentaire.

80 Indépendance

Page 81: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Exercice. L’hypothèse d’indépendance de ce lemme est indispensable ! Donner un ou descontre-exemples naturels si les événements ne sont pas indépendants.

Nous donnons maintenant deux applications de la seconde version du lemme deBorel-Cantelli.Une mesure « uniforme » sur N ?

Comme première application, on montre qu’il n’existe pas de mesure de probabi-lités P « bien répartie » sur N, au sens où P(nN)=1/n pour tout n>1. En effet, sitel était le cas, les événements Ap = pN seraient tous indépendants lorsque p décritl’ensemble des nombres premiers. En effet, on aurait, pour tous les nombres p1, ...,

pk premiers distincts,

P(Ap1∩ ...∩Apk)=P(p1···pkN)=

1

p1···pk

=∏

i=1

k

P(Api).

Comme∑

p1/p= ∞, où la somme porte sur l’ensemble des nombres premiers, on

en déduirait, par la seconde version du lemme de Borel-Cantelli que P-presque toutentier n est dans une infinité des ensembles pN avec p premier, ce qui est clairementimpossible.

Motifs dans une suite de pile ou faceDonnons une autre application simple de ce lemme. Considérons une suite X1,

X2, ... de variables aléatoires de Bernoulli de paramètres respectifs pi. En posantAi = Xi = 1 et en applicant les deux lemmes précédents, on obtient

• Si∑

i=1

∞pi<∞ alors presque surement, seul un nombre fini des Xi est non

nul.

• Si∑

i=1

∞pi =∞ et si les variables aléatoires X1,X2, ... sont indépendantes,

alors, presque surement, une infinité des variables Xi valent 1.

Ceci a une conséquence intéressante sur les nombres réels. Rappelons que, si U estune variable aléatoire de loi uniforme sur [0,1[, alors la suite X=(X1,X2, ...) de sondéveloppement dyadique propre

U =∑

i>1

Xi

2i

est une suite de variables aléatoires de loi de Bernoulli de paramètre 1/2, indépen-dantes. Fixons ε=(ε1, ...,εn)∈0,1n une suite finie quelconque, et un entier k>0, etposons Aε(k)=ω∈0,1N∗

: (ωk+1, ...,ωk+n)=ε. Soit Bε= limsupk→∞X ∈Aε(k)l’événement que la suite ε apparaisse une infinité de fois dans le développementdyadique propre de X.

Les événements X ∈ Aε(k) = Xk+1 = ε1, ..., Xk+n = εn, k > 0 ne sont pasindépendants. En revanche, les événements X ∈Aε(kn), k>0 sont respectivementmesurables par rapport aux σ-algèbres σ(Xkn+1, ...,X(k+1)n), qui sont indépendantespar le regroupement par paquets. De plus, P(X ∈ Aε(kn)) = 1/2n pour tout ε ettout k. La somme sur k des probabilités de ces événements est donc infinie, et ledeuxième lemme de Borel-Cantelli implique donc que

P(Bε) >P

(

limsupk→∞

X ∈Aε(kn))

=1 .

6.6 Lemme de Borel-Cantelli 81

Page 82: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Comme l’ensemble des suites finies de 0 et de 1 est dénombrable, on en déduitque, si B est l’intersection des événements Bε sur toutes les suites finies ε, alorsP(B) = 1. Nous avons montré qu’avec probabilité 1, toute suite finie apparaît uneinfinité de fois dans le développement dyadique de la variable aléatoire U . Autrementdit, presque tout nombre (pour la mesure de Lebesgue) satisfait cette propriété, etcontient en particulier une infinité de fois tous les romans du monde codés en binaire,ainsi que ceux qui restent à écrire. On peut y trouver également des tentatives depreuve ou de réfutation assez convaincantes de l’hypothèse de Riemann...

6.7 Loi du 0-1 de Kolmogorov

Soit (F1,F2, ...) une suite de σ-algèbres. Notons

Gn =∨

k>n

Fk et G∞=⋂

n>1

Gn.

On dit que G∞ est la σ-algèbre asymptotique associée à la suite (F1,F2, ...).

Théorème 6.15. Si les σ-algèbres F1, F2, ... sont indépendantes, alors la tribuasymptotique est triviale au sens où pour tout A∈G∞, on a P(A)∈0, 1.

Démonstration. Par le lemme de regroupement par paquets, on a que Gn+1 estindépendante de Fi, ce pour tout n> 1 et i∈1, 2, ..., n. Comme G∞⊂Gn+1, on endéduit que G∞ est indépendante de Fi pour tout i>1. Donc G∞ est indépendante de∨

i>1Fi = G1, à nouveau par le lemme de regroupement par paquets. Mais comme

G∞ ⊂ G1, on en déduit que G∞ est indépendante d’elle-même„ ce qui signifie queP(A)=P(A∩A)=P(A)2 pour tout A∈ G∞, CQFD.

Comme exemple d’application, on en déduit le résultat suivant sur une marchealéatoire (Sn, n> 0) à pas i.i.d. X1,X2, ...

Proposition 6.16. Soit (Xn, n> 1) une suite de variables aléatoires réelles indé-pendantes, et soit Sn =X1 + ···+Xn pour tout n> 1, S0 = 0. Alors les événements

limsupn→∞

Sn =∞

,

liminfn→∞

Sn =−∞

,

sont de probabilité 0 ou 1.

Démonstration. Il suffit de montrer le résultat pour le premier événement, quitteà changer la suite (Xn, n> 1) en leurs opposés.

On a que pour tout k> 1, limsupn→∞ Sn =∞= limsupn→∞ (Sn − Sk) =∞,et cette dernière limite supérieure est

limsupn→∞

(Xk+1 +Xk+2 + ···+Xn) ,

82 Indépendance

Page 83: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

qui est mesurable par rapport à Gk+1 = σ(Xk+1, Xk+2, ...) =∨

i>k+1σ(Xi). En

particulier, limsupn→∞ Sn =∞ est mesurable par rapport à la σ-algèbre Gk pourtout k> 1, et donc par rapport à la tribu asymptotique G∞. Comme les σ-algèbresσ(Xi), i>1 sont indépendantes par hypothèse, la loi du 0-1 de Kolmogorov s’appliqueet donne le résultat.

Corollaire 6.17. Supposons que les variables Xn, n> 1 sont i.i.d. et que

P(X1 = 1)=P(X1 =−1)=1

2.

Alors la marche aléatoire Sn =X1 + ···+Xn oscille, au sens où

P

(

limsupn→∞

Sn =∞ , liminfn→∞

Sn =−∞)

= 1

Démonstration. On sait que les événements liminfn→∞Sn=∞,limsupn→∞Sn=−∞ sont de probabilité 0 ou 1. Mais comme la loi de (Sn, n> 0) est la même quecelle de (−Sn, n > 0) par symétrie de la loi des variables aléatoires Xn, n > 0, cesdeux événements ont aussi la même probabilité.

Nous allons montrer que la suite (Sn, n> 0) n’est pas bornée avec probabilité 1.Ceci signifie que

P

(

limsupn→∞

Sn =∞

liminfn→∞

Sn =−∞

)

=1.

Par conséquent, l’un au moins des deux événements est de probabilité strictementpositive. Par les remarques ci-dessus, la probabilité est en fait 1 pour ces deuxévénements.

Il reste à montrer que (Sn,n>0) n’est pas bornée avec probabilité 1. Introduisonsl’événement

AK = |Sn|6K pour toutn> 0,où K est un entier donné. Posons N = 2K + 1, et constatons que

k>0

XkN+1 =1, ..., X(k+1)N =1⊂AKc .

Or P(XkN+1 = 1, ..., X(k+1)N = 1) = 1/2N > 0, et de plus les événements XkN+1 =1, ...,X(k+1)N = 1, k> 0 sont indépendants. Par conséquent,

P

(

k>0

XkN+1 = 1, ..., X(k+1)N =1c

)

=∏

k>0

(

1− 1

2N

)

= 0 ,

et on en déduit que P(AK) = 0 pour tout K. En prenant la réunion sur K, on endéduit le résultat.

Exercice. Généraliser le résultat précédent à une marche aléatoire Sn = X1 + ···+ Xn à pasi.i.d. dont la loi est symétrique, c’est-à-dire que X1 et −X1 ont même loi, dès que cette loi n’estpas δ0.

6.7 Loi du 0-1 de Kolmogorov 83

Page 84: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

6.8 Complément : existence d’une suite de variablesaléatoires indépendantes

Soit (E,E , µ) un espace de probabilités. Rappelons que l’on peut toujours construireune variable aléatoire X de loi µ, en choisissant par exemple la variable aléatoirecanonique. Le théorème suivant montre qu’on peut faire beaucoup mieux.

Théorème 6.18. Soit (En,En, µn), n>1 une suite d’espaces de probabilités. Alors ilexiste un espace de probabilités sur lequel est définie une suite de variables aléatoires(Xn, n> 1) indépendantes, de lois respectives PXn

= µn.

Ce théorème est un résultat d’existence de la mesure produit µ=⊗

n>1µn sur

l’espace produit E=E1×E2× ... muni de la tribu produit E = E1⊗E2⊗ ..., qui estla plus petite tribu rendant mesurables les applications de projection de Xn:E→En.Si elle existe, la mesure produit µ est définie par

µ(X1∈A1, ...,Xn∈An) =∏

i=1

n

µi(Ai) , A1∈E1, ..., An∈En ,

et une telle mesure est nécessairement unique par le théorème de classe monotone.Sous réserve que cette mesure existe bien, il suffit de prendre pour X =(X1,X2, ...)la variable canonique sur (E, E , µ).

Noue n’allons pas montrer ce théorème en toute généralité, mais expliquons com-ment on peut l’obtenir pour En =R pour tout n>1. Rappelons que l’on a construitau chapitre 5.1 une suite infinie (Y1, Y2, ...) de variables aléatoires indépendantesuniformes dans 0, 1. On peut alors réindexer cette suite en (Zn,m : n, m> 1), enprenant une bijection ϕ :N∗×N∗→N∗ et en posant

Zn,m =Yϕ(n,m) .

La famille (Zn,m : n, m > 1) est clairement formée de variables aléatoires indépen-dantes uniformes dans 0, 1. Pour tout n> 1, on pose alors

Un =∑

m>1

Zn,m

2m,

ce qui définit une suite de variables uniformes (Un, n> 1) qui sont respectivementmesurables par rapport à (Zn,m :m> 1), et dont indépendantes par regroupementpar paquets. Ces variables aléatoires sont de plus clairement uniformes dans [0, 1]par lemme de classe monotone, puisque la probabilité que Un soit dans l’intervalledyadique [k2−m, (k+ 1)2−m[ est égale à

P(

Zn,1 =ω1, ..., Zn,m =ωm

)

=1

2m

où k2−m s’écrit∑

i=1

mωi2

−i. Pour conclure, on peut utiliser la technique de simulationde variables aléatoires réelles par l’inverse de la fonction de répartition. Soit Fn(x)=µn(]−∞, x]) la fonction de répartition d’une variable aléatoire de loi µn, et

Fn−1(u)= inf x∈R:Fn(x)>u , u∈ ]0, 1[.

84 Indépendance

Page 85: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Notons que pour tout x∈R et u∈ ]0,1[, on a Fn−1(u)6x si et seulement si u6Fn(x).

En effet, si Fn−1(u) 6 x alors par définition et croissance de Fn, cela implique que

Fn(y) > u pour tout y > x. En faisant tendre y vers x par valeurs supérieures, onobtient Fn(x) > u par continuité à droite de Fn. La réciproque est immédiate pardéfinition. Posons alors

Xn =Fn−1(Un) , n> 1,

ce qui définit une suite de variables aléatoires indépendantes, puisqu’elles sont res-pectivement mesurables par rapport aux σ-algèbres indépendantes σ(Un). Mais parailleurs, on a, pour tout x∈R,

P(Xn 6x)=P(Un 6Fn(x)) =Fn(x) ,

ce qui signifie que Xn a pour fonction de répartition Fn, et donc que Xn a pour loiµn. Le théorème est donc démontré dans le cas où les mesures µn sont définies sur(R,B(R)).

Remarque. L’approche présentée ci-dessus peut se généraliser (avec un certaineffort !) au cas où les espaces (En, En, µn) sont des espaces métriques séparés com-plets, munis de leurs tribus boréliennes et d’une mesure de probabilités. Pour autant,le théorème reste vrai sans cette contrainte en plus, et se démontre en toute généra-lité par une application du théorème de prolongement de mesures de Carathéodory.

6.8 Complément : existence d’une suite de variables aléatoires indépendantes 85

Page 86: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 87: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 7

Lois des grands nombres

Nous allons maintenant étudier un résultat fondamental en probabilités, stipulantessentiellement qu’une somme de variables aléatoires indépendantes se comporte enpremière approximation comme sa moyenne. Nous avons déjà vu au chapitre précé-dent que si l’on a des variables aléatoires X1,X2, ... dans L2 qui sont indépendantes(ou décorrélées) et de même loi, alors

X1 + ···+Xn

n−→L

2

n→∞E[X1].

Nous allons voir de nombreuses variantes de cette loi « faible » des grands nombres.Comme il s’agit d’un résultat asymptotique, nous allons dans un premier tempsdécrire quelques-uns des modes de convergence de variables aléatoires qui sont usuel-lement considérés en théorie des probabilités.

7.1 Différentes notions de convergence pour desvariables aléatoires

Soit (Xn, n> 1) une suite de variables aléatoires, et X une autre variable aléatoire,toutes étant définies sur un espace de probabilités (Ω,F ,P), et à valeurs dans R ouC.

a. Convergence presque sureOn dit que (Xn, n> 1) converge vers X presque surement, et on note Xn→

p.s.X, si

l’événement limn→∞Xn =X= limsupn→∞ |Xn −X |= 0 est presque sûr, c’est-à-dire

P(

ω ∈Ω: limn→∞

Xn(ω)=X(ω))

=1 .

Il s’agit d’un mode de convergence intuitif d’un point de vue probabiliste, puisqu’ilénonce une propriété (la convergence d’une suite de variables aléatoires) vraie « ωpar ω ». C’est (à un ensemble de probabilité nulle près) la convergence ponctuelledes fonctions mesurables Xn vers X.

b. Convergence Lp

Soit p ∈ [1, ∞]. On dit que (Xn, n > 1) converge vers X dans Lp si E[|Xn −X |p]→n→∞0. Il s’agit de la convergence usuelle dans l’espace de Banach Lp(Ω,F ,P)muni de la norme ‖·‖p.

87

Page 88: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

À l’exception du cas où p = ∞, la convergence dans Lp n’implique pas laconvergence presque sure. En revanche, les résultats classiques sur les espaces Lp

impliquent le résultat suivant.

Proposition 7.1. Soit (Xn, n>0) une suite de variables aléatoires convergeant versX dans Lp. Alors il existe une extraction (nk, k> 1) telle que (Xnk

, k> 1) convergepresque surement vers X.

De même, la convergence p.s. de la suite (Xn,n>0) n’implique pas la convergencedans Lp. Néanmoins, pour p∈ [1,∞[, le théorème de convergence dominée impliqueque, si |Xn|<Y avec Y ∈Lp(Ω,F ,P), alors Xn converge vers X dans Lp.

c. Convergence en probabilitéOn dit que (Xn, n> 1) converge vers X en probabilité, si pour tout ε> 0 on a

P(|Xn −X |>ε)−→n→∞

0 .

On note alors

Xn −→n→∞

P

X .

Proposition 7.2. Si (Xn, n > 1) converge vers X presque surement ou dans Lp

(pour un p> 1 donné), alors on a aussi convergence en probabilité.

Démonstration. Si (Xn, n>1) converge presque surement vers X, alors pour toutε>0, on peut appliquer le théorème de convergence dominée dans P(|Xn−X |>ε)=E[1|Xn−X |>ε], en constatant que l’indicatrice est de limite 0 presque surement.

Si l’on a convergence dans Lp avec p∈ [1,∞[ on applique l’inégalité de Markov :

P(|Xn −X |>ε)6E[|Xn −X |p]

εp−→n→∞

0 .

Si p=∞ c’est encore plus simple puisque la convergence dans L∞ implique la conver-gence presque sure. Dans tous les cas, on a montré la convergence en probabilité.

Nous montrons maintenant que la convergence en probabilité est associée à unetopologie sur les variables aléatoires.

Proposition 7.3. Soit L0(Ω, F , P) l’ensemble des variables aléatoires (réelles oucomplexes) sur l’espace de probabilités (Ω,F ,P), définies à égalité p.s. près. Défi-nissons, pour X,Y ∈L0(Ω,F ,P),

d0(X,Y )=E[|X −Y | ∧ 1].

Alors d0 est une distance sur L0(Ω, F , P), et l’on a que (Xn, n > 1) converge enprobabilité vers X si et seulement si cette même suite converge dans (L0(Ω,F ,P),d0). De plus, cet espace métrique est complet.

On laisse en exercice le fait que d0 est une distance. Si la suite (Xn, n > 1)converge en probabilité, on a pour tout ε> 0

E[|Xn−X | ∧1]=E[(|Xn−X | ∧1)·(1|Xn−X |6ε+1|Xn−X |>ε)]6 ε+P(|Xn−X |>ε),

88 Lois des grands nombres

Page 89: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et donc limsupn→∞ E[|Xn −X | ∧ 1] 6 ε. Donc d0(Xn, X) → 0. D’autre part, on aclairement, pour ε∈ ]0, 1[,

P(|Xn −X |>ε)=P(|Xn −X | ∧ 1>ε) 6d0(Xn, X)

ε

par l’inégalité de Markov. La réciproque s’ensuit immédiatement.Montrons le caractère complet. Pour cela, soit (Xn, n> 1) une suite de Cauchy

pour la distance d0. On peut trouver une extraction (nk, k> 1) telle que

d0(Xnk+1, Xnk

) 6 2−k.

On voit alors que

E

[

k>1

(|Xnk+1−Xnk

| ∧ 1)

]

=∑

k>1

d0(Xnk+1, Xnk

)<∞ ,

de sorte que presque surement, on a∑

k>1(|Xnk+1

−Xnk| ∧ 1) <∞, et donc aussi

k>1|Xnk+1

−Xnk|<∞. On pose alors

X =Xn1+∑

k>1

(Xnk+1−Xnk

) ,

cette série convergeant avec probabilité 1 par ce qui précède. En particulier, Xnk

converge presque surement vers X. On en déduit que Xnkconverge aussi en pro-

babilité vers X, et donc pour la distance d0. Comme (Xn, n > 1) est une suite deCauchy admettant une suite extraite qui converge, on en conclut que X est la limitede (Xn, n> 1) dans l’espace (L0, d0), et que ce dernier est complet.

Au cours de la preuve, nous avons montré le résultat suivant, qui est un résultatanalogue à un théorème du cours sur les espaces Lp.

Proposition 7.4. Si (Xn, n> 1) converge en probabilité vers X, alors il existe uneextraction (nk, k> 1) telle que (Xnk

, k> 1) converge presque surement vers X.

Remarque. Nous avons vu que la convergence Lp et la convergence en probabilitésont toutes les deux issues de la convergence dans un espace métrique. Il n’en estpas de même (en général) pour la convergence p.s.

Exercice. Montrer que si (X, d) est un espace métrique, et si (xn, n > 1) est une suite de X,alors (xn, n > 1) converge vers x∈X si et seulement si de toute sous-suite, on peut réextraireune sous-sous-suite qui converge vers x.

Déterminer une suite de variables aléatoires (Xn, n > 1) telle que de toute sous-suite onpuisse réextraire une sous-sous-suite qui converge presque surement vers 0, mais telle que Xn

ne converge pas presque surement. On pourra penser à des variables aléatoires de Bernoullibien choisies, définies sur l’espace ([0, 1],B([0, 1]), λ) où λ est la mesure de Lebesgue.

On peut enfin « remonter » de la convergence en probabilité à une convergenceLp si l’on a une hypothèse de moments.

Proposition 7.5. Soit q > 1 et (Xn, n> 1) une suite de variables aléatoires bornéedans Lq, c’est-à-dire que supn>1E[|Xn|q] < ∞. On suppose que Xn converge enprobabilité vers X. Alors pour tout p∈ [1, q[ on a que Xn converge vers X dans Lp.

7.1 Différentes notions de convergence pour des variables aléatoires 89

Page 90: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration. Tout d’abord, notons que la limite X est dans Lq. En effet, parla proposition 7.4, il existe une sous-suite (Xnk

, k > 1) convergeant vers X presquesurement. Le lemme de Fatou donne alors

E[|X |q] 6 liminfk→∞

E[|Xnk|q]<∞ (7.1)

puisque la suite (Xn,n>1) est bornée dans Lq. Comme Lq⊂Lp on déduit queX ∈Lp

pour tout p∈ [1, q[. On écrit alors, pour tout ε> 0,

E[|Xn −X |p] = E[|Xn −X |p1|Xn−X |>ε] +E[|Xn −X |p1|Xn−X |6ε]

6 E[|Xn −X |q]p/qP(|Xn −X |>ε)(q−p)/q + εp

où l’on a utilisé à la seconde étape l’inégalité de Hölder pour les exposants q/p etson conjugué q/(q − p). Comme E[|Xn − X |q]p/q est borné par hypothèse et par(7.1), on en déduit que pour tout ε> 0, on a

limsupn→∞

E[|Xn −X |p]6 εp .

C’est ce qu’il fallait démontrer.

On obtient le diagramme d’implications suivant :

Convergence

presque sure

Convergence

Lp

Convergenceen

probabilité

À extraction près

hypothèse de moments

hypothèse dedomination

Figure 7.1. Diagramme d’implications

7.2 La loi forte des grands nombres

Le but de cette partie est de montrer le théorème suivant.

Théorème (Loi forte des grands nombres). Soit X1,X2, ... une suite de varia-bles aléatoires réelles indépendantes et de même loi, dans L1. Alors

X1 + ···+Xn

n−→p.s.

n→∞E[X1] .

90 Lois des grands nombres

Page 91: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Remarquons que ce théorème est également vrai pour des variables aléatoiresà valeurs dans Rd, pour tout d > 1 : pour le voir, il suffit d’appliquer le théorèmeprécédent coordonnée par coordonnée. Par ailleurs, on a également la convergenceau sens L1, ce qui est un résultat beaucoup plus facile.

Proposition 7.6. Sous les mêmes hypothèses, on a également

X1 + ···+Xn

n−→L

1

n→∞E[X1] .

Démonstration. Remarquons que si X1∈L2, alors le résultat est une conséquencede la loi faible L2 des grands nombres, puisque la convergence dans L2 implique celledans L1. Dans le cas général, pour K donné, et i > 1, notons Yi = Xi 1|Xi|6K etZi =Xi 1|Xi|>K, de sorte que Xi =Yi +Zi. Comme les variables aléatoires (Yi) sonti.i.d. dans L2, et que les (Zi) sont i.i.d. également et dans L1, on a que pour tout K,

E

[∣

Sn

n−E[X1]

]

6 E

[∣

i=1n

Yi

n−E[Y1]

]

+E

[∣

i=1n

Zi

n−E[Z1]

]

6 E

[∣

i=1n

Yi

n−E[Y1]

]

+2E[|Z1|] .

Donc on a

limsupn→∞

E

[∣

Sn

n−E[X1]

]

62E[|Z1|] .

Mais par convergence dominée, on a que ce majorant tend vers 0 lorsque K→∞.D’où le résultat.

Nous allons donner plusieurs approches de la loi forte des grands nombres, sousdes hypothèses de moins en moins restrictives, pour donner une idée des diversesméthodes qui permettent d’approcher un tel résultat. D’autres preuves standard dece résultat font appel à des résultats plus poussés de la théorie ergodique (théorèmede Birkhoff) ou de la théorie des martingales.

Jusqu’à la fin de la partie 7.2, on suppose que les variables aléatoires X1, X2, ...

sont i.i.d. On notera Sn =X1 + ···+Xn pour simplifier.

7.2.1 Le cas L4

Supposons dans un premier temps que E[X14] < ∞. Notons alors que, quitte à

changer Xn en Xn−E[X1], on peut supposer ces variables aléatoires centrées, c’est-à-dire que E[X1] = 0. Nous allons montrer que presque surement, on a

Σ =∑

n>1

(

Sn

n

)

4

<∞ .

Ceci impliquera alors clairement que Sn/n converge vers 0 presque surement. Pourcela, il suffit de montrer que E[Σ]<∞. Nous estimons donc

E

[(

Sn

n

)

4]

=1

n4

i1,i2,i3,i4=1

n

E[Xi1Xi2Xi3Xi4] .

7.2 La loi forte des grands nombres 91

Page 92: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Dans cette dernière somme, notons que si l’un des indices est distinct des trois autres,par exemple i1 ∈/ i2, i3, i4, alors l’indépendance implique que E[Xi1Xi2Xi3Xi4] =E[Xi1]E[Xi2Xi3Xi4] = 0. Ne restent dans la somme que les indices pour lesquelsi1, i2, i3, i4 est de cardinal 1 ou 2. On en déduit

E

[(

Sn

n

)

4]

=1

n4

i=1

n

E[Xi4] + 3· 2

n4

16i<j6n

E[Xi2]E[Xj

2]

=1

n3E[X1

4] +3(n− 1)

n3E[X1

2]2 .

Cette dernière quantité est sommable en n>1. On en déduit donc que Sn/n convergevers 0 presque surement et dans L4.

7.2.2 Le cas L2

Supposons à présent que E[X12]<∞. Une fois encore, on peut supposer que E[X1]=

0. Nous avons déjà vu que Sn/n converge vers 0 dans L2 (donc dans L1) : c’est laloi faible des grands nombres. On en déduit ainsi qu’il existe une sous-suite le longde laquelle Sn/n converge p.s. vers 0. Essayons d’être plus précis, en considérantexplicitement l’extraction (k2, k> 1). On a

E

[(

Sk2

k2

)

2]

=1

k4Var(Sk2) =

1

k2Var(X1) .

Ceci étant sommable en k, on en déduit comme précédemment que Sk2/k2 convergevers 0 dans L2 et presque surement.

Pour se débarrasser de l’extraction, il faut contrôler la suite Sn/n entre deuxvaleurs consécutives de la suite extraite. Plus exactement, pour ε> 0, on considère

Ak =

maxk26n<(k+1)2

|Sn −Sk2|>εk2

, k> 1 .

Notons que

P(Ak) 6∑

k26n<(k+1)2

P(|Sn −Sk2|>εk2)

6∑

k26n<(k+1)2

Var(Sn −Sk2)

ε2k4

par l’inégalité de Bienaymé-Chebychev. Or, Sn − Sk2 = Xk2+1 + Xk2+2 + ··· + Xn

a même loi que Sn−k2 = X1 + ··· + Xn−k2. Pn en déduit que Var(Sn − Sk2) 6

(n− k2)Var(X1) et donc

P(Ak)6((k+1)2− k2)2

ε2k4Var(X1) .

Comme (k+1)2−k2=2k+1, on voit que le majorant est sommable en k. Le lemmede Borel-Cantelli implique donc que presque surement, pour tout k assez grand, ona que

Mk = maxk26n<(k+1)2

|Sn −Sk2|6 εk2 .

92 Lois des grands nombres

Page 93: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Soit alors n∈N∗, et k=k(n)∈N l’unique entier tel que k26n< (k+1)2. On a alors∣

Sn

n

6k2

n·(∣

Sk2

k2

+

Mk

k2

)

et donc, presque surement,

limsupn→∞

Sn

n

6 ε.

Ceci étant valable pour tout nombre rationnel ε > 0, on déduit que Sn/n convergevers 0 presque surement.

7.2.3 Le cas L1 par la méthode d’écrêtement

Nous allons donner maintenant une première preuve du théorème 7.2 due à Etemadi.Dans un premier temps, nous remarquons que si l’on écrit Xn =Xn

+−Xn−, alors

Sn

n=X1

+ + ···+Xn+

n− X1

− + ···+Xn−

n

où les variables X1+, X2

+, ... d’une part et X1−, X2

−, ... d’autre part sont i.i.d. etpositives, d’espérances finies. Il suffit donc de montrer le théorème pour des variablesaléatoires positives, ce que l’on suppose maintenant. Attention, on prendra gardeau fait que l’on ne peut plus dès lors supposer les variables centrées !

Nous utilisons maintenant la notion de variable aléatoire tronquée, et posons

Yn =Xn1Xn6n .

Lemme 7.7. Presque surement, on a que Yn =Xn pour tout n assez grand.

Démonstration. Notons que Xn = Yn= Xn 6 n. Si l’on pose An = Xn> nalors

n>1

P(An)=∑

n>1

P(X1>n)6

0

∞P(X1>x)dx=E[X1]<∞

où l’on a utilisé la comparaison entre une somme et une intégrale, puis l’exerciceapparaissant en dessous de la proposition 5.12. On en déduit par le lemme de Borel-Cantelli que, presque surement, Xn 6n pour tout n assez grand, et on conclut.

Ainsi, en notant Tn = Y1 + ··· + Yn, il suffit de montrer que Tn/n converge versE[X1] presque surement pour obtenir que Sn/n converge également vers E[X1] p.s. Àce stade, on utilise une idée similaire à la preuve de la loi forte des grands nombresdans le cas L2 : nous montrons la convergence de Tn/n le long d’une sous-suite. Cettefois, on fixe α> 1 et on pose k(n) = ⌊αn⌋. On a alors, par l’inégalité de Bienaymé-Chebychev,

n>1

P(|Tk(n)−E[Tk(n)]|>εk(n)) 61

ε2

n>1

Var(Tk(n))

k(n)2

61

ε2

n>1

1

k(n)2

m=1

k(n)

Var(Ym)

61

ε2

m>1

Var(Ym)∑

n:k(n)>m

1

k(n)2.

7.2 La loi forte des grands nombres 93

Page 94: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Comme k(n) > αn/2 pour tout n > 1, on peut comparer la dernière somme à unesérie géométrique : si n0 est le plus petit entier tel que ⌊αn⌋>m

n:k(n)>m

1

k(n)26 4

n>n0

1

α2n=

4

1−α−2α−2n0 6

4

1−α−2· 1

m2.

et l’on obtient qu’il existe une constante C dépendant seulement de α et ε telle que

n>1

P(|Tk(n)−E[Tk(n)]|>εk(n)) 6C∑

m>1

Var(Ym)

m2. (7.2)

Montrons que cette dernière somme est finie. Pour cela, on écrit (en utilisant unenouvelle fois l’exercice après la proposition 5.12)

Var(Ym) 6 E[Ym2] =

0

∞2yP(Ym > y) dy =

0

m

2yP(Xm > y) dy =

0

m

2yP(X1 >

y) dy .

On en déduit∑

m>1

Var(Ym)m2

6∑

m>1

1m2

0

∞2y1[0,m](y)P(X1> y) dy

6

0

m=⌈y⌉

∞1

m2

2yP(X1> y)dy

6 C ′∫

0

∞P(X1> y)dy=C ′E[X1]<∞

pour une constante universelle C ′, et en utilisant que la somme de Riemann∑

m>⌈y⌉ m−2 est équivalente à y−1 lorsque y→∞. En combinant cela avec (7.2), le

lemme de Borel-Cantelli montre que presque surement, pour tout n assez grand, on a

|Tk(n)−E[Tk(n)]|k(n)

6 ε.

Comme cela est valide pour tout ε>0 rationnel, on en déduit que |Tk(n)−E[Tk(n)]|/k(n) converge presque surement vers 0. Ensuite, on déduit que Tk(n)/k(n) convergep.s. vers E[X1], puisque par convergence dominée on a E[Yn]→E[X1], et donc par lelemme de Cesaro, E[Tk(n)]/k(n)→E[X1]. Enfin, si l’on se donne n>1, soitm=m(n)

l’unique entier tel que k(m)6n<k(m+1). On a alors

Tk(m)

k(m)· k(m)

k(m+ 1)6Tn

n6

Tk(m+1)

k(m+ 1)·k(m+1)

k(m).

En faisant tendre n→∞ on en déduit que presque surement,

1

αE[X1] 6 liminf

n→∞

Tn

n6 limsup

n→∞

Tn

n6αE[X1] .

Comme α peut être n’importe quel nombre rationnel strictement plus grand que 1,on conclut.

94 Lois des grands nombres

Page 95: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

7.2.4 Le cas L1 : une seconde preuve

Nous proposons maintenant une preuve entièrement différente du théorème 7.2.Fixons a>E[X1] et notons

Mk = max06n6k

(Sn −na) .

Alors la suite (Mk, k>0) de variables aléatoires est clairement croissante, et convergepresque surement vers une limiteM= supn>0 (Sn−na) à valeurs dans [0,∞]. Notonsalors que pour tout k>0, M=∞=supn>k (Xk+1+Xk+2+ ···+Xn−na)=∞ estun événement mesurable par rapport à σ(Xk+1,Xk+2, ...). Ainsi, ce même événementappartient à la tribu asymptotique des variables aléatoires X1, X2, ... De ce fait, ona P(M =∞)∈0, 1 par la loi du 0-1 de Kolmogorov.

Supposons par l’absurde que l’on ait P(M = ∞) = 1. On note alors S0′ = 0 et

Sn′ =X2 + ···+Xn+1 pour tout n> 1, de sorte que par regroupement par paquets, la

suite (Sn′ , n> 0) soit de même loi que (Sn, n> 0), et indépendante de X1 (puisque

clairement mesurable par rapport à σ(X2,X3, ...)). On a alors, pour tout k> 1,

Mk = 0∨ max16n6k

(Sn −na)

= 0∨ max06n6k−1

(Sn+1− (n+1)a)

= 0∨ max06n6k−1

(X1− a+Sn′ −na)

= 0∨ ((X1− a)+Mk−1′ ) ,

où Mk−1′ =max06n6k−1 (Sn

′ −na). Finalement, cela implique

Mk −Mk−1′ =(X1− a)∨ (−Mk−1

′ ) .

Notons que Mk est clairement d’espérance finie comme maximum d’un nombre finide variables aléatoires intégrables. De plus, Mk

′ a même loi que Mk (pour s’enconvaincre, on peut écrire Mk comme une fonction mesurable de X1, ..., Xk, etconstater que Mk

′ s’exprime comme la même fonction de X2, ...,Xk+1) et donc

E[Mk −Mk−1′ ] =E[Mk]−E[Mk−1

′ ] =E[Mk]−E[Mk−1] =E[Mk −Mk−1] > 0 ,

la suite (Mk, k>0) étant croissante. D’un autre côté, l’on a que (X1−a)∨ (−Mk−1′ )

est dominée par (X1− a)+, et converge presque surement vers (X1− a)∨ (−M ′), oùM ′ est la limite de Mk

′ lorsque k→∞. Mais notons que pour tout x∈R,

P(M ′6x)= limk

P(Mk′ 6x)= lim

kP(Mk 6x) =P(M 6x)= 0

où l’on a utilisé le fait que les événements M ′ 6 x et M 6 x sont les réunionsdécroissantes des événements Mk

′ 6x et Mk 6 x lorsque k→∞, le fait que Mk

et Mk′ ont même loi, et enfin le fait que P(M <∞) = 0 par hypothèse. On déduit

que P(M ′=∞)=1 également, et donc (X1−a)∨ (−M ′)=X1−a presque surement.De cela, on déduit par convergence dominée que

E[(X1− a)∨ (−Mk−1′ )]−→

k→∞E[X1− a]< 0 ,

7.2 La loi forte des grands nombres 95

Page 96: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

par hypothèse sur a. Comme on a montré par ailleurs que ces espérances sont toutespositives, on a une contradiction. On en déduit que presque surement, pour tout arationnel strictement plus grand que E[X1], on a que supn>0 (Sn − na)<∞, et parconséquent

limsupn→∞

Sn

n6 a.

En faisant tendre a vers E[X1], on déduit que limsupn→∞Sn/n6E[X1], et quitte àchanger Xn en −Xn, on déduit également que liminfn→∞Sn/n>E[X1] p.s. D’où lerésultat.

7.2.5 Quelques ramifications de la loi des grands nombres

Cas d’une espérance bien définie, mais infinieLa loi forte des grands nombres reste valable dès lors que E[X1] est bien définie,

et éventuellement infinie. En effet, si par exemple E[X1+] =∞ et E[X1

−]<∞, et enécrivant que Sn > (X1

+∧K+ ···+Xn+∧K)− (X1

−+ ···+Xn−), on voit bien que pour

tout K > 0,

liminfn→∞

Sn

n>E[X1

+∧K]−E[X1−]

presque surement. Lorsque K → ∞, ce minorant converge vers E[X1] = ∞ parconvergence monotone.

Cas où l’espérance n’existe plus nécessairementSi X est une variable aléatoire intégrable, alors on a, pour tout x> 0,

P(|X |>x)6E[|X |1|X |>x]

x,

ce qui s’obtient comme étape intermédiaire dans la preuve de l’inégalité de Markov.Comme le numérateur du majorant tend vers 0 quand x → ∞ par convergencedominée (par |X |), on obtient que P(|X |>x)= o(1/x). En revanche, cette dernièrecondition n’implique pas en général que X soit intégrable ! On a néanmoins lerésultat suivant, que nous énonçons sans preuve.

Théorème 7.8. Soit X1, X2, ... une suite i.i.d. de variables aléatoires, vérifiant

xP(X1 > x)−→x→∞

0 .

Notons Sn =X1 + ···+Xn et mn =E[X11|X1|6n]. Alors

Sn

n−mn −→P

n→∞0 .

7.3 Quelques applications

7.3.1 Marches aléatoires non centrées

On obtient comme conséquence immédiate de la loi forte des grands nombres qu’unemarche aléatoire non centrée tend vers l’infini. En effet, soit X1,X2, ... des variablesaléatoires indépendantes et de même loi, dans L1, et Sn =X1 + ···+Xn.

96 Lois des grands nombres

Page 97: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Si E[X1]=/ 0, on a immédiatement que |Sn|→∞ presque surement lorsque n→∞par la loi forte des grands nombres. On pourra mettre ce résultat en contraste avecle corollaire 6.17.

7.3.2 Approximation d’intégrales par la méthode de Monte-Carlo

Supposons que l’on ait à calculer l’intégrale suivante

I(f) =

[0,1]df(x)λ(dx)

où f : [0, 1]d →R est une fonction intégrable. Soit U1, U2, ... une suite de variablesaléatoires indépendantes de loi uniforme sur le cube [0, 1]d. Alors les variables aléa-toires f(U1), f(U2), ... sont indépendantes, intégrables et d’espérance I(f). La loides grands nombres garantit donc que

limn→∞

f(U1)+ ···+ f(Un)

n= I(f) .

Ceci fournit donc une méthode d’approximation d’une intégrale sur [0, 1]d, puisqueles variables aléatoires Ui sont aisées à simuler, dès lors que l’on dispose d’une fonc-tion « rand » renvoyant (au moins théoriquement) une suite de variables aléatoiresindépendantes uniformes sur [0,1]. En effet, les coordonnées des variables aléatoiresUi sont elles-mêmes indépendantes et uniformes sur [0, 1].

La loi des grands nombres ne dit cependant rien a priori sur la vitesse de conver-gence vers l’intégrale. On verra au chapitre suivant qu’elle est de l’ordre de 1/ n

√.

Cette vitesse est relativement mauvaise si l’on compare aux méthodes numériquesusuelles disponibles pour d = 1 (méthode des trapèze, de Simpson, etc...). Cepen-dant, la méthode présentée ici, dite méthode de Monte Carlo, présente plusieursavantages :

• son efficacité ne dépend ni de la régularité de f , ni de la dimension

• si l’on connaît In(f)= (f(U1)+ ···+ f(Un))/n, le calcul de In+1(f) demandetrès peu d’opérations, là où des méthodes plus standard demanderaient deraffiner des partitions de [0, 1].

Le premier point est particulièrement important, et de fait, la méthode de MonteCarlo et ses variantes est utilisée presque systématiquement pour estimer des inté-grales de grande dimension.

7.3 Quelques applications 97

Page 98: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons
Page 99: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 8

Convergence en loi et théorème centrallimite

Au chapitre précédent, on a vu que la loi des grands nombres donnait un compor-tement asymptotique « au premier ordre » de la somme d’une suite de variablesaléatoires. Par exemple, si X1, X2, ... est une suite de variables aléatoires indépen-dantes, de loi de Bernoulli de paramètre 1/2, alors on a presque surement, lorsquen→∞,

X1 + ···+Xn

n=

1

2+ o(1) .

La limite est la constante déterministe 1/2 : un des aspects surprenants de ce résultatest l’émergence d’un « ordre » dans le « désordre » apparent d’une suite de variablesaléatoires indépendantes (voir par exemple notre discussion sur l’apparition de tousles motifs finis dans la suite X1, X2, ...) Il est alors légitime de se demander si l’onpeut déterminer l’ordre supérieur de la convergence, c’est-à-dire expliciter le termeo(1). C’est là que le caractère aléatoire refait surface : le théorème central limitestipule que pour n grand,

X1 + ···+Xn

n≃loi 1

2+

N

2 n√

où N est une variable aléatoire aléatoire gaussienne centrée de variance 1. Le termed’erreur o(1) ci-dessus est donc intrinsèquement aléatoire. Cependant, nous allonsdevoir expliquer le sens de l’approximation ci-dessus.

8.1 Convergence étroite, convergence en loi

La convergence en loi est pour ainsi dire le quatrième mode de convergence fon-damental utilisé en théorie des probabilités, avec ceux discutés dans le chapitreprécédent. Elle tient pourtant une place à part, car elle concerne non pas les variablesaléatoires à proprement parler, mais plutôt leurs lois.

Nous notons Cb(Rd) l’espace des fonctions continues bornées sur Rd et à valeurs

dans R.

Définition 8.1. Une suite (µn) de mesures de probabilités sur Rd converge étroi-tement vers une mesure de probabilités µ sur Rd si pour toute fonction f ∈Cb(R

d),on a

Rd

f(x)µn(dx) −→n→∞

Rd

f(x)µ(dx) .

99

Page 100: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

On dit qu’une suite (Xn) de variables aléatoires à valeurs dans Rd converge en loivers la variable aléatoire X sur Rd si la suite (PXn

) converge étroitement vers PX.

Autrement dit, la suite (Xn) converge en loi vers X si pour toute fonction f ∈Cb(R

d) l’on a que

E[f(Xn)]−→n→∞

E[f(X)] .

Comme remarqué plus haut, la convergence en loi de variables aléatoires est unepropriété de leurs lois, plutôt que des variables aléatoires elles-même. Ainsi, si (Xn)converge en loi vers X, alors (Xn) converge également en loi vers n’importe quellevariable aléatoire X ′ de même loi que X !

On notera respectivement

µn−→(e)

µ , Xn−→loiX ,

pour dire qu’une suite de mesures de probabilités converge étroitement vers µ (res-pectivement, qu’une suite de variables aléatoires converge en loi vers X).

8.1.1 Exemples élémentaires

Lois sur N

Proposition 8.2. Une suite (µn) de mesures de probabilités sur N converge étroite-ment vers la mesure de probabilités µ sur N si et seulement si µn(k)→µ(k) pour toutk ∈N. De façon équivalente, une suite de variables aléatoires (Xn) à valeurs dansN converge en loi vers la variable aléatoire X à valeurs dans N, si et seulement si

P(Xn = k)−→n→∞

P(X = k) pour tout k ∈N. (8.1)

Démonstration. Nous montrons la deuxième formulation de la proposition, entermes de convergence en loi. La condition nécessaire est facile à vérifier. Si (Xn)converge en loi versX et si f(x)=(1−|x−k |)+, qui est une fonction continue bornéevalant 1 en un entier k et 0 en tout autre entier, on a bien

P(Xn = k) =E[f(Xn)]−→E[f(X)] =P(X = k)

lorsque n→∞.Montrons la condition suffisante, en supposant (8.1). Soit f une fonction

continue et bornée sur R. Alors

E[f(X)] =∑

k∈N

f(k)P(X = k)=∑

k=0

N

f(k)P(X = k) +RN

où RN vérifie

|RN |6 ‖f ‖∞P(X >N)−→n→∞

0 .

Bien sûr, E[f(Xn)] satisfait une propriété analogue. Soit ε > 0. Choisissons N > 0tel que |RN |<ε/(2‖f ‖∞). Notons que l’on a

P(Xn>N)=1−P(Xn6N)=1−∑

k=0

N

P(Xn=k)−→n→∞

1−∑

k=0

N

P(X=k)=P(X>N) ,

100 Convergence en loi et théorème central limite

Page 101: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et par conséquent, on il existe n0 tel que pour tout n > n0, on ait P(Xn > N) <ε/(2‖f ‖∞). Pour un tel choix de N et n0, on a alors

|E[f(Xn)]−E[f(X)]|6∣

k=0

N

f(k)P(Xn = k)−∑

k=0

N

f(k)P(X = k)

+ ε ,

et donc la limite supérieure du membre de gauche est majorée par ε. On conclut.

Par exemple, si Poi(θ) est la loi de Poisson de paramètre θ, et si la suite numé-rique (θn) converge vers θ > 0, alors Poi(θn)−→

(e)Poi(θ).

Lemme de Scheffé et convergence ponctuelle de densitésLa proposition suivante est une sorte d’analogue « continu » de la proposition

précédente.

Proposition 8.3. Soit (fn) une suite de densités de probabilités sur Rd. On supposeque fn(x) → f(x) pour presque tout x ∈ Rd, où f est une densité de probabilités.Alors

fn(x)dx −→n→∞

(e)f(x)dx.

Démonstration. Sous les hypothèses de la proposition, on a que fn −→ f dansL1(Rd). En effet, ceci s’obtient facilement en appliquant le lemme de Fatou à la suitede fonctions positives

hn = fn + f − |fn − f |=2f ∧ fn.

On obtient ainsi que, sous nos hypothèses,

liminf∫

Rd

hn = 2

Rd

f − limsup∫

Rd

|fn − f |> 2

Rd

liminf fn∧ f =2

Rd

f.

En soustrayant on voit que limsup∫

Rd|fn − f |=0.

Ensuite, soit g une fonction continue bornée sur Rd. On a∣

Rd

g(x)fn(x)dx−∫

Rd

g(x)f(x)dx

6 ‖g‖∞‖f − fn‖1−→n→∞

0.

Ainsi, on voit par exemple que les lois exponentielles de paramètre θn convergentétroitement vers la loi exponentielle de paramètre θ > 0 dès lors que θn→ θ.

Remarque. La convergence étroite est une notion de convergence qui provientd’une topologie (dite topologie étroite) sur l’ensemble des mesures de probabilités surRd. Si l’on voit ce dernier comme un sous-espace du dual de l’espace (Cb(R

d),‖·‖∞),une mesure de probabilités µ étant clairement associée à la forme linéaire continuesur Cb(R

d)

f 7→∫

Rd

f(x)µ(dx) ,

alors la topologie étroite est la restriction à ce sous-espace de la topologie dite faible-*.

8.1 Convergence étroite, convergence en loi 101

Page 102: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Terminons avec un exemple « mixte », illustrant comment les lois continuespeuvent être approchées étroitement par des lois discrètes.

Exemple d’approximation de la mesure de LebesguePour illustrer la notion de convergence étroite, notons que si

µn(dx) =1

n+1

k=0

n

δk/n ,

alors µn converge étroitement vers la mesure de Lebesgue sur [0,1]. En effet, si f estune fonction continue bornée, l’intégrale

Rf(x)µn(dx) est une somme de Riemann

de f , qui converge vers∫

0

1f(x)dx. Ainsi, une variable aléatoire uniforme sur 0,

1/n, 2/n..., n/n converge en loi vers une variable aléatoire uniforme sur [0, 1].

8.1.2 Liens avec les autres notions de convergence.

Le lien avec les notions de convergences déjà étudiées est donné par les résultatssuivants.

Convergence en probabilité

Proposition 8.4. Soit (Xn) une suite de variables aléatoires convergeant en pro-babilité vers X. Alors Xn converge en loi vers X.

Démonstration. Supposons que (Xn) converge en probabilités vers X. Supposonspar l’absurde que Xn ne converge pas en loi vers X, et donc qu’il existe une fonctionf continue bornée, et un ε> 0, tels que

|E[f(Xn)]−E[f(X)]|>εpour tout n dans un ensemble A= n1, n2, ... infini, avec n1<n2< ....

Or on sait que l’on peut extraire une suite extraite de (Xnk) qui converge p.s. vers

X. Comme f est continue et bornée, le théorème de convergence dominée montrealors que E[f(Xnk

)]−→E[f(X)] le long de cette sous-suite, ce qui est évidemmentabsurde.

Il existe une situation où la réciproque est vraie.

Proposition 8.5. Si la suite de variables aléatoires (Xn) converge en loi vers unevariable aléatoire constante p.s. (c’est-à-dire que sa loi est une masse de Dirac),alors elle converge en probabilité.

Démonstration. Supposons que Xn−→loi

c où c∈Rd est une constante. Fixons ε>0.Posons f(x)=min (|(x− c)/ε|, 1), de sorte que f est continue, bornée, nulle en c, etvérifiant 1|x−c|>ε 6 f(x) pour tout x. Alors

P(|Xn − c|>ε)=E[1|Xn−c|>ε]6E[f(Xn)]−→n→∞

E[f(c)]= 0.

Remarque. Cette dernière propriété peut paraître un peu surprenante au premierabord : en effet, la convergence en loi ne dépend pas de l’espace de probabilités surlequel on se place, au contraire de la convergence en probabilité. La subtilité est quela probabilité P(|Xn −X |>ε) ne dépend, dans le cas où X est une constante, quede la loi de Xn !

102 Convergence en loi et théorème central limite

Page 103: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Convergence en variation totaleComme il a été vu au cours d’intégration du premier semestre, il y a, en plus de

la topologie étroite, une autre topologie naturelle sur les mesures de probabilités surRd. En effet, on peut voir ces dernières comme un sous-ensemble convexe fermé del’espace de Banach des mesures signées sur Rd, muni de la norme de variation totale‖·‖. Plus précisément, supposons que ν soit une mesure signée sur Rd, de massetotale ν(Rd)=0. Alors pour tout A∈B(Rd), on a ν(A)+ν(Ac)=ν(Rd)=0, et donc

2|ν(A)|= |ν(A)− ν(Ac)|6 |ν(A)|+ |ν(Ac)|6 ‖ν‖ ,par définition de la variation totale. Mais d’autre part, rappelons que la décompo-sition de Jordan de ν exprime qu’il existe B ∈B(Rd) tel que ν(· ∩B) et −ν(· ∩Bc)sont deux mesures positives finies, et que ‖ν‖= ν(B)− ν(Bc) = 2ν(B). De cela, ondéduit que

‖ν‖= 2 supA∈B(Rd)

|ν(A)| .

Ainsi, la suite (µn) de mesures de probabilités sur Rd converge vers µ en norme devariation totale si et seulement si |µn(A)− µ(A)| converge vers 0 uniformément enA∈B(Rd). Ceci illustre le fait que la convergence en norme de variation totale estbeaucoup plus « rigide » que la convergence étroite.

Dans le dernier exemple du paragraphe précédent, on a clairement que ‖µn− µ‖ne converge pas vers 0, puisque par exemple µn(Q)= 1 et µ(Q)= 0.

8.1.3 Caractérisations de la convergence en loi

La définition de la convergence en loi ne fournit pas vraiment de critère pratiquepour montrer qu’une suite de variables aléatoires (Xn) donnée converge en loi. Nousallons donc donner plusieurs formulations équivalentes.

Théorème 8.6. Soit (Xn) et X des variables aléatoires à valeurs dans Rd. Lespropositions suivantes sont équivalentes.

1. La suite (Xn) converge en loi vers X

2. pour toute fonction f bornée et 1-lipschitzienne, on a limn E[f(Xn)] =E[f(X)]

3. pour tout ouvert O de Rd, on a liminfnP(Xn∈O)>P(X ∈O)

4. pour tout fermé F de Rd, on a limsupnP(Xn∈F )6P(X ∈F )

5. pour tout A∈B(Rd) tel que P(X ∈∂A)=0, on a limnP(Xn∈A)=P(X ∈A)

6. pour toute fonction f : Rd →R mesurable bornée, continue PX-presque par-tout, on a limnE[f(Xn)]=E[f(X)].

Notons que ce théorème admet une reformulation en termes de convergenceétroite de mesures de probabilités : on remplacera E[f(X)] par

fdµ, P(X ∈ A)par µ(A), PX par µ, etc.

Démonstration. Les implications 1.=⇒2. et 6.=⇒1. sont évidentes, de même quel’équivalence entre 3. et 4. par un simple passage au complémentaire.

8.1 Convergence étroite, convergence en loi 103

Page 104: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Montrons que 2.=⇒4. Soit donc F un fermé de E. Pour tout K>0, on considèrela fonction

fF ,K(x)= (1−Kd(x, F ))+ ,

qui est lipschitzienne et vérifie 1F 6 fF ,K 6 1. Ainsi, pour tout n ≥ 1 on a P(Xn ∈F ) 6E[fF ,K(Xn)], et comme on a supposé 2., on en déduit que

limsupP(Xn ∈F )6E[fF ,K(X)] .

Comme fF ,K converge vers 1F ponctuellement et est bornée par 1, on en déduit parconvergence dominée que limsupnP(Xn∈F )6P(X ∈F ).

Montrons que 3. et 4. impliquent 5. Soit donc A∈B(Rd). On applique 3. et 4.aux ensembles A et A (intérieur et adhérence de A), et on trouve

P(X ∈A) 6 liminfP(Xn∈A)≤ limsupP(Xn∈A )6P(X ∈A ) .

Mais si l’on aP(X ∈∂A)=0, alorsP(X ∈A)=P(X ∈A )=P(X ∈A), et l’on obtientce que l’on voulait.

Montrons enfin que 5.=⇒6. Soit donc f une fonction continue PX-presque par-tout et bornée. Sans perte de généralité, on peut supposer que f est positive (onpeut en effet écrire f= f+− f− et raisonner sur chaque terme). SoitD l’ensemble despoints de discontinuité de f . Notons d’abord que pour toute mesure de probabilitésν sur Rd, on a

Rd

f(x)ν(dx)=

0

∞ν(f ≥ y)dy . (8.2)

C’est en effet une conséquence immédiate du théorème de Fubini, en écrivant l’inté-grale

Rd

ν(dx)

0

∞1[0,f(x)](y)dy=

0

∞dy

Rd

ν(dx)1f(x)≥y .

Par ailleurs, pour tout y ≥ 0, notons Ay = x: f(x)≥ y. Soit x ∈Ay, de sorte quex est limite d’une suite xn telle que f(xn)≥ y. Si x ∈/ D, c’est-à-dire si x est pointde continuité de f , alors on a aussi f(x) ≥ y. Donc Ay ⊆ Ay ∪ D. Par ailleurs, sif(x)> y et x ∈/ D, alors on a également f(x′)> y pour x′ dans un voisinage de x.Donc f > y \D⊆Ay

. Finalement, on en déduit que ∂Ay ⊆f = y∪DPar ailleurs, l’ensemble y ≥ 0: PX(f = y) > 0 est au plus dénombrable. Il

est en effet la réunion des ensembles y ≥ 0: PX(f = y) ≥ 1/r, r ≥ 1, qui sontrespectivement de cardinal au plus r, puisque les ensembles f = y sont deux-à-deux disjoints. Par 6., on en déduit que pour Lebesgue-presque tout y ≥ 0, on aP(Xn∈Ay)→P(X ∈Ay) quand n→∞. Donc par convergence dominée, en utilisant(5.2) et le fait que f est bornée, on a

E[f(Xn)] =

Rd

f(x)PXn(dx) =

0

∞P(Xn∈Ay)dy

=

0

‖f ‖∞P(Xn∈Ay)dy

−→n→∞

0

‖f ‖∞P(X ∈Ay)dy=E[f(X)],

comme voulu.

104 Convergence en loi et théorème central limite

Page 105: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Remarque. Ce théorème est souvent appelé « théorème du porte-manteau », cequi peut paraître surprenant. Il semble que cela soit dû au nombre et à la variétédes énoncés équivalents qui apparaissent dans son énoncé, comme autant d’habitsappartenant à la même notion. Pour rendre les choses encore un peu plus confuses,le mathématicien Patrick Billingsley, dans l’édition de 1999 de son livre Convergenceof probability measures , s’est permis la facétie d’attribuer ce résultat à un mathéma-ticien imaginaire du nom de Jean-Pierre Portmanteau, citant un article tout aussiimaginaire de 1915... En réalité, l’énoncé semble remonter à Alexandrov dans lesannées 1940.

On a également la possibilité de restreindre la classe des fonctions-test. NotonsCc(R

d) l’ensemble des fonctions continues à support compact définies sur Rd.

Proposition 8.7. Soit H un sous-ensemble de fonctions mesurables bornées définiessur Rd, et dont l’adhérence pour la norme uniforme contient Cc(R

d). Soit (Xn) etX des variables aléatoires à valeurs dans Rd. Si l’on a que E[f(Xn)]−→E[f(X)]

pour tout f ∈H, alors Xn−→loiX.

Démonstration. Supposons dans un premier temps que les hypothèses du théo-rème sont vérifiées avec H = Cc(R

d). Pour r > 0, soit

χr(x)= 0∨ (r+1− |x|)∧ 1 ,

de sorte que χr est positive, continue, bornée par 1, égale à 1 sur BRd(0, r) et nullehors de BRd(0, r + 1). Si f ∈ Cb(R

d) alors fχr ∈ Cc(Rd), et donc E[(fχr)(Xn)] −→

E[(fχr)(X)] par hypothèse. On a alors

|E[f(Xn)]−E[f(X)]| 6 |E[(fχr)(Xn)]−E[(fχr)(X)]|+‖f ‖∞(E[(1− χr)(Xn)]+E[(1− χr)(X)])

Pour conclure, notons que E[χr(Xn)]→E[χr(X)], et donc

limsupn→∞

|E[f(Xn)]−E[f(X)]|6 2‖f ‖∞E[(1− χr)(X)] 6 2‖f ‖∞P(|X |>r).

La quantité de droite converge vers 0 lorsque r→∞, et on conclut dans ce cas.Dans le cas général où H est un ensemble de fonctions mesurables dense dans

Cc(Rd), donnons-nous f ∈Cc(R

d), et g ∈H telle que ‖f − g‖∞6 ε/2. Alors, commeon a |E[f(X)] − E[g(X)]| 6 ‖f − g‖∞, et de même avec Xn à la place de X, ondéduit que

limsupn→∞

|E[f(Xn)]−E[f(X)]|6 ε+ limsupn→∞

|E[g(Xn)]−E[g(X)]|= ε

par hypothèse. On en conclut que E[f(Xn)] −→E[f(X)] pour tout f ∈ Cc(Rd), et

on conclut par la première partie de la preuve.

On déduit des résultats précédents un critère de convergence en loi de variablesaléatoires réelles faisant intervenir les fonctions de répartition.

Corollaire 8.8. La suite (Xn) de variables aléatoires réelles converge vers lavariable aléatoire réelle X si et seulement si FXn

(x) −→ FX(x) pour tout x quiest un point de continuité de FX , c’est-à-dire que P(X = x) = 0.

8.1 Convergence étroite, convergence en loi 105

Page 106: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration. Supposons que Xn−→loiX. Soit x un point de continuité de FX.

On applique le point 5. du théorème 8.6 à l’ensemble A= ]−∞, x], dont la frontière∂A= x n’est pas chargée par PX puisque PX(x) =P(X = x). On obtient bienque

limn→∞

P(Xn 6x)=P(X 6x) .

Réciproquement, supposons que FXn→FX en tout point de continuité de FX. Notons

D l’ensemble des points de discontinuité de FX. Alors D est au plus dénombrable.De plus, si a, b∈/ D et a< b, on a que

P(Xn ∈ ]a, b]) =FXn(b)−FXn

(a)−→FX(b)−FX(a) =P(X ∈ ]a, b]).

Soit H l’espace vectoriel engendré par les fonctions 1]a,b] avec a, b∈R\D. Alors laconvergence ci-dessus s’étend, par linéarité de l’espérance, à E[f(Xn)]−→E[f(X)]pour tout f ∈ H . Comme H est dense dans Cc(R

d) pour la norme uniforme, onconclut par la proposition 8.7.

Enfin, nous montrons que la convergence en loi peut être formulée en termes desfonctions caractéristiques.

Théorème de Lévy. La suite de mesures de probabilités (µn) sur Rd convergeétroitement vers la mesure de probabilités µ si et seulement si pour tout ξ ∈Rd, on a

µn(ξ)−→n→∞

µ(ξ) .

Autrement dit, la suite de variables aléatoires (Xn) converge en loi vers X si etseulement si, pour tout ξ ∈Rd, on a

ϕXn(ξ)−→

n→∞ϕX(ξ) .

Démonstration. La condition nécessaire est facile : si µn−→(e)

µ, alors, comme pourtout ξ ∈ Rd, la fonction x 7→ eiξx est continue et bornée, on a bien que µn(ξ) =∫

eiξxµn(dx) converge vers µ(ξ) =∫

eiξxµ(dx).Pour le sens réciproque, supposons que µn→ µ ponctuellement. Soit f ∈Cc(R

d).Si f était la transformée de Fourier d’une fonction ϕ, l’on pouvait écrire

Rd

f(x)µn(dx) =

Rd

ϕ(ξ)µn(ξ)dξ

par la formule de réciprocité de la transformation de Fourier, et essayer de passer àla limite dans l’intégrale. L’idée est donc de remplacer f par une fonction proche,qui soit une transformée de Fourier. Soit σ > 0, et soit gσ la densité gaussienne dela loi N (0, σ2). La transformée de Fourier de gσ ∗ f est (2π/σ2)d/2g1/σ f , qui est

dans L1. En effet, le fait que f soit à support compact implique que f est bornée,et g1/σ est dans L1. On note Rϕ= (2π/σ2)d/2g1/σ f cette fonction, où l’on rappellela notation Rϕ(x)= ϕ(−x). La formule d’inversion de Fourier implique que ϕ = f ,et l’on a donc par la discussion ci-dessus que

Rd

gσ ∗f(x)µn(dx) =

Rd

ϕ(ξ)µn(ξ)dξ.

106 Convergence en loi et théorème central limite

Page 107: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Comme |µn(ξ)|61 et |ϕ(ξ)|6 (2π/σ2)d/2∥

∥ f∥

∞g1/σ(ξ) est intégrable, la convergencedominée montre que ceci converge lorsque n→∞ vers

Rd

ϕ(ξ)µ(ξ)dξ=

Rd

gσ ∗f(x)µ(dx) ,

où l’on a utilisé à nouveau la formule de réciprocité.Nous avons donc obtenu que

hdµn −→∫

hdµ pour toute fonction h dansl’ensemble H = gσ ∗f : f ∈Cc(R

d) , σ > 0. Comme on a que gσ ∗f converge vers funiformément pour tout f ∈ Cc(R

d) par la proposition 1.9, on obtient que H estdense dans Cc(R

d) pour la norme uniforme, et on conclut par la proposition 8.7.

8.2 Le théorème central limite

Si X1, X2, ... sont des variables aléatoires i.i.d. dans L1, la loi des grands nombresstipule que Sn/n converge vers E[X1] p.s. Comme on l’a dit au début du chapitre,on cherche à donner un développement à l’ordre supérieur dans cette convergence, endonnant la vitesse à laquelle la quantité (Sn/n)−E[X1] converge vers 0. Notons quesi les variables aléatoires considérées sont en fait dans L2, on a que la variance de Sn

est de nVar(X1), ce qui indique que la distance à la moyenne de Sn est typiquementde l’ordre de n

√. Ceci justifie la renormalisation choisie dans l’énoncé suivant.

Théorème central limite. Soit (X1,X2, ...) une suite de variables aléatoires réellesdans L2, indépendantes et de même loi. On suppose que σ2 = Var(X1) > 0. SoitSn =X1 + ···+Xn. Alors on a

Sn −nE[X1]

σ n√ −→

n→∞loi N (0, 1) .

Démonstration. Quitte à remplacer Xn par Xn−E[X1], on suppose sans perte degénéralité que les variables aléatoires sont centrées. Sous l’hypothèse que X1 ∈ L2,la fonction caractéristique ϕX est de classe C2(R, C), et l’on a, par la formule deTaylor-Young,

ϕX(ξ)= 1− σ2

2ξ2 + o(ξ2).

Calculons alors la fonction caractéristique de Sn/σ n√

: comme les Xj , j > 1 sontindépendantes et de même loi,

ϕSn/σ n√ (ξ) =E

[

ei(X1+···+Xn)ξ/σ n√]

=∏

j=1

n

E[

eiXjξ/σ n√]

= ϕX1(ξ/σ n√

)n.

Donc, pour tout ξ ∈R,

ϕSn/σ n√ (ξ)=

(

1− ξ2

2n+ o

(

1

n

))n

.

8.2 Le théorème central limite 107

Page 108: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Pour n assez grand la quantité entre parenthèses est dans la boule ouverte de rayon1 centrée en 1, et on peut prendre la détermination principale du logarithme (ne pasoublier que la quantité entre parenthèses est un nombre complexe)

ϕSn/σ n√ (ξ) = exp

(

nLog

(

1− ξ2

2n+ o

(

1

n

)))

−→n→∞

exp

(

−ξ2

2

)

.

On reconnaît la transformée de Fourier de la densité gaussienne standard g1, et onconclut par le théorème de Lévy.

Voici comment Galton décrit l’impression qu’exerce sur lui ce théorème.

I know of scarcely anything so apt to impress the imagination asthe wonderful form of cosmic order expressed by the "Law of Frequencyof Error". The law would have been personified by the Greeks anddeified, if they had known of it. It reigns with serenity and in completeself-effacement, amidst the wildest confusion. The huger the mob, andthe greater the apparent anarchy, the more perfect is its sway. It isthe supreme law of Unreason.

Les Grecs l’auraient déifiée ! Pourquoi cette fascination ? Entre autres, du fait ducaractère universel de la loi gaussienne qui est révélé par ce théorème. Sous la simplehypothèse de l’existence d’un moment d’ordre 2, c’est toujours la loi gaussienne quirégit les fluctuations de la somme d’une suite de variables aléatoires indépendanteset de même loi. Il y a aussi une forme de « miracle » dans le fait que la densité dela loi qui apparaît ainsi soit explicite, et aussi simple.

Expliquons davantage la signification de ce théorème. Par la caractérisation dela convergence en loi par les fonctions caractéristiques, et comme la loi gaussienneest diffuse et admet donc une fonction caractéristique continue en tout point, onvoit que le théorème est équivalent à dire que pour tout x∈R,

P

(

Sn −nE[X1]

σ n√ 6x

)

−→n→∞

−∞

x e−y2/2

2π√ dy ,

ou encore, que pour tout a, b∈R avec a< b,

P

(

a6Sn −nE[X1]

σ n√ 6 b

)

−→n→∞

a

b e−y2/2

2π√ dy .

Application aux statistiques : estimation paramétrique et intervalles deconfiance

Cette reformulation a une importance cruciale en statistiques. Pour fixer lesidées, la problématique de base de la statistique inférentielle est, étant donnée uneréalisation donnée d’une suite de variables aléatoires i.i.d. X1(ω), X2(ω), ..., Xn(ω),de déterminer avec la meilleure précision possible la loi inconnue de ces variablesaléatoires, ou certaines fonctions naturelles de cette loi.

Par exemple, si l’on veut connaître l’espérance m de X1 (en supposant qu’elleexiste), il est naturel de l’estimer à l’aide de la moyenne empirique des observations

mn(ω) =X1(ω) + ···+Xn(ω)

n,

108 Convergence en loi et théorème central limite

Page 109: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

dont on sait qu’elle converge pour presque tout ω vers E[X1]. On dit que mn est unestimateur consistant de m.

Sous l’hypothèse queX1 est dans L2, le théorème central limite détermine l’erreurasymptotique que l’on commet en assimilant mn à m. Plus précisément, pour toutx> 0 on a

P

(

|mn −m|> σx

n√

)

−→n→∞

2

x

∞ e−y2/2

2π√ dy . (8.3)

Si l’on choisit x=1, 96, alors le membre de droite est inférieur à 0, 05. Ceci signifieque pour n assez grand, l’erreur que l’on commet en assimilant mn à m sera au plusde 1, 96 .σ/ n

√, avec probabilité supérieure à 95%. On dit que l’intervalle

[

mn(ω)− 1, 96 .σn

√ ,mn(ω) +1, 96 .σ

n√

]

(8.4)

est un intervalle de confiance (asymptotique, bilatère) pour m à 95%. Noter quel’on a ici deux niveaux d’incertitude, ce qui est une situation typique en statistiques :

• on ne peut évidemment pas prétendre déterminer la valeur exacte de m àl’aide d’un nombre fini d’observations, mais seulement donner un intervallede valeurs plausibles, et

• on ne peut pas être parfaitement certain que m appartient à cet intervalle deconfiance, mais seulement déterminer la probabilité qu’il s’y trouve.

C’est sans doute avec ces applications statistiques à l’esprit que Galton parle duthéorème central limite comme de la « loi de la fréquence des erreurs ».

Il y a une confusion fréquemment faite sur le dernier point : comme m n’est pasune variable aléatoire, comment peut-on parler de la probabilité qu’il se trouve dansun intervalle ? Il faut comprendre qu’ici, c’est l’intervalle qui est aléatoire (il dépendde mn(ω), donc des observations).

Prenons pour illustrer ceci l’exemple d’un sondage sur une opinion binaire («oui ou non »). On partage la population française, de N individus, en deux partiesde tailles N0 et N1 selon l’opinion (non/oui), et on note p=N1/N la proportion deshabitants ayant l’opinion « oui ». C’est ce paramètre p, inconnu, qui intéresse lesondeur. Pour l’estimer, il va contacter un nombre n d’individus très petit devant N(typiquement, n= 1000 dans la vraie vie), et recueillir leur opinion. Si les individussont choisis indépendamment et uniformément, on voit que la suite X1, X2, ..., Xn

des opinions recueillies est i.i.d. de loi de Bernoulli de paramètre p (si l’on déclareque Xi = 1 si le i-ième individu contacté est d’opinion « oui », et Xi = 0 sinon).

Pour estimer p à partir des informations recueillies, le sondeur forme la moyenneempirique

pn(ω)=X1(ω) + ···+Xn(ω)

n,

et en vertu des résultats précédents, il forme l’intervalle de confiance (8.4). Cepen-

dant, on doit prendre garde au fait que dans cette situation, σ = p(1− p)√

est unparamètre inconnu également. On peut néanmoins le majorer par 1/2, si bien que

[

pn(ω)− 0, 98n

√ , pn(ω) +0, 98n

√]

8.2 Le théorème central limite 109

Page 110: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

est un intervalle de confiance asymptotique à 95% pour p.Pour que ce résultat soit parfaitement valide, il faudrait également estimer

l’erreur commise en assimilant le membre de gauche de (8.3) et sa limite lorsquen→ ∞. Ce genre d’estimation est possible, par exemple à travers le théorème deBerry-Esseen, même s’il requiert des hypothèses de moment supplémentaires. Néan-moins, ce résultat peut déjà nous renseigner sur la qualité d’un sondage auprès de1000 personnes : on a que 0,98/ 1000

√=0,03099..., ce qui signifie que l’intervalle de

confiance est de rayon 3%. Autrement dit, avec une probabilité de l’ordre de 95% aumieux, le paramètre p égale le résultat du sondage pn(ω) à plus ou moins 3% près .

8.3 Vecteurs aléatoires gaussiens et théorème cen-tral limite multidimensionnel

Il existe une extension du théorème central limite au cas de variables aléatoires àvaleurs dansRd. Avant de l’énoncer, nous devons comprendre un peu mieux la naturedes variables aléatoires gaussiennes à valeurs dans Rd.

8.3.1 Vecteurs aléatoires gaussiens

Rappelons que pour m ∈R et σ > 0, la loi N (m, σ2) est la mesure de probabilitéssur R de densité

1

(2πσ2)1/2exp

(

− (x−m)2

2σ2

)

, x∈R.

On étend cette définition au cas où σ=0 en disant que la loi N (m, 0) est δm, ce quiest cohérent avec le fait que gσ soit une approximation de δ0 pour la convolution,lorsque σ→ 0.

En particulier, siX est une v.a. de loiN (0,σ2), alorsX+m a pour loiN (m,σ2).

Définition 8.9. Un vecteur aléatoire X =(X1, ...,Xd) à valeurs dans Rd est appeléun vecteur aléatoire gaussien si toute combinaison linéaire 〈ξ,X 〉= ξ1X1+ ···+ ξdXd,avec ξ ∈ Rd est une variable aléatoire gaussienne réelle, c’est-à-dire qu’il existemξ ∈R, σξ > 0 tels que 〈ξ,X 〉 a pour loi N (mξ, σξ

2).

Remarque. Attention, cette propriété est plus forte que de stipuler que les variablesaléatoires X1, ...,Xd sont des variables gaussiennes. Pour s’en convaincre, soit X unev.a. de loi N (0,1), et soit ε une v.a. indépendante de X de loi uniforme sur −1,1.Alors X et εX sont toutes deux de loi N (0, 1). En revanche, la loi de X + εX n’estpas gaussienne, car P(X + εX = 0) =P(ε=−1) = 1/2. Donc (X, εX) n’est pas unvecteur aléatoire gaussien.

Soit X un vecteur aléatoire gaussien à valeurs dans Rd. Notons m=(m1, ...,md)son espérance, et Σ = (Cov(Xi, Xj), 1 6 i, j 6 d) sa matrice de variance-covariance.Rappelons que Σ est une matrice symétrique positive. Remarquons alors que pourtout ξ ∈Rd, l’on a que

E[〈ξ,X 〉] = 〈ξ,m〉

110 Convergence en loi et théorème central limite

Page 111: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et que

Var(〈ξ,X 〉)= 〈Σξ, ξ〉.

De ce fait, on voit que la loi de 〈ξ,X 〉, qui est supposée être gaussienne par définition,est N (〈ξ,m〉, 〈Σξ, ξ〉), et est donc entièrement déterminée par m et Σ. De plus, ona que la fonction caractéristique de X est donnée par

ϕX(ξ)=E[ei〈ξ,X 〉] = exp

(

i〈ξ,m〉− 〈Σξ, ξ〉2

)

,

puisque c’est la transformée de Fourier de la loi N (〈ξ,m〉, 〈Σξ, ξ〉) évaluée en 1. Àson tour, la fonction ϕX ne dépend que de m,Σ, et par conséquent, pour un couple(m,Σ) donné, la loi d’un vecteur gaussien d’espérance m et de matrice de variance-covariance Σ, si elle existe, est unique.

Remarquons que réciproquement, si la fonction caractéristique de X est donnéepar (8.9), alors on a bien que X est un vecteur aléatoire gaussien d’espérance m etde matrice de variance-covariance ΣX =Σ. puisque pour tout ξ ∈Rd, on a alors, enchangeant ξ en tξ dans (8.9) avec t∈R, on a

E[eit〈ξ,X 〉] = exp

(

it〈ξ,m〉− 〈Σξ, ξ〉t22

)

,

c’est-à-dire que 〈ξ, m〉 a pour loi N (〈ξ, m〉, 〈Σξ, ξ〉), d’où l’on tire que pour toutξ ∈Rd,

E[〈ξ,X 〉] = 〈ξ,m〉 ,Var(〈ξ,X 〉)= 〈Σξ, ξ〉,et donc m=E[X], et Σ = ΣX.

Nous notons N (m,Σ) la loi dont la transformée de Fourier est (8.9), sous réservequ’elle existe. Nous allons montrer que c’est bien le cas pour tout m∈Rd et tout Σsymétrique positive. Pour ce faire, notons que les lois gaussiennes sont préservéespar les applications linéaires, comme l’indique le résultat suivant.

Lemme 8.10. Soit X un vecteur aléatoire gaussien de loi N (m, Σ) sur Rd. SoitA∈Mk,d(R

d). Alors AX est un vecteur aléatoire gaussien à valeurs dans Rk, de loi

N (Am,AΣAT).

À ce stade, il faut encore comprendre ce lemme sous la forme « si la loi N (m,Σ)existe, alors la loi N (Am, AΣAT) existe également. Nous avons énoncé ce résultaten anticipant le résultat de la proposition 8.11.

Démonstration. Soit ξ ∈Rk. Alors on a que 〈ξ, AX 〉= 〈ATξ,X 〉 et donc

E[ei〈ξ,AX 〉] = E[

ei〈ATξ,X 〉]

= exp

(

i〈ATξ,m〉− 〈ΣATξ,ATξ〉2

)

= exp

(

i〈ξ,Am〉− 〈AΣATξ, ξ〉2

)

,

d’où le résultat.

8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel

111

Page 112: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Proposition 8.11. Soit m ∈ Rd, et Σ ∈ Md(R) une matrice symétrique positive.Alors il existe un vecteur gaussien d’espérance m et de matrice de variance-cova-riance Σ.

Démonstration. Traitons d’abord le cas où m=0 et où Σ = Id. Il suffit pour celade prendre un vecteur aléatoire X = (X1, ..., Xd) dont les composantes sont desvariables aléatoires i.i.d. de loi N (0, 1) : en effet on a pour tout ξ ∈Rd

E[ei〈ξ,X 〉] =∏

j=1

d

E[eiξjXj] =∏

j=1

d

e−

ξj2

2 = e− |ξ|2

2

(on aurait également pu invoquer des résultats déjà connus de la transformée deFourier de densités gaussiennes sur Rd).

Pour traiter le cas général, on se donne (Y1, ..., Yd) de loi N (0, Id). Comme Σest symétrique positive, elle admet une unique racine carrée symétrique positive

Σ√

(on diagonalise Σ=PDP−1 avec D à diagonale positive et P ∈O(d), et on pose

Σ√

=P D√

P−1). Posons X=m+ Σ√

Y . Par le lemme 8.10, cette variable aléatoire

a pour loi N(

m, Σ√

Id Σ√ T

)

=N (m,Σ).

Il est très utile en pratique de se souvenir qu’une variable aléatoire ayant cetteloi peut se définir par une simple transformation linéaire à partir d’une suite devariables i.i.d. (Y1, ...,Yd) de loiN (0,1), comme on l’a fait dans la preuve précédente.

Comme autre application simple du lemme 8.10, notons une propriété fondamen-tale des lois gaussiennes dans le cas où Σ est une matrice scalaire.

Proposition 8.12. Pour tout σ > 0, la loi N (0, σ2Id) est invariante par l’actiondu groupe orthogonal de Rd : si X a pour loi N (0, σ2Id), alors pour tout matriceorthogonale P, PX a même loi que X.

Exercice 8.1. Montrer que cette propriété d’invariance caractérise les lois gaussiennes dematrice de variance-covariance scalaire et d’espérance nulle parmi toutes les lois gaussiennes.

Une autre propriété cruciale est que, pour les vecteurs aléatoires gaussiens, indé-pendance et décorrélation sont équivalentes.

Proposition 8.13. Soit (X1, ..., Xd, X1′, ..., Xd′

′ ) un vecteur aléatoire gaussien. Onsuppose que pour tout i, j∈1,2, ..., d×1,2, ..., d′, on a Cov(Xi,Xj

′)=0. Alors lesvecteurs aléatoires gaussiens X=(X1, ...,Xd) et X

′=(X1′, ...,Xd ′

′ ) sont indépendants.

Démonstration. Nos hypothèses impliquent que la matrice de variance-covarianceΣ(X,X ′) de (X1, ..., Xd, X1

′, ..., Xd′′ ) est diagonale par blocs de tailles d et d′. Si ξ, ξ ′

sont respectivement dans Rd et Rd ′, et (ξ, ξ ′) est le vecteur de Rd+d′

obtenu en lesconcaténant, alors en notant m=E[X],m′=E[X ′], Σ =ΣX et Σ′=ΣX ′, la fonctioncaractéristique de (X,X ′) est donc donnée par

ϕ(X,X ′)((ξ, ξ′))= exp

(

i〈ξ,m〉+ i〈ξ ′,m′〉− 〈Σξ, ξ〉+ 〈Σ′ξ ′, ξ ′〉2

)

ce qui se factorise en ϕX(ξ) ϕX ′(ξ ′). On applique alors le critère d’indépendance àl’aide des fonctions caractéristiques.

112 Convergence en loi et théorème central limite

Page 113: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Terminons ces généralités sur les vecteurs aléatoires gaussiens en mentionnantque, contrairement au cas de la dimension 1, un vecteur aléatoire de loi N (m, Σ)n’admet pas nécessairement de densité par rapport à la mesure de Lebesgue.

Proposition 8.14. Soit m ∈ Rd et Σ une matrice symétrique positive. Si Σ estdéfinie positive, alors la loi N (m,Σ) admet une densité par rapport à la mesure deLebesgue sur Rd, donnée par

1

det (2πΣ)√ exp

(

−〈Σ−1(x−m), (x−m)〉2

)

, x∈Rd.

Si le rang de Σ est strictement inférieur à d, alors la loi N (m,Σ) est portée par lesous-espace affine m+ΣRd, de dimension rg(Σ).

Démonstration. Supposons Σ inversible. Rappelons qu’un vecteur aléatoire X =m + Σ

√Y a la loi voulue, si Y = (Y1, ..., Yd) est de loi N (0, Id), dont la densité

est la densité gaussienne g1(x) = (2π)−d/2exp(−|x|2/2) sur Rd. Par la formule duchangement de variables (dans le cas d’un isomorphisme linéaire) on a donc, pourtoute fonction f mesurable positive,

E[f(X)] =1

(2π)d/2

Rd

f(

m+ Σ√

y)

exp

(

− |y |22

)

dy

=1

(2π)d/2

Rd

f(x)exp

∣Σ

√ −1(x−m)

2

2

dx

det(

Σ√ ) ,

et on conclut par un réagencement des termes.La seconde partie de la proposition consiste à appliquer le même raisonnement,

en posant X =m+ Σ√

Y , et en constatant que Σ√

Rd = ΣRd, ce que l’on constateaisément en diagonalisant Σ.

8.3.2 Théorème central limite : le cas de Rd

Théorème 8.15. Soit X1, X2, ... une suite i.i.d. de variables aléatoires à valeursdans Rd, dont les coordonnées sont toutes dans L2. On note m=E[X1] et Σ =ΣX.Alors, si Sn =X1 + ···+Xn,

Sn −nm

n√ −→

n→∞

loi N (0,Σ) .

Démonstration. Soit ξ ∈Rd. Alors les variables aléatoires 〈ξ,Xj〉, j>1 sont i.i.d.De plus, elles sont clairement dans L2, de moyenne 〈ξ,m〉 et de matrice de variance-covariance 〈Σξ, ξ〉. Le théorème central limite appliqué à ces variables réelles donneque

〈ξ, Sn −nm〉n

√ −→n→∞loi N (0, 〈Σξ, ξ〉).

Par le théorème de Lévy (dans le sens facile) ceci implique que pour tout ξ ∈Rd,

E

[

exp

(

i〈ξ, Sn −nm〉

n√

)]

−→n→∞

exp

(

− 〈Σξ, ξ〉2

)

.

8.3 Vecteurs aléatoires gaussiens et théorème central limite multidimensionnel

113

Page 114: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Mais on reconnaît là la convergence de la fonction caractéristique de (Sn−nm)/ n√

vers la transformée de Fourier de N (0, Σ), et en utilisant le théorème de Lévy ànouveau, on conclut.

Remarque 8.16. Nous voyons ici une autre propriété fascinante du théorème cen-tral limite : si la matrice de variance-covariance de X1 est scalaire, alors la loi limitede (Sn−nm)/ n

√est invariante par l’action du groupe orthogonal de Rd. C’est une

propriété de symétrie extrêmement forte !

Exercice 8.2. Soit X1, X2, ... des variables aléatoires i.i.d. uniformes dans −1, 1, et Sn =X1 + ···+ Xn. Montrer que la probabilité P(Sn > 0, S2n < 0) a une limite lorsque n→∞, et lacalculer.

8.3.3 Une application : le test d’adéquation du χ2

Soit k>1 un entier fixé. On se donne une suite Y1, Y2, ... i.i.d. de variables aléatoiresà valeurs dans 1, 2, ..., k.

On se place du point de vue d’un statisticien qui ignore la loi de Y1. Cettedernière est un vecteur de probabilités p = (p1, p2, ..., pk), qui est donc inconnude l’observateur. Ce dernier voudrait tester l’hypothèse que p = p0, où p0 est unvecteur de probabilités fixé. Cette hypothèse est appellée l’hypothèse nulle, et estsouvent notée H0. Le point de vue du test statistique est en quelque sorte de prendrele point de vue d’un « procès », qui met l’hypothèse H0 à l’épreuve. On va doncsupposer H0, et essayer de déduire de nos observations Y1, Y2, ... si cette hypothèseest vraisemblable. Dans le cas contraire, on rejettera H0. Une situation très concrèteconsiste à disposer d’un dé, et de tester par une série de lancers indépendants s’ilest correctement équilibré.

Clairement, si on dispose de toutes les observations Y1, Y2, ..., la loi des grandsnombres nous permet de retrouver exactement pi comme la limite de Nn

(i)/n, oùNn

(i) =#j6n:Yj = i, mais cette situation n’est pas réaliste.Un test asymptotique couramment utilisé est le test d’adéquation du χ2, et qui

consiste à introduire la « statistique du χ2 » suivante:

χn =∑

i=1

k

(

Nn(i)−npi

0)

2

npi0 .

Proposition 8.17. Sous l’hypothèse H0 que la suite Y1, Y2, ... est i.i.d. de loicommune p0, la variable aléatoire χn converge en loi lorsque n→ ∞ vers une loigamma de paramètres (1/2, (k − 1)/2). Cette dernière loi est encore appelée loi duχ2 à k−1 degrés de liberté, et est la loi de |X |2 où X est un vecteur gaussien de loiN (0, Ik−1).

Démonstration. Notons Xj = ((1Yj=i − pi)/ pi√

, 1 6 i 6 k), ce qui définit pour

chaque j une variable aléatoire à valeurs dans Rk. La suite (Xj , j>1) est clairementi.i.d., bornée et centrée, et l’on a que

χn =

j=1n

Xj

n√

2

.

114 Convergence en loi et théorème central limite

Page 115: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Le théorème central limite multidimensionnel, en plus du fait que la fonction x 7→ |x|2est continue de Rk dans R, montre que cette variable aléatoire converge vers |G|,où G suite la loi N (0,Σ), où Σ = ΣX1

est la matrice de variance-covariance de X1.Son calcul est facile :

Σ =(

δi,j − pipj√ )

16i,j6k= Ik − p

√p

√ ∗,

où l’on a noté p√

= ( pi√

, 1 6 i6 k). Comme ce vecteur est de norme euclidienne1, on reconnaît que Σ est la matrice de projection orthogonale sur l’hyperplan

p√ ⊥ dans Rk. Cette matrice est sa propre racine carrée, Σ2 = Σ, puisque c’est unprojecteur, et par conséquent la variable aléatoire G a même loi que ΣG′, où G ′ estde loi N (0, Ik). Par ailleurs, si A est une matrice orthogonale envoyant p

√sur le

dernier vecteur de la base canonique de Rk, alors AΣG′ et AG sont de même loiN (0, P ) où P est la matrice de la projection (x1, ..., xk) 7→ (x1, ..., xk−1, 0), et doncAG a même loi que (G1,G2, ...,Gk−1,0), où les Gi sont indépendantes de loi N (0,1).Comme par ailleurs la norme de AG égale celle de G, on déduit bien que |G|2 a lamême loi que G1

2 +G22 + ···+Gk−1

2 . On laisse en exercice le soin de vérifier que la loide cette variable aléatoire est celle annoncée.

Soit alors α∈ (0, 1). On se donne xα> 0 tel que P(χ>xα)<α, où χ suit une loidu χ2 à k − 1 degrés de liberté. Le résultat précédent montre que sous l’hypothèseH0, si n est assez grand, on a que P(χn >xα)<α. Le test du χ2 consiste donc à

rejeter l’hypothèse H0 si χn >xα,

et à la conserver sinon. Le niveau (asymptotique) du test, c’est-à-dire la probabi-lité d’un faux positif (rejeter H0 alors qu’elle est vraie) est d’au plus α. En pratique,la valeur α= 5% est souvent utilisée. Pour un k fixé, il est aisé de trouver de tellesvaleurs de xα à l’aide d’outils numériques.

À noter que si H0 n’est pas vérifiée, c’est-à-dire que p =/ p0, alors la statistiquedu χ2 diverge par la loi des grands nombres : χn→∞ presque surement. De ce fait,l’hypothèse H0 sera bien rejetée avec une probabilité tendant vers 1 si n est assezgrand. Cette probabilité est appelée la puissance du test.

8.4 L’inégalité de Hœffding

Nous avons vu comment le théorème central limite permet d’obtenir de intervalles deconfiance asymptotiques pour des problèmes d’estimation statistique. Un problèmeimportant est que ces intervalles de confiance ne sont en effet qu’asymptotiques, eten toute rigueur on ne peut pas les appliquer en pratique à n fixé sans connaissancesupplémentaire sur l’erreur commise. Il est donc important de savoir donner desintervalles de confiance non-asymptotiques.

Notons que le problème revient in fine à donner une borne la meilleure possiblepour des quantités de la forme

P(|Sn −E[Sn]|>x)

8.4 L’inégalité de Hœffding 115

Page 116: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

où Sn =X1+ ···+Xn est une somme de v.a.i.i.d et x>0 est typiquement de la formec n√

. Bien sûr, la première borne exacte qui vient à l’esprit est celle de Bienaymé-Chebychev, qui donne

P(|Sn −E[Sn]|>x) 6nVar(X1)

x2.

Pour x = c n√

, on obtient une borne Var(X1)/c2. On voit qu’il s’agit d’une borne

relativement mauvaise si on la compare avec la borne asymptotique donnée par lethéorème central limite :

limn→∞

P(|Sn −E[Sn]|> c n√

)= 2

c

∞gσ(x)dx

où σ2=Var(X1) et gσ est la densité de la loi gaussienne N (0, σ2). En effet, un calculélémentaire donne (exercice)

2

c

∞gσ(x)dx6 2

σe−c2/2σ2

c 2π√ ,

qui est une borne bien meilleure que la borne de Bienaymé-Chebychev pour lesgrandes valeurs de c.

Le théorème suivant montre que, si l’on s’intéresse à des variables aléatoiresbornées, il existe une borne non-asymptotique qui permet de faire presque aussi bienque la borne asymptotique.

Théorème 8.18. Soit X1, ..., Xn des variables aléatoires indépendantes, respec-tivement à valeurs dans des intervalles compacts [a1, b1], ..., [an, bn]. Notons Sn =X1 + ···+Xn. Alors on a, pour tout x> 0,

P(Sn −E[Sn] >x)6 exp

(

− 2x2

i=1n (bi − ai)2

)

.

et de plus, toujours pour x> 0,

P(|Sn −E[Sn]|>x)6 2 exp

(

− 2x2

i=1n (bi− ai)2

)

.

Démonstration. Soit Y une variable aléatoire bornée, disons que Y ∈ [a, b] avecprobabilité 1, et d’espérance nulle. Considérons la transformée de log-Laplace de Y ,définie par

Φ(λ) = ln (E[eλY ]) , λ∈R.

La fonction Φ est alors de classe C∞(R), et l’on a

Φ′(λ) =E[YeλY ]

E[eλY ], Φ′′(λ)=

E[Y 2eλY ]E[eλY ]−E[YeλY ]2

E[eλY ]2.

On peut réécrire Φ′′(λ) sous la forme

Φ′′(λ) =E

[

Y 2 eλY

E[eλY ]

]

−E

[

YeλY

E[eλY ]

]

2

=Varλ(Y ) ,

116 Convergence en loi et théorème central limite

Page 117: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

où nous avons noté Varλ la variance pour la nouvelle mesure de probabilités Pλ

définie par

Pλ(A)=E

[

1AeλY

E[eλY ]

]

,

c’est-à-dire que Pλ est absolument continue par rapport à P, et de dérivée de Radon-Nikodym donnée par eλY /E[eλY ]. Nous en déduisons d’une part que Φ′′(λ)>0 pourtout λ, c’est-à-dire que Φ est convexe, mais également que

Φ′′(λ)=Varλ(Y )= inf Eλ[(Y − c)2]: c∈R6(b− a)2

4,

où l’on a noté Eλ l’espérance associée à Pλ, et où l’on a remarqué que la variance deY est la distance de Y au sous-espace des fonctions constantes dans L2(Ω,F ,Pλ),puisque Eλ[Y ] est le projeté orthogonal de Y sur ce sous-espace, et où l’on a prisc=(b− a)/2 pour obtenir la dernière inégalité.

De cela, on déduit, en intégrant deux fois entre 0 et λ, et en constatant queΦ(0)= Φ′(0)= 0,

Φ(λ) 6(b− a)2

8λ2 , λ∈R. (8.5)

Montrons maintenant le théorème. On fixe x, λ > 0. En appliquant l’inégalité deMarkov, puis en utilisant l’indépendance des variables aléatoires X1, ..., Xn, on a

P(Sn −E[Sn]>x) = P(exp (λ(Sn −E[Sn])) > exp (λx))

6 e−λxE

[

exp

(

λ∑

i=1

n

(Xi−E[Xi])

)]

6 e−λx∏

i=1

n

E[exp (λ(Xi−E[Xi]))]

6 e−λx exp

(

i=1

n(bi− ai)2

8λ2

)

.

À la dernière étape, on a utilisé l’inégalité (8.5) pour les variables aléatoires Xi −E[Xi], qui sont à valeurs dans l’intervalle [ai − E[Xi], bi − E[Xi]], de diamètrebi − ai. Finalement, on obtient la première inégalité de l’énoncé en choisissantλ = x/(2

i=1

n(bi − ai)

2), ce qui revient à minimiser le majorant dans l’inégalitéprécédente.

La seconde inégalité s’obtient en appliquant la première inégalité aux variablesaléatoires −X1, ...,−Xn, ce qui donne la même borne que la première pour P(−Sn+E[Sn]>x), et en utilisant le fait que |Sn−E[Sn]|>x est la réunion des événementsSn −E[Sn] >x et −Sn +E[Sn]> x.

En particulier, si les variables aléatoires (X1, ..., Xn) sont i.i.d. à valeurs dans[a, b], on obtient que

P(|Sn −E[Sn]|> c n√

)6 2 exp

(

− 2c2

(b− a)2

)

.

8.4 L’inégalité de Hœffding 117

Page 118: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

En reprenant l’exemple des sondages, où X1 est une variable aléatoire de Bernoullide paramètre p inconnu, on a a = 0 et b = 1, et en choisissant c = ln (2/δ)/2

desorte que le majorant précédent soit inférieur à δ, on voit que

[

Sn

n− ln (2/δ)

2n

,Sn

n+

ln (2/δ)

2n

]

est un intervalle de confiance (exact) pour p au niveau δ, c’est-à-dire que la proba-bilité que cet intervalle ne contienne pas p est inférieure à δ. Pour δ = 5%, notonsque ln (2/δ)/2

=1, 358..., à comparer avec la valeur numérique 0,98 que l’on avaitobtenue par le théorème central limite. Il est normal d’obtenir un intervalle plusgrand, c’est-à-dire moins bon que la valeur asymptotique « idéale ».

118 Convergence en loi et théorème central limite

Page 119: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 9

Récurrence et transience pour lamarche aléatoire simple sur Z

d

Un problème important en probabilités est de déterminer le comportement en tempslong de processus aléatoires. L’exemple le plus fondamental est celui des marchesaléatoires dans Zd. Soit µ une loi de probabilités sur Zd, et X1, X2, ... une suitei.i.d. de loi commune µ. Notons Sn =X1 + ···+Xn, pour n> 1, et S0 =0.

Considérons l’événement R= limsupn→∞Sn=0 sur lequel (Sn,n>0) prend uneinfinité de fois la valeur 0. Si P(R)=1, on dit que la marche aléatoire est récurrente.Si P(R)= 0, on dit qu’elle est transiente.

Proposition 9.1. On a que P(R)∈0, 1, c’est-à-dire qu’une marche aléatoire estou bien récurrente, ou bien transiente. Cette dernière propriété ne dépend que de µ.

Il est à noter que cette proposition n’est pas une conséquence directe de la loidu 0-1 de Kolmogorov. On peut l’obtenir par un autre type de loi du 0-1, dite loide Hewitt et Savage, mais nous allons donner une preuve directe de la propositionqui ne fait pas appel à cette loi.

Pour tout x∈Zd, notons

g(x) =∑

n>0

P(Sn = x) =∑

n>0

µ∗n(x) =E

[

n>0

1Sn=x

]

.

Ainsi, g(x) est le nombre moyen de fois où Sn vaut x. Notons également H0 =inf n> 0:Sn =0 le premier temps de retour en 0. Nous allons voir que

g(0) =1

1−P(H0<∞). (9.1)

Pour cela, notons H0(1) =H0, et par récurrence, pour k> 2,

H0(k) = inf

n>H0(k−1) :Sn =0

de sorte que H0(k) est l’instant du k-ième retour en 0 pour (Sn, n> 0). Notons que

l’on note H0(k) =∞ si l’ensemble sur lequel on prend la borne inférieure est vide, et

en particulier si H0(k−1) =∞.

Lemme 9.2. Pour tout k> 1, on a que P(

H0(k)<∞

)

=P(H0<∞)k.

119

Page 120: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Démonstration. La preuve est par récurrence sur k. Pour k=1 c’est évident pardéfinition. Si c’est vrai au rang k, on a

P(

H0(k+1)

<∞)

= P(

H0(k)<∞, H0

(k+1)<∞

)

=∑

r>0

P(

H0(k) = r,H0

(k+1)<∞

)

.

Or sur l’événement

H0(k) = r

, on a que Sn =Xr+1 +Xr+2 + ···+Xn = Sn−r(r) pour

tout n> r, où l’on a noté S0(r) =0 et

Sn(r) =Xr+1 + ···+Xr+n , n> 1 ,

de sorte que(

Sn(r);n>0

)

est une marche aléatoire de même loi que (Sn, n>0), touten étant indépendante de σ(X1, ...,Xr) par le lemme de regroupement par paquets.

Toujours en restriction à l’événement

H0(k) = r

, on a alors que H0(k+1)

<∞ si etseulement si Sn

(r) s’annule pour au moins un n> 0, et donc

H0(k) = r,H0

(k+1)<∞

=

H0(k) = r

∃n> 0:Sn(r) = 0

.

L’événement à droite de l’intersection est mesurable par rapport à σ(

Sn(r), n > 0

)

et est donc indépendant de σ(X1, ..., Xr), tandis que celui de gauche est dansσ(X1, ...,Xr) puisqu’on peut le réécrire comme

H0(k) = r

=

n=1

r−1

1Sn=0 = k− 1

∩Sr =0 .

On conclut que les deux événements ci-dessus sont indépendants, et par conséquent

P(

H0(k+1)

<∞)

=∑

r>0

P(

H0(k) = r

)

P(

∃n> 0:Sn(r) =0

)

= P(∃n> 0:Sn =0)∑

r>0

P(

H0(k) = r

)

= P(H0<∞)P(

H0(k)<∞

)

,

où l’on a utilisé le fait que(

Sn(r), n> 0

)

et (Sn, n> 0) ont la même loi. On conclutpar l’hypothèse de récurrence.

Montrons à présent l’égalité (9.1). Pour cela, on constate que∑

n>1

1Sn=0 =∑

k>1

1

H0(k)

<∞ ,

de sorte que

g(0) = 1+E

[

k>1

1

H0(k)

<∞

]

=∑

k>0

P(H0<∞)k =1

1−P(H0<∞),

comme voulu.

120 Récurrence et transience pour la marche aléatoire simple sur Zd

Page 121: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Nous pouvons maintenant donner la preuve de la proposition 9.1.

• Si P(H0 <∞)< 1, alors g(0)<∞ par (9.1). Donc∑

n>01Sn=0<∞ avec

probabilité 1. On a ainsi que P(R)=0, et la marche aléatoire est transiente.

• Si P(H0<∞)=1, le lemme 9.2 montre que P(

H0(k)<∞

)

=1 pour tout k>1.

Comme

H0(k)<∞

est l’événement que (Sn, n>0) prend au moins k+1 foisla valeur 0, ces événements décroissent vers l’événement R lorsque k→ ∞.On obtient donc que P(R) = 1, et la marche est récurrente.

Notons au passage que nous avons obtenu le résultat suivant.

Proposition 9.3. La marche aléatoire (Sn, n> 0) est récurrente si et seulement siP(H0<∞)= 1, et ce si et seulement si g(0)=∞.

Nous allons maintenant donner un résultat important dans le cas particulier de lamarche aléatoire simple sur Zd, que nous définissons maintenant. Notons (e1, ..., ed)la base canonique de Rd. La marche aléatoire simple sur Zd est la marche aléatoirecorrespondant au choix de µ soit donné par

µ(x) =1

2d, x∈e1, ..., ed,−e1, ...,−ed,

et µ(x) = 0 si x∈/ e1, ..., ed,−e1, ...,−ed. Ainsi, à chaque pas, la marche aléatoirechoisit uniformément au hasard l’un de ses 2d voisins et s’y déplace.

Théorème 9.4. La marche aléatoire simple sur Zd est récurrente si d∈1, 2, ettransiente si d> 3.

Remarque. Dans le cas où d= 1, nous avons déjà montré ce résultat, qui découleimmédiatement du corollaire 6.17, qui découlait de la loi du 0-1 de Kolmogorov.Néanmoins, nous allons redonner une preuve également dans ce cas à l’aide des outilsdéveloppés dans ce chapitre, car cette preuve resservira pour le cas d=2.

Démonstration. Commençons donc par le cas où d=1. Dans ce cas, on a immé-diatement que P(Sn = 0) = 0 si n est impair, et P(S2n = 0) =P(X1 + ···+X2n = 0)où X1, X2.... sont i.i.d. avec P(X1 = 1) =P(X1 =−1) = 1/2. L’événement ci-dessuscorrespond au fait que parmi les valeurs (X1, ..., X2n), exactement n sont égales à−1, et les n autres valent 1. Comme il y a

(

2n

n

)

choix des indices correspondants, onobtient que

P(S2n = 0)=1

22n

(

2nn

)

∼n→∞

1

πn√ ,

grâce à la formule de Stirling. On en déduit immédiatement que

g(0)=∑

n>0

P(Sn =0)=∞ ,

et donc que la marche aléatoire est récurrente.

Récurrence et transience pour la marche aléatoire simple sur Zd 121

Page 122: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Dans le cas où d= 2, on a toujours P(Sn = 0) = 0 si n est impair. Pour calculerP(S2n = 0), on a recours à une astuce. Si X1 est une variable aléatoire de loi µ, etsi R est la rotation de centre 0 et d’angle π/4 de R2, alors R(X1) est une variablealéatoire égale à chacune des quatre valeurs 2

√/2(±1,±1) avec même probabilité.

Ainsi, R(X1) a même loi que 2√

/2(X1′,X1

′′) où X1′, X1

′′ sont des variables aléatoiresindépendantes, réelles, de même loi, telles que P(X1

′ = 1) = P(X1′ = −1) = 1/2.

Finalement, on voit que (R(Sn), n > 0) a même loi que(

2√

/2(Sn′ , Sn

′′), n > 0)

, où(Sn

′ , n > 0) et (Sn′′, n > 0) sont deux marches aléatoires simples indépendantes à

valeurs dans Z. De ce fait, on a que

P(S2n = 0)=P(S2n′ =0)P(S2n

′′ = 0) ∼n→∞

1

πn,

en utilisant le cas précédent. On voit une nouvelle fois que g(0) = ∞, et donc lamarche est récurrente.

L’astuce précédente de fonctionne plus en dimension supérieure à 3. On a doncrecours au lemme suivant, valable pour toutes les marches aléatoires sur Zd.

Lemme 9.5. La marche aléatoire (Sn, n> 0) est récurrente si et seulement si

limt↑1

[−π,π]dℜ(

1

1− tϕµ(ξ)

)

dξ=∞ .

Démonstration. En vertu de la discusion précédente, il suffit de montrer que lalimite considérée est égale à cg(0) où c est une constante strictement positive finie.Posons

gt(0)=∑

n>0

tnP(Sn =0)

de sorte que gt(0) converge vers g1(0)= g(0) lorsque t↑1 par convergence monotone.On remarque alors que la fonction caractéristique de Sn est µn puis que

P(Sn = 0)=1

(2π)d

[−π,π]dϕµ(ξ)

ndξ . (9.2)

Ceci est un fait général : si ν est une loi de probabilités sur Zd, alors

ϕν(ξ)=∑

x∈Zd

ei〈ξ,x〉ν(x)

et donc, par convergence dominée,∫

[−π,π]dϕν(ξ)dξ=

x∈Zd

[−π,π]dei〈ξ,x〉ν(x)dξ .

On voit que cette dernière intégrale est nulle dès que l’une des coordonnées de x estnon nulle (car ces coordonnées sont entières), et elle vaut (2π)d ν(0) sinon. Enappliquant ceci à µ∗n, de sorte que µ∗n(0) = P(Sn = 0), on voit que l’on a (9.2).Pour conclure, on somme ces égalités : pour tout t∈ [0, 1[

n>0

tnP(Sn = 0)=1

(2π)d

[−π,π]d

n>1

(tϕµ)n(ξ)dξ=

1

(2π)d

[−π,π]d

1

1− tϕµ(ξ)dξ ,

122 Récurrence et transience pour la marche aléatoire simple sur Zd

Page 123: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

où la première égalité est justifiée par convergence dominée (c’est la raison pourlaquelle on prend t<1). On obtient le résultat en prenant la partie réelle et en faisanttendre t vers 1.

Dans le cas particulier de la marche aléatoire simple, on a

ϕµ(ξ)=1

d

k=1

d

cos (ξk) .

Ceci est une fonction réelle à valeurs dans [−1, 1] égale à 1 seulement aux pointsde 2πZd, et l’on voit que (1− ϕµ(ξ))

−1 est une fonction continue sur [−π, π]d\0,équivalente à (|ξ |2/2d)−1 lorsque ξ→ 0. Comme d> 3, cette fonction est sommablesur [−π,π]d, et la convergence dominée implique que (notons que dans le cas présent,la partie réelle dans l’intégrale n’est pas nécessaire)

limt↑1

[−π,π]d

1

1− tϕµ(ξ)dξ=

[−π,π]d

1

1− 1

d

k=1d cos (ξk)

<∞ .

Donc la marche aléatoire est transiente.

Avec un peu plus de travail, le critère donné dans le lemme 9.5 permet de montrerle caractère récurrent ou transient de marches aléatoires dans Zd beaucoup plusgénérales. On montre également qu’il est équivalent au critère beaucoup plus naturel

[−π,π]dℜ(

1

1− ϕµ(ξ)

)

dξ=∞ ,

ce qui correspond formellement à intervertir limite et intégrale dans l’énoncé, maisceci nécessite beaucoup plus de travail.

Théorème 9.6. Soit (Sn, n > 0) une marche aléatoire sur Z. On suppose que∑

k∈Z|k |µ(k)<∞.

Alors (Sn, n> 0) est récurrente si et seulement si∑

k∈Zkµ(k)= 0.

Démonstration. Notons gN(x)=∑

n=0

NP(Sn=x). Alors on note que gN(0)> gN(x)

pour tout x∈Z. En effet, si l’on note Tx = inf n> 0:Sn = x, on a

n=0

N

P(Sn = x) = E

[

n=Tx

N

1Sn=x

]

=∑

k>0

E

[

n=k

N

1Sn=x,Tx=k

]

=∑

k>0

E

[

n=k

N

1

Sn−k(k)

=0

]

P(Tx = k)

6∑

k>0

P(Tx = k)E

[

n=0

N

1

Sn(k)

=0

]

6 gN(0)

Récurrence et transience pour la marche aléatoire simple sur Zd 123

Page 124: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

où l’on a noté Sn(k) =Xk+1 + ··· +Xk+n, comme au début du chapitre, et où l’on a

utilisé l’indépendance de(

Sn(k), n> 0

)

et de Tx = k, qui est une conséquence duregroupement par paquets.

On en déduit que pour tout M > 0, on a

gN(0)>1

2M +1

|x|6M

gN(x) .

Or

|x|6M

gN(x) =∑

n=0

N∑

|x|6M

P(Sn = x) =∑

n=0

N

P(|Sn|6M)>∑

n=0

N

P(|Sn/n|6M/N)

La loi des grands nombres montre que P(|Sn/n|6 a) converge vers 1 pour touta> 0. En prenant M = aN , on en déduit par le lemme de Cesaro que

g(0) = limN→∞

gN(0) > limN→∞

1

2aN + 1

n=0

N

P(|Sn/n|6 a) =1

2a.

Comme a > 0 est arbitraire, on conclut que g(0) = ∞, et donc que (Sn, n> 0) estrécurrente.

Corollaire 9.7. Sous les hypothèses du théorème précédent, si µ est d’espérancenulle, et µ=/ δ0, alors p.s. on a

limsupn→∞

Sn =∞ et liminfn→∞

Sn =−∞.

124 Récurrence et transience pour la marche aléatoire simple sur Zd

Page 125: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Chapitre 10

Processus de branchement

On cherche à modéliser l’évolution d’une population asexuée dont les individusse reproduisent indépendamment les uns des autres, et suivant la même loi. Onse donne ainsi une mesure de probabilités µ sur N, et l’on appellera processus debranchement toute suite (Z0, Z1, ...) de variables aléatoires à valeurs dans N tellesque pour tout n∈N, et pour tout z0, z1, ..., zn−1, x, y ∈N, on a

P(Zn+1 = y |Z0 = z0, Z1 = z1, ..., Zn−1 = zn−1, Zn = x)= µ∗x(y) (10.1)

dès lors que cette probabilité est bien définie (c’est-à-dire que l’événement par lequelon conditionne est de probabilité strictement positive), et où l’on a noté µ∗x laconvolée de µ avec elle-même x fois. On notera que µ∗x est la loi de ξ1 + ···+ ξx, oùles variables aléatoires ξ1, ..., ξx sont indépendantes de loi µ. Ainsi, la suite (Z0,Z1, ...)décrit bien le modèle indiqué ci-dessus : à la génération n, chacun des x individusprésents donne naissance à une famille d’individus dont la taille est aléatoire de loiµ, de façon indépendante entre tous les individus.

On note également que les formules ci-dessus ne disent rien a priori sur la loide la taille de la population initiale Z0, qui peut donc être une variable aléatoirequelconque.

On peut se demander s’il existe un processus de branchement de loi µ. Envoici une construction explicite, utilisant une famille (ξn,i :n> 1 , i> 1) de variablesaléatoires indépendantes et de même loi µ, ainsi qu’une variable aléatoire Z0 indé-pendante de la famille précédente. Si l’on connaît la variable aléatoire Zn, on posealors

Zn+1 =∑

i=1

Zn

ξn+1,i .

Par récurrence, ceci permet de définir la suite (Z0, Z1, ...), de sorte que Z0, Z1, ..., Zn

soit mesurable par rapport à la tribu engendrée par Z0 et les ξm,i avecm∈1,2, ...,net i> 1. En particulier, (ξm,i :m>n, i> 1) est indépendante de (Z0, ..., Zn). On adonc, en notant B=Zn=x,Zn−1= zn−1, ...,Z0= z0, qui est mesurable par rapportà σZ0, ..., Zn,

P(Zn+1 = y, B) = P

(

i=1

x

ξn+1,i = y,B

)

= P

(

i=1

x

ξn+1,i = y

)

P(B)

= µ∗x(y)P(B) ,

125

Page 126: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

d’où (10.1) en divisant par P(B) lorsque cette quantité est non nulle.Notons que, d’après la définition, ou par la construction précédente, presque

surement, s’il existe n∈N tel que Zn =0, alors Zn+k =0 pour tout k> 0. On a doncseulement deux possibilités : ou bien Zn> 0 pour tout n> 0, ou bien la suite (Zn)est stationnaire en 0.

Notons A = Zn > 0 pour tout n > 0 l’événement de survie de la population.Quand a-t-on P(A)> 0 ? De quelle façon cette probabilité dépend-elle de Z0 ?

Dans un premier temps nous allons supposer que Z0 = 1. Nous allons supposerune fois pour toutes que µ =/ δ1 pour éviter le cas trivial où Zn = 1 pour tout n.Notons m=

k>0kµ(k) la moyenne de µ, qui est un nombre dans [0,∞].

Théorème 10.1. Si m61 alors le processus s’éteint presque surement : P(A)=0.Si m> 1, alors le processus survit avec probabilité positive : P(A)> 0.

Ce théorème a été démontré par Bienaymé au milieu du XIXème siècle. Néan-moins, sa preuve ne fut pas publiée, et on n’en retrouve les détails que par refletsdans les ouvrages de son époque. La question fut reposée par Galton vingt ans plustard, et résolue par Galton et Watson peu après (avec, dit-on, une erreur).

Pour le montrer, nous allons avoir recours à la fonction génératrice de la loi µ :

g(s)=∑

k>0

µ(k)sk .

Comme on le sait, g est une fonction convexe, croissante sur [0, 1], dérivable sur]0, 1[, et sa dérivée admet en 1 la limite à gauche g ′(1− ) =m.

Lemme 10.2. Soit (Z0, Z1, ...) un processus de branchement avec Z0 =1 p.s. Alorsla fonction génératrice de Zn est donnée par la composée n fois de g :

gZn= g g ...g (n fois).

Démonstration. Nous montrons cette propriété par récurrence. La propriété estclaire pour n=0 et n=1, avec la convention que g composée 0 fois avec elle-mêmeest l’identité. Supposons la propriété vraie au rang n. On a alors, pour tout s∈ [0,1],

gZn+1(s)=E[sZn+1] =∑

x,y∈N

sy P(Zn+1 = y, Zn = x)

=∑

x,y∈N

sy P(Zn =x)µ∗x(y) .

La dernière égalité est une application aisée de (10.1). Rappelons que µ∗x(y) estla probabilité que ξ1 + ··· + ξx = y où ξ1, ..., ξx sont indépendantes de loi µ. Enparticulier, par indépendance,

y∈N

syµ∗x(y) =E[sξ1+···+ξx] =E[sξ1]x = g(s)x.

En réinjectant ceci dans l’expression précédente, on trouve

gZn+1(s)=∑

x∈N

P(Zn =x)g(s)x = gZn(g(s))

126 Processus de branchement

Page 127: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et on conclut par hypothèse de récurrence.

Notons que gZn(0)=P(Zn =0), et que cette probabilité croît vers la probabilité

q=P(Ac) d’extinction (rappelons que si Zn = 0 alors Zm = 0 pour tout m> n). Onen déduit que q est la limite de la suite récurrence qn+1= g(qn) initiée en q0=0. Or,la convexité de g implique que

• si m 6 1 alors g a un unique point fixe sur [0, 1], donné par 1. Noter quenous avons utilisé ici le fait que µ(1)< 1, ce qui permet d’éviter le cas trivialoù g est la fonction identité. Dans ce cas, la suite (qn), à valeurs dans [0, 1],converge vers q=1.

• Si m> 1 alors g admet exactement deux points fixes sur [0, 1], que l’on noteq ′ et 1, avec q ′< 1. Le point q ′ est alors attractif (0< g ′(q0)< 1) et le point1 est répulsif, de plus, la suite (qn) converge vers q ′. On a donc q ′= q∈ [0,1[.

Le théorème s’ensuit en notant que P(A) = 1 − q. On voit que l’on a mêmedonné une caractérisation de q, comme étant le plus petit point fixe de g sur [0, 1].

m< 1 m=1 m> 11 1 q 1

Figure 10.1. Illustration des trois phases : en noir, la courbe représentative de g, enrouge, l’évolution de la suite récurrente (qn).

On distingue trois phases dans le processus de Galton-Watson.

Phase sous-critique : m < 1

Dans ce cas, on a extinction presque sure (q = 1), et les propriétés usuelles dessuites récurrentes montrent que la probabilité que Zn soit non nul converge vers 0exponentiellement vite. En effet, on a que 1− qn 6mn par applications successivesdu théorème des accroissements finis, et donc

P(Zn> 0)= 1− qn 6mn .

L’extinction est donc très rapide.

Phase critique : m = 1

Dans ce cas, on a toujours extinction presque sure. Néanmoins, la convergencede P(Zn> 0) vers 0 est typiquement plus lente qu’exponentielle. Pour illustrer ceci,supposons que

k∈Nk2µ(k)<∞. Notons que g ′′(1− ) =

k∈Nk(k − 1)µ(k) = σ2

est la variance de la loi µ, puisque m=1, et cette variance est finie. En développantg au voisinage de 1, on a

g(s) = 1− (1− s) +(1− s)2

2σ2 + o((1− s)2)

Processus de branchement 127

Page 128: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

et donc1

1− g(s)− 1

1− s=σ2

2+ o(1) .

En sommant on obtient donc

1

1− qn− 1=n

σ2

2+ o(n) ,

d’où l’on déduit que

P(Zn> 0) =1− qn =2

σ2n(1+ o(1)).

La décroissance vers 0 est donc beaucoup plus lente qu’exponentielle. Ce résultatest dû à Kolmogorov.

Phase sur-critique : m > 1

Dans ce cas, nous avons vu que le processus survit avec probabilité strictementpositive, s’il est issu de Z0=1 individu. On peut donner des propriétés plus fines, endécrivant l’allure du processus conditionné par l’événement de survie ou d’extinction.Nous ne donnons pas les preuves ici, mais juste les idées intuitives.

Tout d’abord, on peut constater que le processus de branchement jouit d’unepropriété de branchement stipulant que, si Z = (Z0, Z1, ...) et Z ′ = (Z0

′, Z1′, ...)

sont deux processus de branchement indépendants, de même loi de reproductionµ, et issus respectivement de Z0 = x et Z0

′ = x′ individus, alors Z + Z ′ = (Z0 + Z0′,

Z1 + Z1′, ...) est un processus de branchement également (issu de x + y), de loi de

reproduction µ. Ceci revient intuitivement à dire que deux « familles » distinctes sereproduisent indépendamment dans le futur, en suivant la dynamique du processusde branchement. De cela, on tire par exemple que si Z0 =x presque surement, alorsla probabilité de survie est donnée par

P(A) = 1− qx,

puisqu’on a extinction si et seulement si chacune des x lignées indépendantes s’éteint.À quoi ressemble le processus (Z0, Z1, ...) si’il est issu de Z0 = 1, et si on le

conditionne à s’éteindre ? Nous affirmons que

P(Z1 = x |Ac)=1

qP(Z1 = x,Ac)=

1

qµ(x)qx = µ(x)qx−1.

Intuitivement, cela signifie que, si l’on sait que l’ancêtre commun à la populationa eu x enfants, alors sa descendance s’éteint si et seulement si les x lignées de cesenfants, qui sont indépendantes, s’éteignent, ce qui arrive avec probabilité qx. Onpourrait itérer cet argument, et obtenir le résultat suivant.

Proposition 10.3. Conditionnellement à Ac, le processus (Z0, Z1, ...) est un pro-cessus de branchement sous-critique de loi de reproduction µq(x)= qx−1µ(x), x∈N.

Noter que la fonction génératrice de µq n’est autre que g(qs)/q. On l’interprèteen disant que c’est la portion de g comprise entre [0, q], remise à l’échelle linéairementpour en faire une fonction de [0, 1] dans lui-même. En particulier, la moyenne de µq

est g ′(q) qui est bien dans [0, 1[, et le processus est sous-critique !

128 Processus de branchement

Page 129: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Que se passe-t-il alors si l’on conditionne le processus par l’événement A de non-extinction ? Cette fois, on a

P(Z1 =x|A) =1

1− qP(Z1 =x,A)

=1

1− qµ(x)

k=1

x(

x

k

)

(1− q)kqx−k

= µ(x)1− qx

1− q.

Ici, l’on a exprimé le fait que, si l’ancêtre commun a eu x enfants, la populationtotale survit si au moins un de ces enfants a une lignée qui survit. Or les x lignéessont indépendantes et ont la probabilité 1− q de survivre, le nombre de lignées quisurvivent suit donc une loi binomiale. On constate alors que la dernière formuledéfinit, lorsque x décrit N∗, une mesure de probabilités sur N∗, dont la fonctiongénératrice est donnée par

g(s)− g(qs)

1− q.

Il faut prendre néanmoins garde au fait que chacun des x enfants de l’ancêtrecommun ne va pas se reproduire en suivant cette loi : seuls ceux dont la lignéene s’éteint pas vont être dans ce cas. On peut donc être plus précis dans le calculprécédent, et noter Z1

ext le nombre d’individus nés de l’ancêtre commun dont ladescendance s’éteint, et Z1

surv les autres enfants de l’ancêtre commun. On a alors,pour x> 0 et y> 1.

P(Z1ext=x,Z1

surv= y |A)= µ(x+ y)(

x+ y

y

)

(1− q)y−1qx .

Ceci se résume plus facilement comme une fonction génératrice à deux variables :

gsurv(s, t)=E[

sZ1ext

tZ1surv|A

]

=∑

x>0,y>1

sx tyP(Z1ext=x,Z1

surv= y |A)

=1

1− q

k>1

µ(k)∑

y=1

k(

k

y

)

(t(1− q))y(sq)k−y

=1

1− q

k>1

µ(k)((sq+ t(1− q))k − (sq)k)

=g(sq+ t(1− q))− g(sq)

1− q.

Pour s= 1, on obtient la fonction génératrice de Z1surv sachant A, et cette dernière

est (g(q + t(1 − q)) − q)/(1 − q). Une nouvelle fois, on interprète cette fonctioncomme la partie de g comprise entre q et 1, translatée et remise à l’échelle pour enfaire la fonction génératrice d’une variable aléatoire. On note µq la loi de probabilitéassociée. On constate que cette fonction est nulle en 0, c’est-à-dire que la variablealéatoire associée ne peut pas prendre la valeur 0, et sa dérivée à gauche en 1 est m.On pourrait compléter ce résultat par le résultat suivant, appelé l décomposition deHarris . On ne donne pas pour une fois d’énoncé formel.

Processus de branchement 129

Page 130: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Conditionnellement à l’événement A de survie du processus, on peut décrire lapopulation de la façon suivante. On a deux types d’individus, les « mortels » et les« immortels ». Les individus immortels donnent naissance à des individus mortelset immortels selon la loi sur N2 définie par les coefficients de la fonction génératricegsurv(s, t), indépendamment les uns des autres. Les individus mortels engendrentdes processus de branchement sous-critiques de loi de reproduction µq. Enfin, larestriction de la généalogie du processus aux individus immortels forme un processusde branchement sur-critique de loi de reproduction µq.

130 Processus de branchement

Page 131: Grégory Miermontperso.ens-lyon.fr/gregory.miermont/L3_integration-probabilites.pdf · Chapitre 1 Quelques compléments d’intégration Quelques notations Si d>1 est un entier, notons

Références

• P. Barbé, M. Ledoux, Probabilité

• R. Durrett, Probability: theory and examples

• W. Feller, An Introduction to Probability Theory and its Applications , vol. 1et 2.

• G. Grimmett, D. Stirzaker, Probability and random processes

• J.-F. Le Gall, Intégration, probabilités et processus aléatoires , notes de coursdisponibles sur http://www.math.u-psud.fr/~jflegall/IPPA2.pdf

• M. Pinsky, Introduction to Fourier analysis and wavelets

• W. Rudin, Real and complex analysis

131