247
Cours de Probabilités par Dominique PASTOR Département Signal et Communications Technopôle Brest-Iroise, CS 83818, 29238 Brest Cedex e-mail : [email protected] Tél : 02 98 00 14 87 Fax : 02 98 00 10 98 Septembre 2003

Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

  • Upload
    vuliem

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Cours de Probabilités

par

Dominique PASTOR

Département Signal et CommunicationsTechnopôle Brest-Iroise, CS 83818, 29238 Brest Cedex

e-mail : [email protected]él : 02 98 00 14 87Fax : 02 98 00 10 98

Septembre 2003

Page 2: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Objectifs pédagogiques

Les probabilités interviennent dans tous les domaines de l’ingénierie. En tél-communications, on est amené à traiter des données qui par nature sont aléatoires.Il va falloir par exemple calculer la probabilité d’erreur d’une transmission lors-qu’on transmet des séquences de valeurs binaires

�et � .

Ainsi, un cours de probabilité est incontournable dans toute école d’ingénieuret en particulier, ici, à l’ENST Bretagne.

Les objectifs pédagogiques du cours supporté par ce polycopié sont alors lessuivants en terme de "être capable de" et "être sensibilisé à". Pour chaque objectiflisté ci-dessous, nous pointons vers le chapitre où l’étudiant trouvera les informa-tions nécessaires permettant de remplir l’objectif pédagogique.

i

Page 3: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Objectif : être capable de VoirDonner la définition d’un espace probabilisé Chapitre 1Effectuer des calculs combinatoires de probabilités Chapitre 2Calculer des probabilités conditionnelles élémentaires Chapitre 3Donner la définition de l’indépendance entre événements Chapitre 3Calculer des lois conditionnelles Chapitre 12Donner la définition correcte d’une variable aléatoire réelle ou généralisée Chapitre 4Donner les théorèmes de convergence monotone et de convergence dominée Chapitre 5Donner la définition de l’espérance d’une variable aléatoire Chapitre 9Donner la définition des moments d’ordre supérieur Chapitre 9Donner la définition de la fonction caractéristique Chapitre 9Donner la définition de la fonction de répartition et d’une densité de proba-bilité

Chapitre 10

Donner la définition des variables aléatoires absolument continues et celledes variables discrètes

Chapitre 10

Savoir calculer les fonctions de répartitions et les densités de probabilitésdes variables aléatoires absolument continues

Chapitre 10

Donner la définition d’un vecteur aléatoire Chapitre 12Donner la définition de l’espérance d’un vecteur aléatoire Chapitre 12Donner la définition de la fonction de répartition d’un vecteur aléatoire Chapitre 12Donner la définition des lois conjointes Chapitre 12Manipuler les densités de probabilité conditionnelles Chapitre 12Utiliser le théorème de changement de variable et le théorème de transfertpour les calculs usuels (notamment, différentes méthodes de calcul de ladensité d’une somme de variables aléatoires)

Chapitre 12

Savoir définir et manipuler les matrices de covariance Chapitre 12Donner la définition des vecteurs aléatoires gaussiens et leurs propriétésélémentaires

Chapitre 13

Donner l’inégalité de Bienaymé-Chebyshev (version probabiliste) Chapitres 9 et 15Connaître et d’utiliser le théorème de la limite centrale Chapitre 15

TAB. 1 – Objectifs "être capable de".

ii

Page 4: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Objectif : être sensibilisé à VoirAux principales lois utilisées dans la pratique et les phéno-mènes qu’elles modélisent

Chapitre 11

A la théorie de la mesure et de l’intégration Chapitre 5Aux notions de "presque partout" et de "presque sûrement" Chapitre 6Aux extensions des théorèmes de convergence de la théoriede Lebesgue

Chapitres 5 et 6

Au théorème de Fubini et son application Chapitre 7Aux relations entre intégrales de Lebesgue et de Riemann Chapitre 8 et Annexe CAu théorème de Radon-Nikodym Chapitre 10A la théorie des variables aléatoires conditionnelles (parrapport à un événement, une tribu, une variable aléatoire)

Chapitre 10 et Annexe D

A la théorie des variables aléatoires complexes Chapitre 14Aux différents modes de convergence des variables aléa-toires

Chapitre 15

Aux méthodes de génération des variables aléatoires Chapitre 16

TAB. 2 – Objectifs "être sensibilisé à".

iii

Page 5: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Guide de lecture de la bibliographie

Vous trouverez en fin de ce polycopié une bibliographie complète du cours deprobabilité. Nous donnons ici un guide de lecture de cette bibliographie.

[10] est un livre ancien qui présente les probabilités selon le point de vue desstatisticiens. Les outils mathématiques utilisés y sont essentiellement l’algèbre etl’analyse élémentaire. Cette référence n’utilise pas la théorie de la mesure. Etantcourt et très concis, il permet au lecteur de retrouver très rapidement les résultatsclassiques de la théorie. C’est donc un excellent aide-mémoire qui permet aussid’éclairer certains aspects de la théorie sous un angle pratique et applicatif. Sondéfaut : l’ouvrage étant ancien, il est parfois difficile à trouver.

La présentation des probabilités dans [3] est, dans une certaine mesure, une ex-tension de celle de [10] où on retrouve l’axiomatique de Kolmogorov basée sur lathéorie de la mesure. Cet ouvrage est court et permet aussi au lecteur de retrouvertrès facilement les résultats classiques de la théorie. Cet ouvrage donne aussi unéclairage statistique de la théorie des probabilités et de nombreux exemples. A ladifférence de [10], on le trouve beaucoup plus facilement dans les bibliothèques.

Les ouvrages [18, 19, 6, 7] s’adressent aux étudiants ayant besoin d’un coursplus approfondi pour le reste de leur formation à l’école. Ce sont aussi des ré-férences classiques pour les ingénieurs en traitement du signal et télécommuni-cations. Dans les références [6, 7, 19], on peut trouver, en plus des démonstra-tions théoriques des résultats fondamentaux, des exercices et problèmes résolusou commentés.

[8] (Tomes 1 et 2) est une référence incontournable en théorie des probabilités.Ouvrage mathématique, il expose la théorie dans toute sa complexité. On y trouvedes extensions des théorèmes des grands nombres. Il est adapté aux travaux derecherche.

[11] et [24] sont les ouvrages préférés de l’auteur de ce polycopié. Ils repré-sentent l’école russe dans toute sa subtilité. Ce sont des ouvrages mathématiques.Ils sont parfois difficiles car utilisent des éléments de théorie de la mesure peuconnus des ingénieurs. Le polycopié que nous vous fournissons, souvent influencépar ces références, devrait vous donner les clefs suffisantes pour exploiter ces ou-vrages. Ceci dit, ces oeuvres s’adressent principalement aux chercheurs, voire auxingénieurs de recherche.

[20] est un ouvrage remarquable, mais très spécialisé, sur les mesures condi-tionnelles. On y voit que la théorie des probabilités conditionnelles est un domaine

iv

Page 6: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

très complexe que nous nous contentons d’effleurer. Cet ouvrage s’adresse avanttout à des mathématiciens. Après avoir lu l’annexe D, le lecteur ne devrait cepen-dant n’avoir aucune difficulté à lire les quatre premiers chapitres de ce livre.

[21, 12, 22] sont des ouvrages de référence en théorie de la mesure. La présen-tation donnée dans ce cours concernant la théorie de la mesure est très influencéepar ces ouvrages. La présentation de l’intégrale de Lebesgue que nous donnons auchapitre 5 et que nous précisons à l’annexe ?? est fortement influencée par [21]et [22]. La présentation de l’intégrale de Lebesgue-Stieltjes à l’annexe B est issuede [12]. Le premier chapitre de [22] devrait au moins être lu une fois par toutétudiant.

[16] et [1] sont des ouvrages incontournables tant en analyse, en algorith-mie qu’en probabilités. Ils contiennent énormément de résultats utiles en calculet notamment des descriptions détaillées des fonctions spéciales qu’il arrive derencontrer au détour de problèmes qui ne sont pas seulement académiques.

Qui dit probabilités dit aussi statistiques. Vous trouverez trois références es-sentielles dans le domaine ([17, 2, 15]). [17] est une extension de [2]. Dans cesouvrages, on trouvera énormément de résultats et de lois dérivant des lois Gaus-siennes multidimensionnelles. [15] est une des ouvrages les plus connus dans ledomaine. Il pourra notamment servir ceux qui seront confrontés à des problèmesd’estimation statistique (maximum de vraisemblance, moindres carrés, etc.).

Les références [14, 5] se rapportent à la théorie de la mesure. Ce sont despolycopiés ENSTB très synthétiques qui présentent les résultats principaux de lathéorie.

Nous recommendons aussi la lecture de [9, 4, 13, 23, 5] qui sont des poly-copiés de l’ENSTB. En particulier, [5] et [23] sont d’excellents documents desynthèses qui mettent en évidence les principaux résultats de la théorie des proba-bilités. Dans [4], on trouvera aussi un exposé très complet des différents types deconvergence.

v

Page 7: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Remerciements

Je remercie Samir Saoudi et Thierry Chonavel, professeurs à l’ENST de Bre-tagne pour m’avoir fourni leurs polycopiés ([23], [5]) et leurs planches de pré-sentation. Leur travail m’a fortement guidé et inspiré dans la rédaction du présentdocument et des notes de cours.

Je remercie aussi Karine Amis, Maître de Conférences à l’ENST de Bretagne,pour sa contribution à l’élaboration, l’organisation du cours et ses ajouts et com-mentaires sur différents chapitres de ce polycopié.

Enfin, je remercie mon ami et professeur Roger Gay qui a bien voulu prendresur son temps pour relire et corriger certains passages de ce document et qui m’afait connaître et apprécier bon nombre des références que je recommande à montour.

vi

Page 8: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Table des matières

1 Espace probabilisable et Espace probabilisé 11.1 Idées fondamentales sur les espaces de probabilité . . . . . . . . . 11.2 Espace probabilisable ou mesurable . . . . . . . . . . . . . . . . 51.3 Tribu des boréliens de

�. . . . . . . . . . . . . . . . . . . . . . 6

1.4 Tribu des boréliens de���

. . . . . . . . . . . . . . . . . . . . . . 81.5 La tribu des boréliens de la droite réelle étendue . . . . . . . . . . 81.6 Mesure positive . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.7 La mesure de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . 101.8 Définition d’une probabilité . . . . . . . . . . . . . . . . . . . . . 121.9 Espace produit . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.10 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Calcul combinatoire des probabilités 152.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2 Rappels d’analyse combinatoire . . . . . . . . . . . . . . . . . . 152.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Probabilités conditionnelles et indépendance 193.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . 19

3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.2 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . 20

3.2 Evénéments indépendants . . . . . . . . . . . . . . . . . . . . . . 203.2.1 Indépendance de deux événements . . . . . . . . . . . . . 203.2.2 Indépendance d’une suite d’événements . . . . . . . . . . 213.2.3 Théorème de Borel-Cantelli . . . . . . . . . . . . . . . . 22

3.3 Indépendance de tribus . . . . . . . . . . . . . . . . . . . . . . . 223.4 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

vii

Page 9: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

4 Variables aléatoires (réelles et généralisées) 254.1 Applications mesurables . . . . . . . . . . . . . . . . . . . . . . 264.2 Variables aléatoires réelles et généralisées . . . . . . . . . . . . . 264.3 Critères de mesurabilité . . . . . . . . . . . . . . . . . . . . . . . 284.4 Propriétés élémentaires des applications mesurables et des va-

riables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . 304.5 Limites de variables aléatoires . . . . . . . . . . . . . . . . . . . 31

5 Intégration des variables aléatoires réelles et généralisées (intégralede Lebesgue) 345.1 La construction usuelle de l’intégrale des variables aléatoires

réelles gnéralisées positives . . . . . . . . . . . . . . . . . . . . . 355.2 Une construction algorithmique de l’intégrale des variables aléa-

toires réelles gnéralisées positives . . . . . . . . . . . . . . . . . 375.2.1 Intégration des applications à valeurs sur la demi droite

réelle étendue . . . . . . . . . . . . . . . . . . . . . . . . 435.2.2 Le théorème de la convergence monotone . . . . . . . . . 445.2.3 Où l’on retrouve la définition classique de l’intégrale des

fonctions à valeurs réelles positives . . . . . . . . . . . . 475.2.4 Quelques propriétés utiles de l’intégrale des variables

aléatoires positives . . . . . . . . . . . . . . . . . . . . . 495.2.5 Intégrale des variables aléatoires généralisées de signe

quelconque . . . . . . . . . . . . . . . . . . . . . . . . . 505.3 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . 565.4 Inégalité de Bienaymé-Chebyshev . . . . . . . . . . . . . . . . . 585.5 Intégration sur une partie mesurable . . . . . . . . . . . . . . . . 60

6 Ensembles négligeables et compléments sur l’intégration 636.1 Ensembles négligeables et mesure complète . . . . . . . . . . . . 646.2 Le "presque partout" et le "presque sûrement" . . . . . . . . . . . 656.3 Complétée d’une tribu . . . . . . . . . . . . . . . . . . . . . . . 666.4 Mesure complétée . . . . . . . . . . . . . . . . . . . . . . . . . 676.5 Le cas de la mesure de Lebesgue . . . . . . . . . . . . . . . . . . 696.6 L’ espace

����������� ���. . . . . . . . . . . . . . . . . . . . . . . . 69

6.7 La version définitive du théorème de la convergence dominée . . . 71

7 Intégration sur les espaces produits 737.1 Tribu produit : définition et premières propriétés . . . . . . . . . . 73

viii

Page 10: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

7.2 Mesurabilité des applications définies sur un produit cartésien . . 757.3 Mesure produit ou produit tensoriel de mesures . . . . . . . . . . 767.4 Le théorème de Tonelli-Fubini . . . . . . . . . . . . . . . . . . . 777.5 La mesure de Lebesgue sur

���et application aux calculs des pro-

babilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8 Lebesgue et Riemann : éléments de synthèse 818.1 Apport de la théorie de Lebesgue en théorie des probabilités . . . 828.2 Comparaison des intégrales de Riemann et de Lebesgue . . . . . . 828.3 Dérivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

9 Fonctions et paramètres d’une variable aléatoire 929.1 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . 929.2 Moments d’ordre supérieur . . . . . . . . . . . . . . . . . . . . . 939.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 949.4 Inégalité de Markov et de Bienaymé-Tchebychev . . . . . . . . . 94

9.4.1 Expression générale de l’inégalité de Tchebychev . . . . . 949.4.2 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . 949.4.3 Inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . 95

9.5 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . 959.6 Fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . 96

10 Loi d’une variable aléatoire réelle 9710.1 Mesure ou loi image et théorème de transfert . . . . . . . . . . . 9710.2 Application à une mesure de probabilité . . . . . . . . . . . . . . 10010.3 Fonction de répartition d’une variable aléatoire réelle . . . . . . . 10010.4 Les densités de probabilité . . . . . . . . . . . . . . . . . . . . . 10410.5 Variables aléatoires absolument continues . . . . . . . . . . . . . 10510.6 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . 10710.7 Exercices corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . 109

10.7.1 Exercice corrigé 1 . . . . . . . . . . . . . . . . . . . . . 10910.7.2 Exercice corrigé 2 : variable aléatoire discrète de Poisson . 11010.7.3 Exercice corrigé 3 : le cas de la loi absolument continue

dite exponentielle . . . . . . . . . . . . . . . . . . . . . . 11110.7.4 Mesure absolument continue par rapport à une autre . . . 11210.7.5 Le théorème de Radon-Nikodym . . . . . . . . . . . . . . 113

ix

Page 11: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

10.7.6 Application aux probabilités : variables aléatoires absolu-ment continues . . . . . . . . . . . . . . . . . . . . . . . 114

11 Exemples de lois 11611.1 La loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . 11611.2 La loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . 11611.3 La loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . 11711.4 La loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 11711.5 La loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . 11911.6 La loi normale (ou loi de Gauss) . . . . . . . . . . . . . . . . . . 11911.7 La loi Log Normale . . . . . . . . . . . . . . . . . . . . . . . . . 12111.8 La loi Exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . 12111.9 La loi du ��� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12211.10La loi du ��� non centrée de paramètre de décentrage � . . . . . . . 12411.11La loi de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . 12511.12La loi de Rice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12511.13La loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12611.14La loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . 12711.15La loi Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12711.16Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

12 Vecteurs aléatoires 13012.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13012.2 Intégration des vecteurs aléatoires . . . . . . . . . . . . . . . . . 13012.3 Mesure image et théorème de transfert . . . . . . . . . . . . . . . 13112.4 Loi de probabilité et espérance mathématique d’un vecteur aléatoire13212.5 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . 13312.6 Loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13312.7 Formule du changement de variables . . . . . . . . . . . . . . . . 135

12.7.1 Cas bijectif . . . . . . . . . . . . . . . . . . . . . . . . . 13612.7.2 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . 136

12.8 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . 13612.9 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 13712.10Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . 13812.11Covariance et Matrice de covariance . . . . . . . . . . . . . . . . 140

12.11.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . 14012.11.2 Matrice de covariance . . . . . . . . . . . . . . . . . . . 141

12.12Droite et courbe de régression . . . . . . . . . . . . . . . . . . . 141

x

Page 12: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

12.12.1 Droite de régression . . . . . . . . . . . . . . . . . . . . 14212.12.2 Courbe de régression . . . . . . . . . . . . . . . . . . . . 142

12.13Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 14312.14Problème corrigé : somme de variables aléatoires admettant une

densité conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . 14512.15Problème corrigé : somme de variables aléatoires indépendantes

n’admettant pas de densité conjointe . . . . . . . . . . . . . . . . 148

13 Vecteurs gaussiens 15113.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15113.2 Quelques propriétés du vecteur gaussien . . . . . . . . . . . . . . 15113.3 Quelques figures . . . . . . . . . . . . . . . . . . . . . . . . . . 15213.4 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

14 Variables aléatoires complexes 16114.1 Variable aléatoire complexe : paramètres . . . . . . . . . . . . . . 16114.2 Vecteur aléatoire complexe . . . . . . . . . . . . . . . . . . . . . 16214.3 Vecteur aléatoire complexe gaussien . . . . . . . . . . . . . . . . 162

15 Convergence des variables aléatoires 16515.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . 16515.2 Convergence en moyenne d’ordre � et loi faible des grands nombres16515.3 Convergence presque sûre et loi forte des grands nombres . . . . . 166

15.3.1 Inégalité de Kolmogorov . . . . . . . . . . . . . . . . . . 16615.3.2 Convergence presque sûre . . . . . . . . . . . . . . . . . 16715.3.3 Loi forte des grands nombres de Kolmogorov . . . . . . . 167

15.4 Convergence en Loi, théorème de la limite centrale et théorèmede Lyapounov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

15.5 Exemple d’utilisation du théorème de la limite centrale . . . . . . 16915.6 Exercice corrigé . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

16 Génération de variables aléatoires 17316.1 Génération de la distribution uniforme sur

� � � ��� . . . . . . . . . . 17316.1.1 Méthode de congruences multiplicatives de Lehmer . . . . 174

16.2 Génération de variables aléatoires de loi de probabilité quelconque 17416.2.1 Génération par inversion de la loi de répartition . . . . . . 17416.2.2 Génération par changement de variables . . . . . . . . . . 17416.2.3 Génération par convergence en loi . . . . . . . . . . . . . 175

xi

Page 13: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

16.2.4 Autres méthodes . . . . . . . . . . . . . . . . . . . . . . 175

Bibliographie 175

A Mesurabilité dans�

178

B La mesure et l’intégrale de Lebesgue-Stieltjes 182B.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183B.2 Un théorème fondamental d’extension . . . . . . . . . . . . . . . 184B.3 La construction de Caratheodory . . . . . . . . . . . . . . . . . . 185

B.3.1 Les mesures extérieures et le théorème d’extension de Ca-ratheodory . . . . . . . . . . . . . . . . . . . . . . . . . 185

B.3.2 Construction d’une mesure sur un anneau par extensiond’une mesure sur un semi-anneau . . . . . . . . . . . . . 188

B.3.3 Application à la preuve du théorème d’extension . . . . . 190B.4 La tribu et la mesure de Lebesgue-Stieltjes . . . . . . . . . . . . . 191B.5 L’intégrale de lebesgue-Stieltjes . . . . . . . . . . . . . . . . . . 193B.6 Le cas de la mesure de Lebesgue . . . . . . . . . . . . . . . . . . 194B.7 Complément . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

C Compléments sur la comparaison des intégrales de Riemann et de Le-besgue 197

D Probabilités conditionnelles 201D.1 Un résultat préliminaire . . . . . . . . . . . . . . . . . . . . . . . 203D.2 Conditionnement par rapport à un événement . . . . . . . . . . . 204

D.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 204D.3 Conditionnement par rapport à une tribu . . . . . . . . . . . . . . 210

D.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 210D.3.2 Propriétés de l’espérance conditionnelle . . . . . . . . . . 212D.3.3 L’espérance contitionnelle par rapport à une tribu est une

projection orthogonale . . . . . . . . . . . . . . . . . . . 214D.3.4 Théorèmes de convergence . . . . . . . . . . . . . . . . . 215

D.4 Conditionnement par rapport à une variable aléatoire . . . . . . . 217D.4.1 Conditionnement par rapport à une variable aléatoire dis-

crète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222D.4.2 Application aux variables aléatoires absolument continues 224D.4.3 Courbe de régression . . . . . . . . . . . . . . . . . . . . 228

xii

Page 14: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Table des figures

5.1 Intégration de Lebesgue-1 . . . . . . . . . . . . . . . . . . . . . 385.2 Intégration de Lebesgue-2 . . . . . . . . . . . . . . . . . . . . . 395.3 Intégration de Lebesgue-3 . . . . . . . . . . . . . . . . . . . . . 415.4 Intégration de Lebesgue-4 . . . . . . . . . . . . . . . . . . . . . 42

11.1 Distribution de la loi géométrique avec ��� �����. . . . . . . . . . 117

11.2 Distribution de la loi Binomiale avec ��� ����et � � �

. . . . . . 11811.3 Distribution de la loi de Poisson � � � ��� � . . . . . . . . . . . . . 11811.4 Distribution de la loi Uniforme ��� � ��� � ��� . . . . . . . . . . . . . . 12011.5 Distribution de la loi Normale : � �

��

��

et � ����� � �

. . . . . . . 12011.6 Distribution de la loi Log Normale : ��� � � , � � � et � � (trait

continue) ou�

. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12111.7 Distribution de la loi Exponentielle ! �"� � �

�. . . . . . . . . . . 122

11.8 Distribution de la loi du Chi-�

:�$# # �

. . . . . . . . . . . . . 12311.9 Distribution de la loi du Chi-

�: � �

. . . . . . . . . . . . . . . 12311.10Distribution de la loi du Chi-

�: &% �

. . . . . . . . . . . . . . . 12411.11Distribution de la loi Rayleigh : � �

� �'�(� � �. . . . . . . . . . . 126

11.12Distribution de la loi Gamma : ) �*���,+ �avec

� � � et+ � � �(�(�-�

. 12711.13Distribution de la loi de Cauchy : . � � �0/ � avec �1� �

et/ � �

���ou 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

11.14Distribution de la loi Beta : �43

��5 � � ��

et �

��

��

. . . . . . . . . 129

12.1 Nuage de points représentant 1000 réalisations d’un couple gaus-sien corrélées ( 76 � 78 � � et 9 � ���;:

) . . . . . . . . . . . . . . 142

13.1 Loi gaussienne bidimensionnelle avec <� � <� , =6 � � , >8 � � et9 � �

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15313.2 Contours correspondant à la figure 13.1 . . . . . . . . . . . . . . 153

xiii

Page 15: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

13.3 Loi gaussienne bidimensionnelle avec <� � <� , =6 � � , >8 � � et9 � ���;:

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15413.4 Contours correspondant à la figure 13.3 . . . . . . . . . . . . . . 15413.5 Loi gaussienne bidimensionnelle avec <� � <� , =6 � �

, >8 � � et9 � �

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15513.6 Contours correspondant à la figure 13.5 . . . . . . . . . . . . . . 15513.7 Loi gaussienne bidimensionnelle avec <� � <� , =6 � �

, >8 � � et9 � ���;:

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15613.8 Contours correspondant à la figure 13.7 . . . . . . . . . . . . . . 156

xiv

Page 16: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Liste des tableaux

1 Objectifs "être capable de". . . . . . . . . . . . . . . . . . . . . . ii2 Objectifs "être sensibilisé à". . . . . . . . . . . . . . . . . . . . . iii

12.1 Exemple de loi dont les lois marginales ne permettent pas de re-trouver la loi conjointe . . . . . . . . . . . . . . . . . . . . . . . 134

xv

Page 17: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 1

Espace probabilisable et Espaceprobabilisé

1.1 Idées fondamentales sur les espaces de probabi-lité

Le but de ce paragraphe est d’introduire le concept d’espace probabilisable.En théorie générale de la mesure et de l’intégration, on parle d’espece mesurable,mais les deux notions sont totalement identiques, comme nous le verrons.

Une expérience de physique est toujours assujettie à des conditions expéri-mentales. Ces conditions expérimentales limitent les expériences que l’on peutréaliser. Pour un jeu de conditions expérimentales données, on parlera donc d’ex-périence possible ou, de manière abrégée, de possible, par contraste avec toutesles expériences qui sont impossibles relativement à ces mêmes conditions.

Prenons un exemple classique qui servira de fil conducteur dans la suite. Sup-posons que nous disposions d’un dé à six faces. Lancer ce dé et noter le chiffre surla face supérieure de ce dé est évidemment une expérience possible relativementaux conditions expérimentales que nous nous sommes données. Une expériencequi n’est pas possible sous cette condition expérimentale serait celle consistant àjeter deux dés à

�faces en même temps puisque nous ne disposons que d’un seul

dé.Soit maintenant une expérience possible. Une réalisation de cette expérience

est appelée une épreuve. Le résultat de cette épreuve est aléatoire. Le but d’uneépreuve est d’observer la réalisation (ou la non-réalisation) d’un événementdonné. Un événement peut être observable lors de la réalisation d’une expérience

1

Page 18: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

possible ; d’autres événements ne seront pas observables. Ainsi, si nous considé-rons de nouveau notre expérience consistant à jeter un dé à

�faces et à noter le

chiffre qui apparaît sur la face supérieure, les événements

le numéro sortant est le � ,le numéro sortant est le

�,�'�(�

,le numéro sortant est le

�,

sont trivialement des événements observables (ou observables, en abrégé). Parcontre, l’événement le numéro sortant est le

�n’est pas un obervable.

Si nous posons� � �

��,� � 2 � � � � � ���

, nous voyons que chaque événement ob-servable que nous venons de citer correspond, de manière unique, à un singleton�

. Mais les événements observables pour cette expérience ne se limitent pas àceux que nous venons de citer. Un événement observable est par exemple Le nu-méro sortant n’est pas le � , qui correspond à la négation logique de l’événementLe numéro sortant est le � , soit encore au sous-ensemble

� � � 2 � � � ��� de�

, c’est-à-dire le complémentaire de

�� � dans

�.

Un autre événement que l’on peut considérer est Le numéro sortant est pair.Cet événement corrrespond au sous-ensemble

� � � � � � � � ���de

�, c’est-à-dire,

trivialement, à l’union des trois singletons� � �

,� � � , � ���

ou, de manière équiva-lente, au "OU" logique ( � )

Le numéro sortant est le�

�Le numéro sortant est le �

�Le numéro sortant est le

�.

Un autre événement observable est Le numéro sortant est un multiple de 2 autreque � , qui correspond au sous-ensemble

� ��� � 2 � ���de

�. Là encore, cet événe-

ment correspond au "OU" logique

Le numéro sortant est le 2�

Le numéro sortant est le�

Nous pouvons alors considérer l’événement Le numéro sortant est pair et multiplede 2 , ce qui correspond au singleton

� ���, mais aussi au "ET" logique ( � )

Le numéro sortant est pair�

Le numéro sortant est un multiple de 2 autre que �

2

Page 19: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Cet événement correspond aussi à l’intersection� � � � � .

Ces quelques exemples nous conduisent à munir l’ensemble des événementsobservables d’une structure logique qui obéit à des conditions de stabilité par rap-port aux opérations logiques fondamentales � , � et la négation. En théorie desprobabilités, on préfère l’interprétation ensembliste des événements telle que nousl’avons proposé sur notre exemple de base. Chaque événement observable à l’is-sue d’un possible sera identifié à une partie d’un ensemble

�. Soit alors l’ensemble

de ces observables. Cet ensemble sera alors identifié à un ensemble d’ensemblespuisque chaque observable est lui-même une partie de

�. On préfèrera parler de la

collection des observables. Conformément aux remarques précédentes, l’axioma-tique de la théorie des probabilités consiste à munir cette collection de conditionsde stabilité par rapport aux opérations fondamentales sur les ensembles que sontl’union ( � ), l’intersection (

�) et le complémentaire.

Ainsi, si � est un événement observable, nous ferons l’hypothèse que ��� estaussi un événement observable. Si � et � sont deux événements observables,����� et � � � seront eux-aussi des événements observables. Si

dénote la collec-

tion des événements observables, une axiomatique permettant de rendre comptedes remarques précédentes consiste donc à supposer que

est stable par complé-

mentarité, union et intersection finie.Les jeux de hasard tels que celui de pile ou face, les jeux de dés, de cartes ou

la loterie fournissent des exemples d’expériences aléatoires pour lesquelles�

estfini. Il nous faudra cependant aller un peu plus loin car l’expérience qui consisteà observer le nombre d’appels passant par un central téléphonique par jour, fourniun ensemble

�infini dénombrable (

� �� ).Pour tout

+� � , l’événement observable "le nombre d’appels est+

" seraidentifié au singleton

� + �. L’événement "le centre de réception a recu plus d’un

appel" se doit d’être observable car c’est le moins que l’on puisse attendre del’application de la théorie à l’exemple utilisé. Cet événement sera identifié à l’en-semble � qui est une union dénombrable, certes, mais infinie, de singletons

� + �.

Nous sommes donc obligés d’introduire une condition de stabilité par rapportaux unions dénombrables. Si � � , + � �

��� � �(�'�, est une séquence d’événements

observables, nous ferons donc l’hypothèse que ������ � ��� est aussi un événementobservable. Autrement dit, en reprenant les notations précédemment introduites,on demandera à

d’être stable par union dénombrable (et donc par intersection

dénombrable).Rajoutons à ceci que l’ensemble

�sera considéré comme un cas trivial d’ob-

servable et nous obtenons une définition axiomatique des observables associésà une expérience possible. C’est une collection

de sous-ensembles de

�qui

3

Page 20: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

contient�

et qui est stable par complémentarité et union dénombrable. Nous ve-nons de définir la notion de tribu (ou -algèbre dans la littérature anglo-saxonne)qui est si fondamentale en théorie des probabilités mais aussi en théorie de la me-sure.

Nous voyons donc émerger une structure mathématique commode pour dé-crire les événements observables à partir d’un ensemble

�. Il faut cependant gar-

der à l’esprit que toutes les parties de�

ne sont pas nécessairement observables,même si l’ensemble des parties de

�est effectivement une tribu. Parce que l’en-

semble des parties de�

est une tribu, on appellera événement tout sous-ensemblede

�. Mais certains de ces événements, répétons-le, seront observables pour une

expérience possible (ils seront membres d’une tribu adaptée à l’expérience quel’on réalise), d’autres non. Par exemple, pour notre passionnant jeu de dé, nouspourrions très bien choisir

� � ����� � �(�(�

�� �

pour décrire l’expérience en limitantles observables à l’ensemble des parties du sous-ensemble

����� � �(�'� � ���

. L’événe-ment

� � � ���ne serait pas observable. Evidemment, choisir cet ensemble

�pour

décrire notre jeu de dé n’est pas bien malin. Par contre, supposons que nous dis-posions aussi d’un dé à 12 faces. Cet espace

�nous permet donc de décrire tout

aussi bien le jeu de dé à�

faces (en se limitant à la tribu des observables adéquate)que le jeu de dé à �

�faces (en prenant comme tribu des événements l’ensemble

des parties de�

). Cet exemple trivial montre aussi, et ceci est particulièrement si-gnificatif, que le choix de la tribu est conditionné par l’expérience possible. Cettenotion recevra un traitement mathématique particulier dans la suite.

Pour finir avec cette introduction des idées fondamentales en théorie des pro-babilités, mentionnons deux conventions de langage et deux éléments supplémen-taires de terminologie.

Même si certains événements sont observables et d’autres non, l’usage veutqu’on omette le qualificatif d’observable pour les éléments de la tribu des obser-vables. Ceci est un abus de langage fort acceptable car ce sont ces événements quinous intéressent et non les événements non observables.

Lorsque�

est fini ou dénombrable, les singletons��� �

,� �

, sont générale-ment des événements observables (mais ce n’est pas forcément vrai, nous l’avonsvu). D’où l’usage d’appeler événement élémentaire (ou éventualité) tout élémentde

�.

L’ensemble�

est appelé l’événement certain tandis que l’ensemble vide estl’événement impossible .

4

Page 21: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

1.2 Espace probabilisable ou mesurable

De manière générale, on part d’un ensemble arbitraire�

dont les éléments�

sont appelés les événements élémentaires. Par toutes les opérations introduitesprécédemment, nous construisons une famille

d’événements (observables).

Cette famille est appelée une tribu , ou -algèbre.

Définition 1 Soit�

un ensemble,

un ensemble de parties de�

. On dit que

est une tribu de�

si elle contient�

et si elle est stable pour les opérations decomplémentation et de réunion dénombrable, soit :

1.�

2. � � � � �

3.� � � � ��� � � � � � �� � � � �

Le couple� ��� �

définit un espace probabilisable (ou mesurable). On peut véri-fier que la tribu des événements

est aussi stable pour l’opération d’intersection

dénombrable.

Exemples de tribus : La collection � ��� � � �

est la plus petite tribu possible.La collection

� � � � �des parties de

�est aussi une tribu et c’est même la

plus grosse possible. De fait, pour tout sous-ensemble de�

, il existe au moins unetribu qui contient ce sous-ensemble, en l’occurrence � � � �

. Comme il est facile devérifier que l’intersection d’une famille quelconque de tribus est aussi une tribu,la définition suivante a donc un sens.

Définition 2 On appelle tribu engendrée par une classe de parties � de�

la pluspetite tribu contenant � , c’est-à-dire l’intersection de toutes les tribus contenant� . La tribu engendrée par � est notée � � �

.

Il est à noter que l’on peut très bien avoir � � � � ��� � pour deux collectionsdifférentes � et

�de sous-ensembles de

�. Par exemple, si � � ��� �

et � ���� � � où

�� �, � � � � ��� � . En effet, la tribu engendrée par � � ��� �

est � � � � ��� � ��� � � � � � .Définition 3 Soit

����� �un espace probabilisable,

�dénombrable. On dit que la

famille� �� � ��� est un système complet de constituants pour

si et seulement si :

a) � ��� ��� � � � ������ � � �� � ��� � �

b) � � �������� � � � � �� "! ��5

Page 22: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

En particulier,� � � ��� �� .

Définition 4 Un événement � est élémentaire si et seulement si � �

� � � � � � ou � � � � �.

Théorème 1 Soit� �����

un espace probabilisable, tel que�

soit dénombrable.Alors

admet un système complet de constituants formé d’événements élémen-

taires.

Nous aurons l’occasion de rencontrer aussi la tribu trace d’une tribu. Cettetribu trace est définie comme suit.

Soit����� �

un espace probabilisable et� � � �

. Noter qu’on ne requiert pasque le sous-ensemble

� � soit mesurable. Posons

� ��� � � � � � ��� � �(1.1)

Cette collection d’ensembles est une tribu sur�

. Nous laissons au lecteur le soinde le montrer. Ce n’est vraiment pas difficile. Notons seulement que la stabilitépar complémentarité concerne la complémentarité dans

� � et non dans�

. Onpose alors la définition suivante.

Définition 5 Soit� �����

un espace probabilisable et� � � �

. On appelle tributrace de

sur

� � , la collection d’ensembles définie par (1.1).

1.3 Tribu des boréliens de�

La tribu borélienne (ou de Borel ou des boréliens) d’un espace topologique estla tribu engendrée par l’ensemble des ouverts de cet espace. Dans ce cours, nousaurons particulièrement besoin de la tribu borélienne de

�et de celle

� �pour

traiter nombre de cas où l’espace�

est non dénombrable. Expliquons ceci par unexemple particulier.

Considérons le jeu de fléchette avec une cible circulaire. Si l’on admet que lepoint d’impact est localisé de manière aléatoire, nous pouvons considérer que lesévénements élémentaires sont représentsés par des points mathématiques � situésà l’intérieur d’un cercle de rayon � . Les événements possibles sont égalementdes ensembles de points à l’intérieur du cercle. Soit un domaine quelconqueet soit � � � l’ensemble des points � de la cible appartenant à . On suppose

6

Page 23: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

que le point � est uniformément distribué, ce qui signifie que la probabilité del’événement � est : � � � � �

�� �

où�

est la surface du domaine . Ceci prouve que tout événement élémentairea une probabilité nulle puisque la surface associée à un point est nulle. Ainsi,tout événement élémentaire est un événement de probabilité nulle, ce qui n’etaitpas le cas pour le jeu de dés où l’ensemble

�était un ensemble fini. Ainsi dans

le cas continu, le calcul de la probabilité d’un événement arbitraire nécessite desméthodes mathématiques plus avancées qui vont reposer sur la notion de boréliensde�

.

Définition 6 La tribu borélienne de�

est la tribu engendrée par la famille desouverts de

�. Cette tribu sera notée

� � �. Un élément de cette tribu sera appelée

un borélien ou une partie borélienne de�

.

Les propositions suivantes résument les propriétes essentielles de cette tribu.

Proposition 1 Tout intervalle (ouvert, fermé ou semi-ouvert) de�

est un élémentde

� � �. Il en va de même pour toute réunion finie ou dénombrable d’intervalles.

La démonstration repose sur le fait que tout intervalle fermé��� ��� � peut s’écrire

sous la forme��� ��� � � � � � � 3

��5 ��� ��5 � , que tout intervalle��� ��� �

est égal à� � � � � 5 ��� � et que tout intervalle � � ��� � est la réunion dénombrable � � � � ��� 3 ��5 � .Proposition 2 La tribu des boréliens de

�est aussi la tribu engendrée par cha-

cune des familles suivantes :(i) � � � � � 3�� �� � � � �(ii) � � � � �43�� �� � � �� �(iii)

� � � � �43�� �� � � � �(iv)

� � � � � 3�� �� � � �� �(v) � � � � � ���� � � � �(vi) � � � � � ���� � � �� �(vii) � � � � �� ���� � � � �(viii) � � � � �� ���� � � �� �

On a donc�� � � � � �� � � ��� � � � � � � � � � � � � �

�,� �La tribu des boréliens n’est pas dnombrable. Elle a en fait la puissance du

continu : il existe une bijection entre�

et � � �

.

7

Page 24: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

1.4 Tribu des boréliens de�

La tribu des boréliens de���

se définit de manière analogue à celle de�

.

Définition 7 La tribu borélienne de���

, notée�� ��� �

, est la tribu engendrée parla famille des rectangles ouverts ou pavés ouverts � � ��� � ��� � � � ��� � � � ��� � � .

Nous le verrons un peu plus loin : la tribu borélienne de� �

n’est pas la ����puissance cartésienne de la tribu des boréliens de

�.

Proposition 3 On démontre que la tribu � � � �

est la tribu engendrée par laclasse des rectangles de la forme

� � ��� � � 3 � �� � où les sont réels.

1.5 La tribu des boréliens de la droite réelle étendue

Les détails des résultats donnés ci-dessous sont donnés à l’annexe A.

La topologie usuelle de�

est��� � ��� � � � � �� % � � � 3� �� � � �� � �

et comme nous l’avons dit plus haut, la tribu des boréliens de�

est celle engendréepar les ouverts de cette topologie usuelle.

Pour définir une tribu commode sur�

, on procède de manière analogue. Oncommence par se donner une topologie, dite usuelle, sur

�, puis on appelle tribu

de�

, la tribu engendrée par les ouverts de�

au sens de cette topologie usuelle.Les détails de cette construction sont donnés à l’annexe A. Le résultat le plusimportant est la propostion suivante.

Proposition 4 La tribu des boréliens de�

, notée�� ���

est engendrée par l’unequelconque des collections suivantes :

. � � � � 3�� ��� � � � � � �. � � � � 3�� ��� � � � � � �.�� � � � � ��� � � � � � �.�� � � � � ��� � � � � �

On a donc �� ��� � � . � � � � �� � �

Exercice 1 Montrer que la tribu trace de�� � �

sur�

est exactement la tribu desboréliens

� � �.

8

Page 25: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

1.6 Mesure positive

Définition 8 Soit����� �

un espace probabilisable. Une application� � �

� � �� � � est une mesure positive si pour toute suite dénombrable d’événements� � � � � � � mutuellement disjoints (ou incompatibles, � � � � � � � � � �� �), on a :

�� � ��� � �� ��� � � ��

� � �� � � � � (1.2)

Cette propriété est la propriété dîte de -additivité . Le triplet������� ���

est appeléespace mesuré.

De cette définition, nous pouvons déduire les quelques propriétés suivantes :

1.� � � � � �

2. Soit� � � � ��� ��� une suite d’événements de

. Alors :

�� �� � �� � ��� �

� � �� � � � �

Si les événements � � sont de plus mutuellement disjoints, l’inégalité de-vient une égalité :

�� �� � �� � � � �

� � �� � � � �

3. � � � � � � � � � � � � � �4. soit

� � � � ��� � une suite croissante d’événements (au sens de l’inclusion) etsoit � � � � � . Alors la suite

� � � � � ��� � est croissante et converge vers� � � � quand � �.

5. soit� � � � � � � une suite décroissante d’événements telle que

� � � � � # �.

Soit � ��� � � . Alors la suite� � � � � � � � est décroissante et converge vers� � � � quand 3 � �

.

Exemples de mesures :

– La mesure nulle est celle qui vaut�

pour tout événement.– La mesure infinie est celle qui vaut

�pour tout événement qui n’est pas

vide et zéro pour l’ensemble vide.

9

Page 26: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

– La mesure de Dirac en un point� � de

�est notée � � � et vaut

� � � � � � ��

� si� � ��

sinon(1.3)

pour � .

– La mesure de comptage est celle qui associe à un événement son cardinal.

Définition 9 Soit� ��� �����

un espace mesuré. La mesure�

est dite bornée si� ��� � # �.

Une conséquence immédiate de cette définition est que, dans ce cas, la mesure detout événement de la tribu

est finie.

1.7 La mesure de Lebesgue

Nous définissons maintenant la mesure qui est la plus importante en analyse eten probabilités. C’est la mesure de Lebesgue qui mesure la longueur dans le casde�

, la surface dans le cas de� �

, le volume dans� � et qui se définit dans tout

� �, �� � .

Commençons par�

muni de sa tribu des boréliens�� � �

. La longueur desintervalles est usuelle :

� � � � � � 3 �que � égale

��� ��� � , ��� ��� � , � � ��� � ou � � ��� � � (1.4)

On peut montrer, et ce n’est pas si simple qu’il n’y paraît, que� � � � ��

��� � � � dès que les � � sont des intervalles deux à deux disjoints dont l’unionest encore un intervalle. Ceci ressemble à la propriété de -additivité mais il fautencore travailler car l’ensemble des boréliens de

�ne se limite pas à l’ensemble

des intervalles ouverts, fermés ou semi-ouverts. Avec beaucoup de sueur, on arriveà montrer le théorème suivant.

Théorème 2 Il existe une et une seule mesure positive�

sur� � � � ��� �

qui vérifie(1.4). La mesure de Lebesgue est définie comme étant cette unique mesure positive.

Ce résultat est un des plus difficiles à montrer. Nous omettrons donc sa dé-monstration mais le lecteur intéressé peut se reporter à l’annexe B qui présente

10

Page 27: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

une synthèse de la la construction de la mesure de Lebesgue-Stieltjes. Le théo-rème précédent est un cas particulier de cette construction.

La difficulté majeure est l’existence de la mesure�

. C’est le théorème de pro-longement dont une version plus générale est donnée par le théorème 35 : onconnaît

�sur la classe des intervalles ouverts à gauche et fermés à droite ; cette

classe engendre bien la tribu des boréliens et la partie difficile est de montrer que�peut être prolongée à toute la tribu

� ���. Il est plus facile de montrer l’unicité.

En fait, la tribu des boréliens n’est pas la plus grande tribu sur laquelle onpeut définir la mesure de Lebesgue et cela apparaît dans la démonstration mêmedu résultat. Le prolongement qui assure l’existence de la mesure de Lebesgue sefait sur une tribu

� � � �plus grande que

� ���. Cette tribu est ce qu’on appelle

la "complétée" de � ���

. Nous reviendrons sur ce point un peu plus tard. Ce qu’ilfaut retenir pour l’instant est :

(a) Ladite tribu � � � �

est ce qu’on appelle la tribu de Lebesgue sur�

;(b) Même si, par abus de langage, la tribu de Lebesgue est souvent confon-

due avec la tribu des boréliens pour des raisons que nous expliciterons auchapitre 6, la tribu des boréliens est strictement incluse dans la tribu deLebesgue.

Voici quelques propriétés simples de la mesure de Lebesgue :– La mesure de Lebesgue est invariante par translation et c’est d’ailleurs la

seule mesure sur�

qui vérifie cette propriété.– La mesure de Lebesgue des singletons est nulle.– Tout ensemble fini ou dénombrable est un borélien de mesure nulle.– Considérons un intervalle � � ��� ��� � non vide. Cet intervalle est évidem-

ment l’union infinie mais non dénombrable des singletons� �

où � .

Cependant, on ne pourra pas écrire� � � � � � � � � � � � � � . Ceci pour deux

raisons. La première est que la mesure de chaque singleton est nulle de sorteque la seule valeur raisonnable que l’on pourrait donner à cette somme se-rait

�. La seconde raison est qu’on ne sait pas définir la somme d’une infi-

nité non dénombrable de termes. Ceci explique pourquoi la définition d’unetribu se limite à des unions au plus dénombrables et pourquoi, par consé-quent, la -additivité elle-aussi ne concerne que des réunions dénombrables.

Définissons maintenant la mesure de lebesgue de� �

, � � . En fait, c’estassez direct. Le "volume" d’un rectangle � � � � ��� � � � ��� � est

��� � � �

��

��� �� � 3 � � (1.5)

11

Page 28: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

et nous avons l’analogue du théorème 2 :

Théorème 3 Il existe une et une seule mesure�� sur

� � � � � � � � �qui vérifie

(1.5). cette unique mesure est la mesure de Lebesgue.

1.8 Définition d’une probabilité

La notion de mesure introduite plus haut nous permet de définir la notion deprobabilité.

Définition 10 Soit����� �

un espace probabilisable. Une probabilité�

est unemesure positive bornée sur

����� �telle que

� � � � � �

Nous pouvons donner une autre définition de la probabilité utilisable en pra-tique.

Définition 11 Soit� ��� �

un espace probabilisable. On appelle probabilité touteapplication

�de

����� �dans

�telle que :

1. � � �� � � � � � � ����

2.� ��� � � � (relation de normalisation)

3. Pour tout couple� � � � � d’événements disjoints de

,� � � � � � � � � � � � � � � (relation d’additivité)

4. Pour toute suite décroissante d’événements de

, notée� � � � convergeant

vers�, la suite

� � � � � � � est décroissante et converge vers�

(relation decontinuité)

Exercice 2 Montrer que les définitions 10 et 11 sont effectivement équivalentes.

Le triplet� ��� ���� �

est un espace mesuré, certes, mais étant muni d’une me-sure de probabilité, on préfère parler d’espace probabilisé.

Une probabilité est entièrement définie par la donnée des valeurs prises parchaque événement d’un système de constituants.

Pour construire une probabilité sur un espace probabilisable dénombrable, onpeut utiliser le théorème ci-dessous.

12

Page 29: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Théorème 4 Soit� ��� �

un espace probabilisable où�

est dénombrable. On sup-pose que

� �� � ��� est un système complet de constituants tel que� � �� ��� �� .

a) Si�

est une probabilité sur� ��� �

,�

est entièrement connue si on connaîtles

� � �� � .b) Réciproquement, soit une suite

� � � ��� de réels à valeurs dans� � �

��� telleque� ��� � � � . Alors il existe une unique probabilité

�sur

� ��� �véri-

fiant� � �� � � � .

1.9 Espace produit

Remarquons qu’à une expérience aléatoire répétée plusieurs fois correspondun espace

�produit. Le cas du jeu Pile ou Face répété une infinité de fois donne

comme événement élémentaire une suite ordonnée infinie de Piles et de Faces :� � � � � ��� � � � � � � � � � � � �(�(� �et� � � � � ��� � � � � � � � .

1.10 Exercice corrigé

Soit l’expérience aléatoire consistant à lancer une pièce jusqu’à l’apparitionde pile. Donner l’espace de probabilité

� ��� ���� �qui modélise cette expérience.

Réponse :� � � � � � � ��� � � � � ��� ��� � � � � �(�'� � � � ��� ��� � �(�'� � �

L’événement ”Pile n’apparaît jamais” est à considérer.�

est donc dénom-brable. La tribu

peut être choisi comme

� � ��� �. On obtient ainsi un espace

probabilisable. La probabilité�

, peut être choisi, comme :

� � � �� � � � �� où �� �

est le�-uplet

��� ��� � �(�'� ��� � � � . Pour l’événement élémentaire � ��

��� ��� � �(�(� �, on a

� � � � �� � � �

. On peut vérifier que�

est une probabilité (lapropriété de la 3 additivité et

� � � � � � ). On obtient ainsi un espace probabilisé.

Compléments : Boréliens d’un espace topologique

Le fait que et que puissent être munis de structures topologiques, dites usuelles,nous permet de rendre ces ensembles mesurables en considérant la tribu engendrée par les

13

Page 30: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

éléments de ces topologies. De là, à construire un espace mesurable à partir de tout espacetopologique, il n’y a qu’un pas. En fait, en théorie de l’intégration, on pose la définitiongénérale suivante.

Définition 12 Soit���������

un espace topologique. La tribu ���� des boréliens de cetespace topologique est la tribu engendrée par les éléments de

�:

����� ��� ���������

Exercice 3 Comment peut-on définir la tribu des boréliens de � , de � où ����� ?

14

Page 31: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 2

Calcul combinatoire des probabilités

2.1 Généralités

Dans ce chapitre, nous considérons des ensembles d’événements élémentaires�finis ou infinis dénombrables munis de la tribu constituée par toutes les parties

de�

: � � ��� �

. La donnée d’une probabilité�

sur����� �

est équivalente à ladonnée d’une famille finie ou infinie dénombrable

� � � ��� � � � � � �de nombres

compris entre 0 et 1 telle que� � � � � � ��� � � � � .

Dans le cas d’un�

fini, un exemple est la probabilité uniforme pour lequelchaque événement élémentaire a la même probabilité. On a alors :

� � ��� � � � �� � ��� � � � � (2.1)

et

� � � � �� � ��� � � �� � ��� � � � � Nb de cas favorable

Nb de cas possible�

(2.2)

Cette probabilité traduit mathématiquement l’expression "au hasard".

2.2 Rappels d’analyse combinatoire

Soit� � ��� � � � � � �'�(� � � � une population formée de � individus distincts.

Un échantillon de taille � extrait de cette population est une suite ordonnée� � �� � � � �(�(� � � ��� de � éléments de�

. Il faut distinguer deux manières de tirerun échantillon :

15

Page 32: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

– tirage avec remise :la suite

� � � � � � �'�(� � � � peut comporter plusieurs fois le même élément.On a

� � � �et

� � ��� ��� � � � � �(2.3)

– tirage sans remise : (� � � ),on a :

� � ��� � � � � � � � 3�� �(�'� � � 3 �

�� � � � � � �

� � 3 � � � (2.4)

Un tirage dans ce cas est un arrangement.On peut définir aussi les sous-populations de taille p (� � � ) de

�. C’est un

sous-ensemble de�

comportant � éléments distincts pour lequel l’ordre n’inter-vient plus. Le nombre de tels sous-ensembles est égal au nombre d’échantillonsde taille � , sans remise, divisé par � � qui est le nombre de bijections (on dit ausside permutations) d’un ensemble à � éléments. On a alors :

� � ��� ��� � � � � 5 � � � � �� � � � 3 � � � ��� � (2.5)

� � est appelé aussi le nombre de combinaisons de � éléments parmi � .

2.3 Exemple

Considérons le jeu de Bridge (jeu à 52 cartes). La distribution des cartesétant faite au hasard. "La main" d’un joueur est une sous-population de 13cartes. Le nombre de "main" possible est

� � ��� � � � � � � �� � . Soit l’événement� � �

le joueur a exactement 3 As�. On a :� � � � � �������

�� � ���� � � �� � � ����� ���� ��

� � � � .

2.4 Exercice corrigé

On lance successivement 3 dés distincts équilibrés.

1. Définir l’ensemble des événements élémentaires�

.

2. Quel est le nombre d’événements élémentaires (ou � � ��� � � � ) ?

16

Page 33: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

3. Soit � l’événement "obtenir le même résultat pour les trois dés". Calculer� � � � .4. Soit � l’événement "obtenir trois résultats différents". Calculer

� � � � .5. Soit � l’événement "au moins deux dés donnent le même résultat". Calculer� � � � .6. Soit l’événement "deux dés parmi les trois donnent le même résultat, le

troisième donnant un résultat différent". Calculer� � � .

Réponse :

1. L’ensemble�

est l’ensemble des triplets d’entiers définis par :

� � � � � ��� � ��� �� � � � ���

� � � � ���� � � � ��� �

2. Il y a� � � �

� �événements élémentaires ayant la même probabilité ��5 � � �

.

3. Pour obtenir l’événement � , il faut obtenir un triplet de la forme� � � � � � �

etsix situations différentes sont possibles. En conséquence, nous avons :

� � � � � � 5 � � � ��5 2 ���

4. L’événement obtenu lorsque les trois résultats sont différents. Ceci peuts’écrire sous la forme

� � ��� � ���avec

� ��� � �distincts. Choisissons tout d’abord�

: il y a six possibilités. Nous devons ensuite choisir�

tel que� �� �

, il ya ainsi 5 choix différents possibles. De même, pour

�, qui doit être différent

de�

et�, n’a que 4 choix possibles. Nous obtenons par conséquent :

� � � � � ���� � � 5 � � � � 5 :��

5. Remarquons que � � � � , et par suite :

� � � � � �3 � � � � � � �

3 � � � � � �3 � 5 : ��� 5 :

6. Les événements correspondants prennent la forme� � � � ��� �

ou� � ��� � � �

ou� � � � � � �, où

� �� �. Le nombre d’événements distincts de la forme

� � � � �����est évidemment

���� � 2 �. En conséquence, la probabilité de l’événement

vaut : � � � � : � 5 � � � � � 5 �� �

17

Page 34: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

On vérifie que� � � � � � � � � � � � � et il est évident que tout événement� � ��� ��� �

appartient à la réunion � � � � � �. Les événements � � � et

constituent une partition de�

. Si on prend comme tribu, l’ensemble � � � � �

,l’ensemble des parties de

�, on définit ainsi,

� ��� �, un espace probabilisable (dit

aussi mesurable). Muni de la probabilité uniforme�

(équiprobabilité entre lesévénements élémentaires), on obtient un espace probabilisé

� ��� ��� �.

18

Page 35: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 3

Probabilités conditionnelles etindépendance

3.1 Probabilités conditionnelles

3.1.1 Définition

Définition 13 Etant donné un espace probabilisé��������� �

et un événement � dede probabilité non nulle. La probabilité de l’événement � conditionnelllement

à l’événement � , notée� � � 5 � � , est définie par :

� � � 5 � � �� � � � � �� � � � (3.1)

Remarques :

1.� � � 5 � � se lit aussi "probabilité de � sachant � ".

2. Notez que l’on utilise également cette notion sous la forme :� � � � � � � � � � � � � � 5 � �

que l’on généralise à :� � � � � � � �(�(� � � � � � � � � � ��� � � � 5 � � � � � � � 5 � � � � � � �'�(� � � � � 5 � � � � � �(�(� � � � � � �

3. Nous pouvons aussi déduire ce que l’on appelle la règle de Bayes, écritesous la forme : � � � 5 � � �

� � � ��� � � 5 � �� � � �

19

Page 36: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Proposition 5 L’application :

� � � � 3 � � � ����

� � 3 � � � � � � ��� ���� � � � �

est une probabilité (sur� ��� �

).

3.1.2 Formule de Bayes

Soit� �� � une partition finie ou infinie de

�telle que pour tout

�,� � � � % �

.Une telle partition est caractérisée par :

�� � � � � �et � �� � �

(3.2)

On a alors pour tout événement arbitraire � :

� � � � � �

� � � � �� � � �

� � � 5 �� ��� � �� � (3.3)

Nous en déduisons la formule de Bayes :

� � �� 5 � � �� � � 5 �� ��� � �� �� � � � 5 �� ��� � �� � (3.4)

C’est une conséquence directe de la règle de Bayes.

3.2 Evénéments indépendants

3.2.1 Indépendance de deux événements

Définition 14 Soit� ��� ���� �

un espace probabilisé et A et B deux événements. Ondit que A et B sont stochastiquement indépendants si et seulement si :

� � � � � � � � � � ��� � � � (3.5)

Remarques :

1. Lorsque� � � � �� �

, A et B sont stochastiquement indépendants si et seule-ment si

� � � 5 � � � � � � � , ce qui signifie que la probabilité de � n’est pasmodifiée par la réalisation de � .

20

Page 37: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

2. La notion d’indépendance dépend de la probabilité�

. Deux événementspeuvent être indépendants pour une probabilité

� � et pas pour une autreprobabilité

� � .3. Un événement � de probabilité nulle est indépendant de n’importe quel

événement � de probabilité non nulle.

4. Si � et � sont indépendants alors � � et � sont indépendants (idem pour �et � � ou ( � � et � � )).

5. Si � et � sont indépendants alors :

� � � � � � � � � � � � � � � 3 � � � ��� � � � (3.6)

Exemple :Dans le cas du lancer d’un dé, considérons les deux événements � � �

�� � � ���

et � � � 2 � ��� . Pour la probabilité uniforme, � et � sont indépendants puisque :

� � � � � � � � � � ��� � � ��� � � � ��� � � � � 2

���

3.2.2 Indépendance d’une suite d’événements

Définition 15 Soit� �� � une suite (finie ou infinie) d’événements d’un espace pro-

babilisé� ��� ��� �

. On dit que la suite� � � est indépendante si et seulement si

pour toute suite finie� ���� � �� � �'�(� � ���� � extraite de la suite

� � � , on a :

�� ����� ����� � � ��

��� �� � ���� � (3.7)

Remarques :

1. Cette définition est équivalente à :

� � �� 5 ���� � �� � �(�(� � �� � � � � � �� �

pour tout indices��� � � � � �(�(� � � � � deux à deux distincts tels que� � � � ��� � ���� � % �

.

2. La suite� �� � est indépendante implique que la suite

� ��� � (où ��� désigne � ou � � ) est indépendante.

21

Page 38: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

3.2.3 Théorème de Borel-Cantelli

Soit� �� � une suite d’événements. L’événement “un nombre infini � d’évé-

nements a lieu” est appelé limite supérieure de la suite et est noté����� � . Dans le

même esprit, l’événement “seul un nombre fini d’événements � a lieu” est appelélimite inférieure de la suite et est noté

����� � .On peut écrire :

����� �� � � � �� � � � � � � � ������� �� � � � �� � � � � � � � ��

Ces deux événements étant introduits, nous pouvons énoncer le théorème deBorel-Cantelli. Ce théorème est utilisé pour démontrer la convergence presquesûre d’une suite d’événements (cf. section ??).

Théorème 5 (Théorème de Borel-Cantelli)

1. Si une suite d’événements� � � � � est telle que

� � � �� � # �, alors� � ����� �� � � �

.

2. Si une suite d’événements indépendants� � � � � est telle que

� � � �� � � �

, alors� � ����� �� � � � .

3.3 Indépendance de tribus

Pour terminer ce chapitre, nous noterons que l’indépendance s’étend aux tri-bus :

Définition 16 Soit� ��� ��� �

un espace probabilisé. Une suite�� � de sous tribu

de� �

est dite indépendante si et seulement si pour toute suite d’événements� � � ,

telle que �� , est indépendante.

3.4 Exercice corrigé

Dans une population,���

des individus sont contaminés par un virus. On dis-pose d’un test de dépistage qui présente les propriétés suivantes : Parmi les indivi-dus contaminés, le test est positif à

: :��; Parmi les individus non contaminés, le

test est tout de même positif à 2 � (il y a donc des risques de mauvais diagnostic).

22

Page 39: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

1. Quelle est la probabilité, que le test appliqué à un individu pris au hasardsoit positif ?

2. Sachant, pour un individu donné, le test est positif, quelle est la probabilitéque cet individu soit contaminé ?

3. Calculer les probabilités intéressantes pour ce problème et en déduire lesremarques de bon sens que cela vous inspire.

Eléménts de correction de l’exercice :

Définissons les événements dans notre population�

.� � "le test est positif",� � "l’individu est contaminé",Les données de l’énoncé s’interprétent en disant que :� � � � � ���

,� ��� 5 � � � : :��,� ��� 5 � � � � 2 � .

1. On a� ����� � � ��� 5 � ��� � � � � ��� 5 � � ��� � � � � � : � ���

.Le fait qu’il y ait beaucoup de gens bien portant fragilise la fiabilité du test.

2.

� � � 5 ��� � � � � � ���� �����

� � ��� 5 � ��� � � �� �����

� � � �Un tiers (

� ���) des personnes qui ont fait virer le test ne sont pas contaminés.

Il est difficile de faire un test fiable quand la maladie est rare.

3. On peut s’amuser à calculer d’autres probabilités non demandées parl’énoncé.

� � � � 5 � � � � � � � � � � � �� ��� � �� � ��� � 5 � � � � � � � �� ��� � �� : : � : � �

23

Page 40: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Il est aussi interessant de se poser la question des malades non dépistés parle test.

� � � 5 � � � � � � � � � � �� ��� � �� � ��� ��5 � ��� � � �

� ��� � �� � � � ���Peu de personnes contaminées ne seront pas dépistées par le test. Faire lestests dans les populations exposées au virus est une bonne stratégie de poli-tique de santé publique.

24

Page 41: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 4

Variables aléatoires (réelles etgénéralisées)

Dans de nombreuses expériences physiques ou dans des problèmes de trai-tement du signal il est nécessaire d’associer une valeur numérique aux résul-tats d’une épreuve expérimentale. Dans le cas du lancer d’une pièce on pourrapar exemple décider d’associer

� à l’événement élémentaire

� � Pile et3

� à� � Face.Nous devons donc savoir comment associer une valeur numérique à chaque

élément�

de l’ensemble�

et introduire des applications� � � � �

prenant desvaleurs réelles. Les notions d’application mesurable, de variable aléatoire et devariable aléatoire généralisée permettent de poursuivre dans cette voie de façonsatisfaisante.

Avant de continuer, donnons quelques précisions d’ordre terminologique. Parfonction

� ��� � � , nous entendons une correspondance entre � et � pourlaquelle tout élément de � a au plus une image dans � . Par application, nousentendons une fonction pour laquelle tout élément de � a une image et une seuledans � .

Cette terminologie n’est pas exactement celle utilisée dans la littérature anglo-saxonne. Les termes "function" et "application" se rencontrent dans cette litté-rature avec le sens que nous venons de donner. En général, cependant, le terme"map" ou "mapping" est utilisé dans le sens d’application. Le terme de "function"est alors souvent employé pour désigner une application à valeurs dans

�,�

, voire�

. Attention donc lors de la lecture d’articles et d’ouvrages.

25

Page 42: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

4.1 Applications mesurables

Définition 17 Soient� � � � � � et

� � � � � � deux espaces probabilisables. Soit�

une application de� � dans

� � , �est une application mesurable de

� � � � � � dans��� � � � � si l’image réciproque de tout sous-ensemble mesurable de� � (id est, tout

élément de � ) est un sous-ensemble mesurable de

� � (id est, un élément de � ).

On rappelle que si � � est un sous-ensemble de� � (non nécessairement mesurable,

notons le), l’image réciproque� � ��� � � � est l’ensemble des éléments de

� � dontl’image par

�appartient à � � :

� � � � � � � � � � � � � � � � � � �� � � �

Ne pas confondre cette notation avec celle utilisée pour désigner la fonctionréciproque ou fonction inverse de

�lorsque cette fonction est bijective.

Si�

est mesurable,� � � � � � � appartient à

� pour tout � � � et on écritparfois

� � � � � � � � � ��� � � � � pour signifier que� � � � � � � est mesurable par

rapport aux tribus mises en jeu.

Lorsque� � � � �

et� � � � � avec � � � �

avec leurs tribus boréliennesrespectives

� � � �et � � � � respectives, une fonction mesurable de

� � � � � � � � �dans

� � � � � � � � � est appelée fonction borélienne.

Exemples : Avec les notations introduites précédemment :

1. Si� � est muni de la tribu � � � � � de toutes ses parties, toute application de� � dans

��� � � � � est mesurable.

2. Toute fonction constante de� � dans

� � est mesurable.

4.2 Variables aléatoires réelles et généralisées

La terminologie que nous utilisons est celle proposée dans [11], qui est uneréférence que nous utiliserons pour la présentation des processus aléatoires.

Définition 18 Soit����� �

un espace probabilisable.

(i) On appelle variable aléatoire réelle toute application mesurable de����� �

dans� � ��� ��� �

où � ���

désigne la tribu des boréliens de�

.

26

Page 43: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(ii) On appelle variable aléatoire généralisée toute application mesurable de����� �dans

� � � � � � �où

� � �désigne la tribu des boréliens de la droite étendue

�.

Remarques :

1. Dans la pratique, les variables aléatoires sont en général suffisantes pourtraiter les problèmes usuels. Nous introduisons les variables aléatoires gé-néralisées car celles-ci interviennent dans certains cas qui ne sont pas pa-thologiques mais qui jouent un rôle significatif.

2. La définition d’une variable aléatoire, qu’elle soit réelle ou généralisée, nedemande pas à ce que l’ensemble

�soit probabilisé ou non. Il faut quand

même que cet ensemble soit muni d’une tribu.

3. En général, on utilise les lettres majuscules� ��� ��� � �(�(�

pour désigner lesvariables aléatoires réelles ou généralisées.

4. Si � �� ���, l’image réciproque de � par une variable aléatoire

� ������ � � � � ��� ��� �est souvent notée

� � � � au lieu de� � ��� � � .

Il en va de même si � � � �et

� � � ����� � � � � � ��� �est une variable

aléatoire généralisée.

5. A titre d’exercice, le lecteur pourra montrer que si� �����

est un espaceprobabilisable, alors les trois propositions suivantes sont équivalentes :

(i) 1l�

est une variable aléatoire

(ii) � est un ensemble mesurable ( � )

(iii) 1l�

est une variable aléatoire généralisée

Ce résultat illustre la cohérence entre la notion de mesurabilité d’une fonc-tion et celle d’un ensemble.

Il est bon de garder à l’esprit les lemmes suivants, dont les démonstrationsaisées sont laissées au lecteur.

Lemme 1 Soit� �����

un espace probabilisable,� �

et � � � la tribu trace de

sur� � , c’est-à-dire la collection

� � � � � � � � � � � �. Soit � � �

ou�

et� � ��� � � �

l’espace mesurable correspondant.(a) Soit

� � ����� � � � � � � � � �une application mesurable.

(i) La restriction� � � � � ��� � � � � � � � � � � � � � �

de�

à� � définie, pour

tout� � � , par

� � � � � � � � � � � �, est mesurable par rapport aux tribus � � �

et � ��� .

27

Page 44: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(ii) L’application�

1l ��� � ����� � � �����

�� �

est mesurable par rapportaux tribus

����

et

.(b) Soit

� � � � � � � � � � � ��� �

�� �

une application mesurable. Pour tout� � , désignons par�� � � � � � l’extension de

�définie par

�� � �� � � � �

si� � � �� si� ��� � �

Alors�� � � � ����� � �

�� �

�� �

est mesurable par rapport aux tribus����

et

.

Lemme 2 Soit� �����

un espace probabilisable, � � �ou�

et�����

�� �

l’es-pace mesurable correspondant. Soit � �

� et� � � � � une application dont

l’image� ��� �

est incluse dans � :� � � � � � �

� .

En désignant par�� � � � � la tribu trace de

� � �sur � , l’application

� ������ � � � � � � � � �est mesurable par rapport aux tribus

� � � �et

si et seule-ment si l’application

� � � ��� � � � � ��� � � � � � est mesurable par rapport auxtribus

� � � � � et

.

En gardant les notations de ce lemme, celui-ci signifie en particulier que lamesurabilité de

� � ����� � � � � � � � � � � � entraîne celle de�

lorsqu’on�

estconsidérée comme une application à valeurs dans � qui contient � .

Aussi, une variable aléatoire réelle est un cas particulier de variable aléatoiregénéralisée. Une variable aléatoire réelle est aussi un cas particulier de variablealéatoire complexe.

De même une variable aléatoire généralisée positive, c’est-à-dire une variablealéatoire

� � ����� � � � � � ��� � � � � � ��� � � � peut être considérée comme une va-riable aléatoire généralisée.

� � � ��� � � � � � � � � �et une variable aléatoire

réelle positive� � � ��� � � � � � ��� � � � � � ��� � � �

est aussi un cas particulier devariable aléatoire et de variable aléatoire généralisée positive.

4.3 Critères de mesurabilité

Le premier critère que nous énonçons ci-dessous est celui que l’on présenteclassiquement en théorie de la mesure et de l’intégration. Il n’est ni plus simple,ni plus compliqué que ses applications aux variables aléatoires réelles et générali-sées.

28

Page 45: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Proposition 6 Soit� � � � � � � où

��� � � � � et��� � � � � sont deux espaces pro-

babilisables. Soit�

une classe de parties de� � telle que

� � � � �. Pour que

soit mesurable, il faut et il suffit que� � ��� � � appartienne à

� pour tout élément� de

�.

Nous proposons au lecteur de prouver ce résultat sous forme d’exercice selonles étapes suivantes.

Exercice :

1. Montrer que la condition est nécessaire

2. Réciproquement, supposons que� � ��� � � � � � � ��� � � � � � �

est inclusdans

� et considérons

� � � � � � � � � � � � � � � � �(a) Montrer que

�est une tribu de

� �(b) Montrer que

� � �et en déduire que

� � �

(c) Conclure

Un critère fort utile dès que l’on considère des applications définies sur unespace vectoriel de dimension finie et à valeurs dans un autre espace vectoriel dedimension finie est le suivant.

Proposition 7 Toute application continue de� �

dans� � où � � � �

est bo-rélienne.

Nous passons maintenant au cas des variables aléatoires réelles grâce à la pro-position suivante qui est une application directe des propositions 6 et ??.

Proposition 8 Soit����� �

un espace probabilisable. Pour qu’une application� � � � �

soit une variable aléatoire, il faut et il suffit qu’elle vérifie l’unequelconque des conditions suivantes :

(i)� � � �

est un élement de

pour tout �

.

(ii)� � # �

est un élement de

pour tout �

.

29

Page 46: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Exercice 4 Avec les notations introduites ci-dessus, montrer que pour que� �� � �

soit une variable aléatoire, il faut et il suffit que l’une quelconque desconditions suivantes soient réalisées :

(iii)� � � �

est un élement de

pour tout �

.

(iv)� � % �

est un élement de

pour tout �

.

Exercice 5 Enoncer un critère de mesurabilité basé sur les intervalles��� ��� � ,

� � ��� � , ��� ��� � , � � ��� � , � ���� � .

Exercice 6 Soit� � � � �

. Montrer que�

est mesurable lorsque�

est munide la tribu

� � �si et seulement si l’une quelconque des conditions (i-iv) de la

proposition 8 et de l’exercice 4 est vérifiée.

Exercice 7 Montrer que l’on peut remplacer " �

" par " �

" dans lesénoncés des exercices précédents.

4.4 Propriétés élémentaires des applications mesu-rables et des variables aléatoires réelles

Les propriétés suivantes sont celles des applications mesurables et sont doncvalables pour les variables aléatoires puisque celles-ci sont les applicationes me-surables à valeurs dans

�muni de sa tribu des boréliens.

Proposition 9 Soient� � � ��� � � � � , ��� � � � � � � � et

��� � � ��� � � � trois espaces pro-babilisables. Si

�est une application mesurable de

� � � ��� � � � � dans� � � � ��� � � �

et�

une application mesurable de� � � ��� � � � � dans

��� � � ��� � � � , alors l’ap-plication composée

� � �est une application mesurable de

��� � � ��� � � � dans��� � � ��� � � � .

Proposition 10 Soient variables aléatoires réelles ( � �)

� � � � � � �(�'� � ��

définies sur le même espace probabilisable� ��� � � � �

et � � � � � ��� � � � � �� � � ��� � � � � ( � � �

) une fonction borélienne. L’application � � � � � �définie, pour chaque

� �, par � � � � � � � � � � � � � � � � � � � �(�'� � �

�� � � �

est alorsmesurable de

� ����� � � �dans

� � � ��� � � � � .

30

Page 47: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous engageons le lecteur à démontrer ce résultat à titre d’exercice. Pour cela,il devra utiliser les propositions 3, 8 et 9.

Ce résultat permet de construire énormément d’applications mesurables et devariables aléatoires. Il est particulièrement utilisé lorsque la fonction � ci-dessusest continue. Ainsi, si

� � � � � � �(�'� � �� sont des variables aléatoires, les applica-

tions suivantes

(i)� � � � � � � où les

� sont réels,

(ii)� � ��� � � � � � � où chaque

� est un entier relatif, non nul si� peut s’annuler,

(iii)� ��� � � � � � � � �(�(� � �

��

et ������ � � � � � � �'�(� � �

��

sont aussi des variables aléatoires réelles.

Exercice 8 Soient� � et

� � deux variables aléatoires réelles. Montrer que lesensembles

� � � � � � � , � � � # � � � et� � � � � � � sont mesurables. (Indication :

considérer l’application� � 3 � � ).

Exercice 9 Le rapport de deux variables aléatoires étant nul par conven-tion lorsque le numérateur et le dénominateur le sont simultanément, montrerqu’avece cette convention, le rapport 6 8 de deux variables aléatoires réelles estune variable aléatoire généralisée.

Cet exercice nous donne un premier exemple de l’importance des variablesaléatoires généralisées.

4.5 Limites de variables aléatoires

Soit� ���� � � une séquence à valeurs dans

�ou

�. Posons

� � ������

� � � � � � � � � �(�(� � pour+ � �

��� � �(�(�. Il est facile de voir que la séquence

� � � � � � �est décroissante. A ce titre, elle admet donc une limite dans

�qui peut donc être3��

. Posons/ � ���� � � � ��� � � �(�(� � � ����� �� �

� � . La valeur/

est appelée limitesupérieure de la séquence

� � � � � � � et l’on écrit

/ � ����������

� ����

ou encore / � ������

���

31

Page 48: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

La limite inférieure de la suite� ���� � � est définie de manière analogue. Si

on considère la suite� � � � �� � � � � � � � � � �(�(� � pour

+ � ���� � �(�(�

, la séquence� � � � � � � est croissante et admet donc une limite dans�

. On pose donc � ������

� � � � � � � �(�(� � � ����� �� �� � . La valeur � est appelée limite inférieure de la sé-

quence� � � � � � � et l’on écrit

� � ����� ��� �� �

���

ou encore� � �����

���

On peut remarquer que

����� � ��� �

�� � 3 �����

������ �

�43 ��� �

(4.1)

On montrera à titre d’exercice que pour que la suite� ������ � converge il faut

et il suffit que�����

����� � ��� � ����� ��� �

� ��� .

Ce que nous venons de rappeler pour les séquences de valeurs réelles peuts’appliquer à des séquences d’applications à valeurs dans

�ou à valeurs dans

�. Nous pouvons, en particulier, appliquer ces notions aux variables aléatoires

réelles et aux variables aléatoires généralisées. En effet, soit����� �

un espaceprobabilisable et

� ���� � � une séquence de variables aléatoires réelles ou géné-

ralisées. Nous pouvons alors définir�����

����� ��� (resp.

����� ��� ��

�� comme l’ap-

plication définie sur�

et à valeurs dans�

qui, à tout� �

, associe la valeur���������� �

��� � �

(resp.����� ��� �

�� � � �

), c’est-à-dire la limite supérieure (resp. lalimite inférieure) de la suite

� ��� � � �

� � � .Nous sommes obligés de considérer les applications

���������� �

�� et����� � ��

��� comme des applications à valeurs dans

�et non pas simplement dans

�pour la simple et bonne raison que les limites supérieures et inférieures d’une

séquence de réels, même si elles existent toujours, ne sont pas nécessairementfinies.

Proposition 11 Soit� ���� � � une séquence de variables aléatoires réelles ou gé-

néralisées.

(i) Les applications � ��� ��� et

� ���

�� sont des variables aléatoires généralisées.

(ii) Les applications�����

� ��� ��� et

����� � ���

�� sont des variables aléatoires gé-

néralisées.

32

Page 49: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(iii) Si la suite� ������ � converge simplement, sa limite est une variable aléatoire

généralisée.

Cette proposition nous montre, une fois de plus, que les variables aléatoiresgénéralisées ne sont pas curiosités pathologiques mais interviennent de manièrenaturelle dans la théorie.

Exercice 10 Soit� ������ � une suite de variables aléatoires réelles, montrer que

l’ensemble des� �

où la suite� ��� � � �

��� � converge est mesurable (utiliser lerésultat de l’exercice 8). En est-il de même si la séquence est une suite de variablesaléatoires généralisées ?

Compléments : variable aléatoire complexe

Soit� � � � un espace mesurable et ��� ��� � . Comment peut-on définir une notion

de mesurabilité pour � à partir de celle qui a été introduite précédemment ? C’est trèsfacile. Il suffit d’écrire � sous la forme � ��� � � ��� � � � � où

� � � ����� � � � � � � � sont les parties réelles et imaginaires respectives de � définies pour tout ��� � par :

� � � � � � � ��� � � � � � ����� � � � � � � ��� � � � � � �

et de dire que � est mesurable si� � � � et

� � � � sont mesurables. D’où la définitionsuivante.

Définition 19 Soit� � � � un espace mesurable. On dit que ��� ��� � est une variable

aléatoire complexe si les parties réelles et imaginaires de � sont des variables aléatoiresréelles.

33

Page 50: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 5

Intégration des variables aléatoiresréelles et généralisées (intégrale deLebesgue)

Soit� � ��� ��� � � �

une fonction intégrable au sens de Riemann où3�� # � #

� # �. Il est connu que la quantité

�� � �

� �

�� ��� � � �

représente la moyenne de cettefonction

�. De manière analogue, l’intégrale d’une variable aléatoire va repré-

senter la moyenne de cette variable aléatoire. On préfère alors parler d’espérance(mathématique) de la variable aléatoire concernée.

Toute la difficulté va être de définir cette intégrale de variables aléatoires en seservant uniquement de la structure de tribu dont est muni l’espace probabilisé etdes propriétés fondamentales de la probabilité (la -additivité en particulier).

Dans toute la suite de ce chapitre, nous nous plaçons dans le cas général d’unespace probabilisable (ou mesurable)

����� �muni d’une mesure

�, qui n’est pas

forcément une mesure de probabilité.Si nous présentons l’intégration dans ce cadre abstrait, c’est tout simplement

parce que la construction de l’intégrale par rapport à la mesure de Lebesgue sur�

ou par rapport à une mesure de probabilité n’est absolument pas plus simple quela théorie générale.

La construction de l’intégrale se fait usuellement en trois étapes :

1. On définit l’intégrale des variables aléatoires à valeurs dans� � ��� � , dites

variables aléatoires généralisées positives ;

2. On définit l’intégrale des variables aléatoires à valeurs dans�

en écrivantune telle variable aléatoire comme différence de deux variables aléatoires

34

Page 51: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

généralisées positives ;

3. On définit l’intégrale d’une variable aléatoire complexe en intégrant la par-tie réelle et la partie imaginaire de cette application à valeurs complexes quisont des variables aléatoires réelles, donc des cas particuliers de variablesaléatoires généralisées.

Dans la suite, nous nous intéressons principalement aux deux premièresétapes, la troisième étant présenté sous forme de compléments au cours à la finde ce chapitre.

5.1 La construction usuelle de l’intégrale des va-riables aléatoires réelles gnéralisées positives

Il est d’usage de construire l’intégrale des fonctions réelles positives en deuxsous-étapes. On commence par définir l’intégrale des variables aléatoires ditessimples parce qu’elles ne prennent qu’un nombre fini de valeurs dans

� � ��� � . L’in-tégrale d’une variable aléatoire réelle positive

�sera alors le supremum des inté-

grales de toutes les variables aléatoires simples qui minorent�

.

On part de la définition suivante :

Définition 20 Soit��������� �

un espace probabilisé. Une variables aléatoire gé-néralisée

� � � � � � ��� � est appelée fonction simple ou fonction étagée si ellene prend qu’un nombre fini de valeurs dans

� � ��� � . On notera�

l’ensemble de cesfonctions simples.

Soit� � � �

l’image de�

par�

. On peut donc écrire

� � �� ��� � �

�1l ��� � ��� � (5.1)

où, par convention,� � � � � � ��� � � � � � � � � �

et 1l � désigne la fonctionindicatrice d’un ensemble quelconque : 1l �

�� � � � si , 1l �

� � � �sinon.

Cette écriture, dite canonique, est unique car les ensembles� � � � �

formentune partition finie de

�. De plus, chacun de ces ensembles est mesurable puisque�

est mesurable, de sorte que� � � � � � � �

a un sens.Avec la convention

� � � � � � � � �, on définit l’intégrale des fonctions

simples comme suit.

35

Page 52: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Définition 21 Soit��������� �

un espace probabilisé. L’intégrale de toute fonctionsimple

� � � � ��� � � � 1l ��� � ��� par rapport à la mesure

�est la valeur réelle posi-

tive notée indifféremment� � � � ou

� � � � � � � � � � et définie par� � � � � �

� ��� � � � � � � � � � � � �

(5.2)

L’intégrale d’une fonction simple est donc une valeur de� � ��� � . Cette intégrale

possède des propriétés qui seront étendues plus loin (cf. théorème 9).

Lemme 3 Soit� ��� ����

un espace mesuré, � � �et

� � � � � ��� ��� � �� � � � ��� �

deux fonctions simples.

(i)� � �

implique que� � � � � �

.

(ii)� � � � � � � � � � �

(iii)� � � ��� � � � � � � � � � � � .

PREUVE: Les assertions (i) et (ii) sont immédiates. Nous nous contentons doncde démontrer (iii).

On pose� � �

� � � � � � 1l ��� � ��� et

� � �� ��� � �

� 1l ��� ��� � . Comme les en-sembles

� � � � �forment une partition finie de

�, on a

� � � � � � � � � � � ���� � � � � ��� �

�� � � � � � � � � � � � � �

Aussi, 1l ��� � ��� � � � 1l ��� � ��� 1l ��� ��� � de sorte que� � � � � � � 1l ��� � ��� 1l ��� ��� � . Par un

calcul analogue, on aura� � � � � � � 1l ��� � ��� 1l ��� ��� � . Nous en déduisons

� � � �� � �

� � � �1l ��� � ��� 1l ��� ��� � �

de sorte que� � � ��� � � � �

� � �� � � � � � � � � � � � � � � � � �

� �� � �

� � � � � � � � � � � � � � � �� � �

� � � � � � � � � � � � � � � �

36

Page 53: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Le premier terme du membre de droite est égal alors à�

�� � � � � � � � �

, c’est-à-dire

� � � � . Le second terme du membre de droite est égal à� � � � � � � � � � �

,c’est-à-dire

� � � � . D’où le résultat.

On passe alors à l’intégrale des fonctions mesurables à valeurs dans� � ��� �

grâce au lemme suivant.

Lemme 4 Toute variable aléatoire généralisée�

à valeurs dans� � ��� � est limite

simple d’une suite croissante� ���� � � de fonctions simples.

La démonstration de ce lemme est très simple. Soit�

une variable aléatoiregénéralisée à valeurs dans

� � ��� � , il suffit de poser

��� � � � � + 5 � � si �� � � � � � � # � � �� � et

+ � � ��� �(�(� � � � 3 �

si� � � � � (5.3)

On pose alors la définition suivante :

Définition 22 L’intégrale par rapport à�

de toute variable aléatoire générali-sée

� � � � � � ��� � est la valeur de� � ��� � , indifféremment notée

� � � � ou� � � � � � � � � � et définie par

�� � � � �����

� � � � � � � �et� � �

� �(5.4)

5.2 Une construction algorithmique de l’intégraledes variables aléatoires réelles gnéralisées posi-tives

La définition de l’intégrale d’une variable aléatoire généralisée positivecomme le supremum des intégrales de toutes les fonctions simples minorant cettevariable aléatoire ne constitue pas un moyen commode de calculer cette intégraleen pratique.

La construction que nous présentons dans cette section est, elle, plus algorith-mique car basée, dès le départ, sur une définition "numérique" de l’intégrale. Cetteprésentation est totalement équivalente à la précédente et se rencontre assez peudans la littérature. Elle est rapidement esquissée dans [21, Chapter I, page 14].

37

Page 54: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Comme le disent les auteurs, la définition que nous allons donner est "�(�(�

thebest to keep in mind when thinking intuitively" et "

�(�(�for technical purposes (that

is, proving theorem !) one makes a different definition (celle donnée au paragrapheprécédent) which can be shown to agree with this definition (celle que nous don-nons maintenant) after a lot of work.".

Intégrer une fonction positive selon l’approche de Riemann consiste à appro-cher la fonction considérée par une suite de fonctions en escalier ou étagées. Cettefaçon d’opérer est intimement liée aux propriétés de l’ensemble de départ. L’in-tégrale ainsi obtenue représente la surface située sous le graphe de la fonctionpositive.

Considérons maintenant les figures 5.1 et 5.2.

���������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������

������������������������������

��������

�������������������! #"�$�%�'&(���)�*�+ #"

&

, -

�.�/-0"

FIG. 5.1 – Intégration de Lebesgue-1

38

Page 55: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

��������������������

��������������������

������������

������������

���������������������������������������������

���������������������������������������������

���������������������������������������������

���������������������������������������������

��������������

��������������

�����������������������������������

�����������������������������������

� � � � � � � � � �

������������������������������

��������������������������������������������������

��������������������������������������������������

������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������

��������������������

��������������������

����������

����������

��������������������

&

,

� ����� � � �.� � &"!$#� � � &(�.� � � !"#� ����� � � �.� ���%!$#����� � � ������� � !"#� ����� � � �.� ���&!$#

�.�/-0"

-

FIG. 5.2 – Intégration de Lebesgue-2

Ici, on compte à l’envers par rapport à l’intégration de Riemann : on part devaleurs discrètes prises par la fonction et on mesure la "longueur" (dans le casconsidéré ici de

�) de l’ensemble des points où la fonction prend ces valeurs. On

voit tout de suite que pour compter ainsi, on a besoin uniquement d’une "mesure"sur l’ensemble de départ et pas de propriétés trop spécifiques de cet ensemble dedépart, qui est ici

�pour simplifier la présentation, mais qui pourrait être tout

ensemble mesurable. On voit aussi qu’il va falloir que les applications que l’onva intégrer soient mesurables pour que les images inverses soient elles-mêmes

39

Page 56: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

mesurables.

En augmentant le pas de discrétisation comme proposé dans les figures 5.1 et5.2, nous voyons aussi, que comme dans le cas de Riemann, nous approchons parapproximations successives l’aire située sous le graphe de la fonction. La défini-tion suivante, qui est celle adoptée dans [21, page 14], n’est que la transcriptionformelle des remarques intuitives qui précèdent.

Définition 23 (Intégration des variables aléatoires à valeurs dans� � ��� �

.)Soient

������� ���un espace mesuré et

� � � � � � une variable aléatoire.L’intégrale de

�par rapport à

�est la quantité notée indiféremment

� � � � ou� � � � � � � � � � et définie par :�� � � � � ���� � � � � � � � � � � # � �

�� ��� �(5.5)

Mais en fait, il existe une autre façon de faire le calcul. C’est celle présentéepar les figures 5.3 et 5.4.

Dans ces figures, l’aire située sous le graphe de la fonction est approchée àl’aide par empilement. Intuitivement, nous devrions donc avoir aussi�

� � � � ������� � �� ���� �

� ��� � # ��� $�(5.6)

Ce résultat peut effectivement se démontrer mais la démonstration n’est passimple. Nous la donnerons pas ici car le chemin est relativement long et tech-nique pour parvenir au résultat. Nous admettrons donc le résultat qui se retrouved’ailleurs à partir de la définition "universelle" donnée au paragraphe précédent.

En fait, pour arriver exactement au même point que là où nous en sommesavec l’approche classique, il nous faut

(a) étendre la définition aux variables aléatoires réelles positives à valeurs dans� � ��� � (section suivante)

(b) Montrer que la définition que nous venons de donner reste compatible de ladéfinition 22.

Le point� � �

fait l’objet de la sous-section suivante. On y verra d’ailleurs unejustification de la convention

� � � � � � � � �. Avant de traiter le point

� � �à

la section 5.2.3, nous aurons besoin d’un résultat intermédiaire, le théorème de laconvergence monotone, qui se trouve être un des résultats les plus importants dela théorie.

40

Page 57: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

������������������������������

���������������������������������������������

���������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

&

&

,

�$�%�'&(��� "��������������� "

�.� -0"

-

FIG. 5.3 – Intégration de Lebesgue-3

Exercice 11 Soit� ��� �����

un espace mesuré et� � ����� � � � � � � ��� �

unevariable aléatoire positive. On définit � � � �

par

�� � � � �� 3 �� pour tout

% �et � � � � �

.

1. Montrer que

� ���� �

� 1l� �� � ��� �� � �

41

Page 58: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

��������������������

��������������������

����������

����������

��������

��������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������

���������������������������

����������������������������������������������������

�������������������������

&

,

�$�%�'&(��� "

��������������� "� ����� � � �.� ! #

� ����� � � �.� ! #

� ����� � � �.� ! #

�.� -0"

-

FIG. 5.4 – Intégration de Lebesgue-4

2. Montrer que

� �� � ��3�� � � � �

� � �� � � � � # � �

�� ��� �

3. En déduire que �� � � � ����� � �� � ��3

�� � � �

42

Page 59: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

5.2.1 Intégration des applications à valeurs sur la demi droiteréelle étendue

Examinons maintenant comment nous pouvons intégrer une variable aléatoiregénéralisée positive

� � � � � � ��� � . Nous allons procéder de manière à justifierla convention courante

� � � � � � � � �.

Pour tout � � ,

� � �1l ��� �"6 � � � 1l �"6 � � � �

De fait, pour pouvoir espérer que l’intégrale de�

par rapport à la mesure�

soitune opération croissante et linéaire avec la ou les fonctions à intégrer, il faut choi-sir une définition de l’intégrale de

�telle que cette intégrale soit supérieure ou

égale à� �

1l ��� �"6 � � � � � � 1l �"6 � � � � � pour tout entier non nul . Or, l’intégralede 1l �"6 � � � est � � � � � � � �

. 1

Nous voulons donc que l’intégrale de�

soit supérieure ou égale à� �1l ��� �"6 � � � � � � � � � � � � �

pour tout � � .

Si� � � � � � � � � �

, nous définirons l’intégrale de�

comme étant en faitl’intégrale de

�1l �"6 � � � . En d’autres termes, lorsque

� � � � � � � � � �, l’en-

semble� � � � �

ne compte pas pour intégrer�

et, parce que sa mesure estnulle, nous dirons que l’ensemble

� � � � �est négligeable.

Si� � � � � � � � �� �

, alors������ � � � � � � � � � �

et nous n’avons d’autre

choix que de considérer l’intégrale de�

par rapport à la mesure�

comme infinie.

C’est pour cette raison que l’on introduit la convention� � � � � � � � �

et que nous définissons l’intégrale de� � � � � � ��� � par

�� � � � �

�1l ��� �"6 � � � � � � � � � � � � � �

(5.7)

1Il suffit en effet de remarquer que

� ������ � � ����� 1l �� ���������� �"�� � ����

��� ���� � � �%� ��� �* �"� � � �!� � �#" &#"%� ��� ���$� "&%

de sorte que ')(+* �-, � � � �.� 1l /� �0� "1�2� � ���#�3� � " .

43

Page 60: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

D’après (5.5), nous pouvons encore écrire�

� � � � � ��� � � � ��� � � � � � � # � � �� ��� � � � � � � � � � � �

Pour finir, nous allons montrer que l’égalité (5.6) définit aussi l’intégrale de� � � � � � ��� � . En effet, nous avons

�� ��� � �

� ��� �� # ��� � �� ��� � �

� � � �� # �1l ��� �"6 � � � � �� � � � � � � � �

de sorte que

�� �� � �

� ��� �� # ��� � �� �� � �

� � � �� # �1l ��� �"6 � � � � � � � � � � � � � �

Nous avons donc, en prenant en compte (5.6) et (5.7) :

����� � �� � � � � � �� # � � � ��

1l ��� �"6 � � � � � � � � � � � � � � �

� �� � � �

Comme annoncé, l’égalité (5.6) permet de définir tout aussi bien l’intégraledes fonctions à valeurs réelles positives finies que celle des fonctions à valeursréelles positives étendues.

5.2.2 Le théorème de la convergence monotone

Nous allons dès à présent démontrer le très important théorème de conver-gence monotone qui préfigure les théorèmes de convergence énoncés ci-dessous(section 5.3).

Avant d’énoncer ce théorème, nous présentons un lemme, dont la démonstra-tion est laissée au lecteur. Ce lemme, somme toute trivial, joue en fait un rôlefondamental dans toute la partie théorique sous-jacente à la construction de l’in-tégrale présentée ci-dessus.

Ce lemme préfigure le théorème de la convergence monotone, et donc les théo-rème de convergences de la section 5.3. Nous invitons le lecteur à y réfléchirquelques instants.

44

Page 61: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Lemme 5 Soit � � � �

� � ��� � � � � une séquence doublement indéxée, à valeurs

dans� � ��� � et telle que les séquences

� � � � ��� � � (resp.

� � � � ��� � � ) sont croissantes

avec (resp. � ).

On a alors ������ �

� �����

� �� � � �

� �����

� �� ������ �

� � � �

où toutes les limites considérées existent dans� � ��� � .

Théorème 6 (Convergence monotone) Soit� ��� ����

un espace mesuré et� ������ � une séquence de variables aléatoires généralisées à valeurs dans

� � ��� �telle que

(i)� � � � � � � � � � � � � � �(�(� � �

pour tout� �

,

(ii)������ �

��� � � � � � � �

pour tout� �

.

Alors,�

est une variable aléatoire généralisée et

������ �

��� � � � �

� � � � (5.8)

PREUVE: La mesurabilité de�

découle des résultats généraux sur la mesurabi-lité. Nous nous concentrons donc sur la démonstration de (5.8) 2.

En vertu de (5.6), ��� � � � ����� � � �

��

avec � � ��� � ��

�� � �

� � � �� # ���

� �� ������

��� � �

� � � �� # ��� �

Grâce au lemme 5 , nous avons alors

������ �

��� � � � �����

� ������ � � �

��

� ����� ������ �

� � ��� (5.9)

2La démonstration que nous présentons diffère de celles que l’on trouve classiquement dans lalittérature (cd. [22] par exemple). En effet, nous basons cette démonstration sur (5.6). Cela nouspermet de souligner un peu plus l’intérêt de cette définition.

45

Page 62: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

En appliquant de nouveau le lemme 5 et en prenant en compte la définition quenous nous sommes données de

� � ���, il vient :

������ �

� � ��� � �� � ��

��� � �

������ �

� � � �� # ��� �

La suite des ensembles��� # �

��� est croissante avec et � � � � � �� # ���� ��

�� # � � en raison de la croissance de la séquence��� � �

vers� � � �

en toutpoint

� �. Nous obtenons donc l’égalité

������ �

� � ��� � �� ��

� � �� � � �� # ��� �

Reportée dans (5.9), cette égalité nous conduit à

������ �

��� � � � � ��� �� ��

� � �� ��� �� # � �

� �� � � � (5.10)

qui est le résultat annoncé.

Dans la foulée, nous présentons une première version du lemme de Fatou,qui est une conséquence de la convergence monotone. Une version améliorée dulemme de Fatou sera donnée au paragraphe 5.3

Lemme 6 (Lemme de Fatou) Soit� ��� �����

un espace mesuré. Pour toute suite� ������ � d’applications mesurables à valeurs dans

� � ��� � ,� � ����� � ��

�� � � � ����� ����

��� � �

La preuve est laissée au lecteur. Au cas où le lecteur rencontrerait des difficul-tés, il peut se reporter à [22]. La démonstration repose sur le fait que

����� �����

��

est la limite de la suite croissante�� � ���� � �

�� �� � � � �'�(� � , suite qui satisfait les

conditions du théorème de convergence monotone.

Exercice 12 Soit� ��� ����

un espace mesuré et�� � � ����� �

� � � ��� � ��� � � ��� � � � , � ��,� � �(�(�

, une suite de variables aléatoires généraliséespositives telles que

� � � � � # �et

� � � � � � � � �(�(� � �.

46

Page 63: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(i) Montrer que pour tout� �

,�����

���� � �

existe dans� � ��� � et que l’applica-

tion� � ����� �

� est alors une variable aléatoire généralisée positive.

(ii) Montrer que l’on a alors

������

�� � � � �

� � � �

(iii) Pourquoi la condition� � � � � # �

est-elle indispensable pour conclure ?

5.2.3 Où l’on retrouve la définition classique de l’intégrale desfonctions à valeurs réelles positives

Dans cette section, nous nous proposons de retrouver l’égalité 5.4, non pascomme une définition, mais comme une conséquence de l’approche suivie danscette section. Ainsi, nous aurons montré que les deux méthodes proposées pourcalculer l’intégrale d’une variable aléatoire généralisée sont équivalentes.

Nous commençons par considérer une fonction simple�

admettant � valeursréelles positives distinctes que l’on note

� � � �(�(� � � � . Nous écrirons donc

� � ����� �

� � 1l ��� � � � � �

D’après l’égalité (5.6), nous calculons l’intégrale de�

en prenant la limite, lorsque� tend vers l’infini, de

�� �� � �

� ��� � % � � �

Comme les ensembles mesurables� � � � � � , + � �

� �'�(� � � , forment une partitionde

�, nous pouvons encore écrire

�� ���� �

� � � � % � � � �� ���� �

����� �

� � � � % � � � � � � � � � �(5.11)

47

Page 64: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

En utilisant ce lemme dans l’égalité 5.11, on aboutit alors à

�� �� � �

� � � � % � � � �� �� � �

����� �

� � � � % � � � � � � � � �

� �� ����� �

���� �

� � � � % � � � � � � � � �

� �� ����� �

� � � ��� � ��� � �

� � � � � � � � �

� �� ����� �

� � � � 3 �� � � � � � � � � �

(5.12)

Etant donné que����� � � � �4� �� �

, nous déduisons par passage à la limitedans l’expression (5.12) que l’intégrale de

�est

� � � � � ����� �

� � � � � � � � � � � �

qui correspond à la définition 21.

Si nous considérons maintenant deux variables aléatoires généralisées�

et�à valeurs dans

� � ��� � et telles que� � �

, l’ensemble� � % �� � est tri-

vialement inclus dans l’ensemble� � % �� � , de sorte que

� � � � % �� � �� � � � % �� � . Aussi, si� � � � � � ��� � est une variable aléatoire généralisée

et�

une fonction simple inférieure ou égale à�

, nous aurons� � � � � � � � � .

Nous en déduisons que�

� � � � ������ � � � � � � � � � � �

� �

Pour démontrer l’inégalité inverse, il suffit de trouver une séquence de fonctionssimples, toutes inférieures ou égales à

�, dont les intégrales convergent vers l’in-

tégrale de�

. D’après le lemme 4, il existe une telle séquence croissante de fonc-tions simples qui converge simplement vers

�. D’après le théorème de la conver-

gence monotone, la séquence des intégrales de ces fonctions simples convergevers l’intégrale de

�. Ainsi, l’égalité (5.4) est une conséquence de la construction

que nous avons proposée.

48

Page 65: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

5.2.4 Quelques propriétés utiles de l’intégrale des variablesaléatoires positives

Nous énonçons maintenant quelques résultats qui serviront dans la suite et quiconstituent des propriétés fondamentales de l’intégrale des variables aléatoirespositives.

Nous commençons par la proposition suivante qui nous dit que l’intégrale desvariables aléatoires positives possèdent des propriétés analogues à celles vérifiéespar l’intégrale des fonctions simples (cf. lemme 3).

Proposition 12 Soit�������� �

un espace mesuré,� ��� � � ����� � � � � � ��� �

deux variables aléatoires généralisées positives et � � � ��� �.

(i)� � � � � � � � �

� � � � � � � .

(ii)�

� � � � � ��

� � � .

PREUVE:

Preuve de (i). D’après le lemme 4, il existe deux suites croissantes� ���� � � et���

����� � de fonctions simples, la première convergeant vers

�et la seconde

convergeant vers�

. La suite� �� �

����� � est donc croissante et converge vers

� �. D’après le théorème de convergence monotone, on a donc

� � �� ��� � � �

� � � � � � � mais aussi�����

�� �

� � � � � � � � et������

� �� � � � � � � � . Or, nous

savons (cf. lemme 3) que� � �

� �

�� � � � � �

� � � � �� � � . D’où (i).

Preuve de (ii). On sait (lemme 4) qu’il existe une suite� ���� � � de fonctions

simples qui converge vers�

. D’après la convergence monotone, on a donc������

� �� � � � � � � � . Nous avons ensuite

������� � � � � � � �

. Toujours par lethéorème de la convergence monotone, nous avons

������

� � � � � � � � � � � � � � .L’assertion (ii) dérive alors du lemme 3 qui nous dit que

� � � � � � � � � � ��� � � .

Nous continuons par une simple application du résultat précédent et du théo-rème de convergence monotone.

Théorème 7 Soit� ��� ����

un espace mesuré et� ���� une séquence de variables

aléatoires généralisées positives�� � ����� � � � � � � � � �

.

49

Page 66: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Soit� � ��

� � ��� , alors

�� � � � �

����

� � � �

PREUVE: On pose� � �

� � � �� . La séquence

� � � converge en croissantvers

�. On a donc

����� � � � � � � � � � d’après le théorème de convergencemonotone. D’après le théorème 12 (i),

����� � � � � � � � � � � �

� � � , d’où lerésultat.

Le théorème précédent a une conséquence très utile.

Théorème 8 Soient� ��� �����

un espace mesuré et� � � ��� � � � � � � � � �

unevariable aléatoire généralisée positive. L’application

� � � � � ��� � définie pourtout �

par� � � � � �

�1l� � �

est une mesure et pour toute variable aléatoire généralisée positive�

, on a� � � � � �

� � � � �

Nous laissons la démonstration de ce résultat au lecteur à titre d’exercice. Onécrit souvent la seconde assertion de ce résultat sous la forme � � � � � � .

5.2.5 Intégrale des variables aléatoires généralisées de signequelconque

Pour définir l’intégrale des variables aléatoires de signe quelconque, on utilisele fait qu’une application

� � � � �est toujours la différence

� � � � 3 � �de deux applications positives. Cette décomposition n’est évidemment pas unique.Mais nous allons voir que si

�est une variable aléatoire (id est,

�est mesurable),

� � et� � sont elles-aussi des variables aléatoires. L’idée consiste à définir alors

l’intégrale de�

par rapport à une mesure�

par� � � � � � � � � �13 � � � � � .

Mais pour que cette définition ait un sens, il ne faut pas que la différence que nousvenons d’introduire soit

� 3 �.

50

Page 67: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Pour que la construction proposée soit réellement utilisable il nous faudra aussitraiter le problème suivant. Supposons que

� � et� � sont deux autres variables

aléatoires généralisées telles que� � � � 3 � � � � � 3 � � et que

� � � � � 3� � � � � et

� � � � � 3 � � � ont un sens, alors on peut raisonablement espérer que� � � � � 3 � � � � � � � � � � � 3 � � � . Encore faudra-t-il le démontrer pour que laconstruction soit complète.

Dès le départ, nous avons intérêt à choisir� � et

� � aussi "petites" que pos-sible. En effet, si on augmente

� � , il faut augmenter� � de la même quantité pour

préserver l’égalité� � � � 3 � � . On augmente alors les intégrales de

� � et de� � et on prend donc le risque que ces intégrales deviennent infinies.

Soit alors� � ����� � � � � � � � � �

une variable aléatoire généralisée.

Soit� � � �

1l �"6 � � � et� � � 3 �

1l �"6 � � � �

Ces deux applications sont trivialement deux variables aléatoires généraliséespositives et nous avons

� � � � 3 � � �(5.13)

Supposons alors que� � et

� � sont deux autres variables aléatoires générali-sées positives telles que

� � � � 3 � � . Pour tout� �

, les deux termes� � � � �

et� � � � � ne sont alors pas tous les deux infinis.

Si� � � � ���

,�&� � � � � � � � � � � � � � � 3 � � � � � . Si

� � � � # �, alors

� � � � � et� � � � � sont tous deux finis et donc

�1� � � � � � � � � � . Si� � � � � �

,alors on a nécessairement

� � � � � � �car si

� � � � � était fini, on ne pourrait pasavoir

� � � � � � � 3 � � � � � . Enfin, si� � � # ���

,� � � � � � �

et est donctrivialement inférieur ou égal à

� � � � � . Nous avons donc� � � � � .

Le même type de raisonnement montre que� � � � � .

En définitive, le couple� � � � � � � représente le choix "minimal" que nous

pouvons faire pour décomposer une variable aléatoire généralisée en la différencede deux variables aléatoires généralisées positives.

Remarques

– Il est très important de remarquer pour la suite que, non seulement� �

� � 3 � � , mais qu’aussi,� � � � � � � � .

51

Page 68: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

– Dans de nombreux ouvrages d’analyse fonctionnelle et d’intégration (cf.[22]), il est d’usage d’écrire

� �et

� � sous la forme� � � �����

� � � ���et

� � � ������ 3 � � ��� � 3 � �� � � � ���

.–

�&�et

� � sont appelés respectivement la partie positive et la partie néga-tive de

�.

Conformément à ce qui a été dit au début de ce paragraphe, nous posons ladéfinition suivante.

Définition 24 Soit� ��� �����

un espace mesuré et� � ����� � � � � ��� ��� �

unevariable aléatoire généralisée.

(i) On dit que�

admet une intégrale par rapport à la mesure�

, ou que sonintégrale existe, si

� � �&� � � � � � � � � �� � � ��� �. Dans ce cas, l’intégrale

de�

est la quantité�

� � � � �� � � � 3 �

� � � � � (5.14)

(ii) On dit que�

est intégrable par rapport à�

ou que�

est�

-intégrable sil’intégrale de

� � �est finie. Ceci équivaut à dire que les intégrales de

� �et

de� � sont toutes les deux finies et donc, que l’intégrale de

�existe et est

finie.

(iii) L’ensemble des variables aléatoires généralisées intégrables sera noté� ��� ��� ����

.

Remarques :– Cette terminologie usuelle est un peu déroutante car une variable aléatoire

généralisée peut très bien ne pas être intégrable et avoir une intégrale (quiest alors

�ou

3��). On sera donc particulièrement prudent dans la mani-

pulation de ce vocabulaire.– L’intégrale de la fonction nulle est nulle. C’est quand même la moindre des

choses.

La définition que nous avons donnée de l’intégrale d’une fonction de signequelconque repose sur la décomposition commode

� � � � 3 � � . On peut alorsse poser la question suivante : si

�admet une intégrale et si l’on considère deux

autres variables aléatoires généralisées� � et

� � telles que� � � � 3 � � , a-t-on

encore� � � � � � � � � ��3 � � � � � ? Pour pouvoir espérer répondre à la question,

52

Page 69: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

il faudra dès le départ supposer que l’une au moins des deux intégrales� � � � � et� � � � � est finie. Sous cette hypothèse supplémentaire, la réponse est oui. On a le

résultat suivant.

Lemme 7 Avec les notations précédemment introduites, si� � � � 3 � � est

la différence de deux variables aléatoires généralisées positives et si les deuxintégrales

� � � � � et� � � � � ne sont pas toutes les deux infinies, alors

�admet

une intégrale et �� � � � �

� � � � 3 �� � � � �

PREUVE: Supposons que� � � � � # �

(la démonstration est analogue si l’onsuppose

� � d’intégrale finie). Nous avons déja vu que� � � � � de sorte que� � � � � � � � � � � # �

. Nous en déduisons que�

admet une intégrale et cetteintégrale est alors donnée par (5.14).

Etant donné que� � 3 � � � � � 3 � � , on a

� � � � � � � � � , même pourles

� �tels que

� � � � � � � �(nous laissons au lecteur le soin de le vérifier),

nous déduisons de la proposition 12 que�

� � � � �� � � � � �

� � � � �� � � � �

Comme� �

admet une intrégrale finie, il vient�

� � � � � 3 �� � � � �

� � � � �� � � � � (5.15)

Si� � � � � �

, alors nous avons nécessairement�

� � � � � �et

�� � � � # � �

Il s’ensuit que� � � � � � 3��

puisque� � � � � # �

. On a donc� � � � �

� � � � � 3 � � � � � .

Si� � � � � 3��

, alors, c’est l’intégrale de� � qui est infinie et l’intégrale de

�1�qui est finie. D’après (5.15),

� � � � � � �puisque l’intégrale de

� � est supposéefinie. On en déduit encore que

� � � � � � � � � � 3 � � � � � .

53

Page 70: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Si� � � � est finie, nous déduisons de (5.15) que

�� � � � � 3 �

� � � �� � � � # �

de sorte que� � � � � � � � � � 3 � � � � � , ce qui complète la preuve.

Le théorème suivant est l’amélioration promise du lemme 3 et étend la propo-sition 12.

Théorème 9 Soit� ��� �����

un espace mesuré.

(i) Pour toute paire de variables aléatoires généralisées� � � � �

et tout couplede réels

� � �0/ � ,� � � � / � � � � � �

�� � � / � � � � �

(ii) L’application� � ���������� � � 3 � � � � �� �

est une forme linéairepositive : cela signifie que cette application est linéaire et à valeurs dans�

et qu’elle est positive au sens où� � �

implique que� � � � � �

. Leraisonnement est analogue pour démontrer que

� � � � � � � � � � � .

(iii) Pour tout élément�

de� ���������� �

,����

�� � � �

���� � � � � � � �

(iv) Si� � � � ��� ����

et si�

est une variable aléatoire telle que� � � � � � �

,alors

�� � � � ��� �����.

PREUVE:

Preuve de (i). Soient�

et�

deux éléments de� ��������� ���

. On a� � � � �

� � � � � �et donc

� � � � � � � # �.

Preuve de (ii). Nous savons que le résultat est vrai pour�

et�

positives, en vertude la proposition 12.

Si maintenant�

et�

sont de signe quelconque et intégrables, nous écrivons� � �&� 3 � � et

� � � � 3 � � . Par suite, nous avons

� � � � � � � � � � � � � � � � � � � � � �

54

Page 71: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

L’assertion (ii) ayant été prouvée pour des variables aléatoires positives, nousavons� � � � � � � � � � � � � � � � � � �

� � � � �� � � � � � � � � � � � �

Les intégrales intervenant dans cette égalité étant toutes finies, il suffit de transfé-rer les termes à notre gré pour obtenir le résultat.

Nous prouvons maintenant que pour tout � � ,� � � � � � � � � � � � � .

Le résultat a déjà été prouvé pour�

et�

positives (cf. proposition 12).

Si�

est de signe quelconque et intégrable, nous écrivons� � � � 3 � � de

sorte que3 � � � � 3 �&�

. De ce qui précède, nous avons donc� �43 � � � � �

� � � � � 3 � �&� � � ce qui montre que� �43 � � � � � 3 �

� � � � (5.16)

Pour � et�

de signe quelconque et�

intégrable, nous écrivons encore� �

�&� 3 � � de sorte que � � � � � � � � ��3 � � � . D’après (i), on a :�

� � � � � �� � � � � � � 3 � � � � � � � �

On en déduit que� � � � � � � � � � � par application de la proposition 12 et de

(5.16) en séparant les cas � � �et � # �

.

Il nous faut maintenant prouver que si� � �

,� � � � � �

. On sait que�

est la limite d’une suite croissante de fonctions simples positives. Par le théorèmede convergence monotone,

� � � � est la limite des intégrales de ces fonctionssimples. Comme ces intégrales sont positives en vertu du lemme 3, le résultat estacquis.

Preuve de (iii). On écrit simplement que3 � � � � � � � � �

de sorte qu’on obtient3 � � � � � � � � � � � � � � � � � � en utilisant (ii). D’où le résultat.

Preuve de (iv). Si� � � � � � �

, alors� � � � � � � � � � � � � . D’où le résultat.

Remarques : L’espace� ��� ��� �����

n’est pas un espace vectoriel car l’additionsur cet ensemble n’en fait pas un groupe. Prenons par exemple les applications� � 1l � � � et � � � �

. On a bien� �

1l � � � � � �1l � � � mais on n’a pas

� � � .

55

Page 72: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

5.3 Théorèmes de convergence

Nous avons déjà rencontré un important théorème de convergence, c’est ce-lui de la convergence monotone (théorème 6). Nous avons aussi vu le lemme deFatou. Nous allons maintenant compléter ces résultats en commençant par uneversion plus générale du lemme de Fatou et nous continuons ansuite avec le trèsimportant théorème de la convergence dominée de Lebesgue. Cette version duthéorème de convergence monotone sera améliorée au chapitre 6, section 6.7.Nous procédons en deux étapes à des fins purement pédagogiques.

Avec le théorème de convergence monotone, le lemme de Fatou et la conver-gence dominée de Lebesgue sont essentiels et doivent être parfaitement connus.

Théorème 10 (Lemme de Fatou) Soit� ��� �����

un espace mesuré. Soit� ���� � �

une séquence d’applications mesurables à valeurs dans�

et�� � �� � ��� ���� �

(i) Si�� � �

pour tout entier � � , alors� � ����� ����

�� � � � ����� � ��

��� � � (5.17)

(ii) Si�� � �

pour tout entier � � , alors� �

������ ����

��

� � � � �����������

��� � � (5.18)

PREUVE:

Preuve de (i) On pose� � �

�3 �

. Chaque variable aléatoire� est po-

sitive. On serait tenté d’écrire directement que�

� � � � � �� � � 3 � � � � .

Mais nous n’avons pas le droit d’écrire cette égalité sans prendre quelques pré-cautions. En effet, la linéarité de l’opérateur intégrale a été énoncé pour deséléments de

� �� ������� ���(cf. théorème 9) ou pour une différence de variables

aléatoires positives (cf. lemme 7). Lorsque nous écrivons� � �

�3 �

,nous ne sommes dans aucun de ces cas. Pour aboutir, il nous faut écrire que

�� �

� � � 3 � � . La variable aléatoire

� � �

est positive, la variablealéatoire

� � est aussi positive et d’intégrale finie puisque� � �� � ��� ����

.Maintenant, nous sommes dans les hypothèses du lemme 7 et nous avons donc� �

� � � � � � � � � � � � � 3 � � � � � � �

� � � � � � � .

56

Page 73: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

On a clairement����� � �� �

� � ����� � �� � �

, et en procédant comme ci-dessus, on peut écrire que

� ����� � �� �� � � � � ����� ����

� � � � � � � .

La suite� ��� � � vérifie les conditions requises par la version préliminaire du

lemme de Fatou (cf. lemme 6). On a donc� � ����� �����

�� � � � � � ����� ��� �

� � � � � � �

� ����� � ���

� � � � �

� � �� ����� � ��

� � � � � � � � � �

� ����� � �� � �� � � �

D’où (i).

Preuve de (ii). En fait, (i) implique (ii). En effet, si nous supposons être sous leshypothèses de (ii), posons

� �

�� 3 �

� et� � � 3 �

. On vérifie aisément que����������

�� � 3 ����� ���� � �

� , que� �

est trivialement intégrable et borne inférieure-ment les

� �

� . On applique donc (5.17) à la suite des� �

� et on obtient alors (5.18)pour la suite

�� en changeant de signe.

Remarque : La version préliminaire du lemme de Fatou (cf. lemme 6) est évidem-ment le cas particulier de (5.17) avec

� � �.

Théorème 11 (Théorème de la convergence dominée-I) Soit� ��� ����

un es-pace mesuré. Soit

� ���� � � une séquence d’applications mesurables

�� ������ � � � � � � � � �

telle que

� � � � � ������ �

��� � �

existe pour tout� �

.

S’il existe une application intégrable�� � � � ��� ����

telle que� ��� � � � � � � � � � � �

�,� � 2 � �'�(� � � ���(5.19)

alors

(i)� � ��� ��� ����

,

(ii)������ �

� �� � � � � � � �

57

Page 74: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(iii)������ �

� � ��3 � � � � � �

PREUVE:

Preuve de (i). La condition (5.19) entraîne que� � ����� �

� est mesurable etintégrable. D’où (i).

Preuve de (ii). Nous commençons par prouver le résultat pour les variables aléa-toires réelles ou généralisées ( � � �

ou�

).

Etant donné que�����

� ����� � ����� ���� �

� � �et que, trivialement pour toute

suite de valeurs réelles� ���� � � ����� ���� �

� � ����������

�� , on a, en appliquant le

lemme de Fatou (théorème 10)�� � � � ����� ��� �

��� � � (par (5.17))� �����

� ���

�� � �� �

� � � (par (5.18))�

ce qui équivaut à (ii) lorsque les variables aléatoires�� sont réelles ou générali-

sées.

Preuve de (iii) Si on pose�� � � � 3 �

��, on a

�� � � �

et�����

��� � �

. Onapplique donc les résultats précédents à

�� pour obtenir (iii)

Exercice 13 Démontrer le théorème de la convergence dominée pour les va-riables aléatoires réelles ou généralisées en utilisant simplement la version préli-minaire du lemme de Fatou (lemme 6) et les résultats de l’exercice 12. Indication :on posera

�� � � ��

� � � � 3 � � � + � � , pour tout entier � � et on vérifieraque cette suite vérifie les hypothèses requises dans l’exercice 12.

5.4 Inégalité de Bienaymé-Chebyshev

Cette inégalité se démontre très simplement pour tout ensemble mesuré�������� �et ne requiert pas que

�soit bornée. Cependant, cette inégalité joue un

rôle particulièrement important en théorie des probabilités. En probabilité, il esten fait usuel de la décliner sous plusieurs formes que nous présenterons ultérieu-rement (cf. 9.4).

58

Page 75: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Lemme 8 Soit� ��� �����

un espace mesuré et� � � ����� � � � � � ��� �

une ap-plication mesurable.

(i) Pour tout� � � ��� �

,

� � � � � � � � � � � � � � � � � � � � (5.20)

avec la convention� � � � � � � � �

.

(ii) Pour tout� � � ��� �

,

� � � � � � � � � � � ��� � � � � � � (5.21)

(iii) Si� � ��������� ���

, l’inégalité (5.21) est vraie pour tout� � � ��� � .

PREUVE: Remarquons tout d’abord que le membre de droite dans (5.20) est tou-jours définie dans

� � ��� � puisque� � �

est une variable aléatoire généralisée posi-tive.

Preuve de (i). Si� � �

, le membre de gauche dans (5.20) vaut�

avec la convention(que nous avons justifiée par ailleurs) :

� � � � � � � � �et l’inégalité (5.20)

est donc trivialement vérifiée.

Nous démontrons donc (5.20) pour� � � ��� �

. On pose� � �

1l � � 6 � � � � .L’application

�est mesurable et trivialement,

� � � � �de sorte que

� � � � �� � � � � � . Or,

� � � � � � � � � � � � � � � �, d’où le résultat.

Preuve de (ii). Lorsque� � � ��� �

, l’inégalité (5.21) découle directement de l’in-égalité (5.20).

Preuve de (iii). Il suffit de montrer que (5.21) est vraie pour� � � ��� �

lorsque� � � � � � # �. Si

� � �,��

� � � � � � � �et donc (5.21) est trivialement vérifiée.

Si� � �

,��

� � � � � � � �et le membre de gauche dans (5.21) est égal à la mesure

de l’ensemble� � � � � � �

. La mesure de cet ensemble est alors nulle puisque� � � � � � # �. Dans le cas

� � �, il y a donc égalité entre les deux membres de

(5.21).

59

Page 76: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

5.5 Intégration sur une partie mesurable

Soit� ��� ����

un espace mesuré et� � � ��� � � � � ��� ��� �

une variablealéatoire généralisée. On est souvent amené à intégrer

�sur une partie mesurable� � de

�. On pose alors la définition suivante.

Définition 25 Soit� ��� ����

un espace mesuré et� � ����� � � � � ��� ��� �

. Soit� � une partie mesurable de�

. Si 1l � � � � � � ��� ����, on définit l’intégrale de

�sur

� � par rapport à la mesure�

par�� �

� � � � �1l � � � � � � (5.22)

Exercice 14 Avec les notations de la définition précédente, soit � � la tribu trace

de

sur� � telle qu’elle est définie par (1.1).

Soit restriction� � � � de

�à� � .

1. Montrer que la mesurabilité de�

par rapport aux tribus � ���

et

entraînecelle de

� � � � par rapport aux tribus�� � �

et � � .

2. Soit la restriction� � � � � � � � � � � ��� � de

�à � � � . Vérifier que

� � � est unemesure.

3. Montrer que l’intégrale de� � � � � � � � � � � � � � � � ��� ��� �

par rapport à lamesure

� � � est égale à l’intégrale de�

1l � � par rapport à la mesure�

.

On remarquera que l’intégrale définie sur tout�

est un cas particulier de ladéfinition 25 et et de l’exercice précédent puisque 1l � � � �

et� � � � �

. Aussi,au lieu de définir l’intégrale de

�sur

�(comme nous l’avons fait) pour ensuite

définir celle de�

sur une partie mesurable de�

, nous aurions pu procéder ensens inverse : nous aurions pu commencer par définir l’intégrale de

�sur tout

sous-ensemble mesurable de�

(en procédant comme dans l’exercice précédant)et considérer l’intégrale sur

�comme un simple cas particulier.

L’exercice précédent montre que ces deux approches sont équivalentes et quechoisir l’une ou l’autre n’est qu’affaire de goût. Ainsi, dans [22], l’auteur préfèrela seconde.

Cette remarque entraîne que tous les résultats que nous avons énoncés enutilisant l’intégrale sur tout

�restent valables lorsqu’on remplace

�par un

sous-ensemble mesurable de�

.

Nous terminons cette section par quelques résultats utiles.

60

Page 77: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Proposition 13 En supposant l’existence des intégrales et la mesurabilité des en-sembles et des applications utilisées, nous avons :

(a) Si� � � � �

, alors� � � � � � � � � � � � � .

(b) Si� � � � � et

� � �, alors

� � � � � � � � � � � � � .

(c) Si� � � � � �

pour tout� � � , alors

� � � � � � � �même si

� ��� � � � �.

(d) Si� � � � � � �

, alors� � � � � � � �

même si� � � � � �

pour tout� � � .

PREUVE:

Preuve de (a). Il suffit de remarquer que 1l � � � � 1l � � � et d’appliquer l’assertion(ii) du théorème 9.

Preuve de (b). Il suffit de remarquer que 1l ��� � � 1l � � �et d’appliquer (ii) du

théorème 9.

Preuve de (c). On a évidemment� � � �

1l � � � � � � �pour tout

� � � . D’où lerésultat.

Preuve de (d). Par définition� � � � � � � � �

1l � � � �� � ��� �� �

��� �� � � � # �

1l � � � � � ��� �� �

��� �� � � � # � � � � � �

Or,� � � �� # � � � � � � � � � � � . Aussi, si

� � � � � � �,� � � �� # � � � � � �

�pour tout et � . D’où le résultat.

Compléments : intégration des variables aléatoirescomplexes

Soit� � � � � � un espace mesuré. Nous décrivons comment on intègre des variables

aléatoires complexes, c’est-à-dire des applications définies sur�

et à valeurs dans � dontles parties réelles et imaginaires, notées

� � � � et� � � � , sont des variables aléatoires� � � ����� � � � � � � � � � � � � � � .

61

Page 78: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Cette construction est très simple. Puisque nous pouvons écrire � sous la forme� � � � � � �� � � � � et que

� � � � et� � � � sont mesurables, nous poserons la défini-

tion suivante :

Définition 26 Soit� � � � � � un espace mesuré. Une variable aléatoire complexe � �

� � � � �� � � � � est intégrable si la variable aléatoire réelle� � � est intégrable et l’inté-

grale de � est alors le nombre complexe���� � � � � � � � � � �

� � � � � � � � (5.23)

L’ensemble des variables aléatoires complexes intégrables est noté � �� � � � � � � .

Le théorème suivant, dont nous laissons la démonstration au lecteur en guise d’exer-cice, est l’analogue du théorème 9.

Théorème 12 Soit� � � � � � un espace mesuré.

(i) L’ensemble � �� � � � � � � est un espace vectoriel sur � .

(ii) L’application ����� �� � � � � � ��� �� ��� � � � est une forme linéaire.

(iii) Pour tout élément � de � �� � � � � � � ,�������� �

����� � � � � � � �

(iv) Si � ��� �� � � � � � � et si � est une variable aléatoire complexe telle que� � � � � � , alors � ��� �� � � � � � � .

Exercice 15

1. Démontrer que le théorème de convergence dominée reste vrai dans le cas com-plexe, c’est-à-dire lorsqu’on change en � dans l’énoncé du théorème 11.

2. Peut-on énoncer l’inégalité de Bienaymé-Chebyshev dans le cas des variables aléa-toires complexes.

62

Page 79: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 6

Ensembles négligeables etcompléments sur l’intégration

Considérons un ensemble mesuré� ��� ����

où la mesure�

n’est pas néces-sairement bornée. Même bornée, rien de ce qui va être dit ne serait modifié ousimplifié.

Supposons que � soit mesurable et de mesure nulle et considérons une va-riable aléatoire réelle

� � ����� � � � � ��� ��� �. Supposons aussi que l’intégrale� � � � existe.

Si nous comparons alors les intégrales� � � � et

� � � ��� � , nous voyons que

ces intégrales sont égales. En effet, nous pouvons écrire� � � � � � �

1l� � �

� �1l ��� � � � . Si nous considérons la partie positive

�1�de

�, nous avons alors

�� �

�� � � � � �� �� ��

� � �� � � �

1l� % � �

� � �� �� ��� � �

� � � � % � � � � �

Or,� � % �� � � � est un ensemble mesurable, inclus dans � qui est de mesure

nulle. On a donc� � � � % �� � � � � �

et donc� �&�

�� � � � �

. De même,on aura

� � � �� � � � �

. Aussi, l’intégrale de�

1l�

est nulle et nous avons bien� � � � � � � ��� � .

Ce simple calcul nous montre donc que les ensembles mesurables de mesurenulle ne comptent pas du point de vue de l’intégration. On pourrait s’arrêter là

63

Page 80: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

en définissant les ensembles négligeables comme les ensembles mesurables demesure nulle. On pourrait alors dire qu’une propriété est vraie presque partout sielle est vraie sur le complémentaire d’un ensemble négligeable (donc mesurableet de mesure nulle). Ces définitions de la négligeabilité et du presque partout sontsuffisantes pour énoncer le théorème de convergence dominée dans sa versionfinale (cf. théorème 14) et dans une première lecture, le lecteur peut s’en contenter.

Cependant, nous allons aller un peu plus loin dans la démarche. En effet, à cer-tains égards, on aimerait qu’un sous-ensemble � d’un ensemble �

de mesurenulle soit lui aussi mesurable et de mesure nulle. C’est tout particulièrement le caslorsqu’on manipule des probabilités. En effet, en théorie des probabilités, l’inclu-sion � � � signifie que l’événement � implique l’événement � . Si � est deprobabilité nulle, on aimerait dire que � est aussi de probabilité nulle. En d’autrestermes, on aimerait pouvoir écrire que si � � � avec

� � � � � �, alors

� � � � � �.

Hélas, nous n’avons pas toujours le droit d’écrire une telle implication : rien nenous dit que � est mesurable et, donc, que � a une mesure.

Nous allons donc construire, à partir d’un espace mesuré quelconque� ��� �����

où les sous-ensembles d’ensembles négligeables ne sont pas forcément mesu-rables, un espace mesuré

����� � �� � �légèrement plus grand (dans le sens où � �

et la restriction de� �

est exactement�

) où tous les ensembles négli-geables sont désormais mesurables et de mesure

� �nulle. La mesure

� �sera dite

complète.

Nous verrons aussi quelques conséquences importantes de cette construction,notamment en ce qui concerne la tribu des boréliens et la tribu de Lebesgue. Nousterminerons par une version définitive du théorème de convergence dominée, qui,soulignons-le encore, fonctionne très bien que la mesure soit complète ou non.

On commence par se donner une terminologie adéquatee aux définitions sui-vantes.

6.1 Ensembles négligeables et mesure complète

Définition 27 Soit� ��� ����

un espace mesuré. Une partie de � de�

sera dite�-négligeable, ou négligeable par rapport à

�, ou simplement négligeable s’il n’y

a aucune ambiguïté sur la mesure considérée, s’il existe un ensemble mesurable� ( �

) de mesure nulle et contenant � :

� négligeable � � � � �� � � � et� � � � � � �

64

Page 81: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Dans la suite, on désignera par � la collection de toutes les parties négligeablesde

�par rapport à la mesure

�.

Définition 28 Soit� ��� ����

un espace mesuré. La mesure�

est dîte complète sitout sous-ensemble d’un ensemble négligeable pour cette mesure est un ensemblemesurable.

Remarque : Pour une mesure complète, les ensembles négligeables sont exacte-ment les ensembles de mesure nulle.

6.2 Le "presque partout" et le "presque sûrement"

Définition 29 Soit� ��� ����

un espace mesuré. Une propriété � est dite vraie�-presque partout (ou plus simplement presque partout lorsqu’il n’y a aucune

ambiguïté quant à la mesure�

) si le complémentaire de l’ensemble des points�

où elle est vraie est négligeable par rapport à la mesure�

. En abrégé, on écrit �vraie

�-p.p. S’il n’y a aucune ambiguïté sur la mesure, on se contentera d’écrire

� vraie p.p.

Si � est vraie presque partout par rapport à une mesure de probabilité�

,on dit plutôt que la propriété � est vraie

�-presque sûrement (ou simplement

presque sûrement en l’absence d’ambiguïté sur la mesure de probabilité concer-née). De manière analogue au cas d’une mesure quelconque, on écrire que � estvraie

�-p.s. ou plus simplement que � est vraie p.s.

Exemples :– Avec les notations introduites ci-dessus, si

�et � sont deux fonctions défi-

nies sur�

, on dit que� � � �

-presque partout si l’ensemble� � �� � � est

négligeable (� � �� � � � ). A noter que dans ce qui précède, nous n’avons

pas besoin de préciser si�

et � sont mesurables ou non et, de fait, grâce àla définition donnée des ensembles mesurables,

� � �� � � n’a pas lieu d’êtremesurable.

– Par abus de notation, on écrira que � � � ,�

-presque partout si 1l� � 1l ��

-p.p. Là encore, aucune condition de mesurabilité n’est imposée à � et� . Le lecteur vérifiera que cette condition d’égalité presque partout entredeux sous-ensembles de

�équivaut à la

�-négligeabilité de la différence

symétrique � � � .

65

Page 82: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Exercice 16 Soit� ��� ���

un espace mesuré. Soient deux parties � et � de�

. Ondira que � � � �

-presque partout si 1l� � 1l � � -p.p. Montrer que � � � �

-p.p.si et seulement si � � � � � � � � est

�-négligeable.

6.3 Complétée d’une tribu

Soit�������� �

un espace mesuré. Comme nous l’avons dit dans l’introduction,la mesure

�n’est pas forcément complète. Nous voulons agrandir

en une nou-

velle tribu �

et définir sur cette tribu une mesure� �

qui, elle, sera complète etdont la restriction à

est

�. Il est évident que la nouvelle tribu

� doit alors conte-

nir la collection � des ensembles�

-négligeables. Il est donc nécessaire que �

contienne ��� . Cette collection d’ensembles n’est pas une tribu. Qu’à cela ne

tienne : si nous voulons minimiser le risque d’agrandir la mesure

, commençonsdonc par analyser la tribu engendrée par

� � puisque celle-ci est la plus petitetribu que nous pouvons construire à partir de la tribu de départ et de la collectiondes sensembles

�-négligeables. Nous allons voir que cette tribu est celle qu’il nous

faut pour construire une mesure complète. Aussi, posons la définition suivante.

Définition 30 Soit� ��� �����

un espace mesuré. On appelle tribu�

-complétée dela tribu

�engendrée par la collection

� � où � est la collection des en-sembles

�-négligeables : � � � � � � �

La tribu�

-complétée jouit de propriétés très intéressantes résumées dans lethéorème suivant.

Proposition 14 Soit������� ���

un espace mesuré. Soit �

la tribu�

-complétée de.

(a) � � � �� � � � �� � � �

(b) �

est la collection des parties de�

pour lesquelles il existe deux éléments� et � de

tels que

� � � � � et� � � � � � � ���

(c) �

est la collection des parties � de�

pour lesquelles il existe � avec

� � � � �

66

Page 83: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Du moment que nous venons de construire une tribu un tout petit peu plusgrande que celle du départ et qui englobe les ensembles négligeables, que se passe-t-il au niveau des variables aléatoires réelles ou généralisées ? On aimerait bienque les variables aléatoires réelles ou généralisées par rapport à

�ne diffère pas

trop des variables aléatoires réelles ou généralisées par rapport à

.

Le résultat suivant montre, qu’effectivement, les applications mesurables pour �et pour

ne diffèrent que sur un ensemble négligeable.

Proposition 15 Soit������� ���

un espace mesuré. Soit �

la tribu�

-complétée de. Une application

�définie sur

�et à valeurs dans

�ou�

est �

-mesurable siet seulement si l’une quelconque des deux conditions suivantes est satisfaite :

(a) Il existe une application

-mesurable�

telle que� � � �

-p.p., id estl’ensemble

� � �� � �est

�-négligeable.

(b) Il existe deux applications

-mesurables� � et

� � telles que� � � � � � � et

� � � � � � 3 � � � �

La démonstration de ce résultat est laissée au lecteur. Ce résultat signifie enpratique que les variables aléatoires réelles ou généralisées au sens de la tribu

ne diffèrent des variables aléatoires réelles ou généralisées au sens de

�que par

un ensemble négligeable.

6.4 Mesure complétée

Soit� ��� ����

un espace mesuré et �

la tribu�

-complétée de

. Nous allonsmaintenant étendre la mesure

�définie sur

en une mesure complète définie sur �

.Cela se fait assez facilement. En effet, soit � �

. Nous savons que nouspouvons écrire � sous la forme � � � � � avec �

et � � . Il estalors naturel de poser

� � � � � � � � � � puisque � est négligeable. La difficultéà contourner est qu’il peut exister un autre ensemble mesurable � �

et un autreensemble négligeable � �

tels que � � � � � � �

. Il faut alors vérifier que l’on aencore

� � � � � � � � � �de manière à ce que

� � � � soit défini de manière unique.Heureusement, c’est le cas et

� � � � � ne dépend pas de la décomposition choisiepour � .

De manière précise, on a le résultat suivant dont nous laissons la démonstrationfacile au lecteur.

67

Page 84: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Lemme 9 Soit� ��� �����

un espace mesuré et �

la tribu�

-complétée de

.(i) Si � est un élément de

�tel que � � � � � � � � � � �

où � � � � et

� � � � � , alors� � � � � � � � � �

(ii) En posant� � � � � � � � � � où � � �� � , �

, � � , on définit unemesure de

�dans

� � ��� � qui est une extension de�

dans le sens où pourtout �

,� � � � � � � � � � . La mesure

� �est l’unique extension possible

de�

à

.

Ce lemme justifie la définition suivante.

Définition 31 Soit�������� �

un espace mesuré et �

la tribu�

-complétée de

.L’unique extension possible

� �de

�à �

définie par le lemme 9 est appelée me-sure complétée de

�.

Il nous reste à voir que� �

est bien une mesure complète et étudier s’il existeune différence entre l’intégrale par rapport à cette nouvelle mesure et l’intégralepar rapport à la mesure de départ. On a le résultat suivant.

Proposition 16 Soit� ��� ����

un espace mesuré, �

la tribu complétée de

et� �la mesure complétée de

�.

(a) La collection des ensembles� �

-négligeables est la même que la collection� des ensembles

�-négligeables.

(b) Si� � ����� � � � � � ��� ��� �

est une application mesurable et si� ������ � � � � � � � � �

est une application mesurable égale�

-presque partoutà

�, alors

�admet une intégrale (resp. est intégrable) par rapport à

� �si

et seulement si�

admet une intégrale (resp. est intégrable) par rapport à�, et dans ce cas

� � � � � � � � � � � � � � � � � � � � � � .Cette proposition signifie donc qu’il ne sert à rien de chercher à compléter la

tribu �

par rapport à� �

. Cette proposition nous dit aussi qu’intégrer par rapportà la mesure complétée et la tribu complétée, c’est intégrer par rapport à la mesurede départ et la tribu d’origine. Définitivement, les ensembles

�-négligeables (et

pas seulement les ensembles de mesure nulle) ne comptent pour l’intégration.

Le théorème nous dit que toute mesure peut toujours être complétée. Aussi,chaque fois que cela sera nécessaire, on pourra toujours travailler avec la mesurecomplète. Cela nous donnera juste des ensembles mesurables supplémentaires etplus d’applications mesurables. Au niveau du calcul des intégrales, cela ne chan-gera rien : définitivement, les ensembles

�-négligeables (et pas seulement les en-

sembles de mesure nulle) ne comptent pour l’intégration.

68

Page 85: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous allons maintenant préciser la différence (subtile) que nous avons déjàsignalée et qui existe entre la tribu de Lebesgue et celle des Boréliens.

6.5 Le cas de la mesure de Lebesgue

Nous avons déjà signalé (cf. 1.7) que la mesure de Lebesgue sur� �

se défi-nit sur une tribu strictement plus grande que la tribu des boréliens

�� � � �. Nous

pouvons maintenant expliquer pourquoi.

En fait, la tribu des boréliens � � � �

n’est pas une tribu complète. On peut doncla compléter et construire la tribu complète

�� � � � �. C’est cette tribu complète�� � � �

que l’on appelle tribu de Lebesgue . La mesure de Lebesgue�� se définit

en fait comme la seule mesure sur cette tribu complète � � � � �

et la mesure deLebesgue est la seule mesure complète sur

�� � � � �telle que

��� � � � � � ��� � � � 3

� � où � � � � ��� �� � � � �# �# �

�.

Le théorème 16 explique aussi pourquoi, dans la littérature, on confond fré-quemment la tribu de Lebesgue

�� � � � �et la mesure de Lebesgue avec la tribu des

boréliens � ���

et la restriction de la mesure de Lebesgue à la tribu des boréliens.

6.6 L’ espace� �������������

Considérons l’application ��� � qui à� � ��� ��� �����

associe le nombre réel � � � � � � � � � . C’est une application qui ne prend que des valeurs positives.Nous avons alors le résultat suivant.

Proposition 17 Avec les notations précédentes, l’application ��� � est une semi-norme .

Nous laissons la démonstration facile de ce résultat au lecteur en guise d’exer-cice. On rappelle qu’une semi-norme

�sur un espace vectoriel � de corps de base�

(égal à�

ou�

en pratique) est une application à valeurs réelles positives telleque :

–� � � � � �

– Pour tout ���� � ,

� �� �� � � � �� � � ��� �– Pour tout

� ��,� � � � � � � � � �� �

69

Page 86: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Le point crucial de ce résultat est que �� � n’est qu’une semi-norme et non pasune norme. Pour que � � soit une norme, il faudrait que l’implication � � �� � � � � �

soit vraie. Or cette implication n’est pas vraie en raison du théorèmesuivant.

Théorème 13 Avec les notations précédentes,

� � �p.p. �

� � � � � � � ���

PREUVE: L’implication directe est une conséquence directe du théorème 16 (b).La réciproque est une conséquence de l’inégalité de Bienaymé-Chebyshev. Eneffet, si

� � � � � � � �, alors l’inégalité de Bienaymà c

�-Chebyshev implique que� � � � � � �

�� � � �

pour tout entier � � et comme� � � � � �

�� �

croît vers� � �� ���, on en déduit que

� � � � �� ��� � � �et donc que

� � �(p.p.).

Ce résultat nous montre qu’une application mesurable nulle seulement presquepartout a une intégrale nulle. Définitivement, ��� � n’est qu’une semi-norme.

Définissons alors la relation � sur� � � ��� ����

par

� � ��� � � � � �- p.p

�Il est facile de voir que � est une relation d’équivalence. On peut donc définir l’en-semble quotient

� � � ��� ����� 5�� de� � �������� �

par cette relation d’équivalenceet on pose la définition suivante.

Définition 32 On note��� � ��� ����

l’ensemble quotient �� � � � � � �

de

� ��� ��� ����par la relation d’équivalence "égalité presque partout" notée � .

L’ensemble� � � ��� ����

est donc, par définition d’un ensemble quotient, l’en-semble des classes d’équivalence pour la relation d’équivalence � .

Si� ��� ������� ���

(ce qui signifie que�

est une classe d’équivalence et nonpas, à proprement parlé, une application), on note � � la valeur commune des � � lorsque

�parcout la classe d’équivalence de

�.

On montre que l’ensemble��� � ��� ����

est un espace vectoriel sur�

et quel’application � � � � ��� ��� ����� � 3 � � � ��� �

qui à� � � � ��� ����

associe � �est maintenant une norme sur ce nouvel espace. L’espace

� � � ��� ����est complet

pour cette norme.

70

Page 87: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

6.7 La version définitive du théorème de la conver-gence dominée

Théorème 14 (Convergence dominée de Lebesgue-II) Soit������� ���

un espacemesuré et

� ������ � une suite d’applications mesurables

�� � � ��� ��� �

� � � � ��� �. S’il existe une application mesurable

� � ��������� ���telle que� �

�� � �

,� 3 � � � pour tout entier � � et si la suite

�� converge

�-p.p

vers une limite�

alors :(i)

������

� � ��3 � � � � � �

,(ii)

� � ���������� �,

(iii)����� � �

� � � � � � � � .

PREUVE: Posons � � � ��� � � � ��� � � � % � � � � �

, � � , et . � ��� � ������ ��� � � � � � � � �

. Les ensembles . � et � � sont mesurables et négligeables parhypothèse 1. L’union � � � � � � � � � . � est donc mesurable et négligeable aussi.Définissons alors, pour tout entier � � , l’application

�� � � � �

par

��� � � � �

�� � �

si� � � ��

�� � � � �

si� � �

En d’autres termes, nous avons�� � �

� 1l��� . Définissons aussi� � � � �

par

� � � � � � � � �si

� � �� � � � � �si

� � �

c’est-à-dire� � �

1l� � . Pour tout� �

, nous avons� ��� � � � � � � � �

et����� ��� � � � � � � �

. Aussi, la séquence� ���� satisfait-elle les conditions de la

première version du théorème de convergence dominée de Lebesgue que nousavons donnée (théorème 11).

Comme��3 � � �

�3 �

presque partout, nous avons donc� ��3 � � �

� ��3 � �

presque partout et donc, d’après la proposition 16,� � �

�3 � � � � �

� � ��3 � � � � . D’après le théorème 11 (i), nous avons donc

� � ��3 � � � � � �

.

Comme� � �

presque partout et que d’après le théorème 11 (ii),�

� � � ��� ����, nous en déduisons (ii) par application de la proposition 16.

1Le fait que les ensembles négligeables qui interviennent sont mesurables explique pourquoi iln’est pas nécessaire de supposer la mesure

�complète.

71

Page 88: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Enfin, comme�� � �

� presque partout et que� � �

presque partout, nousavons

� �� � � � � �

� � � et� � � � � � � � � d’après la proposition 16. Nous

obtenons donc (iii) comme conséquence du théorème 11 (iii).

Ce théorème a une version continue très utile.

Corollaire 1 Soit� ��� �����

un espace mesuré. Soit� � � � � ��� une famille d’élé-

ments de� ��� ��� ����

. Supposons qu’il existe� � � et une application (nécessai-

rement mesurable)� � ����� � � � � ��� ��� �

telle que����� � � � � � � �

presquepartout. S’il existe une application

� � ��� ��� �����telle que pour tout

� �,� � � � � �

presque partout, alors(i)

����� � � � � � � � 3 � � � � � �,

(ii)� � ���������� �

,(iii)

����� � � � � � � � � � � � � � .

PREUVE: Il suffit de remarquer que����� � � � � � � �

presque partout si et seule-ment si, pour tout suite

�� convergeant vers

� � , ����� ��� � � � � � � � � � � � � etd’appliquer le théorème de la convergence dominée.

Remarque : le théorème de convergence dominé est évidemment très utile dans lapratique. Insistons sur le fait que le "presque partout" utilisé dans l’énoncé de ceterme fait que les ensembles négligeables que l’on considère sont des ensemblesmesurables. Pour énoncer ce théorème, on peut donc très bien se contenter dedéfinir un ensemble négligeable comme un ensemble mesurable de mesure nulle.

Exercice 17 Montrer que le théorème de convergence dominée reste vrai si onremplace

�par

�ou

�.

Exercice 18 Démontrer la proposition suivante qui généralise la proposition 13.

Proposition 18 En supposant l’existence des intégrales et la mesurabilité des en-sembles et des applications utilisées, nous avons :

(a) Si� � � � �

presque partout, alors� � � � � � � � � � � � � .

(b) Si� � � � � et

� � �presque partout, alors

� � � � � � � � � � � � � .

(c) Si� � � � � �

pour presque tout� � � , alors

� ��� � � � � �même si

� � � � � ��.

(d) Si� ��� � � � �

, alors� � � � � � � �

même si� � � � � �

pour presque tout� � � .Expliquer pourquoi il n’est pas nécessaire de supposer la mesure complète.

72

Page 89: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 7

Intégration sur les espaces produits

Le but de ce chapitre est essentiellement de présenter le théorème de Tonelli-Fubini. Ce théorème est essentiel pour intégrer des applications définies sur desespaces produits, notamment des applications de

� �dans

�.

7.1 Tribu produit : définition et premières proprié-tés

Considérons une famille d’espaces mesurables��� � � � � ��� � � � où est un en-

tier supérieur ou égal à�. Le produit cartésien

� � � � � � � �'�(� � � , que nousnoterons aussi

� � � � � � � est l’ensemble des suites à éléments (ou -uplets=� � � � �(�(� � � � où, pour chaque+ � �

� ,� � � � .

On appellera rectangle ou pavé mesurable tout sous-ensemble � de�

de laforme � � � � � � � �(�(� � � � , que nous noterons aussi

� � ��� � ��� où, pour tout+ � �� , � � � .

On construit alors très facilement une tribu sur�

à l’aide de la définition sui-vante.

Définition 33 Avec les notations qui précèdent, on définit la tribu produit � �

� �(�(� � � , que l’on notera aussi

� � ��� � � , comme étant la tribu engendrée parle produit cartésien

� � ��� � � des tribus � , + � �

� :

��

��� � � �

� ��

��� � � � �

73

Page 90: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

En d’autres termes, la tribu produit sur�

est la tribu engendrée par les rec-tangles mesurables de

�.

Remarque : Il est très important de noter que l’ensemble des rectangles ou pavésmesurables n’est pas forcément une tribu. D’où la nécessité de considérer la tribuengendrée par ces rectangles.

On appelle+ ème coordonnée , l’application � � � � � � � définie, pour tout� � � � �(�(� � � � �� �

, par � � � � � � �(�'� � � � � � � � . On alors la proposition suivante.

Proposition 19 Avec les notations précédentes, la tribu produit est la plus petitetribu

�sur

�telle que chaque application coordonnée � � � � � � � � � � ��� � �

,+ � �� soit mesurable.

PREUVE: Nous faisons la démonstration dans le cas � �. Le cas % �

neprésente pas de difficulté supplémentaire.

Supposons que�

soit une tribu sur�

telle � � et � � soient mesurables. Soit� � � � � � � un élément de

� � � . Il est facile de voir que � � � � � �� � � � � � � � � � � � � � � et que � � � � � � � � � � � � et

� � � � � � � � � � � � .Aussi, � � � � � � � � � � � � � � � � � � � . Comme � � et � � sont supposéesmesurables et que

�est une tribu, les ensembles

� � � � � � et� � � � � � sont

des éléments de�

ainsi que � � � � � . Nous venons donc de montrer que si � � et� � sont mesurables, alors � � � � �

.

Nous traitons la réciproque. Nous supposons donc que�

est une tribu quicontient

� � � et nous cherchons à montrer que les applications � � et � � sontmesurables. Soit � � � . L’image réciproque de � � par � � est simplement � � �� � , qui est trivialement un élément de

� � � et donc un élément de�

parhypothèses. Il en va de même pour l’image réciproque par � � de tout élément de � . Nous en déduisons donc que � � et � � sont mesurables et donc l’équivalenceénoncée par la proposition.

Une application très importante dans la pratique de ce résultat est le théorèmesuivant.

Théorème 15 La tribu des boréliens�� ��� �

est égale à la tribu produit� � ��� � �� � � : � � � � � ��

��� � � � � �

74

Page 91: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Exercice 19 Démontrer ce résultat en se rappelant que la tribu des boréliens de� �

est engendrée par l’ensemble des rectangles � � � � ��� � ��� où chaque � �est ouvert et que les coordonnées de

� �sur

�sont trivialement continues donc

mesurables.

Il est important de dire que le produit de tribus est associatif. Si nous reprenonsles notations utilisées depuis le début de cette section, posons

� � � � � ��� � � et� � � � � ��� � � �

� où, bien sûr, � � � # 3� . Il est clair que

� � est la tribuproduit de l’espace produit

� � ��� � � � et que� � est la tribu produit de l’espace

produit� � ��� � � �

� � . On a bien sûr� � � � � ��� � � � � �

� � � ��� � � �� �� . On montre

alors que les tribus produits� � � � � et

� � ��� � � sont égales.

Une conséquence immédiate est donc que � � � � � � � � � � � � � � � � .

7.2 Mesurabilité des applications définies sur unproduit cartésien

Soient� � � � � � et

� � � � � � deux espaces mesurables et leur produit��� � �

� � � � � � � .Pour

� � � � � � �� � � � � � , on appellera respectivement� � -section et

� � -sectionde �

� � � � � � les ensembles

� � � � ��� � � � � � � � � � � � � � � �� � ��� � � � � � � � � � � �� � � �

Le premier résultat que l’on a est le suivant.

Théorème 16 Si � � � � , alors � � � � et � � � pour tout� � � � et

tout� � � � .

Exercice 20 Démontrer ce résultat.

Indication : Pour tout� � � � , poser

) � � � ��� � � � � � � � � � � �

et montrer que pour tout� � � � , ) � � est une tribu qui contient

� � � . Conclurepour � � � . Procéder de manière analogue en ce qui concerne � � .

75

Page 92: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Soit� � � � � � � � ! où ! est un ensemble quelconque. Pour tout

� � � � ,on désigne par

� � � l’application� � � � � � � ! qui, à tout

� � � � , associe lavaleur

� � � � � � � � . De même, pour tout� � � � , on désigne par

� � � � � � !l’application qui à tout

� � � � associe� � � � � � � � . On a alors le résultat suivant.

Théorème 17 Supposons que� ! � � ! � � est mesurable. Si

� � � � � � � � � � � � � � �

�� � ! � � est une application

�� � � � � -mesurable, alors

(i) Pour tout� � � � , � � � est

� -mesurable.

(ii) Pour tout� � � � , � � est

� -mesurable.

Exercice 21 Prouver ce résultat.

Indication : Il suffit de remarquer que� � � � � � � � � � � � � .

7.3 Mesure produit ou produit tensoriel de mesures

Définition 34 Soit� ��� ����

un espace mesuré. On dit que�

est une mesure -finie s’il existe une suite croissante d’ensembles mesurables

� � � � � � �(�(� � �telle que, pour tout entier � � ,

� ����� # �

.

Le théorème suivant annonce les théorèmes de Tonelli et de Fubini.

Théorème 18 Soient� � � � � �� � � et

� � � � � �� � � deux espaces mesurés. Soit � � � � .(i) L’application qui à tout

� � � � associe� � � � � � � , c’est-à-dire la valeur de

l’intégrale� � 1l

� � � � � � � � � � � � � � � est � -mesurable.

(ii) L’application qui à tout� � � � associe

� � � � � � , c’est-à-dire la valeur del’intégrale

� � � 1l� � � � � � � � � � � � � � � est elle aussi mesurable.

(iii) On a :�� �� �� 1l

� � � � � � � � � � � � � � �� � � � � � � � � �

� � �� � 1l

� � � � � � � � � � � � � � �� � � � � � � � �

Ce théorème nous permet alors de définir la mesure produit. En effet,le fait que

� � � � � 3 � � � 1l� � � � � � � � � � � � � � � et que

� � � � � 3 �76

Page 93: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

� � � 1l� � � � � � � � � � � � � � � soient mesurables et à valeurs dans

� � ��� � entraîne queles applications

� � � � 3 � � �

� 1l� � � � � � � � � � � � � � �

� � � � � � � �

et

� � � � 3 � � �

� � 1l� � � � � � � � � � � � � � �

� � � � � � � �

sont des mesures positives sur � � � . Ces mesures, en vertu de l’assertion (iii)

du théorème précédent sont même égales. Elles définissent alors ce qu’on appellela mesure produit

� � � � � . On pose la définition suivante.

Définition 35 Avec les notations du théorème précédent, on définit la mesure pro-duit

� � � � � comme étant l’application d’ensembles� � � � � � � � � � � � � � � ��� �

qui à tout � � � � associe

��� � � � � � � � � � �� �� �� 1l

� � � � � � � � � � � � � � �� � � � � � � �

� �� � �� � 1l

� � � � � � � � � � � � � � �� � � � � � � � �

On a alors le théorème suivant qui justifie, dirons-nous, l’appellation de me-sure produit donnée à

� � � � � .

Théorème 19 Avec les notations précédentes, la mesure produit� � � � � est la

seule mesure définie sur � � � telle que, pour tout � � � � � � ,� � � � � � � � � � � � � � � � � � � � � �

7.4 Le théorème de Tonelli-Fubini

Théorème 20 (Théorème de Tonelli-Fubini) Soit deux espaces mesurés -finis��� � � � �� � � et��� � � � �� � � . Soit

� � � � � � � � � � � � � � � � � � ! � � une appli-cation

�� � � � � -mesurable à valeurs dans un espace mesurable� � ��� � �

où �est

�,�

ou�

.

77

Page 94: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(a) Si� � � � �

, les applications

� � � � � 3 � ��

� � � � � � � � � � � � � � � (7.1)

et� � � � � 3 � �

� �� � � � � � � � � � � � � � � (7.2)

sont respectivement � et

� mesurables et

�� � � �

� � ��� � � � � � � �� �� ��

� � � � � � � � � � � � � � �� � � � � � � �

� �� � �� �

� � � � � � � � � � � � � � �� � � � � � � � �

(7.3)

(b) Si�

est à valeurs étendues ou à valeurs complexes et si�� �� ��

� � � � � � � � � � � � � � � � �� � � � � � � � # � �

(7.4)

alors� � ����� � � � � � .

(c) Si� � � � � � � � � � , alors

� � � � � � � � � pour presque tout� � � � , � �

� � ��� � � pour presque tout� � � � ; les applications définies par (7.1) et

(7.2) presque partout sont respectivement� ����� � � et

� ����� � � et l’égalité (7.3)est encore valable.

Remarques :

– Il est très important de garder en mémoire que la mesurabilité de�

par rap-port à la mesure produit est yne hypothèse incontournable dans l’énoncé duthéorème de Tonelli-Fubini. Sans cette hypothèse, on ne sait pas conclure.

– Le théorème de Tonelli-Fubini permet d’intervertir l’ordre des intégrales etd’intégrer de manière séquentielle par rapport à chacune des variables, souscertaines conditions quand même ! ! Ainsi, même lorsque

�est mesurable,

il ne faut pas oublier, avant d’appliquer Fubini, de vérifier que�

est designe constant ou intégrable. Si

�n’est pas de signe constant ou n’est pas

intégrable, l’égalité (7.3) n’est pas forcément vraie.

78

Page 95: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

– Avec toujours les mêmes notations que précédemment, considérons deuxapplications

� � � � � � � et� � � � � � � telles que

� � � � � � � �et

� � � ����� � � . On définit sur� � � � � l’application

� � � � � par� � � � � � � � � � � � � � � � � � � � � � � � � � � � . Cette application est mesurabled’après les résultats précédents. Le théorème de Tonelli-Fubini impliqueimmédiatement que

� � � � � � ����� � � � � � et que�� � � �

� � � � � � � � � � � � � � � � � �� �

� � � � �� � �

� � � � � � � �

Tout ce qui précède s’étend assez facilement au cas de espaces mesurables.On montre que le produit de mesures est associatif. On montre aussi, dans laformule d’intégration successive (variable par variable) que les variables peuventen fait être intégrées dans l’ordre que l’on veut.

Si nous résumons les remarques précédentes de manière un peu caricaturale(mais correcte) : si on intégre une application positive, on fait ce qu’on veut ; si

�est de signe quelconque ou complex, on commence par montrer que

� � �est

intégrable par rapport à la mesure produit et ensuite, et seulement ensuite, on sepermet d’intégrer comme on veut.

7.5 La mesure de Lebesgue sur� et application

aux calculs des probabilités

Nous avons déjà présentée la mesure de Lebesgue sur� �

, � � . Dans ceparagraphe, nous allons comparé cette mesure de Lebesgue au produit tensorieldes mesures de Lebesgue sur

�. Le but est évidemment de nous donner le moyen

de ramener le calcul d’intégrales multiples à celui d’une succession d’intégralessimples.

Nous avons vu (cf. théorème 15) que la tribu des boréliens�� � � �

est égale àla tribu produit

� � ��� � � � � et que � � �(� � � � �� � � � � �� � � � .

Nous savons, de plus, grâce à ce qui précède, que la mesure produit � � �� � ��� � � est définie de manière unique sur

�� ��� �. On s’attendrait, évidemment, à

ce que � � soit exactement la mesure de Lebesgue�� .

En fait, il n’y a pas tout à fait égalité entre les deux mesures. Elles coïncidentsur

�� � � �mais la mesure de Lebesgue est définie sur la tribu dite de Lebesgue, qui

contient tous les boréliens, mais qui reste strictement plus grande que la tribu des

79

Page 96: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

boréliens. Il est facile de s’en rappeler : la tribu de Lebesgue sur� �

est complètealors que la tribu produit

� � � �ne l’est pas !

Il se trouve que la mesure de Lebesgue sur� �

est la mesure complétée dela mesure produit � � � � � ��� � � , que l’on notera � � �(�(� � � . On peut doncformellement identifier ces deux mesures et appliquer Fubini en respectant lesremarques faites à la fin du paragraphe précédent.

En probabilité, il arrive qu’on ait à considérer des densités de probabilité à variables réelles

� �� � �� � � �(�(� �� � � et que ayons à intégrer cette fonction à variables. Etant donné que

�est positive (par définition d’une densité de probabi-

lité), le théorème de Fubini va pouvoir s’appliquer sans se poser de questions etl’on aura : �

� �� �� � � �(�(� �� � � � � �(�'� � � ���� ��� �(�(� � � � � � � � �(�(� �� � � � �

� �(�(� � � � � �� � �

et l’ordre d’intégration des variables peut être changé arbitrairement.

80

Page 97: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 8

Lebesgue et Riemann : éléments desynthèse

Au vu des notions qui ont été introduites jusqu’ici, il est opportun de faire lepoint sur la théorie de l’intégration en prenant en compte, dans notre réflexion,l’intégrale de Riemann qui est l’outil usuel auquel les étudiants sont habitués lors-qu’ils découvrent la théorie de Lebesgue. En général, un chapitre de synthèse dece type où la comparaison entre l’intégrale de Riemann et l’intégrale de lebesguesous-tend une réflexion pratique sur l’utilisation de ces théories est souvent réduità quelques remarques dans les ouvrages spécialisés. Nous pensons, au contraire,que pour une bonne compréhension de la théorie et de son utilisation, ce chapitren’est pas de trop et mérite que le lecteur s’y attarde quelque peu pour les raisonssuivantes.

A ce niveau du cours, il est tout à fait normal que les étudiants se posentquelques questions. Ils peuvent se demander s’il faut utiliser Lebesgue ou Rie-mann en pratique, si on peut statuer sur l’approche la plus commode dans lesapplications, s’il faut oublier définitivement Riemann et considérer que Lebesguerépond à tous les problèmes. D’autres peuvent même penser que la théorie de Le-besgue ne sert pas à grand-chose et qu’il vaut mieux se contenter de Riemann carc’est cette théorie de l’intégration que l’on va vraiment utiliser.

Que les étudiants se rassurent. Ces interrogations sont aussi partagées parbeaucoup de physiciens, qui considèrent que le gain apporté par la théorie deLebesgue par rapport à l’intégrale de Riemann ne justifie pas l’investissement in-tellectuel que la théorie de Lebesgue requiert.

Ces opinions et approches diverses ne peuvent qu’ajouter à la confusion de

81

Page 98: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

l’étudiant. Notre but est donc d’éclaircir la situation et, du coup, de préparer lelecteur à ce qui va suivre. En effet, dans la suite de ce cours, de plus en plus decas concrets que l’on rencontre en pratique vont être inclus.

De manière plus précise, nous allons rappeler que la théorie de Lebesgueest particulièrement commode en théorie des probabilités pour manipuler desvariables aléatoires qui sont définies sur un espace relativement abstrait sommetoute. En ce sens, l’apport de la théorie de Lebesgue en théorie des probabilitésjustifie l’effort requis.

Puis nous présenterons une comparaison mathématique de l’intégrale de Rie-mann et de l’intégrale de Lebesgue. Cette présentation nous permettra de répondreaux questions soulevées ci-dessus.

8.1 Apport de la théorie de Lebesgue en théorie desprobabilités

Nous avons vu dès le début de ce cours que la notion de tribu apparaît trèsnaturellement lorsqu’on cherche à formaliser des expériences dont le résultat estaléatoire et que la probabilité d’un événement est, là encore de manière naturelle,une mesure sur la tribu des événements possibles. Lorsqu’on veut alors intégrerune variable aléatoire, on ne dispose que de peu de connaissances sur l’espace pro-babilisable qui nous sert à modéliser notre expérience : nous n’avons qu’une tribuet qu’une mesure. La théorie de Riemann n’est donc pas applicable directementpuisque cette théorie concerne

�. La théorie de Lebesgue est donc pratiquement

incontournable en théorie des probabilités pour construire l’intégrale des variablesaléatoires. En théorie des probabilités, définitivement, l’effort intellectuel requispar la théorie de l’intégration est rentable.

8.2 Comparaison des intégrales de Riemann et deLebesgue

Lorsqu’on considère maintenant des applications définies sur�

et que�

estmuni de la mesure de Lebesgue, voire d’une mesure de Lebesgue-Stieltjes (cf.annexe B, en va-t-il de même ? Est-ce qu’il nous faut obligatoirement utiliser lathéorie de Lebesgue ?

82

Page 99: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous allons répondre à cette question en analysant la relation entre l’intégralede Riemann et l’intégrale de Lebesgue. Cette analyse, d’ailleurs, nous permettrade compléter nos remarques d’introduction du chapitre 5. En effet, nous avons jus-tifié notre construction de l’intégrale de Lebesgue en décrivant comment calculerla surface sous la courbe représentative d’une application positive. Nous sommesdonc en droit d’espérer que les intégrales de Lebesgue et de Riemann coïncident.On espère aussi gagner quelque chose avec la théorie de Lebesgue, à savoir queles applications intégrables au sens de Lebesgue forment une classe plus grandeque les applications intégrables au sens de Riemann.

C’est ce que nous allons voir maintenant. Il s’avère effectivement que les fonc-tions intégrables au sens de Riemann sont également intégrables au sens de Le-besgue et que les intégrales de Riemann généralisées, à condition qu’elles soientabsolument convergentes, sont elles-aussi intégrables au sens de Lebesgue.

Quelques rappels sur l’intégrale de Riemann sont nécessaires.

Tout d’abord, un point sur la terminologie. La notion d’intégrale de Riemannconcerne (nous allons le voir dans la définition que nous rappelons ci-dessous),les applications définies sur sur un intervalle

��� ��� � borné de�

(3�� # � � � #

�). Lorsque

� � 3��et / ou

� � �, on parle alors d’intégrale généralisée de

Riemann. Nous reviendrons sur ces intégrales généralisées un peu plus loin. Pourl’instant, traitons l’intégrale de Riemann sur un intervalle borné.

Définition 36 Une application� � ��� ��� � � �

,3�� # � � � # �

, est dîte inté-grable au sens de Riemann ou, plus simplement, Riemann-intégrable s’il existedeux suites de fonctions en escaliers

� � � � ��� � et������ � � , respectivement croissante

et décroissante, telles que � � � � � �� et

������ �

� �

������ � 3 � �

� � � � � �.

Avec les notations de la définition précédente, la séquence� �

�� �

� � � , ���,� � �(�(�

, est croissante du fait de la croissance de� � � � � � � . On a de plus

� �

�� �

�� � � � � �

����� � � � � �

�� � � � � # � �

de sorte que les séquences� �

�� �

�� � � , � ���� � �'�(�

et� �

�� �

�� � � , � ���� � �(�(�

admettent chacune une limite. Les limites de chacune de ces suites sont en faitégales du fait que

������ �

� �

������ � 3 � �

� � � � � �. On montre de plus que

cette limite commune ne dépend pas du choix des séquences� � � � et

�����. D’où la

définition suivante.

83

Page 100: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Définition 37 Soit� � ��� ��� � � �

,3�� # � � � # �

, une application Riemann-intégrable. Soient deux suites quelconques de fonctions en escaliers

� � � � ��� � et�������� � , respectivement croissante et décroissante, telles que � � � � � �

� et

������ �

� �

������� � 3 � �

� � � � � ���

L’intégrale de Riemann� �

�� � � � de l’application

�sur l’intervalle

��� ��� � est

la valeur commune des limites des séquences� �

�� �

� � � , � ��,� � �(�(�

et� �

�� �

� � � , � ��,� � �(�(�

lorsque tend vers l’infini :� �

�� �� � � � �����

� �

�� �

� � � � ������

� �

����� � � �

N’oublions pas du’une application intégrable au sens de Lebesgue (on diraLebesgue-intégrable) est, avant tout, une application mesurable. Si nous vou-lons alors étudier l’intégrabilité au sens de Lebesgue d’une application Riemann-intégrable

� � ��� ��� � � �, nous devons d’abors étudier la mesurabilité de cette

application. En effet, pour une application quelconque� � ��� ��� � � �

Riemann-intégrable, rien ne nous garantit une quelconque mesurabilité de

�.

Dans ce cours, nous allons évacuer cette difficulté. Nous alons supposer dansl’énoncé des résultats suivants que l’application que l’on considère est effective-ment mesurable par rapport à la tribu de Borel. Nous nous permettons de procéderainsi car la plupart des applications que l’on rencontre en pratique sont continuesou continues par morceaux, et donc mesurables par rapport à la tribu des boréliens.

Proposition 20 Si� � ��� ��� � � �

,3�� # � � � # �

, est une application mesu-rable et Riemann intégrable sur

��� ��� � , alors�

est intégrable au sens de Lebesgueet les deux intégrales sont égales :

� �

�� ��� � � � � � �

1l � � � � � �� �

PREUVE: Il existe une suite croissante de fonctions en escaliers� � � � et une suite

décroissante de fonctions en escaliers�����

telles que � � � � � �� et

� �

������� � 3

� ��� � � � tende vers

�avec � et on a :

������

� �

�� �

�� � � � ������

� �

����� � � � � �

�� �� � � � (8.1)

84

Page 101: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Comme � � � � � � � � , �est clairement intégrable. De plus, une fonction en

escalier est trivialement mesurable et intégrable au sens de Lebesgue. On a donc,pour tout ,

�� � 1l � � � � � �

� � � �

�� �

�� � � � � �1l � � � � � �

� � ��� 1l � � � � � �

� � � �

���� � � �

(8.2)Il suffit de combiner (8.1) et (8.1) pour terminer la démonstration.

Traitons maintenant des intégrales généralisées de Riemann.

Définition 38 Soit� � � � �

.

(i) On dit que�

est localement intégrable au sens de Riemann si�

est inté-grable sur tout intervalle

��� ��� � , 3�� # � � � # �.

(ii) Soit3�� � � # �

et3�� # � � �

. On dit que�

admet une intégralegénéralisée sur

��� ��� � (ou que l’intégrale généralisée de�

est convergente

sur��� ��� � ) si

�est localement intégrable et

������ � � � � � � � � � �

�� �� � � � existe dans

�. On écrit � �

� �� �� � � # � �

(iii) Soit3�� � � # �

et3�� # � � �

. On dit que�

admet une intégralegénéralisée absolument convergente sur

��� ��� � (ou que�

est absolument in-tégrable sur

��� ��� � ) si�

est localement intégrable et� � �

admet une intégralegénéralisée (id est

� �

�� � �� � � � # �

). On écrit� �� �

� � � � � � # � �

Remarques :– Si

�est absolument intégrable alors

�admet une intégrale généralisée.

– Pour que�

admette une intégrale généralisée sur��� ��� � , il faut et il suffit que

pour tout� � � ��� � , �

admette une intégrale généralisée sur��� � � � et sur

� � ��� �et l’on a

� �

�� �� � � � � � ��

� � � � � �

�� �� � � .

Nous avons alors le résultat suivant qui généralise la proposition 20 aux inté-grales généralisées de Riemann.

Proposition 21 Soit� � � � �

une application mesurable et localement inté-grable au sens de Riemann, id est intégrable sur tout intervalle fermé borné de�

.

85

Page 102: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(a)�

est intégrable au sens de Lebesgue sur��� ��� � , 3�� � � � � � �

si et seulement si� �

�� � � � � � � � # �

, c’est-à-dire si�

admet une intégraleabsolument convergente sur

��� ��� � .(b) Si

�est intégrable au sens de Lebesgue sur

��� ��� � (si donc, de manièreéquivalente, l’intégrale généralisée de

�est absolument convergente sur��� ��� � ), on a

� � � �1l � � � � � �

� � � �

�� � � � � � � � � � �

1l � � � � � �� � � �

�� ��� � � � �

(8.3)

PREUVE: Nous nous contentons de faire la démonstration pour� � �

et� � �

,les autres cas englobés par la proposition se démontrant de manière analogue.

Preuve de (a). D’après la proposition 20,� ��

� � � � � � � � � � � � �1l � � � � � � ��� (8.4)

pour tout entier . Le théorème de la convergence monotone nous permet alorsd’écrire que

������

� ��

� � ��� � � � � � � � � �1l � � � � � �

� �(8.5)

D’où l’assertion (a).

Preuve de (b). La première égalité dans (8.3) est aussi une conséquence immédiatede (8.5). Pour démontrer la seconde égalité de (8.3), on utilise la convergencedominée au lieu de la convergence monotone. En effet, la séquence d’applications�

1l � � � � � converge vers�

1l � � � � � . De plus,� �

1l � � � � � � � � � �. Aussi, si

�est intégrable

au sens de Lebesgue de� � ��� �

, on a, par application du théorème de convergencedominée :

������

� �1l � � � � � � � � �

1l � � � � �� � � # � �

Il suffit d’appliquer alors (8.4) pour obtenir le résultat énoncé.

Attention : L’égalité entre une intégrale généralisée de Riemann et l’intégrale deLebesgue n’est valable que si l’intégrale généralisée est absolument convergente.Nous n’insisterons jamais assez sur ce point. Si l’absolue convergence n’est pas

86

Page 103: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

assurée, on ne peut rien dire. Ainsi, la fonction� � 3 � ����� �� admet une intégrale

généralisée et on a � �� �

�� � �� � � � �

alors que cette fonction n’admet pas d’intégrale généralisée absolument conver-gente et n’est donc pas Lebesgue-intégrable. Ce contre-exemple montre quandmême que l’intégrale de Riemann a encore son utilité dans certains cas qui nesont pas rares étant donné que la fonction

� � 3 � ����� �� joue un rôle fondamental entraitement du signal.

Comme nous l’avons déjà dit, les résultats présentés ci-dessus supposent, dèsle départ, que l’application

�est mesurable par rapport à la tribu des boréliens.

C’est une hypothèse raisonable compte-tenu des applications que l’on rencontredans la pratique.

Si on ne fait pas cette hypothèse, il faut alors prouver la mesurabilité de�

.Par une amélioration des démonstrations présentées ci-dessus, on aboutit à desrésultats analogues à ceux qui précèdent mais où la mesurabilité de

�est assurée

seulement par rapport à la tribu de Lebesgue, et où les intégrales de Lebesgue sontcalculées par rapport à la mesure de Lebesgue complète

� �. Ces résultats plus

généraux où on n’évacue pas le problème de la mesurabilité de�

sont énoncéset démontrés à l’annexe C. Le lecteur verra le rôle déterminant joué alors parthéorème 16.

– La classe des applications Lebesgue-intégrables par rapport à la me-sure de Lebesgue (complète) contient la classe de toutes les applicationsRiemann-intégrables. 1

– La classe des applications Lebesgue-intégrables par rapport à la mesurede Lebesgue (complète) contient aussi la classe de toutes les applicationsdont l’intégrale généralisée de Riemann est absolument convergente.

– La classe des applications Lebesgue-intégrables par rapport à la mesurede Lebesgue (complète) ne contient pas la classe de toutes les applicationsadmettant une intégrale généralisée non absolument convergentes.

1La classe des fonctions Lebesgue-intégrables est même strictement plus grande que celle desapplications Riemann-intégrables, puisque l’application

���� %��� ���qui associe

&à tout �����

et,

à tout élément de��� � , est intégrable au sens de Lebesgue (son intégrale vaut

,) mais non

Riemann-intégrable.

87

Page 104: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

8.3 Dérivation

Un des résultats les plus importants de la théorie de Riemann est le suivant.Si

� � � � �est continue, alors, pour

� �, la fonction

� �� � � � ��

� � � � � �

est dérivable et a pour dérivée�

. Evidemment, on peut espérer avoir un résultatanalogue pour l’intégrale de Lebesgue, valable sur une classe plus large que cellepour laquelle la théorie de Riemann le démontre. Effectivement, on a les deuxthéorèmes suivants que l’on admettra.

Théorème 21 Si � � ��� � �et si on pose

� � � � �1l � � � � � � � ��� � � � �

(8.6)

pour tout �

, alors�

est continue (et même uniformément),� �

existe presquepartout et � � �� � � � �� � � �

- p.p.

Théorème 22 Si� � ��� ��� � � �

,3�� # � � � # �

, est différentiable en toutpoint de

��� ��� � et si� � � ��� ��� ��� � � , alors

� � � 3 � � � � � �1l � � � � � � � � � �

(8.7)

Ces résultats montrent donc que l’intégrale de Lebesgue sur�

généralise lesrésultats obtenus avec l’intégrale de Riemann. On ne demande plus à ce queles fonctions soient continus mais qu’elles soient Lebesgue-intégrables. On adonc élargi le domaine de validité des résultats classiques de Riemann en ce quiconcerne la dérivation.

8.4 Conclusions

En vertu des résultats exposés ci-dessus, nous pouvons conclure comme suit,en espérant que ce qui suit permettra au lecteur de répondre aux interrogationsqu’il peut se poser.

Tous les résultats classiques et importants de la théorie de Riemann sont va-lables pour la théorie de Lebesgue sur

�pour une classe encore plus large de

fonctions, qui est la classe des fonctions Lebesgue-intégrables. Donc, dès que l’on

88

Page 105: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

travaille avec des fonctions Lebesgue-intégrables, il n’y a aucune raison d’utiliserdes notations différentes pour l’intégrale de Lebesgue et l’intégrale de Riemann.A partir de maintenant, on peut donc oublier

�et

� �et la notation

� �

�� �� � � où3�� � � � � � �

désignera tout aussi bien l’intégrale de Lebesgue sur��� ��� � que

l’intégrale de Riemann ou l’intégrale généralisée de Riemann (si�

ou�

est infini)dès que

�est Lebesgue-intégrable. Par exemple, l’égalité (8.7) s’écrira désormais� � � � 3 � � � � � � �

�� � � � � .

Certains pourraient alors être tentés d’oublier l’intégrale de Riemann, au vude ce qui vient d’être dit.

Ceci dit, l’argument est fallacieux. En effet, dans la pratique, comment vérifie-t-on qu’une application est Lebesgue-intégrable ? En général, la mesurabilité n’estpas un problème car les applications rencontrées en pratique sont souvent conti-nues ou continues par morceaux. Par contre, pour vérifier que l’intégrale du mo-dule de l’application est finie, on compare en général ce module à une applicationqu’on sait être Lebesgue-intégrable. Cette application de référence sera dans laplupart des cas Riemann-intégrable ou d’intégrale généralisée absolument conver-gente. On ne peut donc pas vraiment oublier les résultats principaux de l’intégralede Riemann.

De plus, il serait d’autant plus fâcheux d’oublier Riemann que l’on peut ren-contrer des applications qui ne sont pas Lebesgue-intégrables mais qui admettentquand même une intégrale généralisée. Ces cas ne sont pas pathologiques. Nousavons déjà signalé celui de

� ��� �� : cette une fonction que l’on rencontre souvent en

pratique du signal.

Plus tard, nous traiterons des processus aléatoires. Soit��������� �

un espaceprobabilisé,

�une partie de

�et

� � � � � � �une application. Pour tout� �

, désignons par� ��� �

l’application de�

dans�

qui, à� �

, associe la va-leur

� ��� � � �. On dira que

�est un processus stochastique si pour tout

�� �,

� ��� �est une variable aléatoire. Nous serons amenés à donner un sens à

� � � � � � � �, c’est-

à-dire à définir une application de�

dans�

qui à� �

associe� � � � � � � � � �

.La difficulté est que, même pour

� �fiwé, rien ne nous dit que la fonction� � 3 � � ��� � � �

(qu’on appelle une trajectoire de�

) est mesurable. On aura alorsrecours à la théorie de Riemann pour s’en sortir. Il est donc clair qu’en théorie desprobabilités et des processus aléatoires, certes Lebesgue est quasiment incontour-nable mais Riemann est aussi bien utile.

Il n’est donc pas conseillé d’oublier Riemann.

89

Page 106: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Plutôt que de chercher à oublier Riemann, il vaut mieux se souvenir des trèsimportants résultats de la théorie de Lebesgue que sont les théorèmes de conver-gence (Beppo-Levi mais surtout convergence monotone, convergence dominée)et le théorème de Fubini-Tonelli et savoir les appliquer sans coup férir aux ap-plications Riemann-intégrables (et donc mesurables) que l’on rencontre dans lapratique.

Autrement dit, tant que l’on considère des fonctions réelles, Riemann agré-menté des résultats de convergence de la théorie de Lebesgue et du théorème deFubini suffit en général. Dès que l’on se place dans des espaces mesurés ou pro-babilisés, la théorie de Lebesgue est difficilement contournable mais Riemann nedoit pas être oublié.

Quelques remarques sur le calcul numérique des in-tégrales de Lebesgue et de Riemann

On pourrait penser que l’intégrale de Lebesgue ne se calcule pas aussi facilement quel’intégrale de Riemann, même pour une application continue

� ��� � ����� � ,�� � � .

En effet, on peut numériquement calculer l’intégrale de Riemann de�

grâce à laformule suivante :

� �

�� ��� � � � �� ����

� �� ��

����� �

��� � ��� � �� � � (8.8)

Il suffit en effet de choisir � assez grand et d’approximer �

�� ����� � � par� � ���� � ��� � ��� � ��� � � ���� .

Si on veut calculer numériquement cette intégrale en suivant la théorie de Lebesgue,il faut alors séparer la partie positive

� �de�

de la partie négativé� � (ce qui n’est pas

difficile et peu coûteux), puis calculer les intégrales de Lebesgue respectives de� �

et de� � et faire la différence de ces intégrales. Le problème est alors le calcul de l’intégralede Lebesgue d’une application positive. Il est clair que la définition abstraite 5.4 du pa-ragraphe 5.1 n’est pas très commode pour mener à bien ce calcul numérique. A premièrevue, on peut donc penser que calculer l’intégrale de Lebesgue, même d’une applicationcontinue, est relativement délicat.

Mais n’oublions pas les définitions 5.5 et 5.6 que nous avons données au paragraphe5.2. Ces définitions nous permettent évidemment de calculer numériquement l’intégrale

90

Page 107: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

au sens de Lebesgue. Le calcul numérique ainsi proposé est-il vraiment moins simple etplus coûteux que le calcul de l’intégrale de Riemann ?

91

Page 108: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 9

Fonctions et paramètres d’unevariable aléatoire

9.1 Espérance mathématique

Définition 39 Soit�

une variable aléatoire définie sur un espace probabilisé��������� �. On appelle espérance mathématique (ou valeur moyenne) de

�, l’in-

tegrale, si elle existe :

�� � � �

��

� � � � � � � � �(9.1)

On dit que�

est intégrable et on note� � � � ��� ���� �

si� � � � � � # �

.

Remarque : L’ensemble� � � ��� ��� �

est l’ensemble des variables aléatoires quisont égales presque partout à un élément de

��� ��������� �. Dans la suite, suivant

l’usage commun, nous nous contenterons de manipuler� � ��������� �

.

Propriétés importantes :

1.� ��� � ��� ��� � � � � � � � � � � � � � � � � # �

.Plus généralement,

� � � ��������� � � � � � � � � � � � � � � � � � # �Nous pouvons préciser la propriété importante suivante :� # / � � � � ����� ��� � � � � � ��� ���� �

2. Comme l’espérance est une intégrale, elle est linéaire. L’espérance mathé-matique est une forme linéaire sur

� � � ��� ��� �. D’où, pour tout couple de

variables aléatoires� � ��� �

, on a :

� � � �-/ � � � �� � � / � � � � �

� � � / �� � � (9.2)

92

Page 109: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

3. Une constante réelle � peut être considérée comme une v.a. réelle(constante) et l’on a :

�� � � � � � � � � � � �

� � � � � � � � �� � � � � �� �

4.� � � � � �

� � � � ���5.

� � � � � �� � � � �

� � � �6. �

� � � � � � � � � � � � � 3presque partout (c’est à dire que

� � �partout sauf sur un ensemble de mesure nulle).

7. Inégalité de Jensen : Soit � une fonction convexe mesurable de�

dans�

.Alors, si � est intégrable, �

�� � � � � � �

��� � �� .

N.B. : cette propriété reste vraie dans le cas des vecteurs aléatoires (cf. cha-pitre 12) avec � de

� �dans

�.

9.2 Moments d’ordre supérieur

Définition 40 Soit+ � �

, si� � � � ��� ��� � (c’est à dire que

� � est absolu-ment intégrable), le moment d’ordre

+de

�est défini par :

�� � ��� � �

�� � � � � � � � � �

(9.3)

Remarque : l’espérance mathématique est tout simplement le moment d’ordre 1.

Définition 41 Le moment centré d’ordre+

de�

est défini par :

��� � � 3�� � � � ��� (9.4)

Une variable aléatoire est dite centrée si son espérance mathématique est nulle.

93

Page 110: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

9.3 Variance

Définition 42 La variance d’une variable aléatoire est définie comme étant lemoment centré d’ordre

�, soit :� � � � � � � �6 � �

� � � 3�� � � �

� � � (9.5)

Nous pouvons vérifier que la variance peut s’écrire aussi comme :

�6 � �� � � � 3 �

�� � � �

� �(9.6)

L’écart-type de la v.a.�

est défini par :

=6 ��� � � � � � � ��� �� � �

� 3 ��� � � �

� �(9.7)

Notez que si la variance d’une v.a. est nulle, alors�

est presque sûrementconstante et égale à sa moyenne. Inversement, la variance d’une constante estnulle.

9.4 Inégalité de Markov et de Bienaymé-Tchebychev

9.4.1 Expression générale de l’inégalité de Tchebychev

Soit�

une variable aléatoire et � une fonction positive paire et croissante sur� � �� � �. Pour tout réel positif

�, on a :

��

� � � � � 3 � � � �� � � � � � � � � � � � � � � � � � � � � ��

� � � � �� � � � (9.8)

où� � � � � � � � � � �

désigne le supremum presque sûr de la variable aléatoire � � � �et vaut

���� � � � � � � � � � � � � % � � � ���. En pratique seule la borne supé-

rieure est utilisée. En considérant des fonctions � particulières, on peut dériver lesinégalités de Markov et de Bienaymé-Tchebychev.

9.4.2 Inégalité de Markov

Théorème 23 Soit�

une v.a. de moment d’ordre k fini, pour tout � réel stricte-ment positif, on a :

� � � � � ��� � � �� � � � � �� � �

(9.9)

94

Page 111: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

9.4.3 Inégalité de Bienaymé-Tchebychev

L’inégalité de Tchebychev est un cas particulier de l’inégalité de Markov :

Théorème 24 Soit�

une v.a. de moment d’ordre 2 fini, pour tout � réel stricte-ment positif, on a :

� � � � 3�

� � � � � � � � �6� ��

(9.10)

9.5 Fonction caractéristique

Définition 43 On appelle fonction caractéristique d’une variable aléatoire�

lafonction à valeurs complexes 6 définie sur

�par :

6 � � � � �� � � 6 � � � � � 6 � � � (9.11)

Propriétés :

1. L’existence de 6 � � � pour tout � résulte du fait que :

� � � � � � � � � � � � # � �

2. 6 � � � � � .

3. � � � � � 6 � � � � � � .

4. 6 � � � est continue.

5. � � � � � 6 � � � � � � 6 �43 � � .6. � � � ��� �� �

� � � � � , on a : � 6 � � � � � � � � � 6 � � � � �7. Si les moments d’ordre

+existent et si 6 est de classe . � (k fois continue-

ment dérivable) , alors :

�� � � � � �� � � �

6 � � � �

(9.12)

Nous complèterons ces propriétés un peu plus loin, lorsque nous aurons vu lanotion de loi d’une variable aléatoire.

95

Page 112: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

9.6 Fonction génératrice

La fonction génératrice est définie uniquement dans le cas d’une v.a. entière(à valeurs dans � ).

Définition 44 Soit�

une variable aléatoire entière. La fonction génératrice estdéfinie par :

� 6 � � � � 5 � � � � �� 3 � �

� � 3 � � 6 � � � � �� � 6 (9.13)

Remarques :– Lorsque

� � � � ��� ��� � , alors � 6 est+

fois différentiable et on a :

� � �

6 ��� � �

� � � � 3

�� �(�(� � 3 +

�� � � � � �

– � 6 � �� � � .

– � �6 � �� � � � � �

.– � �

� 6 �

�� � � � � � � 3

�� �

.–

�'�(�.

96

Page 113: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 10

Loi d’une variable aléatoire réelle

Jusqu’ici, nous sommes restés dans un espace probabilisé� ��� ���� �

. Etantdonné que cet espace probabilisé est, somme toute, assez abstrait, il n’est pastoujours très commode pour faire les calculs des moments, de la fonction caracté-ristique, etc. Il serait bien plus agréable de travailler sur

�, à condition de savoir

transférer ce qui n’est pas commode sur�

en un calcul plus facile sur�

. La théo-rie de la mesure nous donne l’outil adéquat : c’est la notion de mesure image,qui conduit sur le théorème dit de transfert et qui va nous permettre de mener lescalculs dans

�au lieu de

�. La notion de mesure image correspond à ce qu’on ap-

pelle la loi d’une variable aléatoire. Cette loi possède des propriétés remarquablesque nous décrirons.

10.1 Mesure ou loi image et théorème de transfert

Définition 45 Soient un espace mesuré�������� �

et� � � � �

une applicationmesurable. La fonction d’ensemble,

� � � � � � � � ��� � définie, pour tout � par

� � � ��� � � � � � � � � � � est une mesure positive appelée mesure image dela mesure

�par l’application mesurable

�. Lorsque la mesure

�est une mesure

de probabilité,� � � � est appelée loi image de

�par

�ou encore loi de

�.

Remarques :– Bien entendu, pour justifier cette définition, il faut évidemment vérifier que

l’application� � � � est effectivement une mesure. Ceci est un exercice de

routine laissée au lecteur.– La notation

� � � � que nous utilisons est celle proposée par [11].

97

Page 114: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

De nombreux auteurs préfèrent utiliser la notation� 6 pour désigner la me-

sure image de�

par�

. Nous l’emploierons donc aussi. Cependant, la notation� � � � , proposée dans [11], est très informative. En effet, la formule� � � ��� � � �� � � � � � � � � indique tout de suite comment agit

� � � � puisque, dans cette écri-ture, on passe du membre de gauche à celui de droite en ajoutant une parenthèseavant

�. Nous verrons aussi que certaines propriétés d’une mesure image s’ex-

priment de manière très concise et très commode grâce à cette écriture.

L’importance et la commodité de la notion de mesure image est illustrée parles résultats suivants.

Lemme 10 Soient un espace mesuré� ��� �����

,� � � � �

et� � � � �

,deux applications mesurables. Soit

� � � � la mesure image de�

par�

. La mesureimage de

� � � � par l’application mesurable�

est égale à la mesure image� ��� �

� � � � de�

par l’application mesurable� � �

:� ��� � � � � � � � � � � � � � � �

PREUVE: Soit � � � �. On a, par définition,

� ��� � � � � ��� � � �� � ��� � � � � ��� � � � . Or, l’image réciproque

��� � � � � ��� � � de � dpar l’application� � �est égale à l’ensemble

� � ����� � ��� � � � . On a donc� ��� � � � � � � � � � � � � � � ��� � � � � � � � � � � � ��� � � � � � � �

Comme�

est mesurable, on a encore, par définition de la mesure image,� � � ����� � � � � � � � ��� � � � � � � ��� � � .La mesure image permet de transférer un calcul d’intégrale sur

�en un calcul

d’intégrale sur�

. C’est le très important théorème de transfert que nous énonçonsmaintenant.

Théorème 25 (Théorème de transfert) Soient������� ���

un espace mesuré,� ������ � � � � � � ��� �

une variable aléatoire réelle, une application mesurable� � � � � � ��� � � � � � � ��� �

et� � � � la mesure image de

�par

�:

� ��� ���� 63 � � � ��� ��� �� � � � �3 � � � ��� ��� �� � � � �(i) L’intégrabilité de � � � �

par rapport à la mesure�

équivaut à celle de � parrapport à la mesure

� � � � image de�

par�

:� � � � ��� ���� � � � � � � � � ��� � � � � � � �

98

Page 115: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(ii) Si � est positive ou nulle ou si � � � �est intégrable par rapport à la mesure� � � � , alors

� � � � � � � � � � � � � � � � �� � � � � � � � � �

(10.1)

PREUVE: L’assertion (i) est une conséquence immédiate de (ii). Nous nouscontentons de démontrer (ii).

Commençons par supposer que � est positive ou nulle. D’après (5.6),

�� � � � � � � � �� � � ����� �� ��

� � �� � � � � � � � � � � ��� � �

(10.2)

D’après la définition d’une mesure image et le lemme 10,

� � � � � � � � � � � ��� � � � � � � � � � � � � � ��� � �

En reportant cette égalité dans (10.2), le résultat dérive de la définition même del’intégrale de � � � �

donnée par (5.6).

Supposons maintenant � de signe quelconque et � � � �intégrable. Nous pou-

vons écrire � sous la forme � � � � 3 � � avec � � � � 1l � � � � � et � � � 3 � 1l � � � � � .Comme � � � �

est intégrable, � � � � �et � � � � �

le sont aussi et on a�

� � � � � � � ��� � � � � � 3 �

� � � � � � � � (10.3)

On applique alors la première partie de la démonstration à � � � � �et � � � � �

, desorte que

�� � � � � � � � �

� � � � � � � � � �� � et�

� � � � � � � � �� � �� � � � � � � �� � .

On en déduit donc que � � et � � sont intégrables par rapport à la mesure� � � � , et que � est aussi intégrable par rapport à la mesure� � � � . On a donc�

� � � � � � � � �� � � �� � �� � � � � � ��� � 3 �

� � � � � � � � � �� � . Le résultat s’ob-tient alors en reportant cette dernière égalité dans (10.3).

Ce théorème donne donc une technique de calcul assez simple pour calculerdans l’espace des réels l’espérance mathématique au lieu d’intégrer une fonctiondans l’espace des événements élémentaires

�. Nous verrons qu’il s’étend sans

problème au cas des vecteurs aléatoires (cf. chapitre 12).

99

Page 116: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

10.2 Application à une mesure de probabilité

Considérons un espace probabilisé� ��� ���� �

et une variable aléatoire�

� � ��������� � . Nous voyons que nous pouvons exprimer le moment d’ordre+

par

�� � ��� � �

�� � � � � � � � � � � �

� � � � 6 �� � (10.4)

qui complète la définition donnée par (9.3).

Si nous considérons la fonction caractéristique 6 de�

, nous pouvonsl’écrire maintenant sous la forme

� � � ���

� � � � � � � � � � �(10.5)

qui complète la définition donnée au paragraphe 9.5 (cf. (9.11)). L’égalité précé-dente nous montre qu’au coefficient

3 � � près, 6 est la transformée de Fourierde la mesure positive

� � � � sur�

.

On montre alors que la fonction 6 � � � caractérise la loi entièrement, dans lesens où deux variables aléatoires

�et

�ont même loi (

� � � � � � � � � ) si etseulement si elles ont même fonction caractéristique :

� 6 � � � � 8 � � � � � � � � � � � �et

�ont la même loi

� �

10.3 Fonction de répartition d’une variable aléa-toire réelle

La notion de fonction de répartition est fondamentale en calcul des probabili-tés. Elle dérive de la notion de loi image.

Définition 46 La fonction de répartition� 6 d’une variable aléatoire réelle

�est

définie par :

� 6 � � 3 � � � � ��� � 3 � � 6 � � � � � � � � � 3 � �� � � � � � � � � � � 3 � �� � � � � � � � � �

Cette fonction de répartition possède des propriétés essentielles résumées dansla proposition suivante.

100

Page 117: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Proposition 22 Soit��������� �

un espace probabilisé et� � � ����� � � � � � � � �

une variable aléatoire réelle. La fonction de répartition� 6 de

�possède les

propriétés suivantes :(i)

� 6 est croissante(ii)

� 6 est continue à droite.(iii)

����� � �� 6 �� � � � et

����� � � �� 6 �� � � �

PREUVE:

Peuve de (i). Soit � �

, deux réels. Nous avons donc� 3�� # � � � �

� 3�� # � � � �, et donc,

� � � 3�� # � � � � � � � � 3�� # � � � � �, ce qui

montre que� 6 est croissante.

Preuve de (ii). Soit une suite décroissante�� ��� � � telle que

��

. La séquenced’ensembles

� � � ��

est décroissante et tend vers� � � �

. D’après la section1.6) nous en déduisons que

� 6 � � � � � � � � � �� �

décroît vers� 6 �� � �

� � � � � � �.

Preuve de (iii). Soit�� ��� � � � une suite croissante telle que

����� � � �

. La sé-quence formée par les ensembles

� � � ��, � � , est une suite croissante dont

la limite est� � � � � �

. Toujours d’après les propriétés fondamentales desmesures (section 1.6), nous concluons que

����� � � � � � �� � � ����� � 6 �� � � �

� � � � � � , d’où le résultat.

Soit�� ��� � � � une suite décroissante telle que

����� � � 3��

. La séquenceformée par les ensembles

� � � ��, � � , est cette fois une suite décroissante

dont la limite est l’ensemble vide. En vertu de la section 1.6, il vient����� � � � � �

�� � � ����� � 6 � � � � �

, d’où le résultat.

Remarque : Même si c’est trivial, il nous faut noter qu’une fonction de réparitionadmet une limite à gauche en tout point

�. En effet, si

���

,� �

��,

� ���� � �(�'�

, est une suite croissante (puisque� 6 est croissante) bornée par

� � �.

La proposition 22 admet une réciproque que nous énonçons sans démonstrationcar celle-ci dépasse le cadre de ce cours.

Théorème 26 Si� � � � � � � ��� vérifie les conditions (i), (ii) et (iii) de la pro-

position 22, alors�

est la fonction de répartition d’une unique loi de probabilitésur

� � ��� ��� �.

101

Page 118: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Remarques :

1. Si� � � � � � �

��� vérifie les conditions (i), (ii) et (iii) de la proposition 22,alors

�définit sur la tribu de Lebesgue

� ��� �une unique mesure positive,

appelée mesure de Lebesgue-Stieltjes et notée � � . Cette mesure � � estl’unique mesure sur la tribu de Lebesgue telle que pour tout intervalle � � ��� �de�

, � � � � � ��� � � � � � � � 3 � � � � �(10.6)

La restriction de � � à la tribu des boréliens�� � �

est aussi la seule mesuredéfinie sur

�� ���qui vérifie (10.6). Les propriétés (i) et (ii) sont d’ailleurs

suffisantes pour assurer ce qui vient d’être dit et nous invitons le lecteur àse reporter à l’annexe B pour plus de détails.

2. En complément de la remarque précédente, considérons maintenant unevariable aléatoire

� � � ��� � � � � � � � � �. La fonction de réparti-

tion� 6 de cette variable aléatoire engendre, en vertu de (i), une mesure

de Lebesgue-Stieltjes � � 6 sur la tribu de Lebesgue � ��� �

. D’autre part,� � � � , elle, est une mesure sur la tribu des boréliens � � �

et vérifie clai-rement

� � � � � � � ��� � � � � 6 � � � 3 � 6 � � � . Des propriétés d’unicité rappeléesci-dessus, on en déduit que

� � � � est la restriction de � � 6 à � � �

. End’autres termes,

� 6 définit entièrement la loi de�

Une fonction de répartition vérifie d’autres propriétés très importantes qu’ilest bon de connaître pour pouvoir effectuer les calculs en pratique.

Proposition 23 Soit��������� �

un espace probabilisé et� � � ����� � � � � � � � �

une variable aléatoire réelle. Avec les conventions d’écriture� � 3�� � � �

et� � � � � � (qui se justifient au vu de la proposition 22 (iii), la fonction de ré-partition

� 6 de�

possède les propriétés suivantes pour tout� ��� �

tels que3�� # � # � # �:

� � � � # � � � � �3 � 6 � � � (10.7)� � � � # � � � � � 6 � � 3�� (10.8)� � � � � � � � � � 6 � � � 3 � 6 � � 3�� (10.9)� � � � � � � � � �3 � 6 � � 3�� (10.10)� � � � # � � � � � � � 6 � � � 3 � 6 � � � (10.11)� � � � � � � � � � � � 6 � � � 3 � 6 � � 3�� (10.12)� � � � � � # � � � � � 6 � � 3�� 3 � 6 � � 3�� (10.13)� � � � # � # � � � � � 6 � � 3�� 3 � 6 � � � (10.14)

102

Page 119: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

PREUVE: Nous donnons les démonstrations de ces résultats car elles permettentde commencer à manipuler les fonctions de répartitions.

Preuve de (10.7). Nous avons� � # � � � � � � � � � , de sorte que

� � � � #� � � � �

3 � � � � � � �.

Preuve de (10.8) Soit�� � � � 3 �

�# � �

. La séquence des ensembles mesurables�� décroît vers

� � � � �et donc

����� � ����� � � � � � � � � �

. Or,� ���

�� � �

3� 6 � � 3 �

��

d’après (10.7). D’autre part,� � � � � � � � �

3 � � � � # � � �. On a

donc����� � �"�

�� � �

3 � 6 � � 3�� � �3 � � � � # � � �

. D’où le résultat.

Preuve de (10.9). Nous écrivons que� � � � � � � � # � � � � � � � �

, de sorteque

� � � � � � � � � � 6 � � � � � � � � # � � � � � � � � � � �. Le résultat dérive

immédiatement de (10.8).

Preuve de (10.10). On écrit que� � � � � � � � # � � � � � � � �

, de sorte que� � � � � � � � � � � � � # � � � � � � � � � � �et l’on applique (10.7) et (10.9).

Preuve de (10.11). Comme� � # � � � � � � � � � � � � � � � �

, nous avons� � � � # � � � � � � � � � � � � � � 3 � � � � � � � �, d’où le résultat.

Preuve de (10.12). Il suffit d’écrire que� � � � � � � � � � � � � � � � � � �

� � � � # � � � � �et d’appliquer ensuite (10.9) et (10.11).

Preuve de (10.13). On écrit que� � � � � � � � � � � � � � � � � # � � � � � � � �

� � �et l’on applique (10.9) et (10.12).

Preuve de (10.14). Etant donné que� � � � # � � � � � � � � � � # � # � � �

� � � � � � � �, le résultat découle de (10.9) et de (10.11).

Remarque : Dans certains ouvrages, la fonction de répartition est définie par� 6 � � � � � � # �. Dans l’énoncé de la proposition 22, il faut alors remplacer

"continue à droite" par "continue à gauche". Les propriétés énoncées à la proposi-tion 23 se voient elles-aussi légèrement modifiées. Il faut remplacer les limites àgauche par des limites à droite et les limites à gauches par la valeur de la fonctionde répartition au point considéré.

103

Page 120: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

10.4 Les densités de probabilité

Dans la suite de ce chapitre, nous allons manipuler les intégrales de fonc-tions réelles sur

�. En vertu des remarques du chapitre 8, tout ce qui va être dit

ci-dessous est valable que l’on considère les intégrales rencontrées comme des in-tégrales de Riemann ou comme des intégrales de Lebesgue. En effet, les fonctionsque nous allons rencontrer sont soit à support compact et Riemann-intégrables(donc Lebesgue-intégrables), soit définie sur tout

�et absolument intégrables (ce

qui équivaut à leur intégrabilité au sens de Lebesgue). Nous nous contenterons deparler de fonctions intégrables et cela signifiera donc que

� �� �� � �� � � � existe et

est fini, ce qui induit l’existence de� �� �

� �� � � .

Compte-tenu du théorème 26, il est assez facile de construire une fonction derépartition. Il suffit de se donner une fonction

� � � � �positive et intégrable

telle que� �� �

� �� � � � � . En effet, la fonction�

définie par

� �� � � � �

� �� ��� � � �

(10.15)

est une fonction de répartition car elle vérifie toutes les propriétés requises. Elleest même continue (et pas seulement à droite) et a pour dérivée

�. Cette remarque

très simple justifie la définition suivante.

Définition 47 Une fonction réelle� � � � �

est appelée densité de probabilitési elle est positive, intégrable et vérifie

� �� �

� �� � � � � �

Si nous nous donnons une densité de probabilité�

nous savons construire unefonction de répartition donnée par la formule (10.15).

Réciproquement, si�

est une variable aléatoire dont la fonction de réparti-tion s’écrit sous la forme (10.15),

� 6 admet donc une densité qui est�

(en touterigueur : presque partout). On dit que

�admet

�comme densité.

Certes, dans la pratique, on rencontre souvent des variables aléatoires répar-tition avec densité et nous consacrerons un paragraphe entier à ce cas. Mais ilest très important de souligner que si la fonction de répartition existe toujours, iln’en va pas de même pour la densité. Il existe, et ce ne sont encore pas des caspathologiques, des variables aléatoires qui n’ont pas de densité.

104

Page 121: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Il en va ainsi des variables aléatoires discrètes qui sont aussi très importantesen pratique : un jeu de pile ou face ou on gagne � euro si c’est pile et où onperd � euro si c’est face est un exemple basique de variable aléatoire discrète ; unélément binaire dans une transmission numérique qui peut valoir � ou

�est aussi

représenté par une variable aléatoire discrète. De telles variables aléatoires n’ontpas de densité et nous verrons pourquoi.

On peut aussi considérer l’exemple suivant. Soit�

une fonction à valeurs réelles,positive et intégrable et une séquence

� � � �� où� � � telle que

� �� �

� �� � � � �

� � ��

Alors, la fonction�

définie, pour tout �

, par

� � � � � �

�� � � � � � �

� � � �

est une fonction de répartition, mais elle n’a pas de densité et n’est pas discrètepour autant.

Mais que le lecteur se rassure : dans la réalité, on rencontre majoritairementdes fonctions de répartition à densité ou des fonctions de répartition discrètes.De plus, lorsque la fonction de répartition admet une densité, cette densité est engénéral continue sur

�ou un intervalle borné de

�de sorte que cette densité est

la dérivée en tout point de la fonction de répartition.

Aussi, dans la suite, nous allons dédier une section aux variables aléatoiresà densité (dites absolument convergentes) et une section aux variables aléatoiresdiscrètes

10.5 Variables aléatoires absolument continues

Définition 48 Soit�

une variable aléatoire définie sur un espace probabilisé��������� �. On dit

�est une variable aléatoire absolument continue s’il existe une

fonction� 6 �� � , appelée densité de probabilité, telle que :

� � � 6 �� � �� �

� �� 6 � � � � �

(10.16)

105

Page 122: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Remarques :

1. Si la fonction de répartition� 6 est continue, on a, pour tout

�,� � � � � � �

et� � � � � � ��� ��� � � � � � � � � ��� ��� � � �� � � � � � � ��� � � �� � � � � ��� ��� � � �

� � � � � � � ��� � � � �2. La probabilité de tout borélien � est :

� � � � � ���� 6 �� � � (10.17)

3. La densité de probabilité� 6 � � est toujours positive ou nulle mais non né-

cessairement majorée. Elle par contre finie (presque partout)

4.� 6 est une densité de probabilité au sens de la définition 47.

5. Dans la pratique, la plupart des fonctions de répartition que l’on rencontre,si elles ne sont pas discrètes sont continues et dérivables. Elles serontdonc absolument continues. Pour calculer la densité d’une variable aléatoireréelle absolument continue

�, on calculera donc la fonction de répartition� 6 � � � � � � � � � �

et on dérivera� 6 �� � par rapport à

. Dans cer-

tains cas, on pourra même écrire directement� 6 � � sous la forme (10.16).

Répétons-le, il est inutile de se poser la question de savoir si on travailleavec Lebesgue ou Riemann. Ce sera la même chose. Il faut essentiellementretenir les théorèmes de convergence, qui peuvent servir.

6. Le théorème de transfert appliqué à une variable aléatoire�

absolumentcontinue de densité

� 6 nous donne la formule très utile suivante :

��

� � � � � ��� � �� � � 6 �� � � � (10.18)

7. Si nous considérons la fonction caractéristique 6 d’une variable aléatoire�

absolument continue de densité� 6 , on a, par application de l’égalité

précédente

6 � � � �� � � � � 6 �� � � � (10.19)

Cette égalité nous montre que la fonction caractéristique est la transforméede Fourier de la densité

� 6 , ce qui complète la remarque selon laquelle la

106

Page 123: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

fonction caractéristique est la transformée de Fourier de la loi de�

(cf.(10.5)).

8. Nous pouvons compléter la remarque précédente par la suivante. Si la fonc-tion caractéristique 6 d’une variable aléatoire

�absolument continue est

absolument integrable (� � 6 � � � � � � # �

), alors la densité de probabilité� 6 de�

peut être déduite de 6 par transformation de Fourier inverse :

� 6 �� � � �� ��� 6 � � � � � � � � � � (10.20)

10.6 Variables aléatoires discrètes

Définition 49 Soit�

une variable aléatoire définie sur un espace probabilisé��������� �. La variable aléatoire

�est dite discrète si

� ��� �est un ensemble fini

ou dénombrable.

Remarques :

1. Exemples d’ensembles de� � � �

: � ,�

,� � �

�� �'�(� � � , . . . .

2. La loi d’une variable aléatoire discrète est complètement déterminée par unefamille dénombrable de nombre positifs � � � � � � � � � où

� � � �tels que

�� � �'6 � �

� � � .

Soit une variable aléatoire discrète�

. Soit� � � � �

son image dans�

où� � � . Calculons la loi image de

�par

�. Par définition, pour tout �

�� � �,� � � � � � � � � � � � � � � � � . Pour tout � � � �

, Définissons� � � � comme

l’ensemble des indices� �

tels que � :

� � � � � � � � � � � .Nous pouvons alors écrire que

� � � � � � � � � � �

� � � � �

Aussi,� � � � � � � � � � � �

� � � � � � � . En faisant intervenir les mesures deDirac aux points

(cf. (1.3)) 1, nous pouvons écrire que� � � � � � � � �

� � � � � � � � � � � � � � � (10.21)

1On rappelle que la mesure de Dirac au point ��� est la mesure ����� définie pour tout � � � � "par

� � � � � " ��� &si � � ���,si � � �����

107

Page 124: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Les variables aléatoires discrètes nous donnent l’opportunité d’introduire rapide-ment le théorème de Radon-Nikodym dont on trouvera un énoncé à la section10.7.3. Ce théorème nous permet de dire que les variables aléatoires discrètesn’ont pas de densité à partir de la formule donnée ci-dessus pour

� � � � . Appliquéà une variable aléatoire

�, le théorème de Radon-Nikodym nous dit que

�est

absolument convergente si et seulement si tout borélien � , de mesure nulle

pour la mesure de Lebesgue est aussi de mesure nulle pour la mesure� � � � :

� � � � � � � � � � � � � � � � ���Or, nous venons de voir que la loi d’une variable aléatoire discrète

�est de la

forme (10.21) et nous avons trivialement� � � � � � �

et � � � � � � � � � . L’en-semble mesurable

� � ne vérifie pas le critère donné par Radon-Nikodym et,effectivement, une variable aléatoire discrète n’a pas de densité par rapport à lamesure de Lebesgue.

Nous déduisons de l’expression de� � � � � � � celle de la fonction de réparti-

tion de�

. Par définition� 6 �� � � � � � � � � 3 � �� � � et donc

� 6 �� � � � �

� � � � � � � � � � � � 3 � �� � �

� �� � � �

� � � � � � � �

Pour terminer ce paragraphe, soulignons que l’application du théorème detransfert à la variable aléatoire discrète

�considérée jusqu’ici conduit à l’éga-

lit�

� � � � � � �� � �'6 � �

� �� ��� � � � � � � � (10.22)

dès que � est positive ou que � � � �est intégrable.

Précisons aussi que si la fonction caractéristique 6 de la variable aléatoirediscrète

�est absolument intégrable, alors :

� � � � � + � � � �� �� �

� 6 � � � � � � � � � � (10.23)

qui est l’analogue de (10.20).

108

Page 125: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

10.7 Exercices corrigés

Nous terminons ce chapitre par trois exercices destinés à familiariser le lecteuravec quelques calculs usuels sur les fonctions de répartition et les parmètres d’uneloi discrète et continue.

Notamment, Le lecteur peut reprendre les calculs des exercices 2 et 3 dans lecas des exemples donnés dans le chapitre suivant qui présentent des lois élémen-taires très utiles dans la pratique.

10.7.1 Exercice corrigé 1

Une variable aléatoire absolument continue�

est telle que son domaine dedéfinition 6 � � 3

���

��� et le graphe de sa densité de probabilité� 6 � � forme

avec l’axe des x un triangle isocèle.

1. Donner l’équation de� 6 �� � et de la fonction de répartition

� 6 �� � .2. Calculer la probabilité

� �43 ��� � � � � � ��� �.

3. Calculer la probabilité� � � % � �

.

4. Donner la densité de probabilité ainsi que la fonction de répartition de lavariable aléatoire

� � � � �.

5. Donner la densité de probabilité ainsi que la fonction de répartition de lavariable aléatoire

� � � �.

Eléments de corrections de l’exercice :

1. La densité de probabilité� 6 �� � est :

� 6 �� � �����

� si3

� � � �

�3

si� � � ��

sinon

La fonction de répartition est donné par :� 6 � � � � � � � # � � � �� �� 6 � � � � �

2.� � � 3 � � � # � # � � � � � � � � �� � � � � 6 ��� � � � � � 6 � � � � � 3 � 6 � 3 � � � �

3.� � � � % � � � �

3 � � � � � � � � �3 � 6 � � � � ��

4.� � � � �

,� 8 � � � � � � � � # � � � � � � � � � # � � � � 6 � � � 3 � 6 � 3 � � pour� � �

,

109

Page 126: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

d’où :� 8 � � � � �

�8 ��� � �� �

si� � �

� 6 ��� � � 6 � 3 � � si� � �

Or,� 6 � � est une fonction paire, d’où :

� 8 � � � �� � � 6 ��� � si

� � � � ��sinon

5. même raisonnement que la question 4, on trouve que :

� 8 � � � �� �

� �� 6 ��� � � si

�$# � � ��

sinon

10.7.2 Exercice corrigé 2 : variable aléatoire discrète de Pois-son

Considérons une variable aléatoire de Poisson (voir 11.4) de paramètre� %�

:(� � � �"� �

)� � � � + � � � ��� � �+ �

Espérance mathématique :

�� � � �

� �����=�

+ � � � � + � � � �

Variance :

�� � � � � � ��

� �=�+ � � � � � + � � � � � �

D’où : �6 � �

� � � � 3 ��

� � � �� � � �

Fonction génératrice :

� 6 � � � � �� � 6 � � ��� � � ���

Fonction caractéristique :

6 � � � � �� � � 6 � � � ��� � � � ��� � � � � ��� �

110

Page 127: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

et inversement, à partir de la fonction caractéristique, on peut retrouver la loide

�en utilisant le théorème des résidus :

� � � � + � � �� �� �

� 6 � � � � � � � � ��� � ��� � �+ � �

Fonction de répartition :

� 6 �� � � � � � # � � �� � �

� � � � + � � �� � �

� ��� � �+ �

10.7.3 Exercice corrigé 3 : le cas de la loi absolument continuedite exponentielle

Considérons une variable aléatoire�

qui suit une loi exponentielle (voir 11.8)de paramètres

�(

� � ! � � �). La densité de probabilité est donnée par :

� 6 �� � � � � ��� �1l� � � �

Espérance mathématique :

�� � � �

� � ��

� 6 � � � � ��Variance :

�� � � � � � � �

� � � 6 �� � � � �

� �D’où :

�6 � �� � � � 3 � �

� � � �� � �� �

Fonction caractéristique :

6 � � � � �� � � 6 � � � � �

�� � � � 6 �� � � � �

� 3 � �

Fonction de répartition :

� 6 � � � � � � # � � ��3 � ��� � �

1l � � � � � ��� �

111

Page 128: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Compléments : le théorème de Radon-Nikodym etson application en théorie des probabilités

La notion de variable aléatoire absolument convergente n’est qu’une application dela notion d’absolue continuité que l’on rencontre en théorie de la mesure. La notion dedensité, qui accompagne cette notion d’absolue continuité, a fait l’objet de nombreuxdéveloppements théoriques. Un des résultats les plus importants est le théorème de Radon-Nikodym. Nous présentons ce théorème afin de familiariser le lecteur avec une notionsouvent utilisée dans les articles relatifs à la théorie des probabilités.

Dans cette section, nous commençons par présenter la notion de mesure absolumentcontinue par rapport à une autre mesure. Puis nous énonçons le théorème de Radon-Nikodym. Ce théorème précise ce qu’est une densité et donne un critère pour savoir siune mesure (et en particulier une fonction de répartition) admet une densité.

Remarque : Nous avons préféré présenter la notion d’absolue continuité et le théorème deRadon-Nikodym sous forme de complément que sous forme d’annexe. En effet, l’abso-lue continuité d’une mesure par rapport à une autre nous a servi à la section 10.6 et lethéorème de Radon-Nikodym nous servira ultérieurement.

10.7.4 Mesure absolument continue par rapport à une autre

Posons le problème dans le cas probabiliste.

Une loi� � � � d’une variable aléatoire est une mesure sur muni de la tribu des

boréliens � � . Or, nous connaissons déjà une mesure, plus "naturelle", sur l’espace me-surable

� � � � � : il s’agit de la mesure de Lebesgue � non complète. On peut donc sedemander s’il existe une relation entre

� � � � et � .

En fait, la mesure de Lebesgue représente une certaine épaisseur de l’ensemble quel’on va mesurer. Ce n’est peut-être pas évident à voir dans le cas de la droite réelle, maisça l’est beaucoup plus si on considère un instant la mesure de Lebesgue sur

�(elle

représente alors la surface) ou la mesure de Lebesgue sur � (elle représente alors levolume). Si la mesure

� � � � ne possède pas des propriétés analogues à la mesure deLebesgue (si elle ne correspond pas à la mesure d’une certaine "épaisseur"), alors onpeut penser qu’il sera difficile de lier

� � � � et � . On peut par contre espérer aboutir à unrésultat intéressant si

� � � � véhicule une notion d’épaisseur comparable à celle inhérenteà la mesure de Lebesgue.

La définition suivante permet de formaliser mathématiquement la notion d’épaisseurd’une mesure par rapport à une autre.

112

Page 129: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Définition 50 Soient � et � deux mesures sur un espace mesurable� � � � . On dit que �

est absolument continue par rapport à la mesure � si tout ensemble � -négligeable estaussi � -négliegable et l’on écrit ��� � ou � ��� � � .

Exercice 22 Soit� � � � un espace probabilisable et deux mesures � et � sur cet espace.

Soent � �et � �

les mesures complètes associées à � et � respectivement.

(i) Si ����� , a-t-on � � ��� �?.

(ii) Si � � ��� �, a-t-on ����� ?

En considérant les mesures � et � complètes, � est donc absolument continue parrapport à � si, pour tout � � , � � � � ��� implique que � � � � ��� . En d’autres termes,la mesure � est "moins épaisse" que � . Ceci explique la notation �� � , analogue àcelle utilisée en physique pour exprimer qu’une grandeur est négligeable par rapport àune autre.

En fait, étant donné une mesure � , on sait construire une infinité de mesures � ab-solument continues par rapport à � . Il suffit en effet de considérer une variable aléatoirepositive quelconque � et de poser, pour tout � , � � � � 1l

� ��� � . L’application� est bien une mesure et l’on écrit � � ��� � ou encore � � � ��� � . On a alors :� � �� ����� �� � � � � � ��� ��� �� ���� � . Aussi, si � � � ��� , � ��� ��� �� ���� �est aussi égal à

�puisque

� � � �� ��� �� et il s’ensuit que � � ����� aussi. End’autres termes, ��� � .

La réciproque est-elle vraie ? id est, lorsque une mesure � est absolument continue parrapport à une autre mesure � , existe-t-il une application mesurable telle que � � �!� � ?

10.7.5 Le théorème de Radon-Nikodym

Le théorème de Radon-Nikodym nous apprend que la réponse aux questions précé-dentes est oui ... mais pour une certaine catégorie de mesures : les mesures

�-finies. Il

se trouve que la mesure de Lebesgue et toute mesure de probabilité sont (trivialement)des mesures

�-finies. Le théorème de Radon-Nikodym va donc s’appliquer en théorie des

probabilités et nous permettre de comparer l’épaisseur mesurée par une loi� � � � et la

mesure de Lebesgue.

De manière plus précise, on se donne la définition suivante.

Définition 51 Soit� � � � � � un espace mesuré. On dit que � est une mesure

�-finie s’il

existe une suite croissante d’ensembles mesurables�� � � �(� � � � telle que, pour tout

entier � ��� , � � � � � � .

113

Page 130: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Exercice 23

(i) Montrer que la mesure de Lebesgue non complète � et la mesure de Lebesgue (com-plète) �

�sont

�-finies.

(ii) Montrer que toute mesure de probabilité est�

-finie.

Théorème 27 (Théorème de Radon-Nikodym) Soient � et � deux mesures�

-finies surun espace probabilisable

� � � � . La mesure � est absolument continue par rapport à � siet seulement si il existe un élément � � � �� � � � � � � tel que � � � � � , c’est-à-dire, telque pour tout � � , � � � � � 1l � ��� � . Deux éléments � � � de

� �� � � � � � � tels que� � �!� � � � � � sont égaux � -presque partout.

Remarques : Si � � � , alors la classe d’équivalence pour la relation " � -presque partout"des éléments � de

� �� � � � � � � tels que � � � � � est appelé dérivée de Radon-Nikodymou densité de la mesure � par rapport à la mesure � . Noter que cette classe d’équivalenceest unique d’après le théorème.

10.7.6 Application aux probabilités : variables aléatoires abso-lument continues

Si nous considérons maintenant une variable aléatoire ��� � � � � � � � � � � et saloi

� � � � , nous savons que� � � � et la mesure de Lebesgue sur

� � � � � sont deux me-sures

�-finies. S’il se trouve que

� � � � est absolument continue par rapport à la mesurede Lebesgue � , alors le théorème de Radon-Nikodym nous dit qu’il existe une densité� 6 � � �� � � � � � � telle que

� � � � � � 6 � � . On peut donc se donner la définitionsuivante.

Définition 52 Soit � une variable aléatoire définie sur un espace probabilisé� � � � � �

.On dit que � est une variable absolument continue si la loi

� � � � de � est absolumentcontinue par rapport à la mesure de Lebesgue � :

� � � � � � . La densité de Radon-Nikodym est appelée densité de probabilité de la variable aléatoire � .

Exercice 24 Soit � � � � � � � � � � � � une variable aléatoire définie sur un espaceprobabilisé

� � � � � �. Supposons que � est absolument continue et de densité

� 6 .

(i) Montrer que� 6 � � presque partout. On pourra considérer les ensembles mesurables� � 6 �� � et montrer que la mesure de Lebesgue de ces ensembles et donc la

mesure de leur union est nulle.

(ii) Montrer que �� �

� 6 ��� � � � � � .

114

Page 131: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(iii) Montrer que� � � 6 1l � ��� � � � est une densité de probabilité au sens de la définition

47.

Cet exercice montre que pour une variable aléatoire absolument continue � , la densité deRadon-Nikodym de

� � � � par rapport à la mesure de Lebesgue est presque-partout unedensité de probabilité au sens de la définition 47. C’est donc, presque partout, la dérivéede la fonction de répartition de la variable aléatoire � .

Le lecteur vérifiera aisément que la définition 52 que nous venons de donner pourles variables aléatoires absolument continues est équivalente à celle donnée dans le coprsprincipal de ce chapitre (cf. définition 48) et qui est celle généralement utilisée par lesstatisticiens.

115

Page 132: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 11

Exemples de lois

11.1 La loi de Bernouilli

Une variable aléatoire suit une loi de Bernouilli si elle ne peut prendre que lesdeux valeurs 0 ou 1. On pose traditionnellement : (

�$# � # � ,� � � � � )

� � � � �� � � et

� � � � � � � �3 �����

Interprétation : C’est évidemment la loi du pile ou face. Un élément binaire quipeut prendre la valeur � ou

�obéit aussi à une loi de Bernouilli. Lorsqu’on prend

une décision sur la présence ou l’absence d’une cible radar, on a aussi affaire àune loi de Bernouilli. Les exemples se multiplient à l’infini. C’est la loi discrètebasique et fondamentale que l’on rencontre tout le temps.

11.2 La loi géométrique

C’est une variable aléatoire de paramètre � ,��# � # � , qui prend ses valeurs

dans � �. Soit N cette variable aléatoire, on a :

� � � � + � � ��3 � � � � � �

Interprétation : lorsqu’on répète une infinité de fois une épreuve de Bernouilli � � � de manière indépendante. Le nombre aléatoire correspondant à l’indice dela première apparition d’un succés (

� � � ) est une variable aléatoire qui suit laloi géométrique.

116

Page 133: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

Indice k

P(X

=k)

Loi géométrique

FIG. 11.1 – Distribution de la loi géométrique avec ��� ����

11.3 La loi binomiale

C’est une variable aléatoire de paramètres � �et � ,

� # � # � . Elle prendses valeurs dans l’ensemble

� � ��� �'�(� � � telle que : (

� � � � � � )� � � � + � � � �

�� � � �

3 � � � � �

Interprétation : lorsqu’on répète n fois une épreuve de Bernouilli de manière indé-pendante. Le nombre aléatoire correspondant au nombre de succés est une variablealéatoire qui suit la loi Binomiale.

Remarquer qu’on peut considérer qu’une loi de Bernouilli est un cas particulierde la loi Binomiale avec � � .

11.4 La loi de Poisson

C’est une variable aléatoire entière de paramètre� % �

qui prend ses valeursdans � , telle que :(

� � � � � �)

� � � � + � � � ��� � �+ �

117

Page 134: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 2 4 6 8 100

0.05

0.1

0.15

0.2

0.25

Indice k

P(X

=k)

Loi Binomiale B(n=10,p=0.7)

FIG. 11.2 – Distribution de la loi Binomiale avec ��� �����et � � �

0 2 4 6 8 10 120

0.05

0.1

0.15

0.2

0.25

Indice k

P(X

=k)

Loi Poisson P(4)

FIG. 11.3 – Distribution de la loi de Poisson � � � � � �

118

Page 135: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Interprétation : La loi de Poisson est souvent utilisée dans la modélisation d’unefile d’attente (trafic téléphonique par exemple) pour dénombrer le nombre declients dans la file.

11.5 La loi uniforme

Les exemples qui vont suivre, contrairement aux exemples précédents, sontdes variables aléatoires absoluments continues. On dit que la v.a.

�suit une loi

uniforme sur un intervalle��� ��� � (

� � � � � � � � ) si et seulement si sa densité de pro-babilité est constante sur l’intervalle

��� ��� � , soit :

� 6 �� � � �� 3 � 1l � � � � �� �

Remarque : Le choix de la constante est donné par� � � 6 � � � � � . La loi uni-

forme sur un intervalle��� ��� � n’est autre que la formulation mathématique de la

phrase : "soit�

une valeur prise au hasard dans��� ��� � ".

Interprétation : Lors de la propagation d’une onde sur le canal radio-mobile, dufait des phénomènes de diffusion, réflexion ou diffraction, l’onde emprunte plu-sieurs trajets. Sur chacun des trajets, elle subit un déphasage aléatoire qui est sup-posé distribué selon une loi uniforme sur

� � �,� � � .

11.6 La loi normale (ou loi de Gauss)

Une variable aléatoire�

suit une loi normale de paramètres � et � (On utilisesouvent la notation :

� � � � � � � � ) si sa densité de probabilité est donnée par :

� 6 �� � � �� � �

� � ���������

Remarque : La loi gaussienne joue un rôle fondamental en probabilité et elle ap-paraitra également quand nous étudierons le théorème de la limite centrale.

Interprétation : De nombreux phénomènes physiques aléatoires peuvent être mo-délisés comme des processus gaussiens. Citons par exemple le bruit thermiquegénéré par des composants électroniques (amplificateurs ...).

119

Page 136: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

-2 -1.5 -1 -0.5 0 0.5 1 1.5 20

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

dens

ité d

e pr

obab

ilité

Loi Uniforme

FIG. 11.4 – Distribution de la loi Uniforme � � � ��� � ���

-4 -2 0 2 4 60

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

axe des x

dens

ité d

e pr

obab

ilité

Loi Gaussienne

FIG. 11.5 – Distribution de la loi Normale : � ���

��

et � ����� � �

120

Page 137: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

axe des x

dens

ité d

e pr

obab

ilité

Loi Log Normale

FIG. 11.6 – Distribution de la loi Log Normale : ��� � � , � � � et � � (traitcontinue) ou

11.7 La loi Log Normale

Une variable aléatoire�

suit une loi log normale de paramètres � , � et �(� sisa densité de probabilité est donnée par :

��� � � � �

� � � � � ��� � ��� ��� � � � � � �

� 3 �(� 1l � � � � � �� � �

Remarque : La v.a.�

peut être obtenue par� � ��� � 6 où

� � � � � � � � .Interprétation : Reprenons l’exemple de la propagation sur canal radio-mobile.L’onde subit des évanouissements de deux types : grande échelle et petite échelle.Les évanouissements à grande échelle se manifestent par une atténuation de lapuissance moyenne du signal reçu lorsque l’émetteur et le récepteur sont loin l’unde l’autre. Cette atténuation suit une loi Log Normale.

11.8 La loi Exponentielle

Une variable aléatoire�

suit une loi exponentielle de paramètres�

(� �

! � � �) si sa densité de probabilité est donnée par :

� 6 �� � � � � ��� �1l� � � �

121

Page 138: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

axe des x

dens

ité d

e pr

obab

ilité

Loi Exponentielle

FIG. 11.7 – Distribution de la loi Exponentielle ! �"� � ��

Interprétation : La loi exponentielle sert entre autres à modéliser les instants d’ar-rivée des clients dans une file d’attente (cf. exemple du trafic téléphonique citéplus haut pour la loi de Poisson).

11.9 La loi du � �Une variable aléatoire

�suit une loi du ��� (prononcer chi

�) à degrés de

liberté si sa densité de probabilité est de la forme :

� 6 �� � � �� � ) � � � � � � � � � 1l � � � � �

� �

Remarques

1. ) � � � � � � � � � � � ��� ) �"+ � � � + 3

�� �

si+ ���

2. 6 � � � � ��3 � � � � � �

3. �� � � � � � � � �(�(� � � � + 3

��

4. Soient� � variables aléatoires indépendantes et identiquement distribuées

selon une loi normale � � � � � � . Alors la variable aléatoire normalisée� �

�� � � ��� � � �

� suit une loi du chi-�

à degrés de liberté.

122

Page 139: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 1 2 3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

3

3.5

4

axe des x

dens

ité d

e pr

obab

ilité

Loi du Chi−2 − 0 < n <2

FIG. 11.8 – Distribution de la loi du Chi-�

:�$# # �

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

axe des x

dens

ité d

e pr

obab

ilité

Loi du Chi−2 − n=2

FIG. 11.9 – Distribution de la loi du Chi-�

: � �

123

Page 140: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 1 2 3 4 5 6 7 8 9 100

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

axe des x

dens

ité d

e pr

obab

ilité

Loi du Chi−2 − n>2

FIG. 11.10 – Distribution de la loi du Chi-�

: % �

11.10 La loi du � � non centrée de paramètre de dé-centrage

La densité de probabilité d’une variable aléatoire distribuée selon une loi du� � non centrée s’exprime en fonction d’une fonction hypergéométrique dont ontrouvera les propriétés dans [1] et [16], entre autres.

Définition 53 Soient � et � deux entiers,� � � ��� � � et

� � � � ��� � ��� deux suites fi-nies d’éléments complexes. On définit la fonction hypergéométrique générali-sée de paramètres

� � � ��� � � et� � � � ��� � ��� et de la variable complexe � , notée

� � � � � � � � � � � � � � � � � � � ��� � � � � � � � � � � , par :

� � � � � � � � � � � � � � � � � � � ��� � � � � � � � � � � �� �����=�

� � � � � � � �� �� � � � � � � �

� �+ � (11.1)

où� � � � � � � � �=� �� � �

.

Etant donnée cette définition, on peut à présent exprimer la densité de probabi-lité d’une variable aléatoire du ��� non centrée à degrés de liberté et de paramètrede décentrage � :

� 6 �� � � � ��� �� � ) � � � � �� �� � � �

�� � � � � � � � % �

(11.2)

124

Page 141: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Propriété : Soient� � variables aléatoires indépendantes de même variance � .

On suppose que� � suit une loi de Gauss de moyenne � � et de variance � :

� � � � � � � � � � . Alors la variable aléatoire normalisée� � �

� � � ��� � � �� suit

une loi du chi-�

non centrée à degrés de liberté et de paramètre de décentrage� � �

� � � ��� � � �� .

11.11 La loi de Rayleigh

Une variable aléatoire � suit une loi de Rayleigh de paramètres si sa densitéde probabilité est donnée par :

��� � � � � � �

� ��� 1l� � � � �

Remarque : Nous pourrons montrer, quand on introduira la notion du couple aléa-

toire, qu’une variable aléatoire de Rayleigh peut être obtenue par � � � � � � �

où�

et�

sont deux v.a. indépendantes et qui suivent la loi normale � � � � � � . Laloi de � 5 est donc celle de la racine carrée d’une loi du � � centrée à

�degrés de

liberté.

Interprétation : En reprenant l’exemple de la propagation radio-mobile, en l’ab-sence d’un trajet direct entre la source et le récepteur, l’atténuation de l’amplitudede l’onde sur chacun des trajets suivis par l’onde émise suit une loi de Rayleigh.

11.12 La loi de Rice

Une variable aléatoire � suit une loi de Rice de paramètres�

et si sa densitéde probabilité est donnée par :

��� � � � � � �

� ��� ��� 1l� � � � � � � �

� � �

où� � est la fonction de Bessel modifiée d’ordre

�(cf. [1], [16]) qui est telle que� � �� � � � � � � � �

� ��.

Interprétation : Lors de communications radio entre deux avions, il est possibleque l’onde émise se réfléchisse sur la surface de la Terre, provoquant des trajetssecondaires en plus du trajet direct. Les différentes répliques atténuées du signal

125

Page 142: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

axe des x

dens

ité d

e pr

obab

ilité

Loi Rayleigh

FIG. 11.11 – Distribution de la loi Rayleigh : � �� �(�'� � �

initial résultant des différents trajets suivis par l’onde se superposent au niveau durécepteur. Lorsque les différentes contributions ne peuvent être isolées, l’ampli-tude du signal reçu, superposition des différentes répliques (i.e addition) suit alorsune loi de Rice.

Exercice 25 Montrer que la loi de Rice de paramètres�

et � � est la loi suiviepar la racine carrée d’une loi du ��� non centrée à deux degrés de liberté et deparamètre de décentrage � � � �

. Indication : soit�

de densité� 6 , montrer que

la densité de� � � �

est� 8 � � � � � � � 6 � � � � , � � �

. Appliquer ce résultat enprennant en compte l’expression de

� � �� � en fonction de la loi hypergéométriquegénéralisée � � � .

11.13 La loi Gamma

Une variable aléatoire�

suit une loi Gamma de paramètres�

et+

(� �

) �"� ��+ �) si sa densité de probabilité est donnée par :

� 6 � � � �) �"+ �

� � � � � � ��� �1l� � �� �

Remarques : ) � + � est définie par :

) � + � ��� �

� � � � � � �

126

Page 143: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 1 2 3 4 5 6 7 8 9 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

axe des x

dens

ité d

e pr

obab

ilité

Loi Gamma

FIG. 11.12 – Distribution de la loi Gamma : ) �*���,+ �avec

� � � et+ � � �(�(�-�

Dans le cas où+ � �

, ) � + � � �"+ 3�� �

. Remarquer aussi que la loi exponentiellen’est autre qu’un cas particuler de la loi Gamma, on a : ! �"� � � ) � � �

��.

11.14 La loi de Cauchy

Une variable aléatoire�

suit une loi de Cauchy de paramètres � et/

(� �

. � � �0/ � ) si sa densité de probabilité est donnée par :

� 6 � � � ��

// � � �3 � � � avec

Remarque : Nous verrons plus loin que cette v.a. n’admet pas de moments d’ordresupérieur.

11.15 La loi Beta

Une v.a.�

suit une loi Beta de paramètres � % 3� et � % 3

� (� � � � � � � )

si sa densité de probabilité est donnée par :

� 6 �� � � � �

�3 � �

� � � � � � avec � � � � �

127

Page 144: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

-5 -4 -3 -2 -1 0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

axe des x

dens

ité d

e pr

obab

ilité

Loi de Cauchy

FIG. 11.13 – Distribution de la loi de Cauchy : . � � �0/ � avec �1� �et/ � �

���ou

2Remarque : � � � � � � est définie par :

� � � � � � �� �

� � �

�3 � � �

.

11.16 Loi de Student

Une variable aléatoire�

suit une loi de Student à � degrés de liberté si etseulement si sa densité de probabilité définie sur

�est donnée par :

� 6 � � � ) � � � �� � � � ) � � �

� � �

� � � � �

(11.3)

1. Posons � � � �� . Si est entier, la fonction caractéristique de�

est donnéepar :

6 ��� � � � � ) � � � �� ) � � �

� � � � � � �� � � � � �

� 3�� �� � �����=�

� � + � � � � �� � �"� � � � � � � � � � � � � � �

128

Page 145: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

axe des x

dens

ité d

e pr

obab

ilité

Loi beta

FIG. 11.14 – Distribution de la loi Beta : �43

� 5 � � ��

et �

��

��

2. Si�

et�

sont des variables aléatoires indépendantes,�

selon la loi nor-male � � � �

��

et�

selon une loi du chi-�

à degrés de liberté, alors� � � � �8 suit une loi de Student à degrés de liberté.Ce résultat s’applique directement au cas où on dispose de

� va-riables aléatoires

� (� � � � ) gaussiennes identiquement distri-

buées de moyenne nulle et de variance � inconnue. La variable aléatoire� � 6 �� � � ��� � � ��suit une loi de Student à degrés de liberté.

129

Page 146: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 12

Vecteurs aléatoires

12.1 Définition

L’étude des vecteurs aléatoires est un outil important pour étudier la dépen-dance de plusieurs variables aléatoires réelles considérées comme les compo-santes du vecteur.

Soit� � � ��� � � � �

l’espace probablisable, où � est un entier non nul, et � � � �

est la tribu borélienne de� �

, i.e. la tribu engendrée par les ensembles de la forme� � � � � � �(�(� � � � où les �� sont des boréliens de

�. La tribu

� � � �est aussi

engendrée, par exemple, par les pavés � � ��� � � � �'�(� � � � ��� � � .Définition 54 Soit

� ��� �un espace probabilisable donné et

� �muni de la tribu

des boréliens�� � � �

. Un vecteur aléatoire (de dimension � ) est une applicationmesurable de

� �����dans

� � � � � � � � �:

<� � � 3 � � �� � 3 � <� � � � � � � � � � � � �(�(� � � � � � � � (12.1)

Soit :

� � � � � �(�(� � � � �� �� � � � �<� � � � � � � �(�(� � � � � � ��� � � � � � � � � � � �'�(� � � � � � � � � �

12.2 Intégration des vecteurs aléatoires

Nous nous contentons d’une définition très immédiate.

130

Page 147: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Définition 55 Soit� ��� ����

un espace mesuré et <� � � ��� � � � � � ��� � � � �un

vecteur aléatoire réel. Posons <� � � � � � � �(�'� � ���.

(i) On dit que <�est intégrable par rapport à

�si chacune des composantes

� � ,+ � �� , est intégrable.

(ii) L’ensemble des vecteurs aléatoires réels intégrables sera noté� �� � �������� � :

� � �� � � ��� ����� � � + � �� � � � � � � ��� ���� �

(iii) L’intégrale� <� � � de <�

par rapport à�

est définie par� <� � � � �

� �� � � � � �(�(� �

��� � �

� �

12.3 Mesure image et théorème de transfert

Soit un espace mesuré� ��� ����

sans que�

soit nécessairement une mesure deprobabilité.

La notion de mesure image donnée à la section 10.1 (définition 45) s’étendsans difficulté au cas d’un vecteur aléatoire <� � ����� � � � � � ��� � � � �

. En effet,il est facile de montrer que la fonction d’ensemble

� <� � � � � � � ��� � définie,pour tout �

, par � <� � � � � � � � � � <� � � �est une mesure de probabilité. D’où la définition suivante, qui est quasiment iden-tique à celle donnée à la définition 45).

Définition 56 Soient un espace mesuré������� ���

et <� � ����� � � � � � ��� � � � �un vecteur aléatoire. La fonction d’ensemble,

� <� � � � � � � ��� � définie, pourtout �

par� <� � � � � � � � � � <� � � � est une mesure positive appelée

mesure image de la mesure�

par le vecteur aléatoire <�. Lorsque la mesure

�est

une mesure de probabilité,� <� � � est appelée loi image de

�par <�

ou encore loide <�

.

Remarque : Dans la suite, nous noterons aussi cette mesure image par���6 , qui est

la notation la plus répandue, même si je continue de préférer� <� � � .

Le lemme 10 reste vrai même avec des vecteurs aléatoires et l’on peut énon-cer :

131

Page 148: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Lemme 11 Soient un espace mesur������� �

, <� � � ����� � � � � ��� � � � �un

vecteur aléatoire et � � � � � � � � � � � � � � � ��� � � � �, une application mesurable.

Soit� <� � � la mesure image de

�par <�

. La mesure image de� <� � � par l’appli-

cation mesurable � est égale à la mesure image� � � � <� � � � de

�par l’application

mesurable � � <�: � � � � <� � � � � � � <� � � � � � �

Nous laissons la preuve au lecteur car celle-ci est identique à celle du lemme10.

Avec les notations utilisées dans le lemme précédent, nous générons un nou-veau vecteur aléatoire � � <� � � � ����� � � � � � � � � � �

, image de�

par � . Cetteprocédure nous permet alors de travailler dans l’espace probabilisable

� � � � � � � � �muni de la loi image de

�par <� � � � <� �

. On peut alors énoncer un théorème detransfert qui étend celui donné à la section 10.1 (cf. théorème 25) ?

Théorème 28 (Théorème de transfert) Soit un espace mesuré�������� �

, <� ������ � � � � � � � � � � �un vecteur aléatoire, une application mesurable � �� � � � � � � � � � � � � ��� � � � �

et� <� � � la mesure image de

�par <�

:

������� ����63 � � � � � � � � � �� � � � �3 � � � � ��� � � � � � � � � �

(i) <�est intégrable si et seulement si � est intégrable par rapport à la mesure� <� � � image de

�par

�:

<� � �� � ������� ��� � � � ���

� � � ��� � � � � � � � � � �(ii) Si � est intégrable par rapport à la mesure

� <� � � , alors� � � � � � � � � �� � � <� � �

(12.2)

La preuve est laissée au lecteur car elle est analogue à celle du théorème 25.

12.4 Loi de probabilité et espérance mathématiqued’un vecteur aléatoire

Nous particularisons ce qui précède au cas d’un espace probabilisé��������� �

,d’un vecteur aléatoire

� � ����� � � � � � � � � � � � � �et d’une application mesurable

� � � � � � � � � � � � � � � � � � � � �.

132

Page 149: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Conformément à la définition 55, nous dirons que le vecteur aléatoire <� � �� � � ��� ���� � si chacune de ses composantes est intégrable.

On définira alors l’espérance de <�comme étant le vecteur � � <� �

tel que

�� <� � � � � �

� � � � � �(�(� � �� � � � � �

Remarques :

1. � � � �-/ � � � � � � <� / <� � � � � � <� � /� � <� �

2. � <� � � ���4<� � <� � � <� � ��� <� �La loi de probabilité du vecteur aléatoire <� � ����� � � � � � � � � � � �

est en-suite, d’après la définition 56, la loi image de

�par <�

sur� �

:

� � � � � � ��� �6 � � � � � � <� � � � � � <� � � � � � � (12.3)

Si nous appliquons ensuite le théorème de transfert, en supposant � � � �inté-

grable :

��

� � <� � � ��

� �� � �� � � �(�(� �� � � � � <� � � �� � �� � � �(�(� �� � � �

12.5 Fonction de répartition

Définition 57 La fonction de répartition� �6 d’un vecteur aléatoire <�

est définiepar :

� �6 � � � � 3 � � � �� �

< � 3 � � �6 � < � � � �6 �� � � �'�(� �� � � ����6 � � 3 � �� � � � �(�(� � � 3 � �� � � � �� � <� � ��� � 3 � �� � � � �(�(� � � 3 � �� � � � �� � � � � # � � � �(�(� � � � � # � � �

12.6 Loi conjointe

Chaque composante� � � � � � �(�(� � � � d’un vecteur aléatoire <�

est une variablealéatoire réelle. La loi de <�

est aussi appelée loi conjointe des variables aléatoires

133

Page 150: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

réelles� � � � � � �(�(� � � � . Les lois des différentes composantes sont appelées les

lois marginales du vecteur aléatoire <�. La loi marginale de la

+ �� � � composanteest donnée par :

� � �� � � ��� 6 � � � � � ���6��� � �(�(� �� ��� �� � �

� � � � � �'�(� �� ��� �� � �

��

(12.4)

Remarque importante :La loi conjointe permet de déterminer toutes les lois marginales mais la réci-

proque est fausse comme le montre l’exemple suivant :Soit

� � ��� �un vecteur aléatoire de dimension

�(un couple aléatoire). Soit

pour tout � tel que� � � � � 5 � , les différentes probabilités donnés par le tableau

(12.1).

�� 6 � 8

� � � �� 8 �� � � � � � � � ��� � ��� � � � � � � �

� � � ��� � �� 3 � � � � � ��� � ��� � �� � � � � ��� � � � � �� 3 � � � � � �

��� � � � � � � � � � � � � ��� 6 � � � � � ��� � �� � � � � � � � ��

TAB. 12.1 – Exemple de loi dont les lois marginales ne permettent pas de retrouverla loi conjointe

La loi conjointe du couple� � ��� �

dépend du paramètre � alors que chacunedes deux lois marginales est indépendante de ce paramètre.

Définition 58 Soit <�un vecteur aléatoire de dimension � défini sur un espace

probabilisé� ��� ��� �

. On dit que <�admet une densité de probabilité sur

� �si

et seulement si il existe une fonction� �6 �� � de

� �dans

�, appelée densité de

probabilité, telle que :

� � �� � � � � �6 � � � ���� �6 �� � � �'�(� �� � � � � �(�'� � � � (12.5)

Remarques :

1. On a alors : ��� �6 � � � �(�(� �� � � � � �(�(� � � � � � (12.6)

134

Page 151: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

2. Si � � <� � � � ��������� �avec � une application de

� �dans

�, en utilisant le

théorème de transfert, on a :

� � � � <� � � � �� � � � < � � �6 � < � � < � (12.7)

3. On démontre que :

� �6 � � � �(�(� �� � � �� � � �6

� � �(�(� � ��� � � �(�(� �� � � � (12.8)

4. Chaque composante� � possède une densité de probabilité sur

�donnée

par :

� 6 � � � � ��� � � � � �6 � � � �(�(� �� � � � � �(�(� � � � � � � � � � � � (12.9)

12.7 Formule du changement de variables

Soit� ��� ���� �

un espace probabilisé, <� � � ����� � � � � � � � � � �un vecteur

aléatoire et � � � � � ��� � � � � � � � � ��� � � � �une application mesurable. Le théo-

rème de transfert nous permet de ramener le calcul de ��

� � � � � à une intégrale parrapport à la mesure image

� <� � � dans� �

. Dans certains problèmes, il peut cepen-dant utile d’en savoir plus sur

� � � � � �et en particulier important de calculer la

loi de�

.Le schéma suivant résume la situation qui est une extension de celle traitée par

le théorème de transfert dans le sens où l’on va considérer� �

muni de la mesureimage de

�par

� � � � � �.

��������� ��63 � � � � ��� � � � ��� �6 � �3 � � � � � � � � � ��� �8 ��83 37373 37373>37373>37373>37373>3 �

Lorsque <�admet une densité de probabilité, on peut calculer la loi de

�grâce

à la formule de changement de variable.

135

Page 152: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

12.7.1 Cas bijectif

Soit <�un vecteur aléatoire continu de dimension de densité de probabilité� �6 � � �� � � � � � �� � � . On suppose que <�

est à valeurs dans le borélien � � de� �

. Onconsidère l’application � mesurable de � � vers un borélien � � de

� �. On suppose

que � est bijective, dérivable et à dérivées partielles continues ainsi que son in-verse. Alors <� � � � <� �

est un vecteur aléatoire continu de densité de probabiliténotée

� �8 ��� � � � � � � � ��� � � et donnée par :

��<� � � � � ����� �� � � � � <� � � �� � � � �8 � <� � � �� � �����

�� � � � � <� � � �

� �6 �� � � � <� � � (12.10)

� ������� < � �

�������

� � �� � � � < � �(�(� � � �� � �� < �

.... . .

...� � �� � � � < � �(�(� � � �� � �� < �

�������

(12.11)

est le jacobien.

Remarque : <� � � � < � � � ��� � � <� � � � �

�� < � � � � .

Exemple :

Soit� � � � �

un couple de v.a. réelles définies sur�

de densité de probabi-lité

�� 6 � 8

�� �� � �. Quelle est la densité de probabilité de la nouvelle v.a. réelle� � � �

?

12.7.2 Cas général

Dans le cas plus général où � est non bijective et que �� � , pour déterminerla fonction de répartition du vecteur aléatoire <� ,

� �8 � <� � en <� � � � � � � � � � � � ��� � � , oncherche à évaluer la probabilité

� �8 � � � � � �6 � � � � � � � � avec � � � ���� � � 3 � ��� � � .

12.8 Fonction caractéristique

Définition 59 On appelle fonction caractéristique d’un vecteur aléatoire <�de

dimension � , la fonction à plusieurs variables et à valeurs complexes �6 définiesur

� �par :

�6 � <� � � ��� � ���� �6 � (12.12)

136

Page 153: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

pour tout <� � �

Remarque :

Soit � une matrice � � � et <�� � � , on a :

� �6 � �� � <� � � � ���� �� �6 � � � <� �

12.9 Variables aléatoires indépendantes

Définition 60 Soit� � � �(�(� � � � p variables aléatoires réelles définies sur l’espace

probabilis�������� �

.� � � �(�(� � � � sont indépendantes si et seulement si :

� � � � �(�(� � � � � � � ��� � � � � � � �(�(� � � � � � � � � 6 � � � � � �(�(� � 6 � � � � �(12.13)

Remarques :

1. Si� �6 est la loi du vecteur aléatoire <� � � � � � �(�(� � � � � , on a alors :

� �6 � � � � �(�'� � � � � � � � � <� � � � �(�(� � � � ��� � � � � � � � � �'�(� � � � � � � �� � 6 � � � � � �(�(� � 6 � � � � ����6 est alors une loi produit :

���6 � � 6 � � �'�(� � � 6 �2. Si

� �6 a une densité de probabilité� �6 sur

� �, alors :

� � � �(�'� � � � sont indé-pendantes si et seulement si

� �6 �� � � �(�(� �� � � � � 6 � �� � � �'�(� � 6 � �� � � .3. Proposition :

� � � �(�(� � � � sont indépendantes si et seulement si� � � � �'�(� � � � . � � � � � �

(continues et bornées) ��

� � � � � � �'�(� � � � � � � � ��

�� � � � � � � �(�(� �

�� � � � � � � .

4. Si�

et�

sont deux variables alà c�

atoires indépendantes et absolumentcontinues, la densité de probabilité de la somme

� �n’est autre que le

produit de convolution des deux densités de probabilités :

� 6 � 8 ��� � ���

�� 6 � 8

� � � � 3 � � � ��� ��

� 6 � � � � 8 ��� 3 � � � ��� � 6 �� 8 ��� �

137

Page 154: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Ce résultat se généralise bien sûre au cas d’une somme de � v.a. réellesindépendantes. On le retrouve aisément puisque la fonction caractéristiquede la somme de v.a. indépendantes est le produit de leurs fonctions cara-ctéristiques. Comme la densité de probabilité est la transformée de Fourierinverse de la fonction caractéristique, alors la densité de probabilité de lasomme des v.a. indépendantes est le produit de convolution de ces densitésde probabilités.

12.10 Lois conditionnelles

Soit� � ��� �

un couple aléatoire de loi� 6 � 8 . Dans la pratique, il peut être

important d’utiliser la loi conditionnelle de�

sachant� � � � �

.

Dans le cas où�

est discrète et que� � � � � � % �

, la définition élémentairedu conditionnement conduit à :

� � � ��� � � � � 5 � � � �� � � � et

� � �� � � � ��

(12.14)

Dans le cas où la loi du couple est absolument continue, la loi conditionnellede

�sachant

� � � � �est définie, pour tout

�où

� 8 ��� � % �, par sa densité de

probabilité :� 6 � 8 �� � � � �

� 6 � 8 �� �� � �� 8 � � � (12.15)

On utilise aussi la notation� 8 � �6 � �

.

Remarques :

Remarques :

1. La connaissance de� 6 � 8 � ���� � permet de calculer

� 8 � � � par intégration puisensuite de déterminer les lois conditionnelles par la formule (12.15).

2. Si l’on connait toutes les lois conditionnelles� 6 � 8 � � � � ainsi que la densité

marginale� 8 ��� � , la formule (12.15) permet de calculer la loi conjointe du

couple aléatoire� � ��� �

.

3.� � � � � � � � � � � � �

� � 6 � 8 �� � � � � et� � � � � � � � � � � � � �

� � � � � � � � 8 � � � � � .

138

Page 155: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

4. Il est possible de définir l’espérance conditionnelle d’une fonction � � � ��� �sachant

� � � � �par :

��

� � � ��� � � � � � � ��� � �� �� � � � 6 � 8 � � � � � (12.16)

et l’on a :

��

� � � ��� � � ��

��

� � � ��� � � � � � � � 8 ��� � � � �

5. Nous avons alors les résultats très utiles suivants :

��

� � � ��� �1l � � �

�� �

�� � � ��� � � � � � � � 8 � � � � � � (12.17)

pour tout � �� � �. En particulier, si � � �

,

��

� � � ��� � � ��

��

� � � ��� � � � � � � � 8 � � � � � � (12.18)

Une conséquence de ces résultats est la proposition suivante dont la démons-tration est donnée à l’annexe D.

Proposition 24 Soit� ��� ���� �

un espace probabilisé,� ��� � ����� � �

� � � � ��� �deux variables aléatoires réelles indépendantes et � � � � � � ��� � �� � � � ��� �une application mesurable.

(i) ��

� � � ��� � � � � � � � ��

� � � ��� � � .(ii) �

�� � � ��� � � �

���

� � � � � � � � � � � � � � �.

Ce résultat appelle les commentaires suivants.

1. L’hypothèse d’indépendance entre�

et�

n’est pas superflue : si�

et�

nesont pas indépendantes, (i) et (ii) peuvent être faux. En effet, considérons� � �

, � �� ���� � � �et supposons que �

� � � � �. Le membre de gauche

dans (ii) vaut alors �� � � � � � alors que le membre de droite dans (ii) est nul

puisque �� � � � � �

. Ni (i), ni (ii) ne sont donc vrais dans ce cas-là.

139

Page 156: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

2. Démystifions quelque peu le résultat : (ii) peut être obtenu sans passerpar l’espérance conditionnelle. D’ailleurs, celle-ci n’intervient pas dansl’énoncé de (ii). Nous engageons le lecteur à vérifier que (ii) est en fait unesimple application du théorème de Fubini, absolument analogue au calculqui est utilisé pour démontrer (ii) à l’annexe D. Ce que nous dit ce lemme,c’est qu’en plus de (ii), l’espérance conditionnelle, lorsque

�et

�sont in-

dépendantes, s’obtient simplement en fixant�

.

Nous engageons le lecteur à étudier l’annexe D où les notions d’espérancesconditionnelles sont développées. Dans une première lecture, il peut se conten-ter des sections D.1, D.2, D.3.1, D.3.3 et D.4. Les résultats qui y sont donnésdevraient lui donner une vision saine et claire de la notion d’espérance condition-nelle.

12.11 Covariance et Matrice de covariance

12.11.1 Covariance

Considérons un vecteur aléatoire <� � � ��������� �, c’est à dire tel que chaque

composante est de carré intégrable. Nous avons (inégalité de Cauchy-Schwartz) :

��� � � � � � � � � �

�� � � �

� � � ��

� �� � �

� � �(12.19)

qui s’écrit ici :

�� � � � � � � � � �

� � � � � �

� � �� � � (12.20)

Ceci montre que � � ��� ��� �(�(� � � � � � � � ��� ��������� �

.

Définition 61 Soit <� � � � ��� ��� �, la covariance entre deux composantes

� et

� � du vecteur aléatoire <�est défine par :

��� ��� � � � � � � �� � � 3 �

� � � ��� � � 3 �� � � � � � (12.21)

Remarques :

1. ��� ��� � � � � � � � � � � � � �6 � .2. Un calcul simple montre que :

��� ��� � � � � � � �� � � � � 3 �

� � � �� � � � (12.22)

140

Page 157: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

3. Si� et

� � sont indépendantes alors � � ��� � � � � � � �. On dit alors que

� et� � sont non corrélées. La réciproque est en général fausse, on peut

trouver deux v.a. non corrélées et dépendantes (voir exercice en fin de cechapitre).

4. Le coefficient de corrélation entre� et

� � est définie par :

9 6 � 6 � � ��� ��� � � � � � =6 � =6 � (12.23)

5. On montre que� 9 6 � 6 � � � � .

6. 9 6 � 6 � ��� � si et seulement si� et

� � sont proportionnelles.

12.11.2 Matrice de covariance

Définition 62 Soit <� � � � ��� ��� �, la matrice de covariance du vecteur aléa-

toire <�est défine par :

�6 � � � � ��� � � � � � � ��� � � � � (12.24)

Remarques :

1. �6 est une matrice symétrique ( � �6 � �6 ).

2. �6 est une matrice positive ( � <� � � , on a : � <� �6 <� � �).

3. En notation matricielle, si <�est un vecteur colonne, on peut écrire :

�6 � �� � <� 3 � � <� � � � <� 3 ��� <� � ��

(12.25)

12.12 Droite et courbe de régression

Soit� � � � �

un couple aléatoire. Lorsque l’on représente les réalisations desvariables aléatoires

� � � �et

� � � �dans le plan

� �, on obtient un nuage de points

(voir l’exemple de la figure (12.1)). Si les v.a. sont reliées par une fonction déter-ministe

� � � � � �, on observe sur le plan le graphe de la courbe

� � � �� �. Si

cette relation n’est pas déterministe, on peut s’intéresser à une fonction de�

quiapprocherait au mieux, selon un certain critère, la variable

�.

141

Page 158: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

-3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

4

axes des x

axes

des

y

nuage de points

FIG. 12.1 – Nuage de points représentant 1000 réalisations d’un couple gaussiencorrélées ( =6 � 78 � � et 9 � ���;:

)

12.12.1 Droite de régression

Définition 63 On appelle droite de régression de�

sur�

, la droite d’équation :� � � � � �

où�

et�

minimisent la quantité �� � � 3 � � 3 � � � �

.

On parle alors d’estimation linéaire de�

en fonction de�

au sens des "moindrescarrés". L’équation de la droite de régression de

�sur

�est :

� 3 �� � � � � � � � � ��� �

�6�� 3 �

� � � � (12.26)

12.12.2 Courbe de régression

Définition 64 On appelle courbe de régression de�

sur�

, la fonction d’équa-tion :

� � � � �� � �

où�

minimise la quantité �� � � 3 � � � � � � �

.

L’équation de la courbe de régression de�

sur�

est :

� � � �� � � �� � � � � � (12.27)

142

Page 159: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

12.13 Exercice corrigé

Soit� � ��� �

un couple de variable aléatoire dont la densité de probabilité estdonnée par :

� 6 � 8 � ���� � �� � �

�3 � 3 � � �

si�$# � � � #

��sinon

1. Calculer la constante � .

2. Calculer la distribution marginale de�

.

3. Calculer la covariance de� � ��� �

.

4. On éffectue une rotation d’angle�

du couple� � ��� �

. Quelle est la densitéde probabilité du couple transformé.

5. Donner la courbe de régression de�

par rapport à�

et en déduire la droitede régression.

Elément de correction de l’exercice :

1. La constante � doit être tel que :� �

�� 6 � 8 � ���� � � � � � �

où � � � �� ���� � 5 � # � �� � # � � . On a :� � � � 6 � 8 �� ���� � � � � � � � � � � � � � 3 � � � � � � � � � � � �

� � � � 3 � �� � � �� � � ��� ��� � �� � � �

D’où :� � �

�2. Soit

tel que

� � # � (

fixé), alors�

peut prendre les valeurs suivantes :3 ��3 � # � # �

�3 �

. La densité de probabilité marginale est alors :

� 6 � � �� � � � � � � � � � �

� 6 � 8 � ���� � � �

143

Page 160: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

soit,� 6 � � �

� �� �

��3 � � � si

� � #��

sinon

3. On a : ��� � � � ��� � � �� � � � 3 �

� � � �� � � �

or,

�� � � � �

� �� � � 6 � 8 �� ���� � � � � � �

et

�� � � �

� � �� �

� 6 � � � � �

alors : � � � � � ��� � � ��

et�

sont non corrélées. Ceci est un exemple de couple de v.a. dépen-dantes et non corrélées.

4. Soit � la matrice de rotation :

� � ������

� 3�� � �

���� � ���

��

Soit� � � �

le couple transformé. On a :� � � � � � � � � ��� � � � � � � ��� �

Soit : �� � � � ����

� ���� � �

� � 3���� � ���

�� �

D’après la relation (12.10), on a :��� � � � � � � � � 6 � 8 � � � � � � � � � � � ������ � � � � � � � �

avec ici� � ��� � � � � � � � � � � � , d’où :

��� � � � � � � � � 6 � 8 � ����

� � ���� � � �(3

���� � � ���

�� � �

soit :��� � � � � � � � � � �

�3 �

� 3 � � �si

�$# �� � � # ��

sinon

On a la même loi que celle du couple� � ��� �

(normale puisque� 6 � 8 �� �� � �

est invariante par rotation).

144

Page 161: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

5. Courbe de régression� � � �� � � � 6 � � � � � , avec :

� 6 � � � � � �� � � 6 � �8 ��� � � �

avec :� 6 � �8 � � � � � 6 � 8 � ���� �� 6 � � � 2�

��3 � 3 � � ��

�3 � � �

la courbe de régression est :� � � �� � � � 6 � � � � � � �

qui sera confonduedans ce cas avec la droite de régression.

12.14 Problème corrigé : somme de variables aléa-toires admettant une densité conjointe

Ce problème et le suivant vont nous permettre d’utiliser les résultats précé-dents dans le but de calculer, par différents moyens, la loi de la somme de deuxvariables aléatoires. Dans ce premier problème, on s’intéresse à des variables aléa-toires qui ne sont pas forcément indépendantes mais nous supposons que le couplequ’elles forment admet une densité de probabilité.

Considérons un espace probabilisé� ��� ��� �

et deux variables aléatoires� ��� � � � �

.

On se propose de calculer la loi de� �

en suivant différentes méthodes decalcul. On supposera que le couple

� � ��� �admet une densité notée

� 6 � 8 qui estdonc la densité de probabilité du vecteur aléatoire

� � � � �.

1. Première méthode :

(a) En justifiant son utilisation, employer la formule du changement devariable avec � �� �� � � � �� ��� � �

pour calculer la densité du couple� � � � � �.

Réponse : L’application � telle que � �� �� � � � � � � � � � � ��� � �de

� �dans

� �est bijective. On a � � � � � � � � � � ���� � � � � � ��3 � � . La

matrice Jacobienne de � � � est donnée par :

��� � � � � � � �

� � �� �� � � � � �

� �� �� � � � � � �� �

� � � � � � �

� �� � � � � � � � � � �

� �3

� �� �

145

Page 162: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

On a� � ��� �

�� � � � � � � � � � . D’où, d’après l’équation (12.10), la densité� 6 � 6 � 8 du couple

� � � � � �est donnée par :

� 6 � 6 � 8 � � � � � � � 6 � 8 � � � � 3 � � �

(b) En déduire la densité de� �

en appliquant la définition de la loimarginale.

Réponse : La densité de probabilité de� � � �

n’est autre que ladensité de probabilité marginale de la seconde composante du couple� � � � � �

, soit :

� 6 � 8 ��� � ���

� 6 � 8 � � � � 3 � � � � � (12.28)

2. Deuxième méthode.

Soit une application mesurable � � � � �et munissons

�de la mesure

image� � � � � � � de

�par

� �. Nous avons donc :

� ��� ���� � 6 � 83 � � � ��� ��� ��� � � � � � � �3 � � � � � � � ��� � � � � � � �(a) Montrer que si � � � � �

est intégrable,�

� �� � � � � � � � � � �� � � �� � � � � � � � � � � � � � � � �

Réponse : c’est une simple application du théorème de transfert.

(b) Montrer que la mesure image de� � � ��� � � � par

� � � � � � �

définie par� �� ���� � � �

est la loi� � � � � � � .

Réponse : Il suffit d’appliquer le lemme 11 :

� � � � � � � � � ��� � � ��� � � � � � � � � ��� � � � � � � �

(c) Montrer que�

� �� � � � � � � � � � �� � � ��

�� � �� �� � � 6 � 8 �� ���� � � � � (12.29)

146

Page 163: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Réponse : Etant donné que pour la fonction � , nous avons

� � � ��� � � � ��� � � ��� � � � �3 � � � � � ��� ��� � � � � � � �3 � � � ��� ��� ��� � � � � � � �le résultat dérive du théorème de transfert et de l’existence de la densité� 6 � 8 .

(d) Retrouver le fait que la densité de� �

est donnée par (12.28).

Réponse : le membre de droite dans 12.29 est égal à

��

� � �� �� � � 6 � 8 �� ���� � � � � � ��

� �� � �� �� � � 6 � 8 �� �� � � � �

� � par Fubini

� ��

� ��

� � � � � 6 � 8 � �� � 3 � � �

� � � �

la dernière équation étant obtenue en posant � � �et en utilisant

le fait que la mesure de Lebesgue est invariante par translation (on n’apas besoin ici d’utiliser la formule de changement de variable, mêmesi c’en est un).

On utilise de nouveau Fubini et on remplace � par

(variable muette)pour écrire��

� � �� �� � � 6 � 8 �� ���� � � � � � �� � � �

� ��� 6 � 8 � � �� 3 � � � � � � ��

ce qui permet de conclure.

3. Troisième méthode :

(a) On suppose que� 8 � � � % �

. Soit � � � �. Montrer que l’on a :

�� � � � �

1l � � ��� �

� � � � � � � � � 8 ��� � � � �

Réponse : Il suffit d’appliquer (12.17) avec � �� ���� � � �et en

prenant en compte que la densité de�

est� 8 � � � � � � 6 � 8 �� ���� � � .

147

Page 164: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(b) Montrer que

�� � � � � � � � �

� �� � � � 6 � 8 �� � � � � �

Réponse : c’est l’application directe de (12.16) avec � �� �� � � � �.

(c) En déduire la formule (12.28).

Réponse : On reporte l’expression de �� � � � � � � � dans celle

de �� � � � �

1l � � en prenant en compte la définition de� 6 � 8 �� � � �

donnée par (12.15). Le résultat que l’on obtient étant valable pour toutborélien � , on en déduit la formule (12.28).

(d) Le cas de variables aléatoires indépendantes On suppose ici que lesvariables aléatoires

�et

�sont indépendantes.

i. Montrer que la densité de� �

est la convolution de� 6 et de� 8 (on utilisera les résultats précédents).

Réponse : C’est trivial à partir de la formule (12.28) puisque� 6 � 8 �� ���� � � � 6 �� � � 8 � � � lorsque�

et�

sont indépendantes.

ii. Retrouver le résultat en utilisant les fonctions caractéristiques.

Réponse : Puisque�

et�

sont indépendantes, la fonction ca-ractéristique de la somme est le produit des fonctions caractéris-tiques : �

� � � � 6 � 8 � � �

� � � 6 � �� � � 8 � . La fonction caractéristique

étant la transformée de Foruier de la densité, la densité de� �

est donc la transformée de Foruier inverse du produit des deuxfonctions caractéristiques �

� � � 6 � et �� � � 8 � , donc la convolution

des densités.

12.15 Problème corrigé : somme de variables aléa-toires indépendantes n’admettant pas de den-sité conjointe

Dans ce problème, nous reprenons les notations du problème précédent maisdans certaines questions, nous ne supposons pas que le couple

�et

�admet une

densité. Par contre, nous supposons que�

et�

sont indépendantes.

148

Page 165: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

1. Soit � � � � ��� ��� � � � � ��� ��� �intégrable par rapport à la mesure image� � � ��� � � � , montrer que

�� �� � � � � � � � � � �� � � �

� � � � � � � � � � � � � � � ���� ���� �� �

� �� � � � � � � � � � � � � � � � � � � � �

(12.30)

Réponse : On applique le théorème de transfert en prenant en compte quela mesure image de

� � � � � � � � par� � �� ���� � � � � � 3 � � �� �� �

est lamesure

� � � � � � � pour obtenir�

� �� � � � � � � � � � �� � � ��

� � �� �� � � � � � ��� � � � �� ���� � �

Du fait de l’indépendance de�

et de�

, on a� � � ��� � � � � � � � � � � � � �

et donc�� � � � � � � � � � � �� � � �

��

� � �� �� � � � � � � � � � � � � � � ���� � �

qui est la première égalité de (12.30). La seconde égalité dans (12.30) s’ob-tient en utilisant le théorème de Fubini.

2. Somme d’une variable aléatoire absolument continue et d’une variablealéatoire quelconque. Supposons que

�est absolument continue par rap-

port à la mesure de Lebesgue et notons� 8 sa densité de probabilité.

Montrer que la somme� �

est absolument continue par rapport à lamesure de Lebesgue et de densité

� 6 � 8 �� � �� � 6 �� �3 � � � � � � � � � � �

(12.31)

Réponse : La seconde égalité de (12.30) s’écrit alors

�� �� � � � � � � � � � �� � � �

� �� � � � � � 8 ��� � � �

� � � � � � � �(12.32)

149

Page 166: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Il suffit alors de faire le changement de variable � � �et d’utiliser le

fait que la mesure de Lebesgue est invraiante par translation pour obtenir lerésultat.

Remarque : Ce résultat est quand même remarquable : même si�

n’estpas absolument continue par rapport à la mesure de Lebesgue, la somme

� �, elle, est absolument continue par rapport à la mesure de Lebesgue

du momemnt que�

et�

sont indépendantes.

3. Le cas de variables aléatoires absolument continues. Supposons que�

et�

sont absolument continues. Retrouver que la densité de� �

est� 6 �� 8 .

Réponse : il suffit d’écrire que � � � � � � � 6 � dans (12.31).

150

Page 167: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 13

Vecteurs gaussiens

Les vecteurs gaussiens jouent un rôle très important dans beucoup de cas pra-tiques notamment en transmission numérique, reconnaissance de formes,. . . etc.

13.1 Définition

Définition 65 Soit <� � � ��������� �un vecteur aléatoire. On dit que <�

suit uneloi gaussienne si sa fonction caractéristique �6 � <� � est de la forme :

�6 � <� � � � ���� �� � � � �� � �� (13.1)

où <� � �et une matrice � � � symétrique positive.

Remarques :

1. Nous avons� � <� � � <� et �6 � .

2. La loi gaussienne est notée : � � <� � �.

13.2 Quelques propriétés du vecteur gaussien

1. <�est gaussien si et seulement si n’importe quelle combinaison linéaire de

ses composantes est gaussienne. En particulier, les composantes d’un vec-teur gaussien sont des v.a. gaussiennes. La réciproque est fausse en général.

151

Page 168: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

2. Dans le cas où <�est gaussien, on a :

�6 est diagonale si et seulement siles

� � � ��� � � sont indépendantes. En particulier, dans le cas d’un couplegaussien, il y a équivalence entre l’indépendance et la non corrélation desdeux composantes.

3. Si� ���

�� �, <�

est absolument continue sur� �

et admet une densité deprobabilité donnée par :

� �6 � < � � �� � � � � � � � � ���

��� �3 ��

� � < �3 <� � � � � < �3 <� �

(13.2)

4. Soit � une matrice � � � et <�� � � , on a :

<� � � � <� � � � � <� � � <� <� � � � � <� <� � � � � (13.3)

13.3 Quelques figures

Les figures (13.1) à (13.8) montrent l’allure de la densité de probabilité d’uncouple gaussien pour différentes valeurs des paramètres de la matrice de co-variance. Les contours, correspondant à des courbes de densité de probabilitéconstante, sont tout simplement des ellipses qui deviennent des cercles dans lecas où les deux composantes sont indépendantes (cas où le coefficient de corréla-tion est nul). L’axe principal de ces ellipses n’est autre que la droite de régressionqui représente également la courbe de régression dans le cas gaussien. Quand lecoefficient de corrélation tend vers 1, les contours tendent à être confondus avecla droite

� � ���� �

.

152

Page 169: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

-3-2

-10

12

3

-4

-2

0

2

40

0.005

0.01

0.015

0.02

0.025

0.03

axe des xaxe des y

Loi gausienne

FIG. 13.1 – Loi gaussienne bidimensionnelle avec <� � <� , =6 � � , 78 � � et9 � �

-3 -2 -1 0 1 2 3-3

-2

-1

0

1

2

3

axe des x

axe

des

y

les contours

FIG. 13.2 – Contours correspondant à la figure 13.1

153

Page 170: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

-3-2

-10

12

3

-4

-2

0

2

40

0.01

0.02

0.03

0.04

0.05

0.06

axe des xaxe des y

Loi gausienne

FIG. 13.3 – Loi gaussienne bidimensionnelle avec <� � <� , =6 � � , 78 � � et9 � ���;:

-3 -2 -1 0 1 2 3-3

-2

-1

0

1

2

3

axe des x

axe

des

y

les contours

FIG. 13.4 – Contours correspondant à la figure 13.3

154

Page 171: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

-3-2

-10

12

3

-4

-2

0

2

40

0.002

0.004

0.006

0.008

0.01

0.012

0.014

axe des xaxe des y

Loi gausienne

FIG. 13.5 – Loi gaussienne bidimensionnelle avec <� � <� , =6 � �, 78 � � et

9 � �

-3 -2 -1 0 1 2 3-3

-2

-1

0

1

2

3

axe des x

axe

des

y

les contours

FIG. 13.6 – Contours correspondant à la figure 13.5

155

Page 172: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

-3-2

-10

12

3

-4

-2

0

2

40

0.005

0.01

0.015

0.02

0.025

0.03

axe des xaxe des y

Loi gausienne

FIG. 13.7 – Loi gaussienne bidimensionnelle avec <� � <� , =6 � �, 78 � � et

9 � ���;:

-3 -2 -1 0 1 2 3-3

-2

-1

0

1

2

3

axe des x

axe

des

y

les contours

FIG. 13.8 – Contours correspondant à la figure 13.7

156

Page 173: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

13.4 Exercice corrigé

Soit� � � � � � � � � � un vecteur aléatoire réel à deux dimensions, de loi gaus-

sienne � � 3� � � � �, et

� � � � � ��� � � � le vecteur déduit de X par la transformationlinéaire

� � � �où � est la matrice donnée par :

� � � ����

����� �

3�� � � ���

�� � (13.4)

1. Donner une interprétation géométrique de l’action de la matrice � sur levecteur X.

2. Supposons que�

est de la forme :

� � � �� 9 � �9 � � ��

�(13.5)

avec� 9 � # � , Donner l’expression de la densité de probabilité

� 6 �� � ducouple

�.

3. Calculer la densité de probabilité conditionnelle� 6 � � � �6 � � � de

� � sachant� � � � . Quelle est cette loi ?

4. En déduire l’espérance conditionnelle, � 6 � � � � � � � � , de� � sachant

� � � � .

5. Ecrire la fonction caractéristique� 6 � � � (où � � � � � � � � � � ) du vecteur aléa-

toire X.

6. Donner l’expression de la matrice de covariance de�

.

7. Quelle est la loi du couple� � � � � ��� � � � .

8. Trouver les valeurs de�

telles que les composantes de�

soient indépen-dantes.

9. On définit une nouvelle variable aléatoire de dimension 1,� ����

�� � � 3 � � � :

(a) Calculer � � ���. Expliquer le résultat obtenu lorsque � � � et 9 � � .

(b) Calculer � � � � �et la variance �� . Discuter aussi le cas qui se produit

lorsque � � � et 9 � � .

(c) Donner le principe du calcul de � � � � �.

157

Page 174: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

10. On suppose dans cette question que � � � � . Montrer que :

� � � � � % � � � ��� � � % � � � � �� �� � ������ � 9 (13.6)

Eléménts de corréctions de l’exercice :

1. L’action de la matrice � sur le vecteur�

correspond à une rotation d’angle�des axes de coordonnées.

2. En utilisant la formule (13.2), on a :

� 6 � � � � 6 � � 6 � � �� � � � �� � � � � �3 9 �

� � � � � � � � �� � � � � � � � � � �

3. On a : � 6 � � � �6 � � � ��� � � � � � � ��� � � � �

� �� �

� � � � ��� �� � � � � � � � � � � � � �

� � � � 5 � � � � � � � 9 � � � � � �� � �3 9 � � � .

4. D’après l’expression precédente, on a :

� 6 � � � � � � � � � 9 � � �

5. En utilisant la formule (13.1), on trouve : ( � � � � � � � � � � ) 6 � � � � � � � � � � �

� � � � � � � � � � � � � �

6. Matrice de covariance de�

est :� 8 � � � � �

7.�

, résultat d’une transformation linéaire d’un vecteur gaussien, est égale-ment gaussien et on a :

� � � � <� � � 8 � .8.

� � � ��� � � étant un couple gaussien, on a l’équivalence entre l’indépendance etla non corrélation des v.a.

� � et� � . Pour que ces 2 v.a. soient indépendantes,

il suffit qu’elles soient non corrélées, soit : ��� � � � � ��� � � � �. On trouve alors

que :� � �� ���

� �� � � 9 � � �� 3 ��

� � � � � � �

158

Page 175: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

9. Remarquer que� � ���

�� � � 3 � � � peut s’écrire comme :

� � � � 6 � 6 � � � � 6 � 6 � �

On en déduit que :

(a)� � � � � � � � � ��� �

� � � � ��� � �

� � � � � � � � � � � � � � � �Dans le cas où � � � et 9 � � , on a :

� � � � � � , normale puisquedans ce cas

� � � � � .(b)

� � � � � � �� �� � � � � � � � � � � � � � � �et

�� � �� � � � � � � � � � � � � � �� � � � � � � � � � � � � 3 ��

Dans le cas où � � � et 9 � � , on a : �� � �, normale puisque dans

ce cas�

est une constante.

(c) Remarquer que :

� � � �� ������=�

� ��� � � � � �

6 � � � � � � � 6

d’où :� � � � � � �� �

�����=�

� �� 6 � 3 � + ��� + 3 �

10. Dans le cas où � � � � , on a :

� 6 � � 6 �� � �� � � � �� � � � �3 9 �

� � � � � � � �� � � � � � � � �

on a :

� � � � � � � % � �et� � � % � � � �

� ��� � � 6 � � 6 � � �� � � � � � �

159

Page 176: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Un changement de variables en coordonnées polaires permet de trouverque :

� � � �3 9 �� �

� � �

� �

�3 9 �

��� � �

Ensuite le changement de variable (� � �� � �

) (soit �� � � � � � ��"� � ) permet

d’achever le calcul.

160

Page 177: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 14

Variables aléatoires complexes

Les variables aléatoires complexes sont utilisées pour modéliser des phéno-mènes physiques, tels que les évanouissements subis par un signal lors de sapropagation dans l’espace libre (typiquement lors d’une communication de typeradio-mobile ou radar). Dans ce chapitre, nous allons considérer les variablesaléatoires complexes. Nous allons étendre aux complexes les définitions préciséesdans les chapitres précédents.

Définition 66 Soit� �����

un espace probabilisable. On définit un vecteur aléa-toire complexe et on note <� � � � � <� � � � � <� � � �

toute application de� �����

dans� �

telle que l’application� <� � � � � <� � � � �

de� ��� �

dans� � � � ��� � � � � �

soitun vecteur aléatoire réel de dimension

� .

14.1 Variable aléatoire complexe : paramètres

Soit une variable aléatoire complexe� � � � � � � � � � � � � �

. Alors, si �� � �

et �� � � existent, l’espérance mathématique de

�, notée �

� � � ou � � est donnéepar :

�� � � � �

� � � � �� � � (14.1)

Si le module de�

est de carré intégrable, sa variance s’exprime comme suit :� � � � ��� � �

� � � 3 �� � � �

�� � � � � � � � � � � � � �

(14.2)

Pour deux variables aléatoires dont le module au carré est intégrable, on définit lacovariance entre

� � et� � par :

��� � � � � � � � � �

� � � � 3 �� � � � � � � � 3 �

� � � � � � (14.3)

161

Page 178: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

On introduit alors le coefficient de corrélation entre� � et

� � défini par 9 � � � �� � � � � � � � ��� � ��� Les variables aléatoires

� � et� � sont non corrélées linéairement si et

seulement si��� � � � ��� � � � �

( 9 � � � � �).

14.2 Vecteur aléatoire complexe

Soit le vecteur complexe <� � <� � <� à composantes. Si les vecteurs espé-rances de <�

et <� existent, on définit le vecteur espérance de <� par :

�� <� � � �

� <� � ��� <� � (14.4)

La matrice covariance de <� est définie par :

�� � �� � <� 3 �

� <� � ��� <� 3 �� <� � ��� � � �

� � ��� � 3 �� <� � � �

� <� � � (14.5)

où � �est la matrice transposée conjuguée de � . En introduisant la matrice d’in-

tercovariance entre les vecteurs <�et <� , donnée par :

�6 � �8 � �� � <� 3 �

� <� � � � <� 3 �� <� � � � � � (14.6)

on obtient la relation suivante :

�� � � �6 �8 � � � � �6 � �8 3 �6 � �8 � (14.7)

La matrice de covariance de <� est une matrice hermitienne semi-définie positive.

14.3 Vecteur aléatoire complexe gaussien

Au vecteur aléatoire complexe à composantes <� � <� � <� , on associe le

vecteur aléatoire réel à� composantes <� � � � <�

<� � . La relation entre <� � et <� est

bijective. L’étude des propriétés statistiques de <� � permettent de déduire celles de<� .

Définition 67 Le vecteur aléatoire complexe <� est dit gaussien si le vecteur aléa-toire réel associé <� � est gaussien.

162

Page 179: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

La densité de probabilité et la fonction caractéristique d’un vecteur aléatoirecomplexe gaussien s’expriment comme suit :

� ��� <� � � ��"� � � � � � ��� �

� �� � � � 3 �� � <� ��3

�� <� � � � � � ��

� �� <� ��3

�� <� � � �

�� � <� � � � � �� � � � � �� � � � � � �� ��� � � � �� �(14.8)

En développant les calculs, on peut exprimer �

� � à partir de �6 ,

�8 et �6 � �8 .

En effet, on montre que :

� � ��

�6

�6 � �8 � �6 � �8

�8 � (14.9)

Au contraire d’un vecteur réel gaussien complètement caractérisé par sa moyenneet sa matrice de covariance, dans le cas complexe, il faut calculer une deuxièmematrice, notée � �� , définie par :

� �� � �� � <� 3 �

� <� � ��� <� 3 �� <� � � � � � �

� � � � � 3 �� <� � � �

� <� � � (14.10)

Le vecteur aléatoire complexe gaussien est parfaitement caractérisé lorsque samatrice de covariance et le moment � �� sont connus. En effet :

�6 � �� � � �� � ��

�8 � �� � � �� 3 � ��

�6 � �8 � 3 ���� �

��3 � ��

Par analogie avec le vecteur réel gaussien, nous allons déterminer la conditionsous laquelle la matrice de covariance suffit à caractériser le vecteur aléatoirecomplexe gaussien. Rappelons l’expression de la fonction caractéristique associéeà <� :

�� � <� � � � � �� � � � � �� � � � � � �� ��� � � � �� � �(14.11)

L’exposant du second terme est une forme quadratique � � <� � � � � � < �� <� � �< � �� < <� � �� <� <� � � �� �� < < � �� �� <� . Notre objectif est d’exprimer cette forme

quadratique uniquement en fonction de �� à partir d’une forme quadratique�� � <� �

de la forme : �� � <� � � � <� � �� <�

163

Page 180: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

où � est un réel positif.Nous pouvons montrer l’équivalence suivante :

� � < �� <� � � �� � <� � � �����

�6 � �8

�6 � �8 � 3

� �6 � �8� � ��

En résumé, pour que la connaissance de �� suffise à caractériser <� , il faut que le

vecteur aléatoire complexe gaussien <� vérifie la condition suivante :

��6 �

�8�6 � �8 � 3

� �6 � �8� � � � � <� 3

�� <� �� � <� 3

�� <� � � � � �

Un vecteur aléatoire complexe gaussien vérifiant cette condition est dit circulaire.La densité de probabilité et la fonction caractéristique d’un tel vecteur deviennent :

� ��� <� � � �

� � � ��� ��� � � � 3 �� � <� 3 �

� <� � � � � ���

� <� 3 �� <� � �

�� � <� � � � � �� �

� � � � �� � � � �� �� � � � �� (14.12)

164

Page 181: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 15

Convergence des variables aléatoires

Les principaux types de convergences sont la convergence en probabilité (oustochastique), la convergence en moyenne d’ordre � , la convergence presque sû-rement et la convergence en loi. Ces modes de convergences sont à l’origine desloi faible et forte des grands nombres ainsi que le théorème de la limite centrale.

15.1 Convergence en probabilité

Définition 68 (Convergence en probabilité) Soit� ���� � � une suite de variables

aléatoires. La suite� ���� � � converge stochastiquement (ou en probabilité) vers

la variable aléatoire�

(��

� �3 � �) si et seulement si :

� � % � � ������ � �

� � � ��3 � � % � � � ���

(15.1)

15.2 Convergence en moyenne d’ordre � et loi faibledes grands nombres

Définition 69 (Convergence en moyenne d’ordre � ) Soit� ������ � une suite de

variables aléatoires. La suite� ������ � converge en moyenne d’ordre � � � � �

vers la variable aléatoire�

(��

� �3 � �) si et seulement si :

������ � �

� � � ��3 � � � � � � �

(15.2)

Remarques :

165

Page 182: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

1. (��

� �3 � � � � � � ��

� �3 � � �avec

/ # � puisque dans ce cas� � � � � �

2. Si �&� � , on dit simplement "convergence en moyenne".

3. Losque � � �, on parle souvent de "convergence en moyenne quadratique"

au lieu de convergence en moyenne d’ordre 2 qu’on note aussi� �� ���

��

3 � � �.

Théorème 29 La convergence en moyenne d’ordre � implique la convergence enprobabilité. Soit : � �

�� �3 � � � � � � �

�� �3 � � � �

(15.3)

Proposition 25 (Loi faible des grands nombres) Soit� ������ � une suite de va-

riables aléatoires indépendantes, de même loi et de variance finie, alors :

�� �

� � � � �(�(� ��

��� � �3 � � � � � � � (15.4)

Noter que nous avons également dans ce cas la convergence en Probabilité.

15.3 Convergence presque sûre et loi forte desgrands nombres

15.3.1 Inégalité de Kolmogorov

L’inégalité de Kolmogorov est utilisée pour démontrer la loi forte des grandsnombres dans le cas de variables aléatoires indépendantes de variance finie maisnon forcément identiquement réparties.

Théorème 30 Soit une suite� de variables aléatoires indépendantes telle que

� ��� � � # �. Alors pour tout réel positif

�,

� � � � � ���� � � � � �� � � � � 3�� � � � � � � � � � � ��� � � ��� � �� �

Si de plus il existe un réel positif � tel que pour tout+ � � � � � � , alors,

� � � � � ���� � � � � �� � � � � 3�� � � � � � � � � �3 � � � � � �� � � � � � ��� � �

166

Page 183: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

15.3.2 Convergence presque sûre

Définition 70 (Convergence presque sûre) Soit��������� �

un espace probabilisé.On dit que la suite

� ������ � converge presque sûrement vers la variable aléatoire

�(

������

3 � �) si et seulement si :

� � � � � 5 � � � � � � � et � � � � � ������ � �

��� � � � � � � � �

(15.5)

Ceci n’est autre que la convergence simple des fonctions��� � �

en tout pointde

�(sauf aux points

� ��� 3 � � � , ensemble qui est de mesure nulle).Pour montrer la convergence presque sûre d’une suite, on est souvent amené à

utiliser le lemme de Borel-Cantelli, dérivé du théorème du même nom.

Lemme 12 (Lemme de Borel-Cantelli) Une condition suffisante de convergencepresque sûre de la suite de variables aléatoires

� ���� � � vers

�est que la série

de terme général � � � � � � ��3 � � % � � converge. Soit :

� � % �� ��� � �

� � � ��3 � � % � � # � � � � �

�����

3 � � � �(15.6)

15.3.3 Loi forte des grands nombres de Kolmogorov

La Convergence presque sûre est la convergence qui intervient dans la loi fortedes grands nombres.

Nous allons d’abord donner un théorème d’existence de la limite de la sommede variables aléatoires indépendantes de distribution quelconque.

Théorème 31 (Théorème d’existence de Kolmogorov) Soit� ���

une suite devariables aléatoires indépendantes de moyennes nulles telle que la série� ���� � � � � �

� � converge. Alors� � ��� � � � converge presque sûrement vers une va-

riable aléatoire lorsque tend vers l’infini.

Ce théorème permet de démontrer le suivant.

Théorème 32 (Loi forte des grands nombres de Kolmogorov) Soit� ���

unesuite de variables aléatoires indépendantes telle que la série

� ���� � ����� 6 �� converge. Alors

������ �

� � 3 ������ �� � � � � � �

presque sûrement lorsque tend vers l’infini.

167

Page 184: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Dans le cas de variables en plus identiquement distribuées, nous pouvonsénoncer la proposition suivante.

Proposition 26 (Loi forte des grands nombres) Soit� ������ � une suite de va-

riables aléatoires indépendantes, de même loi et de moyenne finie, alors :

�� �

� � � � �(�(� ��

����

3 � � � � � � � (15.7)

15.4 Convergence en Loi, théorème de la limite cen-trale et théorème de Lyapounov

C’est la convergence la plus faible parmi celles présentées ici.

Définition 71 (Convergence en Loi) Soit� ���� � � une suite de variables aléa-

toires. La suite� ���

converge en loi vers la variable aléatoire�

(�� �3 � �

) siet seulement si les fonctions de répartition convergent simplement en tout point decontinuité, soit :

� � � ������ � �

� 6 � � � � � 6 �� � , si� 6 est continue en

. (15.8)

Remarques :

1. Les trois conditions suivantes sont équivalentes :– � � � ����� � � �

� 6 � �� � � � 6 �� � , si� 6 est continue en

.

– � � � � ����� � � � 6 �� � � � 6 � � �

– � � . (continue, borné)�����

� � �� �

� � ��� � � � �

� � � � �2. Schéma mnémothechnique :

�*/ # � �

� ��

� �3 � � � � � � ��

� �3 � � � � � � �� �3 � � �

� �� ��� � �� � ��� � ��� �

���� � ���

Théorème 33 (Thèorème de la limite centrale) Soit� ������� �

une suite de va-riables aléatoires indépendantes, de même loi et de variance finie

�������� � � � � �� ���

, (������� ��������� �"! �

), alors :# � � �%$ # ��&�'� # ��� ��)(+* �-,.�0/ �

(15.9)

où# � � �%�2143030351 ���

et donc�'� # �6� � � 7 �

.

168

Page 185: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Ceci peut se traduire par� � � � $ ��� & �

:

! ��� �2143030351 � � � 7 �� 7 � ��� � ����

�)(/

� �������� �� �������� �Le théorème de Lyapounov que nous allons à présent énoncer est la générali-

sation du théorème central limite pour des variables aléatoires indépendantes nonforcément identiquement réparties.

Théorème 34 (Théorème de Lyapounov) Soit une suite� � ���

de variables aléa-toires indépendantes de variances finies. On pose ! � � � " � #%$ � � ��� � #

et� # � � $ � # &. S’il existe un réel strictement positif & tel que')()*���� /! � �,+�

�- #%$ � � $/. � #� � # . � �,+ & � , �

alors# � � 0213 �547698 3 �;: 3=<> 1 converge en loi vers une variable aléatoire normale

(gaussienne centrée de variance unité).

15.5 Exemple d’utilisation du théorème de la limitecentrale

Nous nous intéressons aux résultats d’un référendum au sein d’une large po-pulation, de taille ? . Chaque individu peut voter oui ou non (on néglige les abs-tentions). Nous cherchons à déterminer le pourcentage de oui, qu’on notera @ .Nous disposons pour cela d’une sous-population de taille

7tirée au hasard. Si

# �désigne le nombre de oui,

# �suit la loi binomiale

� � 7 � @ � .!�� # � �BA � �DC #

� @ # �/ � @ � � � #où @ désigne la proportion de oui, ou la probabilité qu’un individu pris au hasardvote oui. On a

# � � � � 1 30303�1 � �, où les

� #représentent 1 pour oui et 0 pour

non et forment une suite de v.a. indépendantes et de même loi (Bernouilli��� @ � ).

Une estimation de @ peut être donné par# �5E 7

. Nous cherchons ici à trouver lataille de l’échantillon

7(en fixant un nombre positif � et une probabilité d’erreurF ) tel qu’on puisse affirmer que @ � �HG 1� � � � G 1� 1 � � avec une probabilité de se

tromper au plus égale à F . Soit :

! � ����

# �7 � @ �

���� �JILK / � F

169

Page 186: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

D’après le théorème de la limite centrale, on a :# � � 7 @� 7 � � * �-, �0/ �

avec� � � @ � / � @ � . D’où :

! � ��G 1� � @ �

� � � � � ! � ���

G 1 � ���� ��� ��� ��� � ����

���� 1� �� 1 �� � � � ��� �� � �

� � � �� 1� �� � � � ��� �� � �

� ������� � � �� � ���où : ����� � � � � �

� � ���� � ��� � ���On veut donc que : ������� � � 7� � �! K / � F

soit, 7 K � � �� ��" ���#� � � �/ � F �%$ �

Notons que�

n’est pas connu mais que� � / E �

. Le nombre d’échantillon mini-male est donc :

7 : � � � /� � �&" ���#� � � �/ � F �'$ �Application numérique :F � , 3 ,)(

, � � , 3 ,�*, on trouve que le nombre d’échantillon est

/ ,�+�,. On a

dans ce cas le pourcentage de oui est @ � # � E 7 à*)-

près avec une probabilité de, 3/. (.

170

Page 187: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

15.6 Exercice corrigé

Soit X une variable aléatoire qui suit la loi de Cauchy dont la densité de pro-babilité est donnée par : � 8 � � � � /� /

/ 1 � � (15.10)

Soit� � ��� � � une suite de variables aléatoires indépendantes et de même loi que

celle de�

. On définit� # ��� � � une suite de variables aléatoires définie par :

# � ��- � $ � � �

(15.11)

1. Calculer la fonction caractéristique de la variable aléatoireG 1� .

2. Montrer queG 1� converge en loi vers

�.

3. Montrer queG 1� � converge en probabilité (ou stochastiquement) vers

,.

4. Montrer queG 1� � converge presque-sûrement vers

,(Utiliser le lemme de

Borel-Cantelli).

Eléments de correction de l’exercice :

1. Calculons tout d’abord la fonction caractéristique de la v.a.�

, on a :

� 8 � � � � � � � � � 8 � � /� ��� � � � �/ 1 � � � �En utilisant le théorème des Résidus par intégration de la fonction complexe� ��� � � � � � � E �/ 1 �6� �

sur le demi cercle supérieure de centre l’origine desaxes et de rayon � , on trouve que : ( �

���)

� 8 � � � � � � � Soit maintenant � � � G 1� , on a :

� � 1 � � � � � � � � �

� 1 �� � � � ���1 0 1� � 4 8 � �� � � � 0�1� � 4 � �1 8 � �� � ��� �� $ � � � �1 8 � �171

Page 188: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

les� � � � � � étant indépendantes, on a :� � 1 � � � � �

��$ � � � � � �1 8 � �

� ���$ � � 8 " �� $

� " � 8 " �� $ $ �� � � � . �1 . � �� � � � � � 8 � � �

2. D’après la question précédente, on a :� � � � � ')( * � �� � � 1 � � � � � 8 � � �

ce qui implique queG 1� ��)( �

. Remarquer que la loi faible (ou forte) desgrands nombres ne s’appliquent pas ici puisque les moments d’ordre supé-rieur ou égal à 1 n’existent pas.

3. Pour montrer queG 1� � � ��)( ,

, il faut montrer que :

� ���, � ')()*���� ! �����

# �7 � � ,

���� � � � � ,

On a en effet : (on utilise le fait queG 1� � C � ���� �

! ���G 1� � � , �� � � � � ! ���

�G 1� �

� �7 � �

� � �� � � ��

�� � � � � �� ��

� � � ����� � � � 7 � � ���� �)( ,

4. Pour montrer queG 1� � �

����)( ,

, on peut utiliser le lemme de Borel-Cantelli.Pour cela, il suffit de montrer que la série entière " �� � $ � ! ���

�G 1� � � , �� � � �

converge. On a :! ����G 1� � �� � � � � �

� " � � � ���� �� � 7 � � $

� ��

���� �� � �� � �

� ��

�� � � terme général d’une série entière convergente.

172

Page 189: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Chapitre 16

Génération de variables aléatoires

Dans ce chapitre, on se propose d’indiquer des méthodes pour générer des va-riables aléatoires suivant une loi de probabilité donnée. En effet, pour valider unsystème (de communication par exemple), il est nécessaire de le simuler dans desconditions de fonctionnement réalistes. La modélisation des phénomènes aléa-toires intervenant lors de son utilisation (bruit thermique, bruit impulsif...) est parconséquent nécessaire. La plupart des langages informatiques proposent dans leurbibliothèque un générateur de variables pseudo distribués uniformément sur

$ , �0/ &.

Certains logiciels, tels que Matlab, mettent en plus la loi normale à disposition deson utilisateur. A partir de la loi uniforme, il est possible, à l’aide de méthodesprécisées dans ce chapitre, de simuler un grand nombre de lois. Nous allons parconséquent aborder tout d’abord la génération de cette loi de base.

16.1 Génération de la distribution uniforme sur��� �����La plupart des algorithmes de génération de nombres choisis au hasard uti-

lisent la procédure déterministe suivante. A partir d’un état � � , ils générent unnombre � � � � � � ��� et un nouvel état � ��)� �� � � ��� qui servira pour générer� � �)� et ainsi de suite. L’algorithme étant déterministe, le nombre d’états est né-cessairement fini et la suite de nombre engendrée périodique. Plus la période estlongue, plus le caractère aléatoire de la suite sera grand. Parmi les méthodes uti-lisées, on peut citer la méthode de Lehmer (1951) et la méthode de registres àdécalage rebouclés. Nous allons détailler la première dont le principal avantageest la simplicité de mise en oeuvre.

173

Page 190: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

16.1.1 Méthode de congruences multiplicatives de Lehmer

Soient � , � et � � des entiers.� � est l’état initial et � � / est la période du

générateur. L’équation d’état est la suivante : � � � � � � � � * � � � . A partir desétats � � , on génère la suite pseudo-aléatoire � � ��� 1: à valeurs dans

$ , �0/ $.

16.2 Génération de variables aléatoires de loi deprobabilité quelconque

Etant donnée une ou plusieurs suites de variables aléatoires distribuées sui-vant une loi uniforme, il est possible de générer des suites de variables aléatoiresdistribuées selon une autre loi. Nous allons indiquer quelques méthodes.

16.2.1 Génération par inversion de la loi de répartition

Soit � une variable aléatoire uniformément répartie sur$ , � / &

. On souhaitegénérer une variable aléatoire

�dont la fonction de répartition est notée � 8 .

Cas où�

est continue� � � � �8 � � � est une variable aléatoire de fonction de

répartition � 8 .Cas où

�est une variable aléatoire discrète On suppose que

�est à valeurs

dans un ensemble discret ou dénombrable dont les éléments sont notés � # ettels que

!'� � � � # � � @ # . Dans ce cas, la fonction de répartition de�

vaut � 8 � � � � " # � 3�� � @

#. On définit l’application réciproque, notée � � �8 par :

� � �8 ��� � � � ��� � . � 8 � � � ����� . Alors la variable aléatoire � � �8 � � � admet � 8pour fonction de répartition.

16.2.2 Génération par changement de variables

Soient� �

,� � , ...,

� �n variables aléatoires indépendantes, mais pas forcé-

ment identiquement distribuées. L’utilisation d’une fonction�

définie sur un sous-ensemble de

� �à valeurs dans

�permet l’obtention d’une nouvelle variable aléa-

toire � � � � � � � � � � 3 3 � � ��� .Par exemple, pour obtenir deux variables aléatoires gaussiennes indépen-

dantes,� �

et� � , on génère deux variables aléatoires indépendantes, � � et � �

uniformément réparties dans$ , �0/ &

. On pourra vérifier que le changement de va-riables ci-dessous permet l’obtention des deux variables

� �et

� � aux propriétés

174

Page 191: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

énoncées plus haut. � � � � � � ' � � � ��� ��� 5� ��� � � �� � � � � � ' � � � ��� ( � � � � � � �16.2.3 Génération par convergence en loi

En choisissant judicieusement les paramètres d’une suite de variables aléa-toires, on peut générer une variable aléatoire, limite de cette suite aux propriétésvoulues.

Soient ? variables aléatoires normales (centrées, de variances identiques).Alors la variable aléatoire " �� $ � � �� suit une loi du chi-

�à7

degrés de liberté.Par exemple, pour obtenir une variable aléatoire gaussienne, il suffit de dispo-

ser d’un nombre suffisant de variables aléatoires indépendantes et identiquementdistribuées. L’application directe du théorème central limite nous assure du carac-tère asymptotiquement gaussien de la variable

�� " �� $ � � � � ��� $ � � & �

.

16.2.4 Autres méthodes

Citons sans les détailler les méthodes d’acceptation-rejet, de Monte Carlo...

175

Page 192: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Bibliographie

[1] ABRAMOWITZ M., STEGUN I. Handbook of Mathematical Functions. Do-ver Publications, Inc., New York, 1972, ninth printing.

[2] ANDERSON T. W. An introduction to Multivariate Statistical Analysis. JohnWiley & Sons, New York, 1958.

[3] BASS J. Eléménts de calcul de probabilités. Masson, Paris, 19xx.

[4] BOCLÉ J. Cours de probabilités. Ecole Nationale Supérieure des télécom-munications de Bretagne, Brest, 1985.

[5] CHONAVEL T. Notes de cours de Mesure et Intégration. Polycopié E.N.S.Tde Bretagne., 2002.

[6] DELMAS J.P. Probabilités et télécommunications, Exercice et problèmescommentés. Masson, Paris, 1987.

[7] DELMAS J.P. Introduction aux probabilités. Collection pédagogique detélécommunications. Ellipses, Paris, 1993.

[8] FELLER W. An Introduction to Probability Theory and Its Applications.John Wiley & Sons, Inc., New York, 1971.

[9] FOUQUE J.P. Probabilités et statistiques. Ecole Nationale Supérieure destélécommunications, Paris, 1990.

[10] GIRAULT M. calcul des probabilités en vue des applications. Dunod., 1964.

[11] GUIKHMAN I., SKOROKHOD A. Introduction à la théorie des processusaléatoires. Editions MIR, Moscou, 1980.

[12] HALMOS P. R. Measure Theory. Springer-Verlag, New York, Heidelberg,Berlin, 1974.

[13] HILLION A. Probabilités, résumé de cours. Ecole Nationale Supérieure destélécommunications de Bretagne, Brest, 1992.

[14] HILLION A. Mesure et intégration, Notes de cours. Ecole Nationale Supé-rieure des télécommunications de Bretagne, Brest, 1998.

176

Page 193: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

[15] KENDALL M. AND STUART A. The Advanced Theory of Statistics (T1, T2).Griffin, London, 1979.

[16] LEBEDEV N. N. Special functions and their applications. Prentice Hall,Inc., 1965.

[17] MUIRHEAD R. J. Aspects of Multivariate Statistical Theory. John Wiley &Sons, New York, 1982.

[18] PAPOULIS A. Probability, random variables and stochastic processes. McGraw Hill editions, New York, 1991.

[19] PICINBONO B. Signaux aléatoires : Probabilités et variables aléatoiresavec problèmes résolus. Dunod, Paris, 1993.

[20] RAO M. M. Conditional Mesures and Applications. Marcel Dekker, Inc.,New York, 1993.

[21] REED M., SIMON B. Functional analysis. Academic Press, Inc., San Diego,1980.

[22] RUDIN W. Real and complex analysis. McGraw-Hill, Inc., USA, 1966.

[23] SAOUDI S. Probabilités : Formation Promotionnelle du� �� : �

année du cyclepréparatoire. Polycopié E.N.S.T de Bretagne., 2002.

[24] SKOROKHOD A. Lectures on the Theory of Stochastic Processes. VSP,Utrecht, The Netherlands, 1996.

177

Page 194: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Annexe A

Mesurabilité dans�

L’objectif de cette annexe est de présenter la tribu usuelle de�

et le critèrede mesurabilité associé à cette tribu. Nous allons procéder à l’aide d’exercicessuccessifs reposant sur des notions classiques de topologie que nous rappelons etsur la définition de la tribu engendrée par une classe d’ensembles (cf. définition2).

Définition 72 Soit � un ensemble.

(a) Une collection � de parties de � est appelée topologie de � si elle vérifie lestrois propriétés suivantes :

(i) � � � et �� � .

(ii) Si � � � � , � � /�� 303 3 � 7 , alors ��� $ � � ��� � .

(iii) Si� ��� � est une collection arbitraire d’éléments de � (finie, dénombrable

ou non), alors ��� ��� � � .

(b) Is � est une topologie de � , alors� � � � � est appelé espace topologique et

les éléments de � sont les ensemble ouverts (ou ouverts) de � pour la topologieconsidérée. Les ensembles fermés de � sont alors les ensembles dont les complé-mentaires dans � sont ouverts pour la topologie considérée.

(c) Si� � � � � et

� � � �� � sont deux espaces topologiques et � � � ( � unefonction de � dans � , on dit que � est continue si l’image réciproque de toutouvert de � est un ouvert de � :

� � � �� � � � � � � � � � 3178

Page 195: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

On rappelle que l’image réciproque par une application continue de tout ouvertde l’espace d’arrivée et un ouvert de l’espace de départ ?

Exercice 26 (Topologie usuelle de�

) Soit

� � � � ��� � � � � � � ����� � , � & � � � � � 1 � $�� � � 3

Montrer que � � est une topologie de�

. Cette topologie est la topologie usuellede

�.

Exercice 27 (Topologie trace) Soit� � � � � un espace topologique et une partie

de � . On pose :�� � � � � � � � � � 3 (A.1)

Montrer que� � �� � est une topologie. Cette topologie s’appelle la topologie trace

de � sur . Dans la suite, nous la noterons �� � � � .

Exercice 28 Montrer que$ � /��", $ n’est pas un ensemble ouvert de

�muni de sa

topologie usuelle mais que$ � /���, $ est un ouvert de

$ � /6�0/ & muni de sa topologietrace.

Définition 73 Soient� � � � � et

� � � �� � deux espaces topologiques. Une appli-cation � � � ( � est un homeomorphisme si � est une application bijective,continue et si sa réciproque � � � � � ( � est aussi continue.

Exercice 29 Soit � � ( & � /��0/ $ l’application définie par

� � ��� � � � � � �. � . 1 / 31. Montrer que est un homeomorphisme de

�muni de sa topologie usuelle

� � (cf. exercice 26) dans& � /��0/ $ muni de la topologie trace de ��� � ��� ��� �& � /��0/ $ ��� � .

2. Montrer que ' ()*� � � � � � /6� ')( *

� � � � � � � /

179

Page 196: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Exercice 30 Soit définie comme à l’exercice précédent. Soit � � ( $ � /��0/ &définie par

� � � � ���� � � � si � ���/

si � ���� / si � � � �

Soit � � � ��� � � � $ � /�� / & � � � la topologie trace de la topologie usuelle � � sur$ � /��0/ & .

Montrer que� � � � � � � � � � � � � � � ��� � � �

est une topologie sur�

et que est un homéomorphisme entre�

muni de cettetopologie et

$ � /��0/ & muni de la topologie trace � � � ��� � � .Cet exercice justifie la définition suivante.

Définition 74 (Topologie usuelle de�

) La topologie usuelle de�

est définiecomme la collection

� � � � � � � � � � � � � � � ��� � � �où � � � ��� � � � � � � $ � /�� / & est la topologie trace de la topologie usuelle de

�sur

l’intervalle$ � /��0/ & et où � � ( $ � /6�0/ & est définie par

� � � � �� � � � � si � ���/

si � ���� / si � � � �

La tribu des boréliens de�

est la tribu engendrée par la collection des ouvertsde

�au sens de la topologie usuelle de

�:��� � � � � � � � � . De manière analogue,

nous poserons la définition suivante.

Définition 75 (Tribu des boréliens de�

) La tribu des boréliens de�

est la tribuengendrée par les ensembles ouverts de la topologie usuelle de

�. La tribu des

boréliens de�

sera notée��� ���

et nous avons donc :

� � � � �4� � � � � 3

En résolvant l’exercice suivant, le lecteur va pouvoir établir, dans le cas de�

,l’analogue de la proposition ??.

180

Page 197: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Exercice 31 Soient les collections suivantes d’ensembles :� � � � $ � � � � & � � � � � �� � � � $ � � � � $ � � ��� � ���� � � $ � � � & � � ��� � ���� � � & � � � & � � ��� �

1. Montrer que� � et

���sont des sous-ensembles de � � et que les éléments de� �

et de���

sont des fermés de�

.

2. Montrer que� � � ��� � � � � �

pour � � /�� � � *.��� .

3. Nous cherchons maintenant à montrer la réciproque de la question précé-dente, c’est-à-dire que

��� � � � � � � � �.

(a) Montrer que tout ensemble ouvert de�

(au sens de la topologie usuellede

�est l’union dénombrable d’intervalles ouverts de

�(indication :

utiliser le fait que tout réel peut être approchée par une suite de ration-nels et que � est dénombrable).

(b) Montrer que pour tout � � /�� � � * ���,& � �� $ � � � � ���

et que� � � � � � � � � � � � � � ��� .(c) Montrer que tout pour tout ouvert � de

�pour la topologie usuelle de�

, � � � est un ouvert de�

, au sens de la topologie usuelle de�

maisque la réciproque est fausse.

(d) Déduire des questions précédentes que��� ��� � � � � ���

pour � �/�� � � *.���. Indication : on partira d’un ouvert � de

�et on utilisera

le fait que � � � � � � .

Nous avons donc démontré la proposition 4 du cours, à savoir que� � � � �

� � � � �pour � � /��� .

181

Page 198: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Annexe B

La mesure et l’intégrale deLebesgue-Stieltjes

Cette annexe constitue un complément des chapitres 1 et 5. Il n’est donc pasnécessaire de se concentrer sur cette annexe dans une première lecture.

Cependant, une lecture ultérieure de cette partie peut se révéler utile pour lesraisons suivantes.

1. Nous présentons ci-dessous la construction de la mesure de Lebesgue-Stieltjes qui concerne exclusivement

�. La mesure de Lebesgue est un

cas particulier de la mesure de Lebesgue-Stieltjes. Il est donc intéressantde savoir comment on construit cette mesure sur

�et de voir que cette

construction n’est pas si évidente. C’est pour cela qu’au chapitre 1, nousnous sommes contentés d’admettre l’existence de cette mesure.

2. On rencontre souvent l’intégrale de Lebesgue-Stieltjes dans la littérature,que ce soit en mathématiques (naturellement) ou même en traitement dusignal (notamment dans la littérature américaine telle IEEE). Il est donc bonde savoir ce qu’est cette intégrale pour pouvoir déchiffrer certains articlesou ouvrages.

L’intégrale de Lebesgue-Stieltjes, précisons-le dès maintenant, n’est pas unenotion d’intégrale différente de celle présentée au chapitre 5. L’intégrale deLebesgue-Stieltjes n’est qu’un cas particulier de la construction abstraite duchapitre 5. Elle correspond au cas où l’ensemble

�sur lequel on souhaite

intégrer est le corps des réels lui-même et où la mesure sur�

est ladite me-sure de Lebesgue-Stieltjes (et en particulier, la mesure de Lebesgue). C’est

182

Page 199: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

pourquoi l’intégrale de Lebesgue-Stieltjes est souvent utilisée en théoriedes probabilités car c’est elle qu’on utilise pour définir et calculer les fonc-tions de répartition. Nous allons d’ailleurs le voir, la mesure et l’intégralede Lebesgue-Stieltjes sont fortement liées à la notion de fonction de répar-tition.

3. Certains des résultats que nous présentons ci-dessous nous seront très utilesen théorie des processus aléatoires.

4. La construction de Caratheodory se retrouve aussi en théorie des fractaleset en morphologie mathématique. En effet, la mesure de Haussdorff se pré-sente en utilisant la démarche de Caratheodory.

B.1 Problématique

La notion de mesure sur�

correspond évidemment à la notion intuitive delongueur d’un intervalle. Si

& � �� & est un intervalle, la "mesure" naturelle de cetintervalle, c’est-à-dire sa "longueur", est

� � � . Nous avons considéré un inter-valle ouvert à gauche pour des raisons de cohérence avec la suite. Cependant, lalongueur des intervalles

& � �� & , $ � �� $ , & � �� $ reste intuitivement� � � . Posons donc

� � & � �� & � � � � � . Est-ce que � est alors une mesure ? Pour que ce soit une mesureet donc pouvoir intégrer par rapport à cette mesure, il nous faut définir � sur unetribu et montrer que � est

�-additive. Or ,l’ensemble des intervalles fermés, ou-

verts, semi-ouverts à droite ou à gauche, n’est pas une tribu. On est donc amené àconsidérer la tribu engendré par ces intervalles et nous savons que c’est la tribu desboréliens de

�, c’est-à-dire la tribu engendré par les ouverts de

�(qui ne se réduit

pas l’ensemble des intervalles ouverts de�

. Mais il reste toujours le problème dela�

-additivité de � .

En fait, nous n’allons pas résoudre directement ce problème mais traiter unproblème plus général. Le problème vraiment intéressant est en fait le suivant.Nous allons chercher à construire une extension de la notion intuitive de longueurd’un intervalle de manière à couvrir la notion de fonction de répartition (tellequ’on la rencontre en probabilités) et aboutir à la mesure de Lebesgue comme casparticulier.

Expliquons pourquoi ce problème est celui qui nous intéresse en utilisant desarguments probabilistes.

Considérons un espace probabilisé�-����� �"! �

et une variable aléatoire réelle�� �-����� � ( � � ��� � � ���

. Soit � 8 la fonction de répartition de�

: � 8 � � � �183

Page 200: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

� � � � � � � � . Cette application est continue à droite et croissante. Nous savonsalors que � � ! � � � est une mesure définie sur les boréliens de

�(en tant que

mesure image de!

par�

) et que � � & � �� & � � !�� � � � � & � �� & � � � !'� � � � � �� � � � � 8 � � � � � 8 � � � (cf. proposition 23). En d’autres termes, une variable aléa-toire réelle nous permet de définir une mesure sur

�telle que la longueur de tout

intervalle& � �� & est de la forme � � � � � � � � � où � est continue à droite, croissante,

� � � � � /et � � � � � , . Il est alors intéressant d’étudier la réciproque : si nous

nous donnons une application � � � ( �, continue à droite croissante et telle que

� � � � � /et � � � � � ,

est-ce que la "longueur" � définie pour tout intervalle& � �� & par � � & � �� & � � � � � � � � � � � s’étend en une mesure sur tous les boréliens de�? Si la réponse est oui (et ce sera bien le cas), les conditions � � � � � /

et � � -� � � ,sont-elles vraiment nécessaires ? Si ces conditions ne sont pas nécessaires

(et elles ne le seront pas), alors nous pouvons partir d’une application � � � ( �croissante et continue à droite pour pouvoir construire une mesure sur tous lesboréliens de

�et intégrer par rapport à cette mesure. En particulier, il nous suf-

fira de prendre � égale à l’identité pour savoir définir la mesure de Lebesgue�

,c’est-à-dire la mesure qui assure que la longueur de tout intervalle (ouvert, fermé,semi-ouvert) de bornes � et

� K � est� � � .

Pour résoudre ce problème fondamental, ce qui précède nous indique com-ment on va procéder et mettre en évidence la difficulté majeure.

Nous allons partir d’une application � � � ( �croissante et continue à

droite. Nous allons ensuite définir sur � � � & � �� & � � � � � � � � l’application� � � ( $ , � � &

définie par � � & � ��� & � � � � � � � � � � � . La tribu des boréliens de�

est la tribu engendrée par � :� � � � � � � � � . Nous allons donc devoir étendre � à

tout��� � �

et montrer que � est effectivement une mesure sur��� � �

.On aboutit alors au théorème d’extension suivant.

B.2 Un théorème fondamental d’extension

Théorème 35 (Théorème d’extension ou de prolongement) Soit � � � ( �une application continue à droite et croissante.

(i) Il existe une unique mesure � �� � � � ( $ , � � &

telle que, pour tout � �� ���tels que � � �

, � � & � ��� & � � � � � � � � � � � .(ii) (ii) Pour tout borélien ,

� � � � ( ��� � - �� � � � � � ��� � � � � ����� � � & � � �� � &�� (B.1)

184

Page 201: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous n’allons pas démontrer in extenso ce théorème car les détails techniquesdépassent l’objectif du cours. Par contre, nous allons donner les grandes étapes quien permettent la démonstration à l’aide de la construction dite de Caratheodory.Le lecteur intéressé pourra aussi se référer à [12, Chapter 3].

B.3 La construction de Caratheodory

Démontrer le théorème 35 est difficile car le problème traité est un problèmed’extension non trivial : nous partons d’une application � qui est définie très sim-plement sur un ensemble élémentaire � bien connu et nous devons étendre � à unensemble beaucoup plus compliqué

� � � �. Nous savons que

��� � �est engendré

par � lui-même, mais nous ne disposons d’aucun moyen de construire��� � �

parunion, intersection, différence, ...d’ensembles. Nous pourrions dire que nous nesavons pas "calculer" les éléments de

��� � � 1.

Le théorème 35 est la conséquence de la construction dîte de Caratheodory.Cette construction est utilisée aussi en théorie des fractales pour définir la mesuredîte de Haussdorf.

Nous allons présenter cette construction en énonçant les résultats principauxsans démonstrations car celles-ci, techniques, dépassent le cadre de ce cours. Puis,nous verrons comment on applique cette construction pour démontrer le théorèmed’extension ou de prolongement (théorème 35).

B.3.1 Les mesures extérieures et le théorème d’extension deCaratheodory

Il est commode, d’un point de vue terminologique, d’adopter la définition sui-vante d’une mesure.

Définition 76 Soit�

un ensemble quelconque et�

une collection de sous-ensembles de

�:� ��� �-� � où �

��� �est l’ensemble des parties de

�. On appelle

mesure positive sur�

toute application � � � ( $ ,.� � &telle que

1C’est cette complexité même qui donne à la tribu toute sa souplesse et permet d’avoir tantd’applications mesurables. Il n’est en effet pas commode de construire des applications non mesu-rables car les ensembles mesurables forment une énorme classe et sont divers et variés. N’oublionspas en effet qu’un ouvert, un fermé, un compact, sont des ensembles mesurables. Même un sin-gleton de � est un ensemble mesurable !

185

Page 202: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(i) � � � � � ,(ii) Si � �

, � � � pour tout7 K /

et � � �� � � , alors � � � �" � � � � ���La propriété (ii) est, comme nous l’avons déjà signalé dans le corps de ce

cours, la propriété de�

-additivité ou d’additivité dénombrable.

Evidemment, lorsque�

est une tribu, on retrouve la définition 8 puisque, dansce cas, l’union d’éléments de

�est un élément de

�.

Nous introduisons maintenant la notion de mesure extérieure.

Définition 77 Soit � un ensemble quelconque. On appelle mesure extérieuretoute application � � � � � � � ( $ , � � &

telle que(i) � � � � � � ,(ii) ��� ��� � � � � � � � � � �(iii) � � "�� �� � � $ � -

� � �� � ���

Evidemment, ce qui fait la grande différence entre une mesure positive etune mesure extérieure, c’est la propriété (iii) qui est moins restrictive que la

�-

additivité requise pour une mesure.

L’intérêt des mesures extérieures tient à la propriété remarquable et surpre-nante que décrit le théorème suivant.

Théorème 36 Soit � un ensemble et � � � � � � � ( $ , � � &une mesure extérieure.

Soit� � �

� � ��� � � � �� � � � � �

� � � � � 1 �� � � � � � � � � ��� 3

(i) La collection d’ensembles� � � � � est une tribu, appelée tribu associée à la

mesure extérieure � � . Les éléments de� � � � � sont appelés les ensembles

� � -mesurables.(ii) La restriction �

� � 6� �� < de � � à la tribu� � � � � est une mesure sur la tribu� � � � � .

Le second théorème que nous allons énoncer repose sur la notion d’anneau.

Définition 78 Un anneau � sur un ensemble � est une collection de sous-ensembles de � telle que :

186

Page 203: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(i) � � �(ii) � � � � � � � � � �(iii) � � � � ��� � � � �On voit donc qu’une tribu est un anneau qui contient � et qui est stable par

union dénombrable et pas seulement finie. Les anneaux sont plus manipulablesque les tribus car ils ont une structure moins compliquée. Il se trouve alors quenous savons construire une mesure extérieure à partir d’une mesure sur un anneaugrâce au théorème d’extension de Caratheodory que nous allons présenter. Avantd’énoncer ce théorème, nous nous donnons une définition commode pour la suite

Définition 79 Soit � une collection de sous-ensembles d’un ensemble � . Pourtout � � , on appelle � -couverture de , toute suite

� � ����� � d’éléments de �telle que � � �� � � � . L’ensemble des � -couvertures de sera noté

��� � � :

��� � � ��� � � � �� � � � 7 K /�� � � � � et ���

�� � �� � 3

Nous donnons maintenant le théorème d’extension de Caratheodory. Il nousapprend comment étendre une mesure définie sur un anneau en une mesure sur latribu engendrée par cet anneau.

Théorème 37 (Extension de Caratheodory) Soit � un anneau sur un ensemble� et � � � ( $ , � � &

une mesure sur � . Pour tout � � � , posons :

�� � � � � ( � � � - �� � � � ��� � � ���� � � ��� � � � � (B.2)

avec la convention � � � � � � �si

��� � � � � � .(i) L’application � � � � ( $ , � � &

est une mesure extérieure sur � .(ii) La restriction �

� � de � � à � est égale à � :

�� � � � 3

(iii) � est un sous-ensemble de la tribu� � � � � associée à la mesure extérieure

� � ce qui implique que la tribu� � � � engendrée par � est un sous-ensemble

de la tribu� � � � � : � � � � � � � �

� � 3(iv) La restriction de � � à

� � � � est une mesure puisque� � � � � � � � � � et

que la restriction de � � à� � � � � est une mesure (cf. théorème 36 (ii)).

187

Page 204: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

B.3.2 Construction d’une mesure sur un anneau par extensiond’une mesure sur un semi-anneau

Le théorème d’extension de Caratheodory requiert un anneau. Comme le lec-teur le vérifiera aisément, l’ensemble � � � � & � �� & � � � � � � � � � � n’esthélas pas un anneau. Aussi, avant d’utiliser le théorème de Caratheodory, quelquesrésultats supplémentaires sont nécessaires.

En fait, l’ensemble � � � � & � ��� & � � � � � � � � � � est ce qu’on appelle unsemi-anneau comme le lecteur le vérifiera très facilement.

Définition 80 Un semi-anneau sur un ensemble � est un sous-ensemble � del’ensemble des parties �

� � � tel que :(i) � � �(ii) Si � � � � alors � � � �(iii) Si � � � � , il existe un entier

7 K /et des éléments � � � , � � /�� 7

tel que

� � ��

�� $ � � 3Nous donnons alors ci-dessous deux propositions fort utiles pour la suite. La

première de ces propositions (proposition 27) nous dit, entre autres, que les unionsfinies d’éléments disjoints d’un semi-anneau � forment un anneau � � � � . La se-conde de ces propositions (proposition 28) nous apprend ensuite qu’une mesuresur le semi-anneau � se prolonge de manière unique en une mesure sur l’anneau� � � � .Proposition 27 Soit � un semi-anneau sur un ensemble � quelconque. Soit

� � � � � � � �

��� $ � � � 7 K /�� � � � � 3

(i) � � � � est un anneau.

(ii) � � � � � � � �

��� $ � � � 7 K /6� � � � �

(il n’est pas nécessaire que

les éléments de � soient disjoints dans l’union).(iii) � � � � est le plus petit anneau contenant � , id est � est égal à l’intersec-

tion de tous les anneaux contenant � (il en existe puisque �� � � est trivia-

lement un anneau).

188

Page 205: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous dirons que � � � � est l’anneau engendré par � .

Proposition 28 Soit � un semi-anneau sur un ensemble � quelconque, � � � �l’anneau engendré par � et � � � ( $ ,.� � &

une mesure sur � .(i) Il existe une unique mesure � � � � � � ( $ , � � &

dont la restriction � � à �est égale à � .

(ii) Cette mesure est définie pour tout � � � � � par

� � � ��- � $ � � � ���

où � , � � /�� � � 30303 � 7, est une quelconque suite finie d’éléments disjoints

de � telle que � ��� $ � � . En d’autres termes, � � � ne dépend pas de la

décomposition choisie pour en éléments disjoints de � .

L’anneau � � � � considéré dans ces propositions est alors d’autant plus intéres-sant que la tribu

� � � � � ��� engendrée par cet anneau est précisément la tribu� � � �

engendré par � : � � � � � � � � � � � � 3 (B.3)

En effet, l’inclusion � � � � � � entraîne l’inclusion � � � � � � � ��� et doncl’inclusion

� � � � � � � � � � ��� puisque la tribu engendrée par � est la plus petitetribu contenant � . Réciproquement, puisque les éléments de � � � � sont des unionsdisjointes d’éléments de � , les éléments de � � � � sont donc aussi des éléments de� � � � . On a donc l’inclusion � � � � � � � � � et comme

� � � � � ��� est la plus petitetribu contenant � � � � , nous avons

� � � � � ��� � � � � � .Nous pouvons maintenant conjuguer les résultats précédents pour énoncer un

résultat d’extension pour les semi-anneaux analogue à celui de Caratheodory.

Théorème 38 (Extension de Caratheodory pour les semi-anneaux) Soit � unsemi-anneau sur un ensemble quelconque � et � � � ( $ , � � &

une mesure posi-tive sur � .

Pour tout � � � � � , posons

�� � � � ( ��� � - �� � � � � � � � � � � � �� � � ��� � � (B.4)

avec la convention�� � � ���

si�

�� � � � .

189

Page 206: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(i) L’application�� � � � � � ( $ ,.� � &

est une mesure positive.(ii) La restriction

�� � de�� à � est égale à � :

�� �� � 3

PREUVE: D’après la proposition 28, nous étendons de manière unique � en unemesure � � � � � � ( $ , � � &

sur � � � � et nous avons � �� � .

Comme � est une mesure sur � � � � , nous construisons la mesure extérieure��� � ( $ , � � &

en utilisant (B.2).

Comme on vérifie aisément que pour tout � � ,� -� � � � ��� � � � � � � � 6 � < � � � -

�� � � � � � � � � � ��� � ��� �

(B.5)

la restriction de � �

à� � � � est égale à l’application

�� définie sur� � � � par (B.4).

Puisque�� � est la restriction de � �

à� � � � , nous déduisons de (B.3) et du

théorème d’extension de Caratheodory (37) (iv), que�� est une mesure sur

� � � � .D’après le point (ii) du theorème 37, nous avons aussi

�� � � � � � � et la restric-tion de

�� à � est donc � .

Nous terminons en donnant une résultat d’unicité pour le théorème précédentlorsque la mesure � sur � est

�-finie , c’est-à-dire lorsqu’il existe une suite dé-

nombrable� ���� � d’éléments de � tels que � � � � � �

pour tout entier7 K /

et � �� � � � � . Dans ce cas, on a :

Proposition 29 Soit � un semi-anneau sur un ensemble quelconque � . Si � �� ( $ , � � &est une mesure

�-finie sur � alors l’extension de Caratheodory dé-

crite par le théorème 38 est la seule extension possible de � à� � � � . Cette exten-

sion est elle aussi�

-finie.

Nous ne donnons pas la démonstration de ce résultat qui repose sur des notionsque nous n’avons pas abordées jusqu’ici et qui ne sont pas utiles pour la suite.

B.3.3 Application à la preuve du théorème d’extension

Nous expliquons maintenant comment on démontre le théorème 35 à partirdes résultats précédents.

190

Page 207: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous avons déja vu que � � � � & � �� & � � � � � � � � � � est un semi-anneau.

On montre ensuite (et ce n’est pas si simple) que l’application � � � � ( $ , � � &définie par � � & � ��� & � � � � � � � � � � � sous les conditions pour � données dansl’énoncé du théorème 35 est

�-additive (c’est donc une mesure sur � � ). De plus,

cette mesure est trivialement�

-finie : il suffit de considérer les intervalles de laforme

& � 7 � 7 & dont les mesures sont finies et qui recouvrent�

.

Nous nous retrouvons donc dans les conditions requises par le théorème 29et comme

� � � � � ��� � �, on peut alors en déduire le théorème de prolongement

(théorème 35).

B.4 La tribu et la mesure de Lebesgue-Stieltjes

Soit � � � ( �une application continue à droite et croissante. Le théorème

de prolongement nous assure donc l’existence d’une mesure unique, que nousnoterons désormais � � , définie sur la tribu des boréliens

� � � �et telle que pour

tout � � � � � � � �, � � � & � �� & � � � � � � � � � � � .

Rien ne nous dit que cette mesure est complète. Nous pouvons alors appliquerles résultats du chapitre 6 pour construire alors une mesure complète � � �

à partirde � � sur la tribu � � -complétée de

� � � �.

On pose alors la définition suivante.

Définition 81 Soit � � � ( �, une application continue à droite et crois-

sante. Soit � � l’unique mesure définie sur la tribu des boréliens��� � �

telle que� � � & � ��� & � � � � � � � � � � � pour tout couple de réels� � �� � tels que � � �

.(i) La tribu de Lebesgue-Stieltjes est la tribu � � -complétée de la tribu des

boréliens� � � �

.(ii) La mesure de Lebesgue-Stieltjes est la mesure complétée de � � , c’est-à-

dire la mesure complète qui est l’unique extension possible de la mesure � �à la tribu de Lebesgue-Stieltjes.

Par abus de langage, la mesure � � est aussi appelée mesure de Lebesgue-Stieltjes.

Remarque : Pour compenser l’abus de langage mentionné ci-dessus, nous conti-nuerons à utiliser la notation � � pour parler de la mesure de Lebesgue-Stieltjes

191

Page 208: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

non complète et la notation � � �

pour signifier la mesure de Lebesgue-Stieltjes (lacomplète bien sûr).

En fait, nous pouvons caractériser la tribu et la mesure de Lebesgue-Stieltjesassociée à une application � � � ( �

croissante et continue à droite, grâce authéorème suivant que nous ne démontrerons pas.

Théorème 39 Soit � un ensemble quelconque et � un anneau sur cet ensemble.Soit � une mesure

�-finie sur � , � � la mesure extérieure définie par (B.2) et

associée à � ,�� , la restriction de la mesure extérieure � � à la tribu

� � � � .Alors la mesure � � est la mesure complétée de la mesure

�� et la tribu�� -complétée

de � � � � est la tribu� � � � � .

Si on applique ce résultat à une mesure de Lebesgue-Stieltjes � � �

et en prenanten compte (B.5) avec � � � � , nous voyons que pour tout � �

:

� � � � � � ( ��� � - �� � � � � � ��� � � � � � ��� � � & � � �� � &�� 3 (B.6)

La tribu de Lebesgue-Stieltjes est alors la collection

� � � � � � � � � � � � � � � � � � � � � � � � � 1 � � � � � � � � � � � � � 3 (B.7)

A titre d’exercice, le lecteur pourra maintenant vérifier les propriétés sui-vantes, qui sont les analogues de celles données par la proposition 23 de la section??. La démonstration des résultats suivants est d’ailleurs pratiquement identiqueà celle conduisant aux propriétés énoncés dans la proposition 23. La différenceest que les résultats suivants ne demandent pas à ce que � � � � � � ,

et que� � � � � / .Proposition 30 Soit � � la mesure de Lebesgue-Stieltjes 2 sur

�associée à une

application � � � ( �croissante et continue à droite. On désigne par � � � � �

la limite à gauche (cette limite existe toujours puisque � est croissante) de � aupoint � .

2Nous nous contentons de la mesure non complète de la mesure de Lebesgue-Stieltjes, maison peut très bien énoncer les mêmes résultats avec

�����puisque

���est la restriction de

�����à la

tribu des boréliens et que nous ne considérons que des intervalles (donc des boréliens) dans cetteproposition.

192

Page 209: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(i) Pour tout � ���, � � � � � � � � � � � � � � � � � �

(ii) Pour � �� ���tels que � � �

, � � � & � ��� & � � � � � � � � � � �(iii) Pour � �� ���

tels que � � �, � � � & � �� & � � � � � � � � � � � �

(iv) Pour � �� � �tels que � � �

, � � � & � ��� $ � � � � � � � � � � � �(v) Pour � �� � �

tels que � � �, � � � $ � �� $ � � � � � � � � � � � � �

Remarque : Noter que pour� � � � , � � � � � et

� � � , le résultat est valable même si � � �,

ce qui n’est pas le cas pour� � � � où � � �

implique � � � & � �� $ � � � � � � � � ,alors que le membre de droite vaut � � � � � � � � � � qui n’a pas lieu d’être nul, saufsi � est continue à gauche au point � . Dans le cas de la mesure de Lebesgue, lapropriété

� � � � est alors valable même si � � �.

Une mesure de Lebesgue-Stieltjes induit une structure d’espace mesuré sur�

.L’espace mesuré obtenu en utilisant la mesure de Lebesgue-Stieltjes � � sera noté� � � � � ��� � � � � .B.5 L’intégrale de lebesgue-Stieltjes

Maintenant que nous disposons de la mesure de Lebesgue-Stieltjes, nous pou-vons appliquer la théorie générale de l’intégration et considérer les applications� � � ( �

qui sont intégrables par rapport à cette mesure. Il n’y a pas de résultatsspécifiques à donner ici pour ces fonctions et cette mesure. Nous nous contente-rons de préciser seulement les notations en nous limitant à la version incomplète� � d’une mesure de lebesgue-Stieltjes associée à une application � croissante etcontinue à droite. Nous pouvons nous le permettre en vertu du théorème 16.

Soit � � une mesure de Lebesgue-Stieltjes. L’intégrale d’une application posi-tive mesurable ou d’une application intégrable � � � � � � � ��� � ( � � ����� ��� �

serapréférentiellement notée � � � � � � � � � � 3de maniçère à mettre en évidence le rôle jouée par � dans la définition même dela mesure considérée. Dans la littérature, on peut aussi rencontrer � � � � � � � � �ou � � � .

L’ensemble des applications � � � � ��� � � ��� ( � � � � � ��� �intégrables sera

alors notée�� � � ��� � � � � � � � conformément à la notation employée pour désigner

l’espace mesuré sur lequel on travaille.

193

Page 210: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

B.6 Le cas de la mesure de Lebesgue

Un cas trivial d’application � � � ( �continue à droite et croissante est

l’identité sur�

. Nous posons alors la définition suivante, qui n’est qu’un cas par-ticulier de celle définissant la tribu et la mesure de Lebesgue-Stieltjes.

Définition 82 Soit�

l’unique mesure définie sur la tribu des boréliens� � � �

telleque

� � & � �� & � � � � � pour tout couple de réels� � ��� � tels que � � �

.(i) La tribu de Lebesgue est la tribu

�-complétée de la tribu des boréliens��� � �

.(ii) La mesure de Lebesgue est la mesure complétée de

�, c’est-à-dire la me-

sure complète� �

qui est l’unique extension possible de la mesure�

à latribu de Lebesgue.

Par abus de langage, la mesure�

est aussi appelée mesure de Lebesgue.

Comme en ce qui concerne la mesure de Lebesgue-Stieltjes, on conservera lesnotations

�et

� �

de manière à compenser l’abus de langage.

L’égalité (B.6) s’applique directement et l’on a :

� � � � � ( ��� � - �� � � � � � � � � � � & � � �� ��& � 3 (B.8)

En fait, on peut très bien remplacer dans l’expression précédente les intervallesouverts à gauche et fermés à droite par des intervalles fermés et écrire

� � � � � ( ��� � - � � � � � � � � � � � $ � � �� ��& � 3 (B.9)

On pourrait même remplacer$ � � �� ��& par

$ � � �� � $ ou par& � � �� � $ . L’égalité B.9

est souvent utilisée comme définition dans la littérature, notamment celle consa-crée aux fractales et à la géométrie intégrale, pour la mesure de Lebesgue.

Si on applique maintenant (B.10), nous voyons que la tribu de Lebesgue estalors la collection

� � � � � � � � � � � � � � � � � � � � � � 1 � � � � � � � � � � � � 3 (B.10)

194

Page 211: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Si l’on veut rester cohérent avec les notations utilisées classiquement pourdésigner l’intégrale par rapport à une mesure, l’intégrale (si elle existe) d’unefonction réelle � par rapport à la mesure de Lebesgue devrait donc être notée� � � � � 3

Avec cette notation, si � � � � � � �

et si$ � �� & � �

, on a :

� � 1l� � � � � � � � � � � 1l

� � � � � � � � � � � 1l� � � � � � � � � � � 1l� � � � � � � � �

puisque la mesure de Lebesgue d’un singleton est nulle.

Comme précisé au chapitre 8, les intégrales de Lebesgue et de Riemann coïn-cident lorsque � est Riemann-intégrable ou d’intégrale généralisée absolumentconvergente. Il est alors d’usage, lorsque � est Lebesgue-intégrable et qu’on l’in-tègre sur un intervalle fini ou non

$ � �� & ( � � ��� � � � �) d’utiliser la notation

usuelle �� � � � � � � bien que celle-ci représente traditionnellement l’intégrale deRiemann de � sur

$ � �� &B.7 Complément

Nous allons montrer maintenant un résultat qui nous servira pour présenterla notion d’intégrale stochastique. Ce résultat est une conséquence même de laconstruction de Caratheodory.

Théorème 40 Soit � un semi-anneau sur un ensemble � et � une mesure sur � .Soit

�� l’extension de Caratheodory de cette mesure à la tribu� � � � .

Pour tout �� � � � � tel que

�� � �et tout

��,, il existe �

� � 30303 � � ��� � tel que�� � ��� � �

� #%$ � � # � � � �.

PREUVE: Avec les mêmes notations que celles du théorème 38, nous savons que�� � � � est donnée par (B.4). Aussi, pour tout

��,, il existe une une séquence� � � ��� � d’éléments de � tels que

�� � � � � -� � � ��� � �� � � � 1

�� 3 (B.11)

195

Page 212: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

D’autre part, éEtant donné que�� est une mesure dont la restriction = � est

� , les valeurs � � ��� $ � � ��� , 7 K /

croissent vers�� � � � � � � � . Aussi, existe-t-il un

entier7 K /

tel que

��

��� � � ��� � �

����� $�� � ��� 1 �� 3 (B.12)

Etant donné que �� � ��� � � � , nous avons aussi l’inclusion �

� � �� $�� � � � � ��� � � �� �� � �� $�� � �� et donc l’inégalité

�� � � � �� $�� � � � �� " � ��� � � � $�� � � �� $�� � � � �� (B.13)

en prenant en compte le fait que la restriction de�� à � est � .

De manière analogue, nous avons ��� $�� � � � � ��� � � � et donc l’inclusion � �� $�� � �� � � � � ��� � � �� � � . Comme

�� � est finie, il vient

�� � �� $�� � � � � � �� " � ��� � � � $�� �� � � �� 3 (B.14)

Comme

�� ��� � � #%$�� � # ��� �� � �� � � #%$�� � # � 1 �� � � � #%$�� � # � � � �il suffit de sommer (B.13) et (B.14) pour obtenir le résultat voulu.

196

Page 213: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Annexe C

Compléments sur la comparaisondes intégrales de Riemann et deLebesgue

Dans cette annexe, nous complétons les résultats de la section 8.2 du chapitre8. En effet, dans ladite section, on considère une application Riemann-intégrableque l’on suppose mesurable. Certes, pour une application en escalier, une applica-tion continue ou continue par morceaux, cette hypothèse est valide et s’applique àune très large classe d’applications que l’on rencontre dans la pratique. Cependant,on peut être plus général. On peut considérer une application Riemann-intégrable,montrer sa mesurabilité par rapport à la tribu de Lebesgue (et non pas par rapportà la tribu des boréliens) et montrer que son intégrale de Riemann est égale à sonintégrale de lebesgue par rapport à la mesure de lebesgue complète. Ces résul-tats s’obtiennent en améliorant les démonstrations des propositions 20 et 21 quideviennent alors des cas particuliers des théorèmes que nous allons énoncer.

Remarque sur les notations : A la fin du chapitre 8, nous précisons qu’il n’y a paslieu d’utiliser deux notations différentes pour les intégrales de Lebesgue et de Rie-mann. Cependant, dans cette annexe, étant donné que notre objectif est de montrerl’égalité entre l’intégrale de Lebesgue et l’intégrale de Riemann pour les fonc-tions réelles Riemann-intrégrables, nous conservons deux notations différentes.Ainsi �� � � � � représentera l’intégrale de Riemann de � alors que 1l

� � � � � � � � �

,conformément aux notations utilisées dès le début de ce cours, désignera l’inté-grale de Lebesgue par rapport à la mesure de Lebesgue (complète)

� �

.

De façon précise, on a le premier résultat suivant.

197

Page 214: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Théorème 41 Soit � une application Riemann intégrable sur$ � �� & .

(a) Elle est mesurable par rapport à la tribu de Lebesgue� � �

.(b) Son intégrale de Riemann �� � � � � est égale à l’intégrale de Lebesgue

de � 1l� � � � � par rapport à la mesure complétée de Lebesgue

� �

:

� �� � � � � � � � 1l� � � � � � � � 3

PREUVE: Commençons par une remarque très simple et très utile. Nous avonsdéjà faite cette remarque à la section 8.2.

Une fonction en escalier � � $ � �� & ( �est clairement une fonction simple, au

sens donnée dans la théorie de Lebesgue. Une fonction en escalier � � $ � ��� & ( �est donc

� � -mesurable. Il est tout aussi évident qu’elle est intégrable par rapport

à la mesure de Lebesgue�

et que son intégrale de Lebesgue par rapport à�

estégale à son intégrale de Riemann :

� � 1l� � � � � � � � � �� � � � � 3

Soit maintenant � une application Riemann-intégrable définie sur un inter-valle borné

$ � �� & et à valeurs dans�

. Nous connaissons l’existence d’une suitecroissante de fonctions en escaliers

� � et d’une suite décroissante de fonctionsen escaliers

� � telles que � � � � � � � et �� � � � � � � � � � � tende vers,

avec7 ��� .

Preuve de (a). On a alors')( *� � �� � � � �5� � ')( *� � �� � � � � � � � �� � � � � 3 (C.1)

La suite � � étant croissante et la suite

� � étant décroissante, les limites � �' ()* � � � et � � ' ()* � � � existent et vérifient � � � � � .

Comme nous l’avons déjà remarqué, l’intégrale de Lebesgue d’une fonctionen escalier coïncide avec son intégrale de Riemann. On a donc, pour tout

7,

� � � 1l � � � � � � � � � �� � � � � � � � � � 1l� � � � � � � � � �� � � � � � 3 (C.2)

198

Page 215: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Comme �� � � � � � � � �

�,. � � . et

. � � . sont donc inférieures ou égalesà � � ��� . � � . � . �

� . � . L’application � est trivialement mesurable et intégrableau sens de Lebesgue. Le théorème de la convergence dominée de Lebesgue nouspermet donc d’obtenir')()*� � � � 1l

� � � � � � � � � � 1l� � � � � � � � ')( *� � � � 1l

� � � � � � � � � � 1l� � � � � � � 3 (C.3)

En combinant (C.1), (C.2) et (C.3), on obtient alors que

� � 1l� � � � � � � � � � 1l

� � � � � � � � � �� � � �5� 3 (C.4)

L’application positive � � � est donc d’intégrale nulle. On applique alors lethéorème 13 pour en déduire que � � � �

-presque partout. Etant donné que � �� � � , nous déduisons de la proposition 15 (b), que � est mesurable par rapport àla tribu de Lebesgue

� � �

, id est la tribu complétée de� �

, ce qui prouve (a).

Preuve de (b). Nous voyons aussi que � 1l� � � � � � � ,

�-presque partout 1. Comme� est intégrable par rapport à la mesure de Lebesgue�

sur� �

, on déduit de laproposition 16 (b) que � 1l

� � � � � admet une intégrale par rapport à la mesure� �

deLebesgue et que � � � � � � � � � �� � � � � , ce qui prouve (b).

Remarque : Noter que dans la démonstration, la croissance de� � nous sert à jus-

tifier de l’existence de sa limite� � $ � �� & ( �

mais que nous ne pouvons pasutiliser la convergence monotone pour conclure. En effet, nous ne savons pas siles applications

� � sont positives.

Théorème 42 Soit � � $ , � � $ ( �une application mesurable et intégrable au

sens de Riemann sur tout intervalle fermé borné$ , � � & , � � $ , � � $ .

(a) � est mesurable par rapport à la tribu de Lebesgue.(b) � intégrable au sens de Lebesgue par rapport à la mesure de Lebesgue

sur$ , � � $

si et seulement si � . � � . ��� � �.

(c) Si � est intégrable au sens de Lebesgue sur$ , � � $

� . � . 1l � � � � � � � � � � . � � . ��� (C.5)

1On pourrait tout aussi bien dire que�

1l � ��� ����� , � � -presque partout puisque les ensembles � -négligeables sont aussi les ensembles -négligeables (cf. théorème 16 (b)).

199

Page 216: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

et � � 1l� � � � � � � � �

� � � ��� 3 (C.6)

PREUVE: Nous ne démontrerons que l’assertion (a). Pour démontrer (b) et (c),il suffit de reproduire la preuve de la proposition 21 en remplaçant la mesure deLebesgue (non complète)

�par la mesure de Lebesgue complète

� �

.

Comme chaque application � 1l� � � � � est Riemann-intégrable sur

$ , � 7 &, le théo-

rème 41 nous dit que � 1l� � � � � est mesurable par rapport à la tribu de Lebesgue.

Puisque � � ' ()* � � 1l� � � � � , les théorèmes généraux sur les séquences d’applications

mesurables (cf. 4.5, proposition 11) permettent de conclure quant à la mesurabilitéde � par rapport à la tribu de Lebesgue.

200

Page 217: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Annexe D

Probabilités conditionnelles

La théorie relative aux probabilités conditionnelles est une des parties les plusdifficiles de la théorie des probabilités, une des moins bien perçues par les étu-diants et de fait une des plus mal utilisées. Il faut reconnaître qu’un traitementcomplet des probabilités conditionnelles est long et requiert beaucoup de résul-tats intermédiaires. On peut y consacrer un livre entier comme l’a fait Rao ([20]).Un tel livre se justifie sur le plan théorique mais aussi sur le plan pratique : lesprobabilités conditionnelles sous-tendent, par exemple, la théorie des martingalesqui joue un rôle important dans la théorie des jeux, mais aussi en économie et enfinance.

Nous allons donc présenter les éléments théoriques principaux concernant lesprobabilités conditionnelles associées à des variables aléatoires réelles. Nous lais-sons le soin au lecteur de vérifier que tous les résultats donnés ci-après restentvalables pour des variables aléatoires complexes. Avant de rentrer dans le vif dusujet, il faut dire dès à présent à quoi servent les probabilités et lois condition-nelles.

Lorsqu’on réalise une expérience, il peut arriver que l’on souhaite étudier lerésultat de cette expérience lorsque les conditions expérimentales sont modifiées.On peut souhaiter aussi étudier le résultat d’une expérience sous certaines hypo-thèses ou conditionnellement au résultat d’une autre expérience.

Supposons qu’une chaine de grande distribution souhaite faire des promotionssur certains produits au moment de Noël. Si l’on sait que les consommateurs ache-tant le produit dans cette période sont tentés d’acheter aussi le produit

�dans

la même préiode, il sera certainement rentable pour la chaine de distribution deproposer des promotions sur les produits et

�au même moment. Il va donc

201

Page 218: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

falloir identifier de tels couples de produits. Pour ce faire, il va falloir quantifierla loi de probabilité qu’un client achète le produit

�s’il a acheté le produit ,

c’est-à-dire conditionnellement à l’achat du produit , ou encore sachant qu’il aacheté .

Pour modéliser le problème sous forme probabiliste, on considère l’ensemble�de tous les clients du magasin. On munit

�de la tribu de ses sous-ensembles.

Puis on considère le couple � � � > de variables aléatoires définies comme suit.

Pour un client � donné,� � est le nombre de produits que le client achète

pendant la période de Noël et� > est le nombre de produits

�achetés par ce

même client durant la même période. Les valeurs� � et

� > � sont le résultatd’une simple expérience de comptage.

Si maintenant, on veut déterminer la probabilité qu’un client achète le produit�s’il achète le produit ou, en d’autres termes, la probabilité que l’achat du

produit�

soit conditionné à celui du produit , on s’intéresse à une autre expé-rience dont les conditions sont légèrement différentes de la précédente. Ce n’estplus

�qui va nous intéresser, mais simplement une partie de

�. Ce n’est plus

� >qu’on étudie mais ���

� ( � > � lorsque � parcourt l’ensemble des clients qui ontacheté le produit . Le problème est donc d’étudier la restriction de la variable� > à un sous-ensemble mesurable de

�qui représente l’événement "le client a

acheté le produit ".

Tant qu’on en restreint une variable aléatoire à un sous-ensemble mesurablede�

, donc à un événement de mesure non nulle (donc non négligeable), tout vabien : le problème rest aisé à traiter. C’est ce que nous allons voir à la section D.2.

La situation devient beaucoup plus délicate lorsque l’événement qui condi-tionne la variable aléatoire a une mesure de probabilité nulle. Donnons unexemple. Supposons que nous disposions d’une base de données où chaque élé-ment de la base de données est associé à un être humain identifié par son nom etcontient le poids et la taille de cette personne. Supposons que l’on cherche à étu-dier la loi de probabilité du poids d’un individu conditionnellement à sa taille, idest sachant sa taille. On cherche à répondre à des questions du type : quelle est laprobabilité de peser

. ,kilos sachant que l’on mesure

/ . , 3 / � *cm. Le problème est

alors que la probabilité qu’une personne mesure/ . , 3 / � *

cm est nulle car la tailleest exacte d’une personne est une grandeur continue. Le conditionnement ne seradonc pas aussi facile que dans l’exemple précédent et il faudra prendre quelquesprécautions. Il y aura alors un intermédiaire de calcul qui sera le conditionnementpar rapport à une tribu.

202

Page 219: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

L’organisation de cette annexe est donc la suivante. Dans la section suivante,nous nous intéressons au cas simple du conditionnement par rapport à un événe-ment de mesure non nulle. Ensuite, à la section D.3, nous présenterons le condi-tionnement par rapport à une tribu. Cette sous-section nous permettra de traiter leconditionnement par rapport à une variable aléatoire à la section D.4.

D.1 Un résultat préliminaire

Le lemme suivant sera très utile dans la suite, notamment l’assertion (b-ii)qu’il énonce.

Lemme 13 Soit-��� � �"!

un espace probabilisé.

(a) Soit�� ������ ( � ��� � �

une variable aléatoire positive ou intégrable.

(a-i) Si pour tout� � � , / > � � ! K , , alors

� K , presque partout.

(a-ii) Si pour tout� � � , / > � � ! � ,

, alors� � ,

presque partout.

(b) Soient� � � � ������ ( � ��� � �

deux variables alatoires positives ou inté-grables.

(b-i) Si pour tout� � � , / > � � ! K / > � � ! , alors

� K � presquepartout.

(b-ii) Si pour tout� � � , / > � � ! � / > � � ! , alors

� � � presquepartout.

PREUVE:Les assertions (b-i) et (b-ii) sont des conséquences immédiates de (a-i) et de

(a-ii). Nous prouvons donc simplement ces deux dernières.

Preuve de (a-i). Soit � � � � � � �� � lorsque7 ��� �

. Chaque � est mesurableet par hypothèse,

, � / 1 � � ! . Or, / 1 � � ! � � �� ! � . on en déduitdonc que

! � �� ,et donc que

� � � , � � � � � � � est aussi de probabiliténulle.

Preuve de (a-ii). On peut écrire� � � � � � � avec

� � � �1l � 8 � ��� et

� � �� �1l � 8 � ��� . Par hypothèse, � � � ! � � � � ! � ,

. Aussi, puisque. � . . �� � 1 � � , nous obtenons que . � . � ! � ,

et le résultat dérive du théorème 13.

203

Page 220: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

D.2 Conditionnement par rapport à un événement

D.2.1 Définitions

Considérons une variable aléatoire�� ������ ( � �"� � �

. Cette variablealéatoire est censée modéliser une expérience aléatoire : la nature, suite à desméandres qui nous échappent complètement, tire un � dans

�; le résultat de l’ex-

périence est alors� �. Si maintenant, les conditions de l’expérience sont modi-

fiées de telle sorte que l’on sait les � choisis dans un sous-ensemble�

de � , nousconditionnons le résultat

� �

à�

. Aussi, si je veux calculer, sous ces nouvellesconditions expérimentales, la probabilité que les réalisations

� �

soient dans unensemble

�mesurable de

�, je vais devoir étudier le comportement de

�lorsque

le domaine de définition de�

se trouve réduit à�

. En d’autres termes, condition-ner

�par rapport à

�va consister à étudier la restriction

� � de�

, ni plus nimoins.

Il n’y donc aucune difficulté à définir� � � ��� �

, mais si on veut parlerde la probabilité que

� � prennent des valeurs dans� ��� � , il va évidemment

falloir munir�

d’une tribu adéquate rendant� � mesurable puis définir sur cette

tribu une mesure de probabilité.

Puisque nous voulons munir�

d’une tribu rendant� � mesurable, nous de-

vons choisir une tribu sur�

qui contienne tous les ensembles� � � � � � où� ��� � . Or,

� � � � � signifie que nous avons à la fois � ��

et� � � � .

Aussi,� � � � � � � � � � � � � � . Comme

�� �� � � � � � � � est mesu-

rable,� � � � � est un élément de � dès que

�est mesurable. Aussi, si

� �� ,� � � � � � appartiendra à la tribu trace de � sur�

, notée � � , et définie par :

� � � � � � � � � ��� � 3

Il n’y donc pas grand-chose à faire pour rendre� � mesurable dès que

�est

mesurable : il suffit de munir�

de la tribu trace� � .

Maintenant que � � � � est un espace mesurable qui permet de définir la

variable aléatoire� � , il nous faut désormais transformer

� � � � en espace pro-babilisé en unissant cet espace d’une mesure de probabilité adéquate. Il seraittentant de considérer la restriction � � de � à

� � . Le seul problème est que� � � � � � qui n’est pas forcément égale à . Si � � est non nul, la solu-tion est simple : on va normaliser la restriction de � à

�en divisant par � � .

204

Page 221: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous sommes donc obligés de supposer � � ����si nous voulons obtenir

des résultats intéressants. Sous cette condition, nous avons donc un nouvel espaceprobabilisé " � � � � � � � $ où � � � �

� 6 � < � � . En d’autres termes plus explicites,� � � � � � � � � ��� est définie pour tout ��� � � par :

� � � � � � ��Etant donné que nous venons de définir un nouvel espace probabilisé" � � � � � � � $ , nous pouvons considérer les applications mesurables par rapport

à� � qui admettent une intégrale par rapport à la mesure de probabilité � � . Nous

définissons alors une nouvelle notion d’espérance qui sera notée � � � � et qui, pourtout � � � � � � � � � � � � , est définie par :

� � � � � � �� � � � � �

Si � est positive, on a donc

� � � � � � � �� � � - � � � � � � � � � � � �

�� �� � � � � (D.1)

En particulier, supposons que�� �� � � � � � � � soit positive et calcu-

lons � � � � ��� . Nous utilisons l’équation précédente pour écrire

� � � � ��� � �� � � - � � � � � � � � � � � � � � � �� � � �� �

� � � - � � � � � � � � � � � �

�� �� � � � � �� �

� � � - � � �

� � � � � � � � � � �� �� � � � � �� �

� 6 � < � �� � � - � � � � � � � � � � � �� �� � � � � �� �

� 6 � < � � � � � �Nous obtenons donc, in fine,

� � � � � � � � � � � 1l � � � � (D.2)

205

Page 222: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous déduisons de ce résultat que � � � � � � existe si et seulement si ��1l � � �

existe et les deux intégrales sont alors liées par la relation (D.2)

On pourrait donc définir la loi suivie par�

sachant�

comme étant la loi� � � � � � et s’arrêter là. On va aller un peu plus loin car il est gênant d’avoir àutiliser la mesure � � , définie sur la tribu trace de � sur

�. On préfèrait manipuler

uniquement des mesures de probabilité définies sur � et ne pas avoir à traînerl’espérance � � . On va donc améliorer la présentation dans ce sens.

Si on prend� � � ,

� � � � � � de sorte que nous pouvons associer à tout� � � , la valeur � � � � � . Nous définissons ainsi une fonction d’ensemble� � . � � � � � � � ��� définie par � ��. � � � � � � � � � 6 > � � <� 6 � < . Le lecteurvérifiera aisément que � . � est une mesure.

Soit alors une variable aléatoire réelle�� �� � � � � � � � . Il est très simple

de vérifier que � � � � � � � � . � � � � . D’où la définition suivante.

Définition 83 Soit �� � � � un espace probabilisé et

� ��� de mesure nonnulle : � � �� � .(a) On appelle mesure de probabilité conditionnelle par rapport à

�, la mesure

� � . � � � � � � � ��� définie par

� ��. � � � � � � � �

pour tout� � � . La valeur � ��. �

est alors appelée probabilité condi-tionnelle de l’événement

�par rapport à ou sachant

�.

(b) Soit�� �� � � � � � � � une variable aléatoire réelle.

(i) La loi conditionnelle de�

par rapport à l’événement�

(ou loi de�

conditionnellement à�

, ou encore, loi de�

sachant�

) est la loi� � . � � � � , qui est la mesure image de � . � par

�. On posera,

pour tout� ��� ,

� � � � � ��. � � � � . � � � � � � � � � � � � . � � (D.3)

et le membre de gauche se lira "probabilité conditionnelle que�

ap-partienne à

�par rapport à (l’événement)

�ou "probabilité que

�appratienne à

�conditionnellement à

�".

206

Page 223: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(ii) Si �� �

1l � � existe, on appelle espérance conditionnelle de�

par rap-port à

�(ou espérance de

�conditionnellement à

�), la grandeur

� � � . � �définie par :

� � � . � � � � � � � � 1l � � � (D.4)

(iii) Si � � �� � � � � � � � est une variable réelle et si� � �

est telque � � � � � � �� �

, l’espérance conditionnelle de�

par rapportà l’événement

� � � � � est notée �� � . � � � �

au lieu de �� � . � � �

� � � . On dit encore que �� � . � � � �

est l’espérance conditionnelle de�sachant � � �

.

Remarque : Le point (iii) de la définition précédente sera généralisé à la sectionD.4. En effet, dans la définition ci-dessus, nous devons supposer que � � � �� � �� �

. Dans D.4, nous étendrons la définition de �� � . � � � �

au cas � � � �� � � � .

Il est facile de montrer le lemme suivant qui généralise (D.2).

Lemme 14 Soit �� � � � un espace probabilisé,

� �� de mesure non nulle et�� �� � � � une variable aléatoire réelle.

Il suffit qu’une des intégrales �� � . � �

, �� �

1l � � ou � � � � � � existe pour queles deux autres existent aussi et l’on a

� � � . � � � � � � � � 1l � � � � � � � � � �

Remarque. Le lecteur vérifiera aisément que � . � �� � et que

� � � � � ��. � � � � � � � ��. � � � � � � � � �De fait, on écrira souvent � � � � � � � au lieu � � � � � � pour alléger lesnotations.

Rappelons que� �� � � 1l � � pour tout ���

et que� � � � � � �� � � 1l > � �

pour tout� ��� � �

207

Page 224: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

En vertu de la remarque précédente, nous pouvons donc écrire immédiatement que� ��. � � � � 1l . � � et que � � � � � ��. � � � � � 1l > � . � � . Ces relations sont-elles alors encore valables lorsqu’on remplace � par

� � � tel que � � �� �,

ce qui assurerait une cohérence des notations et des résultats. La réponse est oui,comme le montre le lemme suivant.

Lemme 15 Soit �� � � � un espace probabilisé et

� � � tel que � � �� �et�

� �� � � � � � � � .Alors

� . � � � � 1l . � � pour tout ��� (D.5)

et� � � � � � . � � � � � 1l > � . � �

pour tout� ��� � (D.6)

PREUVE: On commence par montrer (D.6) en écrivant que pour� ��� �

� � > � . � � � �� 6 � < � � 1l > �

1l � �� �� 6 � < � � 1l � � 8 �

4 6 > < �� �� 6 � < � � � � � � � � � � � � � � � � . � �

Il suffit ensuite de choisir� �

1l , � � et� � � � dans (D.6) pour obtenir

(D.5).

Exercice 32 Avec les notations précédemment introduites

(i) Montrer que la mesure de probabilité � . � est absolument continue parrapport à la mesure � et que

� � . � � � � 1l � � � �

(ii) Montrer que � . � � � � est absolument continue par rapport à � � � � et quesi � � � � est absolument continue par rapport à la mesure de Lebesgue sur�

, � . � � � � est aussi absolument continue par rapport à la mesure deLebesgue sur

�.

208

Page 225: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Sur la base de ce qui précède, on peut donner des règles de calculs (cf. lemme16). Ces règles de calcul seront améliorées plus loin.

On commence par la remarque suivante qui est une simple conséquence desdéfinitions et qui utilise une notation simplifiée utilisée largement dans la pratique.

Posons� 8 � � � . � � � � �

En d’autres termes, � 8 � désignera la loi conditionnelle de�

par rapport à�

etpour tout

� ��� � , � 8 � � � � � � � � ��. � � .Remarque : On rappelle que � 8 est une autre notation, souvent utilisée, pour dési-gner la loi de

�. On remarquera que, trivialement, � 8 � � 8 � . Dans la suite, nous

utiliserons la notation � 8 pour rester cohérent avec celle utilisée pour désigner laloi conditionnelle de

�par rapport à

�.

Par définition même de la loi conditionnelle de�

par rapport à�

, on a pourtout

� ��� � ,� 8 � � � � �� � � � � � � � � � (D.7)

résultat qui induit le lemme suivant.

Lemme 16 Soit �� � � � un espace probabilisé et l’espace mesurable � � � � � . Soit

�� �� � � � � � � � et

� ��� tel que� � � � � .

(i) � 8 � � � 8 � � � � �� � 8 ��� � � � �(ii) Si

� � �

�� �� � � �

� � � � � � � � . � � � � �� � � � . � � � � � (D.8)

PREUVE: Pour démontrer (i), il suffit d’appliquer (D.7) deux fois : une fois avec�une autre fois avec

� . Pour démontrer (ii), on utilisera le lemme 14 deux foisaussi : une fois avec

�et une fois avec le complémentaire de

�.

Exercice 33 Soit� ��� tel que � � �� � . Retrouver la relation classique

� ��. � � � �� � ��. � � � �� � � en utilisant le résultat précédent : ne pas oublier que � � �� � � 1l > � .

Nous terminons par un lemme qui sera amélioré plus loin.

209

Page 226: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Lemme 17 Soit � � � � tel que � � � � � � �� � et un couple � � �

de va-riables aléatoires admettant une densité de probabilité � 8 � � � � � , � � � � � � � .Alors � 8 � 8�� � � , noté usuellement � 8 8�� � admet aussi une densité de probabilité,notée � 8 � � � � , � � �

, et

� 8 � � � � � � � � � � �� �� � 8 � � �� � � �

et � 8 � � � � � � � � � � � � 8 ���� � � � � � E� � � � � 8 � PREUVE: Par définition, pour tout

� ��� � ,� 8 � � � � � � � � ��. � � � � � �

� 6 � � � � � < � � � � � � � � � � � � � �� 6 � � � � � < � >�� � � 8 � � � � � � � � �� � > �

� � � � � � � � � 8 � � � � � � � �5� par Fubini �D’où le premier résultat. La seconde égalité est une simple application de la pre-mière, appliquée une fois à � et une autre fois à � .

D.3 Conditionnement par rapport à une tribu

Cette section est importante car elle va permettre, à la section D.4, d’étendreles résultats précédents en définissant le conditionnement par rapport à une va-riable aléatoire.

D.3.1 Définitions

Nous suivons ici les présentations de [24], [11] et [20].

Soit �� � � � un espace probabilisé et

�� �� � � � � � � � une variable

aléatoire positive presque partout :� K � � -p.p.

Soit � une tribu de � telle que � � � . On parle alors d’une sous-tribu de � .

210

Page 227: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Considérons l’applications � 8 � � � � � � ��� définie, pour tout � � � par

� 8 � � � 1l � � � � � (D.9)

Il est facile de voir que � 8 est une mesure de sorte que �� � � � 8 est un

espace probabilisé.

Pour tout � � � , la mesure � 8 � est donnée par :

� 8 � � � ����� - � � � � � � � 1l � � �� � � �� � ����� - � � � � � � � �� � � � � � �

Aussi, pour tout � � � tel que � � � �, � 8 � � �

aussi. On en déduitdonc que � 8 � � � . Pour appliquer le théorème de Radon-Nikodym, il faudraitque � 8 soit � -finie, ce que nous ne savons pas. On pourrait penser que � 8 estbornée, mais � 8 � � � � � 8 qui n’est pas forcément finie si on ne rajoutepas une condition supplrémentaire sur

�. On va donc supposer

�non seulement

positive mais aussi intégrable de sorte que � 8 � � � � � 8 � �. La mesure � 8

est alors bornée et le théorème de Radon-Nikodym s’applique. Il existe donc uneapplication � �

�� �� � � � � telle que, � � 8 � ��� � � . Comme il est évident

que�

�� �� � � � � � �

�� �� � � � , nous avons, pour tout � � � , � 8 � � � � � � � � . Aussi, 1l � � � � � 1l � � � , ce qu’on peut encore écrire

� � 1l � � � � � � 1l � � � (D.10)

L’ensemble des variables aléatoires intégrables qui vérifient l’équation précédenteest une classe d’équivalence par rapport à la relation d’équivalence "presque sû-rement". L’ensemble des variables aléatoires intégrables qui vérifient (D.10) estdonc un élément de �

�� �� � � � . Cette classe d’équivalence est souvent notée

� � . � et on l’appelle espérance conditionnelle de

�par rapport ou condition-

née par � . Il est d’usage d’écrire l’équation (D.10) sous la forme

� � 1l � � � � � � 1l � � � � � � (D.11)

Cette équation signifie donc que pour tout élément de �� �

, l’équation (D.10)est vérifiée.

Le raisonnement précédent a été conduit dans le cas où�

est intégrableet positive. Supposons maintenant que

�est toujours intégrable mais de signe

211

Page 228: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

quelconque. On peut alors écrire� � � � � � � avec

� � � �1l � 8 � ��� et� � � � �

1l � 8 � ��� . Les variables aléatoires� �

et� � sont toutes deux intégrables

et positives. Elles admettent donc, toutes les deux, des espérances conditionnellespar rapport à � . On posera donc :

�� � �� � � � � � � � � � � (D.12)

Cette somme est théoriquement celle des classes d’équivalences, c’est-à-dire celleportant sur les éléments de �

�� �� � � � . L’espérance conditionnelle �

� � est

encore définie de manière unique dans �

�� �� � � � et le lecteur vérifiera aisément

que l’équation (D.10) reste vraie pour tout élément de �� �

de sorte qu’onécrira encore (D.11).

Ce qui précède justifie la définition suivante qui synthétise ce qui vient d’êtredit.

Définition 84 Soit �� � � � un espace probabilisé, � une sous-tribu de � sur �

et� � �

�� �� � � � . L’espérance conditionnelle de

�par rapport à la tribu �

est l’unique élément �� �

de �

�� �� � � � tel que pour tout � �

� � et tout

� � � , ��1l � � � � � � 1l � � . Par convention, on écrira, pour tout � � � ,

� � 1l � � � � � � 1l � � � � � � (D.13)

D.3.2 Propriétés de l’espérance conditionnelle

Nous énumérons maintenant quelques propriétés des espérances mathéma-tiques conditionnelles qui dérivent de leur définition.

Proposition 31 Soit �� � � � un espace probabilisé et � une sous-tribu de � .

On convient que les espérances conditionnelles écrites ci-dessous sont définies.

(i) � " � � � $ � � � (ii) Si � est � -mesurable, �

� � � �� � �� �

p.s.

(iii) Si � est � -mesurable, � � � �� � � � � � � � �

.

(iv) Si�

est � -mesurable, alors �� � �� �

.

(v) Si�

et � prennent des valeurs de même signe ou possèdent une espérancemathématique finie, alors �

� � � � �� � � � � � � � �(vi) Si � � �

et� � �

�� �� � � � , � � � � �� � � � �

.

212

Page 229: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(vii) Si� � � � � p.s alors �

� � � � � � � � .(viii)

. � � � . � � � . � . p.s.

(ix) Soit�

une sous-tribu de � , ��� � � ��� " � � � $ �

PREUVE:

(i) Il suffit d’appliquer (D.11) avec � � � .

(ii) On commence par montrer le résultat pour � �1l � où � � � . L’espérance

conditionnelle ��

1l � � est telle que

� � 1l � ��

1l � � � � � � 1l � 1l � � � � � � 1l � � � � � �Or, par définition de l’espérance conditionnelle de �

� � , on a :

� � 1l � �� �

1l � � � � � 1l � � � �� � � � � � 1l � � � � � �

D’où le résultat pour � �1l � . Comme une variable aléatoire positive est limite

d’une suite croissante de fonctions simples, on en déduit que le résultat est encorevrai pour � positive. Pour une variable aléatoire � de signe quelconque, on écrit,comme d’habitude, que � � �

� � � � , ce qui permet d’assurer que le résultat estencore vrai pour une variable aléatoire réelle de signe quelconque.

(iii) Il suffit d’appliquer (i) et (ii).

(iv) Il suffit d’appliquer le résultat précédent à � �1l � .

(v) Par définition de l’espérance conditionnelle, on a pour tout � � � :

� � � � � �� � � 1l � � � � � � �

� � � 1l � �� � � � �1l � � � � � � � 1l � �� � � � � � �

1l � � � � � �� � � 1l � �� � � " � � � � � � � � � %$ 1l � � �

D’où le résultat.

(vi) Immédiat.

(vii) Si� K �

, alors, par définition de l’espérance conditionnelle,� � 1l � �

� � � � � � 1l � � � K �pour tout � � � . D’après (i) du lemme 13,

cela implique que �� � K � p.s.

213

Page 230: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Si nous considérons maintenant� �

et� � , on écrit que

� � � � �� � � � � �

.On applique ensuite (iv) pour obtenir �

� � � � � � � � � � � � � � � � . Comme� � � � � K � p.s., �

� � � � � � K � . D’où le résultat.

(viii) On a. � . � ��� � � � � � . Aussi, en vertu de (vi) et de (v),

� � � � et

�� �

sont inférieurs ou égaux à �� . � .

. D’où le résultat.

(ix) Pour un élément�

donné de�

, nous allons calculer � � � � � 1l � � puis

� � � � " � � � $1l � � et montrer que ces deux termes sont égaux, ce qui suffira

en vertu du lemme 13.

Par application directe de la définition de l’espérance conditionnelle, on a toutd’abord,

� � � � � 1l � � � � � � 1l � �

D’autre part, toujours par application directe de la définition de l’espérance condi-tionnelle,

� � � � " � � � %$ 1l � � � � � " � � � '$

1l � � �Comme

� � � ,�

est aussi un élément de � . Par définition encore de l’espé-rance conditionnelle, le membre de droite de l’égalité précédente est donc égal à� � � 1l � � . D’où le résultat.

D.3.3 L’espérance contitionnelle par rapport à une tribu estune projection orthogonale

La propriété (iii) a en fait une conséquence remarquable qui est très exploitéeen statistique et en estimation. Le résultat donnée ci-dessous est peut être le plusimportant de cette section dédiée aux probabilités conditionnelles par rapport àune tribu.

Supposons que�

soit un élément de� �� �� � � � , c’est-à-dire une application

mesurable�� �� � � � � � � � � � telle que �

� . � . � � � �. On sait alors que�

est aussi élément de�

�� �� � � � de sorte que son espérance conditionnelle

�� �

par rapport à une sous-tribu � de � existe.

En vertu de la relation (iii) et étant donné qu’on vérifie immédiatement quel’espérance conditionnelle du conjugué est le conjugué de l’espérance condition-nelle, nous avons

�� � � � � �� � � � � � � �

214

Page 231: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

pour tout � mesurable par rapport à � .

Désignons alors par�

l’ensemble de toutes les applications à valeurs dans�

qui sont mesurables par rapport à � . L’égalité précédente signifie encore que pourtout � � � ,

��� �

� � � � � � � � (D.14)

Or, l’ensemble� �� �� � � � est un espace de Hilbert dont le produit scalaire

est � . � � � � � � � associé à la norme � � � définie par � � � � ��� � � . � . � �

. Larelation (D.14) traduit donc l’orthogonalité de �

� � � �avec�

. Puisque�

est un espace vecoriel fermé pour la norme � � , nous pouvons appliquer le théo-rème de projection et déduire de cette orthogonalité que �

� � est la projection

ortgogonale de�

sur�

, c’est-à-dire l’application � -mesurable qui "ressemble leplus" (au sens de la norme � � � ) à

�. On comprend désormais toute l’importance

de la probabilité conditionnelle dès que l’on veut estimer une variable aléatoire.Ce résultat mérite un théorème.

Théorème 43 Soit �� � � � un espace probabilisé, � une sous-tribu de � sur �

et l’espace mesurable.

Soit� � � �� �� � � � . L’espérance conditionnelle de

�par rapport à la tribu

� est la projection orthogonale de�

sur l’espace vectoriel fermé�

constitué detoutes les applications � � �� � � � � � � � qui sont � -mesurables. On adonc

� � . � � � � � . � � � ( � � � � � . � � � . � � � � � � � �Exercice 34 Montrer que

�est effectivement un espace vectoriel fermé par rap-

port à la norme � � .D.3.4 Théorèmes de convergence

Les espérances conditionnelles, bien qu’étant des variables aléatoires et nondes intégrales comme le sont les espérances, permettent d’énoncer des théorèmesde convergence analogues à ceux déjà rencontrés (convergence monotone, Fatou,convergence dominée).

Théorème 44 Soit �� � � � un espace probabilisé, � une sous-tribu de � .

215

Page 232: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Convergence monotone. Si � � � � � est une séquence croissante de va-

riables aléatoires positives (ou même généralisées), alors')( *� � � � � �� � � ' ()*� � � �Lemme de Fatou.

(i) Si � � � � � est une séquence de variables aléatoires réelles pour la-

quelle il existe� � intégrable tel que

� � K � � pour tout entier � K ,alors

�� ' ()* ( ��� � � � ' ()* ( ��� � � � � (p.s.)

(ii) Si � � � � � est une séquence de variables aléatoires réelles pour la-

quelle il existe� � intégrable tel que

� � � � � pour tout entier � K ,alors

�� ' ()* � � � � K ' ()* � � �

� � � (p.s.)

Convergence dominée. Si � � � � � est une séquence de variables aléa-

toires réelles telles que. � � . � � (p.s.) avec �

� � � � �et si

� � � �(p.s.), alors ')( *� � � � � � � � �

(p.s.) �Nous engageons le lecteur à faire les démonstrations de ces résultats. Ces dé-

monstrations sont analogues à celles qui ont permis d’énoncer les résultats clas-siques de la théorie de la mesure comme pourra le constater le lecteur s’il sereporte à [20] pour vérifier ses raisonnements.

Il existe même une version des inégalités de Hölder, de Minkowsky et de Jen-sen que nous énonçons maintenant.

Théorème 45 Soit� � � � �

� �� � � � et� � ��� �� � � � avec

�� � ��� . Soit

� une sous-tribu de � .

Inégalité de Hölder :

�� . � � . � � �

� . � . � � 4� � � � .�� . � � 4� (p.s.) �Inégalité de Minkowsky : pour @ K ,

� �� . � � � . � � 4� � � �

� . � . � � 4� � � � . � . � � 4� (p.s.)

216

Page 233: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Inégalité de Jensen : si � � � � �est une fonction continue et convexe telle

que � K � ou ����

est intégrable, alors

� " � � � %$ � � � � � � �Remarque : Soit la fonction � � � � � � . � . � . Cette application est bien convexe eton a donc, en vertu de l’inégalité de Jensen,

. � � � � . � � � . � . � . En prenant

l’espérance, on obtient � � . � � � � . � � � � � � . � . � � � � � . � . � �. Aussi, pour@�K et

� � �� � �� � � � , � � � � � � � � � � � . L’opérateur

��� � � � �

estdonc une contraction de

�� � �� � � � .

D.4 Conditionnement par rapport à une variablealéatoire

Soit �� � � � un espace probabilisé et

� � � � �� � � � � � � � deuxvariables aléatoires réelles.

Il peut être utile de définir l’espérance conditionnelle de�

par rapport à lavaleur prise par � . Pour ce faire, on introduit la notion de tribu engendrée par � àl’aide de la définition suivante.

Définition 85 Soit �� � � � un espace probabilisé et � � �� � � � � � � �

une application mesurable. On appelle tribu engendrée par � la collection d’en-sembles � � � � � � � � � � ��� � � �Exercice 35 Vérifier que la collection � � est bien une tribu.

Disposant d’une tribu qui décrit la manière dont � prend ses valeurs, nouspouvons alors poser la définition suivante.

Définition 86 Soit �� � � � un espace probabilisé et

� � � � �� � � � � � � � deux variables aléatoires réelles. L’espérance conditionnelle de�

parrapport à � , notée �

� � , est l’espérance conditionnelle de

�par rapport à la

tribu � � engendrée par�

:

�� � � ����� � �

217

Page 234: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Exercice 36 Avec les notations de la définition précédente, démontrer que pourtout

� ��� � , � ��

4 6 > < � � � � � � � ��

4 6 > < � � � � (D.15)

C’est une simple application des définitions.

Nous allons maintenant utiliser le résultat suivant.

Théorème 46 Soit �� � � � un espace probabilisé et l’espace mesurable � � � � � . Si

� � � � �� � � � � � � � sont deux applications mesurablestelle que

�est mesurable par rapport à la tribu � � engendrée par � , alors, il

existe une application � -mesurable � telle que� � � � �� � � � .

PREUVE: Commençons par le cas où�

est positive réelle. On sait alors que nouspouvons écrire que

� � ')( * � � � � où

� � � " � � � �� � 1l � 1� � � 1 � 4� � � . Etant donné

que�

est � � -mesurable, alors, pour chaque paire d’entiers� �%?

, l’ensemble� ���� � � � � � ���� � est égal à un élément de � � de la forme� � � � � � � où� � � ��� . On a donc 1l � 1� � � 1 � 4� � � � �

1l > � 6 � < � de sorte que� � � �� � � �

avec� � � " � � � 1l > � 6 � < et � � ' ()*

�� � � � (D.16)

Il est évident que chaque� � est mesurable et il serait alors tentant de poser �

�' ()* � � pour conclure. Nous ne pouvons pas procéder ainsi directement. En effet,nous ne savons pas si la suite

� � � est convergente en tout point de�

. Qu’à celane tienne. Soit

� � � � � � � ')( * � � � � � � ' ()* ( ��� � � � � � , l’ensemble despoints � � �

pour lesquels la suite � � � est convergente. Nous savons que cet

ensemble est mesurable. On définit alors � � par � �� � � 1l � . Les applications � �

sont alors mesurables et pour tout � � �,' ()* � � � � existe. En effet, si � � �

, lalimite de la suite

� � � � � � � existe et' ()* � � � � � ' ()* � � � � . Si � E� �

, on atrivialement

' ()* � � � � � � . L’application � � ' ()* � � � est donc définie partoutsur

�et est mesurable. Il nous reste à vérifier que

� � � � .

Soit � � � , l’égalité (D.16) nous montre clairement que � � � �

. Aussi,� �

���� ' ()*

�� � �

���� ' ()*

�� � �

���� �

ce qui prouve que� � � � � .

Si�

est réelle mais de signe quelconque, on procède selon le scénario clas-sique. On écrit

� � � � � � � . On sait alors que� � � �

� � et que� � � � � �

de sorte que si �� �

� � � � , on a� � � �

.

218

Page 235: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Remarque : Avec les notations du théorème précédent, il faut noter que l’appli-cation � n’est pas forcément unique. Prenons par exemple � �

1l � où� � �

et supposons que�

est � � -mesurable. Nous savons donc qu’il existe � tel que� � � � � � 1l � . Pour � ��

,� � � � et pour � �

� , � � � � � .

On a donc� � � 1l � � � � 1l � � . Soit alors

� � � 1l � � � � � � F 1l � � � � � � où Fest arbitraire. Pour � �

�,� �

�� � �

1l � � � � � et pour � �� ,� �

���� � � . On a donc,

� � � � 1l � � � � 1l ��� � �.

Le théorème précédent nous permet maintenant d’énoncer le très importantrésultat suivant.

Théorème 47 Soit deux applications mesurables� � � � �� � � � � � � � .

Il existe une application unique au sens de la relation d’équivalence "presquepartout"

� 8 � � � � � � � � � � � � � qui est � � -mesurable et telle que

�� � �� � 8 � � (D.17)

et quel que soit� ��� ��

,

� � � 1l > � � � � > � 8 � � � � � � � �� (D.18)

PREUVE: L’espérance conditionnelle �� �

par rapport à � est, par définition,une application � � -mesurable. En vertu du théorème 46, il existe une application� 8 � � � � � � � � � � � � , � � -mesurable, telle que �

� � �� � 8 � � .Il est évident que 1l > � �

1l�

4 6 > < . Comme � � � � appartient à la tribuengendrée par � , nous avons

� � � 1l > � � � � � � � � 1l > � � (définition de l’espérance conditionnelle)� � � � 8 � � 1l > � � (par définition de

� 8 � )� � � " � 8 � � 1l > $ � �� � � 8 � � 1l > � � � � � � �� (théorème de transfert)

d’où l’existence.

Il reste à prouver l’unicité. Celle-ci est une conséquence immédiate du lemme13 : si une application autre que

� 8 � vérifie(D.18), alors elle est égale prequepartout à

� 8 � .

219

Page 236: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Note : noter que le théorème précédent est un résultat d’unicité bien que basé surle théorème 46, qui lui, n’est pas un résultat d’unicité.

Remarque très importantes. Ce théorème nous dit trois choses.

Tout d’abord, qu’il nous suffit de connaître� 8 � pour connaître en fait l’espé-

rance conditionnelle �� �

.

Il nous dit ensuite qu’un moyen de calculer� 8 � (et donc de connaître �

� � )

est de résoudre l’équation (D.18).

Il nous dit enfin que l’espérance de�

est simplement l’intégrale de� 8 � par

rapport à la loi � � � � :

� � � � � � � 8 � � � � � � � �� (D.19)

Ainsi, lorsque on connaît� 8 � , on peut accéder à l’espérance de

�grâce à l’éga-

lité précédente.

Nous allons maintenant établir la relation entre� 8 � �� , � � �

, et l’espéranceconditionnelle de

�par rapport à l’événement

� � � � � lorsque la mesure de cetensemble mesurable est non nulle.

Lemme 18 Soit �� � � � un espace probabilisé,

� � � � �� � � � � � � �deux applications mesurables et

� 8 � � � � � � � � � � � � � la fonction telleque �

� � � � 8 � � .

Si� � �

est tel que � � � � � � �� � , alors� 8 � � �� � � � . � � � � �

PREUVE: Soit� � � � � . On a

� ��� � . Par définition de� 8 � �� , nous avons :

� � � 1l � � � � � � �

� � �

� 8 � � � � � � � � � � 8 � �� � � � � � � �D’après la définition de l’espérance conditionnelle par rapport à l’événement� � � � � , nous avons aussi

� � � 1l � � � � � � � � � 1l �

� $� � �� � � � . � � � � � � � � � � �

Comme � � � � � � �� � , on en déduit le résultat.

220

Page 237: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Ce résultat justifie la définition suivante que généralise la définition 83 (b-iii).

Définition 87 Soit deux applications mesurables� � � � �� � � � � � � � et

soit la fonction� 8 � � � � � � � � � � � � � , telle que �

� � �� � 8 � � .

(i) La valeur de� 8 � � au point

�de

�est appelée espérance de

�conditionnel-

lement à � � �ou espérance (conditonnelle) de

�sachant � � �

. estnotée �

� � . � � � �et est définie comme la valeur de

� 8 � � au point�

de�

:

� � � . � � � � � � 8 � � � �(ii) Pour tout

� � � � , on définit la probabilité que� � � sachant � � �

ouconditionnellement à � � �

par

� � � � ��� . � � � � � � � 1l > � . � � � � � (D.20)

Commentaires : La définition (i) n’est qu’une conséquence du lemme18 et étend donc la définition 83 (b-iii) au cas � � � � � � � �

. L’égalité(D.20) permet de définir � � � � � . � � � � même lorsque � � � � � � � � . Elleest évidemment compatible avec (D.6).

On peut donc re-écrire (D.18) et (D.19) sous les formes usuellement rencon-trées dans la littérature. On a , pour tout

� ��� � ,� � � 1l > � � � � > � � � . � � � � � � � � � �

(D.21)

qui est la ré-écriture de (D.18) et

� � � � � � � � � . � � � � � � � � � � � (D.22)

qui correspond à (D.19) et qui est la conséquence la première égalité avec� � �

.

Nous laissons le soin au lecteur de vérifier que

� � � � ��� � � � > � � � � ��� . � � � � � � � � � � � (D.23)

Nous énonçons maintenant un résultat fort important dans la pratique.

Proposition 32 Soit �� � � � un espace probabilisé,

� � � � �� � � � � � � � deux variables aléatoires réelles indépendantes et� � � � � � � � � � � � � une application mesurable.

221

Page 238: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

(i) �� � � � � . � � � � � � � � � � � � .

(ii) �� � � � � � � � � � � � � � � � � � � � ��

.

PREUVE: (ii) est une conséquence immédiate de (i) et du fait que �� � � � � � � � � � � � � � . � � � � � � � � � � . Nous nous contentons de montrer (i).

Soit� ��� � , nous avons, grâce au théorème de transfert,

� � � � � � � � � � � � � � � � � � � �Aussi, en prenant en compte successivement le théorème de Fubini, le fait que� � � � � � � � � � � � � � � � puisque

�et � sont indépendantes, le théorème

de transfert et la définition même de �� � � � � � , nous avons :� > � � � � � � � � � � � � �� � � � � � � � � > � � � � � � � � � � � � � � � � � � � � 6 � � � < � � � > � � � � � � � � � �

� � � � � � ��

4 6 > < � � � � � �� � � 1l > � � � � � � �D’où le résultat en vertu de (D.21) et du lemme 13.

Le résultat que nous venons de démontrer est énoncé dans le corps principalde ce document, précisemment à la section 12.10. Nous engageons le lecteur àrevenir sur les commentaires donnée dans ladite section sur ce résultat.

Nous allons maintenant comment les égalités (D.21), (D.22) et (D.23) se dé-clinent dans deux cas très importants dans la pratique : celui où � est une variablealéatoire discrète et celui où le couple

� � � admet une densité. Nous nous pla-

cerons dans le cas réel.

D.4.1 Conditionnement par rapport à une variable aléatoirediscrète

Nous reprenons les notations de la section précédente et supposons que � estdiscrète et de la forme :

� � - � � � � � 1l � 1 �222

Page 239: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

les� � étant tous distincts de sorte que les ensembles � � � � � � � � � forment une

partition de � . Nous supposons que pour tout � K , � � � � � � � � �� �. Nous

savons déjà (cf. (10.21), section 10.6) que :

� � � � � - � � � � � � � � � � & � 1 �On a alors� 1l > � � � . � � � � � � � � � � - � � � � � � � � � � 1l > �� � � � � . � � � � � �D’autre part, 1l > � � " � � � 1l > �� � 1l � � $ � 1 � , de sorte que

� � � 1l > � � � - � � � 1l > �� � � � � 1l �� $

� 1 � � �Nous engageons le lecteur à justifier rigoureusement cette dernière égalité.

Nous avons donc

� 8 � �� �� - � � � � � � . � � � � � 1l � � 1 � �� � (D.24)

avec, puisque pour tout � K , � � � � � � � �� � ,� � � . � � � � � � � � � 1l �

� $� 1 � �

� � � � � � � (D.25)

Nous pouvons maintenant donner une expression de l’espérance condition-nelle �

� � :

�� � � - � � � � � � . � � � � � 1l � � $ � 1 � � �

L’espérance conditionnelle de�

par rapport à � est donc une variable aléatoirediscrète qui prend les valeurs �

� � . � � � � � , � � � � � � � � .On notera que

� " � � � � �� � � � . � � � � � � $ � � � � � � � � �On pose maintenant la définition suivante.

223

Page 240: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Définition 88 Avec les notations précédentes, la loi conditionnelle de�

sachant� � � � est la loi � 8 � � $ � 1 � que l’on notera � 8 � $ � 1 .

On posera � 8 � . � � � � 8 � $ � 1 et, par définition, on a pour tout� ��� � ,

� 8 � ��. � � �� � � � � � � . � � � � � � � � � � � � ��. � � � � � �Pour les calculs, il faut alors retenir les résultats suivants qui étendent ceux du

lemme 16.

Lemme 19 Avec les notations utilisées jusqu’ici, pour� � �

�� �� � � � ,

(i)- � � � � � � . � � � � � � � � � � � � �� � � � � �

(ii)- � � � � 8 � ��. � � � � �� � �� � 8 � où � � �� � � � � � � � � � .

Nous laissons la preuve au lecteur. Pour le premier résultat, il faut utiliserla relation � � � � � � � � � � � . On peut aussi utiliser le fait que �

� � . � �� � � � � � � � � � � � � � 1l �

� $� 1 � � . Pour (ii), c’est un simple calcul basé sur les

définitions.

Ce résultat généralise donc l’égalité (D.8). D’ailleurs, à titre d’exercice, nousengageons le lecteur à retrouver les résultats du lemme 16 à partir de ceux quiprécèdent.

D.4.2 Application aux variables aléatoires absolument conti-nues

Nous gardons les notations des sections précédentes, mais nous supposonsque les variables aléatoires

�et � sont réelles et que le couple

� � � admet une

densité � 8 � � par rapport à la mesure de Lebesgue sur� �

. Nous savons alors que�

et � sont absolument continues par rapport à la mesure de Lebesgue de densitésrespectives � 8 et � � telles que :

� 8 � � � � 8 � � � � � � � � � � � �� � � 8 � � � � � �5� �Nous allons calculer �

� � . � � � �en résolvant (D.21) pour tout

� ��� .

224

Page 241: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Soit donc� ��� , nous avons, grâce aux théorèmes de transfert et de Fubini,

� � � 1l > � � � � 1l > � � � � � 8 � � � � � � � � �Etant donné que � admet la densité � � , nous avons aussi� 1l > � � � � . � � � � � � � � � �� � � 1l > �� � � � . � � � � � � �� � �Aussi, résoudre (D.21) équivaut à résoudre� 1l > �� � � � � 8 � � � � � � � � � � � 1l > �� � � � . � � � � � � �� � � � (D.26)

ce qui, en vertu du lemme 13 nous conduit à la relation fondamentale

� � � . � � � � � � � �� � � � 8 � � � � � � � � (D.27)

Si nous posons

� � � . � � � � � �� � ��� 6 � < � � � 8 � � � � � �5� � � � � �� �� �F

� � � � �(D.28)

où F est arbitraire, on vérifie que �� � . � � � �

vérifie alors bien (D.26). En effet,soit � � � � � � � � � � � � et en prenant en compte que si

� � alors� 8 � � � � � � presque partout sur�

, nous avons :

� 1l > �� � � � � 8 � � � � � � � � �� � 1l > � � � � � � 8 � � � � � � � � � � � 1l > � � � � � � � 8 � � � � � �5� � �� � 1l > � � �� � � � � 8 � � � � � � � � �� � 1l > � � �� � � � . � � � � � � �� � � (par notre choix de �� � . � � � �

)� � 1l > � � � � � . � � � � � � � � � � � 1l > � � � � � � . � � � � � � � � �� � 1l > � � � � . � � � � � � � � � �225

Page 242: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

De l’expression même de �� � . � � � �

, nous voyons que, pour� � �

tel que�� �� �� �, la fonction � � � � �

�� 6 � < � 8 � � � � � joue le rôle de densité pour calculer

� � � . � � � �.

Définissons alors la fonction � 8 � . � � � � � � � 8 � � . � par

� 8 � � . � �� � � ��� � 6 � � � <�� 6 � < � � � � � �� ��

� � � � �(D.29)

où�

est arbitraire. Dans la suite, nous choisirons� � �

pour fixer les idées, maisce qui suit reste valide pour toute autre valeur.

Pour�

tel que � � � �� � , nous avons clairement � 8 � � � � �5� � de sorteque � 8 � . � est une densité de probabilité. Il existe donc une variable aléatoirequi admet cette densité. D’où la définition suivante.

Définition 89 Soit �� � � � un espace probabilisé, et

� � � � �� � � � � � � � deux variables aléatoires réelles.

(i) La fonction � 8 � . � définie par (D.29) où � � est la densité de � est appeléedensité de probabilité conditionnelle de

�sachant � � �

.

(ii) Pour� � �

tel que � � �� �� � , la loi conditionnelle de�

sachant � � �est

la loi de densité � 8 � . � .Nous pouvons alors démontrer un théorème de transfert.

Théorème 48 Soit �� � � � un espace probabilisé et

� � � � �� � � � � � � � deux variables aléatoires telles que le couple � � �

admette une den-sité de probabilité. Soit

� � � � � � � � � � � � � une application mesurable.Sous réserve que les intégrales existent, on a, pour tout

� � �tel que � � � �� � :

� � � � . � � � � � � � � � 8 � � . � � � �PREUVE: Soit

� ��� � . Par définition de �� � � . � � � �

, on a :

� > � � � � . � � � � � � �� � � � � � � � 1l > � � �

226

Page 243: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

En utilisant le théorème de transfert et celui de Fubini, il vient :

� � � � 1l > � � � � � � � � � � > � � � 8 � � � � � �5� � �� � � � � � � � > � � � 8 � � . � � � � � � � �� �

� � > � � � � �� � � 8 � � . � � � � � �� � � �

On a donc, pour tout� ��� � ,

� > � � � � . � � � � � � � � � � � > � � � � � 8 � � . � � � � � � � � �d’où le résultat.

Il est alors aisé de démontrer le résultat suivant qui met en avant la cohérencedes résultats précédents, puisque la densité conditionnelle � 8 � . � nous permetde retrouver la probabilité conditionnelle de

�sachant � � �

.

Proposition 33 Avec les notations du théorème 48,

� � � � � ��. � � � � � � > � 8 � � . � � � �pour tout

� � � tel que � � � �� � .PREUVE: Par définition, � � � � � ��. � � � � � � � 1l > � . � � � �

. Il suffit alorsd’appliquer le théorème 48 avec

� �1l > pour obtenir le résultat.

Exercice 37 Avec les notations utilisées jusqu’ici,

1. Montrer que pour presque tout � � �, � 8 � � . � � � � �� � 8 � � � � � .

2. Montrer que pour tout � � � � � � �

, � 8 � � � � � � � � � 8 �� � � . On pourrautiliser la formule de changement de variable.

3. En déduire que pour presque tout � � � � � � �

,

� 8 � � . � � � �� �� � 8 � � � � � �� � � 8 �� . � � 8 � � � � � 8 �� � � �227

Page 244: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Nous terminons ce paragraphe en présentant un moyen souvent utilisé pourintroduire la densité de probabilité conditionnelle.

Supposons que pour tout���, � � � � � � � � � � � � est non nul.

En vertu de la section D.2, la densité de�

sachant � � � � � � � � � � �est

� 8 � � � � � � � �� � � � � � �

� �� � � � 8 � � � � � � �� �

� �� � � � � � � � �

Il suffit alors d’appliquer la règle de l’Hôpital pour retrouver l’expression dela densité conditionnelle � 8 � � . � comme limite, lorsque

�tend vers

�de� 8 � � � � � � � �

� � � � .D.4.3 Courbe de régression

Soit �� � � � un espace probabilisé et deux variables aléatoires réelles

�et

� . La courbe de régression, si elle existe, est une fonction � � � � � � � � � � � � � telle que � minimise la distance quadratique� � � . � � � � . � �

.

On a alors le résultat suivant dont l’importance est majeure en estimation sta-tistique.

Théorème 49 Soit �� � � � un espace probabilisé et deux variables aléatoires

réelles�

et � telles que �� . � . � � � �

. La courbe de régression existe, est uniqueet est égale à l’espérance de � conditionnelle à

� � � :� � � � � � . � � � � �

PREUVE: Pour toute application mesurable � � � � � � � � � � � � � ,� � � �� � � � � � � � est mesurable par rapport à la tribu � 8 engen-drée par

�. Réciproquement, toute variable aléatoire

� � �� � � � � � � �qui est � 8 mesurable s’écrit sous la forme

� � � � en vertu du théorème 46.

Aussi, chercher une courbe de régression de � sur�

, c’est chercher une applica-tion

�� � �� � � � � � � � qui est � 8 -mesurable et qui minimise �� . � � � . � �

lorsque�

parcourt l’espace�

des applications� � �� � � � � � � � qui sont� 8 -mesurables.

Etant donné que �� . � . � � � �

, le théorème 43 nous dit que la solution est�� � � � � �

, c’est-à-dire,�� � � 8 � . D’où le résultta par application du

lemme 18 et de la définition 87.

228

Page 245: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

Index

� -algèbre, 4� -additivité, 9� -algèbre, 5écart-type, 93épreuve, 1événement élémentaire, 4événement lémentaire, 6événement certain, 4événement impossible, 4événements indépendants, 20événements mutuellement disjoints,

9

anneau, 185anneau engendré, 188application intégrable au sens de Rie-

mann, 83application localement intégrable, 85application mesurable, 25application Riemann-intégrable, 197

calcul combinatoire, 15changement de variable, 134Changement de variables, 135coefficient de corrélation, 140complétée d’une tribu, 66convergence des v.a., 164convergence en Loi, 167convergence en moyenne d’ordre F ,

164

convergence en moyenne quadra-tique, 165

convergence en probabilité, 164convergence presque sûre, 166coordonnée, 74courbe de régression, 141couverture, 186covariance, 139

dérivée de Radon-Nikodym, 113densité d’une mesure, 113densité de probabilité, 103, 104, 113densité de probabilité conditionnelle,

225droite de régression, 141

ensemble fermé, 177ensemble négligeable, 64ensemble ouvert, 177espérance conditionnelle, 138espérance conditionnelle par rapport

à un événememnt, 206espérance conditionnelle par rap-

port à une variable aléatoireréelle, 216

espérance conditionnelle sachant lavaleur prise par une variablealéatoire, 220

espérance mathématique, 91espace mesurable, 5espace probabilisé, 12

229

Page 246: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

espace probabilisable, 5

fonction étagée, 35fonction borélienne, 26fonction caractéristique, 94fonction de répartition, 99fonction génératrice, 95fonction simple, 35formule de Bayes, 20

homeomorphisme, 178

Inégalité de Bienaymé-Tchebychev,94

Inégalité de Jensen, 92inégalité de Markov, 93intégrale de Riemann, 84intégrale généralisée, 85intégrale généralisée absolument

convergente, 85

lemme de Borel-Cantelli, 166limite inférieure, 32limite supérieure, 31loi Beta, 126loi binomiale, 116loi conditionnelle, 137loi conditionnelle à un événement,

205loi conditionnelle associée à la den-

sité d’un coupe de variablesaléatoires, 225

loi conditionnelle sachant la valeurprise par une variable aléa-toire discrète, 223

loi conjointe, 132loi d’un vecteur aléatoire, 130loi d’une variable aléatoire, 96loi de Bernouilli, 115

loi de Cauchy, 126loi de Poisson, 116loi de Rayleigh, 124loi de Rice, 124Loi de Student, 127loi du � � , 121loi du chi-

�non centrée, 123

loi Exponentielle, 120loi faible des grands nombres, 165loi forte des grands nombres, 167loi géométrique, 115loi Gamma, 125loi gaussienne, 118loi image, 96loi image d’un vecteur aléatoire, 130loi Log Normale, 120loi normale, 118loi uniforme, 118

matrice de covariance, 140mesure � -finie, 76, 112, 189mesure absolument continue, 112Mesure bornée, 10mesure complétée, 67, 68mesure complète, 65Mesure de comptage, 10Mesure de Dirac, 10mesure de Lebesgue, 193mesure de Lebesgue-Stieltjes, 190mesure de probabilité conditionnelle,

205mesure extérieure, 185mesure image, 96mesure image par un vecteur aléa-

toire, 130mesure positive, 9, 184mesure produit, 77moments d’ordre supérieur, 92

230

Page 247: Cours de Probabilités - geoffroy.richert.free.frgeoffroy.richert.free.fr/UVs/TC 03/SQ 20/cours-proba-Pastor.pdf · Les objectifs pédagogiques du cours supporté par ce polycopié

observable, 1

partie négative, 52partie positive, 52partition, 20possible, 1presque partout, 65presque sûrement, 65probabilité, 12probabilité conditionnelle, 19probabilité conditionnelle d’un évé-

nement, 205produit cartésien, 73

règle de Bayes, 19rectangle ou pavé mesurable, 73

semi-norme, 69système complet de constituants, 6

Théorème de Borel-Cantelli, 22Théorème de la convergence

dominée-II, 71théorème de transfert, 97, 131thèorème de la limite centrale, 167topologie, 177topologie trace, 178topologie usuelle de

�, 179

topologie usuelle de�

, 178tribu, 4, 5tribu associée à une mesure exté-

rieure, 185tribu complétée, 66tribu de Lebesgue, 11, 69, 193tribu de Lebesgue-Stieltjes, 190tribu des boréliens, 6Tribu engendrée, 5tribu engendrée par une application

mesurable, 216

tribu produit, 73tribu trace, 6tribus indépendants, 22

v.a. indépendantes, 136variable aléatoire, 25variable aléatoire absolument conti-

nue, 104, 113variable aléatoire complexe, 33, 160variable aléatoire complexe inté-

grable, 62variable aléatoire discrète, 106variable aléatoire généralisée, 25variable aléatoire intégrable, 52variance, 93vecteur aléatoire, 129vecteur complexe gaussien circu-

laire, 163vecteur gaussien, 150

231