14
Probabilités Vecteurs aléatoires continus Cadre multivarié, densité jointe, densités marginales Conditionnement : loi et espérance conditionnelle Indépendance Vecteurs Gaussiens Anne Sabourin Plan du cours de probabilités Semaine 3 I Probabilités discrètes I Variables et vecteurs aléatoires discrets I Espérance, espérance conditionnelle Semaine 4 I Indépendance, variance, covariance I Variables aléatoires continues I Vecteurs aléatoires continus Fondamentaux pour le Big Data c Télécom ParisTech 1/14

Plan du cours de probabilités

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Plan du cours de probabilités

Semaine 3I Probabilités discrètesI Variables et vecteurs aléatoires discretsI Espérance, espérance conditionnelle

Semaine 4I Indépendance, variance, covarianceI Variables aléatoires continuesI Vecteurs aléatoires continus

Fondamentaux pour le Big Data c© Télécom ParisTech 1/14

Page 2: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Cadre continu multivarié

I X : Ω→ Rd une fonctionI (Ω,A,P) espace probabilisé.I Ensembles d’intérêt :

X ∈ R où R = [a1, b1]× · · · × [ad , bd ] ("rectangle")

déf : X est un vecteur aléatoire (tout court) si

X ∈ R est un événement (i.e.,X ∈ R ∈ A),

pour tout R = [a1, b1]× . . .× [ad , bd ], ai , bi ∈ R.

I Comme en 1D : les fonctions X → Rd seront « toujours »des vecteurs aléatoires.

Fondamentaux pour le Big Data c© Télécom ParisTech 2/14

Page 3: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Vecteur aléatoire continudéf : Un vecteur aléatoire X = (X1, . . . ,Xd) est continu si

∃ f : Rd → R+,∫Rd f (x1, . . . , xd ) dx1 · · · dxd = 1 (densité),

telle que pour tout rectangle R = [a1, b1]× · · · × [ad , bd ],

P(X ∈ R) =

∫[a1,b1]

· · ·∫

[ad ,bd ]f (x1, . . . , xd ) dx1 · · · dxd

Fondamentaux pour le Big Data c© Télécom ParisTech 3/14

Page 4: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Densités marginales (couple (X ,Y ) continu)

P(X ∈ [a, b]) = P(X ∈ [a, b],Y ∈ R)

=

∫x∈[a,b]

(∫y∈R

f(X,Y)(x, y) dy)

︸ ︷︷ ︸fonction de x

dx

fX (x) =

∫y∈R

f(X ,Y )(x , y) dy ; fY (y) =

∫x∈R

f(X ,Y )(x , y) dx .

Fondamentaux pour le Big Data c© Télécom ParisTech 4/14

Page 5: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Densité conditionnelleSoit (X ,Y ) un couple continu, de densité jointe f(X ,Y ).

I Si on observe X = x, que sait-on sur Y ?I Problème : P(X = x) = 0 : proba conditionnelle

« sachant X = x » n’existe pas.I Mais si fX (x) 6= 0 on peut définir :

Densité conditionnelleSoit x tel que fX (x) 6= 0. La fonction :

y 7→ fY |X (y |x) =f(X ,Y )(x , y)

fX (x)

est appelée « densité conditionnelle de Y sachant X = x ».

Remarque importanteLa fonction y 7→ fY |X (y |x) est une densité de probabilité sur R.

Fondamentaux pour le Big Data c© Télécom ParisTech 5/14

Page 6: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Loi conditionnelledéf : La loi conditionnelle de Y sachant X = x estLa loi sur R dont la densité est fY |X ( · | x).

PY |X ([a, b]|x) =

∫y∈[a,b]

fY |X ( y | x) dy

Fondamentaux pour le Big Data c© Télécom ParisTech 6/14

Page 7: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Loi conditionnelle : preuve del’interprétation géométrique

Rapport entre les aires foncées /claires :

∆ =

∫y∈[a,b] f (x , y) dy∫y∈R f (x , y) dy

PY |X ([a, b]|x)déf=

∫y∈[a,b]

fY |X (y |x) dy déf=

∫y∈[a,b]

f(X ,Y )(x , y)

fX (x)dy

déf=

∫y∈[a,b]

f(X ,Y )(x , y)∫R f (x , y) dy

dy =

∫y∈[a,b] f(X ,Y )(x , y)∫

R f (x , y) dy

= ∆

Fondamentaux pour le Big Data c© Télécom ParisTech 7/14

Page 8: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Utilisation de la loi conditionnelle

(X ,Y ) : Ω→ X × Y couple aléatoire. On donne PX et PY |X .Loi de Y ?

(cas discret) P (Y ∈ A) =∑x∈X

P (X = x ,Y ∈ A)

=∑x∈X

P(Y ∈ A|X = x) P(X = x)

=∑x∈X

(∑y∈A

PY |X (y |x))P(X = x)

(cas continu) P (Y ∈ A) =

∫x∈R

∫y∈A

f(X ,Y )(x , y) dy dx

=

∫x∈R

(∫y∈A

fY |X (y |x) dy)fX (x) dx

Fondamentaux pour le Big Data c© Télécom ParisTech 8/14

Page 9: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Espérance conditionnelle

(X ,Y ) un couple aléatoire continu, de densité jointe f(X ,Y ).

On observe X = x. Que peut-on attendre de Y en moyenne ?

déf : l’espérance conditionnelle de Y sachant X = x est

E(Y |X = x) =

∫x∈R

y fY |X (y |x) dy

I remarque importante : g(x)déf= E(Y |X = x) est une

fonction de x. Donc E(Y |X )déf= g(X ) est une variable

aléatoire

Fondamentaux pour le Big Data c© Télécom ParisTech 9/14

Page 10: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Espérance et espérance conditionnelle

On définit E(Y |X )déf= g(X ), où g(x) = E(Y |X = x).

prop : Espérance et espérance conditionnelleSi Y est intégrable, alors E (Y |X ) aussi et

E (Y ) = EX

(E (Y |X )

)preuve c.f. cas discret. Remarquer que fY |X fX = f(X ,Y ).

intérêt : calculer E (Y ) si on connaît fX et fY |X .

I ex : (X ,Y ) couple aléatoire défini par :I X ∼ U[0,1]

I Loi conditle de Y : Y |X = x ∼ N (x , σ2).

I Espérance de Y ?E (Y |X = x) = x donc E (Y ) = EX [E (Y |X )] = EX [X ] = 1

2

Fondamentaux pour le Big Data c© Télécom ParisTech 10/14

Page 11: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

IndépendanceSoit X = (X1, . . . ,Xd ) un vecteur aléatoire

déf : Les variables aléatoires X1 . . . ,Xd sont indépendantes si

Pour tout « rectangle » R = A1 × . . .× Ad ⊂ Rd ( les Ai sontdes intervalles), les événements

X1 ∈ A1, . . . , Xd ∈ Ad

sont indépendants.

(comparer avec le cas discret . . . )

Caractérisation (cas où X est continu) :Les Xi sont indépendantes si et seulement si la densité jointe duvecteur X est le produit des densités marginales :

fX(x1, . . . , xd ) =d∏

i=1

fXj (xj)

Fondamentaux pour le Big Data c© Télécom ParisTech 11/14

Page 12: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Vecteurs GaussiensX = (X1, . . . ,Xd ) est appelé « Vecteur Gaussien »si toutes lescombinaisons linéaires des Xi sont des gaussiennes.

prop : Construction (admis)

X est Gaussien⇔∃A ∈ Rd×d , µ ∈ Rd ,N = (N1, . . . ,Nd ) : X = µ+ AN

où (N1, . . . ,Nd ) sont Gaussiennes standard, indépendantes.

I La loi de X est alors caractérisée entièrement parI Son espérance, E (X) = µI Sa matrice de covariance,

Σ = AA>

preuve : pour Σ, vérifiez que E (NN>) = Id et écrivez ladéfinition matricielle de Cov(X ).

Fondamentaux pour le Big Data c© Télécom ParisTech 12/14

Page 13: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Indépendance dans les vecteurs GaussiensSoit X ∼ N (µ,Σ) un vecteur Gaussien.Alors la réciproque : dé-corrélation ⇒ indépendance devientvraie :

Si la matrice de covariance Σ d’un vecteur Gaussien X estdiagonale, alors ses composantes X1, . . . ,Xd sont indépendantes.

pourquoi ?I Densité en x = (x1, . . . , xd ) (Si Σ inversible)

fµ,Σ(x) =1√

(2π)d | detΣ|e−12 (x−µ)>Σ−1(x−µ)

I Si Σ est diagonale,densité jointe = produit de densités uni-variéesdonc variables indépendantes

Attention : vérifier que le vecteur X est Gaussien, pas seulementses composantes Xi !

Fondamentaux pour le Big Data c© Télécom ParisTech 13/14

Page 14: Plan du cours de probabilités

Probabilités

Vecteurs aléatoirescontinusCadre multivarié, densité jointe, densitésmarginales

Conditionnement : loi et espéranceconditionnelle

Indépendance

Vecteurs Gaussiens

Anne Sabourin

Densité Gaussienne : Exemple

θ = π/6, µ = 0, Σ = PDP>, où

P =(

cos(θ) − sin(θ)sin(θ cos(θ)

)(vecteurs propres) D = ( 2 0

0 1 ) (valeurs propres)

Lignes de niveau de la densité :

−2 −1 0 1 2

−2

−1

01

2

X

Y

Fondamentaux pour le Big Data c© Télécom ParisTech 14/14