23
01 - Revue de la théorie des probabilités IFT6085-H2014: Modèles Graphiques Probabilistes Prof: Aaron Courville Email: [email protected] Office: 3253 Pav. Andre Aisenstadt IFT6085-H2014: Modèles Graphiques Probabilistes Revue de la théorie des probabilités 1

Revue de la théorie des probabilitéscourvila/IFT6085/01_fr_prob_review.pdf · IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités Motivation

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • 01 - Revue de la théorie des probabilités

    IFT6085-H2014: Modèles Graphiques Probabilistes

    Prof: Aaron CourvilleEmail: [email protected]

    Office: 3253 Pav. Andre Aisenstadt

    IFT6085-H2014: Modèles Graphiques Probabilistes

    Revue de la théorie des probabilités

    1

    mailto:[email protected]:[email protected]

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Motivation I

    • Question: Pourquoi la théorie des probabilités?- pourquoi fonder notre système du raisonnement sur la théorie des

    probabilités?

    • Réponse: La théorie des probabilités est un cadre bien compris pour faire face à l'incertitude.I. A une sémantique claire.II. Offre des moyens de principe de combiner l'information et intégrer de

    nouveaux éléments.III. Fournit cadre de raisonnement prédictif (observations futures) et

    diagnostique (quantités non observées) IV. Peut soutenir l'apprentissage à partir de données.V. Intuitif à des experts humains.

    2

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Motivation II

    • Pourquoi les modèles graphiques probabilistes?- Pour le système complexe avec de nombreux composants (c.à.d. de nombreuses

    variables aléatoires), des représentations naïves de la probabilité conjointe sont désespérément inefficace.

    • Exemple: Diagnostic des patients- Les patients sont décrits par plusieurs attributs.

    i. Contexte: l'âge, le sexe, les antécédents médicaux, ...ii. Symptômes présentés: fièvre, pression artérielle, maux de tête, ...

    - Les maladies sont également décrits par des attributs.i. Vecteurs ou causes: les agents pathogènes, tabagisme, ...ii. Les symptômes communs: fièvre, pression artérielle, maux de tête, ...

    • Spécification d'une distribution de probabilité doit attribuer un numéro à chaque combinaison de valeurs de ces attributs!- Exemples réels peuvent impliquer des centaines d'attributs.

    • Idée clé: exploiter les régularités et la structure du domaine- Exploitez indépendance conditionnelle.

    3

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variables aléatoires

    Quelle est une variable aléatoire?

    • Une variable aléatoire exprime un état d'incertitude.- Quelque chose qui n'est pas encore arrivé.‣ Une pièce de monnaie jetée montera pile ou face?‣ Le cancer se reproduira ou non?

    - Quelque chose que vous ne savez pas.‣ Comment la protéine repliée?

    4

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variable aléatoire discrète

    • Une variable aléatoire discrète X prend des valeurs à partir d'un ensemble discret ΩX, appelé le domaine ou l'espace échantillon de X.

    - Ex.1: X = le rouleau d'un dé; ΩX = {1,2,3,4,5,6}.- Ex. 2: X = nucléotide en position 1, le chromosome 1, dans une personne particulière;

    ΩX = {A,C,G,T}.- Ex. 3: X = un client à acheter un nouveau télé ou non; ΩX = {vrai, faux}.

    • Un événement est un sous-ensemble de ΩX.- e1 = {1} correspond à un rouleau de dé de 1.- e2 = {1,3,5} correspond à une valeur impaire sur le dé.

    5

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variable aléatoire discrète: probabilité

    • Pour une v.a. discrète X, chaque valeur x ∈ ΩX a une probabilité, que nous noterons p(X = x) ou simplement p(x).

    • p(X) représente la fonction masse (de probabilité) (p.m.f.) pour X.- peut être considéré comme un tableau.‣ Pour l’exemple de dé:

    • Propriétés élémentaires:

    6

    x 1 2 3 4 5 6

    p(x) 1/6 1/6 1/6 1/6 1/6 1/6

    x∈ΩX

    p(x) = 1

    0 ≤ p(x) ≤ 1, ∀x ∈ ΩX

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variable aléatoire discrète: fonction de répartition

    • Si X prend des valeurs d'un ensemble ordonné ΩX (comme les entiers), alors la fonction de répartition (c.d.f.(x)) est la suivante:

    • Par exemple, si X représente le rouleau d'un dé,

    7

    x 1 2 3 4 5 6

    p(x) 1/6 1/6 1/6 1/6 1/6 1/6c.d.f.(x) 1/6 2/6 3/6 4/6 5/6 1

    c.d.f.(x) = p(X ≤ x) =∑

    x′≤xp(x′)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variable aléatoire discrète: espérance et variance

    • Si ΩX est un ensemble de nombres, alors l'espérance ou la moyenne de X est:

    • La variance de X est:

    • l'écart type (standard deviation) de X est la racine carrée de la variance.

    8

    Var(X) = E(X2)− (E(X))2

    =

    ��

    x∈ΩX

    x2 p(x)

    �−�

    x∈ΩX

    x p(x)

    �2

    E(X) =∑

    x∈ΩX

    x p(x)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Exemple d'espérance et la variance: Dé

    • X représente la valeur indiquée sur le dé; ΩX = {1,2,3,4,5,6}.

    • Espérance de X:

    • Variance:

    9

    E(x) =6�

    x=1

    x p(x)

    =6�

    x=1

    x1

    6

    = 3.5

    Var(X) = E(X2)− (E(X))2

    =

    �6�

    x=1

    x21

    6

    �− (3.5)2

    =91

    6− 12.25

    ≈ 2.92

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variables aléatoires réelles

    • Une variable aléatoireX prend des valeurs réelles. - X = le niveau d'expression d'un gène tel que rapporté par un micromatrice.- X = prix payé pour une maison.- X = la taille d'une tumeur.

    • Tous les v.a. réelles X ont des fonctions de répartitions

    • Propriétés élémentaires:- c.d.f.(x) est une fonction non décroissante; c.d.f.(x) ≤ c.d.f.(x’) chaque fois

    que x ≤ x’.

    - limx → −∞ c.d.f.(x) = 0.- limx → +∞ c.d.f.(x) = 1.

    10

    c.d.f.(x) = p(X ≤ x)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variables aléatoires réelles: Fonctions de densité de probabilité

    • Si c.d.f.(x) est continue et dérivable alors sa dérivée est la fonction de densité de probabilité (p.d.f.(x)), analogue à la fonction masse d'une v.a. discrète:

    • Propriétés élémentaires:- 0 ≤ p(x) < ∞ (noter que p(x) > 1 est autorisé, contrairement aux v.a. discrète)

    - (similaire à v.a. discrète)

    - Remarque: pas tous les v.a. réelles ont des p.d.f.’s, si le c.d.f.(x) n'est pas continue, le p.d.f.(x) n'existe pas.

    11

    d

    dxc.d.f.(x) = p(x)

    xp(x) dx = 1

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variables aléatoires réelles: espérance et variance

    • Nous allons surtout supposer la p.d.f.(x) existe. • Dans ce cas, l'espérance ou moyenne est définie comme:

    • Et la variance est définie comme:

    12

    E(X) =∫

    xx p(x) dx

    Var(X) = E(X2)− (E(X))2

    =

    ��

    xx2 p(x) dx

    �−��

    xx p(x) dx

    �2

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Distributions de probabilité conjointe

    • Lorsque l'on considère plusieurs v.a., X1,X2,...,Xm, la fonction de probabilité conjointe spécifie la probabilité de chaque combinaison de valeurs.

    - Lorsque les v.a.’s sont discrètes, la probabilité conjointe peut être considérée comme une table.

    • Exemple: Rouleau de le dé- X1 = true ssi un dé roulé montre un valeur pair, p(X1 = true) = 1/2- X2 = true ssi le même rouleau de dé montre un valeur impair; p(X2 = true) = 1/2- p(X1) et p(X2) ne décrivent pas tous les événements, p(X1 = true, X2 = true)?- Fonction de probabilité conjointe:

    13

    p(X1 = x1 and X2 = x2 and ... and Xm = xm)

    X1 = vrai X1 = fauxX2 = vrai 0 1/2X2 = faux 1/2 0

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Probabilités marginales

    • Soit les v.a.‘s X1,X2,...,Xm avec une probabilité conjointe p(x1,x2,...,xm), la probabilité marginale d'un v.a. Xi est obtenu en additionnant (ou d'intégration) sur toutes les valeurs possibles des autres v.a.’s.

    • Exemple: Rouleau de le dé- Nous pouvons récupérer p(X1) and p(X2) de la conjointe p(X1,X2).

    14

    p(Xi = xi) =∑

    x1,x2,...,xi−1,xi+1,...,xm

    p(x1, x2, . . . , xm)

    X1 = vrai X1 = fauxX2 = vrai 0 1/2 p(X2=vrai) = 1/2X2 = faux 1/2 0 p(X2=faux) = 1/2

    p(X1=vrai) = 1/2 p(X1=faux) = 1/2

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Variables aléatoires indépendantes

    • Deux variables aléatoires X et Y sont indépendantes, noté X⊥⊥Y, ssi pour toutes les valeurs de x et y,

    • Le cas général:

    • L'indépendance peut réduire considérablement la complexité des fonctions de probabilité conjointe.

    - Pour les variables binaires X1,X2,...,Xn, seulement n numéros sont nécessaires pour représenter les fonctions de masse de probabilité indépendants plutôt que 2n nombres pour représenter une distribution conjointe complet!

    15

    p(X = x and Y = y) = p(X = x)p(Y = y)

    p(x1, x2, . . . , xn) =n∏

    i=1

    p(xi)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Probabilité conditionnelle

    • Les probabilités conditionnelles constituent les déclarations de base dans le cadre bayésien.

    • p(X = x |Y = y) désigne la probabilité qu'un événement X = x se produit étant donné que l'événement Y = y a eu lieu (avec une certitude absolue).

    - Ex., p(die=1 | odd = true) = 1/3.- Ex., p(die=1 | odd = false) = 0.

    • La probabilité conditionnelle est définie comme:- à condition que p(y) ≠ 0.

    • Une autre formulation est donnée par la règle du produit:

    16

    p(x | y) = p(x, y)p(y)

    p(x, y) = p(x | y)p(y) = p(y | x)p(x)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Pourquoi probabilités conditionnelles?

    • Les probabilités conditionnelles sont intéressants car il arrive souvent que nous observons quelque chose et nous voulons inférer une quantité non observée mais liés.

    • Exemples:- p(cancer réapparaît | mesures des tumeurs)- p(gène exprimé> 1.3 | concentrations de facteurs de transcription)- p(collision avec un obstacle | lectures de capteur)- p(mot prononcé | de mesure de l'onde de pression)

    • Les probabilités conditionnelles sont également utilisées façons de spécifier les composants d'un système plus vaste ➔ modèles graphiques orientés (réseaux bayésiens)

    • Ces idées vont être explorées en détail dans ce cours.

    17

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Règle de Bayes

    • Règle de Bayes n'est qu’une reformulation de la règle du produit:

    • Le dénominateur p(y) peut être exprimée en termes de conditionnels par la formule de probabilité complet:

    - Lorsque la somme est prise sur toutes les valeurs possibles de x.

    18

    p(x | y) = p(y | x)p(x)p(y)

    p(y) =∑

    x

    p(y | x)p(x)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Règle de la chaîne de probabilité

    • La règle de la chaîne de probabilité (chain rule of probability) est dérivé par l'application successive de la règle du produit:

    19

    p(X1, . . . , Xn) = p(X1, . . . , Xn−1)p(Xn | X1, . . . , Xn−1)= p(X1, . . . , Xn−2)p(Xn−1 | X1, . . . , Xn−2)p(Xn | X1, . . . , Xn−1)= . . .

    =n�

    i=1

    p(Xi | X1, . . . , Xi−1)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Indépendance conditionnelle I

    • Deux variables aléatoires X et Y sont indépendants conditionnellement à Z, noté X ⊥ ⊥Y | Z, ssi pour toutes les valeurs de x,y,z:

    • Exemple 1: Transmission de gène de l'hémophilie récessif lié à l'XRisque de maladie pour les fils d'un père sain:

    ‣ dépendante pour deux frères.‣ ind. cond. étant donné le statut de transporteur

    de la mère.

    20

    p(X = x, Y = y | Z = z) = p(X = x | Z = z)p(Y = y | Z = z)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Indépendance conditionnelle II

    • Un autre énoncé de l'indépendance conditionnelle par la règle du produit: X ⊥ ⊥ Y | Z , ssi ∀ x,y,z :

    • Pourquoi?

    • Exemple (temps):

    21

    p(X = x, | Y = y, Z = z) = p(X = x | Z = z)

    p(X = x | Y = y, Z = z)p(Y = y | Z = z) = p(X = x, Y = y | Z = z)

    p(X = x | Y = y, Z = z) = p(X = x, Y = y | Z = z)p(Y = y | Z = z)

    p(X = x | Y = y, Z = z) = p(X = x | Z = z)p(Y = y | Z = z)p(Y = y | Z = z)

    p(X = x | Y = y, Z = z) = p(X = x | Z = z)

    p(Thunder | Rain,Lightning) = p(Thunder | Lightning)

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Indépendance conditionnelle: exemples I

    • Trouver les relations d'indépendance conditionnelle pour les variables aléatoires1. Météo: Éclairs, tonnerre, pluie.• interprétation: tonnerre est un variable binaire qui représente la présence

    ou l'absence de tonnerre.

    2. Chez le dentiste: carie dentaire, carie trouver, rage de dents.

    22

  • IFT6085-H2014: Modèles Graphiques Probabilistes 01 - Revue de la théorie des probabilités

    Indépendance conditionnelle: exemples II

    • Quelle vairables aléatoire pourriez-vous ajouter pour rendre les variables (plus) conditionnellement indépendants?- Auto: Engine_turns_over, Fuel_gauge_empty, Engine_start

    23