77
Analyse multivari ´ ee (Chapitre #4) Davy Paindaveine Universit ´ e Libre de Bruxelles Chap.4 – p. 1/76

Analyse multivariee´ (Chapitre #4) - Personal Homepageshomepages.ulb.ac.be/.../stuff/Courses/Analmult/chap4s.pdfAnalyse multivariee´ (Chapitre #4) Davy Paindaveine Universite Libre

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

  • Analyse multivariée

    (Chapitre #4)

    Davy Paindaveine

    Université Libre de Bruxelles

    Chap.4 – p. 1/76

  • Plan du cours

    1. Vecteurs aléatoires.

    2. Loi normale multivariée.

    3. Inférence dans les modèles gaussiens.

    4. Méthodes spécifiques à l’analyse multivariée.

    5. Inférence dans les modèles non gaussiens.

    Chap.4 – p. 2/76

  • 4. Méthodes spécifiques à l’analyse multivariée.

    4.1. Analyse en composantes principales.

    4.1.1. Motivation, définition et calcul.

    4.1.2. Variance expliquée, lectures des CP.

    4.1.3. Version empirique, inférence.

    4.1.4. Approximation par des sous-espaces.

    4.1.5. Illustrations sur des données réelles.

    4.2. Analyse discriminante, classification.

    (4.3. Analyse factorielle.)

    Chap.4 – p. 3/76

  • Motivation

    L’ACP tente d’expliquer la variabilité des données au moyen

    d’un petit nombre de combinaisons linéaires des p variables

    originales.

    Objectifs:

    • Réduction de la dimension (souvent, k

  • Définition

    Soit X un p-v.a. dont la loi admet des moments finis d’ordre 2.

    Notons Σ = Var[X ].

    Définition: les composantes principales sont les combilis Yi = v′iX ,

    i = 1, . . . , p, où

    v1 := arg maxv∈Sp−1

    Var[v′X ],

    et

    vk := arg maxv∈Sp−1∩Tk−1

    Var[v′X ], k = 2, . . . , p,

    où Sp−1:= {v ∈ Rp| ‖v‖ = 1} et Tk := {v ∈ Rp|Cov[v′iX, v′X ] = 0, i = 1, . . . , k}.

    Remarque: problème d’identifiabilité (discuter).

    Chap.4 – p. 5/76

  • Calcul

    Comment calculer ces composantes principales (CP)?

    La détermination des CP est trivialle si on a le résultat suivant

    (preuve faite au cours).

    Lemme: supposons que Σ est symétrique et définie positive.

    Notons λ1 ≥ λ2 ≥ . . . ≥ λp(> 0) ses valeurs propres, et prenons desvecteurs propres de norme 1 associés e1, e2, . . . , ep. Alors (i)

    maxv∈Sp−1

    v′Σv = λ1 (atteint en v = e1)

    et (ii), pour tout k = 2, . . . , p,

    maxv∈Sp−1∩{e1,...,ek−1}⊥

    v′Σv = λk (atteint en v = ek).

    Chap.4 – p. 6/76

  • Calcul

    Puisque Var[v′X ] = v′Σv, on obtient directement que

    v1 = arg maxv∈Sp−1

    Var[v′X ] = e1 (avec Var[v′1X ] = λ1).

    D’autre part, comme Cov[v′X, v′1X ] = v′Σv1 = λ1(v

    ′e1), on a que

    Cov[v′X, v′1X ] = 0 ssi v ⊥ e1. Donc le lemme fournit

    v2 = arg maxv∈Sp−1∩T1

    Var[v′X ] = e2 (avec Var[v′2X ] = λ2).

    En continuant comme ceci, on obtient que vi = ei pour tout

    i = 1, . . . , p.

    ; Les CP sont donc les variables Yi = e′iX , i = 1, . . . , p.

    Chap.4 – p. 7/76

  • Calcul

    Si on a la décomposition spectrale Σ = OΛO′ de Σ, où

    Λ :=

    ( λ1λ2 . . .

    λp

    )

    et O = (e1, . . . , ep),

    (λ1 ≥ λ2 ≥ . . . ≥ λp), le vecteur Y = (Y1, . . . , Yp)′ des CP est doncdonné par

    Y =

    ( e′1X...

    e′pX

    )

    = O′X.

    Remarque: le vecteur Y des CP s’obtient donc en effectuant

    une rotation du vecteur original X .

    Chap.4 – p. 8/76

  • Variance expliquée

    Quelle est la part de la variabilité totale trΣ =∑p

    i=1 Var[Xi], qui

    est expliquée par les k premières CP?

    Comme Var[Yi] = Var[e′iX ] = e

    ′iΣei = λi, on a que la variabilité

    totale se décompose en trΣ = tr (OΛO′) =∑p

    i=1 λi =∑p

    i=1 Var[Yi],

    de sorte que la part de la variabilité expliquée par les k

    premières CP est

    pk :=

    ∑ki=1 λi

    ∑pi=1 λi

    .

    Si une grande proportion de la variabilité est expliquée par un

    petit nombre k0 de CP, celles-ci peuvent avantageusement

    remplacer les variables Xi d’origine en ne perdant que très peu

    d’information.

    Chap.4 – p. 9/76

  • Variance expliquée

    Comment peut-on choisir le nombre k0 de CP “à conserver”?

    On est généralement satisfait lorsqu’au moins 80% (ou 85%...) de

    la variabilité est expliquée...

    ; k0 = min{

    k | pk ≥ 0.8}

    .

    D’autres pratiques courantes consistent à prendre

    k0 = max

    {

    k∣

    ∣λk > 0.7 ×

    (1

    p

    p∑

    i=1

    λi

    )

    }

    ,

    ou à choisir visuellement un k0 ad hoc sur la base d’un graphe

    de λi en fonction de i (un “screeplot”):

    Chap.4 – p. 10/76

  • λ1 = 0.27, λ2 = 0.0056, λ3 = 0.0023, λ4 = 0.00062, λ5 = 0.000082.

    p1 = 0.969, p2 = 0.989, p3 = 0.997, p4 = 0.9997, p5 = 1.

    Chap.4 – p. 11/76

  • Lecture des CP

    Si on note ei = (ei1, . . . , eip)′, la taille de eik mesure l’importance

    de Xk dans la CP Yi = e′iX . Le résultat suivant va dans ce sens.

    Lemme: pour tout i, k = 1, . . . , p, Corr [Yi, Xk] = (λi/Σkk)1/2 eik.

    Exemple: si Σ = Var[(X1, X2, X3)′] est donnée par

    (

    1 −2 0−2 5 0

    0 0 2

    )

    ,

    on a λ1 = 5.83, λ2 = 2 et λ3 = 0.17 (dont la somme vaut bien trΣ = 8).

    Les CP sont Y1 = −0.383X1 + 0.924X2, Y2 = X3 et Y3 = 0.924X1 + 0.383X2(Y1 et Y2 expliquent (5.83 + 2)/8 × 100% = 98% de la variabilité).

    Et Corr [Y1, X1] = 0.925, Corr [Y1, X2] = −0.998, Corr [Y2, X1] = 0,Corr [Y2, X2] = 0 et Corr [Y2, X3] = 1 (X1 et X2 participent de façon

    similaire à Y1).

    Chap.4 – p. 12/76

  • Version empirique

    Bien entendu, Σ = Var[X ] n’est en général pas connu.

    En pratique, si on dispose d’un échantillon d’observations i.i.d.

    X1, . . . , Xn (telles que Var[Xi] = Σ), il est naturel de fonder le

    calcul des CP sur Σ̂ = S = 1n−1∑n

    i=1(Xi − X̄)(Xi − X̄)′.

    ; CP empiriques Ŷi = ê′iX , i = 1, . . . , p, où on a décomposé S en

    S = ÔΛ̂Ô′, avec

    Λ̂ :=

    ( λ̂1λ̂2 . . .

    λ̂p

    )

    et Ô = (ê1, . . . , êp)

    (avec λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂p).

    Chap.4 – p. 13/76

  • Version empirique

    On peut ainsi obtenir une version empirique de toutes les

    quantités définies plus haut (pourcentages de variance

    expliquée, corrélations entre CP et variables originales, etc).

    Par exemple, l’estimateur de la proportion de variance

    expliquée par les k premières CP est

    p̂k :=

    ∑ki=1 λ̂i

    ∑pi=1 λ̂i

    .

    Ceci permet de sélectionner en pratique le nombre k0 de CP

    nécessaires pour conduire l’analyse.

    Remarque: au delà de l’estimation de pk, il serait souhaitable

    d’obtenir des intervalles de confiance sur cette quantité.

    Chap.4 – p. 14/76

  • Inférence

    Supposons que X1, . . . , Xn sont i.i.d. Np(µ, Σ) et que les p valeurspropres λi, i = 1, . . . , p de Σ sont distinctes deux à deux.

    Alors on peut montrer que:

    Proposition: soient λ̂ = (λ̂1, . . . , λ̂p)′ et λ = (λ1, . . . , λp)

    ′. Alors, si

    n → ∞, √n(

    λ̂ − λ) L→ Np(0, 2Λ2),

    où Λ désigne encore la matrice diagonale telle que Λii = λi.

    Il découle directement de ce résultat qu’un intervalle de

    confiance asymptotique pour λi au niveau de confiance 1 − αest donné par

    (

    1 ± Φ−1(

    1 − α2

    )

    2/n)−1

    λ̂i

    (exercice).

    Chap.4 – p. 15/76

  • Inférence

    Le résultat suivant découle directement de la méthode delta.

    Proposition: soit f : Rp → R une fonction de classe C1 dans unvoisinage de λ. Alors, si n → ∞,

    √n(

    f(λ̂) − f(λ)) L→ N1(0, 2τ2),

    où τ2 :=∑p

    i=1 λ2i

    (

    ∂f∂λi

    (λ))2

    .

    En choisissant

    fk(λ) :=

    ∑ki=1 λi

    ∑pi=1 λi

    ,

    on en déduit facilement des intervalles de confiance asymptotiques

    pour pk = fk(λ), qui sont fondés sur p̂k = fk(λ̂).

    Chap.4 – p. 16/76

  • Inférence

    Remarques:

    • Dans ce modèle gaussien, on a que n−1n λ̂ est l’estimateurde maximum de vraisemblance pour λ (ceci est similaire

    au fait que ce n’est pas S, mais n−1n S =1nW , qui est

    l’estimateur de maximum de vraisemblance pour Σ).

    • On peut aussi établir des résultats distributionnels sur les êi,i = 1, . . . , p, et en déduire des tests et des zones de

    confiance sur ceux-ci.

    • Un problème classique (motivé par son rôle possible dansune procédure séquentielle pour choisir k0) consiste à tester

    H(k)0 : λk+1 = λk+2 = . . . = λp; pour ce problème, le test derapport de vraisemblance gaussien est similaire au test de

    sphéricité vu au chapitre 3 (il compare les moyennes

    géométrique et arithmétique des λ̂i, i = k + 1, . . . , p).

    Chap.4 – p. 17/76

  • Approximation par des sous-espaces

    Soit W = (w1, . . . , wk) une matrice p× k (k < p) telle que W ′W = Ik(les colonnes de W sont donc des vecteurs orthonormés).

    Notons πa,W le sous-espace affin

    {

    a +k∑

    i=1

    αiwi |α1, . . . , αk ∈ R}

    .

    Soit Pa,W la projection orthogonale sur πa,W . Il est facile de

    vérifier que

    Pa,W (x) = a + W[

    W ′W]−1

    W ′(x − a) = a + WW ′(x − a).

    Question: quel est le sous-espace affin πa,W de dimension k (fixe) qui

    approxime le mieux l’échantillon X1, . . . , Xn dans sens qu’il minimise

    n∑

    i=1

    ‖Xi − Pa,W (Xi)‖2 ?

    Chap.4 – p. 18/76

  • Approximation par des sous-espaces

    Le résultat suivant montre que ce meilleur sous-espace est

    le translaté en la moyenne arithmétique X̄ du k-vectoriel qui est

    engendré par les k premières directions principales.

    Proposition: posons W(k)CP := (ê1, . . . , êk). Alors

    arg minπa,W

    n∑

    i=1

    ‖Xi − Pa,W (Xi)‖2 = πX̄,W (k)CP

    .

    Remarque: si, comme on le fait souvent, on centre les

    observations Xi (; Xi − X̄, i = 1, . . . , n), le meilleur sous-espacede dimension k approximant les Xi − X̄ est alors simplementπ

    0,W(k)

    CP

    lui-même.

    Chap.4 – p. 19/76

  • Approximation par des sous-espaces

    Preuve de la proposition: puisque Ip − WW ′ est symétrique etidempotente, on obtient

    n∑

    i=1

    ‖Xi − Pa,W (Xi)‖2 =n∑

    i=1

    ‖Xi − (a + WW ′(Xi − a))‖2

    =n∑

    i=1

    ‖(Ip − WW ′)(Xi − a)‖2 =n∑

    i=1

    (Xi − a)′(Ip − WW ′)(Xi − a).

    Donc, en décomposant Xi − a en (Xi − X̄) + (X̄ − a), cecidevient

    n∑

    i=1

    (Xi − X̄)′(Ip − WW ′)(Xi − X̄) + n(X̄ − a)′(Ip − WW ′)(X̄ − a)

    = (n − 1)tr[S(Ip − WW ′)] + n ‖(Ip − WW ′)(X̄ − a)‖2

    = (n − 1)tr[S] − (n − 1)tr[SWW ′] + n ‖(Ip − WW ′)(X̄ − a)‖2.

    Chap.4 – p. 20/76

  • Approximation par des sous-espaces

    On a donc obtenu

    n∑

    i=1

    ‖Xi−Pa,W Xi‖2 = (n−1)tr[S]−(n−1)tr[SWW ′]+n ‖(Ip−WW ′)(X̄−a)‖2.

    Le 1er terme ne dépend ni de a, ni de W . Le 3ème est nul ssi

    WW ′(X̄ − a) = X̄ − a, c’est-à-dire ssi a ∈ πX̄,W . Quant au 2nd,

    tr[SWW ′] = tr[

    Sk∑

    i=1

    wiw′i

    ]

    =k∑

    i=1

    w′iSwi,

    qui, comme on l’a vu dans le lemme du début du chapitre

    (prendre Σ = S), est maximisé en wi = êi, i = 1, . . . , k. �

    Remarque: on obtient aussi que la valeur minimale est donnée

    par (n − 1)(tr[S] −∑ki=1 tr[ê′iSêi]) = (n − 1)∑p

    i=k+1 λ̂i.

    Chap.4 – p. 21/76

  • ACP et graphes

    Chaque observation Xi peut s’écrire Xi = X̄ + Ŷi1ê1 + . . . + Ŷipêp,

    où Ŷij = ê′j(Xi − X̄).

    • L’approximation donnée par les k premières CP est

    X̂(k)i := X̄ + Ŷi1ê1 + . . . + Ŷikêk (= PX̄,W (k)

    CP

    (Xi − X̄)).

    • La taille des p − k dernières CP mesure la qualité de cetteapproximation, puisque

    ‖Xi − X̂(k)i ‖2 = ‖Ŷi,k+1êk+1 + . . . + Ŷipêp‖2 = Ŷ 2i,k+1 + . . . + Ŷ 2ip.

    Des observations aberrantes seront indiquées par de grandes

    valeurs de ‖Xi − X̂(k)i ‖2.

    Chap.4 – p. 22/76

  • ACP et graphes

    (a) Il est traditionnel de rapporter sur un graphe les traces des

    observations sur la première droite principale Ŷi1, i = 1, . . . , n, ou

    sur le premier plan principal (Ŷi1, Ŷi2), i = 1, . . . , n.

    Remarques:

    • De même, on peut considérer quelques-uns des droites etplans principaux suivants.

    • Ces premiers sous-espaces principaux, outre leur intérêt entant que “sous-espaces de variabilité maximale” et de

    “meilleures approximations des données”, permettent aussi

    de vérifier de façon informelle la normalité des données

    (Q-Q plot sur les droites principales, ellipticité dans les plans

    principaux, etc).

    Chap.4 – p. 23/76

  • ACP et graphes

    (b) on peut aussi penser à rapporter sur un graphe les traces des

    observations sur les dernières droites principales

    Ŷir, i = 1, . . . , n (r grand),

    ou sur les derniers plans principaux

    (Ŷir, Ŷis), i = 1, . . . , n (r, s grands),

    dans le but de détecter des éventuelles observations

    aberrantes.

    Chap.4 – p. 24/76

  • Exemple

    Nous considérons le jeu de données “crabs” (disponible dans R),

    qui reprend les valeurs de

    • 5 mesures morphologiques (en mm)(a) FL = frontal lobe size,

    (b) RW = rear width,

    (c) CL= carapace length,

    (d) CW = carapace width,

    (e) BD = body depth,

    • sur 200 crabes de l’espèce “leptograpsus variegatus”(Fremantle, Australie).

    Remarque: 100 crabes sont des mâles. Pour chaque sexe, la

    moitié des crabes sont de couleur orange, l’autre de couleur

    bleue (autre point: on va travailler sur les log de ces variables).

    Chap.4 – p. 25/76

  • Chap.4 – p. 26/76

  • Chap.4 – p. 27/76

  • Chap.4 – p. 28/76

  • λ1 = 0.27, λ2 = 0.0056, λ3 = 0.0023, λ4 = 0.00062, λ5 = 0.000082.

    p1 = 0.969, p2 = 0.989, p3 = 0.997, p4 = 0.9997, p5 = 1.

    Chap.4 – p. 29/76

  • Chap.4 – p. 30/76

  • Chap.4 – p. 31/76

  • Chap.4 – p. 32/76

  • Les directions propres:

    (e1, e2, e3, e4, e5) =

    −0.45 −0.16 0.44 0.75 0.11−0.39 0.91 0.10 −0.09 −0.06−0.45 −0.20 −0.37 0.02 −0.78−0.44 −0.07 −0.67 0.02 0.59−0.50 −0.31 0.46 −0.65 0.14

    (interprétation).

    Chap.4 – p. 33/76

  • Chap.4 – p. 34/76

  • ACP fondée sur les corrélations

    Un des inconvénients majeurs de l’ACP est que cette procédure

    n’est pas affine-équivariante. En particulier, elle dépend très

    fortement de l’échelle des différentes variables Xi (par

    exemple, si la variance de X1 est beaucoup plus grande que

    celle de tous les autres Xi, la variable X1 va, de façon

    indésirable, “consommer” toute la 1ère CP).

    Pour cette raison, lorsque les échelles sont très hétérogènes ou

    que les Xi sont mesurées dans des unités différentes, on base

    plutôt l’ACP sur les données standardisées Zi := (Xi − µi)/√

    Σii,

    lesquelles ont pour matrice de variance-covariance

    R = Var[Z] = Var[(Z1, . . . , Zp)′] = Var[D−1/2X ] = D−1/2ΣD−1/2,

    où D est la matrice diagonale telle que Dii = Σii (R est la

    matrice de corrélation de X : Rij = Corr[Xi, Xj ]).

    Chap.4 – p. 35/76

  • ACP fondée sur les corrélations

    Les CP ne seront alors plus fondées sur Σ, mais sur R.

    Donc les CP seront les Yi = u′iZ, i = 1, . . . , p (de variance

    respective Var[Yi] = ρi, i = 1 . . . , p), si la décomposition spectrale

    de R est R = ULU ′, où

    L :=

    ( ρ1ρ2 . . .

    ρp

    )

    et U = (u1, . . . , up),

    (ρ1 ≥ ρ2 ≥ . . . ≥ ρp).

    L’équivalent empirique s’obtient en remplaçant R par son

    estimateur R̂ fondé sur les corrélations empiriques.

    Chap.4 – p. 36/76

  • Second exemple

    Le second exemple traite le jeu de données “iris3” (aussi

    disponible dans R), qui reprend les valeurs de

    • 4 mesures (en cm)(a) Sepal L. = sepal length,

    (b) Sepal W. = sepal width,

    (c) Petal L.= petal length,

    (d) Petal W. = petal width,

    • sur 150 iris.

    Remarque: parmi les 150 iris, 50 sont du type setosa, 50 sont du

    type versicolor, et 50 sont du type virginica (ici également, on

    travaillera sur les log).

    Chap.4 – p. 37/76

  • Chap.4 – p. 38/76

  • Chap.4 – p. 39/76

  • Chap.4 – p. 40/76

  • λ1 = 2.93, λ2 = 0.91, λ3 = 0.13, λ4 = 0.03.

    p1 = 0.73, p2 = 0.96, p3 = 0.99, p4 = 1.

    Chap.4 – p. 41/76

  • Chap.4 – p. 42/76

  • Chap.4 – p. 43/76

  • Chap.4 – p. 44/76

  • Les directions propres:

    (e1, e2, e3, e4) =

    0.50 −0.45 0.71 0.19−0.30 −0.89 −0.33 −0.090.58 −0.03 −0.22 −0.790.57 −0.04 −0.58 0.58

    (interprétation).

    Chap.4 – p. 45/76

  • Chap.4 – p. 46/76

  • 4. Méthodes spécifiques à l’analyse multivariée.

    4.1. Analyse en composantes principales.

    4.2. Analyse discriminante, classification.

    4.2.1. Considérations générales.

    4.2.2. Classification pour deux populations normales.

    4.2.3. Erreurs de classification.

    4.2.4. Classification pour m ≥ 3 populations.

    4.2.5. Illustrations sur des données réelles.

    (4.3. Analyse factorielle.)

    Chap.4 – p. 47/76

  • Considérations générales

    L’analyse discriminante et la classification ont pour objectifs de

    • séparer en différents groupes des objets appartenant àdiverses populations (par la construction de “discriminants”,

    c’est-à-dire de quantités numériques qui différeront autant

    que possible d’une population à l’autre), et de

    • définir des règles de classification qui permettront de“prédire” à quelle population appartient un nouvel objet.

    Remarque: les procédures que nous allons construire (qui

    tentent bien entendu de minimiser les cas de misclassification)

    devront aussi prendre en compte

    • les probabilités à priori qu’une nouvelle observation àclassifier provienne de la population i (i = 1, . . . , m), et

    • des coûts de misclassification, qui peuvent ne pas êtresymétriques (exemple).

    Chap.4 – p. 48/76

  • Considérations générales

    Considérons deux populations π1 et π2, qui sont associées à des

    lois de probabilité (sur Rp) absolument continues de densité f1

    et f2, respectivement. Ces deux populations diffèrent par leur

    position, leur dispersion, ou toute autre caractéristique.

    Le problème que nous considérons est le suivant: sur base de la

    valeur x = (x1, . . . , xp)′ prise par un p-v.a. X = (X1, . . . , Xp)

    provenant de π1 ou de π2 (i.e., X ∼ f1 ou X ∼ f2), commentparier de manière raisonnable sur la population dont X est issu?

    ; Une règle de classification consiste à donner une partition

    (R1, R2) de l’ensemble χ des valeurs possibles pour x, telle que

    • X sera classifié en π1 si x ∈ R1 et• X sera classifié en π2 si x ∈ R2.

    Chap.4 – p. 49/76

  • Considérations générales

    Si on se donne des probabilités à priori p1, p2 que X provienne

    respectivement de π1 et π2, la probabilité P de misclassification

    de X est donnée par

    P = p2|1 × p1 + p1|2 × p2,

    où

    pi|j = P [X ∈ Ri|X ∈ πj ] =∫

    Ri

    fj(x) dx.

    Une procédure de classification (R1, R2) optimale veillera à

    minimiser P .

    Chap.4 – p. 50/76

  • Considérations générales

    Si en outre différents coûts de misclassification doivent être pris

    en compte (notons c1|2 et c2|1 respectivement les coûts si on

    classifie en π1 un objet provenant de π2 et si on classifie en π2 un

    objet provenant de π1), une procédure de classification (R1, R2)

    optimale devra cette fois minimiser le coût de misclassification

    moyen

    E = E[coût|X ∈ π1] p1 + E[coût|X ∈ π2] p2

    =(

    0 × p1|1 + c2|1 p2|1)

    p1 +(

    c1|2 p1|2 + 0 × p2|2)

    p2

    = c2|1 p2|1 p1 + c1|2 p1|2 p2.

    Chap.4 – p. 51/76

  • Considérations générales

    Le résultat suivant décrit la procédure de classification (R1, R2)

    optimale dans ce contexte général:

    Théorème: la procédure de classification (R1, R2) qui minimise le

    coût de misclassification moyen est donnée par

    R1 =

    {

    x ∈ χ∣

    f1(x)

    f2(x)≥ c1|2 p2

    c2|1 p1

    }

    et R2 = χ\R1.

    Preuve: le coût moyen E sera minimal si l’intégrande de

    E = c2|1 p2|1 p1 + c1|2 p1|2 p2 = c2|1 (1 − p1|1) p1 + c1|2 p1|2 p2 = c2|1 p1 +(c1|2 p1|2 p2 − c2|1 p1|1 p1) = c2|1 p1 +

    R1(c1|2 f2(x) p2 − c2|1 f1(x) p1) dx

    est négatif pour tout x ∈ R1. �

    Remarque: il suffit de connâıtre les rapports f1f2 ,c1|2c2|1

    et p2p1 pour

    déterminer la règle de classification optimale.

    Chap.4 – p. 52/76

  • Considérations générales

    Quelques cas particuliers:

    • Si les probabilités p1, p2 sont égales ou sont inconnues,

    R1 =

    {

    x ∈ χ∣

    f1(x)

    f2(x)≥ c1|2

    c2|1

    }

    et R2 = χ\R1.

    • Si les coûts c1|2, c2|1 sont égaux ou non spécifiés,

    R1 =

    {

    x ∈ χ∣

    f1(x)

    f2(x)≥ p2

    p1

    }

    et R2 = χ\R1.

    • Si p1, p2, c1|2, c2|1 sont non spécifiés,

    R1 =

    {

    x ∈ χ∣

    f1(x)

    f2(x)≥ 1}

    et R2 = χ\R1.

    Chap.4 – p. 53/76

  • Classification pour deux normales

    Considérons d’abord le cas où πi = Np(µi, Σi), i = 1, 2, avecΣ1 = Σ2(=: Σ).

    ; Proposition: soit a := Σ−1(µ1 − µ2). Alors la procédure declassification optimale classifie x en π1 si

    a′x ≥ 12a′(µ1 + µ2) + ln

    [c1|2 p2

    c2|1 p1

    ]

    et en π2 sinon.

    Preuve: il découle du théorème qu’il est optimal de classifier x

    en π1 si ln[ f1(x)

    f2(x)

    ]

    ≥ ln[ c1|2 p2

    c2|1 p1

    ]

    . Or

    ln

    [

    f1(x)

    f2(x)

    ]

    = −12(x − µ1)′Σ−1(x − µ1) +

    1

    2(x − µ2)′Σ−1(x − µ2)

    = (µ1 − µ2)′Σ−1x −1

    2(µ′1Σ

    −1µ1 − µ′2Σ−1µ2) = a′x −1

    2a′(µ1 + µ2). �

    Chap.4 – p. 54/76

  • Classification pour deux normales

    Remarques:

    • Si c1|2 p2c2|1 p1 = 1, il faut donc classifier x en π1 ssi

    a′x ≥ 12a′(µ1 + µ2),

    c’est-à-dire si la projection de x sur l’axe a est plus proche

    de celle de µ1 que de celle de µ2, ou de manière

    équivalente, ssi (voir la preuve ci-dessus)

    2[

    a′x − 12a′(µ1 + µ2)

    ]

    = d2Σ(x, µ2) − d2Σ(x, µ1) ≥ 0;

    • dans le cas général, la règle de classification comparedonc les projections de x, de µ1 et de µ2 sur l’axe a et

    classifie x en π1, en fonction des coûts et des probabilités à

    priori, si a′x − 12a′(µ1 + µ2) est suffisamment grand (interprétation).

    Chap.4 – p. 55/76

  • Classification pour deux normales

    Il est intéressant de noter que l’axe a de la projection sur laquelle

    est fondée la règle de classification est optimal en le sens qu’il

    maximise “une certaine distance” entre π1 et π2.

    Plus précisément, en utilisant l’inégalité de Cauchy-Schwarz

    généralisée vue au Chapitre 3, on a que, ∀v ∈ Rp\{0},

    |v′µ1 − v′µ2|2(v′Σv)

    ≤ (µ1 − µ2)′Σ−1(µ1 − µ2);

    et on vérifie facilement (voir la preuve de cette inégalité) que le

    maximum est atteint ssi v = λa = λΣ−1(µ1 − µ2), λ ∈ R0.

    Remarque: la fonction x 7→ a′x − 12a′(µ1 + µ2) − ln[ c1|2 p2

    c2|1 p1

    ]

    sur

    laquelle est fondée la règle de classification est appelée

    fonction discriminante linéaire de Fisher. On parlera d’analyse

    discriminante linéaire.

    Chap.4 – p. 56/76

  • Classification pour deux normales

    Pour rappel, la règle de classification optimale classifie x en

    π1 = Np(µ1, Σ) plutôt qu’en π2 = Np(µ2, Σ) ssi

    (µ1 − µ2)′Σ−1x ≥1

    2(µ1 − µ2)′Σ−1(µ1 + µ2) + ln

    [c1|2 p2

    c2|1 p1

    ]

    .

    En pratique, µ1, µ2 et Σ sont inconnus et il faut les estimer sur

    base d’un échantillon (“training sample”) d’observations

    indépendantes X1, . . . , Xn1 ∼ Np(µ1, Σ), Y1, . . . , Yn2 ∼ Np(µ2, Σ).

    En utilisant les mêmes notations que dans la section 3.1.4, la règle

    empirique consiste alors à classifier x en π1 plutôt qu’en π2 ssi

    (X̄ − Ȳ )′S−1pool x ≥1

    2(X̄ − Ȳ )′S−1pool(X̄ + Ȳ ) + ln

    [c1|2 p2

    c2|1 p1

    ]

    .

    Chap.4 – p. 57/76

  • Classification pour deux normales

    Si on considére plutôt le cas où πi = Np(µi, Σi), i = 1, 2, sans fairel’hypothèse d’égalité des covariances, on obtient alors (en

    procédant comme ci-dessus) le résultat suivant (exercice):

    ; Proposition: soit

    k := ln

    [ |Σ1||Σ2|

    ]

    + (µ′1Σ−11 µ1 − µ′2Σ−12 µ2).

    Alors la procédure de classification optimale classifie x en π1 si

    −12x′(Σ−11 − Σ−12 )x + (µ′1Σ−11 − µ′2Σ−12 )x ≥

    k

    2+ ln

    [c1|2 p2

    c2|1 p1

    ]

    et en π2 sinon.

    Remarque: pour des raisons évidentes, on parlera cette fois de

    règle de classification (et donc d’analyse discriminante)

    quadratique.

    Chap.4 – p. 58/76

  • Classification pour deux normales

    Si on dispose d’un échantillon d’observations indépendantes

    X1, . . . , Xn1 ∼ Np(µ1, Σ1), Y1, . . . , Yn2 ∼ Np(µ2, Σ2), la règleempirique classifie dans ce cas x en π1 ssi

    −12x′(S−1x − S−1y )x + (X̄ ′S−1x − Ȳ ′S−1y )x ≥

    2+ ln

    [c1|2 p2

    c2|1 p1

    ]

    ,

    où

    k̂ := ln

    [ |Sx||Sy|

    ]

    + (X̄ ′S−1x X̄ − Ȳ ′S−1y Ȳ ).

    Chap.4 – p. 59/76

  • Erreurs de classification

    Comment évaluer la performance d’une règle de classification?

    (motivation: comparer différentes règles).

    ; On peut estimer la probabilité de misclassification pe (ou taux

    d’erreur) de cette règle.

    Un estimateur simple:

    p̂e :=n1,e + n2,en1 + n2

    ,

    où ni,e est le nombre d’observations de l’échantillon provenant

    de la population i (i = 1, 2) qui sont misclassifiées.

    Malheureusement, p̂e tend à sous-estimer pe (ce qui est dû au

    fait que ce sont les mêmes observations qui permettent (i) de

    définir la règle de classification et (ii) de l’évaluer).

    Chap.4 – p. 60/76

  • Erreurs de classification

    Ceci peut être facilement corrigé en recourant au “sample-splitting”,

    c’est-à-dire en cassant l’échantillon original de taille n := ntr + nte en

    • un “training sample” (permettant de définir la règle declassification) et

    • un “test sample” (permettant de l’évaluer).

    L’estimateur de pe qui en résulte est alors évidemment la

    proportion de misclassification observée dans l’échantillon-test.

    Ceci corrige la sous-estimation de l’estimateur précédent. Mais

    • cela requiert de grandes tailles d’échantillons, et• la règle de classification obtenue est moins précise,

    puisqu’on “gaspille” des observations destinées à

    l’évaluation de la règle.

    Chap.4 – p. 61/76

  • Erreurs de classification

    On a donc généralement recours à une méthode de type

    “leave-one-out”, “cross-validation”, ou “jackknife” pour estimer pe.

    Pour chaque observation de la population 1 (resp., 2), on regarde

    si la règle fondée sur les n1 + n2 − 1 observations restantesconduit à misclassifier cette observation en π2 (resp., π1).

    On note nℓ1,e (resp., nℓ2,e ) le nombre de telles misclassifications.

    On peut montrer que l’estimateur “leave-one-out”

    p̂ℓe :=nℓ1,e + n

    ℓ2,e

    n1 + n2

    ne souffre pas du problème de sous-estimation de pe. De plus,

    l’échantillon complet est utilisé pour estimer la règle de classification.

    Chap.4 – p. 62/76

  • Classification pour m ≥ 3 populations

    Nous considérons le cas de m populations πi (i = 1, . . . , m),

    associées à des lois de probabilité (sur Rp) absolument continues

    de densité fi (i = 1, . . . , m).

    Nous cherchons à déterminer une règle de classification qui vise à

    parier sur la population dont est issue la réalisation x d’un p-v.a. X

    (que l’on suppose provenir d’une des πi).

    Comme dans le cas à deux populations, une telle règle est

    complétement déterminée par une partition

    (Ri, i = 1, . . . , m)

    de l’ensemble χ des valeurs possibles pour x, et consistera à

    classifier X en πi ssi x ∈ Ri.

    Chap.4 – p. 63/76

  • Classification pour m ≥ 3 populations

    Si on note

    • ci|j le coût de classification en πi d’un objet de πj ,• pj la probabilité à priori que X provienne de πj et• pi|j := P [X ∈ Ri|X ∈ πj ] =

    Rifj(x) dx la probabilité

    conditionnelle qu’un objet soit classifié en πi sachant qu’il

    provient de πj ,

    une procédure de classification (Ri, i = 1, . . . , m) sera dite

    optimale si elle minimise le coût de misclassification moyen, qui

    s’écrit ici

    E =m∑

    j=1

    E[coût|X ∈ πj ] pj =m∑

    j=1

    [ m∑

    i=1

    i 6=j

    ci|j pi|j

    ]

    pj .

    Chap.4 – p. 64/76

  • Classification pour m ≥ 3 populations

    On peut alors montrer le résultat suivant:

    Théorème: la procédure de classification qui minimise le coût

    de misclassification moyen consiste à classifier x en la population

    πi pour laquellem∑

    j=1

    j 6=i

    ci|j pj fj(x)

    est minimal.

    Remarques:

    • Ceci étend bien le résultat vu pour m = 2.• Si les coûts ci|j sont égaux ou non spécifiés, la règle

    optimale classifie x en la population πi telle que

    pifi(x) = maxj{pjfj(x)}.

    Chap.4 – p. 65/76

  • Classification pour m ≥ 3 normales

    Considérons le cas où πi = Np(µi, Σi), i = 1, . . . , m, sans inclure decoûts de misclassification.

    ; Proposition: soit

    dj(x) := −1

    2ln |Σj | −

    1

    2(x − µj)′Σ−1j (x − µj) + ln pj .

    Alors la procédure de classification optimale classifie x en πi ssi

    di(x) = maxj{dj(x)}.

    Preuve: le théorème affirme qu’il est optimal de classifier x en πi

    ssi ln(pifi(x)) = maxj{ln(pjfj(x))}. Or

    ln(pjfj(x)) = ln pj −p

    2ln(2π) − 1

    2ln |Σj | −

    1

    2(x − µj)′Σ−1j (x − µj),

    ce qui établit le résultat. �

    Chap.4 – p. 66/76

  • Classification pour m ≥ 3 normales

    En pratique, on classifiera x en πi ssi

    d̂i(x) = maxj

    {d̂j(x)},

    où

    d̂j(x) := −1

    2ln |Sj | −

    1

    2(x − X̄j)′S−1j (x − X̄j) + ln pj .

    Bien entendu, X̄j et Sj désignent ici les estimateurs non biaisés

    usuels de µi et Σi calculés à partir de m échantillons indépendants

    (Xj1, . . . , Xj,nj ),

    où Xj1, . . . , Xj,nj sont i.i.d. Np(µj , Σj).

    Chap.4 – p. 67/76

  • Classification pour m ≥ 3 normales

    Dans le cas particulier où Σi = Σ pour tout i = 1, . . . , m, la règle

    de classification revient à classifier x en πi ssi di(x) = maxj{dj(x)},où

    dj(x) = −1

    2ln |Σ| − 1

    2x′Σ−1x + µ′jΣ

    −1x − 12µ′jΣ

    −1µj + ln pj ,

    ou de manière équivalente, à classifier x en πi ssi di(x) = maxj{dj(x)},où

    dj(x) := µ′jΣ

    −1x − 12µ′jΣ

    −1µj + ln pj .

    Remarque: dj(x) peut être estimé en remplaçant µj par X̄j et Σ

    par

    Spool :=(n1 − 1)S1 + (n2 − 1)S2 + . . . + (nm − 1)Sm

    n1 + n2 + . . . + nm.

    Chap.4 – p. 68/76

  • Classification pour m ≥ 3 normales

    Au niveau population, cette règle de classification revient

    encore à classifier x en πi ssi di(x) = maxj{dj(x)}, où

    dj(x) := −1

    2x′Σ−1x + µ′jΣ

    −1x − 12µ′jΣ

    −1µj + ln pj

    = −12(x − µj)′Σ−1(x − µj) + ln pj = −

    1

    2d2Σ(x, µj) + ln pj

    (intuition dans le cas pj = 1/m).

    Pour l’analogue empirique, ces nouveaux dj(x) seront bien

    entendu estimés par

    d̂j(x) := −1

    2d2Spool(x, X̄j) + ln pj .

    Chap.4 – p. 69/76

  • Exemple

    Nous considérons de nouveau le jeu de données “crabs”, qui

    reprend les valeurs de

    • 5 mesures morphologiques (en mm)(a) FL = frontal lobe size,

    (b) RW = rear width,

    (c) CL= carapace length,

    (d) CW = carapace width,

    (e) BD = body depth,

    • sur 200 crabes de l’espèce “leptograpsus variegatus”.

    Remarque: 100 crabes sont des mâles. Pour chaque sexe, la

    moitié des crabes sont de couleur orange, l’autre de couleur

    bleue.

    Chap.4 – p. 70/76

  • Exemple

    Considérons le problème de la classification sexuelle, fondée sur

    les (log des) variables FL, RW, CL et CW.

    Remarque: on a choisi d’écarter la variable BD, car celle-ci est

    en fait mesurée de manière différente sur les mâles et sur les

    femelles.

    Les matrices de variance-covariance empiriques (Sx et Sy) des

    deux groupes sont très proches, de sorte qu’il est raisonnable

    d’effectuer une analyse discriminante linéaire.

    ; il nous faut classifier en “mâle” un crabe dont les valeurs des

    variables considérées x = (x1, x2, x3, x4)′ sont telles que

    s := (X̄ − Ȳ )′S−1pool x −1

    2(X̄ − Ȳ )′S−1pool(X̄ + Ȳ ) ≥ ln

    [c1|2 p2

    c2|1 p1

    ]

    .

    Chap.4 – p. 71/76

  • Pourc1|2 p2c2|1 p1

    = 1, ceci donne 6 cas (soit 3%) d’erreurs de classification

    (crabes 10, 12, 16, 51, 54, et 55).

    M F

    M 97 3

    F 3 97

    Chap.4 – p. 72/76

  • Pourc1|2 p2c2|1 p1

    = 1.5, ceci donne 9 cas (soit 4.5%) d’erreurs de classification

    (crabes 2, 7, 10, 12, 16, 19, 44, 55 et 108).

    M F

    M 92 8

    F 1 99

    Chap.4 – p. 73/76

  • Pour une analyse discriminante quadratique (avecc1|2 p2c2|1 p1

    = 1), on

    obtient 7 cas (soit 3.5%) d’erreurs (crabes 7, 10, 12, 16, 51, 55 et 152).

    M F

    M 96 4

    F 3 97

    Chap.4 – p. 74/76

  • Sur l’estimation de la probabilité de misclassification:

    Chap.4 – p. 75/76

  • Pourc1|2 p2c2|1 p1

    = 1, le “leave-one-out” fournit 7 cas (soit 3.5%) d’erreurs

    de classification (crabes 10, 12, 16, 51, 54, 55... et 153).

    M F

    M 97 3

    F 4 96

    Chap.4 – p. 76/76

  • Pour l’analyse quadratique, le “leave-one-out” fournit 9 cas (soit 4.5%)

    d’erreurs de classification (crabes 1,7,10, 12, 16, 51, 55, 152 et 153).

    M F

    M 95 5

    F 4 96

    Chap.4 – p. 77/76

    Plan du coursMotivationD'{e}finitionCalculCalculCalculVariance expliqu'{e}eVariance expliqu'{e}eLecture des CPVersion empiriqueVersion empiriqueInf'{e}renceInf'{e}renceInf'{e}renceApproximation par des sous-espacesApproximation par des sous-espacesApproximation par des sous-espacesApproximation par des sous-espacesACP et graphesACP et graphesACP et graphesExempleACP fond'{e}e sur les corr'{e}lationsACP fond'{e}e sur les corr'{e}lationsSecond exempleConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesConsid'{e}rations g'{e}n'{e}ralesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesClassification pour deux normalesErreurs de classificationErreurs de classificationErreurs de classificationClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ populationsClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesClassification pour $mgeq 3$ normalesExempleExemple