6
Universit´ e de Caen Normandie 11 novembre 2017 Dpt. Math´ ematiques et Informatique 1 Un exemple d’analyse factorielle discriminante Sommaire 1.1 Description ................................................. 1 1.1.1 Objectifs ................................................... 1 1.1.2 Les donn´ ees .................................................. 1 1.2 Pr´ eparation des donn´ ees ......................................... 1 1.3 Proc DISCRIM .............................................. 2 1.4 Mod` ele statistique ............................................. 2 1.4.1 Mod` ele vectoriel gaussien du couple (an, ao) connaissant le groupe ................... 3 1.4.2 Mod` ele al´ eatoire du triplet (an, ao, g) ................................... 4 1.5 Les r´ egions de d´ ecision .......................................... 5 1.6 Compl´ ements ................................................ 6 1.1 Description 1.1.1 Objectifs On mod´ elise dans cet exercice les m´ elanges de gaussiennes, on utilisera en particulier des variables al´ eatoires vectorielles gaussiennes. 1.1.2 Les donn´ ees Cette base de donn´ ees extraite de l’ouvrage du Professeur Michael Falk [Falk et al.(2002)Falk, Marohn, and Tewesetudie un aspect de la d´ eg´ en´ er´ ecence du syst` eme nerveux central : le vieillissement. Elle est constitu´ ee de 98 r´ esultats de comptage de cellules de biopsie de cerveau humain. Les patients sont class´ es en cinq groupes : 1 le groupe ayant la maladie d’alzheimer, 2 le groupe des d´ emences frontales de Pick (d´ esordre moteur, trouble du comportement, agressivit´ e) 3 le groupe des s´ eniles, qui a ´ et´ e depuis d´ ecoup´ e en d’autres sous-groupes. 4 un groupe de personnes saines ag´ ees de 50 ` a 60 ans. 5 un groupe de personnes saines ag´ ees de plus de 61 ans. Les donn´ ees sont appel´ ees CNS comme abbr´ eviation de ”Central Nervous System”. Ces donn´ ees ont ´ et´ etudi´ ees par Lauter et Pincus en 1989. Voici la description des variables : no num´ ero de l’observation groupe groupe du patient an rapport du nombre d’astrocytes et du nombre de neurones on rapport du nombre d’oligodendrocyte et du nombre de neurones mn rapport du nombre de cellules microgliales sur le nombre de celules gliales gn rapport du nombre de cellules gliales et du nombre de neuronnes ao rapport du nombre d’astrocytes et du nombre de neurones statut sain/malade Table 1 – Catalogue des variables Le fichier de donn´ ees contient 98+1 lignes et est disponible au format texte : Data https://kauffmann.users.lmno.cnrs.fr/data/cns.csv ef´ erences [Falk et al.(2002)Falk, Marohn, and Tewes] Michael Falk, Frank Marohn, and Bernward Tewes. Foundations of statistical Analyses and Applications with SAS. Birkhauser Verlag, 2002. 1.1.2 https://kauffmann.users.lmno.cnrs.fr/ 1 francois.kauff[email protected]

1 Un exemple d’analyse factorielle discriminante · 1 Un exemple d’analyse factorielle discriminante ... 7.Dans cette question, on va cr eer troistables d’annotationsqui permettent

  • Upload
    others

  • View
    11

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 Un exemple d’analyse factorielle discriminante · 1 Un exemple d’analyse factorielle discriminante ... 7.Dans cette question, on va cr eer troistables d’annotationsqui permettent

Universite de Caen Normandie 11 novembre 2017 Dpt. Mathematiques et Informatique

1 Un exemple d’analyse factorielle discriminante

Sommaire1.1 Description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2 Les donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Preparation des donnees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Proc DISCRIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4 Modele statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4.1 Modele vectoriel gaussien du couple (an, ao) connaissant le groupe . . . . . . . . . . . . . . . . . . . 3

1.4.2 Modele aleatoire du triplet (an, ao, g) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.5 Les regions de decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.6 Complements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1 Description

1.1.1 Objectifs

On modelise dans cet exercice les melanges de gaussiennes, on utilisera en particulier des variablesaleatoires vectorielles gaussiennes.

1.1.2 Les donnees

Cette base de donnees extraite de l’ouvrage du Professeur Michael Falk [Falk et al.(2002)Falk, Marohn, and Tewes] etudieun aspect de la degenerecence du systeme nerveux central : le vieillissement. Elle est constituee de 98 resultats de comptagede cellules de biopsie de cerveau humain. Les patients sont classes en cinq groupes :

1 le groupe ayant la maladie d’alzheimer,

2 le groupe des demences frontales de Pick (desordre moteur, trouble du comportement, agressivite)

3 le groupe des seniles, qui a ete depuis decoupe en d’autres sous-groupes.

4 un groupe de personnes saines agees de 50 a 60 ans.

5 un groupe de personnes saines agees de plus de 61 ans.

Les donnees sont appelees CNS comme abbreviation de ”Central Nervous System”. Ces donnees ont ete etudiees par Lauteret Pincus en 1989. Voici la description des variables :

no numero de l’observationgroupe groupe du patientan rapport du nombre d’astrocytes et du nombre de neuroneson rapport du nombre d’oligodendrocyte et du nombre de neuronesmn rapport du nombre de cellules microgliales sur le nombre de celules glialesgn rapport du nombre de cellules gliales et du nombre de neuronnesao rapport du nombre d’astrocytes et du nombre de neuronesstatut sain/malade

Table 1 – Catalogue des variables

Le fichier de donnees contient 98+1 lignes et est disponible au format texte :

Data https://kauffmann.users.lmno.cnrs.fr/data/cns.csv

References

[Falk et al.(2002)Falk, Marohn, and Tewes] Michael Falk, Frank Marohn, and Bernward Tewes. Foundations of statisticalAnalyses and Applications with SAS. Birkhauser Verlag, 2002. 1.1.2

https://kauffmann.users.lmno.cnrs.fr/ 1 [email protected]

Page 2: 1 Un exemple d’analyse factorielle discriminante · 1 Un exemple d’analyse factorielle discriminante ... 7.Dans cette question, on va cr eer troistables d’annotationsqui permettent

Universite de Caen Normandie 11 novembre 2017 Dpt. Mathematiques et Informatique

1.2 Preparation des donnees

1. Creer un repertoire pour cette etude, telecharger le fichier de donnees, et le fichierhttps://kauffmann.users.lmno.cnrs.fr/cours/sas/macros.sas.

2. Creez un nouveau projet SEG.

3. Importez les donnees, on verifiera que la variable groupe est de type numerique.

4. A l’aide du generateur de requetes, selectionnez la variable groupe dans la table de sortie, puis creez des variablesagregees correspondants aux moyennes des variables quantitatives an,on, mn,gn, ao. Les moyennes d’appelerontan.mean,on.mean, mn.mean,gn.mean, ao.mean. La table resultat s’appelera MOYENNE.

5. A l’aide d’une requete

(a) faire une jointure des deux tables CNS et MOYENNE a groupe contant

(b) puis calculer les variables centrees par groupes anc,onc, mnc,gnc, aoc. Par exemple anc=an-an.mean. La tableresultat s’appelera X.

6. Dans cette question, on cree une table d’individus fictifs dont les valeurs an, ao sont regulierement espaces dans[1.1, 6]× [0.4, 9.10] a l’aide du programme suivant

data work.grille;

do an=1.1 to 6 by .05;

do ao=0.4 to 9.10 by 0.1;

output;

end;

end;

run;

On veut predire pour chacun de ces individus fictifs, la classe a la quelle il pourrait appartenir.

7. Dans cette question, on va creer trois tables d’annotations qui permettent d’ajouter a des graphes d’autres elementsgraphiques.

(a) A l’aide d’un programme definir les macros instructions definies dans le fichier MACROS.SAS, en remplacant le nomdu fichier.

%include "C:\Users\kauffmann\francois\SAS\macros.sas";

On peut aussi inclure une url

filename macrosfk url "\WWWFK/cours/sas/macros.sas";

%include macrosfk;

(b) Dans cette question on cree les trois tables d’annotations CNS_ANNO, MOYENNE_ANNO, ANNO. La premiere tableajoute une croix pour chaque individu dans le plan (x=an,y=a0) : il faut faire attention a l’ordre. La secondetable ajoute un cercle en chacun des centres de gravites ds groupes. la troisieme ajoute les deux elements ensemble.

%TEXT(data=X,x=an,y=aO,function=label,text=group);

%TEXT(DATA=moyenne,x=an.mean,y=ao.mean,function=symbol,text="circle",size=2);

data anno;

/* pb taille char function */

set moyenne_anno X_anno;

run;

1.3 Proc DISCRIM

Dans cette partie on va construire un modele permettant de predire la classe d’un individu en ne connaissant que an

et aO. Le principal travail est de definir des noms de tables simples. A partir de la table X et du menu Analyser/Analyse

multivariees/Analyse discriminante realiser une analyse discriminante lineaire. Les options choisies sont :

Donnees Les variables d’analyse ( explicatives ) sont an, ao, la variable de classification ( a expliquer) est group, on peutchoisir le libelle d’identification id.

Options On choisi les options Resultats de syntheses de la validation croisee, afficher les resultats de la

validation croisee

Classifier les nouvelles donnees Les nouvelles donnees a classer s’appeleront WORK.GRILLE. Ce sont nos individus fictifs.La table de sortie de classification pour les nouvelles donnees s’appelera WORK.DISCR_GRILLE_CLASSIF, la table desortie pour les estimations de densite de groupe WORK. DISCR_GRILLE_DENSITE.

Resultats La table Probabilites a posteriori et classification s’appelera WORK.DISC_P. Cette table contiendra les resultatsrelatifs aux individus de l’etude.

Etudiez la matrice de confusion : tableau de contingence croisant les groupes observes et les groupes estimes.

https://kauffmann.users.lmno.cnrs.fr/ 2 [email protected]

Page 3: 1 Un exemple d’analyse factorielle discriminante · 1 Un exemple d’analyse factorielle discriminante ... 7.Dans cette question, on va cr eer troistables d’annotationsqui permettent

Universite de Caen Normandie 11 novembre 2017 Dpt. Mathematiques et Informatique

1.4 Modele statistique

On veut estimer a partir d’une mesures des rapports (an, ao) le groupe de k ∈ G = {1, 2, 3, 4, 5} de cette personne. Onva utiliser un modele aleatoire du triplet (an, ao, g) ∈ R×R× G. On va modeliser xi = (ani, aoi)

′ par une variable aleatoirevectorielle X(ω) et gi par une variable aleatoire G(ω) discrete a valeurs dans G.

1.4.1 Modele vectoriel gaussien du couple (an, ao) connaissant le groupe

On modelise le couple de variables numeriques x = (an, ao) ∈ R2 pour une personne du groupe g par un vecteur aleatoiregaussien de moyenne µg et de matrice de covariance Σ.

X(ω) =

(AN(ω)A0(ω)

)∈ N (µg,Σ)

de densite pour le groupe g, avec p = dim(x) = 2

fg(x) =1

(2π)p/2det(Σ)1/2exp

(−1

2(x− µg)′Σ−1(x− µg)

)Les parametres de ce modele sont le vecteur moyenne µg et la matrice de covariance Σ.

µg peut etre estime par la moyenne des observations pour les individus du groupe g. Soit n le nombre d’individus totalobserves, ici n = 92 et ng le nombre d’individus observes du groupe g.

µg =1

ng

∑i/groupe=g

xi

La matrice de covariance peut etre estimee a l’aide des donnees centrees par groupe : soit i un individu du groupe g , onpose yi = xi − µg, puis en posant Y = (y1, · · · , yn)′

Σ =1

n− 1Y ′Y

Il faut noter que le −1 de n− 1 est une option, qui est generallement dependante des logiciels.

1. Quel est la moyenne des variables an et on pour le premier groupe. Donnez µ1.

2. Calculer un volume de confiance de niveau 95 % avec l’hypothese gaussienne des variables centrees par groupes anc,

aoc de la table X grace au menu Graphique/Matrice nuage de points.

Figure 1 – Scatter plot des observations dans le plan y = (anc, aoc)′

3. Calculer la matrice Σ ainsi qu’un volume de confiance de niveau 95% dans le plan y = (anc, aoc)′ grace au menuAnalyser/ Analyse multivariee/ Correlations.

https://kauffmann.users.lmno.cnrs.fr/ 3 [email protected]

Page 4: 1 Un exemple d’analyse factorielle discriminante · 1 Un exemple d’analyse factorielle discriminante ... 7.Dans cette question, on va cr eer troistables d’annotationsqui permettent

Universite de Caen Normandie 11 novembre 2017 Dpt. Mathematiques et Informatique

Figure 2 – Correlation dans le plan y = (anc, aoc)′

4. A partir de la table ”Estimations de densites pour les donnees tests” DISCR_GRILLE_DENSITE, tracez en 3D, la den-site conditionnelle du modele gaussien des observations (an, ao) dans le cas du premier groupe grace au menu Gra-

phique/Surface :

f :

{R2 → Rx = (an, ao) 7−→ fg(x)

Figure 3 – Correlation dans le plan y = (anc, aoc)′

Donnez une approximation du point ou est maximum cette densite.

5. A partir de la meme table tracez des courbes de niveaux des cinq densites sachant chacun des groupes.

https://kauffmann.users.lmno.cnrs.fr/ 4 [email protected]

Page 5: 1 Un exemple d’analyse factorielle discriminante · 1 Un exemple d’analyse factorielle discriminante ... 7.Dans cette question, on va cr eer troistables d’annotationsqui permettent

Universite de Caen Normandie 11 novembre 2017 Dpt. Mathematiques et Informatique

Table 2 – Lignes de niveaux des densites du modele de (an, ao) sachant le groupe

Donnez la transformation geometrique qui transforme les lignes de niveaux d’un groupe a un autre groupe. Verifiezgraphiquement que les lignes de niveaux a meme niveau sont isometriques, expliquez.

1.4.2 Modele aleatoire du triplet (an, ao, g)

On note ∀g ∈ G, πg = Pr([G = g]). On veut modeliser le fait que la population est un melange des 5 groupes ayant desfrequences π1, π2, · · · , π5. Dans chacun des groupes (an, ao) est modelise par N (µg,Σ). Une possibilite est de dire qu’uneobservation (an, ao) est modelisee par

Y (w) =∑g∈G

Ig(G(w))Yg(w)

avec

G variable aleatoire discrete a valeurs dans G dite de selection de groupe : elle indique le numero du groupe.

Yg variables aleatoires vectorielles gaussiennes de moyenne µg et de matrice de covariance Σ.

Ig(G(w)) variable indicatrice du groupe : elle vaut 1 si G(w) = g et elle est nulle sinon.

On peut alors verifier que Y a une densite dite non conditionnelle sur R2

f(x) =∑g∈G

πgfg(x)

que la ”densite” jointe de (X,G) est

p :

{(R2 ×G → R(x, g) 7−→ πgfg(x)

On deduit alors la distribution a posteriori P (G = g | X = x) a une densite

πgfg(x)

f(x)

Le groupe estime est alors defini comme etant le plus probable sachant x.

g(x) = Argmaxg∈GP (G = g | X = x)

Le groupe estime est donc celui qui maximise les nombres πgfg(x) pour g ∈ G.

https://kauffmann.users.lmno.cnrs.fr/ 5 [email protected]

Page 6: 1 Un exemple d’analyse factorielle discriminante · 1 Un exemple d’analyse factorielle discriminante ... 7.Dans cette question, on va cr eer troistables d’annotationsqui permettent

Universite de Caen Normandie 11 novembre 2017 Dpt. Mathematiques et Informatique

1. Dans toute la suite on supposera que les groupes sont equiprobables (defaut dans SAS) :πg = 15 . Calculer la densite non

conditionnelle f(x) connaissant x = (an, ao). La table DISCR_GRILLE_DENSITE contient pour chaque point x = (an, ao)de la grille, les valeurs des densites fg(x).

Figure 4 – Densite non conditionnelle f(x = (an, ao))

2. De meme calculer pour chacun des points x = (an, ao) de la grille la probabilite a priori que G = 1. Verifiez vosresultats avec la table DISCR_GRILLE_CLASSIF.

3. Quelles sont les probabilites a priori d’appartenir a chacun des groupes 1,2,... 5 pour une observation x = (an =1.1, ao = 5.8) quel est le groupe estime ? Est ce que ce choix semble raisonable ?

1.5 Les regions de decision

Dans cette question, on construit une representation graphique 2d des regles de decision de la analyse discriminante. Enrealisant une representation graphique des regions du plan ou le groupe estime est constant a l’aide du programme :

title "Region plan (ao,an) alzheimer";

proc gcontour data=work.DISCR_GRILLE_CLASSIF;

plot aO*an=_INTO_ / PATTERN annotate=WORK.anno;

run;

Figure 5 – Regions ou le groupe estime est constant

Decrire les frontieres des regions.

1.6 Complements

1. Etudier l’impact de groupes non equiprobables.

2. La procedure DISCRIM permet d’avoir des matrices de covariances estimees par groupe, donnez des avantages et desinconvenients de cette methode.

References

[Falk et al.(2002)Falk, Marohn, and Tewes] Michael Falk, Frank Marohn, and Bernward Tewes. Foundations of statisticalAnalyses and Applications with SAS. Birkhauser Verlag, 2002. 1.1.2

https://kauffmann.users.lmno.cnrs.fr/ 6 [email protected]