13
L’Analyse Factorielle des Correspondances (AFC) P.M. Bousquet IUT P.M. Bousquet (IUT) Data Mining (Fouille de donn´ ees) 1/9

L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

  • Upload
    others

  • View
    1

  • Download
    1

Embed Size (px)

Citation preview

Page 1: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

L’Analyse Factorielle des Correspondances (AFC)

P.M. Bousquet

IUT

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 1 / 9

Page 2: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 2 / 9

Page 3: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

Deux variables qualitatives (non numériques)à nombre de modalités fini.

Y a t-il une relation entre ces deux variables ?

... corrélation ? Non. Variables numériques seulement.

Y a t-il une relation entre certaines modalitésde la variable 1 et certaines de la variable 2 ?

Ex. :... Ouvrier qualifié et Télévision ?... Cadre supérieur et Quotidiens nationaux ?

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 2 / 9

Page 4: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

variables

individusmodalités

Trouver des sur-effectifs significatifsd'individus simultanément - d'une modalité de la variable 1 et - d'une modalité de la variable 2

Ex. : des cadres supérieurs qui lisent lesquotidiens nationaux ...

Mais aussi :Trouver des sous-effectifs significatifsetc ....

On ne parle pas de corrélations,mais de correspondances.

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 2 / 9

Page 5: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Problematique

CSP multimedia

1 Ouvrier n-q Tel

2 Inactif Quot

3 Employe Radio

4 Inactif Radio

5 Ouvrier qual P_TV

6 Inactif Tel

7 Ouvrier n-q Tel

8 Agriculteur R_P_Mag

9 Prof. Cad. S. Radio

10 Agriculteur Radio

...

12385 Petit patron Quot_N

12387 Ouvrier qual Quot

12388 Inactif Tel

Q1 : quelle est votre catégorie socio-professionnelle ?Q2 : quel est votre média préféré ?

P_TV Presse TV, Quot Quotidiens régionaux,Quot_N Quotidiens nationaux,R_P_Mag Revues de presse et magazinesTel Télévision

variables

individusmodalités

Trouver des sur-effectifs significatifsd'individus simultanément - d'une modalité de la variable 1 et - d'une modalité de la variable 2

Ex. : des cadres supérieurs qui lisent lesquotidiens nationaux ...

Mais aussi :Trouver des sous-effectifs significatifsetc ....

On ne parle pas de corrélations,mais de correspondances.

Domaines d’application ... tous mais l’AFCa été créée pour les sciences humaines ...

psychologie, anthropologie,histoire, linguistique,sociologie, communicationmarketing, ...

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 2 / 9

Page 6: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Solution proposee : technique de type ACP(extraction d’axes principaux et projection ...)

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 3 / 9

ACP sur fichier passé en disjonctif ?

CSP multimedia

1 0 0 0 1 0 0 0 0 0 0 0 0 0 12 0 0 1 0 0 0 0 0 0 1 0 0 0 03 0 1 0 0 0 0 0 0 0 0 0 1 0 04 0 0 1 0 0 0 0 0 0 0 0 1 0 05 0 0 0 0 1 0 0 0 1 0 0 0 0 06 0 0 1 0 0 0 0 0 0 0 0 0 0 17 0 0 0 1 0 0 0 0 0 0 0 0 0 18 1 0 0 0 0 0 0 0 0 0 0 0 1 09 0 0 0 0 0 0 1 0 0 0 0 1 0 010 1 0 0 0 0 0 0 0 0 0 0 1 0 0(...)12387 1 0 0 0 0 0 0 0 0 0 0 1 0 012388 1 0 0 0 0 0 0 0 0 0 0 1 0 0

Agricu

lteur

Emplo

ye

Inac

tif

Ouvrie

r n-q

Ouvrie

r qua

l

Petit p

atro

n

Prof.

Cad. S

.

Prof.

inter

m

P_TV

Quot

Quot_

N

Radio

R_P_M

ag

Tel

Page 7: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Solution proposee : technique de type ACP(extraction d’axes principaux et projection ...)

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 3 / 9

?

L'ACP sur disjonctifest inadaptée

à ce problème ...

Page 8: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

La solution AFC

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 4 / 9

P_TV Quot Quot_N Radio R_P_Mag Tel ∑Agriculteur 17 71 2 96 50 118 354Employe 306 217 57 511 172 593 1856Inactif 782 852 181 1474 642 1931 5862Ouvrier n-q 85 69 8 156 42 185 545Ouvrier qual 220 174 42 385 104 457 1382Petit patron 41 76 11 122 49 136 435Prof. Cad. S. 79 63 74 193 103 184 696Prof. interm 184 145 63 360 141 365 1258

∑ 1714 1667 438 3297 1303 3969 12388

P_TV Quot Quot_N Radio R_P_Mag Tel ∑Agriculteur 17 71 2 96 50 118 2,9%Employe 306 217 57 511 172 593 15,0%Inactif 782 852 181 1474 642 1931 47,3%Ouvrier n-q 85 69 8 156 42 185 4,4%Ouvrier qual 220 174 42 385 104 457 11,2%Petit patron 41 76 11 122 49 136 3,5%Prof. Cad. S. 79 63 74 193 103 184 5,6%Prof. interm 184 145 63 360 141 365 10,2%

∑ 13,8% 13,5% 3,5% 26,6% 10,5% 32,0% 100%

Y a t-il un sur-effectif significatif d'ouvriers qualifiés qui préférent la radio ?

367,8 (= effectif si indépendance)

J.P. Benzecri (1960) : extraction de facteurs principaux à partir du tableau de contingence

11.2 % de 26.6 % des 12388 valeurs =

Page 9: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

La solution AFC

Remplacer la maximisation de la variance des projetes suivant la distanceeuclidienne par la distance induite par la metrique du χ2.

On note i1 et i2 deux modalites-lignes. Alors la distance entre i1 et i2 est egale a :

d(i1, i2) =

√√√√√√∑j

(fi1,jfi1,∗− fi2,j

fi2,∗)2

f∗,j

ou

fi1,j frequence de (modalite-ligne i1 , modalite-colonne j )

fi2,j frequence de (modalite-ligne i2 , modalite-colonne j )

fi1,∗ somme des frequences de la ligne i1 (= frequence de la modalite-ligne i1)

fi2,∗ somme des frequences de la ligne i2 (= frequence de la modalite-ligne i2)

f∗,j somme des frequences de la colonne j (= frequence de lamodalite-colonne j)

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 5 / 9

Page 10: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

La solution AFC

L’inertie totale (... variance ...) du nuage de point est :

In.d.p. =∑i

∑j

(fij − fi∗f∗j)2

fi∗f∗j

En fait l’inertie est le quotient du χ2 par le nombre d’individus

In.d.p. =χ2

n

In.d.p. = 0 si pour tout i , j on a fij = fi∗f∗j

cas d’independance = le n.d.p. de l’AFC se retrouve concentre en un seul point

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 6 / 9

Page 11: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Interpretation de l’AFC

L’AFC peut produire des vues ...

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 7 / 9

Page 12: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Interpretation de l’AFC

... mais seules certaines proximites sont significatives ...

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 8 / 9

Page 13: L’Analyse Factorielle des Correspondances (AFC)...Quot_ N Quotidiens nationaux, R_ P_ Mag Revues de presse et magazines Tel Télévision variables individus modalité s T rouv ed

Interpretation de l’AFC

→ necessite d’extraire les correspondances a partir d’un tableau d’interpretation ...

Tableau d'interprétation

poids rel. CTR inertie axe 1 CTR COS2 QLT axe 2 CTR COS2 QLT

Agriculteur 2,86 15,29 1,41 5,7 0,22 0,22 -3,65 38 0,78 1

Employe 14,98 1,28 0,13 0,3 0,03 0,03 1,12 18,9 0,97 1

Inactif 47,32 0,23 0,28 3,6 0,49 0,49 -0,39 7,3 0,51 1

Ouvrier n-q 4,4 2,25 1 4,4 0,61 0,61 1,12 5,5 0,39 1

Ouvrier qual 11,16 1,56 0,37 1,5 0,16 0,16 1,19 15,9 0,84 1

Petit patron 3,51 3,18 0,58 1,2 0,19 0,19 -1,69 10 0,81 1

Prof. Cad. S. 5,62 13,86 -3,65 75 0,98 0,98 -0,72 2,9 0,02 1

Prof. interm 10,15 0,97 -0,91 8,3 0,91 0,91 0,38 1,5 0,09 1

poids rel. CTR inertie axe 1 CTR COS2 QLT axe 2 CTR COS2 QLT

P_TV 13,84 3,63 0,08 0,1 0 0 1,9 50,1 1 1

Quot 13,46 2,52 0,92 11,5 0,5 0,5 -1,29 22,4 0,5 1

Quot_N 3,54 21,1 -4,59 74,6 1 1 -0,07 0 0 1

Radio 26,61 0,08 -0,13 0,4 0,31 0,31 0,26 1,8 0,69 1

R_P_Mag 10,52 3,08 -0,81 6,8 0,34 0,34 -1,56 25,6 0,66 1

Tel 32,04 0,21 0,45 6,6 1 1 0,02 0 0 1

P.M. Bousquet (IUT) Data Mining (Fouille de donnees) 9 / 9