Master MARKETING / Pierre Desmet 1 Analyses factorielles exploratoires Pierre DESMET Analyse des données appliquée au marketing

Master MARKETING / Pierre Desmet 1

Analyses factoriellesexploratoires

Pierre DESMET

Analyse des donnéesappliquée au marketing

2 SommaireSommaire© Pierre DESMET

ANALYSES FACTORIELLES

Principe et Intérêt

Méthodes Analyse en composantes principales Analyse factorielle (en facteurs communs et spécifiques) Analyse factorielle des correspondances

Simples Multiples

Information de base La matrice des variances-covariances

Ressources Exemples de graphiques plot : http://support.sas.com/sassamples/graphgallery

/PROC_GPLOT.html

http://support.sas.com/sassamples/graphgallery/PROC_GPLOT.html









Intérêt de l’analyse factorielle

Les variables sont rarement indépendantes les unes des autres

L’information sur leurs relations (linéaires) est contenue Dans la matrice de variance-covariance Dans la matrice des corrélations (si les variables standardisées)

On va chercher A étudier des variables qui ont quelque chose en commun A réduire l’espace des variables (sans perdre trop d’information) A trouver des « facteurs » sous-jacents qui restituent la plus grande partie de

l’information À interpréter ces facteurs en fonction de la contribution des variables à leur

constitution A identifier les variables qui sont mal représentées

Par la famille des méthodes d’analyse factorielle

Utilisable aussi pour extraire la colinéarité de variables avant une régression


Les différentes méthodes

Les méthodes appliquées aux distances Les données brutes :

Des variables quantitatives (analyse factorielle) : Distance euclidienne

Des comptages/fréquences (analyse des correspondances) : Distance du khi2 : surpondère les modalités rares

On cherche à retrouver toute l’information initiale (AF exploratoire) Analyse en composantes principales

Les méthodes appliquées aux similarités (dissimilarités)

Ne pas confondre avec les analyses factorielles confirmatoires Qui supposent une structure théorique d’hypothèses « à valider » Prennent en compte les aléas

Dans la mesure Dans les relations

Méthodes : Analyse en facteurs communs et spécifiques, PLS,…


Un grand classique : Image et positionnement

« Positionnement » des marques dans un espace selon les perceptions des usages, des attributs symboliques, des clients types…

Démarche active consistant à déplacer par des actions marketing l’image de la marque vers une « position » décidée dans l’espace perceptuel des clients

Recherche D’une description de l’état actuel des perceptions des marques Mais permettant aussi de placer le centre de gravité de groupes de clients

selon leurs préférences pour les marques

Il faut obtenir Des distances inter-marques [D] Des évaluations marques x perceptions [E] Des préférences sur les marques [P]

Cela permet de guider les évolutions du mix pour « différencier » la marque de ses concurrents La rapprocher des attentes d’un segment cible

Difficultés : faut-il forcer les clients à évaluer les marques sur des dimensions particulières

(oubli de dimensions importantes ?) Démarche [D] -> [E] ou [E] -> D


Analyse en composantes principales (ACP)

Life is short, play hard

QUITTERQUITTER>>


« Résumer » l’information en minimisant la perte d’information (Présentation graphique)

Création d’une variable « composite » : une combinaison LINEAIRE des variables initiales

L’information est contenue dans la matrice de var-Vovar (ou corrélations)

Décomposition de l'inertie d'un nuage de points en variation axiale (VA) sur un axe passant par le centre de gravité et en variation orthogonale (VO).

VT=VO+VA =Mi.G2= (Mi.mi)2 +(mi.G)2

précision de la configuration % inertie expliquée = VA / VT

• M1

m2

m1

• M2

• G

A2

A1

a12- a22-

a21 a11

(3)

(2)

F1(1)


Procédure pour une analyse factorielle

Formulation du problème

Calcul de la matrice de corrélation

Test de l’intérêt d’une analyse factorielle

Choix de la méthode

Détermination du nombre de facteurs

Rotation éventuelle des facteurs

Interprétation des axes factoriels

Calcul des scores factoriels

Détermination de la qualité de l'ajustement


Formulation du problème

Etape clé !

Choisir les variables de l’on veut synthétiser Elles doivent avoir quelque chose en commun

Choisir l’information que l’on veut synthétiser

L’information brute apportée par les variables (COV) La dispersion de leurs réponses Leur relation linéaire Le poids d’une variable dépend de sa variance Étudier la matrice de variance-Covariance

La corrélation linéaire entre les variables (CORR) La dispersion de chaque variable est ramenée à 1 Toutes les variables ont donc la même importance Étudier la matrice des Corrélations


Exemple Cas Créative (écart-type)

proc corr data =in ; var q27 q28 q29 q31 q30 q32 q33; run ;


Exemple Créative : Corrélations

Séparer les variables de description : Q27, Q28, Q29, Q31 Des variables d’appréciation : Q30, Q32, Q33


Exemple Créative : corrélations partielles


Les tests préalables en AF

Toutes les variables ont-elles une place dans l’analyse factorielle ?

Peut-être que NON si elles ne partagent pas un minimum de corrélation Si elles sont mal représentées dans l’espace choisi (nombre d’axes

gardés)

Test de Bartlett : Test de sphéricité de la matrice Var-Covar H0 : la matrice de corrélation n’a que des 1 en diagonale et 0 ailleurs (Donc les

variables ne sont pas corrélées) C’est un test du Khi2. Si Khi2 calculé > Khi2 critique : rejet de H0

Test de Kaiser-Meyer-Olkin (KMO) (0<<1) Etude des corrélations (partielles) entre 2 variables, non expliquées par l’effet

des autres variables (ie. par un facteur sous-jacent) KMO = ratio de la somme des corrélations multiples sur la somme des

corrélations multiples et partielles. Le KMO doit être le plus grand possible :

moyen si > 0.7; inacceptable si <0.5

Indice MSA (measure of sample adequacy) (0<<1) Même approche que le KMO mais variable par variable Enlever les variables ayant un MSA < 0.5


Analyse factorielle

Facteur = combinaison linéaire des variables F(i) = w1X1i+ w2X2i+ w3X3i+ w4X4i

w = score factoriel

X1(i)= a1F1i+ a2F2i+ a3F3i+ a4F4i+ a5(facteur spécifique)i

Extraction des vecteurs propres (Ui) et des valeurs propres () de la matrice de variance covariance (V)

[V-.I].Ui=0 La valeur propre représente la variance expliquée par un facteur La trace de la matrice V est la somme des variances

Si on utilise les corrélations, la somme vaut J variables % d’inertie reconstituée : le ratio de la valeur propre, ou de la somme des

valeurs propres du plan, sur la trace (total des valeurs propres)


AF en composantes principales (ACP)

C’est une analyse NON symétrique, descriptive / exploratoire : Les « variables » sont en colonnes Les « individus » en lignes

Variables : des valeurs numériques de n individus sur p variables Puis calcul de la matrice de variance-covariance [V] Puis, éventuellement, des corrélations [C] (variance=1)

On cherche à reconstituer (avec la moindre perte d’information) les relations entre les variables (covariances / corrélations) ET les variances des variables

Par un nombre réduit de facteurs orthogonaux les composantes principales

Standardisation éventuelle au préalable (variance ou corrélation)

Matrices : [ Ind x Var ] -> [ Var x Var] [V] -> [C]


Lecture des résultats

les composantes sont orthogonales

extraites par ordre d'importance décroissante

seules les premières sont gardées (max J)

% d'inertie expliquée par le facteur

Contribution d'une variable à un axe

Factor loading : corrélation variable et facteur (matrice factorielle)

Communalités : % de variance extraite par les facteurs retenus

scores factoriels : nouvelles variables pour les objets étudiés


Choix du nombre de facteurs

Combien de facteurs faut-il retenir ? Détermination a priori Règle de Kaiser : Garder les facteurs dont la valeur propre () > 1

Car si les valeurs sont standardisées, la variance de chaque variable est 1 Adapté pour 10-30 variables, si n <10 en conserve trop peu (trop si >30)

Test du coude (scree test, Test de Cattell) retenir les facteurs dont la valeur propre se situe avant la cassure du

« coude » (le début de la pente faible) Ok si n>250 et communauté >0.6 Garde souvent moins d’axes que Kaiser

% de variance reconstituée : s’il est trop faible, la représentation est trop déformée Un minimum de 60% est souhaitable

Test-retest : découper l’échantillon et faire deux fois l’analyse garder la structure commune observée dans les deux analyses

La difficulté d’interprétation des espaces supérieurs à 3 dimensions multiplie la difficulté de l’analyse (plans 1x2, 1x3, 2x3 etc)

Plus sur les règles http://www.stat.sc.edu/~habing/courses/530EFA.pdf

http://www.stat.sc.edu/~habing/courses/530EFA.pdf


Exemple Créative

ods graphics on ;proc factor data=in MSA COV /* ou CORR */

method=principal nfactors=2rotate=varimax out= out_factoroutstat= factor_statplots=all ;

var q27 q28 q29 q31 ; run ;proc print data=factor_stat ; run ;

Plutôt 1 axe

Mais 2 car la reconstitutionest insuffisante


Quelle est la signification d’un axe ?

Les composantes sont des combinaisons linéaires des variables Orthogonales (non corrélées entre elles) Extraites par ordre d'importance décroissante Seules les premières sont gardées (max J) :

il y a donc perte d’information

2 visions : celle du facteur et celle de la variable F(i) = w1x1i+ w2x2i+ w3x3i+ w4x4i

w = score factoriel, nouvelles variables pour les lignes (individus) X1(i)= a1F1i+ a2F2i+ a3F3i+ a4F4i+ a5(facteur spécifique)i

La signification d’un axe est donnée par les variables qui contribuent le plus à cet axe (en positif et en négatif) sans contribuer aussi à d’autres axes

Éventuellement après rotation


Saturation et Contribution

Factor loading : (saturation) -> le facteur Corrélation d’une variable et d’un facteur Pour interpréter un facteur par les variables qui lui sont le plus corrélées Contribution = (saturation)**2 = variance d’une variable restituée par un

facteur La somme des contributions pour un facteur donne la variance du facteur

(valeur propre)


Communalité (communauté) et Représentation

Communalité (communauté) -> la variable Qualité de reconstitution d’une variable (max 1 =100%) % de variance d’une variable extraite (reconstituée) par tous les facteurs

retenus Dépend du nombre d’axes retenus

Un espace des variables inscrit dans un cercle de corrélations (-1;+1)

Plus la variable est proche du cercle, mieux elle est représentée Plus la variable est proche du facteur, plus elle y contribue Une variable est un vecteur (une flèche) qui part du centre et pointe vers la

position de la variable (et plus loin….) Une variable proche du centre est mal représentée dans cet espace


Exemple Créative

Est-ce que Q28 contribue plus au facteur 1 ou au facteur 2 ?

Est-ce que Q27 est mieux représentée que Q28 ?


Faciliter l’interprétation par la rotation des axes factoriels

Il est possible de “faire tourner” le système d’axes factoriels En modifiant la relation variable-axe Sans changer la part de l’inertie totale reconstituée Mais en modifiant l’inertie reconstituée par chaque axe

Les rotations sont Orthogonales ou Obliques Les rotations orthogonales se font selon le critère que l’on choisit de maximiser VARIMAX (axe): critère Max saturation sur un seul facteur. Maximiser la

corrélation avec un axe unique et réduire la corrélation avec les autres axes => clarifier l’interprétation des axes (peu de variables)

QUARTIMAX (variable): Réduire le nombre de facteurs permettant de reconstituer une variable

Les rotations obliques supposent que les facteurs sont reliés entre eux (OBLIMIN)

!!! Difficile à interpréter correctement


Un espace des individus

Un espace des individus Qui ne peut être superposé à celui des variables Qui peut faire l’objet d’une typologie Les coordonnées sur les axes sont sauvées en variables supplémentaires

(Fact_1,…)

On n’interprète pas la proximité Individu (point) x Variable (vecteur)

Car la position de la variable correspond à un vecteur (dont l’origine est le centre)

On peut interpréter la projection des individus sur l’axe d’une variable

On peut essayer de comprendre les différences de perception et leur source

Ici Q0303 : notoriété spontanée non/oui

proc gplot data=out_factor ; plot factor1*factor2; run ;proc gplot data=out_factor ; plot factor1*factor2=q0303;

run ;


Placer les barycentres selon une variable

proc tabulate data=out_factor ;class q0303 ;var factor1 factor2 ;table q0303, n (factor1 factor2)*(mean) ;format q0303 FouinspX. ;title3 "factor1= Valeur - factor2 = Prix";run ;

proc sort data=out_factor ;by q0303; run ;

proc means data=out_factor ;by q0303 ;var factor1 factor2 ;output out = out_means mean=mean_f1 mean_f2;run ;

proc print data=out_means ; run ;data out_means ; set out_means;label mean_f1="valeur perçue"

mean_f2="prix";proc gplot data=out_means ;

bubble mean_f1*mean_f2=_freq_ / href=0 vref=0;run ;


Comprendre la formation de l’attitude « j’apprécie »

Ne connaît pas Connaît

proc sort data=out_factor ; by q0303 ; run ;data out_factor ; set out_factor (rename=( factor1=valeur factor2=prix)); apprecie = (q30+q32)/2 ;run ;proc univariate data=out_factor normal; by q0303 ; var apprecie ; histogram apprecie / normal ; run ;proc glm data=out_factor ; by q0303 ; model apprecie = valeur prix / ss3 solution ;run ;


Analyse factorielle multiple (AFM)

Référence : Escofier B., Pagès J., Analyses factorielles simples et multiples, 4ème édition, 2008, Dunod.

Traite conjointement plusieurs tableaux de données décrivant un même ensemble d’individus :

Combinaison de tableaux de thèmes différents (analyse thématique) Combinaison de tableaux de date différentes (analyse des données évolutives)

Apport équilibrer l'influence des différents groupes, grâce à des pondérations

attribuées à ces groupes. En ACP/AFC un groupe de variables peut jouer un rôle prépondérant parce que

Il compte plus de variables Les variables sont plus corrélées

Macro en SAS Brigitte GELEIN (Ensai), Olivier SAUTORY (Cepe) %AFMULT qui permet de réaliser des AFM sur des variables quantitatives et

qualitatives ; %PLOTAFM qui permet d'obtenir des graphiques illustrant les résultats de

l'analyse.

Plus http://www.ensai.com/userfiles/AFMULT%20et%20PLOTAFM%20novembre%202009.pdf

http://www.ensai.com/userfiles/AFMULT%20et%20PLOTAFM%20novembre%202009.pdf


Analyses factorielles des correspondances (AFACO)


QUITTERQUITTER>>


ANALYSE (factorielle) DES CORRESPONDANCES (AFC)

Spécificités correspondance entre 2 ensembles de variables (et non plus individus x

variables) l'analyse est donc symétrique (les axes factoriels sont les mêmes) On peut donc interpréter graphiquement toutes les proximités (var-var, ind-var,

ind-ind)

Types de données et d’analyses Les données sont des tableaux d’effectifs (d’où la distance du khi2) Tableau de fréquences (tableau croisé) Tableau de contingence (données binaires individus-variables catégorielles) Tableau disjonctif complet (x et (1-x))

Propriété de l'équivalence distributionnelle si deux objets sont confondus, leur fusion ne modifie pas les résultats

En savoir plus http://geai.univ-brest.fr/~carpenti/2004-2005/PSRS83B-2.pdf

http://geai.univ-brest.fr/~carpenti/2004-2005/PSRS83B-2.pdf









Analyse des correspondances : Principe

Analyse d’un tableau de fréquences

L'écart entre deux colonnes est d'autant plus valorisé que la fréquence de la colonne est faible

distance du Khi-2 entre m et h

Distance euclidienne dans un espace à p dimensions entre 2 points de coordonnées

Plusieurs variantes selon le tableau analysé

d 2 (m,h) 1

P. jj

Pmj

Pm.

Phj

Ph.

2

Pmj

Pm. P. j


Variantes de l’AF des correspondances : AFC, ACM, ACM Ind x Var

Pas de résultats sur les individus (Variable x Variable) AFC : Analyse factorielle des correspondances

Analyse d’un tableau de contingence (tableau croisé)

AFC multiples ou MCA (multiple correspondence analysis) Généralisation de l’analyse à plusieurs variables(A, B, C) x (A, B, C) L’analyse est effectuée sur le tableau de BURT qui croise alors Toutes les modalités entre elles (en ligne et en colonne) (A1, A2, A3, B1, B2, C1, C2, C3) x (A1, A2, A3, B1, B2, C1, C2, C3)

Résultats sur les individus (Ind x Variables) AFC multiples Tableau

disjonctif complet : Tableau Ind x (V1m1, V1m2,… V5m1, V5m2, …) Tout tableau symétrique dont les sommes marginales sont constantes

Caractéristiques Une ligne est alors un individu (répondant) Chaque colonne représente une modalité de chaque variable catégorielle

étudiée Le codage est 0/1 selon la réponse (Tableau disjonctif complet (x et (1-x)) Résultats sur les individus

Attention: l’interprétation croisée ligne x colonne n’est alors plus possible


SAS AFC (tableau de contingence)

data in; input ID $ C1-C8 @@ ; cards ;L1 15 7 26 19 12 6 2 11 L2 15 5 39 15 10 2 2 10 L3 16 7 30 13 20 5 2 6L4 15 6 27 13 29 5 2 3 L5 15 6 32 17 18 4 2 6 L6 17 6 33 15 16 4 2 6L7 14 6 36 17 11 2 3 11 L8 20 7 34 14 10 2 2 10 L9 17 7 35 14 17 2 3 5;goptions reset=symbol ; /* remise à zéro des options graphiques */proc corresp data=in outc=corr ; var c1-c8; * si le tableau est entré en tableau croisé ; * Tables L , C; * si on travaille à partir des individus ; * id ID ; * si on travaille à partir des individus ;data work ; set corr; if _TYPE_='OBS'; X=dim1 ;Y=dim2; color="black"; text=ID ; * variable d'identification ; size=2; xsys='2'; ysys='2'; Label Y='Dim 2'X='Dim 1'; keep X Y Xsys Ysys text size color ;run;Title4 'premier plan factoriel Profils Lignes';Proc gplot data=work; symbol1 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0;

run;* profils colonne *************; data work ; set corr; if _TYPE_='VAR'; X=dim1 ; Y=dim2; color="black";text=ID ; * variable d'identification ; size=2; xsys='2'; ysys='2'; Label Y='Dim 2‘ X='Dim 1'; keep X Y Xsys Ysys text size color ;run;Title4 'premier plan factoriel Profils Colonnes';Proc gplot data=work; symbol1 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0;/* annotate ajoute le label*/

run;


Exemple CréativeAFC tableau de Burt sur la notoriété assistée

Archos Apple Creative Mpman Neonumeric Philips Samsung Sony

Q0301 Q0302 Q0303 Q0304 Q0305 Q0306 Q0307 Q0308

Parmi les marques de baladeurs numériques suivantes, quelles sont celles que vous connaissez, ne serait-ce que de nom ?





Analyse

Plus simple : Demander une sortie outc= (nom du data) et imprimer

Fréquence marginale des lignes(profil colonne moyen)

Qualité de la représentation pour la lig/col considérée

Contribution de l’individuà la formation de l’axe

Qualité de la représentation de l’individu par cet axe

Score factoriel de l’indSur cet axe


data corr ; set corr ;if _N_=1 then _NAME_="Ar"; if _N_=2 then _NAME_="Archos";if _N_=3 then _NAME_="Ap"; if _N_=4 then _NAME_="Apple";if _N_=5 then _NAME_="Cr"; if _N_=6 then _NAME_="Creative";if _N_=7 then _NAME_="Mp"; if _N_=8 then _NAME_="Mpman";if _N_=9 then _NAME_="Ne"; if _N_=10 then _NAME_="Neonum";if _N_=11 then _NAME_="Ph"; if _N_=12 then _NAME_="Philips";if _N_=13 then _NAME_="Sa"; if _N_=14 then _NAME_="Samsung";if _N_=15 then _NAME_="So"; if _N_=16 then _NAME_="Sony";

proc print data=corr ;run;data work ; set corr; if _TYPE_='VAR'; X=dim1 ;Y=dim2;text=_name_; size=1;xsys='2';ysys='2'; Label Y='Dim 2' X='Dim 1'; keep X Y Xsys Ysys text size ;run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;

Exemple CréativeAméliorer la sortie (uniquement =1 ici)

Marques généralistes

Marques spécialisées

Notoriété


Avec variable supplémentaireSAS ACM (tableau de burt)

Une variable supplémentaire ne participe pas à l’analyse

options nocenter ;title1 h=2 j=l "Analyse factorielle des correspondances multiples (X1 X2 X3)*(X1 X2 X3)";goptions reset=symbol ;data in; input (ID x1-X4 sup) ($) ; cards ;I1 A1 B2 C3 D4 Out I2 A2 B2 C2 D2 In I3 A1 B1 C2 D3 OutI4 A2 B1 C1 D4 Out I5 A2 B2 C1 D1 In I6 A1 B1 C3 D1 In I7 A2 B2 C2 D1 Out;proc corresp data=in mca obs all outc=corr; tables x1--x4 sup; * lister simplement les variables ; supplementary sup;title4 "Analyse des correspondances multiples ";data work ; set corr; if _TYPE_='VAR'; X=dim1 ;Y=dim2;text=_name_; size=2;xsys='2';ysys='2'; Label Y='Dim 2'X='Dim 1'; keep X Y Xsys Ysys text size ;run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;data work ; set corr; * avec les variables supplémentaires ; if _TYPE_='VAR' or _TYPE_='SUPVAR'; if _TYPE_='VAR' then color='BLUE'; if _TYPE_='SUPVAR' then color='RED'; X=dim1 ;Y=dim2;text=_name_ ; * variable d'identification ; size=1;xsys='2';ysys='2'; Label Y='Dim 2' X='Dim 1'; keep X Y Xsys Ysys text size color ;run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none;

plot Y*X=1 / annotate=work Frame Href=0 Vref=0;run;


SAS ACM (disjonctif complet )

data in; * modalités sont transformées en tableau disjonctif complet ; input (ID x1-X4 sup) ($) @@; cards ;I1 A1 B2 C3 D4 Out I2 A2 B2 C2 D2 In I3 A1 B1 C2 D3 Out I4 A2 B1 C1 D4 OutI5 A2 B2 C1 D1 In I6 A1 B1 C3 D1 In I7 A2 B2 C2 D1 Out;proc corresp data=in obs all outc=corr; * ne pas mettre MCA; Tables ID, X1 X2 X3 X4 sup ; supplementary sup;data work ; set corr; if _TYPE_='VAR'; X=dim1 ; Y=dim2; color="black" ; text=_name_ ; size=2; xsys='2'; ysys='2'; Label Y='Dim 2‘ X='Dim 1'; keep X Y Xsys Ysys text size color ; run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none ;symbol2 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;data work ; /* avec les variables supplémentaires */ set corr; if _TYPE_='VAR' or _TYPE_='SUPVAR'; if _TYPE_='VAR' then color='BLUE'; if _TYPE_='SUPVAR' then color='RED'; X=dim1 ; Y=dim2; text=_name_ ; * variable d'identification ; size=1; xsys='2'; ysys='2'; Label Y='Dim 2‘ X='Dim 1'; keep X Y Xsys Ysys text size color ; run;Title4 'premier plan factoriel variables supplémentaires';Proc gplot data=work; symbol1 V=none i=none ; symbol2 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;data work ; set corr; /* avec les variables supplémentaires */ if _TYPE_='OBS' ; X=dim1 ; Y=dim2; color="black" ;text=_name_ ; * variable d'identification ; size=1; xsys='2'; ysys='2'; Label Y='Dim 2'X='Dim 1'; keep X Y Xsys Ysys text size color ; run;Title4 'premier plan factoriel individus';Proc gplot data=work; symbol1 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;


Coordonnées des individus en sortie d’ACM

Comment obtenir les résultats sur les individus avec la procédure CORRESP sans passer par un tableau disjonctif complet ?

Alors, la meilleure solution est de tirer partie de la formule de reconstitution des données :

il s'agit dans un premier temps d'effectuer l'analyse sur le tableau de Burt, ce qui a pour inconvénient de ne pas restituer les coordonnées des individus sur les axes.

Puis de calculer ces coordonnées à l'aide de la formule suivante : à un facteur 1/racine(valeur propre de l'axe concerné) près, la coordonnée d'un individu sur un axe est égale à la somme arithmétique simple des coordonnées des catégories auxquelles il appartient sur ce même axe.


Similarités et Préférences (MDS)


QUITTERQUITTER>>


Analyse des (dis)similarités

identifier les proximités entre marques grâce à une représentation spatiale des distances qui les séparent (pas de mesures sur des dimensions)

postulats tout produit est un panier d'attributs un objet est représenté dans l'espace par un point dont les coordonnées sont

les évaluations de l'objet sur les attributs l'individu synthétise en quelques dimensions privilégiées Pas d’hypothèse statistique

Méthode sans demander des perceptions sous forme quantitative recherche de la configuration géométrique la mieux adaptée en partant d'un

espace de taille donnée approximation d'un classement non métrique par une distance métrique minimisation du stress: distance à ajouter aux distances métriques pour vérifier

les classements

Questions ? combien de dimensions quels sont les attributs privilégiés comment est organisée la représentation À quel moment faire l’agrégation : sur les données ? Sur les analyses ?


Mesure des similarités

Au moins 4 fois plus d’objets que de dimensions

N(n-1)/2 comparaisons à effectuer

Méthodes à base de notation, de classement, de choix 1 parmi n,…

rangement des paires AB> AC > AD > ...

notation des paires (très -pas du tout semblables)

AB 1--2--3--4--5 tétrades : choisir la paire la plus semblable parmi 2

(AB, AC) => AB triades : l'objet le plus semblable à celui de gauche

A -- (B, C) => B triade de Kelly : parmi 3, la paire la plus semblable, la plus différente

(A,B,C) => +(A,C) - (C, B) point d'ancrage :

Rangement des objets à partir d'un produit tiré au sort Données de confusion

Rangement par tas Techniques empiriques

Placement physique sur un tapis


Méthodes

Classe de méthodes qui estime les coordonnées d’objets dans un espace à dimension pré-spécifiée à partir de données sur les distances entre paires d’objets

Proc MDS Type de mesure :

Non métrique (Ordinal) proc mds data=in level=monotone Métrique (Quanti) : proc mds data=in level=absolute

Niveau : Agrégé : coef = identity Individuel : pondération individuelle des dimensions : coef = diagonal

Lien avec ALSCAL et MLSCAL Plus :

http://www.okstate.edu/sas/v8/saspdf/stat/chap40.pdf


ExempleMDS Villes françaises

ods graphics on ;Title1 "Distances inter-villes françaises";* intervilles.sas ;Data Villes; Array d{47} d1-d47; do i=1 to 47; Input ville $ @@; do j=1 to i ; if j=i then input d{j} ;else input d{j} @@; end; output ;end;cards;amie 0 ando 1020 0 ange 440 760 0 bale 560 1130 770 0Etc …; Title2 "Absolute Distances : distances métriques 2 dim";Proc MDS Data=Villes Level=Absolute /* absolute ou ordinal */ Dimension=2 /* nombre de dimensions */ PData /* Print data */ PConfig /* Print configuration */ PFinal; /* Print configuration finale */ Var d1-d47; Id ville; Run;


ExempleVilles françaises


Représentation graphique des préférences

2 types d'analyse Interne (indépendant) Externe (représentation sur une configuration établie sur les perceptions)

Analyse interne : MDPref (Multidimensional Analysis of Preference Data)

ACP sur la matrice des données de préférence, individus (produits) x variables (juges)

Mais le nombre d’axe augmente avec le nombre de juges Faire une ACP non métrique PRINQUAL (transformation monotone des

données de manière à maximiser l'inertie expliquée par les k premiers axes (k = 2 ou 3).

Faire une ACP sur des groupes de juges

Analyse externe Carte sensorielle sur Produit x attributs Reconstitution de l'ordre des préférences : Pref = i aiAi + i biAi² + ij cijAiAj

Vecteur idéal (optimum infini) (bi et ci =0) Point idéal(max) ou anti-idéal (min) (optimum fini) (bi identiques ci=0) Modèle elliptique (bi différents et ci=0) Modèle quadratique

IA

B

CI AB

C


Exemple excel / voitures

© Desmet 2003

Exercice de compréhension du dépliage multidimensionel

(1) Entrez vos perceptions de la similarité entre les voitures (bleu) (classement des paires) (2) Entrez vos préférences

(jaune) (rang décroissant)Matrice similarité

Etiquette Ka Twingo Clio Saxo Fiesta Etiquette Préférences

Intention d'achat (1 à10)

Ka 5 9 8 4 Ka 3 2Twingo 1 10 3 Twingo 4 1Clio 7 2 Clio 5 1Saxo 6 Saxo 1 8Fiesta Fiesta 2 7

(3) Notez sur un papier sur quels critères ces voitures se différencient(4) Sur la feuille Calcul, utilisez le solveur en deux étapes(5) Puis allez interpréter la représentation graphique obtenue

(utiliser les onglets en bas des feuilles)


Exemple excel / voitures

Etape 1 Coordonnées Zone solveur- initialiser à 1 la zone variable du solveur x y x y Paramètres du graphique

0,50 -0,50 5 1 max 5,0000 4,1269Etape 2 : par le solveur -0,29 -0,38 3,03 1,38 min 2,5134 1,0000- déterminer l'espace des perceptions -0,50 0,03 2,51 2,65 ecart 2,4866 3,1269variables : (zone jaune X, Y) 0,48 0,50 4,96 4,13 epsilon 0,0500objectif : (zone rouge) -0,02 -0,05 3,71 2,40 borne 5,0000

0,60 0,30 00,00

0

Etape 3 : par le solveur Xmoi Ymoi

- optimiser la place de la préférence 0,60 0,30

0,00

0

Qualité de la reconstitution des Préférences

Nombre d'inversion de l'ordre des préférences

Espaces des Perceptions et des Préférences

Perceptions

Préférences

Qualité de la reconstitution des PerceptionsNombre d'inversion de l'ordre des perceptions

Moi

Ka

Saxo

FiestaClio

Twingo

-1

1

-1 1


SAS : code MDPREF

Prinqual Equivalent d’une ACP Transformation « optimale » (et monotone) de variables de toutes natures pour

maximiser le % de variance représenté par les deux premières compsoantes principales

http://support.sas.com/documentation/cdl/en/statugprinqual/61822/PDF/default/statugprinqual.pdf

Transreg Équivalent d’une ANOVA http://support.sas.com/documentation/cdl/en/statugtransreg/61842/PDF/default/statugtransreg.pdf

title 'Preference Ratings for Automobiles Manufactured in 1980';* http://www.otago.ac.nz/sas/stat/chap65/sect47.htm;Data Voitures; input Marque $ 1-10 Modele $ 12-22 @25 (Juge1-Juge25) (1.) /* préférences de 0 à 9 pour chaque juge */ Consommation fiabilite conduite @@; /* note 1 à 5 */

cards;Cadillac Eldorado 8007990491240508971093809 3 2 4 Chevrolet Chevette 0051200423451043003515698 5 3 2Chevrolet Citation 4053305814161643544747795 4 1 5 Chevrolet Malibu 6027400723121345545668658 3 3 4Ford Fairmont 2024006715021443530648655 3 3 4 Ford Mustang 5007197705021101850657555 3 2 2 Ford Pinto 0021000303030201500514078 4 1 1 Honda Accord 5956897609699952998975078 5 5 3Honda Civic 4836709507488852567765075 5 5 3 Lincoln Continental 7008990592230409962091909 2 4 5Plymouth Gran Fury 7006000434101107333458708 2 1 5 Plymouth Horizon 3005005635461302444675655 4 3 3Plymouth Volare 4005003614021602754476555 2 1 3 Pontiac Firebird 0107895613201206958265907 1 1 5Volkswagen Dasher 4858696508877795377895000 5 3 4 Volkswagen Rabbit 4858509709695795487885000 5 4 3Volvo DL 9989998909999987989919000 4 5 5;ods graphics on ;proc factor data= voitures ; var Juge1-Juge25;

run ;


Sorties MDPREF

Proc prinqual data=Voitures MDPREF out=out_voitures(drop=Juge1-Juge25) n=2 replace standard scores; id Modele Consommation fiabilite conduite; transform identity(Juge1-Juge25); /* analyse métrique */ /* transform monotone(Juge1-Juge25); /* analyse non-métrique */ title3 'Analyse multidimensionnelle des préférences (MDPREF)Prinqual'; run;


Exemple SAS


SAS Transreg : Vectoriel et Point Idéal

* modele vectoriel pour les variables dont les optima sont à l'infini;Proc transreg data=out_voitures; Model identity(consommation fiabilite )=identity(Prin1 Prin2); output tstandard=center coordinates replace out=TResult1; id Modele; title2 'Carte des Préférences (PREFMAP)'; run;

* modèle point idéal pour la conduite (optimum fini); Proc transreg data=out_voitures; Model identity(conduite)=point(Prin1 Prin2); output tstandard=center coordinates replace noscores out=TResult2; id Modele; run;

Vectoriel Point Idéal

Documents

Master MARKETING / Pierre Desmet 1 Analyses factorielles exploratoires Pierre DESMET Analyse des données appliquée au marketing