Upload
hrodger-raoul
View
137
Download
0
Embed Size (px)
Citation preview
Master MARKETING / Pierre Desmet 1
Analyses factoriellesexploratoires
Pierre DESMET
Analyse des donnéesappliquée au marketing
2 SommaireSommaire© Pierre DESMET
ANALYSES FACTORIELLES
Principe et Intérêt
Méthodes Analyse en composantes principales Analyse factorielle (en facteurs communs et spécifiques) Analyse factorielle des correspondances
Simples Multiples
Information de base La matrice des variances-covariances
Ressources Exemples de graphiques plot : http://support.sas.com/sassamples/graphgallery
/PROC_GPLOT.html
3 SommaireSommaire© Pierre DESMET
Intérêt de l’analyse factorielle
Les variables sont rarement indépendantes les unes des autres
L’information sur leurs relations (linéaires) est contenue Dans la matrice de variance-covariance Dans la matrice des corrélations (si les variables standardisées)
On va chercher A étudier des variables qui ont quelque chose en commun A réduire l’espace des variables (sans perdre trop d’information) A trouver des « facteurs » sous-jacents qui restituent la plus grande partie de
l’information À interpréter ces facteurs en fonction de la contribution des variables à leur
constitution A identifier les variables qui sont mal représentées
Par la famille des méthodes d’analyse factorielle
Utilisable aussi pour extraire la colinéarité de variables avant une régression
4 SommaireSommaire© Pierre DESMET
Les différentes méthodes
Les méthodes appliquées aux distances Les données brutes :
Des variables quantitatives (analyse factorielle) : Distance euclidienne
Des comptages/fréquences (analyse des correspondances) : Distance du khi2 : surpondère les modalités rares
On cherche à retrouver toute l’information initiale (AF exploratoire) Analyse en composantes principales
Les méthodes appliquées aux similarités (dissimilarités)
Ne pas confondre avec les analyses factorielles confirmatoires Qui supposent une structure théorique d’hypothèses « à valider » Prennent en compte les aléas
Dans la mesure Dans les relations
Méthodes : Analyse en facteurs communs et spécifiques, PLS,…
5 SommaireSommaire© Pierre DESMET
Un grand classique : Image et positionnement
« Positionnement » des marques dans un espace selon les perceptions des usages, des attributs symboliques, des clients types…
Démarche active consistant à déplacer par des actions marketing l’image de la marque vers une « position » décidée dans l’espace perceptuel des clients
Recherche D’une description de l’état actuel des perceptions des marques Mais permettant aussi de placer le centre de gravité de groupes de clients
selon leurs préférences pour les marques
Il faut obtenir Des distances inter-marques [D] Des évaluations marques x perceptions [E] Des préférences sur les marques [P]
Cela permet de guider les évolutions du mix pour « différencier » la marque de ses concurrents La rapprocher des attentes d’un segment cible
Difficultés : faut-il forcer les clients à évaluer les marques sur des dimensions particulières
(oubli de dimensions importantes ?) Démarche [D] -> [E] ou [E] -> D
Master MARKETING / Pierre Desmet 6
Analyse en composantes principales (ACP)
Life is short, play hard
QUITTERQUITTER>>
7 SommaireSommaire© Pierre DESMET
« Résumer » l’information en minimisant la perte d’information (Présentation graphique)
Création d’une variable « composite » : une combinaison LINEAIRE des variables initiales
L’information est contenue dans la matrice de var-Vovar (ou corrélations)
Décomposition de l'inertie d'un nuage de points en variation axiale (VA) sur un axe passant par le centre de gravité et en variation orthogonale (VO).
VT=VO+VA =Mi.G2= (Mi.mi)2 +(mi.G)2
précision de la configuration % inertie expliquée = VA / VT
• M1
m2
m1
• M2
• G
A2
A1
a12- a22-
a21 a11
(3)
(2)
F1(1)
8 SommaireSommaire© Pierre DESMET
Procédure pour une analyse factorielle
Formulation du problème
Calcul de la matrice de corrélation
Test de l’intérêt d’une analyse factorielle
Choix de la méthode
Détermination du nombre de facteurs
Rotation éventuelle des facteurs
Interprétation des axes factoriels
Calcul des scores factoriels
Détermination de la qualité de l'ajustement
9 SommaireSommaire© Pierre DESMET
Formulation du problème
Etape clé !
Choisir les variables de l’on veut synthétiser Elles doivent avoir quelque chose en commun
Choisir l’information que l’on veut synthétiser
L’information brute apportée par les variables (COV) La dispersion de leurs réponses Leur relation linéaire Le poids d’une variable dépend de sa variance Étudier la matrice de variance-Covariance
La corrélation linéaire entre les variables (CORR) La dispersion de chaque variable est ramenée à 1 Toutes les variables ont donc la même importance Étudier la matrice des Corrélations
10 SommaireSommaire© Pierre DESMET
Exemple Cas Créative (écart-type)
proc corr data =in ; var q27 q28 q29 q31 q30 q32 q33; run ;
11 SommaireSommaire© Pierre DESMET
Exemple Créative : Corrélations
Séparer les variables de description : Q27, Q28, Q29, Q31 Des variables d’appréciation : Q30, Q32, Q33
12 SommaireSommaire© Pierre DESMET
Exemple Créative : corrélations partielles
13 SommaireSommaire© Pierre DESMET
Les tests préalables en AF
Toutes les variables ont-elles une place dans l’analyse factorielle ?
Peut-être que NON si elles ne partagent pas un minimum de corrélation Si elles sont mal représentées dans l’espace choisi (nombre d’axes
gardés)
Test de Bartlett : Test de sphéricité de la matrice Var-Covar H0 : la matrice de corrélation n’a que des 1 en diagonale et 0 ailleurs (Donc les
variables ne sont pas corrélées) C’est un test du Khi2. Si Khi2 calculé > Khi2 critique : rejet de H0
Test de Kaiser-Meyer-Olkin (KMO) (0<<1) Etude des corrélations (partielles) entre 2 variables, non expliquées par l’effet
des autres variables (ie. par un facteur sous-jacent) KMO = ratio de la somme des corrélations multiples sur la somme des
corrélations multiples et partielles. Le KMO doit être le plus grand possible :
moyen si > 0.7; inacceptable si <0.5
Indice MSA (measure of sample adequacy) (0<<1) Même approche que le KMO mais variable par variable Enlever les variables ayant un MSA < 0.5
14 SommaireSommaire© Pierre DESMET
Analyse factorielle
Facteur = combinaison linéaire des variables F(i) = w1X1i+ w2X2i+ w3X3i+ w4X4i
w = score factoriel
X1(i)= a1F1i+ a2F2i+ a3F3i+ a4F4i+ a5(facteur spécifique)i
Extraction des vecteurs propres (Ui) et des valeurs propres () de la matrice de variance covariance (V)
[V-.I].Ui=0 La valeur propre représente la variance expliquée par un facteur La trace de la matrice V est la somme des variances
Si on utilise les corrélations, la somme vaut J variables % d’inertie reconstituée : le ratio de la valeur propre, ou de la somme des
valeurs propres du plan, sur la trace (total des valeurs propres)
15 SommaireSommaire© Pierre DESMET
AF en composantes principales (ACP)
C’est une analyse NON symétrique, descriptive / exploratoire : Les « variables » sont en colonnes Les « individus » en lignes
Variables : des valeurs numériques de n individus sur p variables Puis calcul de la matrice de variance-covariance [V] Puis, éventuellement, des corrélations [C] (variance=1)
On cherche à reconstituer (avec la moindre perte d’information) les relations entre les variables (covariances / corrélations) ET les variances des variables
Par un nombre réduit de facteurs orthogonaux les composantes principales
Standardisation éventuelle au préalable (variance ou corrélation)
Matrices : [ Ind x Var ] -> [ Var x Var] [V] -> [C]
16 SommaireSommaire© Pierre DESMET
Lecture des résultats
les composantes sont orthogonales
extraites par ordre d'importance décroissante
seules les premières sont gardées (max J)
% d'inertie expliquée par le facteur
Contribution d'une variable à un axe
Factor loading : corrélation variable et facteur (matrice factorielle)
Communalités : % de variance extraite par les facteurs retenus
scores factoriels : nouvelles variables pour les objets étudiés
17 SommaireSommaire© Pierre DESMET
Choix du nombre de facteurs
Combien de facteurs faut-il retenir ? Détermination a priori Règle de Kaiser : Garder les facteurs dont la valeur propre () > 1
Car si les valeurs sont standardisées, la variance de chaque variable est 1 Adapté pour 10-30 variables, si n <10 en conserve trop peu (trop si >30)
Test du coude (scree test, Test de Cattell) retenir les facteurs dont la valeur propre se situe avant la cassure du
« coude » (le début de la pente faible) Ok si n>250 et communauté >0.6 Garde souvent moins d’axes que Kaiser
% de variance reconstituée : s’il est trop faible, la représentation est trop déformée Un minimum de 60% est souhaitable
Test-retest : découper l’échantillon et faire deux fois l’analyse garder la structure commune observée dans les deux analyses
La difficulté d’interprétation des espaces supérieurs à 3 dimensions multiplie la difficulté de l’analyse (plans 1x2, 1x3, 2x3 etc)
Plus sur les règles http://www.stat.sc.edu/~habing/courses/530EFA.pdf
18 SommaireSommaire© Pierre DESMET
Exemple Créative
ods graphics on ;proc factor data=in MSA COV /* ou CORR */
method=principal nfactors=2rotate=varimax out= out_factoroutstat= factor_statplots=all ;
var q27 q28 q29 q31 ; run ;proc print data=factor_stat ; run ;
Plutôt 1 axe
Mais 2 car la reconstitutionest insuffisante
19 SommaireSommaire© Pierre DESMET
Quelle est la signification d’un axe ?
Les composantes sont des combinaisons linéaires des variables Orthogonales (non corrélées entre elles) Extraites par ordre d'importance décroissante Seules les premières sont gardées (max J) :
il y a donc perte d’information
2 visions : celle du facteur et celle de la variable F(i) = w1x1i+ w2x2i+ w3x3i+ w4x4i
w = score factoriel, nouvelles variables pour les lignes (individus) X1(i)= a1F1i+ a2F2i+ a3F3i+ a4F4i+ a5(facteur spécifique)i
La signification d’un axe est donnée par les variables qui contribuent le plus à cet axe (en positif et en négatif) sans contribuer aussi à d’autres axes
Éventuellement après rotation
20 SommaireSommaire© Pierre DESMET
Saturation et Contribution
Factor loading : (saturation) -> le facteur Corrélation d’une variable et d’un facteur Pour interpréter un facteur par les variables qui lui sont le plus corrélées Contribution = (saturation)**2 = variance d’une variable restituée par un
facteur La somme des contributions pour un facteur donne la variance du facteur
(valeur propre)
21 SommaireSommaire© Pierre DESMET
Communalité (communauté) et Représentation
Communalité (communauté) -> la variable Qualité de reconstitution d’une variable (max 1 =100%) % de variance d’une variable extraite (reconstituée) par tous les facteurs
retenus Dépend du nombre d’axes retenus
Un espace des variables inscrit dans un cercle de corrélations (-1;+1)
Plus la variable est proche du cercle, mieux elle est représentée Plus la variable est proche du facteur, plus elle y contribue Une variable est un vecteur (une flèche) qui part du centre et pointe vers la
position de la variable (et plus loin….) Une variable proche du centre est mal représentée dans cet espace
22 SommaireSommaire© Pierre DESMET
Exemple Créative
Est-ce que Q28 contribue plus au facteur 1 ou au facteur 2 ?
Est-ce que Q27 est mieux représentée que Q28 ?
23 SommaireSommaire© Pierre DESMET
Faciliter l’interprétation par la rotation des axes factoriels
Il est possible de “faire tourner” le système d’axes factoriels En modifiant la relation variable-axe Sans changer la part de l’inertie totale reconstituée Mais en modifiant l’inertie reconstituée par chaque axe
Les rotations sont Orthogonales ou Obliques Les rotations orthogonales se font selon le critère que l’on choisit de maximiser VARIMAX (axe): critère Max saturation sur un seul facteur. Maximiser la
corrélation avec un axe unique et réduire la corrélation avec les autres axes => clarifier l’interprétation des axes (peu de variables)
QUARTIMAX (variable): Réduire le nombre de facteurs permettant de reconstituer une variable
Les rotations obliques supposent que les facteurs sont reliés entre eux (OBLIMIN)
!!! Difficile à interpréter correctement
24 SommaireSommaire© Pierre DESMET
Un espace des individus
Un espace des individus Qui ne peut être superposé à celui des variables Qui peut faire l’objet d’une typologie Les coordonnées sur les axes sont sauvées en variables supplémentaires
(Fact_1,…)
On n’interprète pas la proximité Individu (point) x Variable (vecteur)
Car la position de la variable correspond à un vecteur (dont l’origine est le centre)
On peut interpréter la projection des individus sur l’axe d’une variable
On peut essayer de comprendre les différences de perception et leur source
Ici Q0303 : notoriété spontanée non/oui
proc gplot data=out_factor ; plot factor1*factor2; run ;proc gplot data=out_factor ; plot factor1*factor2=q0303;
run ;
25 SommaireSommaire© Pierre DESMET
Placer les barycentres selon une variable
proc tabulate data=out_factor ;class q0303 ;var factor1 factor2 ;table q0303, n (factor1 factor2)*(mean) ;format q0303 FouinspX. ;title3 "factor1= Valeur - factor2 = Prix";run ;
proc sort data=out_factor ;by q0303; run ;
proc means data=out_factor ;by q0303 ;var factor1 factor2 ;output out = out_means mean=mean_f1 mean_f2;run ;
proc print data=out_means ; run ;data out_means ; set out_means;label mean_f1="valeur perçue"
mean_f2="prix";proc gplot data=out_means ;
bubble mean_f1*mean_f2=_freq_ / href=0 vref=0;run ;
26 SommaireSommaire© Pierre DESMET
Comprendre la formation de l’attitude « j’apprécie »
Ne connaît pas Connaît
proc sort data=out_factor ; by q0303 ; run ;data out_factor ; set out_factor (rename=( factor1=valeur factor2=prix)); apprecie = (q30+q32)/2 ;run ;proc univariate data=out_factor normal; by q0303 ; var apprecie ; histogram apprecie / normal ; run ;proc glm data=out_factor ; by q0303 ; model apprecie = valeur prix / ss3 solution ;run ;
27 SommaireSommaire© Pierre DESMET
Analyse factorielle multiple (AFM)
Référence : Escofier B., Pagès J., Analyses factorielles simples et multiples, 4ème édition, 2008, Dunod.
Traite conjointement plusieurs tableaux de données décrivant un même ensemble d’individus :
Combinaison de tableaux de thèmes différents (analyse thématique) Combinaison de tableaux de date différentes (analyse des données évolutives)
Apport équilibrer l'influence des différents groupes, grâce à des pondérations
attribuées à ces groupes. En ACP/AFC un groupe de variables peut jouer un rôle prépondérant parce que
Il compte plus de variables Les variables sont plus corrélées
Macro en SAS Brigitte GELEIN (Ensai), Olivier SAUTORY (Cepe) %AFMULT qui permet de réaliser des AFM sur des variables quantitatives et
qualitatives ; %PLOTAFM qui permet d'obtenir des graphiques illustrant les résultats de
l'analyse.
Plus http://www.ensai.com/userfiles/AFMULT%20et%20PLOTAFM%20novembre%202009.pdf
Master MARKETING / Pierre Desmet 28
Analyses factorielles des correspondances (AFACO)
Life is short, play hard
QUITTERQUITTER>>
29 SommaireSommaire© Pierre DESMET
ANALYSE (factorielle) DES CORRESPONDANCES (AFC)
Spécificités correspondance entre 2 ensembles de variables (et non plus individus x
variables) l'analyse est donc symétrique (les axes factoriels sont les mêmes) On peut donc interpréter graphiquement toutes les proximités (var-var, ind-var,
ind-ind)
Types de données et d’analyses Les données sont des tableaux d’effectifs (d’où la distance du khi2) Tableau de fréquences (tableau croisé) Tableau de contingence (données binaires individus-variables catégorielles) Tableau disjonctif complet (x et (1-x))
Propriété de l'équivalence distributionnelle si deux objets sont confondus, leur fusion ne modifie pas les résultats
En savoir plus http://geai.univ-brest.fr/~carpenti/2004-2005/PSRS83B-2.pdf
30 SommaireSommaire© Pierre DESMET
Analyse des correspondances : Principe
Analyse d’un tableau de fréquences
L'écart entre deux colonnes est d'autant plus valorisé que la fréquence de la colonne est faible
distance du Khi-2 entre m et h
Distance euclidienne dans un espace à p dimensions entre 2 points de coordonnées
Plusieurs variantes selon le tableau analysé
d 2 (m,h) 1
P. jj
Pmj
Pm.
Phj
Ph.
2
Pmj
Pm. P. j
31 SommaireSommaire© Pierre DESMET
Variantes de l’AF des correspondances : AFC, ACM, ACM Ind x Var
Pas de résultats sur les individus (Variable x Variable) AFC : Analyse factorielle des correspondances
Analyse d’un tableau de contingence (tableau croisé)
AFC multiples ou MCA (multiple correspondence analysis) Généralisation de l’analyse à plusieurs variables(A, B, C) x (A, B, C) L’analyse est effectuée sur le tableau de BURT qui croise alors Toutes les modalités entre elles (en ligne et en colonne) (A1, A2, A3, B1, B2, C1, C2, C3) x (A1, A2, A3, B1, B2, C1, C2, C3)
Résultats sur les individus (Ind x Variables) AFC multiples Tableau
disjonctif complet : Tableau Ind x (V1m1, V1m2,… V5m1, V5m2, …) Tout tableau symétrique dont les sommes marginales sont constantes
Caractéristiques Une ligne est alors un individu (répondant) Chaque colonne représente une modalité de chaque variable catégorielle
étudiée Le codage est 0/1 selon la réponse (Tableau disjonctif complet (x et (1-x)) Résultats sur les individus
Attention: l’interprétation croisée ligne x colonne n’est alors plus possible
32 SommaireSommaire© Pierre DESMET
SAS AFC (tableau de contingence)
data in; input ID $ C1-C8 @@ ; cards ;L1 15 7 26 19 12 6 2 11 L2 15 5 39 15 10 2 2 10 L3 16 7 30 13 20 5 2 6L4 15 6 27 13 29 5 2 3 L5 15 6 32 17 18 4 2 6 L6 17 6 33 15 16 4 2 6L7 14 6 36 17 11 2 3 11 L8 20 7 34 14 10 2 2 10 L9 17 7 35 14 17 2 3 5;goptions reset=symbol ; /* remise à zéro des options graphiques */proc corresp data=in outc=corr ; var c1-c8; * si le tableau est entré en tableau croisé ; * Tables L , C; * si on travaille à partir des individus ; * id ID ; * si on travaille à partir des individus ;data work ; set corr; if _TYPE_='OBS'; X=dim1 ;Y=dim2; color="black"; text=ID ; * variable d'identification ; size=2; xsys='2'; ysys='2'; Label Y='Dim 2'X='Dim 1'; keep X Y Xsys Ysys text size color ;run;Title4 'premier plan factoriel Profils Lignes';Proc gplot data=work; symbol1 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0;
run;* profils colonne *************; data work ; set corr; if _TYPE_='VAR'; X=dim1 ; Y=dim2; color="black";text=ID ; * variable d'identification ; size=2; xsys='2'; ysys='2'; Label Y='Dim 2‘ X='Dim 1'; keep X Y Xsys Ysys text size color ;run;Title4 'premier plan factoriel Profils Colonnes';Proc gplot data=work; symbol1 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0;/* annotate ajoute le label*/
run;
33 SommaireSommaire© Pierre DESMET
Exemple CréativeAFC tableau de Burt sur la notoriété assistée
Archos Apple Creative Mpman Neonumeric Philips Samsung Sony
Q0301 Q0302 Q0303 Q0304 Q0305 Q0306 Q0307 Q0308
Parmi les marques de baladeurs numériques suivantes, quelles sont celles que vous connaissez, ne serait-ce que de nom ?
34 SommaireSommaire© Pierre DESMET
35 SommaireSommaire© Pierre DESMET
36 SommaireSommaire© Pierre DESMET
37 SommaireSommaire© Pierre DESMET
Analyse
Plus simple : Demander une sortie outc= (nom du data) et imprimer
Fréquence marginale des lignes(profil colonne moyen)
Qualité de la représentation pour la lig/col considérée
Contribution de l’individuà la formation de l’axe
Qualité de la représentation de l’individu par cet axe
Score factoriel de l’indSur cet axe
38 SommaireSommaire© Pierre DESMET
data corr ; set corr ;if _N_=1 then _NAME_="Ar"; if _N_=2 then _NAME_="Archos";if _N_=3 then _NAME_="Ap"; if _N_=4 then _NAME_="Apple";if _N_=5 then _NAME_="Cr"; if _N_=6 then _NAME_="Creative";if _N_=7 then _NAME_="Mp"; if _N_=8 then _NAME_="Mpman";if _N_=9 then _NAME_="Ne"; if _N_=10 then _NAME_="Neonum";if _N_=11 then _NAME_="Ph"; if _N_=12 then _NAME_="Philips";if _N_=13 then _NAME_="Sa"; if _N_=14 then _NAME_="Samsung";if _N_=15 then _NAME_="So"; if _N_=16 then _NAME_="Sony";
proc print data=corr ;run;data work ; set corr; if _TYPE_='VAR'; X=dim1 ;Y=dim2;text=_name_; size=1;xsys='2';ysys='2'; Label Y='Dim 2' X='Dim 1'; keep X Y Xsys Ysys text size ;run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;
Exemple CréativeAméliorer la sortie (uniquement =1 ici)
Marques généralistes
Marques spécialisées
Notoriété
39 SommaireSommaire© Pierre DESMET
Avec variable supplémentaireSAS ACM (tableau de burt)
Une variable supplémentaire ne participe pas à l’analyse
options nocenter ;title1 h=2 j=l "Analyse factorielle des correspondances multiples (X1 X2 X3)*(X1 X2 X3)";goptions reset=symbol ;data in; input (ID x1-X4 sup) ($) ; cards ;I1 A1 B2 C3 D4 Out I2 A2 B2 C2 D2 In I3 A1 B1 C2 D3 OutI4 A2 B1 C1 D4 Out I5 A2 B2 C1 D1 In I6 A1 B1 C3 D1 In I7 A2 B2 C2 D1 Out;proc corresp data=in mca obs all outc=corr; tables x1--x4 sup; * lister simplement les variables ; supplementary sup;title4 "Analyse des correspondances multiples ";data work ; set corr; if _TYPE_='VAR'; X=dim1 ;Y=dim2;text=_name_; size=2;xsys='2';ysys='2'; Label Y='Dim 2'X='Dim 1'; keep X Y Xsys Ysys text size ;run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;data work ; set corr; * avec les variables supplémentaires ; if _TYPE_='VAR' or _TYPE_='SUPVAR'; if _TYPE_='VAR' then color='BLUE'; if _TYPE_='SUPVAR' then color='RED'; X=dim1 ;Y=dim2;text=_name_ ; * variable d'identification ; size=1;xsys='2';ysys='2'; Label Y='Dim 2' X='Dim 1'; keep X Y Xsys Ysys text size color ;run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none;
plot Y*X=1 / annotate=work Frame Href=0 Vref=0;run;
40 SommaireSommaire© Pierre DESMET
SAS ACM (disjonctif complet )
data in; * modalités sont transformées en tableau disjonctif complet ; input (ID x1-X4 sup) ($) @@; cards ;I1 A1 B2 C3 D4 Out I2 A2 B2 C2 D2 In I3 A1 B1 C2 D3 Out I4 A2 B1 C1 D4 OutI5 A2 B2 C1 D1 In I6 A1 B1 C3 D1 In I7 A2 B2 C2 D1 Out;proc corresp data=in obs all outc=corr; * ne pas mettre MCA; Tables ID, X1 X2 X3 X4 sup ; supplementary sup;data work ; set corr; if _TYPE_='VAR'; X=dim1 ; Y=dim2; color="black" ; text=_name_ ; size=2; xsys='2'; ysys='2'; Label Y='Dim 2‘ X='Dim 1'; keep X Y Xsys Ysys text size color ; run;Title4 'premier plan factoriel';Proc gplot data=work; symbol1 V=none i=none ;symbol2 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;data work ; /* avec les variables supplémentaires */ set corr; if _TYPE_='VAR' or _TYPE_='SUPVAR'; if _TYPE_='VAR' then color='BLUE'; if _TYPE_='SUPVAR' then color='RED'; X=dim1 ; Y=dim2; text=_name_ ; * variable d'identification ; size=1; xsys='2'; ysys='2'; Label Y='Dim 2‘ X='Dim 1'; keep X Y Xsys Ysys text size color ; run;Title4 'premier plan factoriel variables supplémentaires';Proc gplot data=work; symbol1 V=none i=none ; symbol2 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;data work ; set corr; /* avec les variables supplémentaires */ if _TYPE_='OBS' ; X=dim1 ; Y=dim2; color="black" ;text=_name_ ; * variable d'identification ; size=1; xsys='2'; ysys='2'; Label Y='Dim 2'X='Dim 1'; keep X Y Xsys Ysys text size color ; run;Title4 'premier plan factoriel individus';Proc gplot data=work; symbol1 V=none i=none ; plot Y*X=1 / annotate=work Frame Href=0 Vref=0; run;
41 SommaireSommaire© Pierre DESMET
Coordonnées des individus en sortie d’ACM
Comment obtenir les résultats sur les individus avec la procédure CORRESP sans passer par un tableau disjonctif complet ?
Alors, la meilleure solution est de tirer partie de la formule de reconstitution des données :
il s'agit dans un premier temps d'effectuer l'analyse sur le tableau de Burt, ce qui a pour inconvénient de ne pas restituer les coordonnées des individus sur les axes.
Puis de calculer ces coordonnées à l'aide de la formule suivante : à un facteur 1/racine(valeur propre de l'axe concerné) près, la coordonnée d'un individu sur un axe est égale à la somme arithmétique simple des coordonnées des catégories auxquelles il appartient sur ce même axe.
Master MARKETING / Pierre Desmet 42
Similarités et Préférences (MDS)
Life is short, play hard
QUITTERQUITTER>>
43 SommaireSommaire© Pierre DESMET
Analyse des (dis)similarités
identifier les proximités entre marques grâce à une représentation spatiale des distances qui les séparent (pas de mesures sur des dimensions)
postulats tout produit est un panier d'attributs un objet est représenté dans l'espace par un point dont les coordonnées sont
les évaluations de l'objet sur les attributs l'individu synthétise en quelques dimensions privilégiées Pas d’hypothèse statistique
Méthode sans demander des perceptions sous forme quantitative recherche de la configuration géométrique la mieux adaptée en partant d'un
espace de taille donnée approximation d'un classement non métrique par une distance métrique minimisation du stress: distance à ajouter aux distances métriques pour vérifier
les classements
Questions ? combien de dimensions quels sont les attributs privilégiés comment est organisée la représentation À quel moment faire l’agrégation : sur les données ? Sur les analyses ?
44 SommaireSommaire© Pierre DESMET
Mesure des similarités
Au moins 4 fois plus d’objets que de dimensions
N(n-1)/2 comparaisons à effectuer
Méthodes à base de notation, de classement, de choix 1 parmi n,…
rangement des paires AB> AC > AD > ...
notation des paires (très -pas du tout semblables)
AB 1--2--3--4--5 tétrades : choisir la paire la plus semblable parmi 2
(AB, AC) => AB triades : l'objet le plus semblable à celui de gauche
A -- (B, C) => B triade de Kelly : parmi 3, la paire la plus semblable, la plus différente
(A,B,C) => +(A,C) - (C, B) point d'ancrage :
Rangement des objets à partir d'un produit tiré au sort Données de confusion
Rangement par tas Techniques empiriques
Placement physique sur un tapis
45 SommaireSommaire© Pierre DESMET
Méthodes
Classe de méthodes qui estime les coordonnées d’objets dans un espace à dimension pré-spécifiée à partir de données sur les distances entre paires d’objets
Proc MDS Type de mesure :
Non métrique (Ordinal) proc mds data=in level=monotone Métrique (Quanti) : proc mds data=in level=absolute
Niveau : Agrégé : coef = identity Individuel : pondération individuelle des dimensions : coef = diagonal
Lien avec ALSCAL et MLSCAL Plus :
http://www.okstate.edu/sas/v8/saspdf/stat/chap40.pdf
46 SommaireSommaire© Pierre DESMET
ExempleMDS Villes françaises
ods graphics on ;Title1 "Distances inter-villes françaises";* intervilles.sas ;Data Villes; Array d{47} d1-d47; do i=1 to 47; Input ville $ @@; do j=1 to i ; if j=i then input d{j} ;else input d{j} @@; end; output ;end;cards;amie 0 ando 1020 0 ange 440 760 0 bale 560 1130 770 0Etc …; Title2 "Absolute Distances : distances métriques 2 dim";Proc MDS Data=Villes Level=Absolute /* absolute ou ordinal */ Dimension=2 /* nombre de dimensions */ PData /* Print data */ PConfig /* Print configuration */ PFinal; /* Print configuration finale */ Var d1-d47; Id ville; Run;
47 SommaireSommaire© Pierre DESMET
ExempleVilles françaises
48 SommaireSommaire© Pierre DESMET
Représentation graphique des préférences
2 types d'analyse Interne (indépendant) Externe (représentation sur une configuration établie sur les perceptions)
Analyse interne : MDPref (Multidimensional Analysis of Preference Data)
ACP sur la matrice des données de préférence, individus (produits) x variables (juges)
Mais le nombre d’axe augmente avec le nombre de juges Faire une ACP non métrique PRINQUAL (transformation monotone des
données de manière à maximiser l'inertie expliquée par les k premiers axes (k = 2 ou 3).
Faire une ACP sur des groupes de juges
Analyse externe Carte sensorielle sur Produit x attributs Reconstitution de l'ordre des préférences : Pref = i aiAi + i biAi² + ij cijAiAj
Vecteur idéal (optimum infini) (bi et ci =0) Point idéal(max) ou anti-idéal (min) (optimum fini) (bi identiques ci=0) Modèle elliptique (bi différents et ci=0) Modèle quadratique
IA
B
CI AB
C
49 SommaireSommaire© Pierre DESMET
Exemple excel / voitures
© Desmet 2003
Exercice de compréhension du dépliage multidimensionel
(1) Entrez vos perceptions de la similarité entre les voitures (bleu) (classement des paires) (2) Entrez vos préférences
(jaune) (rang décroissant)Matrice similarité
Etiquette Ka Twingo Clio Saxo Fiesta Etiquette Préférences
Intention d'achat (1 à10)
Ka 5 9 8 4 Ka 3 2Twingo 1 10 3 Twingo 4 1Clio 7 2 Clio 5 1Saxo 6 Saxo 1 8Fiesta Fiesta 2 7
(3) Notez sur un papier sur quels critères ces voitures se différencient(4) Sur la feuille Calcul, utilisez le solveur en deux étapes(5) Puis allez interpréter la représentation graphique obtenue
(utiliser les onglets en bas des feuilles)
50 SommaireSommaire© Pierre DESMET
Exemple excel / voitures
Etape 1 Coordonnées Zone solveur- initialiser à 1 la zone variable du solveur x y x y Paramètres du graphique
0,50 -0,50 5 1 max 5,0000 4,1269Etape 2 : par le solveur -0,29 -0,38 3,03 1,38 min 2,5134 1,0000- déterminer l'espace des perceptions -0,50 0,03 2,51 2,65 ecart 2,4866 3,1269variables : (zone jaune X, Y) 0,48 0,50 4,96 4,13 epsilon 0,0500objectif : (zone rouge) -0,02 -0,05 3,71 2,40 borne 5,0000
0,60 0,30 00,00
0
Etape 3 : par le solveur Xmoi Ymoi
- optimiser la place de la préférence 0,60 0,30
0,00
0
Qualité de la reconstitution des Préférences
Nombre d'inversion de l'ordre des préférences
Espaces des Perceptions et des Préférences
Perceptions
Préférences
Qualité de la reconstitution des PerceptionsNombre d'inversion de l'ordre des perceptions
Moi
Ka
Saxo
FiestaClio
Twingo
-1
1
-1 1
51 SommaireSommaire© Pierre DESMET
SAS : code MDPREF
Prinqual Equivalent d’une ACP Transformation « optimale » (et monotone) de variables de toutes natures pour
maximiser le % de variance représenté par les deux premières compsoantes principales
http://support.sas.com/documentation/cdl/en/statugprinqual/61822/PDF/default/statugprinqual.pdf
Transreg Équivalent d’une ANOVA http://support.sas.com/documentation/cdl/en/statugtransreg/61842/PDF/default/statugtransreg.pdf
title 'Preference Ratings for Automobiles Manufactured in 1980';* http://www.otago.ac.nz/sas/stat/chap65/sect47.htm;Data Voitures; input Marque $ 1-10 Modele $ 12-22 @25 (Juge1-Juge25) (1.) /* préférences de 0 à 9 pour chaque juge */ Consommation fiabilite conduite @@; /* note 1 à 5 */
cards;Cadillac Eldorado 8007990491240508971093809 3 2 4 Chevrolet Chevette 0051200423451043003515698 5 3 2Chevrolet Citation 4053305814161643544747795 4 1 5 Chevrolet Malibu 6027400723121345545668658 3 3 4Ford Fairmont 2024006715021443530648655 3 3 4 Ford Mustang 5007197705021101850657555 3 2 2 Ford Pinto 0021000303030201500514078 4 1 1 Honda Accord 5956897609699952998975078 5 5 3Honda Civic 4836709507488852567765075 5 5 3 Lincoln Continental 7008990592230409962091909 2 4 5Plymouth Gran Fury 7006000434101107333458708 2 1 5 Plymouth Horizon 3005005635461302444675655 4 3 3Plymouth Volare 4005003614021602754476555 2 1 3 Pontiac Firebird 0107895613201206958265907 1 1 5Volkswagen Dasher 4858696508877795377895000 5 3 4 Volkswagen Rabbit 4858509709695795487885000 5 4 3Volvo DL 9989998909999987989919000 4 5 5;ods graphics on ;proc factor data= voitures ; var Juge1-Juge25;
run ;
52 SommaireSommaire© Pierre DESMET
Sorties MDPREF
Proc prinqual data=Voitures MDPREF out=out_voitures(drop=Juge1-Juge25) n=2 replace standard scores; id Modele Consommation fiabilite conduite; transform identity(Juge1-Juge25); /* analyse métrique */ /* transform monotone(Juge1-Juge25); /* analyse non-métrique */ title3 'Analyse multidimensionnelle des préférences (MDPREF)Prinqual'; run;
53 SommaireSommaire© Pierre DESMET
Exemple SAS
54 SommaireSommaire© Pierre DESMET
SAS Transreg : Vectoriel et Point Idéal
* modele vectoriel pour les variables dont les optima sont à l'infini;Proc transreg data=out_voitures; Model identity(consommation fiabilite )=identity(Prin1 Prin2); output tstandard=center coordinates replace out=TResult1; id Modele; title2 'Carte des Préférences (PREFMAP)'; run;
* modèle point idéal pour la conduite (optimum fini); Proc transreg data=out_voitures; Model identity(conduite)=point(Prin1 Prin2); output tstandard=center coordinates replace noscores out=TResult2; id Modele; run;
Vectoriel Point Idéal