43
- 1 - STT-7620 ANALYSE FACTORIELLE CONFIRMATOIRE L’analyse factorielle exploratoire permet d’identifier des facteurs latents à partir de variables mesurées. Elle définit chaque variable latente en y associant un certain nombre de variables mesurées. L’analyse factorielle confirmatoire permet de poursuivre l’analyse en posant des paramètres (loadings) égaux à 0, en permettant aux facteurs latents d’être corrélés, et en ajoutant au besoin des corrélations supplémentaires entres les erreurs résiduelles. Elle définit de façon détaillée les facteurs latents. En principe l’analyse exploratoire et confirmatoire ne se font pas sur le même jeu de données. L’analyse confirmatoire peut chercher à déterminer si un ensemble de questions développées dans un certain contexte permet de bien caractériser un phénomène dans un contexte un peu différent. Il peut s’agir du suivi et de la validation de questionnaires mis sur pied dans la phase initiale d’un projet de recherche.

ANALYSE FACTORIELLE CONFIRMATOIRE

  • Upload
    others

  • View
    18

  • Download
    1

Embed Size (px)

Citation preview

ANALYSE FACTORIELLE CONFIRMATOIRESTT-7620 ANALYSE FACTORIELLE CONFIRMATOIRE
L’analyse factorielle exploratoire permet d’identifier des facteurs latents à partir de
variables mesurées. Elle définit chaque variable latente en y associant un certain nombre
de variables mesurées. L’analyse factorielle confirmatoire permet de poursuivre
l’analyse en posant des paramètres (loadings) égaux à 0, en permettant aux facteurs
latents d’être corrélés, et en ajoutant au besoin des corrélations supplémentaires entres les
erreurs résiduelles. Elle définit de façon détaillée les facteurs latents.
En principe l’analyse exploratoire et confirmatoire ne se font pas sur le même jeu de
données. L’analyse confirmatoire peut chercher à déterminer si un ensemble de questions
développées dans un certain contexte permet de bien caractériser un phénomène dans un
contexte un peu différent. Il peut s’agir du suivi et de la validation de questionnaires mis
sur pied dans la phase initiale d’un projet de recherche.
- 2 -
EXEMPLE DU MILIEU SOCIO-ECONOMIQUE
Dans les données sur les étudiants américains (n=3094) on cherche à caractériser le
background d’un étudiant, à savoir le milieu socio-économique de ses parents et sa
performance académique à l’école secondaire. Cette dernière est mesurée par la variable
HSRank. Pour caractériser le milieu socio-économique on a utilisé la variable FaEd. On
va maintenant utiliser 3 variables
pour cela, à savoir MoEd, FaEd et
PaJntInc, (l’éducation de la mère, du
père et le revenu moyen des parents).
Le milieu socio-économique de
une variable latente déterminée par 3
variables observées. On a deux
variables explicatives latentes (la
HSRank.)
Le diagramme précédent spécifie que MoEd, FaEd et PaJntInc sont conditionnellement
indépendantes de HSRank étant donné PaSeS. En d’autres termes les corrélations
observées entre MoEd, FaEd, PaJntInc et HSRank sont toutes déterminées par la
corrélation 12 entre les deux variables latentes du modèle et par les loadings 11 21 31 , et .
Si le diagramme ci-haut décrit bien la réalité et si la variable latente PaSeS est une
variable explicative pour les trois variables endogènes DegreAsp, Selctvty et Degree,
alors l’analyse de régression avec variable observée où FaEd caractérise le milieu socio-
économique (voir partie 1) sous estime la force de la relation entre PaSeS et les variables
dépendantes. En effet selon le diagramme, FaEd mesure PaSeS avec une erreur 2.
En régression, la force de la relation entre une variable explicative mesurée avec erreurs
et la variable dépendante est plus faible que si la variable explicative est mesurée sans
erreur.
- 4 -
matrice de variances covariances
résiduelles.
Ce modèle a la même forme qu’un modèle factoriel exploratoire à m=2 facteurs sauf que
(i) on permet des variances quelconques et une corrélation pour les variables latentes et
(ii) des loadings (paramètres ) sont fixés à 0, 12 22 32 41
= = 0 .
- 5 -
DÉFINITION DU MODÈLE
On a vu, dans l’étude des modèles d’analyse factorielle exploratoire, que d=3 variables
observées donnent un modèle à une variable latente saturé (il n’y a aucun degré de liberté
pour tester l’ajustement du modèle). Le modèle avec d=3 à une variable latente pour
MoEd, FaEd et PaJntInc s’ajuste donc parfaitement.
Le modèle étudié ici spécifie en plus que les trois corrélations entre HSrank et (MoEd,
FaEd, PaJntInc) s’expliquent toutes par la corrélation entre PaSES et HSrank. Etudier
l’ajustement du modèle c’est évaluer la véracité de cette hypothèse.
- 6 -
ÉCRITURE DE LA MATRICE DE VARIANCES-COVARIANCES THÉORIQUE.
La matrice de variances-covariances de X est une matrice 4x4 (note d=4=NX dans la
notation de LISREL). Pour la calculer on utilise le fait que les erreurs sont
indépendantes des variables latentes et donc que E(=0. Ainsi, en général, ( ) a
une forme semblable à celle rencontrée en analyse factorielle exploratoire, ( ) ( ') ' ( ')x xE E
Pour le modèle à l’étude,
1
0 0 0 0
En effectuant les produits matriciels on obtient l’expression suivante.
1 1 1 1 1 2
1 1 2 1 1 2
1 1 1 3 1 2
1 2 1 2 1 2 2 4
2 2 2 2 2
11 11 21 11 31 11 42
2 2 2 2 2
11 21 21 21 31 21 42
2 2 2 2 2
11 31 21 31 31 31 42
2 2 2
( )










DÉFINITION DES VARIABLES LATENTES
Les paramètres du modèle précédent ne sont pas tous identifiables car les variables
latentes peuvent être définies de plusieurs façons :
1. On peut faire comme dans l’analyse exploratoire et standardiser les variables
latentes en imposant 1 2
2 2 1 . Le seul paramètre non estimable dans le modèle
précédent est alors 4
variable observée
2. Pour donner des unités de mesure à chaque variable latente, on peut fixer un loading
égal à 1 pour chaque construit. Si on pose 31 42
1 , la première variable latente a
les mêmes unités que PaJntInc alors que la deuxième est égale à HSRank.
Évidemment 4
n’est toujours pas estimable dans ces conditions.
3. On a en d(d+1)/2 =4x5/2=10 degrés de liberté dans une matrice de variances-
covariances 4x4 et 8 paramètres à estimer. Il reste donc 2 degrés de liberté pour
tester l’ajustement du modèle.
- 8 -
ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE
Le modèle postule que les Xi suivent une loi normale de moyenne (un vecteur 4x1) et
de matrice de variances covariances ( ) où est les vecteurs des 8 paramètres de la
matrice de variances covariances (on pose 31 42
1 et 4
1 2 1 2 1 2 2
2 2 2 2
2
1 1 2
1 1 2
( ) ( )





.
La matrice de variances covariances empiriques S ne satisfait pas ces égalités, il faut donc
utiliser un algorithme itératif pour trouver une matrice ( ) qui soit le plus prêt possible
de S.
Moins la log-vraisemblance des données s’écrit
11 ( ) log | ( ) | log | | tr[ ( ) ]

où d est le nombre de variables X observées et S est la matrice de variances-covariances.
Dans l’exemple on a d=4 variables (MoEd, FaEd, PaJntInc, HSRank ) de plus
1.510 1.133 1.452 0.110
1.452 2.125 7.017 0.113
0.110 0.150 0.113 0.604
0.098 0.144 0.183 0.604


,
où ˆ( ) représente la matrice ( ) évaluée à l’estimateur du maximum de vraisemblance
. Cet estimateur est obtenu en minimisant ( ) à l’aide d’un algorithme itératif
(attention des problèmes de convergence sont possibles!).
- 10 -
TESTS D’AJUSTEMENT
Notons que ˆ( ) mesure l’écart entre la matrice de variances covariances empirique S et
son estimateur ˆ( ) . En fait ˆ( ) 0 si ˆ( )S . La magnitude de ˆ( ) permet de
juger de l’ajustement du modèle CFA à l’étude. La statistique du chi-deux pour tester
l’ajustement du modèle est 2

.
On rejette au seuil l’hypothèse que le modèle s’ajuste bien si 2
( 1)/2 ,1 ˆ2 ( ) d d p , le
percentile 100(1-) du chi deux à d(d+1)/2-p degrés de liberté (ici 2 degrés de libertés
sont associés à ce test). Notons qu’il n’y a pas de correction de Bartlett pour un modèle
CFA quelconque. Dans la sortie LISREL,
1ˆ, ( ) log | ( ) | log | | tr[ ( ) ]F S S S d

est le Minimum fit function pour le modèle. En fait le test du rapport de vraisemblance
n’est pas suffisant pour juger de la qualité d’un ajustement et plusieurs autres statistiques
on été mises de l’avant pour ce faire.
- 11 -
1. Les variances estimées de variables latentes (une variable latente intéressante varie!)
2. Les tests pour H0 : ji=0 pour savoir si les variables mesurées contribuent de façon
significative aux variables latentes construites;
3. Les R2 de chaque variable observée pour voir le pourcentage de sa variabilité
expliquée par les variables latentes;
4. Les estimations ˆ s
ij des loadings standardisés pour déterminer les variables les plus
associées à chaque variable latente;
5. Les indices d’ajustement pour vérifier si le modèle s’ajuste bien aux données;
- 12 -
data afc(type=cov);
datalines;
;
LINEQS
run;
dimnames=list(c("MoEd","FaEd","PaJntInc","HSRan
performance scolaire
Observed Variables
Number of Decimals = 3
1 )
Programme LISREL TI Quatre variables pour le statut parental et la
performance scolaire
SY='C:\Documents and Settings\***\CFA02-06.DSF'
MO NX=4 NK=2 TD=SY
LK
TD=Theta Delta
VA=donne une valeur spécifique à un
paramètre
- 14 -
MoEd FaEd PaJntInc HSRank
Std Err 0.0483 lambda_21
Std Err 0.0627 lambda_31
t Value 29.7994
HSRank = 1.0000 F_AcRank
Cette partie de la sortie SAS donne les éléments de la matrice des coefficients structuraux ˆ ij
(loadings). Tous les coefficients sont significatifs.
ˆ
Covariances Among Exogenous Variables
Var1 Var2 Parameter Estimate Stderr tValue
F_PaSES F_AcRank cov 0.09814 0.01392 7.05
Ces parties de la sortie SAS renseigne sur les éléments de la matrice de
variances covariances des variables latentes ( ) et sur les éléments de
la matrice de variances covariances des erreurs pour les variables
observées ( ˆ
).
Comme en régression, le modèle décompose la variance de chaque variable en une partie prédite par
le modèle et une partie résiduelle. Par exemple,
1 1

0 0 4.3127 0
0 0 0 0
ij
lambda_21
lambda_31
4 HSRank . 0.60400 .
Correlations Among Exogenous Variables
Var1 Var2 Parameter Estimate
F_PaSES F_AcRank cov 0.14354
Ces parties de la sortie SAS donne les loadings standardisés qui sont les corrélations entre les
variables observées et les variables latentes. Par exemple, la corrélation entre MoEd et PaSES est de
11 ˆ 0.7159s . De plus, le R
2 de la régression de PaSES sur MoEd est de 51.26%. La dernière
statistique nous renseigne sur la corrélation entre les deux variables latentes, soit r=0.14354.
- 17 -
L’information sur l’ajustement du modèle peut être résumée dans le diagramme de cheminement
suivant :
Effets standardisés Estimateurs des paramètres
d’origine
Interprétation des sorties
Le loading standardisé (standardized solution) est défini comme étant 2ˆ ˆˆ
j
s
ij ij ,
c’est le loading qu’on aurait obtenu si on avait fixé la variance de la variable latente à 1.
Dans l’exemple précédent, le loading standardisé pour FaEd est ˆ .774 1.467 1.290s
ij
Par contre le loading complètement standardisé (completely standardized solution) est
celui qui tient également compte de la variance de la variable 2 2ˆ ˆˆ /
j
cs
ij i ijs
Dans l’exemple précédent, le loading complètement standardisé pour FaEd est ˆ .774 / 2.283 1.467 0.854s
ij
PaSES ACRank MoEd 0.716 - - FaEd 0.854 - - PaJntInc 0.621 - - HSRank - - 1.000
PaSES ACRank MoEd 0.880 - - FaEd 1.290 - - PaJntInc 1.645 - - HSRank - - 0.777
- 19 -
INDICES D’AJUSTEMENT
Tous les programmes pour les modèles d’équations structurelles rapportent plus d’une
trentaine d’indices pour évaluer l’ajustement d’un modèle. Le principal défaut du test
d’ajustement du rapport de vraisemblance est qu’il dépend de n. Il a tendance à être
significatif lorsque n est grand même si le modèle s’ajuste relativement bien. Plusieurs
alternatives au test du chi-deux ont été mises de l’avant pour évaluer l’ajustement. On a,
par exemple, essayer de généraliser le R2 de la régression qui s’écrit :
2
2
2



.
En mot, c’est un moins la proportion de la variabilité de y qui n’est pas expliquée par le
modèle de régression.
Le GFI (goodness of fit index) reprend cette formule avec ˆ, ( )resSS F S
et
, (0)totSS F S , où (0) est une matrice de variance covariances de référence dont
tous les paramètre sont fixes (peut-être que (0) est la matrice identité). Comme valeur
de totSS le NFI (normed fit index) prend plutôt 2 2
1 ˆ ˆ,diag( ,..., )tot dSS F S où
2 2
1 ˆ ˆ,diag( ,..., )d iF S F est proportionnelle à la statistique du chi-deux pour tester
l’hypothèse d’indépendance,
2 2 2
.
Rappelons que si cette statistique est petite, disons du même ordre de grandeur que ses
degrés de liberté, l’hypothèse d’indépendance entre les d variables est acceptable. Il est
inutile de poursuivre l’analyse.
Le Normed fit index est donc 1 moins la proportion du chi-deux d’indépendance qui reste
une fois que le modèle a été ajusté, ˆ ˆ, ( ) , ( )
NFI 1 i
F F
.
(attention : peut être inférieur à 1 même si le modèle s’ajuste bien ; cet indice peut sous-
estimer la qualité de l’ajustement !)
Certaines mesures, comme le adjusted goodness of fit index (AGFI) s’inspirent du R2
ajusté,


(on rappelle que p est le nombre de paramètres du modèle d’équations structurelles).
Une version un peu compliquée du NFI, le non normed fit index (NNFI), compare les
indices 2 divisés par leur degré de liberté pour le modèle d’indépendance et le modèle à
l’étude :
/ [ ( 1) / 2 ]
F d d d n

.
n F S d d p




.
L’ajustement du modèle est jugé satisfaisant si ces indices sont supérieurs à environ 90%.
Le « parsimonious normed fit index », PNFI, multiplie le NFI par {d(d+1)/2-p}/{d(d-
1)/2}, la proportion des paramètres de dépendance non utilisée par le modèle. Une valeur
faible indique que le modèle utilise un pourcentage important des paramètres disponibles.
Un autre indice mesure le manque d’ajustement. Le root mean squared error
approximation (RMSEA),
- 22 -
Degrees of Freedom = 2 =d(d+1)/2-p
Minimum Fit Function Chi-Square = 7.405 (P =
0.0247) Test d’ajustement du modèle (Hypothèse
nulle: le modèle postulé décrit bien la relation entre
les variables, Alternative : le modèle ne décrit pas
bien cette relation)
7.372 (P = 0.0251)
90 Percent Confidence Interval for NCP = (0.491 ;
17.733)
=7.405/3093
0.00174
0.00573)
= 0.0295 .00239 / 2 1/ 3093
90 Percent Confidence Interval for RMSEA =
(0.00891 ; 0.0535) P-Value for Test of Close Fit
(RMSEA < 0.05) = 0.915
90 Percent Confidence Interval for ECVI = (0.00598 ;
0.0116)
Independence Model = 0.888
of Freedom = 2739.195
paramètres de covariance sont nuls)
Independence AIC = 2747.195 Model AIC = 23.372
Saturated AIC = 20.000 Independence CAIC =
2775.344 Model CAIC = 79.670 Saturated CAIC =
90.372
Parsimony Normed Fit Index (PNFI) = 0.332
Comparative Fit Index (CFI) = 0.998
Incremental Fit Index (IFI) = 0.998
Relative Fit Index (RFI) = 0.992
(livre p. 89-90)
Standardized RMR = 0.0116
Adjusted Goodness of Fit Index (AGFI) = 0.994
Parsimony Goodness of Fit Index (PGFI) = 0.200
- 23 -
(LISTE ÉCOURTÉE)
Fit Function
0.9988
0.9940
0.0228
0.0091
0.0537
0.0060
0.0116
Akaike's Information Criterion 3.4288
Bozdogan's (1987) CAIC -10.6457
Bentler & Bonett's (1980) NFI 0.9972
James, Mulaik, & Brett (1982) Parsimonious NFI
0.3324
Hoelter's (1983) Critical N 2496
- 24 -
CONCLUSIONS POUR LE PREMIER EXEMPLE:
Statistique du chi deux (et 2 / 2obs =3.71) un peu grande ; ceci est sans doute
attribuable à la grande taille d’échantillon ;
Cette grande valeur vient du fait que la corrélation observée de 0.055 entre PaJntInc
et HSRank est beaucoup plus petite que la corrélation prédite .089. En fait PaJntInc
mesure le volet économique du milieu socio économique parental alors que les deux
autres variables sont associés à l’aspect académique de ce milieu. HSRank qui
mesure la performance académique est plus corrélée avec MoEd et FaEd qu’avec
PaJntInc. On pourrait raffiner le modèle en distinguant deux aspects, académique et
économique, au milieu parental.
Les indices d’ajustement sont bons, cependant les indices de parcimonie sont
faibles ; le modèle utilise beaucoup de paramètres pour modéliser 10 degrés de
liberté ;
Le R2 de .386 pour PaJntInc est faible et pose la question à savoir si cette variable
est vraiment utile pour caractériser le niveau socio-économique des parents. Notons
cependant que le loading associé à cette variable, 13 ˆ 1.869 , est significativement
différent de 0 (t=30). Ceci suggère de conserver cette variable dans le modèle.
Le alpha de Cronbach pour la variable latente PaSES est de .77. Les 3 items sous-
jacents sont bien associés à un même construit latent.
- 25 -
L’AJUSTEMENT EST MAUVAIS
Le bon ajustement d’un modèle d’analyse factorielle confirmatoire signifie que l’analyste
a identifié une structure plausible pour le phénomène étudié. Évidemment, cette structure
plausible n’est pas unique et il est possible qu’une analyse des mêmes données avec un
autre modèle donne des résultats aussi bons!
Que faire si le modèle postulé ne s’ajuste pas bien? On peut
1. Rejeter le modèle étudié comme étant incapable de bien représenter la structure des
données à l’étude.
2. Choisir le modèle qui s’ajuste le mieux parmi une liste dressée a priori des modèles
susceptibles de bien expliquer les données.
3. Modifier le modèle en se basant sur des mesures d’ajustement et sur des statistiques
diagnostiques dont nous allons discuter maintenant.
On distingue souvent deux types d’erreurs, externes et internes. L’oubli d’une variable
importante pour l’analyse est une erreur externe alors que l’omission d’un lien entre deux
variables de l’analyse est une erreur interne. Une bonne connaissance du domaine
d’application des équations structurelles offre une certaine protection contre les erreurs
externes. Des outils statistiques sont disponibles pour mettre en lumière les erreurs
internes.
- 26 -
Modification Indices (MI) et Expected Parameter Change (EPC)
Ces deux classes de statistiques sont des outils pour détecter et corriger les erreurs
internes pour un modèle.
On peut ajouter au modèle des paramètres structuraux ou éventuellement des
covariances entre les variables observées, c’est-à-dire des éléments non nuls hors de la
diagonale de la matrice .
Si un paramètre est fixé à 0 dans la spécification initiale du modèle on peut étudier le
bien fondé de cette décision en testant l’hypothèse H0 :=0. Une statistique score,
souvent appelé test du multiplicateur de Lagrange, peut être utilisée dans ce cas.
L’intérêt d’un test score est qu’il peut être calculé sans faire un nouvel ajustement du
modèle, en y ajoutant un nouveau possiblement non nul. En analyse d’équations
structurelles les MI sont les statistiques chi-deux observées, à un degré de liberté, pour les
tests scores de paramètres fixés à 0 lors de l’ajustement initial du modèle.
On va maintenant construire des variables latentes pour les variables endogènes dans
l’exemple du milieu socio-économique. Dans l’exemple de diagramme de cheminement
avec variables observée, on avait trois variables endogènes DegreAsp → Selctvty →
Degree. On va chercher à mieux caractériser l’ambition et le milieu socio-économique en
les définissant à partir de plusieurs variables observées.
- 27 -
CFA POUR LA MOTIVATION ACADEMIQUE, LE PRESTIGE DU COLLEGE ET
LE STATUT SOCIO-ECONOMIQUE
On a 7 variables observées X1=AcAbilty, X2=SelfConf, X3=DegreAsp, X4=Selctvty,
X5=Degree, X6=OcPrestg X7=Income. La matrice de variances covariances à modéliser
est
AcAbilty 0.554
Degree 0.173 0.135 0.247 0.486 0.925
OcPrestg 0.193 0.112 0.202 0.491 0.736 2.531
Income 0.077 0.051 0.041 0.240 0.166 0.352 2.647
On veut exprimer ces variables en terme de trois variables latentes, à savoir 1=
Motivation académique, 2= Prestige du collège et 3= Statut socio-économique de la
façon suivante,
X1=AcAbilty, X2=SelfConf, X3=DegreAsp → 1= Motivation académique,( AcMotiv )
X4=Selctvty → 2= Prestige du collège (ColgPres )
X5=Degree, X6=OcPrestg X7=Income → 3=Statut socio-économique (SES)
- 28 -
UN PROBLEME POTENTIEL
En principe, dans un modèle d’analyse factorielle confirmatoire, deux variables associées
à une même variable latente devraient être plus corrélées entre elles que si elles étaient
associées à deux variables latentes différentes. En effet, dans ce dernier cas la corrélation
entre les deux variables vient seulement de la corrélation entre les deux variables latentes.
Dans cet exemple, les corrélations entre Degree et Income est de .106 alors que la
corrélation Degree DegreAsp est de .253. Ces corrélations contreviennent à la règle
générale énoncée plus haut. Elle laisse planer un doute concernant la qualité du modèle
postulé. On note également la faible corrélation de Income avec toutes les autres
variables. AcAbilty SelfConf DegreAsp Selctvty Degree OcPrestg Income
AcAbilty 1
Degree 0.242 0.179 0.253 0.254 1
OcPrestg 0.163 0.090 0.125 0.155 0.481 1
Income 0.064 0.040 0.025 0.074 0.106 0.136 1
Note: les de Cronbach pour Degree , OcPrestg ,Income (correlation moyenne rm=.241,
s=0.49) et AcAbilty, SelfConf, DegreAsp (rm=.310, s=0.57) ne satisfont pas le critère 3
0.7 1 2
Le modèle de CFA est décrit par les matrices suivantes
11
21
31
42
53
63
73
2
2
2
















AcAbilty SelfConf DegreAsp Selctvty
.163 .090 .125 .155 .481 1
.064 .040 .025 .074 .106 .136 1
Standard deviations
Sample Size 3094
Relationships:
Number of Decimals = 3
LISREL Estimates (Maximum Likelihood) Measurement Equations AcAbilty = 1.000*AcMotiv, Errorvar.= 0.193 R=0.651 (0.0161) 11.972
SelfConf = 0.765*AcMotiv, Errorvar.= 0.401 R²=0.345 (0.0371) (0.0138) 20.605 29.045
DegreAsp = 0.568*AcMotiv, Errorvar.= .912 R²=0.113 (0.0387) (0.0244) 14.671 37.415
Selctvty = 1.000*ColgPres,, R² = 1.000
Degree = 1.000*SES, Errorvar.= 0.287 , R² = 0.690 (0.0430) 6.671
OcPrestg = 1.151*SES, Errorvar.= 1.685 , R² =0.334 (0.0808) (0.0708) 14.254 23.801
CS= 1.151(.639/2.531) .5 =.578
Income = 0.309*SES, Errorvar.= 2.586 , R² = 0.0230 (0.0452) (0.0663) 6.833 38.985
On note le petit R 2 de 2.3%
Covariance Matrix of Independent Variables
AcMotiv ColgPres SES
(0.013) (0.035) (0.048)
14.377 13.631 13.325
Goodness of Fit Statistics Degrees of Freedom = 12 Minimum Fit Function Chi-Square = 155.501 (P = 0.0)
Minimum Fit Function Value = 0.0503 Population Discrepancy Function Value (F0) = 0.0459 90 Percent Confidence Interval for F0 = (0.0341 ;
0.0600) Root Mean Square Error of Approximation (RMSEA) =
0.0618 90 Percent Confidence Interval for RMSEA = (0.0533
; 0.0707) P-Value for Test of Close Fit (RMSEA < 0.05) =
0.0116
Expected Cross-Validation Index (ECVI) = 0.0601 (ou
.0606 selon le livre p.107) 90 Percent Confidence Interval for ECVI = (0.0483 ;
0.0742)
Chi-Square for Independence Model with 21 Degrees
of Freedom = 3526.069 Independence AIC = 3540.069 Model AIC = 185.852 Saturated AIC = 56.000 Independence CAIC = 3589.330 Model CAIC = 298.447 Saturated CAIC = 253.042
Normed Fit Index (NFI) = 0.956 Non-Normed Fit Index (NNFI) = 0.928 Parsimony Normed Fit Index (PNFI) = 0.546 Comparative Fit Index (CFI) = 0.959 Incremental Fit Index (IFI) = 0.959 Relative Fit Index (RFI) = 0.923 Critical N (CN) = 522.490 Root Mean Square Residual (RMR) = 0.0540 Standardized RMR = 0.0370 Goodness of Fit Index (GFI) = 0.986 Adjusted Goodness of Fit Index (AGFI) = 0.967 Parsimony Goodness of Fit Index (PGFI) = 0.423
- 31 -
Faits saillants de l’analyse :
1-Income contribue très peu à la variable SES (R² = 0.0230)
2- Mauvais ajustement 2
12 153.85 .
Les degrés de liberté sont calculés de la façon suivante dl =7*8/2-6-4- 6 = 12 où 6= #
variances résiduelles, 4= # paramètres qui varient, 6= # de paramètres dans la matrice
. En fait ce modèle compte 6+4+6=16 paramètres.
On va chercher les aspects les plus problématiques du modèle à l’aide des indices de
modification (MI) et ajouter certains paramètres au modèle
- 32 -
The Modification Indices Suggest to Add the
Path to from Decrease in Chi-Square New Estimate AcAbilty ColgPres 12.5 0.05 AcAbilty SES 12.1 -0.10 SelfConf ColgPres 43.4 -0.07
DegreAsp ColgPres 19.5 0.05 DegreAsp SES 85.3 0.27 OcPrestg AcMotiv 8.6 -0.31
La suggestion qui baisse le plus la statistique chi-deux ne respecte pas la construction du
modèle: DegreAsp est un déterminant de AcMotiv. SES ne peut contribuer à cette
variable. The Modification Indices Suggest to Add an Error Covariance
Between and Decrease in Chi-Square New Estimate #1 SelfConf AcAbilty 70.9 0.23
#3 DegreAsp AcAbilty 56.7 -0.12 #7 Selctvty AcAbilty 14.5 0.14 #4 Selctvty SelfConf 35.7 -0.18 #9 Selctvty DegreAsp 10.2 0.11 #8 Degree AcAbilty 13.6 -0.04 #2 Degree DegreAsp 70.8 0.12 #5 Income Degree 20.5 -0.16 #6 Income OcPrestg 15.2 0.17
Note : LISREL sort ces statistiques par défaut.
- 33 -
s’il a un grand MI et si
son EPC est grand s’il
respect la logique du
problème de deux façons
permettant à certaines
erreurs de covarier.
#1 SelfConf AcAbilty 70.9 #2 Degree DegreAsp 70.8 DegreAsp SES 85.3
- 34 -
Suggestions pour la suite :
1- Laisser tomber Income et utiliser seulement deux variables pour définir la variable
latente SES ;
2- On ajoute des covariances entres les erreurs résiduelles pour (1) SelfConf et
AcAbilty et (2) Degree et DegreAsp
Programme SIMPLIS avec ces changements Observed Variables AcAbilty SelfConf DegreAsp Selctvty Degree
OcPrestg Correlation Matrix 1 .487 1 .236 .206 1 .382 .216 .214 1 .242 .179 .253 .254 1 .163 .090 .125 .155 .481 1 Standard deviations .744 .782 1.014 1.990 .962 1.591 Sample Size 3094 Latent Variables: AcMotiv ColgPres SES Relationships: AcAbilty = 1*AcMotiv SelfConf = AcMotiv DegreAsp = AcMotiv Selctvty = 1*ColgPres Degree = 1*SES OcPrestg =SES Set the error Variance of Selctvty to 0 Set the error Covariance of AcAbilty and SelfConf
free Set the error Covariance of Degree and DegreAsp
free Number of Decimals = 3 Wide Print
Path Diagram End of Problem 6.6in.02in
LISREL Estimates (Maximum Likelihood) Measurement Equations
AcAbilty = 1.000*AcMotiv, Errorvar.= 0.323,R²=0.416 (0.0206) 15.713
SelfConf = 0.683*AcMotiv, Errorvar.= 0.504,R²=0.176 (0.0389) (0.0174) 17.551 28.999
DegreAsp = 0.811*AcMotiv, Errorvar.= 0.877,R²=0.147 (0.0652) (0.0255) 12.440 34.451
Selctvty = 1.000*ColgPres,, R² = 1.000
Degree = 1.000*SES, Errorvar.= 0.237 , R² = 0.743 (0.0527) 4.492
- 35 -
OcPrestg = 1.066*SES, Errorvar.= 1.751 ,R² = 0.308 (0.0856) (0.0748) 12.450 23.428
Error Covariance for SelfConf and AcAbilty = 0.126 (0.0156) 8.069 Error Covariance for Degree and DegreAsp = 0.0895 (0.0161) 5.558
La variance de AcMotiv a baissé de .360 à
.230 ! Les R 2 associés à cette variable ont
diminués, sans doute parce que l’on permet une
corrélation entre SelfConf and AcAbilty. Covariance Matrix of Independent Variables
AcMotiv ColgPres SES
(0.013) (0.035) (0.057)
13.980 13.725 12.062
Goodness of Fit Statistics Degrees of Freedom = 5 Minimum Fit Function Chi-Square = 27.464 (P =
0.000)
Minimum Fit Function Value = 0.00888 Population Discrepancy Function Value (F0) =
0.00718
0.0137) Root Mean Square Error of Approximation (RMSEA) =
0.0379 90 Percent Confidence Interval for RMSEA = (0.0247
; 0.0524) P-Value for Test of Close Fit (RMSEA < 0.05) =
0.912
Expected Cross-Validation Index (ECVI) = 0.0191 90 Percent Confidence Interval for ECVI = (0.0150 ;
0.0257) ECVI for Saturated Model = 0.0136 ECVI for Independence Model = 1.102
Normed Fit Index (NFI) = 0.992 Non-Normed Fit Index (NNFI) = 0.980 Parsimony Normed Fit Index (PNFI) = 0.331 Goodness of Fit Index (GFI) = 0.997 Adjusted Goodness of Fit Index (AGFI) = 0.988 Parsimony Goodness of Fit Index (PGFI) = 0.237
Evidemment, l’ajustement est meilleur
qu’avant, cependant le construit AcMotiv
manque de stabilité. Sa variance
relativement est faible de AcMotiv .230 .
Un Intervalle de confiance à 95% est
(.186, .274).
37
DISCUSSION DES RESULTATS
1-L’instrument mis au point répond-il aux attentes ? Mesure-t-il ce pourquoi il a été
développé ?
Les valeurs possibles de l’instrument couvrent-elles une plage suffisamment large ?
(Note : Instrument = Variable latente construite)
Validité = corrélation avec d’autres variables censées mesurées la même chose.
L’analyse confirmatoire permet de définir 3 dimensions à validité :
1- Bon ajustement statistique du modèle aux données ;
2- Des coefficients assez grands (pour comparer 2 jeux de données on utilise les
coefficients non standardisés alors que pour comparer les variables entre elles on
utilise les coefficients standardisés) ;
3- Une correspondance entre les relations estimées et espérées entre les variables
latentes.
Fiabilité
1- Stabilité temporelle (corrélation entre deux temps de collecte, carry-over effect ?)
2- Cohérence interne (corrélation entre les 2 composantes d’un construit ou alpha de
Cronbach)
3- Les R2 qui donnent la proportion de variance expliquée par les construits sont
grands
38
POLICIERS
Le modèle avec les deux facteurs pour expliquer les 10 variables s’ajuste bien 2
26 34.94 Factor 1 Factor 2 Unique Var
CommSk 0.457 0.575 0.460 LearnAbi 0.187 0.708 0.464 Judgment 0.639 0.382 0.446 ObserSk 0.134 0.862 0.239 WillConP 0.103 0.797 0.353 IntPeop 0.886 0.159 0.190 InterPer 0.901 0.048 0.186 DesiSelf 0.414 0.644 0.415 Depend 0.580 0.551 0.361 Inegrety 0.768 0.321 0.307
Facteur 1 : Relations interpersonnelles
Facteur 2 : Habilités individuelles
En général un item n’est associé qu’à un seul construit latent. On peut donc 5 items à
chacun des deux construit sur la base du plus grand s
ji .Ceci donne un modèle d’AFC
dont nous allons maintenant évalué l’ajustement.
39
variables latentes
Depend Inegrety
IntPeop =1*Rela
bien Goodness of Fit Statistics
Degrees of Freedom for (C1)-(C2) 34 Maximum Likelihood Ratio Chi-Square (C1) 121.396 (P
= 0.0000) Browne's (1984) ADF Chi-Square (C2\_NT) 130.842 (P =
0.0000) Estimated Non-centrality Parameter (NCP) 87.396 90 Percent Confidence Interval for NCP (57.505 ;
124.877) Minimum Fit Function Value 1.179 Population Discrepancy Function Value (F0) 0.849 90 Percent Confidence Interval for F0 (0.558 ;
1.212)
0.158 90 Percent Confidence Interval for RMSEA (0.128 ;
0.189) P-Value for Test of Close Fit (RMSEA $<$ 0.05) 0.000
Expected Cross-Validation Index (ECVI) 1.586 90 Percent Confidence Interval for ECVI (1.296 ;
1.950) ECVI for Saturated Model 1.068 ECVI for Independence Model 12.310
Chi-Square for Independence Model (45 df) 1247.947
40
Normed Fit Index (NFI) 0.902 Non-Normed Fit Index (NNFI) 0.903 Parsimony Normed Fit Index (PNFI) 0.681 Comparative Fit Index (CFI) 0.927 Incremental Fit Index (IFI) 0.927 Relative Fit Index (RFI) 0.870
Critical N (CN) 48.104
Perso Rela -------- -------- Perso 2.101 (0.429) 4.896
Rela 1.429 2.822 (0.321) (0.500) 4.449 5.641
On inclut dans le modèle des covariances entre certaines variables observes pour obtenir
un meilleur ajustement. Les indices de modifications suggérent d’ajouter un lien de
Perso à Depen. Cette modification pourrait également être envisagée. Notons que l’ajout
des trois covariances résiduelles augmente la corrélation entre les deux facteurs latents
qui passe de 0.59 à 0.71.
Il faut aussi noter que l’ajout de covariance diminue les R2 car la variable latente n’est
plus la seule explication pour la variabilité d’une variable observée. Elle diminue aussi la
variance des variables latentes. Par exemple, celle de Rela passe de 2.82 à 2.39. Dans le
modèle retenu le RMSEA est élevé. Peut-être qu’identifier Depen à un seul construit
n’est pas approprié. C’est toutefois ce modèle que nous allons utiliser pour construire un
modèle de prédiction pour le score global.
41
Measurement Equations
ObserSk = 1.000*Perso, Errorvar.= 1.331 , R\² = 0.571 Standerr (0.233) Z-values 5.726
CommSk = 1.055*Perso, Errorvar.= 1.335 , R\² = 0.596 Standerr (0.137) (0.240) Z-values 7.675 5.572
DesiSelf = 1.031*Perso, Errorvar.= 1.110 , R\² = 0.629
42
Standerr (0.132) (0.206) Z-values 7.810 5.378
LearnAbi = 0.747*Perso, Errorvar.= 0.805 , R\² = 0.551 Standerr (0.102) (0.137) Z-values 7.307 5.885
WillConP = 0.783*Perso, Errorvar.= 1.239 , R\² = 0.467 Standerr (0.0866) (0.201) Z-values 9.040 6.159
IntPeop = 1.000*Rela, Errorvar.= 1.186 , R\² = 0.669 Standerr (0.222) Z-values 5.340
Judgment = 0.821*Rela, Errorvar.= 1.383 , R\² = 0.539 Standerr (0.103) (0.225) Z-values 8.004 6.154
InterPer = 0.833*Rela, Errorvar.= 1.370 , R\² = 0.548 Standerr (0.0711) (0.220) Z-values 11.706 6.222
Depend = 0.967*Rela, Errorvar.= 1.437 , R\² = 0.609 Standerr (0.112) (0.248) Z-values 8.654 5.801
Inegrety = 1.021*Rela, Errorvar.= 0.907 , R\² = 0.734 Standerr (0.105) (0.192)
43
Covariance Matrix of Independent Variables
Perso Rela -------- -------- Perso 1.772 (0.413) 4.290
Rela 1.472 2.395 (0.315) (0.491) 4.679 4.876