60

Équations Structurelles : Le mariage de la … · 6 apports des équations structurelles 1. Estimer simultanément plusieurs relations 2. Incorporer les erreurs de mesure 3. Introduire

Embed Size (px)

Citation preview

Équations Structurelles :

Le mariage de la psychométrie et de

l’économétrie

Jean-Louis Chandon

Matinale INSEEC - RITME 24 Mars 2016

Une méthode utilisés dans de

nombreux domaines scientifiques

• Psychologie

• Sociologie

• Ressources Humaines

• Marketing

• Généralisant la régression multiple, les

analyses de la variance et les analyses

factorielles

6 apports des équations

structurelles

1. Estimer simultanément plusieurs relations

2. Incorporer les erreurs de mesure

3. Introduire les variables latentes

4. Introduire des variables médiatrices

5. Introduire des variables modératrices

6. Évaluer globalement et localement un modèle

7. Exemple

Les analyses suivantes sont des cas

particuliers des équations structurelles

• Analyses factorielles exploratoires et confirmatoires

• Analyses de régression

• Anova, Anacova, Manova, Manacova

• Path analysis

• Analyse canonique

• Modèles de croissance

Les équations structurelles (SEM) sont une méthode très générale et très flexible

Distinction PLS vs FIML

• PLS (Partial Least Square) On peut utiliser les moindres

carrés partiels pour estimer des équations structurelles

Les principales différences avec la méthode d’estimation

classique FIML (Full Information Maximum Likelihhod)

sont :

• FIML utilise toutes les informations contenues dans la

matrice des variances covariance entre les variables

observées.

• PLS utilise uniquement les informations nécessaires à

l’estimation d’un modèle

• PLS produit des estimateurs biaisés.

Un simple modèle

Les règles du jeu

• Des rectangles : les mesures (observées)

• Des ovales : les concepts latents (postulés)

• Des cercles : les erreurs de mesure

• Des flèches qui ont un sens

– Des concepts vers les mesures (le concept se

reflète dans ses mesures)

– Entre les concepts (selon la théorie proposée)

Des flèches à double sens (corrélations entre

concepts)

On révise

Variable latente

• Une variable latente est un construit abstrait, non directement observable, qui nécessite de disposer de plusieurs indicateurs pour le mesurer

• Exemple : l’intelligence, la satisfaction, l’attachement, l’engagement, la personnalité, etc.

• Modéliser un construit par une variable latente, c’est reconnaître la nécessité de plusieurs indicateurs et l’existence d’erreurs de mesure

• La relation entre le construit et ses indicateurs peut être réflexive ou formative.

Réflexif vs Formatif

11

Comment choisir ?

Critères conceptuels de différenciation des construits:

12

Modèle réflexif Modèle formatif

Sens de causalité Du construit vers les indicateurs

Des indicateurs vers le construit

Interchangeabilité indicateurs/items

Si suppression d’1 indicateur

=> Pas d’ altération du domaine conceptuel du

construit

Indicateurs nécessairement interchangeables

Si suppression d’1 indicateur => altération du domaine conceptuel du construit

Indicateurs pas nécessairement interchangeables

Covariance entre les indicateurs

Nécessaire

Pas Nécessaire

Réseau nomologique

Ne doit pas différer

Peut différer

Les 7 étapes

Le processus

Le chercheur spécifie un modèle basé sur la théorie à valider, puis il choisit

des mesures pour les construits, collecte des données et examine, au

moyen d’un logiciel SEM, la qualité de l’ajustement entre la matrice des

covariance observée S et la matrice des covariance ∑ basée sur les

restrictions imposées par le modèle.

Le chercheur spécifie un modèle basé sur la théorie à valider, puis il choisis

des mesures pour les construits, collecte des données et examine, au

moyen d’un logiciel SEM, la qualité de l’ajustement entre la matrice des

covariance observée et la matrice des covariance basées sur les

restrictions imposées par le modèle.

Measures

Fit ?

Le processus

Qualité de l’ajustement (Fit)

maximum de vraisemblance (ML)

Moindre carrés généralisés (GLS)

Conventions graphiques

• Les ovales représentent les variables latentes ou les

erreurs de mesure

• Les rectangles représentent les variables observées

• Les corrélations et covariances sont représentées

par des flèches bidirectionnelles courbées

• Les flèches simples représentent la direction de la

causalité

• Les flèches qui portent le poids 1 fixent l’échelle de

mesure

Un mini cas

Isolons le modèle de mesure

Le modèle de mesure

Que remarquez-vous ?

Derrière les flèches,

les équations du modèle de mesure

Le modèle structurel

L3 = α3 + 13*L1 + 23*L2 + ε8

13

23

7 mesures

Le modèle complet

7 erreurs de mesures

3 concepts latents

Une erreur de prévision

Combien de paramètres à estimer ?

13

23

1

1

1

17

Faisons les comptes

• 7 mesures observées : Amabilité, Compétence,

Mieux, Facile, Bao, CAP, ADV.

• 11 variables latentes dont 7 erreurs de mesure, 3

concepts (2 exogènes et 1 endogène), 1 erreur de

prévision.

• 17 paramètres à estimer dont quatre lambda et 2

Bêta, 10 variances (dont 8 d’erreurs et 2 pour les

concepts exogènes) et une covariance

• 28 (7*8/2) observations dans la matrice de

covariance moins 17 paramètres à estimer, il reste

11 degrés de liberté.

Peut-on estimer séparément

le modèle de mesure et le modèle complet ?

• Oui, c’est recommandé.

• L’ajustement du modèle complet est nécessairement inférieur à celui du modèle de mesure.

• En cas de mauvais ajustement, il convient d’examiner d’abord le modèle de mesure.

• Le modèle de mesure n’est autre que celui d’une analyse factorielle oblique.

• SEM = mariage de la Psychométrie et de l’Econométrie

• La psychométrie traite les erreurs de mesure mais sans model de causalité.

• L’économétrie modélise mais sans tenir compte des erreurs de mesure

Conditions d’utilisation

• Entre 5 et 15 observations par variable

• Continuité et Multi normalité

• Absence de valeurs extrêmes

• Identification

• Taille d’échantillon minimum = 200

• Davantage si les 3 premières conditions ne sont pas remplies

• Pour des variables ordinales, utilisez STATA, MPLUS ou AMOS sur corrélations polychoriques

Que faire si les conditions d’applications ne sont pas remplies ?

• Continuité ? Au moins 5 niveaux sinon utiliser MPLUS, si pas disponible, calculer d’abords les corrélations polychoriques avec STATA, SEMPLIS ou FACTOR 9,2

• Normalité ? Test du kurtosis généralisé de Mardia < 3. Le modèle a plus de chance d’être rejeté en cas de non normalité. Essayer estimation par GLS ? Non. Conserver ML ? Oui ou utiliser ADF si N>1000 ou encore « Robust Adjusted X² » dans EQS ou encore Bootstrap pour calculer le seuil de risque dans AMOS et STATA.

• Identification ? Il faut plus d’équations que de paramètres à estimer, donc DL>0. AMOS, STATA, LISREL réalisent des test d’identification et détectent la plupart des cas de non identification. Il faut alors re-spécifier le modèle.

Exemple de sous

identification • Nb de paramètres à estimer ?

contribution de F1 à I2 +

Variance de F1 +

Variances de e1 et e2 = 4

• Observations disponibles ?

Variance I1, I2, Cov(I1,I2) = 3

• Conclusion ?

Non identifié, donc il faut au

moins 3 indicatrices si une

seule variable latente

Identifié ou pas identifié ?

Observations disponibles ?

4*5/2 = 10

Nb de paramètres à estimer

4 variances d’erreur +

2 variances pour F1 et F2 +

2 contributions factorielles

F1=>I2 et F2=>I4 +

1 covariance entre F1 et F2 =

9 paramètres à estimer

Le modèle est ?

Identifié ou pas identifié ?

Observations disponibles ?

4*5/2 = 10

Nb de paramètres à estimer

4 variances d’erreur +

2 variances pour F1 et F2 +

2 contributions factorielles

F1=>I2 et F2=>I4 +

1 covariance entre F1 et F2 =

9 paramètres à estimer

Le modèle est identifié

Identifié ou pas identifié ?

Identifié

Valeurs manquantes

• Listwise ? NO

• Pairwise ? NO

• Mean substitution ? NO

• Amos, STATA use maximum likelihood to estimate SEM with missing data

• On peut aussi estimer les valeurs manquantes avant de lancer AMOS avec module MVA de SPSS ou syntaxe Hot Deck

Estimations aberrantes

• Variances négatives ou nulles

• Coefficient standardisés supérieur à 1

• Causes :

– Erreurs de spécification

– Échantillon trop faible

– Pas assez d’indicateurs par variable latente

– Présence de valeurs extrêmes

– Non normalité

– Multi collinéarité excessive

SEM = Causal Model?

• Un modèle d’équations structurelles ne peut jamais

être accepté.

• Il peut tout juste ne pas être refusé par les données

• Des modèles équivalents peuvent exister

• Avoir un ou deux modèles concurrents est une

bonne stratégie de recherche, spécialement si ces

modèles sont enchâssés les uns dans les autres

• La causalité est spécifié par la théorie. Un bon

ajustement d’un modèle ne prouve pas la causalité.

Régression Multiple

Limites du modèle de régression

• Une seule variable à expliquer

• Pas de variables médiatrices ou modératrices

• Chaque variable explicative est supposée mesurée sans erreur (rectangle)

• La multicollinéarité entre les variables explicatives rend les estimations des paramètres instables

• Les 3 premières limitations disparaissent avec les équations structurelles

Exemple marketing

• L’ intention de rachat est mesurée par :

– L’émission d’un bouche à oreille positif

– Le consentement à payer

– La consultation des annonces de la marque

• La satisfaction avec le vendeur est mesurées par :

– La compétence du vendeur

– L’amabilité du vendeur

• La satisfaction avec le produit est mesurée par :

– La facilité d’utilisation

– Une meilleure performance que le produit précédent

La satisfaction avec le vendeur et avec le

produit expliquent l’intention de rachat

Qualité de l’ajustement

• Pour chaque indice de qualité, on trouve

trois lignes :

• Default: c’est le modèle analysé

• Saturated: autant de paramètres que

d’informations disponibles, aucune

restriction

• Independence: n’estime que les variances

mais aucune des relations

Qualité de l’ajustement :

Les indices absolus

• Le modèle (mesures + structure) reproduit-il les données ?

• X², plus il est petit et mieux cela vaut. Si les données étaient produites par le modèle, la valeur attendue serait égale aux degrés de liberté. X² croit avec la taille de l’échantillon. Si l’hypothèse de multi normalité est violée, utiliser le X² est déconseillé.

• P, seuil de risque. Si p>5% alors accepter le modèle. Mais X² croît avec la taille de l’échantillon et p diminue. Donc avec un gros échantillon X² refuse tous les modèles et avec un petit échantillon X² accepte tous les modèles

Qualité de l’ajustement :

Les indices absolus suite

• GFI, part de la variance totale expliquée par le

modèle. Minimum acceptable = 0.9 Qualité > 0.95

• AGFI, ajusté par le rapport du nombre de variables

aux degrés de liberté. Minimum acceptable = 0.9

qualité > 0.95

• RMR si matrice des corrélations, sinon SRMR,

donne la moyenne quadratique des résidus < 0.08

• RMSEA, différence moyenne, par degré de liberté,

dans la population. Acceptable < 0.08 qualité <0.05

Qualité de l’ajustement :

Les indices incrémentaux

• Comparent le modèle analysé au modèle

indépendant (absence de relations structurelles)

• TLI acceptable > 0.9; qualité > 0.95 mesure

l’amélioration relative, par degré de liberté du

modèle analysé par rapport au modèle indépendant

CFI > 0.9; qualité > 0.95

Qualité de l’ajustement :

Les indices de parcimonie

• X² normé = X²/DL, le plus faible possible. Entre 1 et

3 modèle acceptable, entre 3 et 5 douteux, au delà

de 5 rejeter le modèle (mais croit avec N)

• Préférer Pclose > 0.05 acceptable, proche de 1

qualité

• AIC = X²-2*DL

• CAIC = X² - {ln(N+1)}DL

• Les 2 derniers indices doivent être le plus petit

possible et peuvent être utilisés pour comparer des

modèles concurrents non hiérarchiques

Quels indices présenter ?

• Rmsea, Pclose, CFI, Intervalle de

confiance de Rmsea, Srmr.

• Gerbing & Anderson (1981), Chin (2008)

suggèrent de décomposer le fit global en

deux parties :

– Fit du modèle de mesure

– Fit du modèle structurel

Merci pour votre attention!

Attitude vis-à-vis de l’agent virtuel

1 J'aime le personnage animé présent dans ce site

2 Le personnage animé m'a laissé une bonne impression

3 J'aime les personnes qui se comportent comme le personnage animé

4 J'ai une bonne impression d'une personne qui ressemble au personnage animé

11 Ce personnage animé me détend

12 Ce personnage animé est très divertissant

13 Le personnage animé me donne envie de venir en ligne et d'acheter

5 Le visage de ce personnage animé est attirant

6 La forme de ce personnage animé attire mon attention

7 La tenue vestimentaire de ce personnage animé attire mon attention

8 La forme de ce personnage animé me plaît

9 La tenue vestimentaire de ce personnage animé me plaît

10 Le personnage animé donne toujours l'impression qu'il est prêt à vous aider dans la navigation

F1

.53

AAVI13e1

.73.62

AAVI12e2

.78

.64

AAVI11e3

.80

.53

AAVI4e4.73

.63

AAVI3e5 .79

.92

AAVI2e6

.96

.89

AAVI1e7

.94

F2

.70

AAVI9e8

.74

AAVI8e9

.55

AAVI7e10

.54

AAVI6e11

.57

AAVI5e12

.84

.86

.74

.73

.76

.67

Quelle est la différence entre

EFA et CFA?

• L’analyse factorielle exploratoire (EFA) utilise les

données pour estimer la structure factorielle sous

jacente (nombre de dimensions et affectations des

items aux dimensions).

• Dans l’analyse factorielle confirmatoire (CFA) le

chercheur spécifie la structure factorielle sur la

base d’une théorie, puis confronte cette structure

avec les données pour savoir si la théorie peut être

conservée ou doit être rejetée.

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

EFA

CFA

EFA et CFA se complètent

• On peut commencer par une analyse

exploratoire EFA sur un premier échantillon

• Confronter le résultat et les théories

existantes.

• Tester la nouvelle théorie sur un second

échantillon

• La méthode ESEM (Exploratory Structural

Equation Modeling) permet une EFA avec

tous les tests d’une CFA

Path analysis (double médiation)

More Equivalent Models

PLSc Consistent PLS

• PLSc provides as good a picture of the all-important

structural parameters as FIML.

• In addition, the unrestricted correlations allow proper

estimation.

• There are grounds to believe that a correct test-of-fit is well

within reach.

• The loadings are more difficult to estimate accurately,

which gives FIML a definite advantage.

• Consistent and asymptotically normal PLS estimators for

linear structural equations by Theo K. Dijkstra a, Jörg

Henseler, Computational Statistics and Data Analysis

(2015) 10–23.

A simple model

Model de mesure

Modèle structurel

Historique des analyses factorielles

Charles Spearman Louis Léon Thurstone R.B. Cattel B.O. Muthén