structurelles Cours 9araa

  • Upload
    nappil

  • View
    189

  • Download
    0

Embed Size (px)

Citation preview

CARTOGRAPHIE DU TRAITEMENT DES DONNES STATISTIQUESDcouvrir un panorama plus ou moins complet des mthodes statistiques Savoir quelle mthode utilise en fonction des donnes disponibles et les objectifs atteindre

I. Le raisonnement statistique et son volution Le volume croissant des donnes a fait voluer en continu les techniques de traitement : Statistiques mathmatiques (1935) Analyse des donnes (1970) Data mining -fouille des donnes- (2000)

I. Le raisonnement statistique et son volutionLes mthodes statistiques et les outils de traitements ont volu en mme temps que les deux problmes permanents du traitement des donnes : explorer pour comprendre et modliser pour prvoir

Le raisonnement statistiqueOn distingue les cas o les donnes sont collectes pour 1. Rpondre une question particulire : les tests, lestimation, lajustement de modles ; cest le royaume de la loi normale, des moindres carrs, des analyses de variance, etc. Comprendre un phnomne : les observations deviennent les points dun nuage et la comprhension du phnomne passe par sa configuration, soit sur des graphiques, soit en classant les points par ressemblance ; on fera appel ici lanalyse descriptive multidimensionnelle , Amasser linformation : des montagnes de donnes sont stockes de faon plus ou moins cohrente dans des entrepts de et on sait quelles contiennent de linformation utilisable mais cache. Cest le domaine des algorithmes dexploration (arbres de dcisions, rseaux de neurones, SVM).

2.

3.

MODLISATION VS. APPRENTISSAGEDans la tradition statistique, la notion de modlisation est centrale surtout avec une finalit explicative (conomtrie).Il sagit alors dapprocher la ralit, le vrai modle, suppos exister, ventuellement bas sur une thorie physique, conomique... sous-jacente.

Le choix du modle est alors guid par des critres dajustement et les dcisions de validit, de prsence deffets, sont bases sur des tests reposant eux-mmes sur des hypothses probabilistes.Linterprtation du rle de chaque variable explicative est prpondrante dans la dmarche.

MODLISATION VS. APPRENTISSAGELa notion dapprentissage englobe toute mthode permettant de construire un modle partir de donnesQuand lobjectif est essentiellement prdictif, il est claire que le meilleur modle nest pas ncessairement celui qui ajusterait le mieux les donnes

Les choix sont bass sur des critres de qualit de prdiction visant la recherche de modles parcimonieux, mais dont linterprtabilit passe au deuxime plan (botes noirs)

PRCISION VS. GNRALISATIONLe grand dilemme de lapprentissage :

Apprendre avec trop de prcision conduit un surapprentissage (tablir des rgles insignifiantes) Apprendre avec trop peu de prcision conduit une sur-gnralisation Des mesures de gnralisation ont t dfini mais cest lutilisateur de fixer le seuil de gnralisation quil juge optimal.

SUPERVIS VS. NON-SUPERVISDistinguons deux types de problmes : la prsence ou non dune variable `a expliquer Y ou dune forme reconnatre qui a t, conjointement avec X, observe sur les mmes objets. Dans le premier cas il sagit bien dun problme dapprentissage supervis : trouver une fonction susceptible, au mieux selon un critre `a dfinir, de reproduire Y ayant observ X.

Dans le cas contraire, en labsence dune variable `a expliquer, il sagit alors dapprentissage dit non supervis . Lobjectif gnralement poursuivi est la recherche dune typologie ou taxinomie des observations : comment regrouper celles-ci en classes homognes mais les plus dissemblables entre elles. Cest un problme de classification (clustering).Attention, langlais classification se traduit plutt en franais par discrimination ou classement (apprentissage supervis)

La mthode statistiquePhnomne tudier :(contexte, objectifs, problmatique, hypothses)

Population :Personnes concernes, taille de lchantillon, mode dchantillonnage (alatoire, par quota, par convenance)

Information recueillir :Identification des critres et des caractristiques recueillir partir des donnes

Lobservation ou le recueil de linformation :

Source de linformation :

donnes primaires (labor un questionnaire) donnes secondaires (donnes administres)

Type de donnes : sries chronologiques,

donnes transversales (coupes instantanes dans le temps)

panels, donnes longitudinales (de suivi)

Constitution dune base de donnes :Choix du logiciel ou du systme de base de donnes Type de variables : Echelles de mesures : quantitatives qualitatives chelle nominale chelle ordinale chelle dintervalle chelle proportionnelle chelles non mtriques chelles mtriques

Description statistique des donnes(mthodes descriptives) Analyses unidimensionnelles Analyses bidimensionnelles Analyses multidimensionnelles

Infrence statistique :Thorie des tests Les intervalles de confiance Thorie de lestimation Modles de prvision

Etude des effets de causalits :(mthodes explicatives)

Modles conomtriques

chelles de mesure et type de variablesEnsemble des variables

Variables qualitatives Echelles non mtriques

Variables quantitatives Echelles mtriques

Nominale- sexe - couleur des cheveux - milieu de rsidence - secteur dactivit

Ordinales- classement un concours -CSP - chelle dvaluation -chelle dimportance

Echelles dintervalle

Echelles proportionnelles- chiffre daffaire - salaire - ge - taux de croissance

- chelle de temprature - le calendrier - chelle dEsther

Indicateurs statistiques utiliss- frquence absolue - frquence relative - mode - mdiane - quantiles - corrlation dordre (coefficient de corrlation de Spearman).

Indicateurs statistiques utiliss- moyenne arithmtique - variance - cart-type - covariance -corrlation de Pearson

- moyenne gomtrique - coefficient de variation

Construits Formatifs & Rflectifs

Echelle - Indicateurs Rflectifs (items)

X1 Y

e1 e2 e3

X2X3

Le sens de causalit va de la variable latente vers les variables manifestes (mesures) : les indicateurs sont des manifestations du construit

Indice composite - Indicateurs FormatifsZta

X1 Y

X2X3

Le sens de causalit va des variables observes vers la variable latente : les indicateurs sont des caractristiques de dfinition du construit

Construit de Singh (1988)Zta 1

Probabilit de se plaindre au responsable du magasin

Comportements de rclamation du consommateur

Probabilit de parler ses amis et connaissances dune mauvaise exprience de service

Probabilit de dnoncer lentreprise une agence de dfense des consommateurs ou de poursuivre une action lgale contre lentreprise

Critres de distinctionModle rflectifSens de causalit Le sens de causalit va du construit aux indicateurs Les indicateurs ont un contenu identique et sont interchangeables. La suppression dun indicateur naltre pas la signification du construit.

Modle formatifLe sens de causalit va des indicateurs au construit. Les indicateurs nont pas de contenu identique et ne sont pas interchangeables. La suppression dun indicateur altre la signification du construit. Les mesures ne sont pas supposes tre corrles. La cohrence interne nest pas implique. Les indicateurs ont les mmes antcdents et consquences. Erreur au niveau du construit.

Interchangeabilit des indicateurs

Covariation entre les indicateurs

Les mesures sont corrles. Les mesures sont fiables au niveau de la cohrence interne. Les indicateurs ne sont pas supposs avoir les mmes antcdents et consquences. Erreur au niveau de litem.

Rseau nomologique des indicateurs Erreur

Construction dEchelle Modle Rflectiflaboration du Modle Conceptuel

Gnration dunPhase Exploratoire

ensemble ditems Purification de la mesure (Alpha de Cronbach ; Analyse Factorielle) Validit Cohrence interne Liaisons avec dautres mesures

Phase de Validation

Construction dIndice composite Modle FormatifSpcification du Contenu

Spcification des indicateurs

Colinarit des indicateurs

Validit Externe

Distinction dans la constructionChurchill-

ROSSITER-Est

Est compos de 3 tapes : Dfinition du concept, Phase exploratoire, Phase de validation. La purification se limite seulement llimination des items non cohrents.

compos de 4 tapes : Spcification du contenu, spcification des indicateurs, Colinarit des indicateurs et Validation. - La purification ne se limite pas seulement llimination des items, elle est base sur le principe de la validit du contenu et de la validit faciale.

-

- Le souci de Churchill est la cohrence interne du construit

Construits Multidimensionnels

Premier ordre rflectif, second ordre rflectif

Zta1Composant 1

Y1 Y2 Y3 Y4

e1 e2 e3 e4 e5 e6 e7 e8 e9

Zta 2

Construit de Second ordre

Composant 2

Y5 Zta 3 Y6 Y7Composant 3

Y8 Y9

Premier ordre rflectif, second ordre formatif

Y1Composant 1

e1 e2 e3 e4 e5 e6 e7 e8 e9

Y2 Y3 Y4

Zta1

Construit de Second ordre

Composant 2

Y5 Y6 Y7Composant 3

Y8 Y9

Premier ordre formatif, second ordre rflectifZta1Composant 1

Y1 Y2 Y3

Zta 2

Y4Construit de Second ordre Composant 2

Y5Zta 3 Y6 Y7Composant 3

Y8 Y9

Premier ordre formatif, second ordre formatif

Zta1

Y1Composant 1

Y2 Y3

Zta 4

Zta 2 Y4

Construit de Second ordre

Composant 2

Y5 Zta 3 Y6 Y7Composant 3

Y8 Y9

Erreurs de spcification des modles de mesure dans la littrature Dterminer ltendue des erreurs de spcification dans les modles de mesure. Dterminer quels sont les construits qui ont t le plus souvent mal spcifis. Jarvis, Mackenzie et Podsakoff (2003) 178 articles avec 1192 construits modliss en tant que facteurs latents ayant des indicateurs multiples. Journal of Marketing Research, Journal of Marketing , Journal of Consumer Research, Marketing Science

Erreur de spcification des modles de mesure

Construits rflectifs

Construits formatifs

Total N (%)

N

(%)

N

(%)

Construits modliss en tant que rflectifsConstruits modliss en tant que formatifs Total

81017

68%1%

33629

28%3%

114 646

96%4%

827

69%

365

31%

119 2

100 %

Quest-ce que les Mthodes dquations Structurelles ?Mthodes avances danalyse des donnes Elles compltent les dmarches classiques telles que la rgression, lanalyse factorielle, lanalyse discriminante, lanalyse de la variance et lanalyse conjointe

Outil statistique trs puissant Les MES permettent de traiter simultanment des relations complexes entre plusieurs variables en tenant compte des erreurs de mesure

quoi les MES servent-elles ?Analyse des liens de causalit Les Mthodes dquations Structurelles permettent de traiter les relations de causalit entre plusieurs variables indpendantes et plusieurs variables dpendantes

Fiabilit et validit des mesures de construits Elles permettent aussi de traiter les questions de mesure des construits thoriques, de fiabilit et de validit des instruments de mesure, du rle des variables mdiatrices et modratrices, des diffrences des moyennes dans les analyses multigroupes et dans les tudes longitudinales

Les apports des MES Le traitement destimations simultanes de plusieurs relations de dpendances hypothtiques dans des modles complexes Lincorporation des erreurs de mesure dans le processus destimation = coefficients de rgression plus prcis Lvaluation globale du modle tudi par des indicateurs (indices dajustement) en plus de lvaluation des coeffficients estims et de leur significativit Le traitement des variables latentes, frquentes en sciences de gestion

Relations testes par les MESQualit de service Dcisions dachat des clients potentiels Sensibilit au prix Fidlit des clients satisfaction des clients Sensibilit limage de lenseigne

Les variables latentesConstruit thorique non directement trait Une variable latente est un construit, souvent de nature psychologique, non directement observable et non directement mesurableEx. Image de marque ; Implication ; Valeurs

Ncessit dune srie dindicateurs Pour analyser une variable latente, il est ncessaire de recourir des indicateurs qui sont des variables observables reprsentant les manifestations effectives du phnomne tudiMesures : Indicateurs sur la qualit du service, la sensibilit au prix et la sensibilit lenseigne ; Les 56 items de lIVS

Comment fonctionnent les MES ?Les MES sont bases sur le recours des logiciels spcifiques danalyse des donnes LISREL (Jreskog & Sorbm), le plus connu et le plus prestigieux, version 8.5, 2001 EQS (Bentler), le plus rigoureux et le plus conseill actuellement, version 6.0, 2002 AMOS (Arbuckle), le plus convivial, version 4.0, 1999 SEPATH (Steiger), le plus complet, distribu avec Statistica, 2000 Mx, PLS, CALIS, Mplus, RAMONA, TETRAD

Un historique des MESTravaux conomtriques sur la combinaison des analyses factorielles et de la rgression (Jreskog ; Keesling ; Wiley 1970) Premires versions du logiciel LISREL (Jreskog et Srbom, 1974) Premires applications en gestion par les spcialistes du marketing (Bagozzi, 1980 ; Valette-Florence, 1988)

Les Usages actuels des MESLesMES sont des mthodes confirmatoires et non exploratoires Les relations testes doivent tre justifies thoriquement Il y a confrontation entre un modle de relations causales hypothtiques et un modle emprique gnr par la matrice des covariances = tudier lajustement entre le thorique et lemprique

Les composantes dun modle dquations structurelles Les modles dquations structurelles sans variables latentes : Path Analysis Les modles dquations structurelles avec des variables latentes Modle de mesure : Analyses factorielles confirmatoires Modle de relations linaires et non linaires : Analyses causales

Les diffrentes mthodes danalyseNcessairement confirmatoires, les mthodes sont : Descriptives de mesure : Analyses factorielles confirmatoires de premier et de second ordre, analyse de la fiabilit, analyse de la validit Explicatives : analyses causales transversales et longitudinales, analyses multi-groupes, analyses multi-niveaux, analyse des typologies prdictives et des mlanges, analyse des effets dinteraction et des variables modratrices

Les mthodes descriptives Lanalyse factorielle confirmatoire (AFC) : Elle permet de tester une structure factorielle dfinie a priori (ex. limplication est unidimensionnelle ou bidimensionnelle selon les auteurs adopts) Lanalyse de la fiabilit : rh de Jreskog Lanalyse de la validit convergente et discriminante : Matrice MTMM, Bootstrap, Variance partage de Fornell & Larker (1980) Lanalyse factorielle de second-ordre : mesure de construits gnriques dordre suprieur

Analyses factorielles confirmatoiresambiance volution rmunration 0,55 0,72 poste 0,64

contact autonomie

0,72 activit commerciale

0,71Satisfaction

0,510,66 0,52environnement 0,90

conjonctureposition

0,91

Les mthodes explicatives Les analyses causales transversales : analyse des relations linaires et des relations non linaires = analyse de la rgression, path analysis, multi-indicateurs multi-causes Les analyses causales longitudinales : analyses des relations sur plusieurs chantillons diffrents instants Les analyses multi-groupes : identifier des segments de consommateurs partir de facteurs dfinis a priori (ex. ge ou sexe) Les analyses multi-niveaux : tudier les liens entre des variables des niveaux dagrgation diffrents individuel et collectif (ex. : rsultats dun lve et spcificit dune cole) Les analyses dinteractions : rle des variables modratrices

Dmarche mthodologique de test des MESConstruction dun modle thorique

Spcification du modle

Estimation du modleModification et respcification ventuelles du modle thorique

Identification du modle

Interprtation des rsultats

Construction dun modle thorique Il sagit de dfinir un ensemble de relations qui proposent une explication cohrente et comprhensible dun phnomne Chaque concept doit tre dfini prcisment avec la mise en vidence des dimensions du concept (manifestations et indicateurs) Chaque relation doit tre soutenue par une hypothse tablie partir dun cadre thorique Chaque omission doit tre justifie pour minimiser lerreur de spcification

La spcification du modle thorique (1)La construction dun schma de relations linaires : il sagit de la formalisation dun modle danalyse La dfinition des indicateurs : mesure des variables latentes par des variables observes (ex. : items) La dtermination de la nature et de la direction des liens entre les variables latentes : relations symtriques, asymtriques, rcursives, non rcursives La dtermination des paramtres estimer (coefficients de corrlations, de covariances et de rgression inconnus) : paramtres libres estimer, paramtres fixs, paramtres contraints

La spcification du modle thorique (2)Transposition du schma de relations linaires construit en modle de mesure et modle structurel Formalisation matricielle avec Lisrel : les MES sappuie sur une comparaison et un ajustement entre une matrice thorique et la matrice des observations S Plusieurs matrices sont estimes : Lambda, Phi, Psi, Gamma, Beta, Theta Delta, Theta Epsilon et Zta La formalisation mathmatque finale est h = Bh + Gx + z

Estimation du modle thorique Choix de la matrice de donnes de dpart : les MES utilisent ncessairement les matrices de covariances ou de corrlations et jamais les matrices des donnes brutes Les mthodes destimation utilise : la mthode de maximum de vraisemblance (ML) est conseille (les autres GLS, ADF, WLS, ELS sont contraignantes) La taille de lchantillon : en fonction de la complexit du modle et de la mthode utilise ; la taille minimale conseille varie entre 200 et 300

Lidentification du modle Le modle est dit identifi sil est possible de calculer une estimation unique pour chaque paramtre libre (sinon, le degr de libert est ngatif) Pour viter les problmes didentification, il faut prvoir lors de llaboration des instruments de mesure un nombre minimal de 3 indicateurs par variable latente, il faut fixer ou contraindre certains paramtres et il faut minimiser les relations rciproques non rcursives

Linterprtation des rsultats valuer la qualit de lajustement du modle thorique aux donnes valuer la fiabilit et la validit du modle (rh de Jreskog 0,80 ; validits de Fornell et Larker 0,5) valuer la nature et la significativit (T de Student 1,96) des paramtres (loadings, coefficients de rgression, coefficients de corrlation)

Les indices dajustementLes indices absolus khi-deux (p associe) GFI 0,9 RMSEA < 0,05 Les indices incrmentaux CFI 0,9 Les indices de parcimonie PNFI 0,9 ECVI le plus faible possible

La passion MES Les MES sont des outils complexes mais passionnants : leur utilit est prouve mais leur utilisation reste dvelopper Peut-on tout faire avec les MES : Oui mais toujours dans les limites de : La pertinence et la cohrence thoriques La rigueur et la faisabilit statistique