LA REGRESSION MULTIPLE

Pr. BOULAHOUAL Adil

Pr. BOULAHOUAL Adil

1

*En analyse explicative simple, nous essayons de définir la relation qui existe entre deux variables statistiques.

*Exemples :

*Le nombre d’années d’expérience et le nombre d’erreurs commises ;

*Le volume des ventes et les dépenses en publicité ;

Alors qu’en analyse explicative multiple le types de problème auquel nous nous heurtons et du genre :

La tranche d’âge du conducteur, sa santé, son état d’ébriété, et le nombre d’accidents d’auto ;

2Pr. BOULAHOUAL Adil

Économiste (Expert du domaine)

Exprime une théorie sur un phénomène économique

Ex. La demande dépend du prix

Mathématicien (Modélisation)Propose une formulationalgébrique de la théorie.Ex. Demande =B0+ (B1*prix) + (B2

*type bien)

Statisticien (Estimation)Estime les paramètres du modèle à partir de données.Validation statistique.Ex.;( B0=2) ;(B1=12) ; (B2 =5)

Sous le contrôle de l’ÉconomisteValidation de l’Expert du domaine (ex. a est forcément négatif)


Pr. BOULAHOUAL Adil

LA REGRESSION MULTIPLE




L’encadré CoefficientsEstimations : valeurs b pour chaque VI et son test de signification Intervalles de confiance : intervalle pour chaque coefficient dans la population,

L’encadré RésidusDurbin-Watson : évaluation de l’indépendance des erreursDiagnostic des observations : valeur de la VD observée et prédite, du résiduel et du résiduel standardisé pour chaque observation. Indique quelles observations ont un résiduel standardisé de plus de 2 ou 3 é.-t.

Les autres statistiquesQualité de l’ajustement : fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, le R2correspondant et le R2 ajustéVariation de R-deux : changement du R2 après l’ajout d’un nouveau bloc de VIMesure et corrélations partielles : Corrélation entre chaque VI et la VDCorrélation partielle entre chaque VI et VD en contrôlant pour les autres VI



Statistiques descriptives

Examinons d’abord les statistiques descriptives. Nous voyons que l’étude a été menée auprès de 474 employés qui gagnent en moyenne près de 35 000 dh. Ils travaillent depuis environ sept ans pour leur entreprise (81 mois) et ont en moyenne 13 ans de scolarité. Bien entendu, la moyenne des hommes et des femmes n’est pas une donnée intéressante.


Le deuxième tableau fournit par SPSS concerne les corrélations entre les variables étudiées. Nous voyons qu’il y a une corrélation très élevée et significative entre le salaire et le nombre d’années de scolarité, ainsi qu’entre le sexe et le salaire. On doit porter attention aux relations entre les variables indépendantes. Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9), il y aurait un risque important de multicolinéarité. Nous aurions introduit deux variables qui mesuraient sensiblement la même chose pour prédire le salaire actuel.


Variables introduites/éliminéesLe tableau suivant présente les variables retenues dans les étapes du modèle. On constate que la variable EDUC est présente puisque nous avions choisi la méthode Entrée. Pour le deuxième modèle, SPSS a retenu la variable SEXE avec notre critère de sélection (la probabilité F est significative à p < 0,05).


Étape 1 : Évaluation de la pertinence du Étape 1 : Évaluation de la pertinence du modèle de régressionmodèle de régression

Tout comme la régression simple, l’interprétation débute en évaluant la pertinence du modèle. On vérifie si la première étape du modèle explique significativement plus de variabilité qu’un modèle sans prédicteur. Ceci revient à prendre une décision sur l'hypothèse nulle d'absence de relation entre la variable dépendante et la combinaison de variables indépendantes, i.e. le modèle. Si le modèle tient la route, le travail consiste ensuite à interpréter la contribution relative de chaque variable indépendante significative à l’explication de la variance de la variable dépendante. Dans la mesure où un modèle est non significatif, l’interprétation s’arrête avec ce constat. Il faut alors retourner à la table à dessin pour construire et tester un autre modèle.


Analyse de variance

Le tableau d’ANOVA nous donne les informations nécessaires pour prendre une décision sur l’hypothèse nulle (H0) à l’effet que notre modèle n’explique pas significativement plus de variance qu’un modèle sans prédicteur. Dans le tableau ANOVA suivant, le modèle 1 teste l’H0 que le nombre d’années de scolarité n’explique pas mieux le salaire qu’un modèle sans prédicteur. La ligne du modèle 2 teste l’H0 que la combinaison du nombre d’années de scolarité et du sexe n’explique pas mieux la variation de salaire qu’un modèle sans prédicteur. Dans les deux cas, l’H0 est que les modèles ne sont pas significativement plus explicatifs de la variance du salaire qu’un modèle sans prédicteur.


Nous constatons à la lecture du tableau que selon la valeur F obtenue pour les deux modèles, on peut rejeter l’hypothèse nulle. En effet, les valeurs de F=365,38 et de F=225,51 sont significatives à p < 0,001, ce qui indique que l’on a moins de 0,1 % de probabilité de commettre une erreur en affirmant que les modèles contribuent à mieux prédire le salaire qu’un modèle sans prédicteur.


Étape 2 : Évaluation de l'ajustement du Étape 2 : Évaluation de l'ajustement du modèle de régression aux donnéesmodèle de régression aux donnéesMaintenant que l’on sait que le modèle final est significatif, on peut estimer dans quelle mesure ce modèle est ajusté aux données observées. Cette information est contenue dans le tableau «Récapitulatif des modèles». Dans le cas d’une régression multiple à entrée forcée, rappelons qu’un seul modèle ferait l’objet du tableau.


Ce tableau contient plusieurs informations utiles. Premièrement, la valeur de la corrélation multiple (R) nous renseigne sur l’ajustement du modèle. Cet indice varie entre 0 et 1 et représente en valeur absolue la corrélation entre la variable dépendante et la combinaison de toutes les variables indépendantes du modèle. Plus la valeur de R est près de 1, plus le modèle est ajusté aux données. Dans notre exemple, le modèle final a une valeur de R de 0,70 ce qui est relativement élevé et qui suggère que le modèle est bien ajusté.


Étape 3 : Évaluation de la performance du modèle Étape 3 : Évaluation de la performance du modèle de régressionde régressionLe tableau permet également d’évaluer la performance du modèle en termes de proportion de la variance expliquée par la combinaison des variables indépendantes avec le calcul de la valeur de R². On se rappellera que la valeur du R², lorsqu’elle est multipliée par 100, indique le pourcentage de variabilité de Y expliquée par le modèle (la combinaison de tous les prédicteurs). Dans notre exemple, on observe que 48,9 % du salaire est expliqué par la combinaison de la scolarité et du sexe de l’employé.


Étape 4 : Estimation des paramètres du Étape 4 : Estimation des paramètres du modèlemodèle Maintenant que nous savons que notre modèle est significatif et que le deuxième est celui qui explique le plus de variance, il est possible de construire l’équation de régression pour prédire une valeur de Y. L’équation de base était la suivante : Yi = (β 0 + β 1X1 + β 2X2 + … + β nXn) + εi


L’erreur standard nous renseigne sur la variabilité du coefficient dans la population. Elle permet également d’indiquer si le coefficient est significatif. La signification de t nous permet de répondre à la question «est-ce que le b est différent de 0 ? » Plus la valeur de t est élevée et plus celle de p est petite, , plus le prédicteur contribue fortement au modèle. Nous constatons donc que les deux variables sont significatives, mais qu’en termes de leur poids relatif dans le modèle, la variabilité expliquée par le nombre d’années de scolarité est plus importante que celle expliquée par le sexe.


La valeur du Beta standardisé (β) apporte aussi une information intéressante en plus d’indiquer le sens de la relation (+/-) et le poids relatif de la variable dans le modèle. Elle indique le changement en écart-type de la VD pour chaque augmentation d’un écart-type de la VI quand toutes les autres valeurs sont constantes. Par exemple, la valeur d’un écart-type du salaire est de 17 075,66 dhs et celle d’un écart-type de scolarité est de 2,89dhs. Nous pouvons donc savoir que l’augmentation de d’un é.-t. de la scolarité (2,89) est associé à l’augmentation de 0,57 é.-t. du salaire (0,57*17 075,66 = 9 733,13). Par conséquent, chaque fois que l’on étudie 2,89 années de plus, le salaire augmente de 9 733,13 dhs.


Ce tableau présente également la valeur des corrélations et des corrélations partielles. Ce sont ces valeurs sur lesquelles se base SPSS lorsqu’il choisit d’introduire des variables lorsque l’on sélectionne une méthode progressive. La première variable est choisie à partir de la corrélation simple la plus forte (ici 0,661 pour EDUC). Le choix des variables suivantes est par contre basé sur la corrélation partielle, c'est-à-dire la plus forte corrélation entre les variables toujours disponibles et la partie de variance qui reste à expliquer une fois que l’on a retiré ce qui est expliqué par la première VI.

Finalement, la valeur VIF (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de multicolinéarité. Nous cherchons à obtenir une valeur VIF près de 1. Si elle est de 10, c’est problématique. Inversement, si la valeur de la tolérance est équivalente à 0,1, il y a un problème sérieux de colinéarité dans le modèle. Probablement que les corrélations entre 2 VI ou plus sont trop élevées.


Le diagnostic des observations et la vérification des prémisses

Ce dernier tableau est fourni grâce aux options sélectionnées préalablement. Il nous renseigne sur la présence de valeurs extrêmes qui influenceraient le modèle, notamment sur la qualité de l’ajustement des données. Les valeurs extrêmes font varier les coefficients b et sont mal prédites par le modèle. Ces valeurs produisent une valeur résiduelle importante. Comme nous avons vu précédemment dans le rappel théorique, nous ne voulons aucune valeur résiduelle standardisée de plus de 3,29 (ou de moins de -3,29), pas plus de 1 % de l’échantillon ayant une valeur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5 % des observations ayant une valeur de plus de 1,96 (ou de moins de – 1,96).




Documents

LA REGRESSION MULTIPLE