18
+ Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final

Régression linéaire multiple Eugénie Dostie-Goulet

  • Upload
    dard

  • View
    77

  • Download
    0

Embed Size (px)

DESCRIPTION

Régression linéaire multiple Eugénie Dostie-Goulet. Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final. Construction du cadre opératoire. - PowerPoint PPT Presentation

Citation preview

Page 1: Régression linéaire multiple Eugénie Dostie-Goulet

+Régression linéaire multiple

Eugénie Dostie-Goulet

Plan de la présentationRetour sur l’hypothèseLa régression linéaire multipleProblèmes statistiques possiblesQuelques mots sur le travail final

Page 2: Régression linéaire multiple Eugénie Dostie-Goulet

+Construction du cadre opératoire

Problématique: Est-ce qu’il y a un lien entre l’âge et l’opinion sur l’euthanasie?

Hypothèse: Plus on vieillit, moins on perçoit l’euthanasie comme une option qui se justifie

Variable dépendante: opinion sur l’euthanasie (à quel point celle-ci se justifie ou non). Variable continue, sur une échelle de 1 à 10 où 1 signifie que ce n’est jamais justifiable et 10 que c’est toujours justifiable

Variable indépendante: l’âge. Variable continue allant de 18 à 94.

Page 3: Régression linéaire multiple Eugénie Dostie-Goulet

+Schéma conceptuel (1)

ÂgeOpinion sur l’euthanasie

Page 4: Régression linéaire multiple Eugénie Dostie-Goulet

+Variables contrôle

Variables indépendantes qui ne font pas partie de l’hypothèse

Servent à contrôler pour les autres facteurs potentiellement perturbateurs: ces variables servent à s’assurer qu’on prend bien en compte les autres facteurs susceptibles d’influencer notre variable dépendante.

On choisit nos variables contrôle selon la relation qui peut exister entre celles-ci et la variable dépendante.

En « contrôlant » pour un facteur particulier, on est en mesure de savoir que la relation qu’on trouve entre notre variable indépendante principale et notre variable dépendante est « authentique », et non pas influencée par ce facteur.

Page 5: Régression linéaire multiple Eugénie Dostie-Goulet

+Description des variables contrôle

-

Sexe: être un homme ou une femme

Province: habiter au Québec ou non

Relation avec l’Église : avoir confiance en l’Église. Variable polytomique ordonnée : pas du tout (0), peu (1), assez (2), beaucoup (3).

Attention: il est essentiel de justifier le choix de nos variables contrôle

Page 6: Régression linéaire multiple Eugénie Dostie-Goulet

+Schéma conceptuel (2)

ÂgeOpinion sur l’euthanasie

Sexe Province

Relation avec l’Église

En mettant les flèches entre les

variables, ça vous permet de vous

questionner sur la relation qu’il y a

entre elles...

Page 7: Régression linéaire multiple Eugénie Dostie-Goulet

+Relation fallacieuse

-

Lorsque la corrélation trouvée entre deux variables est due à un troisième phénomène, qui est lié à ces deux variables

Exemples: Les villes ayant le plus grand nombre d’églises sont aussi celles

avec le plus grand nombre de bars... Il y a une corrélation négative entre les augmentations annuelles

moyennes des salaires et la satisfaction du public envers les politiques économiques de leur gouvernement. Doit-on en conclure que plus les salaires augmentent, moins les citoyens sont satisfaits des politiques économiques?

Page 8: Régression linéaire multiple Eugénie Dostie-Goulet

+Relation indirecte

-

Cette relation entre deux variables ne peut se manifester que si un troisième phénomène vient s’interposer entre les deux premiers. En d’autres termes, A cause C, mais seulement parce que A est une cause directe de B, qui lui-même cause C.

Exemples: Si vous mangez un sandwich et qu’après vous touchez votre

nombril, il y a de fortes chances que votre nombril sente votre sandwich...

Si nos parents s’intéressent à la politique, on a plus de chance de voter.

Page 9: Régression linéaire multiple Eugénie Dostie-Goulet

+Questions à se poser

-

Quel test devrions-nous effectuer? La régression linéaire (MCO) s’applique dans le cas d’une variable dépendante

continue

Quelles variables indépendantes choisir? On cherche à obtenir un modèle le plus parcimonieux possible, comprenant peu de

variables, mais dont les variables expliquent bien la variation dans notre variable dépendante.

S’assurer du sens de la relation Il arrive que la relation je soit pas seulement de X vers Y, mais aussi de Y vers X. C’est

un problème d’endogénéité. Parfois, la question ne se pose pas (notamment pour les variables

sociodémographiques)

Trois étapes: 1. On se pose la question: un risque d’endogénéité est-il possible entre mes deux

variables?

2. On décide si cette variable est assez importante pour qu’on vive avec ce risque

3. On explique notre choix lorsqu’on présente nos variables

Page 10: Régression linéaire multiple Eugénie Dostie-Goulet

+La régression linéaire simple

-

Rappel: la régression linéaire simple est une droite de tendance entre deux variables La corrélation permet de voir la force de la relation entre ces deux variables L’équation de régression permet de connaître l’impact de l’augmentation (ou

la diminution) de X sur Y.

Forme fonctionnelle: y = a + bx

Prise en compte de l’erreur: y = a + bx + e C’est de l’erreur que vient notre 95% de confiance. Parce que cette

droite n’est jamais parfaite.

Page 11: Régression linéaire multiple Eugénie Dostie-Goulet

+La relation entre l’âge et l’opinion sur l’euthanasie> mco1=lm(eut ~ age)> summary(mco1)

R

Page 12: Régression linéaire multiple Eugénie Dostie-Goulet

+La relation entre l’âge et l’opinion sur l’euthanasie

> mco1=lm(eut ~ age + homme + qc + conf_eglise)> summary(mco1)

R

Page 13: Régression linéaire multiple Eugénie Dostie-Goulet

+Multicolinéarité

-

On parle de multicolinéarité lorsqu’il y a une forte corrélation entre deux ou plusieurs variables indépendantes.

Forme fonctionnelle de la régression linéaire multiple:

y = a + bx1 + bx2 + bx3... + bxj + e

Conséquences de la multicolinéarité Le modèle lui-même est assez performant (R2 peut être élevé, test F

significatif) Mais problème d’information (et donc de précision) dans les effets

individuels: l’erreur est assez élevée pour les variables en cause Les coefficients peuvent aussi être assez faibles

Page 14: Régression linéaire multiple Eugénie Dostie-Goulet

+La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité> mco1=lm(eut ~ age + homme + qc + francais + conf_eglise)> summary(mco1)  

R

Page 15: Régression linéaire multiple Eugénie Dostie-Goulet

+Que faire avec la multicolinéarité?

On peut faire une corrélation de Pearson entre les variables indépendantes concernées (celles qui sont conceptuellement proches): plus la corrélation est élevée, plus le risque de multicolinéarité est élevé.

R

> cor.test(qc, francais, use="complete.obs")

Page 16: Régression linéaire multiple Eugénie Dostie-Goulet

+Que faire avec la multicolinéarité?

Si la corrélation est au moins moyennement élevée, on peut relancer le modèle en excluant chaque fois une des deux variables, pour voir la différence.

On peut garder la variable qui « parle » le plus, ou celle qui, théoriquement, a le plus de raison d’être dans cette régression

S’il s’agit de variables avec lesquelles on peut construire un indice (information, conservatisme social, corruption, cynisme...), ne pas hésiter à le faire, après avoir vérifié qu’il y a bien corrélation entre ces variables.

Page 17: Régression linéaire multiple Eugénie Dostie-Goulet

+La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité? Estimate Std. Error t value Pr(>|t|) (Intercept) 7.004824 0.232962 30.068 < 2e-16 ***age -0.014016 0.003893 -3.600 0.000326 ***homme 0.274582 0.136969 2.005 0.045140 * qc 0.590840 0.286128 2.065 0.039066 * francais 0.477502 0.284353 1.679 0.093270 . conf_eglise -0.809760 0.077749 -10.415 < 2e-16 ***

Multiple R-squared: 0.1007,Adjusted R-squared: 0.0983

Estimate Std. Error t value Pr(>|t|) (Intercept) 7.065437 0.231309 30.545 < 2e-16 ***age -0.014230 0.003895 -3.653 0.000266 ***homme 0.275680 0.137088 2.011 0.044474 * francais 0.974003 0.151937 6.411 1.83e-10 ***conf_eglise -0.825590 0.077438 -10.661 < 2e-16 ***

Multiple R-squared: 0.09865, Adjusted R-squared: 0.09671

Estimate Std. Error t value Pr(>|t|) (Intercept) 7.005482 0.233076 30.057 < 2e-16 ***age -0.013851 0.003894 -3.557 0.000384 ***homme 0.266481 0.136951 1.946 0.051829 . qc 0.997125 0.152826 6.525 8.77e-11 ***conf_eglise -0.801163 0.077618 -10.322 < 2e-16 ***

Multiple R-squared: 0.09936, Adjusted R-squared: 0.09741

R

Page 18: Régression linéaire multiple Eugénie Dostie-Goulet

+La relation entre l’âge et l’opinion sur l’euthanasie: non-linéarité> mco1=lm(eut ~ age3655 + age5694 + homme + qc + conf_eglise)> summary(mco1)

R