12
29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation Utilité et postulats d’utilisation Diagramme de dispersion R de Pearson et Rho de Spearman Un exemple concret avec SPSS Corrélation 2 Permet de savoir s’il existe un lien entre deux variables quantitatives, si les valeurs des deux variables varient dans le même sens ou dans le sens contraire 3 Une variable de type En lien avec une variable… On utilise : QUALITATIVE en lien avec QUALITATIVE = Tableau croisé QUALITATIVE en lien avec QUANTITATIVE = (ou ordinale) Test de moyennes QUANTITATIVE en lien avec QUANTITATIVE = (ou ordinale) Corrélation

29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

1

La corrélation linéaire

Cours 13

Retour sur cours 12

Corrélation

› Utilité et postulats d’utilisation

› Diagramme de dispersion

› R de Pearson et Rho de Spearman

Un exemple concret avec SPSS

Corrélation

2

Permet de savoir s’il existe un lien entre deux

variables quantitatives, si les valeurs des deux variables varient dans le même sens ou dans le

sens contraire

3

Une variable de type

En lien avec une

variable…

On utilise :

QUALITATIVE en lien

avec QUALITATIVE = Tableau croisé

QUALITATIVE en lien

avec QUANTITATIVE =

(ou ordinale)

Test de

moyennes

QUANTITATIVE en lien

avec QUANTITATIVE =

(ou ordinale) Corrélation

Page 2: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

2

Le choix d'analyses statistiques: Arbre décisionnel

Statistiques

descriptives

Mesures de

tendance centrale

et de dispersion

Une variable catégorielle

et une variable continue

(ou ordinale)?

Deux variables

catégorielles

Deux variables

ordinales ou continues

Famille des

Tests de moyenne

Conditions de recherche

Variances comparables

Distributions normales

Échelle intervalle et n>30

Variances non-comparables

Distributions non-normales

Échelle ordinale ou n<30

Nombre de

groupes à

comparer

Nombre de

groupes à

comparer

2 groupesPlus de

2 groupes2 groupes

Plus de

2 groupes

T

de Student

Oneway

ANOVA

U de Mann

Whitney

Kruskal

Wallis

Famille des tableaux de

contingence

Famille des

corrélations

Distributions

Distributions

normales

Distributions non

normales ou

variables ordinales

R

de Pearson

Rho

de Spearman

Statistiques

bivariées

Régression

linéaire

multiple

Statistiques

multivariées

Logique

sous-jacente de

Prédiction

Variable

dépendante

continue

Plusieurs

prédicteurs

continus ou

dichotomiques

Exercice:

Pour chaque question, trouvez la VD, la VI et dites si vous attendez à

trouvez une relation entre les variables et, si oui, dans quelle direction (+ ou -)

A) Y a-t-il une relation entre le taux de chômage et le taux de criminalité?

B) Y a-t-il une relation entre l’âge (de 18 à 50 ans) et le nombre de délits commis au cours d’une année ?

C) Y a-t-il une relation entre le nombre de vols d’ordinateurs et le nombre de livreurs de mets chinois en scooter ?

Sujet Nombre de placements

Lambda de Crimes à 25 ans

Échelle de dépression

1 3 11 3

2 4 14 11

3 1 4 5

4 6 16 9

5 1 5 14

6 0 3 2

7 2 7 1

8 1 4 8

9 4 9 9

10 3 8 13

11 5 13 16

12 2 5 2

13 3 5 5

14 1 2 7

15 4 6 8

On s’intéresse au possible lien entre les placements durant l’enfance (VI), la criminalité (VD) et la dépression (VD)

Page 3: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

3

0

2

4

6

8

10

12

14

16

18

0 1 2 3 4 5 6 7

Nombre de placements antérieurs

La

mb

da

à 2

5 a

ns

0

2

4

6

8

10

12

14

16

18

0 1 2 3 4 5 6 7

Nombre de placements antérieurs

Éc

he

lle

de

pre

ss

ion

Voici de quoi aurait l’air nos données une fois combinées dans deux graphiques

On se questionne sur: La force de la relation

Relation nulle Relation forte Relation parfaite

On se questionne aussi sur: Le sens de la relation

Relation positive Relation négative

Page 4: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

4

Paramétrique = R de Pearson

Non paramétrique = Rho de Spearman

Le choix de l’analyse de corrélation dépend surtout de:

› De la nature des variables

› De la distribution des variables

Échantillonnage aléatoire

Les observations sont indépendantes (calculer une relation entre deux concepts issus des mêmes indicateurs est par conséquent sans valeur) › Calculer une corrélation entre un résultat à l’intra

et un résultat final est sans grande utilité…

› Calculer une corrélation entre le nombre de vol commis au mois de mai et le nombre de vol commis au mois juin

n > 30

Nécessite 2 variables quantitatives (discrètes ou continues)

Les 2 distributions doivent être normales

La relation doit être linéaire › Exemple de relations non-linéaires:

Le lien entre Stress et Performance Entre Quantité d’alcool dans le sang et Débit verbal

Absence de valeur(s) extrême(s) › Les valeurs extrêmes peuvent influencer les résultats (c’est

particulièrement vrai en corrélation)

› On doit agir face aux valeurs extrêmes… Cependant, on doit aussi les voir comme une information nouvelle et

pertinente… Qui sont vos valeurs extrêmes, comment constituent-ils l’exception à la

règle dans votre modèle?

Page 5: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

5

Interprétations du R de Pearson

Varie entre -1 et 1

Si R est POSITIF : alors les deux variables varient

dans le même sens, on dit alors que la relation est positive. En d’autres mots, quand la VI augmente

la VD augmentera aussi

Si R est NÉGATIF : alors les deux variables varient en sens contraire, on dit alors que la relation est négative. En d’autres mots, quand la VI augmente

la VD diminue

Un R près de 0 indique une absence de relation

Un R près de 1 (ou -1) indique une très forte relation, 1 étant une relation parfaite (connaître notre variable indépendante nous permet de connaître avec certitude notre variable dépendante)

Un R de 0,10 peut être significatif, tout dépend du nombre de sujets utilisé

Un bon R dépend du domaine d’étude dans lequel vous travaillez…

Qu’est-ce qui explique une corrélation significative? 3 principales explications (elles valent aussi pour l’ensemble de nos

efforts analytiques basé sur une logique hypothético-déductive):

› Hypothèse 1: Le nombre de placements durant l’enfance explique (cause) le volume de crime commis.

› Hypothèse 2: Le volume de crimes commis, on ne sait trop comment, explique (cause) le nombre de placements durant l’enfance .

› Hypothèse 3: Le nombre de placements durant l’enfance ainsi que le volume de crimes commis sont fonction d’une troisième variable, comme par exemple un trouble de personnalité antisociale.

Page 6: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

6

On ne peut affirmer hors de tout doute laquelle des trois premières hypothèses est vraie. On doit faire des analyses additionnelles pour mieux comprendre ces résultats.

Le chercheur est fréquemment tenté de conclure que c’est la première hypothèse qui est confirmée par l’observation d’une corrélation positive et forte entre nos deux concepts. Cependant, corrélation ne veut pas dire causalité.

L’interprétation des statistiques demande de la prudence…

› Il existe une corrélation négative entre la longueur des cheveux et le nombre de crimes commis ...

› Le nombre de crimes est associée positivement au nombre d’exterminateurs dans un quartier ...

Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s'il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l'existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance, ...).

On notera également qu'il est préférable au coefficient de Pearson lorsque les distributions X et Y sont dissymétriques et/ou comportent des valeurs exceptionnelles.

Ce coefficient est donc très utile lorsque l'analyse du nuage

de point révèle une forme curvilinéaire (non linéaire)dans une relation qui semble mal s'ajuster à une droite.

Il varie de -1 à 1 et s’interprète de la même façon que le R

de Pearson.

Page 7: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

7

Existe-t-il un lien entre mes 2 variables quantitatives ?

› Je regarde la signification du R ou du Rho.

Si oui, quel est la force de ce lien ?

› Je regarde la valeur du R de Pearson ou le rho de Spearman.

Quel est le sens (ou qu’est-ce que ça veut dire) ?

› Je regarde le + ou – et je réfléchis aux 3 hypothèses.

On veut savoir s’il existe un lien entre le % de familles monoparentales par quartier de Montréal et le nombre total

de crimes.

Pour avoir le droit de faire des corrélations:

1. Échantillon aléatoire

2. Observations (ou mesures) indépendantes

Pour faire du paramétrique (R de Pearson):

1. Variables quantitatives

2. Absence de valeur(s) extrême(s)

3. Distribution normale

On fait une

fréquence et un

histogramme

sur chaque

variable

quantitative.

Page 8: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

8

Pour avoir le droit de faire des corrélations:

1. Échantillon aléatoire

2. Observations (ou mesures) indépendantes

Pour faire du paramétrique (R de Pearson):

1. Variables continues

2. Absence de valeur(s) extrême(s)

3. Distribution normale

4. Linéarité de la relation

On fait une fréquence

et un histogramme

sur chaque variable

quantitative.

On fait un

diagramme de

dispersion.

Page 9: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

9

Graphes

Boîtes de

dialogue

ancienne

version

Dispersion/points…

Dispersion simple

Axes des X

(variable

indépendante)

Axes des Y

(variable

dépendante)

Page 10: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

10

Corrélation

Bivariée

Mettre la variable

quantitative

dépendante et

indépendante

Rho de Spearman pour

le non-paramétrique R de Pearson pour le

paramétrique

Page 11: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

11

1- Existe-t-il un lien entre mes variables ?

2- Quelle est la force de ce lien ?

3- Quelle est le sens ?

R = 0,372

Relation positive: plus le % de familles

monoparentales est élevé, plus il y a de

crimes dans un quartier.

Oui car p=0,001 et donc p<0,05

1- Existe-t-il un lien entre mes variables ?

2- Quelle est la force de ce lien ?

3- Quelle est le sens ?

Rho = 0,362

Relation positive: plus le % de familles

monoparentales est élevé, plus il y a de

crimes dans un quartier.

Oui car p=0,001 et donc p<0,05

On veut savoir s’il existe un lien entre le % de familles monoparentales par quartier de Montréal et le nombre total

de crimes.

› Il existe un lien positif et significatif entre le pourcentage de familles monoparentales et le nombre total de crimes dans un

quartier (r=0,37, p<0,01). En effet, plus le pourcentage de

familles monoparentales dans un quartier augmente, plus le

nombre total de crime augmente.

› Il existe un lien positif et significatif entre le pourcentage de familles monoparentales et le nombre total de crimes dans un

quartier (rho=0,36, p<0,01). En effet, plus le pourcentage de

familles monoparentales dans un quartier augmente, plus le

nombre total de crime augmente.

Paramétrique

Non

paramétrique

Page 12: 29/11/2011 Cours 13 · 2011-11-29 · 29/11/2011 1 La corrélation linéaire Cours 13 Retour sur cours 12 Corrélation ›Utilité et postulats d’utilisation ›Diagramme de dispersion

29/11/2011

12

Taux de

criminalité

Revenu moyen

Taux de

chômage

% de familles

ayant

déménagé

Taux de

criminalité ---

Revenu moyen -0.412** ---

Taux de

chômage 0.100* -0.536** ---

% de familles

ayant

déménagé

0.111* -0.183* 0.470** ---

34

* p≤0.05

**p≤0.01

Que doit-on conclure ?