Test de corrélation simple et test de Normalité

Preview:

Citation preview

Test de corrélation simple Et test de Normalité

Prof. Adad Mohamed Cherif 2017

Université d’Oum El Bouaghi Faculté des sciences de la terre et de l’architecture

∑. µ. Α. ρ

Rappel théorique

Analyse de corrélation sur le logiciel SPSS.

Principe de la méthode de corrélationC’est une méthode bi-variée, Elle sert à croiser des variables X et Y pour détecter une relation possible entre elles. Cependant, X et Y ne sont pas forcément causales . Donc, « UNE CORRELATION N'IMPLIQUE PAS NECESSAIREMENT UNE CAUSALITE  »Par exemple, la corrélation positive qui existe entre 2 variables Taille et Poids. Généralement, il est admis qu’au fur à mesure que la taille augmente, le poids tend à prendre des valeurs de plus en plus importante. Donc, il y a une relation entre elles, la variable taille agit sur le la variable poids.

La corrélation de Pearson, qui est un test paramétrique, sert à croiser 2 variables quantitatives discrètes ou continues ( valeurs mesurées à l’aide d’intervalles ou de rapport). Cette corrélation est exprimé par le coefficient « r » qui indique le sens et l’intensité de cette liaison. -1

1. r est proche de 0, la corrélation n’existe pas entre X et Y 2. 0.0 < r < 0.5 : Très faible3. r est proche de 1, la corrélation très forte positive entre X et Y 4. r est proche de -1, la corrélation très forte négative entre X et Y

D’une manière générale, Au fur est mesure que r s’approche de +1 ou -1, la corrélation est forte. Quand r s’approche de plus près de « 0 », la corrélation est faible, voire nulle. La corrélation est donc définie par le sens et l’intensité de la liaison des 2 variables. Corrélation positive (0 < r < 1) : relation proportionnelle Corrélation négative ( Corrélation négative (-1 < r < 0) : relation inversement

proportionnelle

La corrélation de Spearman « ρ », quant à elle, sert à croiser 2 variables dont l’une est mesurée à l’aide de l’échelle ordinale.

On peut appréhender beaucoup mieux le sens et l’intensité de la corrélation par un examen visuel . On fait appel, donc, au nuage de points (scatter diagrams). C’est intersection des 2 variables. Le coefficient de corrélation linéaire r est tel que -1

Y est la variable dépendante (à expliquer, à prédire) et que X est la variable indépendante (explicative, prédicteur). On peut dire que les valeurs de X permettent de prédire les valeurs de X. Cependant , en statistique, il y a 3 types de variable : variable dépendante, variable indépendante et variable de contrôle. Cette dernière peut avoir un effet négatif sur la prédiction. Elle doit être maintenue constante dans l’analyse de corrélation, exemple conduite à haute vitesse (VI), risque d’accident (VD) et l’état de santé du conducteur, l’état des routes, état du véhicule ( les variables de contrôle).

Variables qu’on peut leur appliquer l’analyse de corrélation Variable X (indépendante) Variable Y (dépendante)Taille Poids Revenus DépensesTaux de précipitation Rendement agricole Industrialisation Pollution Dépenses Epargne Tabagisme Cancer des poumons Hauteur des bâtiments Vitesse de l’airConduire à haute vitesse Risque d’accident Distance Temps

Dans l’analyse de corrélation , on évoque souvent la covariance qui est la moyenne des produits moins le produit des moyens . Comme la variance , la covariance n’a pas de signification tangible. Pour quelle soit un indicateur interprétable , il faut passez au coefficient de corrélation linéaire . C’est à l’image de la variance interprétée par l’écart-type (standard deviation) qui est racine carré de sigma =variance .

Relation est linéaire Données sont indépendantes Choix de la méthode

Méthode paramétrique (variables quantitatives) : coefficient de Pearson Méthode non- paramétrique (variable qualitative) : coefficient de Spearman

la distribution des variables suivent la loi normale

Exemple d’analyse de corrélation

Variable indépendance : Démographie Variable dépendante : Demande de logements

Variable indépendante X Variable dépendante Y Démographie en million Demande de logements en millier

7 3010 6514 8018 10522 14026 18531 20434 23037 26040 340

Données fictives

La question de recherche « Est-ce que la démographie galopante est responsable de  la hausse de la demande en logements »

Formulation des hypothèses•Hypothèse nulle (H₀ ). Il n ’existe pas de relation

entre la démographie et la demande en logements

• Hypothèse alternative (H₁). Il existe une relation entre la démographie et la demande en logements,

Toutes les conditions citées ci-avant sont respectées

Vérification de la normalité de la distribution des 2 variables . Procédure

Les variables sont indépendantes

1. Analyse2. Statistiques descriptives 3. Explorer 4.Transférez les variables (Démographie et demande en logements) dans le champ « liste variables dépendantes »5. Cliquez sur Diagrammes6. Puis cochez Histogramme et graphes de répartitions avec tests7. Poursuivre , en fin OK

Nous obtenons 3 tableaux - Récapitulatif du traitement des observations - Descriptives - Test de normalité Puis

- Les différents graphes Tableau 1:Récapitulatif du traitement des observations

Dans ce tableau, il est indiqué le nombre de l’effectif n=10 et le nombre manquant n=0 .

Tableau 2: C’est l’analyse descriptive – des 2 variables Démographie et demande en logements .- La moyenne - Ecart-type - Asymétrie (Skewness )- Aplatissement  (kurtosis)

Quand les données sont distribuées selon la loi normale, skewness et kurtosis tendent vers « zéro »Pour la variable démographie skewness= - 0,007Kurtosis = -1,357

Tableau3: tableau de normalité

Ici , nous avons 2 tests: Kolmogorov-Smirnov (KS) et Shapiro-Wilk (SW) , le 1er n’est pas assez puissant et la majorité de statisticiens recommandent l’utilisation du 2ème test. Même pour tester la normalité des variables, on doit émettre les deux hypothèses H₀ et H₁

Pour H₀ (hypothèse nulle), les données sont normalement distribuées .Si la signification > 0,05 alors H₀ est maintenue et H₁ est rejetée .

On voit clairement sur le tableau que le KS et SW pour les 2 variables, démographie et demande en logement sont supérieurs à 0,05. Donc, la loi de normalité est de rigueur pour le 2 variables.

•Histogramme de la variable « demande en logements » . Le graphe de cette variable suit approximativement la forme de la cloche qui incarne la loi normale.

Pour incérer la forme de cloche dans l’histogramme : • Cliquer sur l’histogramme lui même de la variable «  Demande en

logement » • Choisir la forme de cloche• Fermer

Coefficient de Pearson Méthode paramétrique (variables quantitatives)

1.Transférer le 2 variables vers le champs « variable » 2. Cliquer Option3. Choisir Moyenne et écarts-types 4. Poursuivre 5. Cocher Pearson (test de Pearson) 6. Cocher Repérer les corrélations significations7. Ok

Résultat1er tableau: statistiques descriptives 2ème tableau : Corrélations

- Sur ce tableau, il s’agit d’indiquer la moyenne et l'écart-types des 2 variables. - Pour la variable Démographie , la moyenne est 23,80 et l’écart type de 11,688- Pour la variable demande en logements, la moyenne est de 163.90 et l’écart-type de 97.44 , avec le nombre de l’effectif N de 10.

• Ce tableau montre la corrélation entre les 2 variables. Le croisement entre la démographie et la

démographie donne la corrélation de Pearson de 1, ce qui est tout à fait normal, la relation est très

forte. Puis, le croisement entre démographie et Demande en logements , la corrélation de

Pearson est de 0,987, ce qui signifie que la relation entre les 2 variables est très forte car 0,987

est très proche de 1 .

• Aussi, l’hypothèse nulle H₀ est rejetée et H₁  (hypothèse alternative)  est retenue car la relation entre

les 2 variables est très significative , p-value=0,000 <0,05 (0,05 le niveau de signification) .

Mais cela ne signifie pas que la démographie est la cause de la hausse de la demande de

logements

•H₁: Il y aune relation significative entre la démographie et la demande en logements

Merci pour votre attention

Prof. Adad Mohamed Chérif

Recommended