70
Statistiques 1 Licence STE 2eme année

Corrélation Régression

  • Upload
    lanai

  • View
    74

  • Download
    0

Embed Size (px)

DESCRIPTION

Licence STE 2eme année. Corrélation Régression. Plan. Introduction Coefficient de corrélation Principe Interprétation Modèles de régression Régression linéaire Ajustement par un polynôme Fonction exponentielle Le coéfficient de détermination Approche non-paramétrique - PowerPoint PPT Presentation

Citation preview

Page 1: Corrélation Régression

Statistiques 1

Licence STE 2eme année

Page 2: Corrélation Régression

Statistiques 2

1. Introduction

2. Coefficient de corrélation PrincipeInterprétation

3. Modèles de régressionRégression linéaireAjustement par un polynômeFonction exponentielleLe coéfficient de détermination

4. Approche non-paramétriqueCoefficient de correlation de Spearman

Plan

Page 3: Corrélation Régression

Statistiques 3

Méthode et but• 2 variables numériques (quantitatives)• Identifier la nature des variables : indépendante x et dépendante y.• Décrire la relation entre les variables

graphiquement en utilisant une équation

• Utiliser l’équation pour prévoir une valeur yi à partir d’une valeur xi.

• Etablir le degré de fiabilité de l’estimation (relation probabiliste seulement)

La relation entre deux variables peut être :• déterministe (Ceci ne nous concerne pas ici)• probabiliste (C’est ce dont on va parler)

1. Introduction

Page 4: Corrélation Régression

Statistiques 4

Relation déterministe: La valeur de la variable yy peut être précisement prédite à partir de la valeur de la variable xx.

Exemples: Prix d’une maison et taxe due. Vitesse d’un corps en chute libre et temps.

V=V0+gt V

tV0

1. Introduction

Page 5: Corrélation Régression

Statistiques 5

Relation probabiliste: La valeur d’une variable yy ne peut pas être précisement prédite à partir de la valeur de la variable xx - à cause d’autres facteurs.

Exemples:

1. Consommation en eau et une populationxx = nombre d’habitantsyy = eau consommée

2. Nombre d’heures passées à réviser un examen et la note obtenue.

xx = heures passées à réviser yy = note obtenue

Regression possible avec une relation probabiliste.

1. Introduction

Page 6: Corrélation Régression

Statistiques 6

Le coefficient de corrélation est une mesure du degré de corrélation linéaire. En pratique on essaye d’obtenir une estimation (r) à partir d’un échantillon représentatif de la population.

Approche géométrique:

x

y

x

y

Q1

Q3

Q2

Q4

Q1 Q2 Q3 Q4

)( xxi + - - +

)( yyi + + - -

))(( yyxx ii + - + -

2. Coefficient de correlation

Page 7: Corrélation Régression

Statistiques 7

yyxx i

n

ii

1

Évidemment cette somme dépend de n. On va donc diviser par (n-1).Au fait, pourquoi (n-1) et pas simplement n???

xy

n

iii

sn

yyxxyxCov appelée aussi

1

))((),( 1

Cov(x,y) est la covariance. Elle est utilisée dans de nombreusesméthodes multivariées.

Il y a encore un problème… La covariance dépend fortement des unités de x et de y. Alors que faire...?

est un paramètre intéressant

2. Coefficient de correlation

Page 8: Corrélation Régression

Statistiques 8

Pour éviter ce problème on va diviser la covariance par l’écart type de x et l’écart type de y. Attention : les données doivent être normalement distribuée (mais nous reviendrons sur ce point…)

22

1

),(

yyxx

yyxxr

ss

s

ss

yxCovr

ii

i

n

ii

yx

xy

yx

Coefficient de corrélation de Bravais-Pearson

Un exemple...

2. Coefficient de correlation

Page 9: Corrélation Régression

Statistiques 9

Numéro de l'essai i

Masse mi

xi Long. li

yi xxi 2xxi yyi 2yyi ))(( yyxx ii

1 2 42.0 -4.0 16.0 -9.3 86.9 37.28 2 4 48.4 -2.0 4.0 -2.9 8.5 5.84 3 6 51.3 0.0 0.0 0.0 0.0 0 4 8 56.3 2.0 4.0 5.0 24.8 9.96 5 10 58.6 4.0 16.0 7.3 53.0 29.12

n=5 X 6 Y 51.32 0.0 40 0.0 173.2 82.2

987,0

402,173

2,8222

1

yyxx

yyxxr

ii

i

n

ii

2. Coefficient de correlation

Page 10: Corrélation Régression

Statistiques 10

Balance à ressort

30.0

35.0

40.0

45.0

50.0

55.0

60.0

65.0

0 2 4 6 8 10 12

Masse (kg)

Lo

ngu

eu

r (c

m)

r = 0,987r = 0,987

2. Coefficient de correlation

Page 11: Corrélation Régression

Statistiques 11

Allons un peu plus loin...

yxxy sss Inégalité de Schwarz:

Donc... 11 ou 1 rr

r = 1

r = -1

r = 0.7 r 0

Liaisons absolues(déterministe)

Liaison stochastique(probabiliste)

Pas de liaison

2. Coefficient de correlation

Page 12: Corrélation Régression

Statistiques 12

Un exemple:Teneurs en Be, Zn et Sr (ppm)dans l’étang de Thau

Etude des variables deux à deux

2. Coefficient de correlation

Page 13: Corrélation Régression

Statistiques 13

La matrice de corrélation...

Représentation pratique pour l’exploration

2. Coefficient de correlation

Page 14: Corrélation Régression

Statistiques 14

2. Coefficient de correlation

Page 15: Corrélation Régression

Statistiques 15

En pratique attention!!!!!!

Ce coefficient de corrélation doit être manié avec grande précaution

r = 0.93

r = 0

• r donne le degré de liaison linéaire.• Dépendance curvilinéaire forte et r faible dans le 2eme cas.• Le diagramme xy doit donc toujours être examiné en même temps que la valeur de r.

2. Coefficient de correlation

Page 16: Corrélation Régression

Statistiques 16

r = -0.13 r = 0.19

r = 0.53 r = 0.92

Le coefficient de corrélation peut produire de hautes valeurs si des points isolés sont présents.

2. Coefficient de correlation

Page 17: Corrélation Régression

Statistiques 17

La corrélation de deux variables log-transformées doit toujoursêtre interprétée avec précaution

r = 0.355

100

50

030 60 90

Zn

Pb

r = 0.784

4.8

3.0

1.22.0 3.0 5.0

ln(Zn)

ln(P

b)

4.0

2. Coefficient de correlation

Page 18: Corrélation Régression

Statistiques 18

Les coefficients de corrélation pour des données fermées (i.e. %) sontprobablement biaisés!!!

r = -1

100

50

0

Qz (%)

Fld

p (%

)

Pourquoi? La valeur d’une variable aura tendance à affecter les autres.

10050

r = - 0.62

100

50

0

Qz (%)

Fld

p (%

)

10050

Roche ignée avec Roche ignée avec un 3ieme composantun 3ieme composant<50%<50%

Mélange pur Qz - FldpMélange pur Qz - Fldp

2. Coefficient de correlation

Page 19: Corrélation Régression

Statistiques 19

r = - 0.62

100

50

0

Qz (%)10050

Roche ignée avec Roche ignée avec un 3ieme composantun 3ieme composant<50%<50%

Si l’on ajoute du Qz, le feldspath diminue. Mauvaise interprétation: le Qz se substitue au feldspath!En fait le feldspath est constant mais le volume change

Fld

p (%

)

2. Coefficient de correlation

Page 20: Corrélation Régression

Statistiques 20

Paleoécologie. Fréquence d’une communauté par m2.Attention. Ce sont des données fermées et une corrélationnégative peut être induite.

Mieux vaut travailler en nombre absolu d’individus.

Ceci n’est malheureusement pas possible en pétrologie.

Autre exemple de données fermées:

2. Coefficient de correlation

Page 21: Corrélation Régression

Statistiques 21

Encore un autre exemple (données fermées):

Pb, Zn, Cd, Tl (ppm) dans un sédiment.SiO2 varie

La corrélation entre les éléments traces devient positive par dilution avec le SiO2!!

Alors comment faire??

2. Coefficient de correlation

Page 22: Corrélation Régression

Statistiques 22

2. Coefficient de correlation

A B C A/C B/C 12 50 2 6 25 10 49 6 1,67 8,2 9 46 3 3 15 7 65 20 0,35 3,3 5 37 54 0,09 0,7 11 69 3 3,67 23 9 58 5 1,8 12 8 48 28 0,29 1,7 9 37 55 0,16 0,7 10 51 32 0,31 1,6 12 43 40 0,3 1,1 13 43 2 6,5 22 6 56 17 0,35 3,3 7 76 8 0,88 9,5 8 48 12 0,67 4 13 67 54 0,24 1,2 Moyenne 9,31 52,7 21 ET 2,44 11,5 20 CV 26,2 21,9 94

Quoiqu’il en soit gare aux corrélations entre rapports de variables!

Quand la même variable apparaît dans chacun des rapports…

Quand son coefficient de variation est important face aux autres variables…

Quand les données sont loin d’être normalement distribuées…

Page 23: Corrélation Régression

Statistiques 23

Au fait, à partir de quelle valeur de r peut-on considérer qu’on a vraisemblablement une corrélation??

0.6 ?0.9 ?

0.4 ?

2. Coefficient de correlation

Page 24: Corrélation Régression

Statistiques 24

Tests d’hypothèses

Population normale conjointe, hypothèse concernant la valeur de

2

10

1

2

: de Calcul

0: contre 0:

r

nrt

HH

c

si ou si rejette On 2,2/2,2/0 ncnc ttttH

Remarque: un coefficient de corrélation r = 0.4 peut être significatifsi n = 100 mais pas si n = 10.

2. Coefficient de correlation

Page 25: Corrélation Régression

Statistiques 25

Exemple:Les données Pb(ppm) vs. Zn (ppm) mesurées dans les sols du Derbyshire(n=44) permettent de calculer un coefficient de corrélation r = 0,765.Y-a-t ’il une corrélation significative entre Pb et Zn?

Znet Pb entre ivesignificat ncorrélatio une a y Il :Conclusion

rejetéest donc critique, calculé

2critique 0.05,Pour

7.7765.01

244765.0

1

2

:Test

0: contre 0:

0

22

10

Htt

tr

nrt

HH

c

c

2. Coefficient de correlation

Page 26: Corrélation Régression

Statistiques 26

Comparaison de deux coefficients de corrélation expérimentaux:Deux valeurs de r obtenues sur deux différents groupes sont-elles différentes?

31

31

calculeOn

:

:

21

21

211

210

nn

ZZZ

H

H

d

)1

1ln(

2

1

r

rZ

Z est la transformée de r par transformation de Fisher

Si –Z<Zd < Zon accepte H0

2. Coefficient de correlation

Quand n1 & n2 sont assez grands (>20):

Zd est censé suivre une loi normale N(0,1)

Page 27: Corrélation Régression

Statistiques 27

Attention: ces tests sont valides seulement si les données sont prises sans biais dans une population normalement distribuée (au moins raisonnablement) par rapport aux deux variables. Ce n’est pas souvent le cas en géologie ou en environnement!

Une alternative: l’approche non-paramétrique que nous allons voir plus tard.

2. Coefficient de correlation

Page 28: Corrélation Régression

Statistiques 28

La régression

Une technique statistique pour analyser les relations qui existent parmi les variables.

Modèle de régression linéaire simple.

Equation linéaire décrivant la relation entre une simple variable independante x et une variable dépendante y

2. Analyse de regression

Page 29: Corrélation Régression

Statistiques 29

Estimer l’équation linéaire qui décrit le mieux la relation entre une variable dépendante (yy) et une variable indépendante (xx).

Exemple Un échantillon aléatoire de 15 appartements vendus à Dijon. Variables (pour chaque appartement): prix de vente (kF) et taille (m2).

Taille (m2) Prix (kF)20,0 225,270,4 725,920,5 296,0etc etc

2. Analyse de regression

Page 30: Corrélation Régression

Statistiques 30

0

40

80

120

160

0 50 100 150 200 250 300

Taille m2

Pri

x (k

euro

s)

• La relation linéaire apparaît positive mais elle n’est pas parfaite (non déterministe). Il y a un élément du au hasard.

• Modèle probabiliste, avec un terme d’erreur aléatoire qui va compter pour toutes les variables qui ne sont pas dans le modèle. (emplacement, présence de jardins...)

2. Analyse de regression

Page 31: Corrélation Régression

Statistiques 31

• La droite qui s’ajuste le mieux aux données (best fit) est trouvée par la méthode aux moindres carrés. La méthode minimise la somme des carrés des distances verticales || entre les points et la droite.

iyiy

Droite de régression de y en x

2. Analyse de regression – relation linéaire

Page 32: Corrélation Régression

Statistiques 32

iii baxy

aléatoireerreur :

pente:

intercept:

teindependan variable:

dépendante variable:

i

i

i

a

b

x

y

Ce sont des paramètres qui s’appliquent à l’équation

s’ajustant le mieux à la population (x,y).

a et b sont les coefficients de la régression

2. Analyse de regression – relation linéaire

Page 33: Corrélation Régression

Statistiques 33

Un brin de mathématiques…?

2. Analyse de regression – relation linéaire

Page 34: Corrélation Régression

Statistiques 34

alors...? .possible..petit plus le êtredoit D

2

11

2

2211

2ba,

ba,

)(

:est droite la à écarts des carrés des somme la

,....,1 ,:aux lesliant suivanteéquation l'et

,...,,:nsobservatio aon l' Si

.aux méthode la à correspond 2 critère Le

min .2

min 1.

:éspossibilit Plusieurs

minimiserfaut Il

ii

n

i

n

ii

iiiii

nn

i i

i i

iii

i

axbyD

n iaxbyxy

),y(x),y(x),y (xn

axby

carrés moindres

2. Analyse de regression – relation linéaire

Page 35: Corrélation Régression

Statistiques 35

bien...ou

0

0

:par donnéessont deet de estimées valeursLes

)(2

)(2

)(

zéro. à égales pose leson et partielles dérivées ...

n

1i

n

1i

1

1

1

2

iii

ii

n

iiii

n

iii

n

iii

axbyx

axby

ba

axbyxa

D

axbyb

D

axbyD

2. Analyse de regression – relation linéaire

Page 36: Corrélation Régression

Statistiques 36

n

i

inn

i

in

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

y

n

yyy

n

x

n

xxx

xaxbyx

xanby

xaxbyx

xanby

1

1

1

1

1

2

11

11

1

2

11

11

...et

...

:part autreD'

dire...-à-estC'

0

0

2. Analyse de regression – relation linéaire

Page 37: Corrélation Régression

Statistiques 37

xayn

xa

n

yb

s

s

xx

yyxx

n

xx

n

yxyx

a

ii

x

xy

i

ii

ii

iiii

222

2

La droite de régression passe par );( yx

2. Analyse de regression – relation linéaire

Page 38: Corrélation Régression

Statistiques 38

Ne nous énervons pas!!En fait, ce n’est pas sorcier du tout…

Voyons plutôt un exemple.Cas d’un ressort subissant un allongement sous l’effet d’un poids.

2. Analyse de regression – relation linéaire

Page 39: Corrélation Régression

Statistiques 39

Numéro de l'essai ‘X’ Masse ‘Y’ Longueur mi2 mili

i mi li

1 2 42.0 4.0 84.0 2 4 48.4 16.0 193.6 3 6 51.3 36.0 307.8 4 8 56.3 64.0 450.4 5 10 58.6 100.0 586.0

n=5

30 im

5,256 il

2202 im

1622 iilm

Balance à ressort

y = 2.055x + 38.99

30.0

35.0

40.0

45.0

50.0

55.0

60.0

65.0

0 2 4 6 8 10 12

Masse (kg)

Long

ueur

(cm

)

38,99

2,055

5

30055,2

5

5,256

5900

220

55,25630

1622

2

2

n

ma

n

lb

n

mm

n

lmlm

a

ii

ii

iiii

2. Analyse de regression – relation linéaire

Page 40: Corrélation Régression

Statistiques 40

2

2

)(

2

)ˆ(

)xx

n

yy

S(ai

ii

)]();([ )2,2/()2,2/( aStaaSta a nn

L’écart type de la pente a, estimé à partir de l’échantillon est noté S(a):

On peut alors déterminer l’intervalle de confiance de la pente (cf cours L1)

Si 0 apparaît dans cet intervalle, alors la pente ne peut être considérée comme significativement différente de 0. On peut conclure qu’il n’existe pas de corrélation significative entre les deux variables.

C’est l’ordonnée estimée à partir du modèle linéaire:

baxy ii ˆ

2. Analyse de regression – relation linéaire

Page 41: Corrélation Régression

Statistiques 41

Ceci correspond à la procédure habituelle d’un test d’hypothèses:

0)2,2/(

)2,2/(

1

0

rejèteon alors Si

avec den Comparaiso

)(

0:

0:

Htt

tt

aS

at

aH

aH

nc

nc

c

Autre méthode pour finalement tester l’existence d’une corrélation

2. Analyse de regression – relation linéaire

Page 42: Corrélation Régression

Statistiques 42

3 méthodes possibles pour déterminer l’existence d’une corrélation entre 2 variables:

1. Calcul de r et test sur r

2. Calcul de l’intervalle de confiance de la pente. 0 appartient-il à cet intervalle?

3. Calcul de la pente et de son écart type, test sur la pente.

Heureusement les trois méthodes aboutissent rigoureusement à la même conclusion!!

2. Analyse de regression – relation linéaire

Page 43: Corrélation Régression

Statistiques 43

)(

:eststudent de test lepour de valeur La

)]();([

2

)ˆ(

)()(

:est , noté , de estimé écart typeL'

)2,2/()2,2/(

2

2

2

bs

bt

t

bStbbStbb

n

yy

xxn

xbS

S(b)b

c

c

nn

ii

i

i

On peut alors déterminer l’intervalle de confiance de l’ordonnée à l’origine (cf cours L1)

Test sur la table de Student

2. Analyse de regression – relation linéaire

0:

0:

1

0

bH

bH

Page 44: Corrélation Régression

Statistiques 44

La droite de régression passe par la moyenne de x et la moyenne de y.

La corrélation est significative (de peu)

L’ordonnée à l’origine ne peut pas être considérée comme différente de 0

Soyons honnête, de tels résultats indiquent un piètre analyste

Intervalle de confiance à 95%

2. Analyse de regression – relation linéaire

Page 45: Corrélation Régression

Statistiques 45

On accepte l’hypothèse nulle H0: b=0

2

2

22

:estéquation l'satisfait qui de valeur La

0

0)(

)(2

: àrapport par dérivant En

)(

ii

iii

i iiii

iiii

iiii

iii

iii

iii

x

yxa

a

xayx

axyx

axyxa

D

a

axyD

axy

axy

a: pente de la droite,pas d’ordonnée à l’origine

2. Analyse de regression – relation linéaire

Page 46: Corrélation Régression

Statistiques 46

Y s’exprime comme polynôme d’une seconde variable X

carrés moindrespar polynômial Ajustement

:tprécédemen comme On tire2

1

: tdu temps equadratiqufonction uneest corpsun d' chute deh hauteur la :Exemple

...

1

4

1

3

1

2

1

2

1

3

1

2

11

1

2

11

200

2

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

xcxbxayx

xcxbxayx

xcxbnay

gttvhh

Hxcxbxay

cba ,,

2. Analyse de regression – relation polynomiale

Page 47: Corrélation Régression

Statistiques 47

yx

yx

yx

h

b

a

xxx

xxx

xxx

yx

xy

y

c

b

a

xxx

xxx

xxn

nnnn

n

n

)1(

1

0

121

21

110

2432

32

2

......

...

............

...

...

n... degré de polynômeun pour et

Ou sous forme matricielle...

Même principe pour les sommes de fonctions trigonométriques

xbxay cossin

2. Analyse de regression – relation polynomiale

Page 48: Corrélation Régression

Statistiques 48

La fonction exponentielle est très courante en sciences

bxaey Par exemple la décroissance d’un élément radioactif...

tePbtPb 0210210 )(

Si les constantes a et b sont inconnues, on espère pouvoir lesestimer à partir de x et y. Malheureusement l’approche directe fournit des équations insolubles.

Alors… comment faire????

2. Analyse de regression – relation exponentielle

Page 49: Corrélation Régression

Statistiques 49

Très facile! On transforme l’équation non linéaire en une équationlinéaire. Linéarisation en prenant le logarithme:

bxay lnln

xy en linéairedevient ln

Plus simple encore!! On utilise un papier « semi-log » puisque l’espacement logarithmique des graduations évite le calcul de lny.

Voyons cela sur un exemple...

2. Analyse de regression – relation exponentielle

Page 50: Corrélation Régression

Statistiques 50

Une population de bactéries décroît exponentiellement:

/0

teNN

Temps ti (jours)

Population Ni Zi = ln Ni

0 153000 11.94 1 137000 11.83 2 128000 11.76

t est le temps et est la vie moyenne de la population. A rapprocher de la demi-vie t1/2; en fait t1/2 = (ln2) .

2. Analyse de regression – relation exponentielle

Page 51: Corrélation Régression

Statistiques 51

Opération bactéries

125000

130000

135000

140000

145000

150000

155000

0 0.5 1 1.5 2 2.5

Temps (jours)

Po

pu

lati

on

Opération bactéries

y = -0.089x + 11.933

11.7

11.75

11.8

11.85

11.9

11.95

0 0.5 1 1.5 2 2.5

Temps (jours)

Po

pu

lati

on

ln N0 = 11,93 et (-1/ ) = -0.089 j-1

jours

2. Analyse de regression – relation exponentielle

Page 52: Corrélation Régression

Statistiques 52

Extrêmement facile mais attention quand même…!!!

L’ajustement par moindres carrés de la droite y = ax+b supposeque toutes les mesure y1,…,yn soient également incertaines.

2. Analyse de regression – relation exponentielle

Page 53: Corrélation Régression

Statistiques 53

2. Analyse de regression – Les autres grands modèles

Page 54: Corrélation Régression

Statistiques 54

Attention• Les points isolés ont un effet indésirables sur la régression Leur influence doit être testée en les éliminant et en répétant la régression.

• La différence en y entre un point et la droite de régression est connue sous le nom de résidu. La validité de la régression statistique dépend de la distribution des résidus:

1. Les résidus doivent être normalement distribués2. Il ne doit pas y avoir de tendance dans la distribution de variance le long de x.

2. Analyse de regression – Et les résidus…?

Page 55: Corrélation Régression

Statistiques 55

i

x

Bande incurvée: Relation curvilinéaire. Ajouter des termes polynomiaux!

2. Analyse de regression – Et les résidus…?

Page 56: Corrélation Régression

Statistiques 56

i

x

Le fuseau: La variance des résidus n’est pas indépendante des valeurs de x. Des corrections doivent être apportées (courbe log. log p.e.)

2. Analyse de regression – Et les résidus…?

Page 57: Corrélation Régression

Statistiques 57

i

x

Bande oblique: Relation entre les résidus et la variable x. Si x n’est pas dans le modèle, il faudrait l’introduire, ou erreur importante.

2. Analyse de regression – Et les résidus…?

Page 58: Corrélation Régression

Statistiques 58

i

x

Bande horizontale: les conditions d’application sont suffisamment respectées

2. Analyse de regression – Et les résidus…?

Page 59: Corrélation Régression

Statistiques 59

y

y

x

Variationinexpliquée

Variationexpliquée

Variationtotale

iy

iy

R2 = Variation expliquée / variation totale

2. Analyse de regression – Le coefficient de détermination

Page 60: Corrélation Régression

Statistiques 60

222)ˆ( ˆ yyyyyy iiii

Somme des carréstotale (SCtot)

Somme des carrésdes résidus (SCres)

Somme des carrésde la régression (SCreg)

Variation totale = variation inexpliquée + variation expliquée

R2 = Variation expliquée / variation totale

R2 est le coefficient de détermination, proportion de la variationde y qui s’explique par la présence de x. Plus R2 est grand, plus SCres est petit.

2. Analyse de regression – Le coefficient de détermination

Page 61: Corrélation Régression

21/04/23 Statistiques 61

Comme nous l’avons déjà vu, il est rare en géologie de trouver des variables normalement distribuées.

La corrélation paramétrique est donc particulièrement dangereuse car elle donne de forte corrélation en présence de points isolés.

En conséquence on utilisera plutôt une corrélation de rang.

Coefficient de rang de Spearman- une méthode simple et populaire -

3. Corrélations non-paramétriques – rs de Spearman

Page 62: Corrélation Régression

21/04/23 Statistiques 62

Echelle de la 1ere variable : ordinaleEchelle de la 2eme variable : ordinale, rapport, intervalle

rs :coefficient de rang (Spearman)

)1(

61

21

2

nn

Dr

n

is

D représente, pour chaque observation, les différences de rang obtenues sur les deux variables.

3. Corrélations non-paramétriques – rs de Spearman

Page 63: Corrélation Régression

21/04/23 Statistiques 63

Ech. Be Zr Rang Be Rang Zr D*D1 1,71 62,04 5 5 02 1,91 71,50 10 13 93 1,98 68,40 12 11 14 1,74 61,25 7 4 95 1,87 64,16 9 7 46 1,38 58,49 3 3 07 0,99 30,33 1 1 08 1,13 39,55 2 2 09 1,65 64,71 4 8 16

10 2,26 71,47 16 12 1611 1,72 63,14 6 6 012 1,77 67,09 8 9 113 2,31 85,68 17 15 414 2,09 88,52 15 17 415 2,03 88,30 14 16 416 2,02 77,45 13 14 117 1,91 68,20 11 10 1

Somme D*D 70

914.0

)117(17

7061

)1(

61

2

21

2

s

s

n

is

r

r

nn

Dr

Be (ppm)

0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4Z

r (p

pm)

20

30

40

50

60

70

80

90

100

3. Corrélations non-paramétriques – rs de Spearman

Un exemple

Page 64: Corrélation Régression

21/04/23 Statistiques 64

3. Corrélations non-paramétriques – rs de Spearman

Page 65: Corrélation Régression

21/04/23 Statistiques 65

0:

0:

1

0

s

s

H

H

Deux cas possibles

Si n<20, il existe une table qui donne en fonction de n et , la valeur rs telle que sous H0, on ait P(IRsI>r)=

On rejette donc H0 si IrsI>r

Ici, n=17, rs =0,91>0,5, donc H0 est rejeté, il y a donc une corrélation significative entre Zr et Be au sens de Spearman

3. Corrélations non-paramétriques – rs de Spearman (petits échantillons)

Cette valeur est-elle significative?

(absence de corrélation)

n (nbre de paires) 0.05 0.02 0.01

5 0.95 0,99

6 0.886 0.943 1

7 0.786 0.893 0.929

8 0.738 0.833 0.881

9 0.683 0.783 0.833

10 0.648 0.746 0.794

12 0.591 0.712 0.777

14 0.544 0.645 0.715

16 0.506 0.601 0.665

18 0.475 0.564 0.625

20 0.45 0.534 0.591

Page 66: Corrélation Régression

21/04/23 Statistiques 66

3. Corrélations non-paramétriques – rs de Spearman (grands échantillons)

Si n>20, on opère de la même façon que pour le coefficient de corrélation linéaire :

2

10

1

2

: de Calcul

0: contre 0:

s

sc

r

nrt

HH

si ou si rejette On 2,2/2,2/0 ncnc ttttH

Page 67: Corrélation Régression

21/04/23 Statistiques 67

3. Corrélations non-paramétriques – rs de Spearman

ATTENTION : Un rs significatif signifie que les variables sont liées sans savoir de quelle façon!!!

Voyons cela sur quelques exemples…

Page 68: Corrélation Régression

21/04/23 Statistiques 68

rs=1

3. Corrélations non-paramétriques – rs de Spearman

Page 69: Corrélation Régression

21/04/23 Statistiques 69

r = 0.88

3. Corrélations non-paramétriques – rs de Spearman

Page 70: Corrélation Régression

21/04/23 Statistiques 70

r de

Pea

rson

For

tF

aibl

e

Faible Fort

rs de Spearman

3. Corrélations non-paramétriques – rs de Spearman