Statistiques descriptives -...

Preview:

Citation preview

Statistiques descriptives

F. Richard1

1Institut Pprime - UPR-3346 CNRSDepartement Fluides, Thermique, Combustion

France

Institut des Risques Industriels Assurantiels et Financiers

”IRIAF”

F. Richard Statistiques descriptives 1

Etapes d’une etude de statististique descriptive

1 Recolter les donnees

⇒ tableau des donnees brutes

2 Organiser les donnees

⇒ tableau des frequences

3 Resumer les donnees

⇒ graphiques

⇒ indicateurs numeriques

4 Interpreter les donnees

F. Richard Statistiques descriptives 2

Recolter les donnees

Extraction via une base de donnees

Donnees issues d’un calcul

Sondage

...

Exemple :

Soit une population d’individus de taille N et les variables

statistiques suivantes associees a chaque individu

Nombre d’enfants

Age

Mention au bac

Couleur des yeux

F. Richard Statistiques descriptives 3

Recolter les donnees

Tableau des donnees brutes

n◦ individu nbre enfants age mention coul. yeux

1 0 21 passable bleu

2 1 17 AB marron

3 1 10 B marron

4 2 18 AB vert

5 1 20 passable bleu

6 2 22 passable marron

7 2 16 AB bleu

8 2 28 AB marron

9 3 25 TB marron

10 2 19 B vert

F. Richard Statistiques descriptives 4

Recolter les donnees

Types de variable statistique

Qualitative

- Nominale : couleur des yeux (marron, bleu ...)

- Ordinale : mention au bac (AB, B, TB)

Quantitative

- Discrete : 1 partie des entiers (nbre d’enfants)

- Continue : 1 partie des reels (temperature)

Nombre d’enfants : variable discrete

Age : variable continue

Mention : variable ordinale

Couleur yeux : variable nominale

F. Richard Statistiques descriptives 5

Organiser les donnees

Definitions

Modalites

Differentes valeurs que peut prendre la variable statistique

Frequence

Popularite des differentes modalites

Frequence absolue (fa) ou Effectif (ni) de la modalite i

L’effectif de la modalite i est le nbre d’individus ayant cette

modalite

Frequence relative (fr )

fr =niN , N : taille de la population

Frequence cumulee (fc)

La frequence cumulee a la modalite i est la somme des

frequences relatives anterieures a fi (fi−1 + fi−2 + ...) + fi

F. Richard Statistiques descriptives 6

Organiser les donnees

Tableau des frequences

Le tableau des frequences ne traite qu’1 variable

statistique a la fois ⇒ analyse ”univariee”

Nombre d’enfants

modalites ni (fa) fr fr (%) fc0 1 0.1 10 0.1

1 3 0.3 30 0.4

2 5 0.5 50 0.9

3 1 0.1 10 1∑

10 1 100

ord

recro

issa

nt

Interpretations : 50% des individus ont 2 enfants,...

F. Richard Statistiques descriptives 7

Organiser les donnees

Age

mod . ni fr fc10 1 0.1 0.1

11 0 0 0

12 0 0 0

13 0 0 0

14 0 0 0

15 0 0 0

16 1 0.1 0.2

17 1 0.1 0.3

18 1 0.1 0.4

19 1 0.1 0.5

20 1 0.1 0.6

Age

mod . ni fr fc21 1 0.1 0.7

22 1 0.1 0.8

23 0 0 0

24 0 0 0

25 1 0.1 0.9

26 0 0 0

27 0 0 0

28 1 0.1 1∑

10 1 100

Interpretation

des donnees ?!

Trop de modalites : difficile a interpreter

⇒ Construction de classes modales

F. Richard Statistiques descriptives 8

Organiser les donnees

Definitions

Etendue des valeurs (E)

E = Xmax − Xmin

Nombre de classes (k) : formule de Sturges

k = 1+10

3log10 N avec 6 ≤ k ≤ 12

Amplitude de classe moyenne (A)

A =E

k

F. Richard Statistiques descriptives 9

Organiser les donnees

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Interpretations : 70% des individus ont moins de 22 ans,...

Dans quel cas construire des classes ?

⇒ Quand il y a trop de modalites

Dans quels cas peut il y avoir trop de modalites

⇒ Variable statistique continue

⇒ Variable statistique discrete, trop de modalites

F. Richard Statistiques descriptives 10

Organiser les donnees

Mention bac

modalites ni fr fcpassable 3 0.3 0.3

AB 4 0.4 0.7

B 2 0.2 0.9

TB 1 0.1 1∑

10 1 100

Couleur des yeux

modalites ni fr fcBleus 3 0.3 0.3

Marrons 5 0.5 0.8

Verts 2 0.2 1∑

10 1 100

Interpretations :

40% des individus ont eu la mention AB, ...

30% des individus ont les yeux bleus, ...

F. Richard Statistiques descriptives 11

Resumer les donnees : graphiques

”Les variables qualitatives ordinales et quantitatives peuvent

etre resumees par des graphiques”

Diagramme batons

⇒ Variables ordinales

⇒ Variables discretes (sans classes modales)

Histogramme

⇒ Variables discretes (classes modales)

⇒ Variables continues

Objectif : donner une image de la distribution statistique

(distribution des donnees)

F. Richard Statistiques descriptives 12

Resumer les donnees : graphiques

0.1

0.2

0.3

0.4

0.5

0 1 2 3

Nombre d’enfants

Fr

0.1

0.2

0.3

0.4

0.5

p AB B TB

Mention bac

Fr

0.2

0.4

0.6

0.8

1

0 1 2 3

Nombre d’enfants

Fc

0.2

0.4

0.6

0.8

1

p AB B TB

Fc

Mention bac

Diagramme batons

Diagramme des

frequences cumulees

F. Richard Statistiques descriptives 13

Resumer les donnees : graphiques

0.1

0.2

0.3

0.4

0.5

12 16 20 24

Age

Fr

Histogramme

Polygonne des frequences

0.2

0.4

0.6

0.8

1

Fc

28

0.5F(20)=0.5

Ci =ai−1 + ai

2

hi =ni

Ai

Ci : centre de classe

hi : hauteur de classe

Pour des intervalles de classe non constants, on remplace

l’effectif par la hauteur de classe en ordonnee

F. Richard Statistiques descriptives 14

Resumer les donnees : Indicateurs numeriques

Indicateurs de tendance centrale

- Moyennes

- Mode

- Mediane

Indicateurs de position

- Quantiles

Indicateurs de dispersion

- Etendue

- Ecart interquartile

- Ecart absolu moyen

- Ecart type

Indicateurs de forme

- Asymetrie

- Aplatissement

F. Richard Statistiques descriptives 15

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

”La moyenne arithmetique d’une variable statistique

quantitative (X ) est egale a la somme des valeurs prises par

cette variable divisee par le nombre d’observations”

x =1

N

n∑

i=1

xi (moyenne simple), N =n∑

i=1

ni

Si une valeur xi de X est observee plusieurs fois, nous

calculons une moyenne arithmetique ponderee

x =1

N

n∑

i=1

nixi (variable statistique discrete)

F. Richard Statistiques descriptives 16

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

Pour 1 variable continue, on fait l’hypothese que les

valeurs sont reparties uniformement a l’interieur de

chaque classe

x =1

N

n∑

i=1

nici ci : centre de la classe

Remarque :

x = 3

1 2 3 4 5 6 7 8 9 10

x = 4

1 2 3 4 5 6 7 8 9 10

”La moyenne arithmetique est affectee par les valeurs

extremes”

F. Richard Statistiques descriptives 17

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

Proprietes :

La somme algebrique des ecarts d’une variable statistique

a sa moyenne est nulle

n∑

i=1

(xi −x) = 0

n∑

i=1

ni(xi−x) = 0

Lorsque l’on fait subir a la variable statistique un

changement d’origine et d’echelle (transformation lineaire),

sa moyenne subit la meme transformation

y = ax + b ⇒ y = ax + b

F. Richard Statistiques descriptives 18

Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

Soit p 1 population de taille n partagee en 2 sous

populations p1 et p2 de tailles respectives n1 et n2. Soit X

1 variable stat. definie sur p, on peut exprimer sa moyenne

x en fonction des moy. x1 sur p1 et x2 sur p2

x =x1 + x2

2x =

1

N

n∑

i=1

nixi

Generalisation de la notion de moyenne :

”Au sens statistique, la moyenne d’une population est la valeur

unique que devrait avoir tous les individus de la population pour

que le total reste inchange”

F. Richard Statistiques descriptives 19

Indicateurs de tendance centrale : Les moyennes

”Total” : ∗ des valeurs ⇒ moy. geometrique

”Total” : + des valeurs ⇒ moy. arithmetique

”Total” : + des 1/valeurs ⇒ moy. harmonique

Moyenne geometrique

G = n

Πni=1xi (moyenne simple)

G = n

Πni=1x

ni

i(moyenne ponderee)

Exemple :

Supposons que pendant 10 ans, les salaires aient ete ∗ par 2

et que pendant la decenie suivante, ils aient ete multiplies par

4. Par combien les salaires ont ete multiplie en moyenne sur

les 20 ans ?

F. Richard Statistiques descriptives 20

Indicateurs de tendance centrale : Les moyennes

Moyenne geometrique

x =2 + 4

2= 3 G =

2√

2 ∗ 4 = 2.83

Proprietes :

La moyenne geometrique du produit xy est egale au

produit des moyennes geometriques de x et de y

zi = xi .yi ⇒ G(zi) = G(xi)G(yi)

La moyenne geometrique du quotient de x et y est egale

au quotient des moyennes de x et de y

zi =xi

yi⇒ G(zi) =

G(xi)

G(yi)

F. Richard Statistiques descriptives 21

Indicateurs de tendance centrale : Les moyennes

Moyenne harmonique

H =N

∑ni=1

1xi

(moyenne simple)

H =N

∑ni=1

nixi

(moyenne ponderee)

Exemple :

On achete des dollars une 1ere fois pour 1 AC au cours de

1.15 AC le dollars, une 2eme fois pour 1 AC au cours de 1.28 AC le

dollars. Quel est le cours moyen du dollars sur les 2 changes ?

x =1.15 + 1.28

2= 1.215 H =

21

1.15 + 11.28

= 1.211

F. Richard Statistiques descriptives 22

Indicateurs de tendance centrale : Les moyennes

Definition generale de la moyenne

Soit f (x) une fonction croissante ou decroissante de la variable

statistique x , M represente la moyenne et f (M), une fonction de

la moyenne differente selon le type de moyenne consideree

f (M) =1

H(moyenne harmonique)

f (M) = ln G (moyenne geometrique)

f (M) = x (moyenne arithmetique)

f (M) =1

N

ni f (xi)

F. Richard Statistiques descriptives 23

Indicateurs de tendance centrale : Les moyennes

Definition generale de la moyenne

Pour f (x) = 1x

1

H=

1

n

∑ ni

xi⇒ H =

N∑ ni

xi

Pour f (x) = ln x

ln G =1

N

ni ln xi ⇒ G = exp

(

1

N

ni ln xi

)

Pour f (x) = x

x =1

N

nixi

Pour f (x) = x2

Q2 =1

N

nix2i ⇒ Q =

1

N

nix2i

F. Richard Statistiques descriptives 24

Indicateurs de tendance centrale : Les moyennes

Definition generale de la moyenne

Proprietes

Les moyennes arithmetiques et quadratiques donnent

beaucoup d’influence aux elements les plus eleves des

series (la moyenne quadratique plus que la moy.

arithmetique)

Les moyennes harmoniques et geometriques tendent a

reduire l’influence des observations les plus grandes et a

augmenter celles des plus petites (la moyenne

geometrique moins que la moy. harmonique)

H < G < x < Q

F. Richard Statistiques descriptives 25

Indicateurs de tendance centrale : Le mode

”Le mode d’une distribution est la valeur de la variable

statistique pour laquelle la frequence est la plus elevee (valeur

la plus representee)”

Mode Distribution Bi modale Classe modale

Pour les variables continues, on defini une classe

modale et le mode est le centre de la classe

F. Richard Statistiques descriptives 26

Indicateurs de tendance centrale : La mediane

”La mediane d’une distribution est la valeur de la variable

statistique telle que le nombre d’observations qui presentent

une valeur inferieure est egale au nombre d’observations qui

presentent une valeur superieure”

C’est la valeur de la variable qui partage les individus en 2

effectifs egaux

La mediane est la valeur pour laquelle la frequence

cumulee est F (Me) = 0.5

Variable discrete : valeur ou intervalle (on peut trouver

une mediane theorique en faissant une interpolation

lineaire)

Variable continue : On cherche la classe mediane puis on

effectue une interpolation lineaire pour trouver la mediane

F. Richard Statistiques descriptives 27

Indicateurs de tendance centrale : La mediane

Exemple :

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Classe mediane : [18; 22[

0.7

0.3

2218

y

x

y = 0.5

0.7 − y

0.7 − 0.3=

22 − x

22 − 18

Me = 20

Sur des valeurs brutes : 21,17,10,18,20,22,16,28,25,19

10,16,17,18,19,20,21,22,25,28

Classement ordre croissant

Me=19.5

F. Richard Statistiques descriptives 28

Indicateurs de tendance centrale : Exemple

Couleur des yeux

modalites ni fr fcBleus 3 0.3 0.3

Marrons 5 0.5 0.8

Verts 2 0.2 1∑

10 1 100

Variable nominale

Mode = marron

Mediane =? : impossible

x =? : impossible

Mention bac

modalites ni fr fcpassable 3 0.3 0.3

AB 4 0.4 0.7

B 2 0.2 0.9

TB 1 0.1 1∑

10 1 100

Variable ordinale

Mode = AB

Mediane = AB

x =? : impossible

F. Richard Statistiques descriptives 29

Indicateurs de tendance centrale : Exemple

Nombre d’enfants

modalites ni fr fc0 1 0.1 0.1

1 3 0.3 0.4

2 5 0.5 0.9

3 1 0.1 1∑

10 1 100

Variable discrete

Mode = 2

Mediane = 2

x = 1.6

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Variable continue

Mode = 20

Mediane = 20

x = 20

F. Richard Statistiques descriptives 30

Indicateurs de tendance centrale : Conclusion

SymetrieAsymetrie gauche Asymetrie droite

Moy . < Med . < Mo. Moy . = Med . = Mo. Moy . > Med . > Mo.

Mode, Mediane, Moy. arithmetique sont des indicateurs de

position (indicateurs de tendance centrale)

- variable nominale : mode

- variable ordinale : mode, mediane

- variable discrete, continue : mode, mediane, moyennes

F. Richard Statistiques descriptives 31

Indicateurs de tendance centrale : Conclusion

La moyenne est l’indicateur le plus utilise. Son calcul est

base sur l’ensemble des valeurs xi , de ce fait elle est

influencee par les valeurs extremes contrairement a la

mediane

La mediane est un parametre calcule en fonction de sa

position dans la serie

Le mode est l’indicateur le plus sensible lors du

regroupement des informations (classes). 2

regroupements differents peuvent conduire a plus de

modes distincts

F. Richard Statistiques descriptives 32

Indicateurs de position : Les quantiles

”Le quantile d’ordre α, Qα avec 0 ≤ α ≤ 1 est la modalite de la

variable statistique telle qu’une proportion α des individus ont

une modalite inferieure ou egale a Qα”

Les quantiles sont definis pour toutes les variables sauf les

variables nominales

1 2 3 4 5 6 7 8 9 10

Q0.550 % 50 %

Q0.4

40 % 60 %

Quantiles particuliers :

Quartiles : Q0.25, Q0.5, Q0.75

Deciles : Q0.1, Q0.2, ...

Centiles : Q0.01, Q0.02, ...

F. Richard Statistiques descriptives 33

Indicateurs de position : Les quantiles

La frequence cumulee du quantile Qα est egale a l’ordre α

F (Qα) = α

Pour un intervalle [ai−1; ai [, l’interpolation lineaire donne :

classe mod . fc[ai−2; ai−1[ Fai−1

[ai−1; ai [ Fai

[ai ; ai+1[ Fai+1

Qα = ai +(ai −ai−1).

(

α− Fai

Fai− Fai−1

)

F. Richard Statistiques descriptives 34

Indicateurs de dispersion : L’etendue

E = Xmax − Xmin

1 2 3 4 5 6 7 8 9 10

E

Individu athipique

(outlier)

remarque :

L’etendue ne tient compte que des 2 valeurs extremes quelque

soit le nombre de valeurs de la population

F. Richard Statistiques descriptives 35

Indicateurs de dispersion : L’ecart interquartile

Pour remedier aux inconvenients de l’etendue, il est possible

d’ecarter du calcul de la caracteristique de dispersion les

valeurs extremes d’une serie statistique

EIQ = Q0.75−Q0.25

Les indicateurs de dispersion nous renseignent sur la

dispersion des valeurs autour d’un parametre de position

Concernant l’ecart interquartile, le parametre de position

est la mediane

”L’EIQ est l’intervalle qui contient 50% des individus, en laissant

de cote 25% des individus dont les observations sont les plus

petites et 25% des individus dont les observations sont les plus

grandes”

F. Richard Statistiques descriptives 36

Indicateurs de dispersion : L’ecart interquartile

EID = Q0.9 −Q0.1

L’ecart interdeciles (EID) regroupe 80% des individus

autour de la mediane

remarque :

L’EIQ ne tient compte que de l’ordre des observations et non de

leurs valeurs et des ecarts qui existent entre elles

F. Richard Statistiques descriptives 37

Indicateurs de dispersion : L’ecart absolu moyen

Pour definir un meilleur indicateur de dispersion, on calcule

l’ecart de chacune des observations xi par rapport a une

caracteristique de tendance centrale ′′C′′ (x , Me) :

(xi − C)

On retient comme mesure de la dispersion de la serie, la

moyenne des valeurs absolues des ecarts a la moyenne

(la moyenne des ecarts a la moyenne etant nulle)

|xi − C|

Cette moyenne est donc une grandeur positive qui

constitue une caracteristique de dispersion

F. Richard Statistiques descriptives 38

Indicateurs de dispersion : L’ecart absolu moyen

Ecart absolue moyen a la moyenne :

ex =1

N

|xi−x | ex =1

N

ni |xi − x |

Ecart absolue moyen a la mediane :

ex =1

N

|xi − Me| ex =1

N

ni |xi−Me|

F. Richard Statistiques descriptives 39

Indicateurs de dispersion : L’ecart type

”L’ecart type est la racine carre de la moyenne des ecarts a la

moyenne au carre”

V (x) =1

N

(xi−x)2

”Variance”

σ(x) =

1

N

(xi − x)2

”L’ecart type”

V (x) ≥ 0

L’ecart type est la moyenne quadratique des ecarts a la

moyenne arithmetique (σ(x) : ecart quadratique moyen)

F. Richard Statistiques descriptives 40

Indicateurs de dispersion : L’ecart type

Moyenne quadratique :

f (M) =1

N

f (xi) f (M) = Q2 f (x) = x2

Q2 =1

N

x2i

Q =

1

N

x2i

On peut faire apparaitre la moyenne quadratique dans la

formule de la variance : theoreme de Konig

V (x) =1

N

nix2i − x2

Demonstration

F. Richard Statistiques descriptives 41

Indicateurs de dispersion : L’ecart type

Exemple : notes d’etudiants

10; 12; 8; 15; 14; 11; 16; 11; 13; 9

x =10 + 12 + 8 + 15 + ...

10= 11.9

σ =

1

10

(

(10 − 11.9)2 + (12 − 11.9)2 + ...

)

= 2.47

”En moyenne, les notes des 10 etudiants sont dispersees

autour de la moyenne arithmetique de 2.47 points”

La variance n’a pas d’unite

L’ecart type a la meme unite que celle des observations

F. Richard Statistiques descriptives 42

Indicateurs de dispersion : Coefficient de variation

L’ecart type comme la moyenne s’expriment dans la meme

unite que celle de la variable statistique

On peut avoir a comparer les dispersions de distributions

qui ne sont pas exprimees dans la meme unite ou les

dispersions de distributions dont les moyennes sont

totalement differentes

CV =σx

x

Le coefficient de variation est sans dimension et donc

independant des unites des variables statistiques

Exemple

F. Richard Statistiques descriptives 43

Indicateurs de forme : Introduction

L’objectif est d’avoir des informations sur la forme de la

distribution sans avoir a la tracer

2 types d’indicateurs :

La symetrie (asymetrie) : skewness

L’aplatissement : Kurtosis

Moments centres

Le moment centre d’ordre k est egale a la moyenne

arithmetique des puissances d’ordre k des ecarts (xi − x)

µk =1

N

ni(xi − x)k

Si k = 0 ⇒ µ0 = 1

Si k = 1 ⇒ µ1 = 0

Si k = 2 ⇒ µ2 = σ2 : variance

F. Richard Statistiques descriptives 44

Indicateurs de forme : Asymetrie

4 moyens de definir l’asymetrie d’une distribution

Comparaison indicateurs tendance centrale

Mo = Me = x ⇒ serie ”symetrique”

Mo > Me > x ⇒ serie ”etalee vers la gauche”

Mo < Me < x ⇒ serie ”etalee vers la droite”

Coefficient de Yule

On compare les quartiles entre eux :

s =(Q3 − Me)− (Me − Q1)

(Q3 − Me) + (Me − Q1)s ∈ [−1; 1]

s = 0 ⇒ serie ”symetrique”

s > 0 ⇒ serie ”etalee vers la droite”

s < 0 ⇒ serie ”etalee vers la gauche”

F. Richard Statistiques descriptives 45

Indicateurs de forme : Asymetrie

Coefficient de Pearson

Pearson etablie une statistique basee sur les ecarts entre

moyenne et mode

p =x − Mo

σ

p = 0 ⇒ serie ”symetrique”

p > 0 ⇒ serie ”etalee vers la droite”

p < 0 ⇒ serie ”etalee vers la gauche”

Coefficient de Fisher

Fisher utilise la notion de moment centre

γ1 =µ3

µ3/22

γ1 = 0 ⇒ serie ”symetrique”

γ1 > 0 ⇒ serie ”etalee vers la droite”

γ1 < 0 ⇒ serie ”etalee vers la gauche”µ2 6= 0

F. Richard Statistiques descriptives 46

Indicateurs de forme : Aplatissement

Les coefficients d’aplatissement mesurent l’importance des

”extremites” de la distribution, la reference prise est la

distribution normale

Definition

Une courbe est aplatie (platikurtique) quand une forte

variation de la valeur etudiee ne s’accompagne pas de

forte variation de la frequence (par ref. a la distribution

normale)

Quand la courbe est moins aplatie que la loi normale, elle

est dite leptokurtique

F. Richard Statistiques descriptives 47

Indicateurs de forme : Aplatissement

Coefficient d’aplatissement de Fisher

γ2 =µ4

µ22

−3 µ2 6= 0

γ2 = 0 ⇒ distribution ”normale”

γ2 > 0 ⇒ distribution ”leptokurtique”

γ2 < 0 ⇒ distribution ”platikurtique”

Coefficient d’aplatissement de Pearson

β2 =µ4

µ22

β2 = 3 ⇒ distribution ”normale”

β > 3 ⇒ distribution ”leptokurtique”

β < 3 ⇒ distribution ”platikurtique”

F. Richard Statistiques descriptives 48

Indicateurs de forme

Remarque :

Ces coefficients (asymetrie et aplatissement) sont invariants

par changement d’origine et d’echelle mais sont sensibles aux

fluctuations d’echantillonnages puisqu’ils font intervenir des

moments d’ordres eleves

F. Richard Statistiques descriptives 49

Calcul des indicateurs : Exemple

Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

F (Q0.25) = 0.25

y − 0.3

0.3 − 0.1=

x − 14

18 − 14avec y = 0.25 et x = Q0.25

20(y − 0.1) + 14 = x

Q0.25 = 20∗(0.25−0.1)+14 = 17

F. Richard Statistiques descriptives 50

Calcul des indicateurs : Exemple

F (Q0.5) = 0.5 ⇒ Q0.5 = 20

F (Q0.75) = 0.75 ⇒ Q0.75 = 23

EIQ = Q0.75 − Q0.25 = 23 − 17 = 6

ex = 110

(

|12 − 20|+ 2|16 − 20|+ ...)

= 3.2

eMe = 3.2

σ =√

110

(

(−8)2 + 2 ∗ (−4)2 + (0)2 + ...)

= 4.38

s = (23−20)−(20−17)(23−20)+(20−17) = 0

p = 20−204 = 0

µ2 = σ2 = 4.382 = 19.18

µ3 = −512−128+128+51210 = 0

F. Richard Statistiques descriptives 51

Calcul des indicateurs : Exemple

µ4 = 110

(

(−8)4 + 2(−4)4 + ...)

= 921.6

γ1 = 019.183/2 = 0

γ2 = 921.619.182 − 3 = −0.5

β2 = 2.5

Indicateurs Valeurs

Mode 20

Mediane 20

x 20

Q0.25 17

Q0.5 20

Q0.75 23

EIQ 6

ex 3.2

Indicateurs Valeurs

emed 3.2

σ 4.38

s 0

p 0

γ1 0

γ2 -0.5

β2 2.5

F. Richard Statistiques descriptives 52

Distribution statistique a 2 dimensions

F. Richard Statistiques descriptives 53

Tableau de contingence

Hypotheses

X , Y : 2 variables definies sur une population composee

de N individus

(xi , yj) : couples de modalites correspondants

k , l : nbres respectifs de modalites des variables X et Y

”Le tableau de contingence est un tableau a k lignes et l

colonnes qui donne l’effectif de chaque couple de modalites”

⇒ Remplace table des frequences lors d’1 analyse

univariee

La construction du tableau de contingence s’effectue par la

realisation d’un tri croise des donnees

F. Richard Statistiques descriptives 54

Tableau de contingence

Tri croise

Le tri croise consiste a compter les individus de la

population par couple de modalites

Variable a expliquer

C’est la variable dont le comportement nous interesse

Variable explicative

C’est la variable servant a expliquer le comportement de la

variable a expliquer

F. Richard Statistiques descriptives 55

Tableau de contingence

Y

X y1 y2 ... yj ... yl Totaux

lignes

x1 n11 n12 ... n1j ... n1l n1.

x2 n21 ... ... ... ... ... ...

... ... ... ... ... ... ... ...

xi ni1 ... ... nij ... ... ni.

... ... ... ... ... ... ... ...

xk nk1 ... ... ... ... nkl nk .

Totaux n.1 ... ... n.j ... n.l N = n..

colonnes

distribution jointe

distributions marginales

distributions conditionnelles

F. Richard Statistiques descriptives 56

Tableau de contingence

Effectif marginal associe a la modalite xi

ni. =

j=l∑

j=1

nij

Effectif marginal associe a la modalite yi

n.j =i=k∑

i=1

nij

Effectif total

N = n.. =i=k∑

i=1

j=l∑

j=1

nij =i=k∑

i=1

ni. =

j=l∑

j=1

n.j

F. Richard Statistiques descriptives 57

Tableau de contingence

Distribution conditionnelle

”Une distribution conditionnelle est la distribution d’1 variable

statistique X lorsque l’autre variable statistique Y est fixee”

ligne i : distribution de Y sachant que X = xi ou

X ∈ [ai−1; ai ]

ligne j : distribution de X sachant que Y = yj ou

Y ∈ [bj−1; bj ]

Y |X = xi , Y |X ∈ [ai−1; ai ] X |Y = yj , X |Y ∈ [bj−1; bj ]

Frequences du couple (xi , yj)

fij =nij

N

F. Richard Statistiques descriptives 58

Tableau de contingence

Frequences marginales

fi. =ni.

N(frequences marginales associees aux modalites

xi )

f.j =n.j

N

(frequences marginales associees aux modalites

yj )

i=k∑

i=1

j=l∑

j=1

fij =i=k∑

i=1

fi. =

j=l∑

j=1

f.j = 1

Frequences conditionnelles

fi |Y=yj=

nij

n.j(frequence conditionnelle pour Y fixee)

fj |X=xj=

nij

ni.(frequence conditionnelle pour X fixee)

F. Richard Statistiques descriptives 59

Tableau de contingence

On peut aller plus loin dans la presentation des donnees

croisees en etudiant 2 tableaux (tableaux des profils):

⇒ Tableau des frequences horizontales

⇒ Tableau des frequences verticales

On peut lire le tableau de contingence de 2 facons

differentes selon que l’on priviligie l’une ou l’autre des

variables (lecture en lignes ou en colonnes)

⇒ L’objectif est de ramener la somme de chaque

ligne ou chaque colonne a 100%

⇒ On construit donc les 2 tableaux avec les

frequences conditionnelles

F. Richard Statistiques descriptives 60

Tableau de contingence

Tableaux des frequences horizontales et verticales

Frequences verticales

Y

X y1 ... yj ... yl

x1 ... ... ... ... ...

x2 ... ... ... ... ...

... ... ... ... ... ...

xi ... ... fi|Y=yj... ...

... ... ... ... ... ...

xk ... ... ... ... ...

Total 1 1 1 1 1

Frequences horizontales

Y

X y1 ... yj ... yl Total

x1 ... ... ... ... ... 1

x2 ... ... ... ... ... 1

... ... ... ... ... ... 1

xi ... ... fj|X=xi... ... 1

... ... ... ... ... ... 1

xk ... ... ... ... ... 1

Exemple

F. Richard Statistiques descriptives 61

Indicateurs numeriques

Moyennes et variances marginales

x =1

N

i=k∑

i=1

ni.xi =i=k∑

i=1

fi.xi =1

N

i=k∑

i=1

j=l∑

j=1

nijxi

y =1

N

j=l∑

j=1

n.jyj =

j=l∑

j=1

f.jyj =1

N

i=k∑

i=1

j=l∑

j=1

nijyj

V (x) =1

N

i=k∑

i=1

ni.x2i − x2

V (y) =1

N

j=l∑

j=1

n.jy2j − y2

F. Richard Statistiques descriptives 62

Indicateurs numeriques

Moyennes et variances conditionnelles

x |Y=yj=

1

n.j

i=k∑

i=1

nijxi =i=k∑

i=1

fi|Y=yjxi

y |X=xi=

1

ni .

j=l∑

j=1

nijyj =

j=l∑

j=1

fj|X=xiyj

V (x|Y=yj) =

1

n.j

i=k∑

i=1

nijx2i − x|Y=yj

2

V (y|X=xi) =

1

ni.

j=l∑

j=1

nijy2j − y|X=xi

2

Exemple

F. Richard Statistiques descriptives 63

Covariance

”La covariance entre 2 variables X et Y est egale a la

moyenne des produits des ecarts a la moyenne de X et Y ”

La covariance permet de determiner l’existance d’une rela-

tion (variation simultannee ) entre 2 variables quantitatives

Soit X et Y , 2 variables quantitatives definies sur une

meme population composee de N individus. (xi ; yi), les N

couples d’observations correspondant

cov(X ,Y ) =1

N

n∑

i=1

(xi−x)(yi−y) (donnees brutes)

cov(X ,Y ) : covariance du couple (X ;Y )

F. Richard Statistiques descriptives 64

Covariance

Donnees resumees dans un tableau de contingence

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nij(xi − x)(yj − y)

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nijxiyj − x y

F. Richard Statistiques descriptives 65

Covariance

Interpretation

cov(X ,Y ) > 0 : les couples (xi , yj) nous indiquent que X

et Y varient globalement dans le meme sens

cov(X ,Y ) < 0 : les couples (xi , yj) nous indiquent que X

et Y varient globalement dans le sens inverse

Le signe de la covariance peut etre negatif contrairement a

celui de la variance qui est toujours positif

Remarque

La covariance est un indicateur du sens de variation

simultanee de X et de Y

Si X et Y croissent simultanement, les produits

(xi − x)(yi − y) seront positifs, tandis que si Y decroit

lorsque X croit (ou l’inverse), ces memes produits seront

negatifs

F. Richard Statistiques descriptives 66

Covariance

Proprietes

Si 2 variables X et Y sont independantes

⇒ cov(X ,Y ) = 0 , ”La reciproque est fausse !”

cov(aX , bY ) = abcov(X ,Y ) avec a, b constantes

cov(X ,X ) = V (X ), cov(Y ,Y ) = V (Y )

Exemple : notes maths, francais

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nijxiyj − x y

cov(X ,Y ) =1

100

(

10∗4∗5+20∗10∗5+10∗16∗5+...

)

−11∗10.6 = 2.4

cov(X ,Y ) = 2.4 > 0 ⇒ X et Y varient dans le meme sens

F. Richard Statistiques descriptives 67

Independance et liaison fonctionnelle

La liaison entre 2 variables peut etre plus ou moins accentuee

2 cas extremes :

Abscence de liaison ⇒ independance

Liaison totale ou liaison fonctionnelle ⇒ dependance

Independance

”La variable X est independante de la variable Y si les

frequences conditionnelles fi |Y=yjsont egales entres elles pour

i fixe”

fi |Y=yjdepend de i eventuellement mais pas de j

f1|Y=y1= f1|Y=y2

= f1|Y=y3= ...

f2|Y=y1= f2|Y=y2

= f2|Y=y3= ...

F. Richard Statistiques descriptives 68

Independance et liaison fonctionnelle

Independance

L’independance est reciproque

Si X est independant de Y alors Y est independant de X

⇒ Les 2 variables sont ”independantes”

fj |X=xi=

nij

ni.; fi |Y=yj

=nij

n.j(1)

n1j

n1.=

n2j

n2.=

nkj

nk .;

ni1

n.1=

ni2

n.2=

nil

n.l(2)

Ces fractions egales entres elles sont egales a la fraction

obtenue en ajoutant numerateur et denominateur

(2)n1j + n2j + n3j + ...+ nkj

n1. + n2. + n3. + ...+ nk .=

∑ki=1 nij

∑ki=1 ni.

=n.j

N= f.j

F. Richard Statistiques descriptives 69

Independance et liaison fonctionnelle

Independance

(2)ni1 + ni2 + ni3 + ...+ nil

n.1 + n.2 + n.3 + ...+ n.l=

∑lj=1 nij

∑lj=1 n.j

=ni.

N= fi.

fi. =ni.

N=

nij

n.j; f.j =

n.j

N=

nij

ni.

Consequence de l’independance :

ni . ∗ n.j

N= nij

fi |Y=yj= fi. fj |X=xi

= f.j

Les lignes du tableau de contingence sont proportionnelles

entre elles

Les colonnes du tableau sont proportionnelles entre ellesExemple

F. Richard Statistiques descriptives 70

Independance et liaison fonctionnelle

Liaison fonctionnelle

”A la difference de l’independance, la liaison fonctionnelle n’est

pas toujours reciproque”

2 cas possibles :

La variable Y est liee fonctionnellement a X lorsqu’a

chaque modalite de X correspond une modalite unique et

determinee de Y et reciproquement

2 variables X et Y sont reciproquement dependantes

lorsqu’a chaque modalite de X correspond une modalite

unique et determinee de Y et reciproquement

Exemple

F. Richard Statistiques descriptives 71

Independance et liaison fonctionnelle

Remarques

L’independance et la liaison fonctionnelle sont 2 cas

extremes que l’on rencontre rarement en pratique

Le cas le plus courant est de se trouver entre ces 2 cas

⇒ Les 2 variables statistiques X et Y on

une ”liaison relative” (ou partielle)

Des methodes d’analyse statistique permettent d’evaluer

l’intensite de la liaison relative entre 2 variables

statistiques

F. Richard Statistiques descriptives 72

Test d’independance du χ2

”Le test d’independance du χ2 permet de dire si 2 variables

qualitatives sont independantes”

Le test permet de trancher la proposition suivante :

”Il n’y a pas de relation entre les 2 variables” (H0)

H0 : hypothese nulle

Pratiquement

Pour montrer qu’il existe une relation, on cherche a montrer que

l’inexistence de relation a une faible probabilite de se realiser

Principe du test

Comparer la repartition des observations du tableau de

contingence a une distribution ”ideale” qui correspond a 1

situation de liaison nulle entre les 2 variables

F. Richard Statistiques descriptives 73

Test d’independance du χ2

On compare donc 2 tableaux :

Tableau des effectifs observes

Tableau des effectifs theoriques (si absence de liaison)

Le test d’independance du χ2 mesure l’ecart entre ces 2

tableaux

Plus l’ecart est grand :

Plus faible est la chance que le tableau observe soit

semblable au tableau theorique

Plus faible est la chance que l’hypothese nulle se realise

Plus de chance que la liaison soit significative

F. Richard Statistiques descriptives 74

Test d’independance du χ2

Calcul du tableau des effectifs theoriques

Ce calcul s’appuie sur un theoreme d’independance satistique :

Si le produit des marges est egal aux effectifs croises

⇒ Independance

ni. ∗ n.j

N= nij ; posons tij =

ni. ∗ n.j

N

tij : effectif theorique

tij ≥ 5 : sinon l’indicateur n’a pas de sens

Calcul du χ2

χ2calcule =

k∑

i=1

l∑

j=1

(nij − tij)2

tij

F. Richard Statistiques descriptives 75

Test d’independance du χ2

Le χ2calcule est une mesure d’ecart

⇒ Plus sa valeur est grande et moins il est probable

qu’il n’y ait pas de liaison

Regle de decision

Cet indicateur doit etre compare a un ”seuil” note χ2α

(avec α, risque de 1er espece)

Si χ2calcule < χ2

α : on accepte l’hypothese H0

X et Y sont independantes

Si χ2calcule > χ2

α : on refuse l’hypothese H0

Le degre de liberte (DDL) est le 2eme parametre dont depend la

valeur du χ2α tableau

DDL = (k−1)(l−1)k : nbre de lignes

l : nbre de colonnes

F. Richard Statistiques descriptives 76

Test d’independance du χ2

Remarque

Le test d’independance du χ2 permet de conclure a l’existance

eventuelle d’une relation mais ne permet pas de preciser la

nature de celle-ci

Exemple

F. Richard Statistiques descriptives 77

Regression - Methode des moindres carres

Objectif

Trouver 1 fonction mathematique qui represente au mieux

la distribution statistique (quantitative)

Remarque

Modelise la representation ”discrete” d’une distribution

statistique par une fonction mathematique ”continue”

Exempledetails

F. Richard Statistiques descriptives 78

Regression - Methode des moindres carres

Demarche

Contexte

2 distributions statistiques X et Y dependantes

Objectif

Trouver 1 fct math. representant ”au mieux” la dist. jointe

(X ,Y ) (comportement moyen) ⇒ La regression

Y X=xi= f (xi)

f : classe de fonctions simples (affines, log, exp,

polynomiales...)

Trouver la fct f la plus proche de Y X=xi⇒ Ajustement de la fct

La metode d’ajustement la plus utilisee est celle des

”moindres carres”

F. Richard Statistiques descriptives 79

Regression - Methode des moindres carres

Principe

La fonction decrivant le mieux la dist. est celle qui minimise la

somme quadratique des deviations des mesures aux

predictions de f (xi)

J =N∑

i=1

(

yi − f (xi)

)2

F. Richard Statistiques descriptives 80

Regression - Methode des moindres carres

Ajustement lineaire

La fonction f (xi) est une fonction affine du type :

y = ax + b

Remplace f (xi) dans J

J(a, b) =N∑

i=1

(

yi−(axi+b)

)2

details

Minimise la fonction J(a, b) pour trouver les cstes a et b

Un minimum d’1 fct. de plusieurs variables ne peut se produire

qu’en 1 pt., ou les derivees partielles s’annulent

∂J(a, b)

∂a= 0,

∂J(a, b)

∂b= 0

details

F. Richard Statistiques descriptives 81

Regression - Methode des moindres carres

Covariance

Cov(x , y) =1

N

N∑

i=1

(

xi − x

)(

yi − y

)

demonstraion

Ajustement lineaire

y =Cov(x , y)

Var(x)(x − x) + y

demonstraion

F. Richard Statistiques descriptives 82

Regression - Methode des moindres carres

M

d

x

y

x

y

M d

Droite d’ajustement de Y en X :

y =Cov(x , y)

Var(x)(x − x) + y

Droite d’ajustement de X en Y :

x =Cov(x , y)

Var(y)(y − y) + x

y =Var(y)

Cov(x , y)(x − x) + y

F. Richard Statistiques descriptives 83

Regression - Methode des moindres carres

x

y

d’

d La droite d’ajustement de Y

en X est toujours plus proche

de l’horizontale

Coefficient de correlation lineaire ”Pearson”

r2 =a

a′=

Cov(x ,y)Var(x)

Var(y)Cov(x ,y)

=

(

Cov(x , y)

σ(x)σ(y)

)2

r =Cov(x , y)

σ(x)σ(y)

F. Richard Statistiques descriptives 84

Regression - Methode des moindres carres

x

y

d’

d

0 < r < +1

x

y

d’

d

−1 < r < 0

x

y

d = d’

r = −1

x

y

d = d’

r = +1

x

y

d

d’

r = 0

F. Richard Statistiques descriptives 85

Analyse multivariee

Objectifs

Faire une etude sur plusieurs variables simultanement

Analyse en Composantes Principales (ACP)

Nature des variables : Quantitatives

Objectif : Etude des relations existantes entre variables

quantitatives et individus

F. Richard Statistiques descriptives 86

Analyse multivariee

Analyse Factorielle des correspondances (AFC)

Nature des variables : Qualitatives

Objectif : Etude des relations existantes entre 2 variables

qualitatives

Analyse des Correspondances Multiples (ACM)

Nature des variables : Qualitatives

Objectif : Etude des relations existantes entre plusieurs

variables qualitatives

F. Richard Statistiques descriptives 87

Analyse multivariee

Autres methodes ...

Classification Ascendante Hierarchique (CAH)

Analyse Factorielle Discriminante (AFD)

La segmentation

Regression Lineaire Multiple (RLM)

Regression ”Partial Least Square” (PLS)

Regression logistique

Reseau de Neurones

Monte Carlo

Scoring

Plans d’experiences (DOE)

Maıtrise Statistique des Processus (MSP)

Serie chronolgiques

F. Richard Statistiques descriptives 88

Exemple

V (x) =1

N

ni(xi − x)2

=1

N

ni(x2i − 2xix + x2)

=1

N

(

nix2i −∑

2nixix+∑

nix2

)

=1

N

(

nix2i −2x

nixi+x2∑

ni

)

=1

N

(

nix2i −2x

nixi+Nx2

)

=1

N

(

nix2i −2xNx+Nx2

)

F. Richard Statistiques descriptives 89

Exemple

=1

N

(

nix2i −2Nx2+Nx2

)

=1

N

(

nix2i − Nx2

)

V (x) =1

N

nix2i − x2

Remarque :

x =1

N

nixi ⇒∑

nixi = Nx∑

axi = ax1+ax2 = a(x1+x2) ⇒∑

axi = a∑

xi∑

(xi+yi) = (x1+y1)+(x2+y2) ⇒∑

(xi+yi) =∑

xi+∑

yi

Retour

F. Richard Statistiques descriptives 90

Exemple

Distributions de revenus aux US et en France

Fr : x = 1500 e, σ1 = 120 e

US : x = 1200 $, σ1 = 100 $

CVFr =120

1500= 0.080

CVUS =100

1200= 0.083

Retour

F. Richard Statistiques descriptives 91

Exemple

X : reussite en L1, Y : type de bac (ES,S,STT)

Tableau de contingence (effectifs) :

ES S STT∑

ni.

Reussite L1 41 59 54 154

Echec L1 21 36 75 132∑

n.j 62 95 129 286

Tableau de contingence (frequences) :

ES S STT∑

ni.

Reussite L1 0.14 0.21 0.19 0.54

Echec L1 0.07 0.13 0.26 0.46∑

n.j 0.21 0.34 0.45 1

freussite ES =nreussite ES

N=

41

286= 0.14

”14% des etudiants ont un bac ES et ont reussi en L1”

F. Richard Statistiques descriptives 92

Exemple

Tableau des frequences verticales : Retour

ES S STT

Reussite L1 0.66 0.62 0.42

Echec L1 0.34 0.38 0.58∑

1 1 1

freussite|Y=ES =nreussite ES

n.ES

=41

62= 0.66

”66% des etudiants ayant un bac ES ont reussi en L1”

Tableau des frequences horizontales :

ES S STT∑

Reussite L1 0.27 0.38 0.35 1

Echec L1 0.16 0.27 0.57 1

fES|X=reussite =nreussite ES

nreussite.=

41

154= 0.27

”27% des etudiants ayant reussis en L1 ont un bac ES”

F. Richard Statistiques descriptives 93

Exemple

X : note en maths, Y : note en francais

X/Y [0; 8[ [8; 12[ [12; 20[ ni.

[0; 10[ 10 20 10 40

[10; 20[ 10 30 20 60

n.j 20 50 30 100

x =1

100

(

40∗5+60∗15

)

= 11

y = 10.6

σ(x) =

1

100

(

40(5 − 11)2 + 60(15 − 11)2

)

= 4.9

σ(y) = 4.2

x |y = 4 =1

20

(

10∗5+10∗15

)

= 10

F. Richard Statistiques descriptives 94

Exemple

x |y = 10 =1

50

(

20∗5+30∗15

)

= 11

x |y = 16 =1

30

(

10∗5+20∗15

)

= 11.7

y |x = 5 =1

40

(

10∗4+20∗10+10∗16

)

= 10

y |x = 15 =1

60

(

10∗4+30∗10+20∗16

)

= 11

σ(x)|y = 4 =

1

20

(

10(5 − 10)2 + 10(15 − 10)2

)

= 5

F. Richard Statistiques descriptives 95

Exemple

σ(x)|y = 10 =

1

50

(

20 ∗ 52 + 30 ∗ 152

)

= 4.9

σ(x)|y = 16 = 4.7

σ(y)|x = 5 =

1

40

(

10 ∗ 42 + 20 ∗ 102 + 10 ∗ 162

)

= 4.2

σ(y)|x = 15 = 4.1

On peut calculer la variance des moyennes conditionnelles

et la moyenne des variances conditionnelles

Retour

F. Richard Statistiques descriptives 96

Exemple

La distribution jointe suivante est celle de 2 variables X et

Y independantes

X/Y Y1 Y2 Y3 Y4 ni. fi.X1 3 5 2 4 14 7/49

X2 6 10 4 8 28 14/49

X3 12 20 8 16 56 28/49

n.j 21 35 14 28 98 1

f.j 21/98 35/98 14/98 28/98 1

f1|Y=y1=

3

21=

1

7, f2|Y=y1

=6

21=

2

7

f1|Y=y2=

5

35=

1

7, f2|Y=y2

=10

35=

2

7

f1|Y=y3=

2

14=

1

7, f2|Y=y3

=4

14=

2

7Retour

F. Richard Statistiques descriptives 97

Exemple

Y1 Y2 Y3

X1 0 10 0

X2 0 15 0

X3 0 0 16

Y est liee fonctionnellement a

X

Dans le tableau, il n’y a qu’une

valeur non nulle par ligne

Y1 Y2 Y3

X1 0 0 0

X2 10 15 0

X3 0 0 16

X est liee fonctionnellement a

Y

Dans le tableau, il n’y a qu’une

valeur non nulle par colonne

Y1 Y2 Y3

X1 10 0 0

X2 0 15 0

X3 0 0 16

X et Y sont reciproquement

dependantes

Il existe une seule valeur non nulle

par ligne et par colonneRetour

F. Richard Statistiques descriptives 98

Exemple

X : guerison du patient

Y : cout du medicament

medicament cher medicament bon marche∑

Guerison 156 44 200

Non guerison 44 6 50∑

200 50 250

Question :

Existe t-il une relation entre le cout du medicament et la

guerison ou non des patients ?

tij =ni. ∗ n.j

N(effectifs theoriques)

F. Richard Statistiques descriptives 99

Exemple

Tableau des effectifs theoriques :

medicament cher medicament bon marche

Guerison 160 40

Non guerison 40 10

t11 =n1. ∗ n.1

N=

200 ∗ 200

250= 160

t12 =n1. ∗ n.2

N=

200 ∗ 50

250= 40

t21 =n2. ∗ n.1

N=

50 ∗ 200

250= 40

t22 =n2. ∗ n.2

N=

50 ∗ 50

250= 10

F. Richard Statistiques descriptives 100

Exemple

χ2calc =

k∑

i=1

l∑

j=1

(nij − tij)2

tij=

(156 − 160)2

160+(44 − 40)2

40+... = 2.5

DDL = 1

χ2cal < χ2

0.10

Les variables X et Y sont independantes avec une probabilite

de 10% de se tromperRetour

F. Richard Statistiques descriptives 101

Modelisation distribution jointe

X

Y

2 4 6 8 10 12

2

4

6

8

10

12

F. Richard Statistiques descriptives 102

Modelisation distribution jointe

X

Y

2 4 6 8 10 12

2

4

6

8

10

12

Retour

F. Richard Statistiques descriptives 103

Regression lineaire

M

d

x

y

Retour

F. Richard Statistiques descriptives 104

Regresion lineaire

J(a, b) =N∑

i=1

(

yi − axi − b

)2

∂J(a, b)

∂a= −2

N∑

i=1

xi

(

yi − axi − b

)

∂J(a, b)

∂b= −2

N∑

i=1

(

yi − axi − b

)

∑Ni=1 xiyi − a

∑Ni=1 x2

i − b∑N

i=1 xi = 0 (1)∑N

i=1 yi − a∑N

i=1 xi − Nb = 0 (2)

F. Richard Statistiques descriptives 105

Regresion lineaire

(2) b =

∑Ni=1 yi − a

∑Ni=1 xi

N

(1)N∑

i=1

xiyi − a

N∑

i=1

x2i +

(

a∑N

i=1 xi −∑N

i=1 yi

N

)

N∑

i=1

xi = 0

(

(∑N

i=1 xi

)2

N−

N∑

i=1

x2i

)

a =

∑Ni=1 xi

∑Ni=1 yi

N−

N∑

i=1

xiyi

a =

∑Ni=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

F. Richard Statistiques descriptives 106

Regresion lineaire

b =1

N

(

N∑

i=1

yi−(∑N

i=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

) N∑

i=1

xi

)

b =1

N

(

N∑

i=1

yi−(

(∑N

i=1 xi

)2∑Ni=1 yi − N

∑Ni=1 xi

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

)

)

b =1

N

(

(∑N

i=1 xi

)2∑Ni=1 yi − N

∑Ni=1 x2

i

∑Ni=1 yi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

...+N

∑Ni=1 xi

∑Ni=1 xiyi − (

∑Ni=1 xi)

2∑N

i=1 yi

...

)

F. Richard Statistiques descriptives 107

Regresion lineaire

b =

∑Ni=1 xi

∑Ni=1 xiyi −

∑Ni=1 yi

∑Ni=1 x2

i(∑N

i=1 xi

)2 − n∑N

i=1 x2i

Retour

F. Richard Statistiques descriptives 108

Covariance

Cov(x , y) =1

N

N∑

i=1

(

xi−x

)(

yi−y

)

Cov(x , y) =1

N

N∑

i=1

(

xiyi−xiy−yix+x y

)

Cov(x , y) =1

N

(

N∑

i=1

xiyi−y

N∑

i=1

xi−x

N∑

i=1

yi+Nx y

)

Cov(x , y) =1

N

(

N∑

i=1

xiyi−yNx−xNy+Nx y

)

F. Richard Statistiques descriptives 109

Covariance

Cov(x , y) =1

N

(

N∑

i=1

xiyi − Nxy

)

Cov(x , y) =1

N

N∑

i=1

xiyi − x y

Retour

F. Richard Statistiques descriptives 110

Regression lineaire

y =Cov(x , y)

Var(x)(x − x) + y

y =Cov(x , y)

Var(x)x−Cov(x , y)

Var(x)x+y

a b

N2Var(x) = N

N∑

i=1

x2i −(

N∑

i=1

xi)2, N2Cov(x , y) = N

N∑

i=1

xiyi−N∑

i=1

xi

N∑

i=1

yi

a =

∑Ni=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi)2 − N∑N

i=1 x2i

=−N2Cov(x , y)

−N2Var(x)=

Cov(x , y)

Var(x)

F. Richard Statistiques descriptives 111

Regression lineaire

b =1

N

N∑

i=1

yi−∑N

i=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(

∑Ni=1 xi

)2− N

∑Ni=1 x2

i

1

N

N∑

i=1

xi

b =1

N

(

∑Ni=1 yi(

∑Ni=1 xi)

2 − N∑N

i=1 x2i

∑Ni=1 yi

(

∑Ni=1 xi

)2− N

∑Ni=1 x2

i

+ ...−(∑N

i=1 xi)2∑N

i=1 yi + N∑N

i=1 xi

∑Ni=1 xiyi

...

)

b =

∑Ni=1 xi

∑Ni=1 xiyi −

∑Ni=1 yi

∑Ni=1 x2

i

(∑N

i=1 xi)2 − N∑N

i=1 x2i

Retour

F. Richard Statistiques descriptives 112

Recommended