Download pdf - Statistiques descriptives - TuxFamilyfrichard.tuxfamily.org/.../04/statistiques_descriptives.pdfStatistiques descriptives F. Richard1 1Institut Pprime - UPR-3346 CNRS Departement Fluides,

Statistiques descriptives

F. Richard1

1Institut Pprime - UPR-3346 CNRSDepartement Fluides, Thermique, Combustion

France

Institut des Risques Industriels Assurantiels et Financiers

”IRIAF”

F. Richard Statistiques descriptives 1

Etapes d’une etude de statististique descriptive

1 Recolter les donnees

⇒ tableau des donnees brutes

2 Organiser les donnees

⇒ tableau des frequences

3 Resumer les donnees

⇒ graphiques

⇒ indicateurs numeriques

4 Interpreter les donnees


Recolter les donnees

Extraction via une base de donnees

Donnees issues d’un calcul

Sondage

...

Exemple :

Soit une population d’individus de taille N et les variables

statistiques suivantes associees a chaque individu

Nombre d’enfants

Age

Mention au bac

Couleur des yeux



Tableau des donnees brutes

n◦ individu nbre enfants age mention coul. yeux

1 0 21 passable bleu

2 1 17 AB marron

3 1 10 B marron

4 2 18 AB vert

5 1 20 passable bleu

6 2 22 passable marron

7 2 16 AB bleu

8 2 28 AB marron

9 3 25 TB marron

10 2 19 B vert



Types de variable statistique

Qualitative

- Nominale : couleur des yeux (marron, bleu ...)

- Ordinale : mention au bac (AB, B, TB)

Quantitative

- Discrete : 1 partie des entiers (nbre d’enfants)

- Continue : 1 partie des reels (temperature)

Nombre d’enfants : variable discrete

Age : variable continue

Mention : variable ordinale

Couleur yeux : variable nominale


Organiser les donnees

Definitions

Modalites

Differentes valeurs que peut prendre la variable statistique

Frequence

Popularite des differentes modalites

Frequence absolue (fa) ou Effectif (ni) de la modalite i

L’effectif de la modalite i est le nbre d’individus ayant cette

modalite

Frequence relative (fr )

fr =niN , N : taille de la population

Frequence cumulee (fc)

La frequence cumulee a la modalite i est la somme des

frequences relatives anterieures a fi (fi−1 + fi−2 + ...) + fi



Tableau des frequences

Le tableau des frequences ne traite qu’1 variable

statistique a la fois ⇒ analyse ”univariee”

Nombre d’enfants

modalites ni (fa) fr fr (%) fc0 1 0.1 10 0.1

1 3 0.3 30 0.4

2 5 0.5 50 0.9

3 1 0.1 10 1∑

10 1 100

ord

recro

issa

nt

Interpretations : 50% des individus ont 2 enfants,...



Age

mod . ni fr fc10 1 0.1 0.1

11 0 0 0

12 0 0 0

13 0 0 0

14 0 0 0

15 0 0 0

16 1 0.1 0.2

17 1 0.1 0.3

18 1 0.1 0.4

19 1 0.1 0.5

20 1 0.1 0.6

Age

mod . ni fr fc21 1 0.1 0.7

22 1 0.1 0.8

23 0 0 0

24 0 0 0

25 1 0.1 0.9

26 0 0 0

27 0 0 0

28 1 0.1 1∑

10 1 100

Interpretation

des donnees ?!

Trop de modalites : difficile a interpreter

⇒ Construction de classes modales



Definitions

Etendue des valeurs (E)

E = Xmax − Xmin

Nombre de classes (k) : formule de Sturges

k = 1+10

3log10 N avec 6 ≤ k ≤ 12

Amplitude de classe moyenne (A)

A =E

k



Age

classe mod . ni fr fc[10; 14[ 1 0.1 0.1

[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Interpretations : 70% des individus ont moins de 22 ans,...

Dans quel cas construire des classes ?

⇒ Quand il y a trop de modalites

Dans quels cas peut il y avoir trop de modalites

⇒ Variable statistique continue

⇒ Variable statistique discrete, trop de modalites



Mention bac

modalites ni fr fcpassable 3 0.3 0.3

AB 4 0.4 0.7

B 2 0.2 0.9

TB 1 0.1 1∑

10 1 100

Couleur des yeux

modalites ni fr fcBleus 3 0.3 0.3

Marrons 5 0.5 0.8

Verts 2 0.2 1∑

10 1 100

Interpretations :

40% des individus ont eu la mention AB, ...

30% des individus ont les yeux bleus, ...


Resumer les donnees : graphiques

”Les variables qualitatives ordinales et quantitatives peuvent

etre resumees par des graphiques”

Diagramme batons

⇒ Variables ordinales

⇒ Variables discretes (sans classes modales)

Histogramme

⇒ Variables discretes (classes modales)

⇒ Variables continues

Objectif : donner une image de la distribution statistique

(distribution des donnees)



0.1

0.2

0.3

0.4

0.5

0 1 2 3

Nombre d’enfants

Fr

0.1

0.2

0.3

0.4

0.5

p AB B TB

Mention bac

Fr

0.2

0.4

0.6

0.8

1

0 1 2 3

Nombre d’enfants

Fc

0.2

0.4

0.6

0.8

1

p AB B TB

Fc

Mention bac

Diagramme batons

Diagramme des

frequences cumulees



0.1

0.2

0.3

0.4

0.5

12 16 20 24

Age

Fr

Histogramme

Polygonne des frequences

0.2

0.4

0.6

0.8

1

Fc

28

0.5F(20)=0.5

Ci =ai−1 + ai

2

hi =ni

Ai

Ci : centre de classe

hi : hauteur de classe

Pour des intervalles de classe non constants, on remplace

l’effectif par la hauteur de classe en ordonnee


Resumer les donnees : Indicateurs numeriques

Indicateurs de tendance centrale

- Moyennes

- Mode

- Mediane

Indicateurs de position

- Quantiles

Indicateurs de dispersion

- Etendue

- Ecart interquartile

- Ecart absolu moyen

- Ecart type

Indicateurs de forme

- Asymetrie

- Aplatissement


Indicateurs de tendance centrale : Les moyennes

Moyenne aritmetique

”La moyenne arithmetique d’une variable statistique

quantitative (X ) est egale a la somme des valeurs prises par

cette variable divisee par le nombre d’observations”

x =1

N

n∑

i=1

xi (moyenne simple), N =n∑

i=1

ni

Si une valeur xi de X est observee plusieurs fois, nous

calculons une moyenne arithmetique ponderee

x =1

N

n∑

i=1

nixi (variable statistique discrete)



Moyenne aritmetique

Pour 1 variable continue, on fait l’hypothese que les

valeurs sont reparties uniformement a l’interieur de

chaque classe

x =1

N

n∑

i=1

nici ci : centre de la classe

Remarque :

x = 3

1 2 3 4 5 6 7 8 9 10

x = 4

1 2 3 4 5 6 7 8 9 10

”La moyenne arithmetique est affectee par les valeurs

extremes”



Moyenne aritmetique

Proprietes :

La somme algebrique des ecarts d’une variable statistique

a sa moyenne est nulle

n∑

i=1

(xi −x) = 0

n∑

i=1

ni(xi−x) = 0

Lorsque l’on fait subir a la variable statistique un

changement d’origine et d’echelle (transformation lineaire),

sa moyenne subit la meme transformation

y = ax + b ⇒ y = ax + b



Moyenne aritmetique

Soit p 1 population de taille n partagee en 2 sous

populations p1 et p2 de tailles respectives n1 et n2. Soit X

1 variable stat. definie sur p, on peut exprimer sa moyenne

x en fonction des moy. x1 sur p1 et x2 sur p2

x =x1 + x2

2x =

1

N

n∑

i=1

nixi

Generalisation de la notion de moyenne :

”Au sens statistique, la moyenne d’une population est la valeur

unique que devrait avoir tous les individus de la population pour

que le total reste inchange”



”Total” : ∗ des valeurs ⇒ moy. geometrique

”Total” : + des valeurs ⇒ moy. arithmetique

”Total” : + des 1/valeurs ⇒ moy. harmonique

Moyenne geometrique

G = n

√

Πni=1xi (moyenne simple)

G = n

√

Πni=1x

ni

i(moyenne ponderee)

Exemple :

Supposons que pendant 10 ans, les salaires aient ete ∗ par 2

et que pendant la decenie suivante, ils aient ete multiplies par

4. Par combien les salaires ont ete multiplie en moyenne sur

les 20 ans ?



Moyenne geometrique

x =2 + 4

2= 3 G =

2√

2 ∗ 4 = 2.83

Proprietes :

La moyenne geometrique du produit xy est egale au

produit des moyennes geometriques de x et de y

zi = xi .yi ⇒ G(zi) = G(xi)G(yi)

La moyenne geometrique du quotient de x et y est egale

au quotient des moyennes de x et de y

zi =xi

yi⇒ G(zi) =

G(xi)

G(yi)



Moyenne harmonique

H =N

∑ni=1

1xi

(moyenne simple)

H =N

∑ni=1

nixi

(moyenne ponderee)

Exemple :

On achete des dollars une 1ere fois pour 1 AC au cours de

1.15 AC le dollars, une 2eme fois pour 1 AC au cours de 1.28 AC le

dollars. Quel est le cours moyen du dollars sur les 2 changes ?

x =1.15 + 1.28

2= 1.215 H =

21

1.15 + 11.28

= 1.211



Definition generale de la moyenne

Soit f (x) une fonction croissante ou decroissante de la variable

statistique x , M represente la moyenne et f (M), une fonction de

la moyenne differente selon le type de moyenne consideree

f (M) =1

H(moyenne harmonique)

f (M) = ln G (moyenne geometrique)

f (M) = x (moyenne arithmetique)

f (M) =1

N

∑

ni f (xi)




Pour f (x) = 1x

1

H=

1

n

∑ ni

xi⇒ H =

N∑ ni

xi

Pour f (x) = ln x

ln G =1

N

∑

ni ln xi ⇒ G = exp

(

1

N

∑

ni ln xi

)

Pour f (x) = x

x =1

N

∑

nixi

Pour f (x) = x2

Q2 =1

N

∑

nix2i ⇒ Q =

√

1

N

∑

nix2i




Proprietes

Les moyennes arithmetiques et quadratiques donnent

beaucoup d’influence aux elements les plus eleves des

series (la moyenne quadratique plus que la moy.

arithmetique)

Les moyennes harmoniques et geometriques tendent a

reduire l’influence des observations les plus grandes et a

augmenter celles des plus petites (la moyenne

geometrique moins que la moy. harmonique)

H < G < x < Q


Indicateurs de tendance centrale : Le mode

”Le mode d’une distribution est la valeur de la variable

statistique pour laquelle la frequence est la plus elevee (valeur

la plus representee)”

Mode Distribution Bi modale Classe modale

Pour les variables continues, on defini une classe

modale et le mode est le centre de la classe


Indicateurs de tendance centrale : La mediane

”La mediane d’une distribution est la valeur de la variable

statistique telle que le nombre d’observations qui presentent

une valeur inferieure est egale au nombre d’observations qui

presentent une valeur superieure”

C’est la valeur de la variable qui partage les individus en 2

effectifs egaux

La mediane est la valeur pour laquelle la frequence

cumulee est F (Me) = 0.5

Variable discrete : valeur ou intervalle (on peut trouver

une mediane theorique en faissant une interpolation

lineaire)

Variable continue : On cherche la classe mediane puis on

effectue une interpolation lineaire pour trouver la mediane


Indicateurs de tendance centrale : La mediane

Exemple :

Age


[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Classe mediane : [18; 22[

0.7

0.3

2218

y

x

y = 0.5

0.7 − y

0.7 − 0.3=

22 − x

22 − 18

Me = 20

Sur des valeurs brutes : 21,17,10,18,20,22,16,28,25,19

10,16,17,18,19,20,21,22,25,28

Classement ordre croissant

Me=19.5


Indicateurs de tendance centrale : Exemple

Couleur des yeux

modalites ni fr fcBleus 3 0.3 0.3

Marrons 5 0.5 0.8

Verts 2 0.2 1∑

10 1 100

Variable nominale

Mode = marron

Mediane =? : impossible

x =? : impossible

Mention bac

modalites ni fr fcpassable 3 0.3 0.3

AB 4 0.4 0.7

B 2 0.2 0.9

TB 1 0.1 1∑

10 1 100

Variable ordinale

Mode = AB

Mediane = AB

x =? : impossible


Indicateurs de tendance centrale : Exemple

Nombre d’enfants

modalites ni fr fc0 1 0.1 0.1

1 3 0.3 0.4

2 5 0.5 0.9

3 1 0.1 1∑

10 1 100

Variable discrete

Mode = 2

Mediane = 2

x = 1.6

Age


[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

Variable continue

Mode = 20

Mediane = 20

x = 20


Indicateurs de tendance centrale : Conclusion

SymetrieAsymetrie gauche Asymetrie droite

Moy . < Med . < Mo. Moy . = Med . = Mo. Moy . > Med . > Mo.

Mode, Mediane, Moy. arithmetique sont des indicateurs de

position (indicateurs de tendance centrale)

- variable nominale : mode

- variable ordinale : mode, mediane

- variable discrete, continue : mode, mediane, moyennes


Indicateurs de tendance centrale : Conclusion

La moyenne est l’indicateur le plus utilise. Son calcul est

base sur l’ensemble des valeurs xi , de ce fait elle est

influencee par les valeurs extremes contrairement a la

mediane

La mediane est un parametre calcule en fonction de sa

position dans la serie

Le mode est l’indicateur le plus sensible lors du

regroupement des informations (classes). 2

regroupements differents peuvent conduire a plus de

modes distincts


Indicateurs de position : Les quantiles

”Le quantile d’ordre α, Qα avec 0 ≤ α ≤ 1 est la modalite de la

variable statistique telle qu’une proportion α des individus ont

une modalite inferieure ou egale a Qα”

Les quantiles sont definis pour toutes les variables sauf les

variables nominales

1 2 3 4 5 6 7 8 9 10

Q0.550 % 50 %

Q0.4

40 % 60 %

Quantiles particuliers :

Quartiles : Q0.25, Q0.5, Q0.75

Deciles : Q0.1, Q0.2, ...

Centiles : Q0.01, Q0.02, ...


Indicateurs de position : Les quantiles

La frequence cumulee du quantile Qα est egale a l’ordre α

F (Qα) = α

Pour un intervalle [ai−1; ai [, l’interpolation lineaire donne :

classe mod . fc[ai−2; ai−1[ Fai−1

[ai−1; ai [ Fai

[ai ; ai+1[ Fai+1

Qα = ai +(ai −ai−1).

(

α− Fai

Fai− Fai−1

)


Indicateurs de dispersion : L’etendue

E = Xmax − Xmin

1 2 3 4 5 6 7 8 9 10

E

Individu athipique

(outlier)

remarque :

L’etendue ne tient compte que des 2 valeurs extremes quelque

soit le nombre de valeurs de la population


Indicateurs de dispersion : L’ecart interquartile

Pour remedier aux inconvenients de l’etendue, il est possible

d’ecarter du calcul de la caracteristique de dispersion les

valeurs extremes d’une serie statistique

EIQ = Q0.75−Q0.25

Les indicateurs de dispersion nous renseignent sur la

dispersion des valeurs autour d’un parametre de position

Concernant l’ecart interquartile, le parametre de position

est la mediane

”L’EIQ est l’intervalle qui contient 50% des individus, en laissant

de cote 25% des individus dont les observations sont les plus

petites et 25% des individus dont les observations sont les plus

grandes”


Indicateurs de dispersion : L’ecart interquartile

EID = Q0.9 −Q0.1

L’ecart interdeciles (EID) regroupe 80% des individus

autour de la mediane

remarque :

L’EIQ ne tient compte que de l’ordre des observations et non de

leurs valeurs et des ecarts qui existent entre elles


Indicateurs de dispersion : L’ecart absolu moyen

Pour definir un meilleur indicateur de dispersion, on calcule

l’ecart de chacune des observations xi par rapport a une

caracteristique de tendance centrale ′′C′′ (x , Me) :

(xi − C)

On retient comme mesure de la dispersion de la serie, la

moyenne des valeurs absolues des ecarts a la moyenne

(la moyenne des ecarts a la moyenne etant nulle)

|xi − C|

Cette moyenne est donc une grandeur positive qui

constitue une caracteristique de dispersion


Indicateurs de dispersion : L’ecart absolu moyen

Ecart absolue moyen a la moyenne :

ex =1

N

∑

|xi−x | ex =1

N

∑

ni |xi − x |

Ecart absolue moyen a la mediane :

ex =1

N

∑

|xi − Me| ex =1

N

∑

ni |xi−Me|


Indicateurs de dispersion : L’ecart type

”L’ecart type est la racine carre de la moyenne des ecarts a la

moyenne au carre”

V (x) =1

N

∑

(xi−x)2

”Variance”

σ(x) =

√

1

N

∑

(xi − x)2

”L’ecart type”

V (x) ≥ 0

L’ecart type est la moyenne quadratique des ecarts a la

moyenne arithmetique (σ(x) : ecart quadratique moyen)



Moyenne quadratique :

f (M) =1

N

∑

f (xi) f (M) = Q2 f (x) = x2

Q2 =1

N

∑

x2i

Q =

√

1

N

∑

x2i

On peut faire apparaitre la moyenne quadratique dans la

formule de la variance : theoreme de Konig

V (x) =1

N

∑

nix2i − x2

Demonstration



Exemple : notes d’etudiants

10; 12; 8; 15; 14; 11; 16; 11; 13; 9

x =10 + 12 + 8 + 15 + ...

10= 11.9

σ =

√

1

10

(

(10 − 11.9)2 + (12 − 11.9)2 + ...

)

= 2.47

”En moyenne, les notes des 10 etudiants sont dispersees

autour de la moyenne arithmetique de 2.47 points”

La variance n’a pas d’unite

L’ecart type a la meme unite que celle des observations


Indicateurs de dispersion : Coefficient de variation

L’ecart type comme la moyenne s’expriment dans la meme

unite que celle de la variable statistique

On peut avoir a comparer les dispersions de distributions

qui ne sont pas exprimees dans la meme unite ou les

dispersions de distributions dont les moyennes sont

totalement differentes

CV =σx

x

Le coefficient de variation est sans dimension et donc

independant des unites des variables statistiques

Exemple


Indicateurs de forme : Introduction

L’objectif est d’avoir des informations sur la forme de la

distribution sans avoir a la tracer

2 types d’indicateurs :

La symetrie (asymetrie) : skewness

L’aplatissement : Kurtosis

Moments centres

Le moment centre d’ordre k est egale a la moyenne

arithmetique des puissances d’ordre k des ecarts (xi − x)

µk =1

N

∑

ni(xi − x)k

Si k = 0 ⇒ µ0 = 1

Si k = 1 ⇒ µ1 = 0

Si k = 2 ⇒ µ2 = σ2 : variance


Indicateurs de forme : Asymetrie

4 moyens de definir l’asymetrie d’une distribution

Comparaison indicateurs tendance centrale

Mo = Me = x ⇒ serie ”symetrique”

Mo > Me > x ⇒ serie ”etalee vers la gauche”

Mo < Me < x ⇒ serie ”etalee vers la droite”

Coefficient de Yule

On compare les quartiles entre eux :

s =(Q3 − Me)− (Me − Q1)

(Q3 − Me) + (Me − Q1)s ∈ [−1; 1]

s = 0 ⇒ serie ”symetrique”

s > 0 ⇒ serie ”etalee vers la droite”

s < 0 ⇒ serie ”etalee vers la gauche”


Indicateurs de forme : Asymetrie

Coefficient de Pearson

Pearson etablie une statistique basee sur les ecarts entre

moyenne et mode

p =x − Mo

σ

p = 0 ⇒ serie ”symetrique”

p > 0 ⇒ serie ”etalee vers la droite”

p < 0 ⇒ serie ”etalee vers la gauche”

Coefficient de Fisher

Fisher utilise la notion de moment centre

γ1 =µ3

µ3/22

γ1 = 0 ⇒ serie ”symetrique”

γ1 > 0 ⇒ serie ”etalee vers la droite”

γ1 < 0 ⇒ serie ”etalee vers la gauche”µ2 6= 0


Indicateurs de forme : Aplatissement

Les coefficients d’aplatissement mesurent l’importance des

”extremites” de la distribution, la reference prise est la

distribution normale

Definition

Une courbe est aplatie (platikurtique) quand une forte

variation de la valeur etudiee ne s’accompagne pas de

forte variation de la frequence (par ref. a la distribution

normale)

Quand la courbe est moins aplatie que la loi normale, elle

est dite leptokurtique


Indicateurs de forme : Aplatissement

Coefficient d’aplatissement de Fisher

γ2 =µ4

µ22

−3 µ2 6= 0

γ2 = 0 ⇒ distribution ”normale”

γ2 > 0 ⇒ distribution ”leptokurtique”

γ2 < 0 ⇒ distribution ”platikurtique”

Coefficient d’aplatissement de Pearson

β2 =µ4

µ22

β2 = 3 ⇒ distribution ”normale”

β > 3 ⇒ distribution ”leptokurtique”

β < 3 ⇒ distribution ”platikurtique”


Indicateurs de forme

Remarque :

Ces coefficients (asymetrie et aplatissement) sont invariants

par changement d’origine et d’echelle mais sont sensibles aux

fluctuations d’echantillonnages puisqu’ils font intervenir des

moments d’ordres eleves


Calcul des indicateurs : Exemple

Age


[14; 18[ 2 0.2 0.3

[18; 22[ 4 0.4 0.7

[22; 26[ 2 0.2 0.9

[26; 30[ 1 0.1 1∑

10 1 100

F (Q0.25) = 0.25

y − 0.3

0.3 − 0.1=

x − 14

18 − 14avec y = 0.25 et x = Q0.25

20(y − 0.1) + 14 = x

Q0.25 = 20∗(0.25−0.1)+14 = 17



F (Q0.5) = 0.5 ⇒ Q0.5 = 20

F (Q0.75) = 0.75 ⇒ Q0.75 = 23

EIQ = Q0.75 − Q0.25 = 23 − 17 = 6

ex = 110

(

|12 − 20|+ 2|16 − 20|+ ...)

= 3.2

eMe = 3.2

σ =√

110

(

(−8)2 + 2 ∗ (−4)2 + (0)2 + ...)

= 4.38

s = (23−20)−(20−17)(23−20)+(20−17) = 0

p = 20−204 = 0

µ2 = σ2 = 4.382 = 19.18

µ3 = −512−128+128+51210 = 0



µ4 = 110

(

(−8)4 + 2(−4)4 + ...)

= 921.6

γ1 = 019.183/2 = 0

γ2 = 921.619.182 − 3 = −0.5

β2 = 2.5

Indicateurs Valeurs

Mode 20

Mediane 20

x 20

Q0.25 17

Q0.5 20

Q0.75 23

EIQ 6

ex 3.2

Indicateurs Valeurs

emed 3.2

σ 4.38

s 0

p 0

γ1 0

γ2 -0.5

β2 2.5


Distribution statistique a 2 dimensions


Tableau de contingence

Hypotheses

X , Y : 2 variables definies sur une population composee

de N individus

(xi , yj) : couples de modalites correspondants

k , l : nbres respectifs de modalites des variables X et Y

”Le tableau de contingence est un tableau a k lignes et l

colonnes qui donne l’effectif de chaque couple de modalites”

⇒ Remplace table des frequences lors d’1 analyse

univariee

La construction du tableau de contingence s’effectue par la

realisation d’un tri croise des donnees



Tri croise

Le tri croise consiste a compter les individus de la

population par couple de modalites

Variable a expliquer

C’est la variable dont le comportement nous interesse

Variable explicative

C’est la variable servant a expliquer le comportement de la

variable a expliquer



Y

X y1 y2 ... yj ... yl Totaux

lignes

x1 n11 n12 ... n1j ... n1l n1.

x2 n21 ... ... ... ... ... ...

... ... ... ... ... ... ... ...

xi ni1 ... ... nij ... ... ni.

... ... ... ... ... ... ... ...

xk nk1 ... ... ... ... nkl nk .

Totaux n.1 ... ... n.j ... n.l N = n..

colonnes

distribution jointe

distributions marginales

distributions conditionnelles



Effectif marginal associe a la modalite xi

ni. =

j=l∑

j=1

nij

Effectif marginal associe a la modalite yi

n.j =i=k∑

i=1

nij

Effectif total

N = n.. =i=k∑

i=1

j=l∑

j=1

nij =i=k∑

i=1

ni. =

j=l∑

j=1

n.j



Distribution conditionnelle

”Une distribution conditionnelle est la distribution d’1 variable

statistique X lorsque l’autre variable statistique Y est fixee”

ligne i : distribution de Y sachant que X = xi ou

X ∈ [ai−1; ai ]

ligne j : distribution de X sachant que Y = yj ou

Y ∈ [bj−1; bj ]

Y |X = xi , Y |X ∈ [ai−1; ai ] X |Y = yj , X |Y ∈ [bj−1; bj ]

Frequences du couple (xi , yj)

fij =nij

N



Frequences marginales

fi. =ni.

N(frequences marginales associees aux modalites

xi )

f.j =n.j

N

(frequences marginales associees aux modalites

yj )

i=k∑

i=1

j=l∑

j=1

fij =i=k∑

i=1

fi. =

j=l∑

j=1

f.j = 1

Frequences conditionnelles

fi |Y=yj=

nij

n.j(frequence conditionnelle pour Y fixee)

fj |X=xj=

nij

ni.(frequence conditionnelle pour X fixee)



On peut aller plus loin dans la presentation des donnees

croisees en etudiant 2 tableaux (tableaux des profils):

⇒ Tableau des frequences horizontales

⇒ Tableau des frequences verticales

On peut lire le tableau de contingence de 2 facons

differentes selon que l’on priviligie l’une ou l’autre des

variables (lecture en lignes ou en colonnes)

⇒ L’objectif est de ramener la somme de chaque

ligne ou chaque colonne a 100%

⇒ On construit donc les 2 tableaux avec les

frequences conditionnelles



Tableaux des frequences horizontales et verticales

Frequences verticales

Y

X y1 ... yj ... yl

x1 ... ... ... ... ...

x2 ... ... ... ... ...

... ... ... ... ... ...

xi ... ... fi|Y=yj... ...

... ... ... ... ... ...

xk ... ... ... ... ...

Total 1 1 1 1 1

Frequences horizontales

Y

X y1 ... yj ... yl Total

x1 ... ... ... ... ... 1

x2 ... ... ... ... ... 1

... ... ... ... ... ... 1

xi ... ... fj|X=xi... ... 1

... ... ... ... ... ... 1

xk ... ... ... ... ... 1

Exemple


Indicateurs numeriques

Moyennes et variances marginales

x =1

N

i=k∑

i=1

ni.xi =i=k∑

i=1

fi.xi =1

N

i=k∑

i=1

j=l∑

j=1

nijxi

y =1

N

j=l∑

j=1

n.jyj =

j=l∑

j=1

f.jyj =1

N

i=k∑

i=1

j=l∑

j=1

nijyj

V (x) =1

N

i=k∑

i=1

ni.x2i − x2

V (y) =1

N

j=l∑

j=1

n.jy2j − y2


Indicateurs numeriques

Moyennes et variances conditionnelles

x |Y=yj=

1

n.j

i=k∑

i=1

nijxi =i=k∑

i=1

fi|Y=yjxi

y |X=xi=

1

ni .

j=l∑

j=1

nijyj =

j=l∑

j=1

fj|X=xiyj

V (x|Y=yj) =

1

n.j

i=k∑

i=1

nijx2i − x|Y=yj

2

V (y|X=xi) =

1

ni.

j=l∑

j=1

nijy2j − y|X=xi

2

Exemple


Covariance

”La covariance entre 2 variables X et Y est egale a la

moyenne des produits des ecarts a la moyenne de X et Y ”

La covariance permet de determiner l’existance d’une rela-

tion (variation simultannee ) entre 2 variables quantitatives

Soit X et Y , 2 variables quantitatives definies sur une

meme population composee de N individus. (xi ; yi), les N

couples d’observations correspondant

cov(X ,Y ) =1

N

n∑

i=1

(xi−x)(yi−y) (donnees brutes)

cov(X ,Y ) : covariance du couple (X ;Y )


Covariance

Donnees resumees dans un tableau de contingence

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nij(xi − x)(yj − y)

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nijxiyj − x y


Covariance

Interpretation

cov(X ,Y ) > 0 : les couples (xi , yj) nous indiquent que X

et Y varient globalement dans le meme sens

cov(X ,Y ) < 0 : les couples (xi , yj) nous indiquent que X

et Y varient globalement dans le sens inverse

Le signe de la covariance peut etre negatif contrairement a

celui de la variance qui est toujours positif

Remarque

La covariance est un indicateur du sens de variation

simultanee de X et de Y

Si X et Y croissent simultanement, les produits

(xi − x)(yi − y) seront positifs, tandis que si Y decroit

lorsque X croit (ou l’inverse), ces memes produits seront

negatifs


Covariance

Proprietes

Si 2 variables X et Y sont independantes

⇒ cov(X ,Y ) = 0 , ”La reciproque est fausse !”

cov(aX , bY ) = abcov(X ,Y ) avec a, b constantes

cov(X ,X ) = V (X ), cov(Y ,Y ) = V (Y )

Exemple : notes maths, francais

cov(X ,Y ) =1

N

k∑

i=1

l∑

j=1

nijxiyj − x y

cov(X ,Y ) =1

100

(

10∗4∗5+20∗10∗5+10∗16∗5+...

)

−11∗10.6 = 2.4

cov(X ,Y ) = 2.4 > 0 ⇒ X et Y varient dans le meme sens


Independance et liaison fonctionnelle

La liaison entre 2 variables peut etre plus ou moins accentuee

2 cas extremes :

Abscence de liaison ⇒ independance

Liaison totale ou liaison fonctionnelle ⇒ dependance

Independance

”La variable X est independante de la variable Y si les

frequences conditionnelles fi |Y=yjsont egales entres elles pour

i fixe”

fi |Y=yjdepend de i eventuellement mais pas de j

f1|Y=y1= f1|Y=y2

= f1|Y=y3= ...

f2|Y=y1= f2|Y=y2

= f2|Y=y3= ...



Independance

L’independance est reciproque

Si X est independant de Y alors Y est independant de X

⇒ Les 2 variables sont ”independantes”

fj |X=xi=

nij

ni.; fi |Y=yj

=nij

n.j(1)

n1j

n1.=

n2j

n2.=

nkj

nk .;

ni1

n.1=

ni2

n.2=

nil

n.l(2)

Ces fractions egales entres elles sont egales a la fraction

obtenue en ajoutant numerateur et denominateur

(2)n1j + n2j + n3j + ...+ nkj

n1. + n2. + n3. + ...+ nk .=

∑ki=1 nij

∑ki=1 ni.

=n.j

N= f.j



Independance

(2)ni1 + ni2 + ni3 + ...+ nil

n.1 + n.2 + n.3 + ...+ n.l=

∑lj=1 nij

∑lj=1 n.j

=ni.

N= fi.

fi. =ni.

N=

nij

n.j; f.j =

n.j

N=

nij

ni.

Consequence de l’independance :

ni . ∗ n.j

N= nij

fi |Y=yj= fi. fj |X=xi

= f.j

Les lignes du tableau de contingence sont proportionnelles

entre elles

Les colonnes du tableau sont proportionnelles entre ellesExemple



Liaison fonctionnelle

”A la difference de l’independance, la liaison fonctionnelle n’est

pas toujours reciproque”

2 cas possibles :

La variable Y est liee fonctionnellement a X lorsqu’a

chaque modalite de X correspond une modalite unique et

determinee de Y et reciproquement

2 variables X et Y sont reciproquement dependantes

lorsqu’a chaque modalite de X correspond une modalite

unique et determinee de Y et reciproquement

Exemple



Remarques

L’independance et la liaison fonctionnelle sont 2 cas

extremes que l’on rencontre rarement en pratique

Le cas le plus courant est de se trouver entre ces 2 cas

⇒ Les 2 variables statistiques X et Y on

une ”liaison relative” (ou partielle)

Des methodes d’analyse statistique permettent d’evaluer

l’intensite de la liaison relative entre 2 variables

statistiques


Test d’independance du χ2

”Le test d’independance du χ2 permet de dire si 2 variables

qualitatives sont independantes”

Le test permet de trancher la proposition suivante :

”Il n’y a pas de relation entre les 2 variables” (H0)

H0 : hypothese nulle

Pratiquement

Pour montrer qu’il existe une relation, on cherche a montrer que

l’inexistence de relation a une faible probabilite de se realiser

Principe du test

Comparer la repartition des observations du tableau de

contingence a une distribution ”ideale” qui correspond a 1

situation de liaison nulle entre les 2 variables



On compare donc 2 tableaux :

Tableau des effectifs observes

Tableau des effectifs theoriques (si absence de liaison)

Le test d’independance du χ2 mesure l’ecart entre ces 2

tableaux

Plus l’ecart est grand :

Plus faible est la chance que le tableau observe soit

semblable au tableau theorique

Plus faible est la chance que l’hypothese nulle se realise

Plus de chance que la liaison soit significative



Calcul du tableau des effectifs theoriques

Ce calcul s’appuie sur un theoreme d’independance satistique :

Si le produit des marges est egal aux effectifs croises

⇒ Independance

ni. ∗ n.j

N= nij ; posons tij =

ni. ∗ n.j

N

tij : effectif theorique

tij ≥ 5 : sinon l’indicateur n’a pas de sens

Calcul du χ2

χ2calcule =

k∑

i=1

l∑

j=1

(nij − tij)2

tij



Le χ2calcule est une mesure d’ecart

⇒ Plus sa valeur est grande et moins il est probable

qu’il n’y ait pas de liaison

Regle de decision

Cet indicateur doit etre compare a un ”seuil” note χ2α

(avec α, risque de 1er espece)

Si χ2calcule < χ2

α : on accepte l’hypothese H0

X et Y sont independantes

Si χ2calcule > χ2

α : on refuse l’hypothese H0

Le degre de liberte (DDL) est le 2eme parametre dont depend la

valeur du χ2α tableau

DDL = (k−1)(l−1)k : nbre de lignes

l : nbre de colonnes



Remarque

Le test d’independance du χ2 permet de conclure a l’existance

eventuelle d’une relation mais ne permet pas de preciser la

nature de celle-ci

Exemple


Regression - Methode des moindres carres

Objectif

Trouver 1 fonction mathematique qui represente au mieux

la distribution statistique (quantitative)

Remarque

Modelise la representation ”discrete” d’une distribution

statistique par une fonction mathematique ”continue”

Exempledetails



Demarche

Contexte

2 distributions statistiques X et Y dependantes

Objectif

Trouver 1 fct math. representant ”au mieux” la dist. jointe

(X ,Y ) (comportement moyen) ⇒ La regression

Y X=xi= f (xi)

f : classe de fonctions simples (affines, log, exp,

polynomiales...)

Trouver la fct f la plus proche de Y X=xi⇒ Ajustement de la fct

La metode d’ajustement la plus utilisee est celle des

”moindres carres”



Principe

La fonction decrivant le mieux la dist. est celle qui minimise la

somme quadratique des deviations des mesures aux

predictions de f (xi)

J =N∑

i=1

(

yi − f (xi)

)2



Ajustement lineaire

La fonction f (xi) est une fonction affine du type :

y = ax + b

Remplace f (xi) dans J

J(a, b) =N∑

i=1

(

yi−(axi+b)

)2

details

Minimise la fonction J(a, b) pour trouver les cstes a et b

Un minimum d’1 fct. de plusieurs variables ne peut se produire

qu’en 1 pt., ou les derivees partielles s’annulent

∂J(a, b)

∂a= 0,

∂J(a, b)

∂b= 0

details



Covariance

Cov(x , y) =1

N

N∑

i=1

(

xi − x

)(

yi − y

)

demonstraion

Ajustement lineaire

y =Cov(x , y)

Var(x)(x − x) + y

demonstraion



M

d

x

y

x

y

M d

Droite d’ajustement de Y en X :

y =Cov(x , y)

Var(x)(x − x) + y

Droite d’ajustement de X en Y :

x =Cov(x , y)

Var(y)(y − y) + x

y =Var(y)

Cov(x , y)(x − x) + y



x

y

d’

d La droite d’ajustement de Y

en X est toujours plus proche

de l’horizontale

Coefficient de correlation lineaire ”Pearson”

r2 =a

a′=

Cov(x ,y)Var(x)

Var(y)Cov(x ,y)

=

(

Cov(x , y)

σ(x)σ(y)

)2

r =Cov(x , y)

σ(x)σ(y)



x

y

d’

d

0 < r < +1

x

y

d’

d

−1 < r < 0

x

y

d = d’

r = −1

x

y

d = d’

r = +1

x

y

d

d’

r = 0


Analyse multivariee

Objectifs

Faire une etude sur plusieurs variables simultanement

Analyse en Composantes Principales (ACP)

Nature des variables : Quantitatives

Objectif : Etude des relations existantes entre variables

quantitatives et individus


Analyse multivariee

Analyse Factorielle des correspondances (AFC)

Nature des variables : Qualitatives

Objectif : Etude des relations existantes entre 2 variables

qualitatives

Analyse des Correspondances Multiples (ACM)

Nature des variables : Qualitatives

Objectif : Etude des relations existantes entre plusieurs

variables qualitatives


Analyse multivariee

Autres methodes ...

Classification Ascendante Hierarchique (CAH)

Analyse Factorielle Discriminante (AFD)

La segmentation

Regression Lineaire Multiple (RLM)

Regression ”Partial Least Square” (PLS)

Regression logistique

Reseau de Neurones

Monte Carlo

Scoring

Plans d’experiences (DOE)

Maıtrise Statistique des Processus (MSP)

Serie chronolgiques


Exemple

V (x) =1

N

∑

ni(xi − x)2

=1

N

∑

ni(x2i − 2xix + x2)

=1

N

(

∑

nix2i −∑

2nixix+∑

nix2

)

=1

N

(

∑

nix2i −2x

∑

nixi+x2∑

ni

)

=1

N

(

∑

nix2i −2x

∑

nixi+Nx2

)

=1

N

(

∑

nix2i −2xNx+Nx2

)


Exemple

=1

N

(

∑

nix2i −2Nx2+Nx2

)

=1

N

(

∑

nix2i − Nx2

)

V (x) =1

N

∑

nix2i − x2

Remarque :

x =1

N

∑

nixi ⇒∑

nixi = Nx∑

axi = ax1+ax2 = a(x1+x2) ⇒∑

axi = a∑

xi∑

(xi+yi) = (x1+y1)+(x2+y2) ⇒∑

(xi+yi) =∑

xi+∑

yi

Retour


Exemple

Distributions de revenus aux US et en France

Fr : x = 1500 e, σ1 = 120 e

US : x = 1200 $, σ1 = 100 $

CVFr =120

1500= 0.080

CVUS =100

1200= 0.083

Retour


Exemple

X : reussite en L1, Y : type de bac (ES,S,STT)

Tableau de contingence (effectifs) :

ES S STT∑

ni.

Reussite L1 41 59 54 154

Echec L1 21 36 75 132∑

n.j 62 95 129 286

Tableau de contingence (frequences) :

ES S STT∑

ni.

Reussite L1 0.14 0.21 0.19 0.54

Echec L1 0.07 0.13 0.26 0.46∑

n.j 0.21 0.34 0.45 1

freussite ES =nreussite ES

N=

41

286= 0.14

”14% des etudiants ont un bac ES et ont reussi en L1”


Exemple

Tableau des frequences verticales : Retour

ES S STT

Reussite L1 0.66 0.62 0.42

Echec L1 0.34 0.38 0.58∑

1 1 1

freussite|Y=ES =nreussite ES

n.ES

=41

62= 0.66

”66% des etudiants ayant un bac ES ont reussi en L1”

Tableau des frequences horizontales :

ES S STT∑

Reussite L1 0.27 0.38 0.35 1

Echec L1 0.16 0.27 0.57 1

fES|X=reussite =nreussite ES

nreussite.=

41

154= 0.27

”27% des etudiants ayant reussis en L1 ont un bac ES”


Exemple

X : note en maths, Y : note en francais

X/Y [0; 8[ [8; 12[ [12; 20[ ni.

[0; 10[ 10 20 10 40

[10; 20[ 10 30 20 60

n.j 20 50 30 100

x =1

100

(

40∗5+60∗15

)

= 11

y = 10.6

σ(x) =

√

1

100

(

40(5 − 11)2 + 60(15 − 11)2

)

= 4.9

σ(y) = 4.2

x |y = 4 =1

20

(

10∗5+10∗15

)

= 10


Exemple

x |y = 10 =1

50

(

20∗5+30∗15

)

= 11

x |y = 16 =1

30

(

10∗5+20∗15

)

= 11.7

y |x = 5 =1

40

(

10∗4+20∗10+10∗16

)

= 10

y |x = 15 =1

60

(

10∗4+30∗10+20∗16

)

= 11

σ(x)|y = 4 =

√

1

20

(

10(5 − 10)2 + 10(15 − 10)2

)

= 5


Exemple

σ(x)|y = 10 =

√

1

50

(

20 ∗ 52 + 30 ∗ 152

)

= 4.9

σ(x)|y = 16 = 4.7

σ(y)|x = 5 =

√

1

40

(

10 ∗ 42 + 20 ∗ 102 + 10 ∗ 162

)

= 4.2

σ(y)|x = 15 = 4.1

On peut calculer la variance des moyennes conditionnelles

et la moyenne des variances conditionnelles

Retour


Exemple

La distribution jointe suivante est celle de 2 variables X et

Y independantes

X/Y Y1 Y2 Y3 Y4 ni. fi.X1 3 5 2 4 14 7/49

X2 6 10 4 8 28 14/49

X3 12 20 8 16 56 28/49

n.j 21 35 14 28 98 1

f.j 21/98 35/98 14/98 28/98 1

f1|Y=y1=

3

21=

1

7, f2|Y=y1

=6

21=

2

7

f1|Y=y2=

5

35=

1

7, f2|Y=y2

=10

35=

2

7

f1|Y=y3=

2

14=

1

7, f2|Y=y3

=4

14=

2

7Retour


Exemple

Y1 Y2 Y3

X1 0 10 0

X2 0 15 0

X3 0 0 16

Y est liee fonctionnellement a

X

Dans le tableau, il n’y a qu’une

valeur non nulle par ligne

Y1 Y2 Y3

X1 0 0 0

X2 10 15 0

X3 0 0 16

X est liee fonctionnellement a

Y

Dans le tableau, il n’y a qu’une

valeur non nulle par colonne

Y1 Y2 Y3

X1 10 0 0

X2 0 15 0

X3 0 0 16

X et Y sont reciproquement

dependantes

Il existe une seule valeur non nulle

par ligne et par colonneRetour


Exemple

X : guerison du patient

Y : cout du medicament

medicament cher medicament bon marche∑

Guerison 156 44 200

Non guerison 44 6 50∑

200 50 250

Question :

Existe t-il une relation entre le cout du medicament et la

guerison ou non des patients ?

tij =ni. ∗ n.j

N(effectifs theoriques)


Exemple

Tableau des effectifs theoriques :

medicament cher medicament bon marche

Guerison 160 40

Non guerison 40 10

t11 =n1. ∗ n.1

N=

200 ∗ 200

250= 160

t12 =n1. ∗ n.2

N=

200 ∗ 50

250= 40

t21 =n2. ∗ n.1

N=

50 ∗ 200

250= 40

t22 =n2. ∗ n.2

N=

50 ∗ 50

250= 10


Exemple

χ2calc =

k∑

i=1

l∑

j=1

(nij − tij)2

tij=

(156 − 160)2

160+(44 − 40)2

40+... = 2.5

DDL = 1

χ2cal < χ2

0.10

Les variables X et Y sont independantes avec une probabilite

de 10% de se tromperRetour


Modelisation distribution jointe

X

Y

2 4 6 8 10 12

2

4

6

8

10

12


Modelisation distribution jointe

X

Y

2 4 6 8 10 12

2

4

6

8

10

12

Retour


Regression lineaire

M

d

x

y

Retour


Regresion lineaire

J(a, b) =N∑

i=1

(

yi − axi − b

)2

∂J(a, b)

∂a= −2

N∑

i=1

xi

(

yi − axi − b

)

∂J(a, b)

∂b= −2

N∑

i=1

(

yi − axi − b

)

∑Ni=1 xiyi − a

∑Ni=1 x2

i − b∑N

i=1 xi = 0 (1)∑N

i=1 yi − a∑N

i=1 xi − Nb = 0 (2)


Regresion lineaire

(2) b =

∑Ni=1 yi − a

∑Ni=1 xi

N

(1)N∑

i=1

xiyi − a

N∑

i=1

x2i +

(

a∑N

i=1 xi −∑N

i=1 yi

N

)

N∑

i=1

xi = 0

(

(∑N

i=1 xi

)2

N−

N∑

i=1

x2i

)

a =

∑Ni=1 xi

∑Ni=1 yi

N−

N∑

i=1

xiyi

a =

∑Ni=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i


Regresion lineaire

b =1

N

(

N∑

i=1

yi−(∑N

i=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

) N∑

i=1

xi

)

b =1

N

(

N∑

i=1

yi−(

(∑N

i=1 xi

)2∑Ni=1 yi − N

∑Ni=1 xi

∑Ni=1 xiyi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

)

)

b =1

N

(

(∑N

i=1 xi

)2∑Ni=1 yi − N

∑Ni=1 x2

i

∑Ni=1 yi

(∑N

i=1 xi

)2 − N∑N

i=1 x2i

...+N

∑Ni=1 xi

∑Ni=1 xiyi − (

∑Ni=1 xi)

2∑N

i=1 yi

...

)


Regresion lineaire

b =

∑Ni=1 xi

∑Ni=1 xiyi −

∑Ni=1 yi

∑Ni=1 x2

i(∑N

i=1 xi

)2 − n∑N

i=1 x2i

Retour


Covariance

Cov(x , y) =1

N

N∑

i=1

(

xi−x

)(

yi−y

)

Cov(x , y) =1

N

N∑

i=1

(

xiyi−xiy−yix+x y

)

Cov(x , y) =1

N

(

N∑

i=1

xiyi−y

N∑

i=1

xi−x

N∑

i=1

yi+Nx y

)

Cov(x , y) =1

N

(

N∑

i=1

xiyi−yNx−xNy+Nx y

)


Covariance

Cov(x , y) =1

N

(

N∑

i=1

xiyi − Nxy

)

Cov(x , y) =1

N

N∑

i=1

xiyi − x y

Retour


Regression lineaire

y =Cov(x , y)

Var(x)(x − x) + y

y =Cov(x , y)

Var(x)x−Cov(x , y)

Var(x)x+y

a b

N2Var(x) = N

N∑

i=1

x2i −(

N∑

i=1

xi)2, N2Cov(x , y) = N

N∑

i=1

xiyi−N∑

i=1

xi

N∑

i=1

yi

a =

∑Ni=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(∑N

i=1 xi)2 − N∑N

i=1 x2i

=−N2Cov(x , y)

−N2Var(x)=

Cov(x , y)

Var(x)


Regression lineaire

b =1

N

N∑

i=1

yi−∑N

i=1 xi

∑Ni=1 yi − N

∑Ni=1 xiyi

(

∑Ni=1 xi

)2− N

∑Ni=1 x2

i

1

N

N∑

i=1

xi

b =1

N

(

∑Ni=1 yi(

∑Ni=1 xi)

2 − N∑N

i=1 x2i

∑Ni=1 yi

(

∑Ni=1 xi

)2− N

∑Ni=1 x2

i

+ ...−(∑N

i=1 xi)2∑N

i=1 yi + N∑N

i=1 xi

∑Ni=1 xiyi

...

)

b =

∑Ni=1 xi

∑Ni=1 xiyi −

∑Ni=1 yi

∑Ni=1 x2

i

(∑N

i=1 xi)2 − N∑N

i=1 x2i

Retour