Statistiques descriptives
F. Richard1
1Institut Pprime - UPR-3346 CNRSDepartement Fluides, Thermique, Combustion
France
Institut des Risques Industriels Assurantiels et Financiers
”IRIAF”
F. Richard Statistiques descriptives 1
Etapes d’une etude de statististique descriptive
1 Recolter les donnees
⇒ tableau des donnees brutes
2 Organiser les donnees
⇒ tableau des frequences
3 Resumer les donnees
⇒ graphiques
⇒ indicateurs numeriques
4 Interpreter les donnees
F. Richard Statistiques descriptives 2
Recolter les donnees
Extraction via une base de donnees
Donnees issues d’un calcul
Sondage
...
Exemple :
Soit une population d’individus de taille N et les variables
statistiques suivantes associees a chaque individu
Nombre d’enfants
Age
Mention au bac
Couleur des yeux
F. Richard Statistiques descriptives 3
Recolter les donnees
Tableau des donnees brutes
n◦ individu nbre enfants age mention coul. yeux
1 0 21 passable bleu
2 1 17 AB marron
3 1 10 B marron
4 2 18 AB vert
5 1 20 passable bleu
6 2 22 passable marron
7 2 16 AB bleu
8 2 28 AB marron
9 3 25 TB marron
10 2 19 B vert
F. Richard Statistiques descriptives 4
Recolter les donnees
Types de variable statistique
Qualitative
- Nominale : couleur des yeux (marron, bleu ...)
- Ordinale : mention au bac (AB, B, TB)
Quantitative
- Discrete : 1 partie des entiers (nbre d’enfants)
- Continue : 1 partie des reels (temperature)
Nombre d’enfants : variable discrete
Age : variable continue
Mention : variable ordinale
Couleur yeux : variable nominale
F. Richard Statistiques descriptives 5
Organiser les donnees
Definitions
Modalites
Differentes valeurs que peut prendre la variable statistique
Frequence
Popularite des differentes modalites
Frequence absolue (fa) ou Effectif (ni) de la modalite i
L’effectif de la modalite i est le nbre d’individus ayant cette
modalite
Frequence relative (fr )
fr =niN , N : taille de la population
Frequence cumulee (fc)
La frequence cumulee a la modalite i est la somme des
frequences relatives anterieures a fi (fi−1 + fi−2 + ...) + fi
F. Richard Statistiques descriptives 6
Organiser les donnees
Tableau des frequences
Le tableau des frequences ne traite qu’1 variable
statistique a la fois ⇒ analyse ”univariee”
Nombre d’enfants
modalites ni (fa) fr fr (%) fc0 1 0.1 10 0.1
1 3 0.3 30 0.4
2 5 0.5 50 0.9
3 1 0.1 10 1∑
10 1 100
ord
recro
issa
nt
Interpretations : 50% des individus ont 2 enfants,...
F. Richard Statistiques descriptives 7
Organiser les donnees
Age
mod . ni fr fc10 1 0.1 0.1
11 0 0 0
12 0 0 0
13 0 0 0
14 0 0 0
15 0 0 0
16 1 0.1 0.2
17 1 0.1 0.3
18 1 0.1 0.4
19 1 0.1 0.5
20 1 0.1 0.6
Age
mod . ni fr fc21 1 0.1 0.7
22 1 0.1 0.8
23 0 0 0
24 0 0 0
25 1 0.1 0.9
26 0 0 0
27 0 0 0
28 1 0.1 1∑
10 1 100
Interpretation
des donnees ?!
Trop de modalites : difficile a interpreter
⇒ Construction de classes modales
F. Richard Statistiques descriptives 8
Organiser les donnees
Definitions
Etendue des valeurs (E)
E = Xmax − Xmin
Nombre de classes (k) : formule de Sturges
k = 1+10
3log10 N avec 6 ≤ k ≤ 12
Amplitude de classe moyenne (A)
A =E
k
F. Richard Statistiques descriptives 9
Organiser les donnees
Age
classe mod . ni fr fc[10; 14[ 1 0.1 0.1
[14; 18[ 2 0.2 0.3
[18; 22[ 4 0.4 0.7
[22; 26[ 2 0.2 0.9
[26; 30[ 1 0.1 1∑
10 1 100
Interpretations : 70% des individus ont moins de 22 ans,...
Dans quel cas construire des classes ?
⇒ Quand il y a trop de modalites
Dans quels cas peut il y avoir trop de modalites
⇒ Variable statistique continue
⇒ Variable statistique discrete, trop de modalites
F. Richard Statistiques descriptives 10
Organiser les donnees
Mention bac
modalites ni fr fcpassable 3 0.3 0.3
AB 4 0.4 0.7
B 2 0.2 0.9
TB 1 0.1 1∑
10 1 100
Couleur des yeux
modalites ni fr fcBleus 3 0.3 0.3
Marrons 5 0.5 0.8
Verts 2 0.2 1∑
10 1 100
Interpretations :
40% des individus ont eu la mention AB, ...
30% des individus ont les yeux bleus, ...
F. Richard Statistiques descriptives 11
Resumer les donnees : graphiques
”Les variables qualitatives ordinales et quantitatives peuvent
etre resumees par des graphiques”
Diagramme batons
⇒ Variables ordinales
⇒ Variables discretes (sans classes modales)
Histogramme
⇒ Variables discretes (classes modales)
⇒ Variables continues
Objectif : donner une image de la distribution statistique
(distribution des donnees)
F. Richard Statistiques descriptives 12
Resumer les donnees : graphiques
0.1
0.2
0.3
0.4
0.5
0 1 2 3
Nombre d’enfants
Fr
0.1
0.2
0.3
0.4
0.5
p AB B TB
Mention bac
Fr
0.2
0.4
0.6
0.8
1
0 1 2 3
Nombre d’enfants
Fc
0.2
0.4
0.6
0.8
1
p AB B TB
Fc
Mention bac
Diagramme batons
Diagramme des
frequences cumulees
F. Richard Statistiques descriptives 13
Resumer les donnees : graphiques
0.1
0.2
0.3
0.4
0.5
12 16 20 24
Age
Fr
Histogramme
Polygonne des frequences
0.2
0.4
0.6
0.8
1
Fc
28
0.5F(20)=0.5
Ci =ai−1 + ai
2
hi =ni
Ai
Ci : centre de classe
hi : hauteur de classe
Pour des intervalles de classe non constants, on remplace
l’effectif par la hauteur de classe en ordonnee
F. Richard Statistiques descriptives 14
Resumer les donnees : Indicateurs numeriques
Indicateurs de tendance centrale
- Moyennes
- Mode
- Mediane
Indicateurs de position
- Quantiles
Indicateurs de dispersion
- Etendue
- Ecart interquartile
- Ecart absolu moyen
- Ecart type
Indicateurs de forme
- Asymetrie
- Aplatissement
F. Richard Statistiques descriptives 15
Indicateurs de tendance centrale : Les moyennes
Moyenne aritmetique
”La moyenne arithmetique d’une variable statistique
quantitative (X ) est egale a la somme des valeurs prises par
cette variable divisee par le nombre d’observations”
x =1
N
n∑
i=1
xi (moyenne simple), N =n∑
i=1
ni
Si une valeur xi de X est observee plusieurs fois, nous
calculons une moyenne arithmetique ponderee
x =1
N
n∑
i=1
nixi (variable statistique discrete)
F. Richard Statistiques descriptives 16
Indicateurs de tendance centrale : Les moyennes
Moyenne aritmetique
Pour 1 variable continue, on fait l’hypothese que les
valeurs sont reparties uniformement a l’interieur de
chaque classe
x =1
N
n∑
i=1
nici ci : centre de la classe
Remarque :
x = 3
1 2 3 4 5 6 7 8 9 10
x = 4
1 2 3 4 5 6 7 8 9 10
”La moyenne arithmetique est affectee par les valeurs
extremes”
F. Richard Statistiques descriptives 17
Indicateurs de tendance centrale : Les moyennes
Moyenne aritmetique
Proprietes :
La somme algebrique des ecarts d’une variable statistique
a sa moyenne est nulle
n∑
i=1
(xi −x) = 0
n∑
i=1
ni(xi−x) = 0
Lorsque l’on fait subir a la variable statistique un
changement d’origine et d’echelle (transformation lineaire),
sa moyenne subit la meme transformation
y = ax + b ⇒ y = ax + b
F. Richard Statistiques descriptives 18
Indicateurs de tendance centrale : Les moyennes
Moyenne aritmetique
Soit p 1 population de taille n partagee en 2 sous
populations p1 et p2 de tailles respectives n1 et n2. Soit X
1 variable stat. definie sur p, on peut exprimer sa moyenne
x en fonction des moy. x1 sur p1 et x2 sur p2
x =x1 + x2
2x =
1
N
n∑
i=1
nixi
Generalisation de la notion de moyenne :
”Au sens statistique, la moyenne d’une population est la valeur
unique que devrait avoir tous les individus de la population pour
que le total reste inchange”
F. Richard Statistiques descriptives 19
Indicateurs de tendance centrale : Les moyennes
”Total” : ∗ des valeurs ⇒ moy. geometrique
”Total” : + des valeurs ⇒ moy. arithmetique
”Total” : + des 1/valeurs ⇒ moy. harmonique
Moyenne geometrique
G = n
√
Πni=1xi (moyenne simple)
G = n
√
Πni=1x
ni
i(moyenne ponderee)
Exemple :
Supposons que pendant 10 ans, les salaires aient ete ∗ par 2
et que pendant la decenie suivante, ils aient ete multiplies par
4. Par combien les salaires ont ete multiplie en moyenne sur
les 20 ans ?
F. Richard Statistiques descriptives 20
Indicateurs de tendance centrale : Les moyennes
Moyenne geometrique
x =2 + 4
2= 3 G =
2√
2 ∗ 4 = 2.83
Proprietes :
La moyenne geometrique du produit xy est egale au
produit des moyennes geometriques de x et de y
zi = xi .yi ⇒ G(zi) = G(xi)G(yi)
La moyenne geometrique du quotient de x et y est egale
au quotient des moyennes de x et de y
zi =xi
yi⇒ G(zi) =
G(xi)
G(yi)
F. Richard Statistiques descriptives 21
Indicateurs de tendance centrale : Les moyennes
Moyenne harmonique
H =N
∑ni=1
1xi
(moyenne simple)
H =N
∑ni=1
nixi
(moyenne ponderee)
Exemple :
On achete des dollars une 1ere fois pour 1 AC au cours de
1.15 AC le dollars, une 2eme fois pour 1 AC au cours de 1.28 AC le
dollars. Quel est le cours moyen du dollars sur les 2 changes ?
x =1.15 + 1.28
2= 1.215 H =
21
1.15 + 11.28
= 1.211
F. Richard Statistiques descriptives 22
Indicateurs de tendance centrale : Les moyennes
Definition generale de la moyenne
Soit f (x) une fonction croissante ou decroissante de la variable
statistique x , M represente la moyenne et f (M), une fonction de
la moyenne differente selon le type de moyenne consideree
f (M) =1
H(moyenne harmonique)
f (M) = ln G (moyenne geometrique)
f (M) = x (moyenne arithmetique)
f (M) =1
N
∑
ni f (xi)
F. Richard Statistiques descriptives 23
Indicateurs de tendance centrale : Les moyennes
Definition generale de la moyenne
Pour f (x) = 1x
1
H=
1
n
∑ ni
xi⇒ H =
N∑ ni
xi
Pour f (x) = ln x
ln G =1
N
∑
ni ln xi ⇒ G = exp
(
1
N
∑
ni ln xi
)
Pour f (x) = x
x =1
N
∑
nixi
Pour f (x) = x2
Q2 =1
N
∑
nix2i ⇒ Q =
√
1
N
∑
nix2i
F. Richard Statistiques descriptives 24
Indicateurs de tendance centrale : Les moyennes
Definition generale de la moyenne
Proprietes
Les moyennes arithmetiques et quadratiques donnent
beaucoup d’influence aux elements les plus eleves des
series (la moyenne quadratique plus que la moy.
arithmetique)
Les moyennes harmoniques et geometriques tendent a
reduire l’influence des observations les plus grandes et a
augmenter celles des plus petites (la moyenne
geometrique moins que la moy. harmonique)
H < G < x < Q
F. Richard Statistiques descriptives 25
Indicateurs de tendance centrale : Le mode
”Le mode d’une distribution est la valeur de la variable
statistique pour laquelle la frequence est la plus elevee (valeur
la plus representee)”
Mode Distribution Bi modale Classe modale
Pour les variables continues, on defini une classe
modale et le mode est le centre de la classe
F. Richard Statistiques descriptives 26
Indicateurs de tendance centrale : La mediane
”La mediane d’une distribution est la valeur de la variable
statistique telle que le nombre d’observations qui presentent
une valeur inferieure est egale au nombre d’observations qui
presentent une valeur superieure”
C’est la valeur de la variable qui partage les individus en 2
effectifs egaux
La mediane est la valeur pour laquelle la frequence
cumulee est F (Me) = 0.5
Variable discrete : valeur ou intervalle (on peut trouver
une mediane theorique en faissant une interpolation
lineaire)
Variable continue : On cherche la classe mediane puis on
effectue une interpolation lineaire pour trouver la mediane
F. Richard Statistiques descriptives 27
Indicateurs de tendance centrale : La mediane
Exemple :
Age
classe mod . ni fr fc[10; 14[ 1 0.1 0.1
[14; 18[ 2 0.2 0.3
[18; 22[ 4 0.4 0.7
[22; 26[ 2 0.2 0.9
[26; 30[ 1 0.1 1∑
10 1 100
Classe mediane : [18; 22[
0.7
0.3
2218
y
x
y = 0.5
0.7 − y
0.7 − 0.3=
22 − x
22 − 18
Me = 20
Sur des valeurs brutes : 21,17,10,18,20,22,16,28,25,19
10,16,17,18,19,20,21,22,25,28
Classement ordre croissant
Me=19.5
F. Richard Statistiques descriptives 28
Indicateurs de tendance centrale : Exemple
Couleur des yeux
modalites ni fr fcBleus 3 0.3 0.3
Marrons 5 0.5 0.8
Verts 2 0.2 1∑
10 1 100
Variable nominale
Mode = marron
Mediane =? : impossible
x =? : impossible
Mention bac
modalites ni fr fcpassable 3 0.3 0.3
AB 4 0.4 0.7
B 2 0.2 0.9
TB 1 0.1 1∑
10 1 100
Variable ordinale
Mode = AB
Mediane = AB
x =? : impossible
F. Richard Statistiques descriptives 29
Indicateurs de tendance centrale : Exemple
Nombre d’enfants
modalites ni fr fc0 1 0.1 0.1
1 3 0.3 0.4
2 5 0.5 0.9
3 1 0.1 1∑
10 1 100
Variable discrete
Mode = 2
Mediane = 2
x = 1.6
Age
classe mod . ni fr fc[10; 14[ 1 0.1 0.1
[14; 18[ 2 0.2 0.3
[18; 22[ 4 0.4 0.7
[22; 26[ 2 0.2 0.9
[26; 30[ 1 0.1 1∑
10 1 100
Variable continue
Mode = 20
Mediane = 20
x = 20
F. Richard Statistiques descriptives 30
Indicateurs de tendance centrale : Conclusion
SymetrieAsymetrie gauche Asymetrie droite
Moy . < Med . < Mo. Moy . = Med . = Mo. Moy . > Med . > Mo.
Mode, Mediane, Moy. arithmetique sont des indicateurs de
position (indicateurs de tendance centrale)
- variable nominale : mode
- variable ordinale : mode, mediane
- variable discrete, continue : mode, mediane, moyennes
F. Richard Statistiques descriptives 31
Indicateurs de tendance centrale : Conclusion
La moyenne est l’indicateur le plus utilise. Son calcul est
base sur l’ensemble des valeurs xi , de ce fait elle est
influencee par les valeurs extremes contrairement a la
mediane
La mediane est un parametre calcule en fonction de sa
position dans la serie
Le mode est l’indicateur le plus sensible lors du
regroupement des informations (classes). 2
regroupements differents peuvent conduire a plus de
modes distincts
F. Richard Statistiques descriptives 32
Indicateurs de position : Les quantiles
”Le quantile d’ordre α, Qα avec 0 ≤ α ≤ 1 est la modalite de la
variable statistique telle qu’une proportion α des individus ont
une modalite inferieure ou egale a Qα”
Les quantiles sont definis pour toutes les variables sauf les
variables nominales
1 2 3 4 5 6 7 8 9 10
Q0.550 % 50 %
Q0.4
40 % 60 %
Quantiles particuliers :
Quartiles : Q0.25, Q0.5, Q0.75
Deciles : Q0.1, Q0.2, ...
Centiles : Q0.01, Q0.02, ...
F. Richard Statistiques descriptives 33
Indicateurs de position : Les quantiles
La frequence cumulee du quantile Qα est egale a l’ordre α
F (Qα) = α
Pour un intervalle [ai−1; ai [, l’interpolation lineaire donne :
classe mod . fc[ai−2; ai−1[ Fai−1
[ai−1; ai [ Fai
[ai ; ai+1[ Fai+1
Qα = ai +(ai −ai−1).
(
α− Fai
Fai− Fai−1
)
F. Richard Statistiques descriptives 34
Indicateurs de dispersion : L’etendue
E = Xmax − Xmin
1 2 3 4 5 6 7 8 9 10
E
Individu athipique
(outlier)
remarque :
L’etendue ne tient compte que des 2 valeurs extremes quelque
soit le nombre de valeurs de la population
F. Richard Statistiques descriptives 35
Indicateurs de dispersion : L’ecart interquartile
Pour remedier aux inconvenients de l’etendue, il est possible
d’ecarter du calcul de la caracteristique de dispersion les
valeurs extremes d’une serie statistique
EIQ = Q0.75−Q0.25
Les indicateurs de dispersion nous renseignent sur la
dispersion des valeurs autour d’un parametre de position
Concernant l’ecart interquartile, le parametre de position
est la mediane
”L’EIQ est l’intervalle qui contient 50% des individus, en laissant
de cote 25% des individus dont les observations sont les plus
petites et 25% des individus dont les observations sont les plus
grandes”
F. Richard Statistiques descriptives 36
Indicateurs de dispersion : L’ecart interquartile
EID = Q0.9 −Q0.1
L’ecart interdeciles (EID) regroupe 80% des individus
autour de la mediane
remarque :
L’EIQ ne tient compte que de l’ordre des observations et non de
leurs valeurs et des ecarts qui existent entre elles
F. Richard Statistiques descriptives 37
Indicateurs de dispersion : L’ecart absolu moyen
Pour definir un meilleur indicateur de dispersion, on calcule
l’ecart de chacune des observations xi par rapport a une
caracteristique de tendance centrale ′′C′′ (x , Me) :
(xi − C)
On retient comme mesure de la dispersion de la serie, la
moyenne des valeurs absolues des ecarts a la moyenne
(la moyenne des ecarts a la moyenne etant nulle)
|xi − C|
Cette moyenne est donc une grandeur positive qui
constitue une caracteristique de dispersion
F. Richard Statistiques descriptives 38
Indicateurs de dispersion : L’ecart absolu moyen
Ecart absolue moyen a la moyenne :
ex =1
N
∑
|xi−x | ex =1
N
∑
ni |xi − x |
Ecart absolue moyen a la mediane :
ex =1
N
∑
|xi − Me| ex =1
N
∑
ni |xi−Me|
F. Richard Statistiques descriptives 39
Indicateurs de dispersion : L’ecart type
”L’ecart type est la racine carre de la moyenne des ecarts a la
moyenne au carre”
V (x) =1
N
∑
(xi−x)2
”Variance”
σ(x) =
√
1
N
∑
(xi − x)2
”L’ecart type”
V (x) ≥ 0
L’ecart type est la moyenne quadratique des ecarts a la
moyenne arithmetique (σ(x) : ecart quadratique moyen)
F. Richard Statistiques descriptives 40
Indicateurs de dispersion : L’ecart type
Moyenne quadratique :
f (M) =1
N
∑
f (xi) f (M) = Q2 f (x) = x2
Q2 =1
N
∑
x2i
Q =
√
1
N
∑
x2i
On peut faire apparaitre la moyenne quadratique dans la
formule de la variance : theoreme de Konig
V (x) =1
N
∑
nix2i − x2
Demonstration
F. Richard Statistiques descriptives 41
Indicateurs de dispersion : L’ecart type
Exemple : notes d’etudiants
10; 12; 8; 15; 14; 11; 16; 11; 13; 9
x =10 + 12 + 8 + 15 + ...
10= 11.9
σ =
√
1
10
(
(10 − 11.9)2 + (12 − 11.9)2 + ...
)
= 2.47
”En moyenne, les notes des 10 etudiants sont dispersees
autour de la moyenne arithmetique de 2.47 points”
La variance n’a pas d’unite
L’ecart type a la meme unite que celle des observations
F. Richard Statistiques descriptives 42
Indicateurs de dispersion : Coefficient de variation
L’ecart type comme la moyenne s’expriment dans la meme
unite que celle de la variable statistique
On peut avoir a comparer les dispersions de distributions
qui ne sont pas exprimees dans la meme unite ou les
dispersions de distributions dont les moyennes sont
totalement differentes
CV =σx
x
Le coefficient de variation est sans dimension et donc
independant des unites des variables statistiques
Exemple
F. Richard Statistiques descriptives 43
Indicateurs de forme : Introduction
L’objectif est d’avoir des informations sur la forme de la
distribution sans avoir a la tracer
2 types d’indicateurs :
La symetrie (asymetrie) : skewness
L’aplatissement : Kurtosis
Moments centres
Le moment centre d’ordre k est egale a la moyenne
arithmetique des puissances d’ordre k des ecarts (xi − x)
µk =1
N
∑
ni(xi − x)k
Si k = 0 ⇒ µ0 = 1
Si k = 1 ⇒ µ1 = 0
Si k = 2 ⇒ µ2 = σ2 : variance
F. Richard Statistiques descriptives 44
Indicateurs de forme : Asymetrie
4 moyens de definir l’asymetrie d’une distribution
Comparaison indicateurs tendance centrale
Mo = Me = x ⇒ serie ”symetrique”
Mo > Me > x ⇒ serie ”etalee vers la gauche”
Mo < Me < x ⇒ serie ”etalee vers la droite”
Coefficient de Yule
On compare les quartiles entre eux :
s =(Q3 − Me)− (Me − Q1)
(Q3 − Me) + (Me − Q1)s ∈ [−1; 1]
s = 0 ⇒ serie ”symetrique”
s > 0 ⇒ serie ”etalee vers la droite”
s < 0 ⇒ serie ”etalee vers la gauche”
F. Richard Statistiques descriptives 45
Indicateurs de forme : Asymetrie
Coefficient de Pearson
Pearson etablie une statistique basee sur les ecarts entre
moyenne et mode
p =x − Mo
σ
p = 0 ⇒ serie ”symetrique”
p > 0 ⇒ serie ”etalee vers la droite”
p < 0 ⇒ serie ”etalee vers la gauche”
Coefficient de Fisher
Fisher utilise la notion de moment centre
γ1 =µ3
µ3/22
γ1 = 0 ⇒ serie ”symetrique”
γ1 > 0 ⇒ serie ”etalee vers la droite”
γ1 < 0 ⇒ serie ”etalee vers la gauche”µ2 6= 0
F. Richard Statistiques descriptives 46
Indicateurs de forme : Aplatissement
Les coefficients d’aplatissement mesurent l’importance des
”extremites” de la distribution, la reference prise est la
distribution normale
Definition
Une courbe est aplatie (platikurtique) quand une forte
variation de la valeur etudiee ne s’accompagne pas de
forte variation de la frequence (par ref. a la distribution
normale)
Quand la courbe est moins aplatie que la loi normale, elle
est dite leptokurtique
F. Richard Statistiques descriptives 47
Indicateurs de forme : Aplatissement
Coefficient d’aplatissement de Fisher
γ2 =µ4
µ22
−3 µ2 6= 0
γ2 = 0 ⇒ distribution ”normale”
γ2 > 0 ⇒ distribution ”leptokurtique”
γ2 < 0 ⇒ distribution ”platikurtique”
Coefficient d’aplatissement de Pearson
β2 =µ4
µ22
β2 = 3 ⇒ distribution ”normale”
β > 3 ⇒ distribution ”leptokurtique”
β < 3 ⇒ distribution ”platikurtique”
F. Richard Statistiques descriptives 48
Indicateurs de forme
Remarque :
Ces coefficients (asymetrie et aplatissement) sont invariants
par changement d’origine et d’echelle mais sont sensibles aux
fluctuations d’echantillonnages puisqu’ils font intervenir des
moments d’ordres eleves
F. Richard Statistiques descriptives 49
Calcul des indicateurs : Exemple
Age
classe mod . ni fr fc[10; 14[ 1 0.1 0.1
[14; 18[ 2 0.2 0.3
[18; 22[ 4 0.4 0.7
[22; 26[ 2 0.2 0.9
[26; 30[ 1 0.1 1∑
10 1 100
F (Q0.25) = 0.25
y − 0.3
0.3 − 0.1=
x − 14
18 − 14avec y = 0.25 et x = Q0.25
20(y − 0.1) + 14 = x
Q0.25 = 20∗(0.25−0.1)+14 = 17
F. Richard Statistiques descriptives 50
Calcul des indicateurs : Exemple
F (Q0.5) = 0.5 ⇒ Q0.5 = 20
F (Q0.75) = 0.75 ⇒ Q0.75 = 23
EIQ = Q0.75 − Q0.25 = 23 − 17 = 6
ex = 110
(
|12 − 20|+ 2|16 − 20|+ ...)
= 3.2
eMe = 3.2
σ =√
110
(
(−8)2 + 2 ∗ (−4)2 + (0)2 + ...)
= 4.38
s = (23−20)−(20−17)(23−20)+(20−17) = 0
p = 20−204 = 0
µ2 = σ2 = 4.382 = 19.18
µ3 = −512−128+128+51210 = 0
F. Richard Statistiques descriptives 51
Calcul des indicateurs : Exemple
µ4 = 110
(
(−8)4 + 2(−4)4 + ...)
= 921.6
γ1 = 019.183/2 = 0
γ2 = 921.619.182 − 3 = −0.5
β2 = 2.5
Indicateurs Valeurs
Mode 20
Mediane 20
x 20
Q0.25 17
Q0.5 20
Q0.75 23
EIQ 6
ex 3.2
Indicateurs Valeurs
emed 3.2
σ 4.38
s 0
p 0
γ1 0
γ2 -0.5
β2 2.5
F. Richard Statistiques descriptives 52
Distribution statistique a 2 dimensions
F. Richard Statistiques descriptives 53
Tableau de contingence
Hypotheses
X , Y : 2 variables definies sur une population composee
de N individus
(xi , yj) : couples de modalites correspondants
k , l : nbres respectifs de modalites des variables X et Y
”Le tableau de contingence est un tableau a k lignes et l
colonnes qui donne l’effectif de chaque couple de modalites”
⇒ Remplace table des frequences lors d’1 analyse
univariee
La construction du tableau de contingence s’effectue par la
realisation d’un tri croise des donnees
F. Richard Statistiques descriptives 54
Tableau de contingence
Tri croise
Le tri croise consiste a compter les individus de la
population par couple de modalites
Variable a expliquer
C’est la variable dont le comportement nous interesse
Variable explicative
C’est la variable servant a expliquer le comportement de la
variable a expliquer
F. Richard Statistiques descriptives 55
Tableau de contingence
Y
X y1 y2 ... yj ... yl Totaux
lignes
x1 n11 n12 ... n1j ... n1l n1.
x2 n21 ... ... ... ... ... ...
... ... ... ... ... ... ... ...
xi ni1 ... ... nij ... ... ni.
... ... ... ... ... ... ... ...
xk nk1 ... ... ... ... nkl nk .
Totaux n.1 ... ... n.j ... n.l N = n..
colonnes
distribution jointe
distributions marginales
distributions conditionnelles
F. Richard Statistiques descriptives 56
Tableau de contingence
Effectif marginal associe a la modalite xi
ni. =
j=l∑
j=1
nij
Effectif marginal associe a la modalite yi
n.j =i=k∑
i=1
nij
Effectif total
N = n.. =i=k∑
i=1
j=l∑
j=1
nij =i=k∑
i=1
ni. =
j=l∑
j=1
n.j
F. Richard Statistiques descriptives 57
Tableau de contingence
Distribution conditionnelle
”Une distribution conditionnelle est la distribution d’1 variable
statistique X lorsque l’autre variable statistique Y est fixee”
ligne i : distribution de Y sachant que X = xi ou
X ∈ [ai−1; ai ]
ligne j : distribution de X sachant que Y = yj ou
Y ∈ [bj−1; bj ]
Y |X = xi , Y |X ∈ [ai−1; ai ] X |Y = yj , X |Y ∈ [bj−1; bj ]
Frequences du couple (xi , yj)
fij =nij
N
F. Richard Statistiques descriptives 58
Tableau de contingence
Frequences marginales
fi. =ni.
N(frequences marginales associees aux modalites
xi )
f.j =n.j
N
(frequences marginales associees aux modalites
yj )
i=k∑
i=1
j=l∑
j=1
fij =i=k∑
i=1
fi. =
j=l∑
j=1
f.j = 1
Frequences conditionnelles
fi |Y=yj=
nij
n.j(frequence conditionnelle pour Y fixee)
fj |X=xj=
nij
ni.(frequence conditionnelle pour X fixee)
F. Richard Statistiques descriptives 59
Tableau de contingence
On peut aller plus loin dans la presentation des donnees
croisees en etudiant 2 tableaux (tableaux des profils):
⇒ Tableau des frequences horizontales
⇒ Tableau des frequences verticales
On peut lire le tableau de contingence de 2 facons
differentes selon que l’on priviligie l’une ou l’autre des
variables (lecture en lignes ou en colonnes)
⇒ L’objectif est de ramener la somme de chaque
ligne ou chaque colonne a 100%
⇒ On construit donc les 2 tableaux avec les
frequences conditionnelles
F. Richard Statistiques descriptives 60
Tableau de contingence
Tableaux des frequences horizontales et verticales
Frequences verticales
Y
X y1 ... yj ... yl
x1 ... ... ... ... ...
x2 ... ... ... ... ...
... ... ... ... ... ...
xi ... ... fi|Y=yj... ...
... ... ... ... ... ...
xk ... ... ... ... ...
Total 1 1 1 1 1
Frequences horizontales
Y
X y1 ... yj ... yl Total
x1 ... ... ... ... ... 1
x2 ... ... ... ... ... 1
... ... ... ... ... ... 1
xi ... ... fj|X=xi... ... 1
... ... ... ... ... ... 1
xk ... ... ... ... ... 1
Exemple
F. Richard Statistiques descriptives 61
Indicateurs numeriques
Moyennes et variances marginales
x =1
N
i=k∑
i=1
ni.xi =i=k∑
i=1
fi.xi =1
N
i=k∑
i=1
j=l∑
j=1
nijxi
y =1
N
j=l∑
j=1
n.jyj =
j=l∑
j=1
f.jyj =1
N
i=k∑
i=1
j=l∑
j=1
nijyj
V (x) =1
N
i=k∑
i=1
ni.x2i − x2
V (y) =1
N
j=l∑
j=1
n.jy2j − y2
F. Richard Statistiques descriptives 62
Indicateurs numeriques
Moyennes et variances conditionnelles
x |Y=yj=
1
n.j
i=k∑
i=1
nijxi =i=k∑
i=1
fi|Y=yjxi
y |X=xi=
1
ni .
j=l∑
j=1
nijyj =
j=l∑
j=1
fj|X=xiyj
V (x|Y=yj) =
1
n.j
i=k∑
i=1
nijx2i − x|Y=yj
2
V (y|X=xi) =
1
ni.
j=l∑
j=1
nijy2j − y|X=xi
2
Exemple
F. Richard Statistiques descriptives 63
Covariance
”La covariance entre 2 variables X et Y est egale a la
moyenne des produits des ecarts a la moyenne de X et Y ”
La covariance permet de determiner l’existance d’une rela-
tion (variation simultannee ) entre 2 variables quantitatives
Soit X et Y , 2 variables quantitatives definies sur une
meme population composee de N individus. (xi ; yi), les N
couples d’observations correspondant
cov(X ,Y ) =1
N
n∑
i=1
(xi−x)(yi−y) (donnees brutes)
cov(X ,Y ) : covariance du couple (X ;Y )
F. Richard Statistiques descriptives 64
Covariance
Donnees resumees dans un tableau de contingence
cov(X ,Y ) =1
N
k∑
i=1
l∑
j=1
nij(xi − x)(yj − y)
cov(X ,Y ) =1
N
k∑
i=1
l∑
j=1
nijxiyj − x y
F. Richard Statistiques descriptives 65
Covariance
Interpretation
cov(X ,Y ) > 0 : les couples (xi , yj) nous indiquent que X
et Y varient globalement dans le meme sens
cov(X ,Y ) < 0 : les couples (xi , yj) nous indiquent que X
et Y varient globalement dans le sens inverse
Le signe de la covariance peut etre negatif contrairement a
celui de la variance qui est toujours positif
Remarque
La covariance est un indicateur du sens de variation
simultanee de X et de Y
Si X et Y croissent simultanement, les produits
(xi − x)(yi − y) seront positifs, tandis que si Y decroit
lorsque X croit (ou l’inverse), ces memes produits seront
negatifs
F. Richard Statistiques descriptives 66
Covariance
Proprietes
Si 2 variables X et Y sont independantes
⇒ cov(X ,Y ) = 0 , ”La reciproque est fausse !”
cov(aX , bY ) = abcov(X ,Y ) avec a, b constantes
cov(X ,X ) = V (X ), cov(Y ,Y ) = V (Y )
Exemple : notes maths, francais
cov(X ,Y ) =1
N
k∑
i=1
l∑
j=1
nijxiyj − x y
cov(X ,Y ) =1
100
(
10∗4∗5+20∗10∗5+10∗16∗5+...
)
−11∗10.6 = 2.4
cov(X ,Y ) = 2.4 > 0 ⇒ X et Y varient dans le meme sens
F. Richard Statistiques descriptives 67
Independance et liaison fonctionnelle
La liaison entre 2 variables peut etre plus ou moins accentuee
2 cas extremes :
Abscence de liaison ⇒ independance
Liaison totale ou liaison fonctionnelle ⇒ dependance
Independance
”La variable X est independante de la variable Y si les
frequences conditionnelles fi |Y=yjsont egales entres elles pour
i fixe”
fi |Y=yjdepend de i eventuellement mais pas de j
f1|Y=y1= f1|Y=y2
= f1|Y=y3= ...
f2|Y=y1= f2|Y=y2
= f2|Y=y3= ...
F. Richard Statistiques descriptives 68
Independance et liaison fonctionnelle
Independance
L’independance est reciproque
Si X est independant de Y alors Y est independant de X
⇒ Les 2 variables sont ”independantes”
fj |X=xi=
nij
ni.; fi |Y=yj
=nij
n.j(1)
n1j
n1.=
n2j
n2.=
nkj
nk .;
ni1
n.1=
ni2
n.2=
nil
n.l(2)
Ces fractions egales entres elles sont egales a la fraction
obtenue en ajoutant numerateur et denominateur
(2)n1j + n2j + n3j + ...+ nkj
n1. + n2. + n3. + ...+ nk .=
∑ki=1 nij
∑ki=1 ni.
=n.j
N= f.j
F. Richard Statistiques descriptives 69
Independance et liaison fonctionnelle
Independance
(2)ni1 + ni2 + ni3 + ...+ nil
n.1 + n.2 + n.3 + ...+ n.l=
∑lj=1 nij
∑lj=1 n.j
=ni.
N= fi.
fi. =ni.
N=
nij
n.j; f.j =
n.j
N=
nij
ni.
Consequence de l’independance :
ni . ∗ n.j
N= nij
fi |Y=yj= fi. fj |X=xi
= f.j
Les lignes du tableau de contingence sont proportionnelles
entre elles
Les colonnes du tableau sont proportionnelles entre ellesExemple
F. Richard Statistiques descriptives 70
Independance et liaison fonctionnelle
Liaison fonctionnelle
”A la difference de l’independance, la liaison fonctionnelle n’est
pas toujours reciproque”
2 cas possibles :
La variable Y est liee fonctionnellement a X lorsqu’a
chaque modalite de X correspond une modalite unique et
determinee de Y et reciproquement
2 variables X et Y sont reciproquement dependantes
lorsqu’a chaque modalite de X correspond une modalite
unique et determinee de Y et reciproquement
Exemple
F. Richard Statistiques descriptives 71
Independance et liaison fonctionnelle
Remarques
L’independance et la liaison fonctionnelle sont 2 cas
extremes que l’on rencontre rarement en pratique
Le cas le plus courant est de se trouver entre ces 2 cas
⇒ Les 2 variables statistiques X et Y on
une ”liaison relative” (ou partielle)
Des methodes d’analyse statistique permettent d’evaluer
l’intensite de la liaison relative entre 2 variables
statistiques
F. Richard Statistiques descriptives 72
Test d’independance du χ2
”Le test d’independance du χ2 permet de dire si 2 variables
qualitatives sont independantes”
Le test permet de trancher la proposition suivante :
”Il n’y a pas de relation entre les 2 variables” (H0)
H0 : hypothese nulle
Pratiquement
Pour montrer qu’il existe une relation, on cherche a montrer que
l’inexistence de relation a une faible probabilite de se realiser
Principe du test
Comparer la repartition des observations du tableau de
contingence a une distribution ”ideale” qui correspond a 1
situation de liaison nulle entre les 2 variables
F. Richard Statistiques descriptives 73
Test d’independance du χ2
On compare donc 2 tableaux :
Tableau des effectifs observes
Tableau des effectifs theoriques (si absence de liaison)
Le test d’independance du χ2 mesure l’ecart entre ces 2
tableaux
Plus l’ecart est grand :
Plus faible est la chance que le tableau observe soit
semblable au tableau theorique
Plus faible est la chance que l’hypothese nulle se realise
Plus de chance que la liaison soit significative
F. Richard Statistiques descriptives 74
Test d’independance du χ2
Calcul du tableau des effectifs theoriques
Ce calcul s’appuie sur un theoreme d’independance satistique :
Si le produit des marges est egal aux effectifs croises
⇒ Independance
ni. ∗ n.j
N= nij ; posons tij =
ni. ∗ n.j
N
tij : effectif theorique
tij ≥ 5 : sinon l’indicateur n’a pas de sens
Calcul du χ2
χ2calcule =
k∑
i=1
l∑
j=1
(nij − tij)2
tij
F. Richard Statistiques descriptives 75
Test d’independance du χ2
Le χ2calcule est une mesure d’ecart
⇒ Plus sa valeur est grande et moins il est probable
qu’il n’y ait pas de liaison
Regle de decision
Cet indicateur doit etre compare a un ”seuil” note χ2α
(avec α, risque de 1er espece)
Si χ2calcule < χ2
α : on accepte l’hypothese H0
X et Y sont independantes
Si χ2calcule > χ2
α : on refuse l’hypothese H0
Le degre de liberte (DDL) est le 2eme parametre dont depend la
valeur du χ2α tableau
DDL = (k−1)(l−1)k : nbre de lignes
l : nbre de colonnes
F. Richard Statistiques descriptives 76
Test d’independance du χ2
Remarque
Le test d’independance du χ2 permet de conclure a l’existance
eventuelle d’une relation mais ne permet pas de preciser la
nature de celle-ci
Exemple
F. Richard Statistiques descriptives 77
Regression - Methode des moindres carres
Objectif
Trouver 1 fonction mathematique qui represente au mieux
la distribution statistique (quantitative)
Remarque
Modelise la representation ”discrete” d’une distribution
statistique par une fonction mathematique ”continue”
Exempledetails
F. Richard Statistiques descriptives 78
Regression - Methode des moindres carres
Demarche
Contexte
2 distributions statistiques X et Y dependantes
Objectif
Trouver 1 fct math. representant ”au mieux” la dist. jointe
(X ,Y ) (comportement moyen) ⇒ La regression
Y X=xi= f (xi)
f : classe de fonctions simples (affines, log, exp,
polynomiales...)
Trouver la fct f la plus proche de Y X=xi⇒ Ajustement de la fct
La metode d’ajustement la plus utilisee est celle des
”moindres carres”
F. Richard Statistiques descriptives 79
Regression - Methode des moindres carres
Principe
La fonction decrivant le mieux la dist. est celle qui minimise la
somme quadratique des deviations des mesures aux
predictions de f (xi)
J =N∑
i=1
(
yi − f (xi)
)2
F. Richard Statistiques descriptives 80
Regression - Methode des moindres carres
Ajustement lineaire
La fonction f (xi) est une fonction affine du type :
y = ax + b
Remplace f (xi) dans J
J(a, b) =N∑
i=1
(
yi−(axi+b)
)2
details
Minimise la fonction J(a, b) pour trouver les cstes a et b
Un minimum d’1 fct. de plusieurs variables ne peut se produire
qu’en 1 pt., ou les derivees partielles s’annulent
∂J(a, b)
∂a= 0,
∂J(a, b)
∂b= 0
details
F. Richard Statistiques descriptives 81
Regression - Methode des moindres carres
Covariance
Cov(x , y) =1
N
N∑
i=1
(
xi − x
)(
yi − y
)
demonstraion
Ajustement lineaire
y =Cov(x , y)
Var(x)(x − x) + y
demonstraion
F. Richard Statistiques descriptives 82
Regression - Methode des moindres carres
M
d
x
y
x
y
M d
Droite d’ajustement de Y en X :
y =Cov(x , y)
Var(x)(x − x) + y
Droite d’ajustement de X en Y :
x =Cov(x , y)
Var(y)(y − y) + x
y =Var(y)
Cov(x , y)(x − x) + y
F. Richard Statistiques descriptives 83
Regression - Methode des moindres carres
x
y
d’
d La droite d’ajustement de Y
en X est toujours plus proche
de l’horizontale
Coefficient de correlation lineaire ”Pearson”
r2 =a
a′=
Cov(x ,y)Var(x)
Var(y)Cov(x ,y)
=
(
Cov(x , y)
σ(x)σ(y)
)2
r =Cov(x , y)
σ(x)σ(y)
F. Richard Statistiques descriptives 84
Regression - Methode des moindres carres
x
y
d’
d
0 < r < +1
x
y
d’
d
−1 < r < 0
x
y
d = d’
r = −1
x
y
d = d’
r = +1
x
y
d
d’
r = 0
F. Richard Statistiques descriptives 85
Analyse multivariee
Objectifs
Faire une etude sur plusieurs variables simultanement
Analyse en Composantes Principales (ACP)
Nature des variables : Quantitatives
Objectif : Etude des relations existantes entre variables
quantitatives et individus
F. Richard Statistiques descriptives 86
Analyse multivariee
Analyse Factorielle des correspondances (AFC)
Nature des variables : Qualitatives
Objectif : Etude des relations existantes entre 2 variables
qualitatives
Analyse des Correspondances Multiples (ACM)
Nature des variables : Qualitatives
Objectif : Etude des relations existantes entre plusieurs
variables qualitatives
F. Richard Statistiques descriptives 87
Analyse multivariee
Autres methodes ...
Classification Ascendante Hierarchique (CAH)
Analyse Factorielle Discriminante (AFD)
La segmentation
Regression Lineaire Multiple (RLM)
Regression ”Partial Least Square” (PLS)
Regression logistique
Reseau de Neurones
Monte Carlo
Scoring
Plans d’experiences (DOE)
Maıtrise Statistique des Processus (MSP)
Serie chronolgiques
F. Richard Statistiques descriptives 88
Exemple
V (x) =1
N
∑
ni(xi − x)2
=1
N
∑
ni(x2i − 2xix + x2)
=1
N
(
∑
nix2i −∑
2nixix+∑
nix2
)
=1
N
(
∑
nix2i −2x
∑
nixi+x2∑
ni
)
=1
N
(
∑
nix2i −2x
∑
nixi+Nx2
)
=1
N
(
∑
nix2i −2xNx+Nx2
)
F. Richard Statistiques descriptives 89
Exemple
=1
N
(
∑
nix2i −2Nx2+Nx2
)
=1
N
(
∑
nix2i − Nx2
)
V (x) =1
N
∑
nix2i − x2
Remarque :
x =1
N
∑
nixi ⇒∑
nixi = Nx∑
axi = ax1+ax2 = a(x1+x2) ⇒∑
axi = a∑
xi∑
(xi+yi) = (x1+y1)+(x2+y2) ⇒∑
(xi+yi) =∑
xi+∑
yi
Retour
F. Richard Statistiques descriptives 90
Exemple
Distributions de revenus aux US et en France
Fr : x = 1500 e, σ1 = 120 e
US : x = 1200 $, σ1 = 100 $
CVFr =120
1500= 0.080
CVUS =100
1200= 0.083
Retour
F. Richard Statistiques descriptives 91
Exemple
X : reussite en L1, Y : type de bac (ES,S,STT)
Tableau de contingence (effectifs) :
ES S STT∑
ni.
Reussite L1 41 59 54 154
Echec L1 21 36 75 132∑
n.j 62 95 129 286
Tableau de contingence (frequences) :
ES S STT∑
ni.
Reussite L1 0.14 0.21 0.19 0.54
Echec L1 0.07 0.13 0.26 0.46∑
n.j 0.21 0.34 0.45 1
freussite ES =nreussite ES
N=
41
286= 0.14
”14% des etudiants ont un bac ES et ont reussi en L1”
F. Richard Statistiques descriptives 92
Exemple
Tableau des frequences verticales : Retour
ES S STT
Reussite L1 0.66 0.62 0.42
Echec L1 0.34 0.38 0.58∑
1 1 1
freussite|Y=ES =nreussite ES
n.ES
=41
62= 0.66
”66% des etudiants ayant un bac ES ont reussi en L1”
Tableau des frequences horizontales :
ES S STT∑
Reussite L1 0.27 0.38 0.35 1
Echec L1 0.16 0.27 0.57 1
fES|X=reussite =nreussite ES
nreussite.=
41
154= 0.27
”27% des etudiants ayant reussis en L1 ont un bac ES”
F. Richard Statistiques descriptives 93
Exemple
X : note en maths, Y : note en francais
X/Y [0; 8[ [8; 12[ [12; 20[ ni.
[0; 10[ 10 20 10 40
[10; 20[ 10 30 20 60
n.j 20 50 30 100
x =1
100
(
40∗5+60∗15
)
= 11
y = 10.6
σ(x) =
√
1
100
(
40(5 − 11)2 + 60(15 − 11)2
)
= 4.9
σ(y) = 4.2
x |y = 4 =1
20
(
10∗5+10∗15
)
= 10
F. Richard Statistiques descriptives 94
Exemple
x |y = 10 =1
50
(
20∗5+30∗15
)
= 11
x |y = 16 =1
30
(
10∗5+20∗15
)
= 11.7
y |x = 5 =1
40
(
10∗4+20∗10+10∗16
)
= 10
y |x = 15 =1
60
(
10∗4+30∗10+20∗16
)
= 11
σ(x)|y = 4 =
√
1
20
(
10(5 − 10)2 + 10(15 − 10)2
)
= 5
F. Richard Statistiques descriptives 95
Exemple
σ(x)|y = 10 =
√
1
50
(
20 ∗ 52 + 30 ∗ 152
)
= 4.9
σ(x)|y = 16 = 4.7
σ(y)|x = 5 =
√
1
40
(
10 ∗ 42 + 20 ∗ 102 + 10 ∗ 162
)
= 4.2
σ(y)|x = 15 = 4.1
On peut calculer la variance des moyennes conditionnelles
et la moyenne des variances conditionnelles
Retour
F. Richard Statistiques descriptives 96
Exemple
La distribution jointe suivante est celle de 2 variables X et
Y independantes
X/Y Y1 Y2 Y3 Y4 ni. fi.X1 3 5 2 4 14 7/49
X2 6 10 4 8 28 14/49
X3 12 20 8 16 56 28/49
n.j 21 35 14 28 98 1
f.j 21/98 35/98 14/98 28/98 1
f1|Y=y1=
3
21=
1
7, f2|Y=y1
=6
21=
2
7
f1|Y=y2=
5
35=
1
7, f2|Y=y2
=10
35=
2
7
f1|Y=y3=
2
14=
1
7, f2|Y=y3
=4
14=
2
7Retour
F. Richard Statistiques descriptives 97
Exemple
Y1 Y2 Y3
X1 0 10 0
X2 0 15 0
X3 0 0 16
Y est liee fonctionnellement a
X
Dans le tableau, il n’y a qu’une
valeur non nulle par ligne
Y1 Y2 Y3
X1 0 0 0
X2 10 15 0
X3 0 0 16
X est liee fonctionnellement a
Y
Dans le tableau, il n’y a qu’une
valeur non nulle par colonne
Y1 Y2 Y3
X1 10 0 0
X2 0 15 0
X3 0 0 16
X et Y sont reciproquement
dependantes
Il existe une seule valeur non nulle
par ligne et par colonneRetour
F. Richard Statistiques descriptives 98
Exemple
X : guerison du patient
Y : cout du medicament
medicament cher medicament bon marche∑
Guerison 156 44 200
Non guerison 44 6 50∑
200 50 250
Question :
Existe t-il une relation entre le cout du medicament et la
guerison ou non des patients ?
tij =ni. ∗ n.j
N(effectifs theoriques)
F. Richard Statistiques descriptives 99
Exemple
Tableau des effectifs theoriques :
medicament cher medicament bon marche
Guerison 160 40
Non guerison 40 10
t11 =n1. ∗ n.1
N=
200 ∗ 200
250= 160
t12 =n1. ∗ n.2
N=
200 ∗ 50
250= 40
t21 =n2. ∗ n.1
N=
50 ∗ 200
250= 40
t22 =n2. ∗ n.2
N=
50 ∗ 50
250= 10
F. Richard Statistiques descriptives 100
Exemple
χ2calc =
k∑
i=1
l∑
j=1
(nij − tij)2
tij=
(156 − 160)2
160+(44 − 40)2
40+... = 2.5
DDL = 1
χ2cal < χ2
0.10
Les variables X et Y sont independantes avec une probabilite
de 10% de se tromperRetour
F. Richard Statistiques descriptives 101
Modelisation distribution jointe
X
Y
2 4 6 8 10 12
2
4
6
8
10
12
F. Richard Statistiques descriptives 102
Modelisation distribution jointe
X
Y
2 4 6 8 10 12
2
4
6
8
10
12
Retour
F. Richard Statistiques descriptives 103
Regression lineaire
M
d
x
y
Retour
F. Richard Statistiques descriptives 104
Regresion lineaire
J(a, b) =N∑
i=1
(
yi − axi − b
)2
∂J(a, b)
∂a= −2
N∑
i=1
xi
(
yi − axi − b
)
∂J(a, b)
∂b= −2
N∑
i=1
(
yi − axi − b
)
∑Ni=1 xiyi − a
∑Ni=1 x2
i − b∑N
i=1 xi = 0 (1)∑N
i=1 yi − a∑N
i=1 xi − Nb = 0 (2)
F. Richard Statistiques descriptives 105
Regresion lineaire
(2) b =
∑Ni=1 yi − a
∑Ni=1 xi
N
(1)N∑
i=1
xiyi − a
N∑
i=1
x2i +
(
a∑N
i=1 xi −∑N
i=1 yi
N
)
N∑
i=1
xi = 0
(
(∑N
i=1 xi
)2
N−
N∑
i=1
x2i
)
a =
∑Ni=1 xi
∑Ni=1 yi
N−
N∑
i=1
xiyi
a =
∑Ni=1 xi
∑Ni=1 yi − N
∑Ni=1 xiyi
(∑N
i=1 xi
)2 − N∑N
i=1 x2i
F. Richard Statistiques descriptives 106
Regresion lineaire
b =1
N
(
N∑
i=1
yi−(∑N
i=1 xi
∑Ni=1 yi − N
∑Ni=1 xiyi
(∑N
i=1 xi
)2 − N∑N
i=1 x2i
) N∑
i=1
xi
)
b =1
N
(
N∑
i=1
yi−(
(∑N
i=1 xi
)2∑Ni=1 yi − N
∑Ni=1 xi
∑Ni=1 xiyi
(∑N
i=1 xi
)2 − N∑N
i=1 x2i
)
)
b =1
N
(
(∑N
i=1 xi
)2∑Ni=1 yi − N
∑Ni=1 x2
i
∑Ni=1 yi
(∑N
i=1 xi
)2 − N∑N
i=1 x2i
...+N
∑Ni=1 xi
∑Ni=1 xiyi − (
∑Ni=1 xi)
2∑N
i=1 yi
...
)
F. Richard Statistiques descriptives 107
Regresion lineaire
b =
∑Ni=1 xi
∑Ni=1 xiyi −
∑Ni=1 yi
∑Ni=1 x2
i(∑N
i=1 xi
)2 − n∑N
i=1 x2i
Retour
F. Richard Statistiques descriptives 108
Covariance
Cov(x , y) =1
N
N∑
i=1
(
xi−x
)(
yi−y
)
Cov(x , y) =1
N
N∑
i=1
(
xiyi−xiy−yix+x y
)
Cov(x , y) =1
N
(
N∑
i=1
xiyi−y
N∑
i=1
xi−x
N∑
i=1
yi+Nx y
)
Cov(x , y) =1
N
(
N∑
i=1
xiyi−yNx−xNy+Nx y
)
F. Richard Statistiques descriptives 109
Covariance
Cov(x , y) =1
N
(
N∑
i=1
xiyi − Nxy
)
Cov(x , y) =1
N
N∑
i=1
xiyi − x y
Retour
F. Richard Statistiques descriptives 110
Regression lineaire
y =Cov(x , y)
Var(x)(x − x) + y
y =Cov(x , y)
Var(x)x−Cov(x , y)
Var(x)x+y
a b
N2Var(x) = N
N∑
i=1
x2i −(
N∑
i=1
xi)2, N2Cov(x , y) = N
N∑
i=1
xiyi−N∑
i=1
xi
N∑
i=1
yi
a =
∑Ni=1 xi
∑Ni=1 yi − N
∑Ni=1 xiyi
(∑N
i=1 xi)2 − N∑N
i=1 x2i
=−N2Cov(x , y)
−N2Var(x)=
Cov(x , y)
Var(x)
F. Richard Statistiques descriptives 111
Regression lineaire
b =1
N
N∑
i=1
yi−∑N
i=1 xi
∑Ni=1 yi − N
∑Ni=1 xiyi
(
∑Ni=1 xi
)2− N
∑Ni=1 x2
i
1
N
N∑
i=1
xi
b =1
N
(
∑Ni=1 yi(
∑Ni=1 xi)
2 − N∑N
i=1 x2i
∑Ni=1 yi
(
∑Ni=1 xi
)2− N
∑Ni=1 x2
i
+ ...−(∑N
i=1 xi)2∑N
i=1 yi + N∑N
i=1 xi
∑Ni=1 xiyi
...
)
b =
∑Ni=1 xi
∑Ni=1 xiyi −
∑Ni=1 yi
∑Ni=1 x2
i
(∑N
i=1 xi)2 − N∑N
i=1 x2i
Retour
F. Richard Statistiques descriptives 112