28
la statistique descriptive se compose de 3 domaines distincts : l a statistique uni variée : On étudie la répartition d'une population selon une variable ( la taille, le poids ...) la statistique bivariée : On étudie ici la relation qui peut exister entre deux variables (entre la taille et le poids, par exemple...) la statistique multi variée: On ne parlera pas ici de statistique bivariée, mais il s'agit de relations entre plusieurs variables que l'on traite avec des méthodes comme l'analyse factorielle.

la statistique descriptive se compose de 3 domaines distincts :

  • Upload
    rivka

  • View
    16

  • Download
    1

Embed Size (px)

DESCRIPTION

la statistique descriptive se compose de 3 domaines distincts : l a statistique uni variée :  On étudie la répartition d'une population selon une variable ( la taille, le poids ...) - PowerPoint PPT Presentation

Citation preview

Page 1: la statistique descriptive se compose de 3 domaines distincts :

la statistique descriptive se compose de 3 domaines distincts :   la statistique uni variée : On étudie la répartition d'une population selon une variable ( la taille, le poids ...)

la statistique bivariée : On étudie ici la relation qui peut exister entre deux variables (entre la taille et le poids, par exemple...)

la statistique multi variée: On ne parlera pas ici de statistique bivariée, mais il s'agit de relations entre plusieurs variables que l'on traite avec des méthodes comme l'analyse factorielle.

Page 2: la statistique descriptive se compose de 3 domaines distincts :

Les statistiques à deux ou plusieurs variables

• multi varié• Théorisation• Modélisation• Choix d’une méthode

d’ajustement• corrélation• Estimation et test

d’hypothèses

• bi variée• Tableau de contingence• Séries marginales• Séries conditionnelles• Relations entre les

moyennes et les variances

Page 3: la statistique descriptive se compose de 3 domaines distincts :

Description bivariée :

La statistique descriptive à deux dimensions a essentiellement pour but de caractériser les relations qui existent entre deux séries d'observations considérées simultanément.

Ces observations peuvent être de nature qualitative ou quantitative, continue ou discontinue.

Page 4: la statistique descriptive se compose de 3 domaines distincts :

La statistique bivariée : 

Si nous nous intéressons à la relation qu'il pourrait y avoir entre deux variables distinctes, nous aurons recours à la statistique bivariée. Le type d'analyse que nous pouvons faire sur deux variables est de l'ordre corrélationnel, c'est-à-dire que nous nous intéresserons à la relation éventuelle qui peut exister entre deux variables, par exemple le degrés de dépendance etc...

Les calculs se font ici en recherchant des indices de covariation ( ou variation concomitante) entre les deux variables (exemples : La relation entre le poids et la taille sur une population peut être calculer par un indice d'association ou indice corrélatif ).  

Page 5: la statistique descriptive se compose de 3 domaines distincts :

On parlera ici de trois types d'indices principaux applicables selon le type de la variable à laquelle on a affaire : • Le coefficient X² (lire chi carré) et K de Cramer, • les coefficients Rhô de Spearman et Tau de

Kendall, et • le coefficient r de Bravais-Pearson.

Page 6: la statistique descriptive se compose de 3 domaines distincts :

nb de variables Échelles : Nominale ordinale quantitative

1 variable Indices de tendance : Mode Médiane Moyenne

1 variable indice de dispersion Entropie ESI, EMR Variance, Écart type

2 variables indices de dépendance Chi carré, Cramer Rho de Spearman,

Tau de Kendallr de Bravais-Pearson

Tableau des indices de tendances, de dispersions et de dépendances selon les 3 types de variables :  

Page 7: la statistique descriptive se compose de 3 domaines distincts :

Les questions que l'on se posent à propos de la relation entre deux variables statistique sont les suivantes : • Quelle est la forme de la relation ?

• Quelle est l'intensité de la relation ?

• Quelle est le sens de la relation ?

Page 8: la statistique descriptive se compose de 3 domaines distincts :

Exemple :Afin d'étudier la répartition des terres agricoles d'une région, on a noté un certain nombre de renseignements sur chaque exploitation, notamment :

• sa taille (surface, en hectares),• l'âge du chef d'exploitation,• le type de culture pratiquée,• le nombre de personnes employées à temps plein

sur l'exploitation

Page 9: la statistique descriptive se compose de 3 domaines distincts :
Page 10: la statistique descriptive se compose de 3 domaines distincts :

Le résultat est présenté sous la forme du tableau ci-dessous , individus ´ variables

N° Exploitat

ion

Taille (ha)

Age du chef d'exploitation (années)

Culture dominante

Nombre de personnes employées

1 50 50 blé 2

2 50.5 45 vigne 4

3 35 38 orge 3

4 62.1 25 blé 6

5 20 65 vigne 1

6 10 57 vigne 1

... ... ... ... ...

198 56 45 blé 2

Page 11: la statistique descriptive se compose de 3 domaines distincts :

Nous pouvons maintenant décrire chacun des caractères, un par un :

• Taille• Age• Culture• employés

Page 12: la statistique descriptive se compose de 3 domaines distincts :

Mais ceci ne nous permet pas de mettre en évidence les liens existant peut être entre la taille et l'âge : les jeunes exploitants ont-ils des surfaces comparables, inférieures, supérieures à celles de leurs aînés ?

De même, le type de culture pratiqué est-il le même quelle que soit la surface ? Le nombre d'employés est-il fonction du type de culture, etc...

Page 13: la statistique descriptive se compose de 3 domaines distincts :

Les tableaux statistiques :série statistique double :

Nombre de visites de prospection xi

Nombre de commandes yi

152 155 160 155 162 164

26 27 28 28 29 30

Y-a-t-il une liaison entre les deux variables présentées?

Page 14: la statistique descriptive se compose de 3 domaines distincts :

Tableau de contingence :

Considérons N individus décrits simultanément selon deux caractères X et Y.

X possède k modalités : x1, x2, x3, ……., xi, …….xkY possède p modalités: y1, y2, y3,…….., yj,……..yp

Page 15: la statistique descriptive se compose de 3 domaines distincts :

yj xi

Y1 y2 y3…………….yj…………………yq ni.

x1 x2 . . . xi . . .

xp

n11 …………….n32 ……………………….....nij …………………………………………………npq

n 1. n 2.

.

.

. n i. . . .

n p.

n .j n.1 n.2 n.3……….…n.j……………….n.q n ..

Page 16: la statistique descriptive se compose de 3 domaines distincts :

Exemple de tableau de contingence :

On appelle distribution marginale de X la distribution à une dimension des individus de la population qui présente une modalité de X quelque soit la modalité de Y. De façon analogue, on définit celle de Y.

Y sexe FILLES Garçons marginaleX notes Y1 Y2 Total X

11 0 1 112 0 1 113 0 1 114 0 1 115 0 3 316 0 2 217 2 0 218 1 0 119 1 1 220 1 0 1

Total Y 5 10 15

Page 17: la statistique descriptive se compose de 3 domaines distincts :

3. Réduction des données :

Les paramètres utilisés pour caractériser les distributions à deux variables sont de deux types :

- Les paramètres qui concernent une seule variable, ils servent à caractériser les diverses distributions marginales.

- Les paramètres qui servent à décrire les relations qui existent entre les deux séries d'observations considérées simultanément.

Page 18: la statistique descriptive se compose de 3 domaines distincts :

Séries marginales

• Deux types de séries marginales peuvent être dégagés du tableau de contingence

• Série marginale de la variable X (notes)• Série marginale de la variable Y (sexe)

Page 19: la statistique descriptive se compose de 3 domaines distincts :

Séries conditionnelles

• Toute ligne(respectivement toute colonne); du tableau de contingence correspond à une série conditionnelle dont les effectifs présentent tous une certaine valeur de l’autre variable

• Dans l’exemple théorique, le tableau de corrélation se décompose en p séries conditionnelles de la variable x et q conditions sur la variable Y

Page 20: la statistique descriptive se compose de 3 domaines distincts :

Séries conditionnelles

• X/y1• X/Y2

• Y/X1• Y/X2• Y/X3• Y/X4• .• .• Y/X10

Page 21: la statistique descriptive se compose de 3 domaines distincts :

Effectifs et fréquences partielles

• n11 effectif partiel• n11/n.. Fréquence

partielle• n1. effectif marginal X• n1./n.. Fréquence

marginale X• n.1/n.. Fréquence

marginale Y

• fi/j et fj/i fréquences conditionnelles avec

• fi/j= nij/n.j• fj/i= nij/ni.

Page 22: la statistique descriptive se compose de 3 domaines distincts :

Les caractéristiques des lois marginales et conditionnelles

• Les moyennes marginales

• Les variances marginales

• Les moyennes conditionnelles

• Les variances conditionnelles

Page 23: la statistique descriptive se compose de 3 domaines distincts :

a- Moyennes et variances marginales :

i

xiN

x 1

i

yiN

y 1

i

xxiN

xV )²(1)(

i

yyiN

YV )²(1)(

Page 24: la statistique descriptive se compose de 3 domaines distincts :

Exemple :Reprenons la série précédente :

Nombre de visites de prospection xi

Nombre de commandes yi

152 155 160 155 162 164

26 27 28 28 29 30

948 168

1586

948x

286

168y

Page 25: la statistique descriptive se compose de 3 domaines distincts :

Nombre de visites de prospection xi

Nombre de commandes yi

(xi-x)² (yi-y)²

152 155 160 155 162 164

26 27 28 28 29 30

36 9 4 9 16 36

4 1 0 0 1 4

948 168 110 10

i

yyiN

yV 67.16

10)²(1)(

33.186

110)²(1)( i

xxiN

xV

Page 26: la statistique descriptive se compose de 3 domaines distincts :

Pour avoir une idée sur la variation simultanée de X et Y on peut utiliser la covariance :

• On appelle covariance de X et Y le nombre

• il est aussi égal à :

yxxiyin

yx 1),cov(

Page 27: la statistique descriptive se compose de 3 domaines distincts :

Utilité de la covariance :

La covariance est positive si X et Y ont tendance à varier dans le même sens, et

négative si elles ont tendance à varier en sens contraire.

Page 28: la statistique descriptive se compose de 3 domaines distincts :

Exemple :10 étudiants ont passé l'examen partiel et l'examen général et ont obtenu les notes suivantes :

Partiel ( X) Général (Y) X Y 71 83 5893 49 62 3038 80 76 6080 73 77 5621 93 89 8277 85 74 6290 58 48 2784 82 78 6396 64 76 4864 32 51 1632

Total 687 714 50875

Cov (x , y) =(50875 / 10) – (687/10)x(714/10) = 182.32

La covariance est positive, donc il y a une relation croissante entre X et Y. Autrement dit les deux variables varient dans le

même sens.