42
E.P.F.C. Chargé de cours: A.Alexandrowicz 2012-2013

Statistique epfc 2013 ch1_ch2

Embed Size (px)

DESCRIPTION

CH1 et CH2 du cours 1ere Compta

Citation preview

Page 1: Statistique epfc 2013 ch1_ch2

E.P.F.C. Chargé de cours: A.Alexandrowicz

2012-2013

Page 2: Statistique epfc 2013 ch1_ch2

Artemus Ward

Page 3: Statistique epfc 2013 ch1_ch2

Origines et définitions «Status», Etat en latin, apparaît en français en 1771. Initialement concerne les affaires de l’Etat

Historique Dès 3000 av J.C. en Mésopotamie, se poursuit en Chine

et dans l’Empire Romain Au XIXe Siècle 1er Congrès International de la Statistique uniformiser les techniques de compilation des statistiques (Adolphe Quételet)

Page 4: Statistique epfc 2013 ch1_ch2

Terminologie Statistiques ≠ Statistique Statistique descriptive v.s. Statistique inductive Population et recensement Les véhicules automobiles immatriculés en Belgique La population des P.M.E. d'un pays Les salariés d'une entreprise Les habitants d'un quartier

Individu, unité statistique

Page 5: Statistique epfc 2013 ch1_ch2

Critères (caractères): propriétés des individus

Ex1: Etude du personnel d’une entreprise d’après leur ancienneté Ex2: Parc automobile d’une entreprise d’après la marque des voitures

Peut être quantitatif (variable statistique) ou qualitatif (caractère statistique): Ex1: poids, taille, résultats d’examen,… Ex2: couleur de carrosserie d’une voiture, la nationalité,…

Variable statistique discrète ou continue EX1: Nombre d’enfants par famille,… Ex2: poids, taille, temps d’appels téléphoniques,…

Echantillon représentatif et sondage Biais statistique

Page 6: Statistique epfc 2013 ch1_ch2

Prédictions du Literary Digest en 1936 à l’aube des élections américaines

Exemple de biais statistique

Page 7: Statistique epfc 2013 ch1_ch2

Série statistique et série chronologique Tableau d’effectifs et/ou effectifs cumulés. Si variable discrète distribution des

fréquences/tableaux recensés Si variable continue distribution groupés des

fréquences/tableaux à classes

Page 8: Statistique epfc 2013 ch1_ch2

« Le statisticien moyen est marié à 1,75 femmes qui font leur possible pour l’éloigner de la maison 2,25 nuits dans la semaine avec seulement 50% de succès. L’inclinaison de son front est de 2% (dénotant une grande fermeté d’esprit), il possède 5/8 d’un compte en banque et 3.06 enfants qui le rendent à demi-fou; 1.65 de ses enfants sont des garçons. Seuls 0.07% de tous les statisticiens sont éveillés à leur petit déjeuner, au cours duquel ils consomment 1.68 tasses de café-et renversent les 0.32 restantes sur leur palstron…Le samedi soir il engage 1/3 de baby -sitter pour ses 3.06 chérubins, à moins qu’il ne soit affublé des 5/8 d’une belle-mère vivant à domicile et qui montera la garde pour la moitié du prix… »

W.F. Miksch(1950)

Page 9: Statistique epfc 2013 ch1_ch2

Exemple de données: on veut savoir le nombre d’examens oraux à présenter en fin d’année par des élèves de première année comptabilité. Données recueillies: 9, 11, 8, 10, 13, 12, 10, 11, 10

Soit n le nombre de valeurs observées d’une variable numérique discrète dont les valeurs possibles, rangées dans l’ordre croissant, sont x1, x2, x3,…xp n est l’effectif de la population( ou de l’échantillon), ici n=9 l’ensemble des données rassemblées sans se soucier de l’ordre

est un série statistique/tableau brut Une suite ordonnée est l’arrangement des données numériques

dans l’ordre croissant ou décroissant L’étendue est la différence entre la plus grande et la plus petite

valeur, ici l’étendue est de 5

Page 10: Statistique epfc 2013 ch1_ch2

La fréquence absolue d’une valeur xi est le nombre ni d’observations égales à xi. Dès lors:

p ∑ni=n

i=1 La fréquence relative fi d’une valeur xi est le rapport

ni /n. Dès lors: p

∑ fi =1 i=1 La fréquence relative est souvent exprimée en %:

fi %= 100 ni/ n

Page 11: Statistique epfc 2013 ch1_ch2

La fréquence (absolue ou relative) cumulée d’une valeur xi est la somme des fréquences( absolues ou relatives) de cette valeur et des valeurs inférieures.

Soit X une variable numérique discrète. On a donc les valeurs suivantes pour:

Freq.abs. cum. Val de X Freq.rel. cum. Ρ0=0 Si X<x1 Φ0=0 Ρ1=n1 Si x1≤X<x2 Φ1=f1

Ρ2 = n1+n2 Si x2≤X<x3 Φ2=f1+ f2

Ρp= n Φp=1

Page 12: Statistique epfc 2013 ch1_ch2

On constate que: Φi=ρi/n

La distribution des fréquences (absolues ou

relatives, cumulées ou non) d’une variable est un tableau contenant les valeurs possibles des cette variable, rangées par ordre croissant et pour chacune de ces valeurs la fréquence (absolue ou relative, cumulée ou non) correspondante. On parle de tableau recensé.

Page 13: Statistique epfc 2013 ch1_ch2

Exemple A partir des données brutes suivantes, établissez la distribution des fréquences correspondante

7 1 5 12 3 6 4 1 8 10 5 8 2 6 0 5 5 4 7 8 4 7 5 6 5 6 8 5 3 3 2 1 3 3 2 7 4 10 6 4

Page 14: Statistique epfc 2013 ch1_ch2

Valeurs de la variable(xi)

Freq. abs(ni)

Freq. relatives (ni/n)

Freq. relatives (%)

Freq. abs cumulées(ρi)

Freq.rel.cumulées(Φi)

Freq.rel. cum. (%)

0 1 0.025 2.50% 1 0.025 2.50% 1 3 0.075 7.50% 4 0.1 10.00% 2 3 0.075 7.50% 7 0.175 17.50% 3 5 0.125 12.50% 12 0.3 30.00% 4 5 0.125 12.50% 17 0.425 42.50% 5 7 0.175 17.50% 24 0.6 60.00% 6 5 0.125 12.50% 29 0.725 72.50% 7 4 0.1 10.00% 33 0.825 82.50% 8 4 0.1 10.00% 37 0.925 92.50% 9 0 0 0.00% 37 0.925 92.50%

10 2 0.05 5.00% 39 0.975 97.50% 11 0 0 0.00% 39 0.975 97.50% 12 1 0.025 2.50% 40 1 100.00%

Page 15: Statistique epfc 2013 ch1_ch2

Représentations graphiques Diagramme en bâtons Consiste à porter en abscisse les valeurs observées xi Tracer en regard de chacune d’elles et parallèlement à

l’axe des ordonnées un segment vertical, appelé bâton, de longueur égal à sa fréquence (absolue ou relative) non cumulée.

Page 16: Statistique epfc 2013 ch1_ch2

Exemple diagramme en bâtons

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8 9 10 11 12

Fréq

uanc

e Ab

solu

e( n

i)

Valeurs de la variable (xi)

Diagramme en bâton des fréquences absolues (ni)

Frequence Absolue

Page 17: Statistique epfc 2013 ch1_ch2

Polygone des fréquences S’obtient en joignant les extrémités des segments

successifs du diagramme en bâtons Exemple de polygone des fréquences

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8 9 10 11 12

Fréq

uanc

e Ab

solu

e( n

i)

Valeurs de la variable (xi)

Polygône des fréquences absolues (ni)

Frequence Absolue

Page 18: Statistique epfc 2013 ch1_ch2

Diagramme en bâtons et polygone des fréquences

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8 9 10 11 12

Fréq

uanc

e Ab

solu

e( n

i)

Valeurs de la variable (xi)

Diagramme en bâton et polygone des fréquences absolues (ni)

Fréquence Absolue

Fréquence Absolue

Page 19: Statistique epfc 2013 ch1_ch2

Polygone des fréquences relatives cumulées Fonction de distribution de la variable ou fonction de

répartition des fréquences Fonction en escalier, non décroissante, continue à

droite et variant de 0 à 1 Est le graphique de la fonction F(x) définie comme

suit: ∀X∈ ℝ,

0 Si X < x1

F(x)= (n1+ n2+…ni)/n

Si xi ≤ X <xi+1

1 Si x ≥ xp

avec i=1,2,…,p

Page 20: Statistique epfc 2013 ch1_ch2

Exemple de polygone des fréquences relatives cumulées

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1 2 3 4 5 6 7 8 9 10 11 12

Fréq

uenc

e re

lativ

e cu

mul

ée

Valeurs de la variable (xi)

Polygone des fréquences relatives cumulées

Fréquence relative cumulée

Page 21: Statistique epfc 2013 ch1_ch2

Diagramme sectoriel ou camembert Pour l’analyse des données en % Caractère Effectif Freq

rel. Célibataire 9 0.45 Divorcé 2 0.10 Marié 7 0.35 Veuf 2 0.10

45%

10%

35%

10%

Diagramme sectoriel (camembert)

Célibataire

Divorcé

Marié

Veuf

Page 22: Statistique epfc 2013 ch1_ch2

Le regroupement des données en classes ou catégories consiste à partitionner le domaine de la variable en intervalles contigus.

Si le nombre de valeurs observées distinctes devient grand Variables continues Fréquences absolues faibles

On définit:

La fréquence absolue d’une classe Ci est le nombre ni d’observations appartenant à l’intervalle Ci La fréquence relative d’une classe le Ci est le rapport ni/n

noté fi

Page 23: Statistique epfc 2013 ch1_ch2

La fréquence (absolue ou relative) cumulée d’une classe Ci est la somme des fréquences ( absolues ou relatives) de cette classe et des classes précédentes.

La distribution groupée des fréquences d’une variable est un

tableau contenant les classes de cette variable et, pour chacune de ces classes, les fréquences correspondantes( on parle aussi de tableau à classes)

L’étendue ou amplitude d’une classe est la différence entre ses

extrémités appelées borne supérieure et borne inférieure. Le centre ou la valeur centrale d’une classe Ci est le point

correspondant au milieu de cette classe. Il s’obtient en calculant la moyenne arithmétique des bornes de la classe.

Remarque: dans le cadre de ce cours on essaiera de choisir des classes de même amplitude afin de faciliter la comparaison des deux classes

Page 24: Statistique epfc 2013 ch1_ch2

Comment déterminer le nombre de classes? Pas de loi rigoureuse Dépend du problème considéré Pas trop grand, faible nombre d’individus par

classes Pas trop petit, sinon les classes sont trop larges et

risque de perte d’information Généralement entre 5 et 20 classes Quelques formules empiriques: Règle de Sturge: Nombre de classes = 1+ (3,3*log n) Règle de Yule: Nombre de classes = 2,5 ∜ n

Page 25: Statistique epfc 2013 ch1_ch2

Comment déterminer l’amplitude d’une classe? Amplitude des classes = (X max - X min) / Nombre de

classes avec X max et X min, respectivement la plus grande et la plus petite valeur de X dans la série statistique. A partir de Xmin on obtient les limites de classes ou bornes

de classes par addition successive de l’intervalle de classe. Les classes peuvent être désignées par leurs bornes ou par

leur centre si elles ont même amplitude Par convention la borne inférieure de chaque classe

appartient à la classe; la borne supérieure ne lui appartient pas

Page 26: Statistique epfc 2013 ch1_ch2

Exemple 1: A partir des données brutes suivantes, établissons une distribution des fréquences

72 51 56 95 68 66 77 81 83 75

41 79 92 78 85 55 104 76 80 61

65 70 83 92 88 59 75 75 81 69

71 96 101 87 65 74 68 73 78 68

73 86 84 51 85 75 79 90 68 71

75 74 81 64 88 78 77 66 91 75

69 73 82 76 76 71 74 96 72 74

102 74 80 82 86 78 87 61 80 78

48 68 71 66 59 92 77 76 81 70

85 77 68 82 78 75 91 77

Page 27: Statistique epfc 2013 ch1_ch2

Nombre de classes: Régle de Sturge: 1+ (3.3*log 98)=7.57 Règle de Yule: 2.5*∜ 98=7.87

Amplitude des classes: Xmax-Xmin/nombre de classes= 110-40/7= 10

Remarque: nous pouvons arrondir le nombre de classes en fonction des résultats obtenus et afin de faciliter de regroupement de données.

Page 28: Statistique epfc 2013 ch1_ch2

Distribution groupée des fréquences: On regroupe les données en classes d’amplitude 10 Classes Centres Freq

absolue Freq

relative Freq.

abs.cum Freq. rel.

cum. [40-50[ 45 2 2.0% 2 2.0% [50-60[ 55 6 6.1% 8 8.2% [60-70[ 65 16 16.3% 24 24.5% [70-80[ 75 40 40.8% 64 65.3% [80-90[ 85 22 22.4% 86 87.8% [90-100[ 95 9 9.2% 95 96.9% [100-110[ 105 3 3.1% 98 100.0%

Page 29: Statistique epfc 2013 ch1_ch2

Représentations graphiques Histogramme: Consiste à porter en abscisse, de façon équidistante, des points

correspondants aux bornes de chaque classe du tableau groupé.

Construire sur chaque intervalle de classe comme base un rectangle dont la hauteur est la fréquence absolue (ou relative) de cette classe. On dit un rectangle de hauteur proportionnelle à la fréquence de la classe considérée. Dès lors si toutes les classes ont même amplitude on obtient une

suite de rectangles de même base(=histogramme normé). Si on adopte l’amplitude de classes pour unité sur Ox et la

fréquence absolue 1 pour unité sur Oy, l’aire de chaque rectangle aura pour mesure la fréquence absolue ni de la classe Ci.

La mesure de l’aire total sous l’histogramme est donc n pour les fréquences absolues et 1 pour les fréquences relatives.

Page 30: Statistique epfc 2013 ch1_ch2

Exemple 2: A partir des données brutes suivantes qui représentent les cotes obtenues à un examen par 50 étudiants, constatons le changement « d’allure » de l’histogramme en fonction de l’amplitude pour les classes:

0.0 2.1 6.1 7.8 9.5 10.4 12.1 12.8 13.9 14.8

0.0 3.2 6.2 8.2 9.6 10.5 12.4 12.8 14.2 15.5

0.5 4.5 7.2 9.1 9.9 11.1 12.5 12.9 14.6 16.1

1.2 5.3 7.2 9.1 9.9 11.8 12.6 13 14.7 16.8

1.7 5.3 7.4 9.5 10.1 11.9 12.6 13.7 14.7 18.2

Page 31: Statistique epfc 2013 ch1_ch2

Amplitude 1 Amplitude 4

Page 32: Statistique epfc 2013 ch1_ch2

Amplitude 5 Amplitude 10

Page 33: Statistique epfc 2013 ch1_ch2

Exemple Histogramme des classes Exemple 1:

Page 34: Statistique epfc 2013 ch1_ch2

Exemple Polygone des fréquences

Page 35: Statistique epfc 2013 ch1_ch2

Polygone des fréquences (absolues ou relatives) Consiste à joindre par des segments de droite les centres

(ou milieux) des bases supérieures des rectangles successifs des histogrammes.

Remarque: on complète le polygone en le faisant commencer au point Q, abscisse 35(= valeur centrale de la classe [30,40[) et 0 en ordonnée(=fréquence nulle); et finir au point S d’abscisse 115(=valeur centrale de la classe [110,120[ ) et d’ordonnée 0. L’aire comprise entre le polygone et l’axe des abscisses est

égale à l’aire de l’histogramme, pour autant que toutes les classes soient de même amplitude!

Page 36: Statistique epfc 2013 ch1_ch2

Polygone des fréquences relatives(absolues) cumulées consiste à porter en regard des bornes supérieures des

classes des ordonnées égales aux fréquences relatives cumulées de ces classes

Remarque: Nous faisons l’hypothèse que toute la fréquence d’une classe est concentrée en sa borne supérieure

Consiste à joindre les points successifs obtenus par des segments de droite et compléter le graphe, aux extrémités, par des parallèles à l’axe des abscisses. On appelle ce graphe la fonction de distribution de la

variable

Page 37: Statistique epfc 2013 ch1_ch2

Exemple Polygone des fréquences

Page 38: Statistique epfc 2013 ch1_ch2

Histogramme non normé Dans le cas ou les classes ne sont pas de même

amplitude, il faut ajuster la hauteur des rectangles Exemple 3: Voici le tableau des ouvriers d’une entreprise suivant leur âge:

Age Freq.abs.

(ni) [20,25[ 9 [25,30[ 27 [30,35[ 36 [35,40[ 45 [40,45[ 18 [45,50[ 9 [50,55[ 3 [55,60[ 3

Page 39: Statistique epfc 2013 ch1_ch2

Etablissons l’histogramme des fréquences:

Page 40: Statistique epfc 2013 ch1_ch2

Supposons que les deux dernières classes aient été regroupées de la façon suivante: Age

Freq.abs ni

[20,25[ 9 [25,30[ 27 [30,35[ 36 [35,40[ 45 [40,45[ 18 [45,50[ 9 [50,60[ 6

Cet histogramme est faux!

Page 41: Statistique epfc 2013 ch1_ch2

En effet, cet histogramme est faux car il représente une série

statistique qui correspondrait aux fréquences absolues suivantes: On constate que l’amplitude de la classe [50,60[ étant double de

l’amplitude de chacune des autres classes, il faut représenter sur le segment [50,60[, un rectangle de hauteur moitié de la fréquence absolue donnée, autrement dit un rectangle de hauteur 6/2=3.

Dés lors, si une classe est d’amplitude k fois plus grande (ou plus petite) que l’amplitude prise pour l’unité, il faut diviser(ou multiplier) par k la fréquence correspondante à la classe concernée.

Lors de la représentation à l’aide de l’histogramme c’est l’aire des rectangles, et non leur hauteur, qui est proportionnelle à la fréquence (absolue ou relative).

[45,50[ 9 [50,55[ 6 [55,60[ 6

Page 42: Statistique epfc 2013 ch1_ch2

Exercices