35
 1  c  h  a  p  i  t  r  e  1   c  h  a  p  i  t  r  e  1   C  h  a  p  i  t  r  e  1 Introduction à la statistique descriptive Les méthodes de la statistique descriptive (statistique déductive) permettent de mener des études à partir de données exhaustives, c’est-à-dire concernant tous les individus de la population concernée par l’étude. Comme le rappelle André Vessereau (voir bibliogra- phie), l’idée première et toujours fondamentale de la statistique descriptive est celle de dénombrement. Quand les données ne concernent qu’un échantillon de la population, comme dans le cas des sondages, on a recours à la statistique inférentielle (statistiqu e inductive), qui utilise la théorie des probabilités. Globalement, la statistique reste très liée à la science du hasard, puisque les recensements nous fournissent des fréquences d’apparition auxquelles on fait jouer le même rôle qu’à la probabilité. Déjà, les manuscrits de Gottfried Leibniz, rédigés au début des années 1680, se situaient, à partir des travaux de John Graunt, dans la perspective d’une « synthèse entre science de la population et calcul des probabilités ». Ce premier chapitre présente les principales clés de lecture de la statistique. La termino- logie usuelle y est exposée, ainsi que la forme et le contenu des tableaux de données. Deux annexes, proposées en fin de chapitre, sont consacrées à la prise en mai n d’Excel (annexe 1.1), ou de tout autre tableur équivalent, et de deux calculatrices graphiques, Texas Instrument et Casio (annexe 1.2) ou de toute autre calculatrice approchante. L’u ti lisat ion de ces outils f acil itera la compréhension et la résolution de tous les exemples numériques des parties théoriques et des problèmes et exercices qui suivent. © 2010 Pe arson France – Statistique descrip tive, 2e éd. – tienne Bressoud, Jean-Claude Kaha

Serie 5 et 6

Embed Size (px)

Citation preview

e1 Chapitr c

Introduction la statistique descriptiveLes mthodes de la statistique descriptive (statistique dductive) permettent de mener des tudes partir de donnes exhaustives, cest--dire concernant tous les individus de la population concerne par ltude. Comme le rappelle Andr Vessereau (voir bibliographie), lide premire et toujours fondamentale de la statistique descriptive est celle de dnombrement. Quand les donnes ne concernent quun chantillon de la population, comme dans le cas des sondages, on a recours la statistique infrentielle (statistique inductive), qui utilise la thorie des probabilits. Globalement, la statistique reste trs lie la science du hasard, puisque les recensements nous fournissent des frquences dapparition auxquelles on fait jouer le mme rle qu la probabilit. Dj, les manuscrits de Gottfried Leibniz, rdigs au dbut des annes 1680, se situaient, partir des travaux de John Graunt, dans la perspective dune synthse entre science de la population et calcul des probabilits .

Ce premier chapitre prsente les principales cls de lecture de la statistique. La terminologie usuelle y est expose, ainsi que la forme et le contenu des tableaux de donnes. Deux annexes, proposes en fin de chapitre, sont consacres la prise en main dExcel (annexe 1.1), ou de tout autre tableur quivalent, et de deux calculatrices graphiques, Texas Instrument et Casio (annexe 1.2) ou de toute autre calculatrice approchante. Lutilisation de ces outils facilitera la comprhension et la rsolution de tous les exemples numriques des parties thoriques et des problmes et exercices qui suivent.

1

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Statistique descriptive

1. Terminologie TComme toute science, la statistique a son vocabulaire, quil est primordial de dfinir de faon rigoureuse afin dindiquer le groupe sur lequel porte ltude, les caractres ou variables relevs sur chacun des individus et les diffrents types de caractres.

1.1. La populationLe terme de population statistique est antrieur la dmographie et sappliquait lorigine des catgories dhumains. Les populations ntaient en effet pas penses en bloc, leurs membres ntant pas considrs comme gaux. Par exemple, on comptait les hommes en tat de porter des armes, les individus soumis limpt, etc. La dmographie est venue plus tard, avec lide dgalit des individus, qui a men la notion de recensement. En statistique, le terme de population est plus gnral et peut dsigner des humains, mais aussi des objets, des villes, des pays, des entreprises, des logements, etc., lessentiel tant, comme pour la dfinition dun ensemble en mathmatiques, que lon puisse dire clairement de tout lment quil appartient ou nappartient pas la population. Les villes europennes de plus de 100 000 habitants, les voitures immatricules en France, les dpartements franais doutre-mer sont autant dexemples de population.

DfinitionLa population statistique est lensemble des lments sur lesquels porte ltude. Les lments de la population sont appels individus statistiques ou units statistiques. La population constitue lunivers de rfrence de ltude. Si la population comporte N individus, on notera = {1 ; N}, i dsignant pour i variant de 1 N les individus qui la composent. Un chantillon de taille n est un sous-ensemble form de n individus de la population (n N).

La notion dchantillon est fondamentale, car, en rgle gnrale, la population entire nest pas disponible ou observable. Dans ce cas, seul un chantillon est tudi et les rsultats obtenus sont extrapols la population (voir P. Roger, chapitre 5). Par exemple, lorsquun magazine souhaite connatre la personnalit prfre des Franais, il interroge seulement un chantillon de Franais, gnralement 1 000 individus, et non toute la population rsidant en France mtropolitaine, soit plus de 60 millions dindividus.

1.2. Notion de caractre ou variable statistiqueChaque individu dune population peut tre dcrit relativement un ou plusieurs caractres ou variables statistiques.

DfinitionUne variable statistique (on parle aussi de caractre statistique), note X, est une application dfinie sur une population statistique et valeurs dans un ensemble M, appel ensemble des modalits. Les modalits correspondent aux valeurs possibles de la variable statistique. Une variable statistique dfinit une partition sur une population, chaque individu appartenant une et une seule modalit. Si le nombre de modalits est not r, lensemble des modalits de la variable X sera not : M = {x1 ; x2 ; ; xr}.

2

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Exemple 1.1

Une population statistique

Considrons les donnes suivantes concernant le nombre de femmes et dhommes dans la population rsidant en France mtropolitaine en 2006 (en milliers) :Femmes Hommes

31 444

29 722

Source : Insee, recensement de la population, 2007 (champ : France mtropolitaine)

La population tudie est la population rsidant en France mtropolitaine recense en 2006 et la variable tudie est le sexe. Cette variable peut prendre deux valeurs possibles appeles modalits : fminin ou masculin. Ces modalits sont en gnral numrotes : si la variable tudie, ici le sexe, est note X, les deux modalits seront respectivement notes x1 (pour fminin) et x2 (pour masculin).

Une des premires oprations de la statistique consiste recenser le nombre et/ou le pourcentage dindividus qui prsentent une modalit dtermine dune variable. Cest ainsi qu chaque modalit est associ un effectif et/ou une frquence.

DfinitionsLeffectif (aussi appel frquence absolue) de la modalit xi est not ni et dsigne le nombre dindividus de la population prsentant la modalit xi. Leffectif total de la population n est alors : n = n1 + n2 + + nr, soit n =r

ni=1

i

(la somme des ni pour i variant de 1 r, et la lettre grecque

sigma, , dsignant la somme). La frquence (par dfaut frquence relative) de la modalit xi est note fi et est dfinie par : fi = ni / N ; la frquence exprime la proportion dindividus prsentant une modalit donne. Elle peut sexprimer sous la forme dun nombre dcimal (en gnral avec une prcision de quatre chiffres aprs la virgule) ou sous la forme dun pourcentage.

PropritSoit X une variable r modalits : 0 fi 1r

i=1

f i = 1 (ou, en pourcentage :

f = 100 )i i=1

r

Exemple 1.2

Effectifs et frquences

Reprenons lexemple prcdent sur le sexe des individus de la population rsidant en France mtropolitaine. Les effectifs respectifs de ces modalits sont nots n1 = 31 444 et n2 = 29 722, avec n = n1 + n2 = 61 166 milliers, effectif total de la population. Les frquences sont telles que f1 = n1 / n = 31 444 / 61 166 = 0,5141 et f2 = n2 / N = 29 722 / 61 166 = 0,4859, soit 51,41 % de femmes et 48,59 % dhommes.

Lexemple 1.1 a mis en vidence une des deux natures des variables statistiques : la variable qualitative. Le sexe est une variable qualitative, car ses modalits ne sont pas des nombres. Une variable quantitative est une variable dont les modalits sont numriques.3

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

Statistique descriptive

Le poids dun individu, lge, le nombre denfants par mnage, le salaire constituent des exemples de variables quantitatives.

1.3. Les variables qualitativesDfinitionUne variable statistique est dite de nature qualitative si ses modalits ne sont pas mesurables. Les modalits dune variable qualitative sont les diffrentes catgories dune nomenclature. Ces catgories doivent tre exhaustives (chaque individu est affect une modalit) et incompatibles (un individu ne peut tre affect plusieurs modalits) de faon crer une partition.

Le sexe, la profession, ltat matrimonial sont quelques exemples de variables qualitatives. Pour ses enqutes auprs des mnages, lInsee utilise la nomenclature des Professions et catgories socioprofessionnelles (PCS-2003). Les modalits dune variable qualitative peuvent tre classes sur deux types dchelle : nominale ou ordinale. ces deux types dchelle correspondent deux types de variables qualitatives.

Variables qualitatives nominalesLes variables qualitatives nominales ne se mesurent pas. Cependant, leurs modalits peuvent tre codes. Lordre et lorigine de la codification sont arbitraires, cette codification pouvant tre numrique, alphabtique ou alphanumrique. Les individus dune mme catgorie sont rputs quivalents pour la variable tudie.

DfinitionUne variable statistique qualitative est dite dfinie sur une chelle nominale si ses modalits ne sont pas naturellement ordonnes.

Exemple 1.3

Codage dune variable qualitative nominale

Le tableau suivant indique les diffrentes catgories de la variable nominale Professions et catgories socioprofessionnelles (CSP) :Code Catgorie

1 2 3 4 5 6 7 8

Agriculteurs exploitants Artisans, commerants et chefs dentreprise Cadres et professions intellectuelles suprieures Professions intermdiaires Employs Ouvriers Retraits Autres personnes sans activit professionnelle

Source : Insee, PCS-2003 (niveau 1 de la nomenclature)

Dans cet exemple, il ny a pas dordre naturel entre les huit catgories, ou modalits, qui sont de simples tiquettes ; la variable qualitative CSP est dfinie sur une chelle nominale. 4

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Variables qualitatives ordinalesUne chelle ordinale suppose lexistence dune relation dordre total entre les catgories, cest--dire que lon peut oprer un classement de lensemble des catgories, de la plus petite la plus grande (ou, inversement, de la plus grande la plus petite). Contrairement ce qui se passe avec une chelle nominale, les expressions telles que plus grand que , prcde , se place aprs , etc. prennent un sens dans une chelle ordinale. La codification peut tre numrique, alphabtique ou alphanumrique, en association avec un sens de lecture. En cas de codage numrique, les oprations mathmatiques sont dnues de sens et lcart entre les valeurs ne revt aucune signification.

DfinitionUne variable statistique qualitative est dite dfinie sur une chelle ordinale si lensemble de ses modalits peut tre dot dune relation dordre.

1.4. Les variables quantitativesToute variable qui nest pas qualitative ne peut tre que quantitative. Les diffrentes modalits dune variable quantitative constituent lensemble des valeurs numriques que peut prendre la variable.

DfinitionUne variable statistique est dite de nature quantitative si ses modalits sont mesurables. Les modalits dune variable quantitative sont des nombres lis lunit choisie, qui doit toujours tre prcise.

Il existe deux types de variables quantitatives : les variables discrtes et les variables continues. Ces variables ont en commun des modalits clairement ordonnes, pour lesquelles lcart entre les valeurs possde une signification, et sur lesquelles il est possible de raliser des oprations mathmatiques telles que des calculs de moyennes, etc. Nanmoins, elles ont des proprits et des traitements spcifiques qui ncessitent une tude spare.

Variables quantitatives discrtesLorsque les modalits sont des valeurs numriques isoles, comme le nombre denfants par mnage, on parle de variable discrte1.

DfinitionUne variable statistique quantitative est dite discrte si lensemble de ses modalits est un ensemble fini ou dnombrable. Ainsi, lensemble des modalits peut tre donn sous la forme dune liste de nombres, M = {x1 ; x2 ; ; xi ; }, finie ou infinie. Le plus souvent, les modalits appartiennent lensemble N des entiers naturels (N = {0 ; 1 ; 2 ; }). Cependant, une variable discrte peut prendre des valeurs non entires.1. Du latin discretus, qui signie spar ; dans un ensemble discret, on peut sparer les lments.

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

5

Statistique descriptive

Variables quantitatives continuesLorsque la variable, par exemple la taille dun individu, peut prendre toutes les valeurs dun intervalle, ces valeurs peuvent alors tre regroupes en classes, et on parle dans ce cas de variable continue.

DfinitionsUne variable statistique quantitative est dite continue si lensemble de ses modalits nest pas dnombrable. Ainsi, une variable continue peut prendre toutes les valeurs dun intervalle. Pour tudier une variable statistique continue, on dfinit des classes ou intervalles de valeurs possibles. On peut ainsi discrtiser une variable continue (voir section 2.1). Les classes retenues constituent les modalits de la variable. On appelle amplitude de la classe [ai ; bi[ le rel not Ai reprsentant la longueur de lintervalle et dfini par : Ai = bi ai. ai et bi sont respectivement les bornes infrieure et suprieure de la classe ni. Le centre de classe de la classe [ai ; bi[ est le rel not xi reprsentant le milieu de lintervalle et donn par : xi = (ai + bi) / 2 ; cest la moyenne arithmtique des bornes de la classe.

Le centre de classe est appel jouer un grand rle dans les calculs, car le regroupement en classes constitue une perte dinformation importante ; nous prendrons lhypothse de rpartition uniforme lintrieur dune classe, cest--dire de concentration au centre des classes (voir chapitre 2).

Exemple 1.4

Calculs damplitudes et centres de classes

Le tableau suivant indique la structure par ges de la population fminine en France mtropolitaine :ge fi (%)

Moins de 15 ans 15-24 ans 25-34 ans 35-44 ans 45-54 ans 55-64 ans 65-74 ans 75 ans ou +

17,5 12,3 12,7 14,0 13,6 11,1 8,6 9,1

Source : Insee, bilan dmographique, 2006

Les modalits sont des intervalles qui, par convention, sont part pour la dernire classe ferms gauche et ouverts droite. Ainsi, la premire classe se note aussi : [0 ; 15[, la deuxime [15 ; 25[, etc. Les classes ne sont pas de mme amplitude, la premire classe ayant une amplitude de 15 ans et les suivantes de 10 ans. Pour la dernire classe, dont lamplitude nest pas dfinie explicitement, la convention suivante est adopte : en labsence dinformation, il lui est attribu lamplitude de la classe prcdente, [65 ; 75[, donc 10 ans, et elle est donc crite : [75 ; 85[. Le centre de la premire classe est : x1 = (a1 + b1) / 2 = (0 + 15) / 2 = 7,5 ans.

Cette distinction entre variable discrte et variable continue est parfois arbitraire, toute mesure tant discrte du fait de la prcision limite des instruments de mesure ou des arrondis. Cependant, la taille dun individu, par exemple, est une variable continue du6

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

fait que, indpendamment de la mesure, toute valeur de lintervalle [140 ; 150[ peut reprsenter en centimtres la taille dun individu. De mme, il arrive quune variable discrte, comme le nombre dhabitants dun pays, qui peut prendre un grand nombre de valeurs dans un intervalle soit considre comme une variable continue. En conclusion, toute tude de variable statistique devra tre prcde dune identification claire de la population, du caractre tudi et de sa nature, savoir qualitatif ou q quantitatif et, dans le cas quantitatif, discret ou continu.

2. Prsentation des donnes PLes donnes s statistiques sont issues de donnes brutes prsentes sous forme de tableaux statistiques dans lesquels sont indiqus les effectifs et/ou les frquences.

2.1. Distribution des effectifs ou des frquencesLes tableaux statistiques contenant les effectifs et/ou les frquences sont une premire exploitation des donnes brutes.

Des donnes brutes au tableau statistiqueIl est primordial de dfinir la population et de prciser avec rigueur la ou les variables releves sur chacun des individus de la population ou de lchantillon la reprsentant. Ensuite, quand les observations ont t recueillies, le premier travail consiste les prsenter, aussi clairement que possible, sous forme de tableau statistique. Ce tableau rvle la distribution statistique en prsentant les couples de type (x i ; ni), o les x i sont les modalits et les ni leurs effectifs respectifs, i entier variant de 1 r, si r dsigne le nombre de modalits du caractre. Il est galement possible de prsenter la distribution des frquences, cest--dire les couples de type (x i ; f i).

DfinitionsOn appelle donnes brutes ou tableau lmentaire le tableau relevant pour chaque unit statistique la modalit de la variable tudie. Le tri plat est la transformation qui permet de passer du tableau des donnes brutes au tableau de la distribution statistique prsentant les modalits et les effectifs, les modalits tant classes par ordre croissant.

DiscrtisationDans le cas dune variable statistique quantitative continue, il est ncessaire de dfinir des classes pour pouvoir proposer un tri plat.

DfinitionOn appelle discrtisation le dcoupage en classes dune srie statistique quantitative.

Ce dcoupage en classes pose de nombreuses questions : choix des amplitudes, amplitudes constantes ou variables, nombre de classes, etc. Nous ne rentrerons pas ici dans le dtail de ces oprations (voir lexercice 4 de ce chapitre).

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

7

Statistique descriptive

2.2. Variables quantitatives : distribution des effectifs et des frquences cumulsCette section concerne les variables quantitatives pour lesquelles le tableau statistique est ralis, les modalits tant ordonnes dans lordre croissant. Les notions que nous allons dfinir sont lies la notion de fonction de rpartition, fondamentale en probabilit pour les variables alatoires continues et sur laquelle nous reviendrons dans la section 3.3. Reprenons lexemple 1.4 et proposons de rpondre la question suivante : quelle proportion de la population fminine en France mtropolitaine a moins de 35 ans ? Nous pouvons affirmer que 42,5 % de la population fminine en France mtropolitaine a moins de 35 ans, soit 17,5 % + 12,3 % + 12,7 %. Pour obtenir ce rsultat, nous avons cumul les frquences des modalits infrieures ou gales 34 ans.

DfinitionsEffectifs cumuls croissants sur variable discrte : Si X dsigne une variable quantitative discrte, on appelle effectif cumul croissant, not nicc, le nombre dindividus statistiques pour lesquels X est infrieur ou gal xi. i On a : n1cc = n1 et n i cc = n1 + n 2 + + n i =

nk=1

k

.

Si la srie possde r modalits, xr dsignant alors la plus grande valeur de X, on a :

n r cc = n1 + n 2 + . + n r =

nk=1

r

k

= n, o n dsigne leffectif total de la srie.

Frquences cumules croissantes sur variable discrte : Avec les mmes hypothses, on dfinit la frquence cumule croissante, note ficc, reprsentant la proportion dindividus statistiques pour lesquels X est infrieur ou gal xi. On a : f1cc = f1 et f i cc = f1 + f 2 + . + f i =

fk=1

i

k

, ou encore f i cc =

ni cc n

.

Si la srie possde r modalits, xr dsignant alors la plus grande valeur de X, on a :

f r cc = f1 + f 2 + ... + f r =

f1

r

k

= 1 (ou 100 si les frquences sont exprimes en pourcentage).

Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[, et on dfinit, de mme que pour une variable discrte, nicc le nombre dindividus statistiques pour lesquels X est infrieur ou gal bi, et ficc la proportion dindividus statistiques pour lesquels X est infrieur ou gal bi.

Il est galement possible de cumuler les effectifs et les frquences dans le sens dcroissant.

DfinitionsEffectifs cumuls dcroissants sur variable discrte : Si X dsigne une variable quantitative discrte, on appelle effectif cumul dcroissant, not nicd, le nombre dindividus statistiques pour lesquels X est suprieur ou gal xi. (Certains auteurs adoptent une convention diffrente : le nombre dindividus statistiques pour r lesquels X est strictement suprieur xi). On a : n1cd = n ; n i cd = n i + n i+1 + + n r = nk , r dsignant le nombre de modalits, et nrcd = nr. k=i

8

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Frquences cumules dcroissantes sur variable discrte : Avec les mmes hypothses, on dfinit la frquence cumule dcroissante, note ficd, reprsentant la proportion dindividus statistiques pour lesquels X est suprieur ou gal xi. On a : f1cd = 1 ; f i cd = f i + f i+1 + . + f r =

fk=i

r

k

, et frcd = fr, ou encore f i cd =

n i cd n

.

Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[, et on dfinit, de mme que pour une variable discrte, nicd le nombre dindividus statistiques pour lesquels X est suprieur ou gal ai, et ficc la proportion dindividus statistiques pour lesquels X est suprieur ou gal ai.

Exemple 1.5

Calculs deffectifs et frquences cumuls croissants et dcroissantsMoins de 2 ans De 2 3 ans De 4 5 ans

Le tableau suivant recense les enfants de moins de 6 ans en France mtropolitaine :Anne

2006Source : Insee, bilan dmographique, 2006

1 577

1 550

1 511

Les effectifs cumuls croissants (nicc), dcroissants (nicd), et les frquences cumules croissantes (ficc), dcroissantes (ficd), correspondants sont les suivants :ge ni nicc nicd ficc fi ficd

[0 ; 2[ [2 ; 4[ [4 ; 6[ Total

1 577 1 550 1 511 4 638

1 577 3 127 4 638

4 638 3 061 1 511

0,3400 0,3342 0,3258 1

0,3400 0,6742 1

1 0,6600 0,3258

3. Reprsentations graphiques R des sries une variable dLapparition des graphiques statistiques, lie lutilisation des coordonnes, doit essentiellement son origine au philosophe et mathmaticien Ren Descartes (1596-1650). Ces graphiques constituent une synthse visuelle indispensable de linformation contenue dans le tableau statistique. Les graphiques utiliss dpendent de la nature de la variable. Nous utiliserons, pour reprsenter les distributions deffectifs (ou de frquences), les diagrammes circulaires (ou secteurs), les diagrammes en tuyaux dorgue, les diagrammes en btons, les histogrammes et le polygone des effectifs. Pour les distributions cumules, nous utiliserons les polygones des effectifs (ou des frquences) cumuls croissants et dcroissants.

3.1. Graphiques pour variables qualitativesLes variables qualitatives nominales ou ordinales peuvent tre reprsentes au choix laide dun diagramme circulaire ou laide dun diagramme en tuyaux dorgue.9

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

Statistique descriptive

Diagramme circulaireLe diagramme circulaire, galement appel camembert , permet une reprsentation de la distribution dune variable dans un cercle qui reprsente 100 % des modalits (voir figure 1.1).

DfinitionUn diagramme circulaire est un graphique constitu dun cercle divis en secteurs dont les angles au centre sont proportionnels aux effectifs (ou aux frquences). De fait, les aires des secteurs sont proportionnelles aux effectifs. Langle i dune modalit deffectif ni est donn en degrs par : i =

ni n

360 = f i 360 .

Il est galement possible dutiliser un graphique semi-circulaire form dun demi-cercle (180).Figure 1.1 Diagramme circulaire : proportion (en pourcentage) de bacheliers et non-bacheliers dans une gnration en France mtropolitaine et DOM, 2005.Non bachelier 37 % 135

Bac gnral 34 % 121,3

62,3 41,4 Bac professionnel 12 %

Bac technologique 17%

Diagramme en tuyaux dorgue (en barres)Le diagramme en tuyaux dorgue est une reprsentation de la distribution dune variable selon des rectangles horizontaux ou verticaux ayant tous une mme base, de largeur arbitraire (voir figure 1.2).

DfinitionUn diagramme en tuyaux dorgue est un graphique qui chaque modalit dune variable qualitative associe un rectangle de base constante dont la hauteur est proportionnelle leffectif (ou la frquence). De fait, les aires des secteurs sont proportionnelles aux effectifs. Les rectangles sont en gnral disjoints, verticaux ou horizontaux.

10

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Figure 1.2 Diagramme en tuyaux dorgue : proportion (en pourcentage) de bacheliers et non-bacheliers dans une gnration en France mtropolitaine et DOM, 2005.

Frquences en % 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 Bac gnral Bac technologique Bac professionnel Non bacheliers

3.2. Graphiques pour variables quantitativesLa reprsentation graphique dune variable quantitative dpend de sa nature : discrte ou continue.

Variables discrtes : diagramme en btonsLa distribution dune variable quantitative discrte peut tre reprsente par un diagramme en btons (voir figure 1.3).

DfinitionOn appelle diagramme en btons un graphique qui chaque modalit dune variable quantitative discrte associe un segment (bton) dont la hauteur est proportionnelle leffectif (ou la frquence).

Figure 1.3 Diagramme en btons et polygone des effectifs : nombre de personnes par mnage, France, 1999.Milliers

ni 8 000 7 000 6 000 5 000 4 000 3 000 2 000 1 000 0 0 1 2 3 4 5 6 7 8 xi 9 ou +

Variables continues : histogrammeEn 2005, Monaco avait 32 543 habitants et le Japon, 127 417 244 (source : Institut national dtudes dmographiques). Bien sr, les dmographes diront que ces renseignements sont trs largement insuffisants pour comparer la dmographie des deux pays : il faut au 2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

11

Chapitre 1 Introduction la statistique descriptive

minimum sintresser aux superficies de ces deux pays et calculer pour chacun dentre eux la densit de population, cest--dire le nombre dhabitants au kilomtre carr. Avec une superficie de 2,02 km pour Monaco et de 378 000 km pour le Japon, les densits sont respectivement d1 = 32 543 / 2,02 = 16 110,40 h/km pour Monaco et d2 = 127 417 244 / 378 000 = 337 h/km pour le Japon. Autrement dit, alors que la population de Monaco est la moins importante en taille, sa densit de population est plus importante que celle du Japon. Cette notion de densit est essentielle pour les variables continues : il est absurde de comparer ou de reprsenter cte cte des classes qui nont pas la mme amplitude sans faire intervenir la densit. Ce principe est omniprsent lors de la ralisation dun histogramme.

Statistique descriptive

DfinitionsUn histogramme est un diagramme compos de rectangles contigus dont les aires sont proportionnelles aux effectifs (ou aux frquences) et dont les bases sont dtermines par les intervalles de classes. Dans le cas dune variable quantitative continue, on dfinit la densit deffectif di dune classe deffectif ni et damplitude Ai par : di = ni / Ai (ou, dans le cas des frquences, fi / Ai).

Lors de la ralisation dun histogramme, il est indispensable de distinguer deux cas. 1. Si les amplitudes de classes sont gales, la hauteur des rectangles correspondra aux effectifs (ou aux frquences) des classes. 2. Si les amplitudes sont diffrentes, afin de constituer lhistogramme, il est ncessaire de : calculer, pour chaque classe, lamplitude Ai ; calculer la densit di = ni / A i pour un histogramme des effectifs, et di = f i / A i pour un histogramme des frquences ; affecter chaque rectangle une hauteur proportionnelle la densit di de la classe correspondante. Soit min(A i) lamplitude minimale de classe, la hauteur est alors appele effectif corrig et note nic = di min(A i) ; cette convention revient adopter min(Ai) comme unit damplitude de classe. Les classes ayant pour amplitudes min(A i) sont alors reprsentes par des rectangles dont la hauteur est leffectif. De mme, il est possible de retenir comme hauteur la frquence corrige f ic = di min(A i), avec di = f i / A i dans le cas dun histogramme des frquences. Lutilisation de min(A i) est une convention facultative ; un histogramme est correct ds lors que les effectifs (ou les frquences) corrigs sont proportionnels aux densits. Remarques : 1. Dans un histogramme, les aires des rectangles permettent de comparer les effectifs et les hauteurs de comparer les densits. 2. La dfinition de la densit deffectif peut scrire : ni = A i di ; cette formule permet destimer leffectif dun intervalle, sous lhypothse de rpartition uniforme lintrieur des classes (voir exemple 1.6).

12

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Exemple 1.6

Ralisation dun histogramme et dun polygone des effectifs

Le responsable des ressources humaines dune entreprise a relev la distribution statistique suivante correspondant lanciennet du personnel cadre dans lentreprise, exprime en annes :Classes Effectifs

[6,5 ; 8[ [8 ; 9,5[ [9,5 ; 11[ [11 ; 12,5[ [12,5 ; 14[ [14 ; 15,5[ [15,5 ; 17[ Total

3 8 12 19 9 5 4 60

Lhistogramme des effectifs est prsent avec, sur le mme graphique, le polygone des effectifs trac en courbe pleine (voir figure 1.4). Ce polygone permet de reprsenter la distribution sous la forme dune courbe ; quand les amplitudes de classes sont gales, on lobtient en joignant les milieux des bases suprieures de chaque rectangle de lhistogramme par des segments de droite. On adjoint gnralement une classe deffectif nul, de part et dautre de lhistogramme, afin de respecter la rgle de compensation des aires : laire totale du domaine situ entre laxe des x et le polygone est gale la somme des aires des rectangles de lhistogramme. Elle reprsente leffectif total.Figure 1.4 Histogramme et polygone des effectifs, classes de mme amplitude : anciennet du personnel cadre de lentreprise.ni 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 xi

Modifions lgrement cet exemple en regroupant les deux dernires classes en une seule. Ce regroupement permet de traiter le cas de classes damplitudes diffrentes, puisque ainsi la dernire classe est damplitude 3 contre 1,5 pour toutes les autres classes.Classes Effectifs

[6,5 ; 8[ [8 ; 9,5[ [9,5 ; 11[ [11 ; 12,5[ [12,5 ; 14[ [14 ; 17[ Total

3 8 12 19 9 9 60 13

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

Statistique descriptive

Questions : tracez lhistogramme des effectifs et estimez la proportion de cadres ayant une anciennet comprise entre 10 et 13,25 annes. Les classes tant damplitudes ingales, il est ncessaire de calculer les amplitudes (Ai), les densits (di), puis les effectifs corrigs (nic) pour chaque classe. Les rsultats de ces calculs sont prsents la figure 1.5.Figure 1.5 Calcul des effectifs corrigs dans le cas de classes damplitudes ingales.

On peut alors tracer lhistogramme de la figure 1.6 partir des effectifs corrigs, ainsi que le polygone des effectifs, en trait continu. Pour tracer le polygone des effectifs, nous avons effectu un dcoupage artificiel en pseudoclasses damplitude 1,5, dont nous avons pris les milieux des bases suprieures de faon respecter la rgle de compensation des aires : les aires des triangles extrieurs au domaine dlimit par le polygone sont gales celles des triangles qui sont situs sous le polygone. Ainsi, laire totale du domaine situ sous le polygone des effectifs est gale laire totale des rectangles de lhistogramme. Ce qui est fait dans cet exemple partir des effectifs peut galement tre ralis partir des frquences, afin de tracer lhistogramme et le polygone des frquences.Figure 1.6 Histogramme et polygone des effectifs : classes damplitudes ingales.nic 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Classes

Pour estimer leffectif des cadres de lintervalle [10 ; 13,25[, on dcompose celui-ci en trois intervalles : [10 ; 11[, [11 ; 12,5[ et [12,5 ; 13,25[. Il suffit alors de multiplier, pour chacun de ces intervalles, lamplitude par la densit pour obtenir leffectif total recherch (voir figure 1.6bis) :Figure 1.6bis Effectifs estims et densit.

Ce qui donnera pour estimation de la proportion recherche : 31,51 / 60 = 0,5251, soit 52,51 %.14

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Enfin, il serait inconcevable de ne pas voquer une varit dhistogramme, la pyramide, dont lexemple le plus clbre est la pyramide des ges (voir figure 1.7). Cette varit dhistogramme, o les axes ont t modifis (classes en ordonnes et effectifs en abscisses), est largement utilise en dmographie. Les classes sont annuelles. Les aires des rectangles reprsentent le nombre dhommes ou de femmes vivants et ns lanne considre, en lecture sur laxe des abscisses.Figure 1.7 Pyramide des ges.

3.3. Diagrammes cumulatifsLes notions deffectifs et de frquences cumuls nous ont donn loccasion dintroduire la notion de fonction de rpartition, que nous dfinissons ci-aprs avant dvoquer sa reprsentation graphique.

DfinitionSi X est une variable quantitative, on introduit la fonction de rpartition, qui tout nombre rel x associe la proportion des individus de la population pour lesquels X est infrieur ou gal x. Pour tout x rel, 0 F(x) 1 (les valeurs de F peuvent galement tre exprimes en pourcentage).

La premire tape de la construction dune fonction de rpartition consiste donc calculer les frquences cumules croissantes, en distinguant deux cas : le discret et le continu.

Fonction de rpartition dune variable discrteLa fonction de rpartition dune variable quantitative discrte est une fonction en escalier, cest--dire constante par intervalle. De plus, elle est croissante de 0 1 et dfinie par : si x < x1, F(x) = 0 ; si x = x i, F(x) = f icc ; si x i x < x i + 1, F(x) = f icc ; si x x r, F(x) = 1.15

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

Statistique descriptive

Fonction de rpartition dune variable continueA priori, la fonction de rpartition dune variable continue nest connue que pour les extrmits de classes. Cependant, si lon admet lhypothse de rpartition uniforme des observations au sein de chaque classe, on peut estimer les valeurs de F(x) par interpolation linaire. Cela revient approximer la reprsentation graphique par une fonction affine par morceaux : concrtement, on trace la courbe en joignant deux points conscutifs connus par un segment de droite (cette courbe est aussi appele ogive de Galton). Avec cette hypothse, F(x) reprsente laire situe sous lhistogramme des frquences, gauche de la valeur x.

Polygones des frquences cumules croissantes et dcroissantesDans le cas dune variable continue, on dfinit les polygones des frquences (ou des effectifs) cumules croissantes et dcroissantes ; ils seront utiliss notamment pour dterminer la mdiane de la srie (voir chapitre 2). Le polygone des frquences cumules croissantes commence au point de coordonnes (a1 ; 0), car la proportion de valeurs infrieures a1 est nulle. Il est obtenu en joignant les points de coordonnes (bi ; f icc) il correspond la restriction de la fonction de rpartition aux valeurs de x infrieures ou gales la borne suprieure de la dernire classe. Le polygone des frquences cumules dcroissantes sobtient de la mme faon, en adjoignant le point de coordonnes (br ; 0), car, br dsignant la borne suprieure de la dernire classe, la proportion de valeurs suprieures br est nulle.

Exemple 1.7

Ralisation des polygones des frquences cumules croissantes et dcroissantes0-14 ans 15-24 ans 25-59 ans 60 ans et plus

Le tableau suivant donne la structure de la population chinoise suivant lge :

21,4 %Source : ONU, 2005

16,6 %

51,1 %

10,9 %

Les frquences cumules croissantes et dcroissantes sont calcules puis organises pour correspondre aux bornes des classes (voir figure 1.8).Figure 1.8 Plages de donnes des polygones des frquences cumules croissantes et dcroissantes.

partir de ces donnes, il est possible de tracer les polygones des frquences cumules croissantes et dcroissantes (voir figure 1.9).

16

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Figure 1.9 Polygones des frquences cumules croissantes et dcroissantes de lge de la population chinoise.

fi cumules 110 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70

ficc ficd

80

90

xi 100

ConclusionOn retiendra de ce premier chapitre limportance de la terminologie. On devra savoir identifier, dans un exercice, la population, les variables tudies et leur nature : qualitative, quantitative discrte ou quantitative continue. On notera que le discret et le continu, en statistique comme en probabilit, ncessitent des traitements diffrents ; dans le cas continu, on retiendra limportance de la notion de densit. Par ailleurs, on ninsistera jamais assez sur limportance des reprsentations graphiques en statistique ; lissue de ce chapitre, on devra matriser notamment les histogrammes et les polygones des effectifs (ou des frquences) cumuls croissants et dcroissants.

17

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

Problmes et exercicesLes problmes et exercices suivants proposent la mise en application des notions exposes dans la premire partie de ce chapitre. Lexercice 1 traite du passage dune srie brute un tableau statistique. Les exercices 2, 3 et 5 sattachent aux graphiques associs aux diffrentes natures de variables statistiques. Lexercice 4 sintresse la discrtisation des donnes.

Exercice 1 : De la srie brute la prsentation des statistiquesLa liste suivante est compose de prnoms dun groupe dtudiants, suivis entre parenthses du nombre de films que chacun dentre eux a vus au cours du mois dernier : Pierre (3), Paul (2), Jacques (2), Ralph (3), Abdel (1), Sidonie (2), Henri (0), Paulette (1), Farida (2), Laure (2), Kevin (0), Carole (3), Marie-Claire (0), Jeanine (3), Julie (2), Ernest (3), Cindy (3), Vanessa (2), Jos (1), Aurlien (1). 1. Dterminez : a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Construisez le tableau statistique associ la distribution des effectifs. 4. Reprsentez la distribution des effectifs par un diagramme en btons. 5. Calculez les effectifs : a. cumuls croissants ; b. cumuls dcroissants. 6. Calculez les frquences : a. cumules croissantes ; b. cumules dcroissantes.

Solution1 a. La population tudie est le groupe dtudiants. 1. L b. La variable tudie est X = nombre de films que chacun dentre eux a vus au cours du mois dernier . 2. a. La variable tudie est quantitative discrte.

18

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

b. Lensemble M des modalits est M = {0 ; 1 ; 2 ; 3}. 3. Le tableau statistique associ est compos de deux colonnes : La premire colonne comporte les modalits x i de X. La seconde colonne comporte les effectifs ni associs chacune de ces modalits. Le tableau statistique associ X est le suivant.xi ni

0 1 2 3

3 4 7 6

Leffectif total est n = 4.

n , soit n = 20.i i=1 8 7 6 5 4 3 2 1 0 0 1 2 3 xi 4 ni

4

Figure 1.10 Diagramme en btons des effectifs.

Le mme diagramme en btons (voir figure 1.10) peut tre ralis sous Excel. Pour cela, placez le curseur sur une cellule vide. Dans la barre de menus, cliquez sur Insertion/Graphique. Slectionnez le premier histogramme 2D (le plus gauche). Notez que le mot histogramme est employ par Excel comme un terme gnrique dsignant des barres verticales et non un histogramme au sens statistique. Une zone de graphique blanche apparat. Cliquez dessus, puis dans la barre de menus Excel, cliquez sur Cration/Slectionner des donnes. Lassistant graphique apparat. Pour le renseigner correctement, comme cela est indiqu la figure 1.11, suivez ces tapes : Saisissez la colonne des effectifs ni dans le champ Plage de donnes du graphique. Pour cela, slectionnez la plage B23:B27 de la feuille Ex1 laide de la souris. Cliquez sur Modifier dans le champ tiquettes de laxe horizontal (abscisse). Dans la nouvelle bote de dialogue qui souvre, saisissez la colonne des modalits x i dans le champ Plage dtiquettes des axes. Pour cela, slectionnez la plage A24:A27 de la feuille Ex1 laide de la souris. Cliquez sur le bouton OK.19

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Figure 1.11 Slection des donnes reprsenter dans lassistant graphique.

Lassistant graphique se ferme et le graphique apparat (voir figure 1.12). Vous pouvez modifier les options daffichage du graphique en appelant un menu par un clic droit sur la zone de graphique. 5. a. Soit nicc leffectif cumul croissant de la modalit i : n1cc = n1 = 3, soit n1cc = 3 ; n2cc = n1cc + n2 = 3 + 4, soit n2cc = 7 ; n3cc = n2cc + n3 = 7 + 7, soit n3cc = 14 ; n4cc = n3cc + n4 = 14 + 6, soit n4cc = 20. b. Soit nicd leffectif cumul dcroissant de la modalit i : n1cd = n, soit n1cd = 20 ; n2cd = n1cd n1 = 20 3, soit n2cd = 17 ; n3cd = n2cd + n2 = 17 4, soit n3cd = 13 ; n4cd = n3cd + n3 = 13 7, soit n4cd = 6. Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique initial : les effectifs cumuls croissants nicc et les effectifs cumuls dcroissants nicd.xi ni nicc nicd

0 1 2 3Figure 1.12 Diagramme en btons sous Excel.ni 8 7 6 5 4 3 2 1

3 4 7 6

3 7 14 20

20 17 13 6

xi 0 1 2 3

20

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

6. Pour pouvoir calculer les frquences cumules croissantes f icc et dcroissantes f icd, il convient de calculer les frquences f i. Soit f i la frquence de la classe i : f1 =n3 n1 n n4 6 7 , soit f3 = 0,35 ; f 4 = = , soit f4 = 0,30. f3 = = n 20 n 20 = n 3 4 , soit f1 = 0,15 ; f 2 = 2 = , soit f2 = 0,20 ; n 20 20

a. Soit f icc la frquence cumule croissante de la classe i : f1cc = f1 = 0,15, soit f1cc = 0,15 ; n2cc = f1cc + f2 = 0,15 + 0,20, soit f2cc = 0,35 ; f3cc = f2cc + f3 = 0,35 + 0,35, soit f3cc = 0,70 ; f4cc = f3cc + f4 = 0,70 + 0,30, soit f4cc = 1. b. Soit f icd la frquence cumule dcroissante de la classe i : f1cd = 1, soit f1cd = 1 ; f2cd = f1cd f1 = 1 0,15, soit f2cd = 0,85 ; f3cd = f2cd + f2 = 0,85 0,20, soit f3cd = 0,65 ; f4cd = f3cd + f3 = 0,65 0,35, soit f4cd = 0,30. Les rsultats des frquences cumules croissantes et dcroissantes se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique : les frquences cumules croissantes f icc et les frquences cumules dcroissantes f icd.xi ni nicc nicd fi ficc ficd

0 1 2 3

3 4 7 6

3 7 14 20

20 17 13 6

0,15 0,20 0,35 0,30

0,15 0,35 0,70 1,00

1,00 0,85 0,65 0,30

Exercice 2 : Reprsentations graphiques simplesLe tableau suivant indique la rpartition des familles de lle de La Runion selon leur nombre denfants :Nombre denfants Nombre de familles

0 1 2 3 4 ou +Source : Insee, recensement, 1999

31 038 54 812 51 252 26 613 16 162

1. Dterminez : a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Reprsentez la distribution par diagramme circulaire.21

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

4. la suite de la question prcdente : a. Calculez les effectifs cumuls croissants et dcroissants. b. Reprsentez la fonction de rpartition. 5. Combien de familles sont composes de : a. au moins 1 enfant ? b. au plus 2 enfants ?

Solution1 a. La population tudie est compose des familles de La Runion. 1. L b. La variable tudie est X = nombre denfants . 2. a. La variable tudie est quantitative discrte. b. Lensemble des modalits de la variable tudie est M = {0 ; 1 ; 2 ; 3 ; 4 ou +}. 3. Pour raliser un diagramme circulaire, il convient de tracer un cercle et de retenir pour chaque modalit i un secteur dangle au centre : i = 360 f i exprim en degrs.n 31038 = 0,1726 , donc 1 = 360 0,1726, soit Pour la modalit 1, f1 = 1 = n 179877 1 = 62,12. n 54812 = 0,3047 , donc 2 = 360 0,3047, soit Pour la modalit 2, f 2 = 2 = n 179877 2 = 109,7. n 51252 Pour la modalit 3, f 3 = 3 = = 0,2849 , donc 3 = 360 0,2849, soit n 179877 3 = 102,57. n 26613 Pour la modalit 4, f 4 = 4 = = 0,1480 , donc 4 = 360 0,1480, soit n 179877 4 = 53,26. n 16162 = 0,0899 , donc 5 = 360 0,0899, soit Pour la modalit 5, f5 = 5 = n 179877 5 = 32,35. On vrifie que la somme des angles est bien de 360. Ces calculs sont effectus sous Excel, dans le tableau prsent la figure 1.13, colonnes C et D.Figure 1.13 Rsultats sous Excel.

Le diagramme circulaire de la figure 1.14 est ralis partir de ces rsultats.22

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Figure 1.14 Ralisation dun diagramme circulaire : rpartition des familles de La Runion selon leur nombre denfants.

3 = 53,26

4 ou + = 32,35

0 = 62,12

2 = 102,57

1 = 109,70

Pour raliser un diagramme circulaire sous Excel, slectionnez, en mettant en surbrillance, les deux colonnes contenant les modalits ni et les effectifs x i, soit la plage A1:B6 de la figure 1.13. Puis cliquez sur Insertion/Secteurs dans la barre de menus. Slectionnez le premier secteur 2D (le plus gauche). Le graphique saffiche alors immdiatement. En slectionnant la bonne plage de donnes ds le dpart, Excel a automatiquement rempli lassistant graphique adquat, comme la figure 1.15. Vous pouvez retrouver cette bote de dialogue en slectionnant le graphique et en cliquant sur Cration/ Slectionner des donnes.Figure 1.15 Donnes saisies dans lassistant graphique.

Vous pouvez modifier les options daffichage du diagramme en appelant un menu par un clic droit sur la zone de graphique. 4. a. Soit nicc leffectif cumul croissant de la classe i : n1cc = n1 = 31 038, soit n1cc = 31 038 ; n2cc = n1cc + n2 = 31 038 + 54 812, soit n2cc = 85 850 ; n3cc = n2cc + n3 = 85 850 + 51 252, soit n3cc = 137 102 ; n4cc = n3cc + n4 = 137 102 + 26 613, soit n4cc = 163 175 ; n5cc = n4cc + n5 = 163 175 + 16 162, soit n5cc = 179 877. Soit nicd leffectif cumul dcroissant de la classe i : n1cd = n, soit n1cd = 179 877 ; n2cd = n1cd n1 = 179 877 31 038, soit n2cd = 148 839 ; n3cd = n2cd + n2 = 148 839 54 812, soit n3cd = 94 027 ; n4cd = n3cd + n3 = 94 027 51 252, soit n4cd = 42 775 ; n5cd = n4cd + n4 = 42 775 26 613, soit n5cd = 16 162.23

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique prcdent : les effectifs cumuls croissants nicc en colonne E et les effectifs cumuls dcroissants nicd en colonne F (voir figure 1.13). b. La fonction de rpartition est ralise partir des frquences cumules croissantes (f icc), calcules en colonne G du tableau statistique prcdent (voir figure 1.13), sur du papier millimtr (voir figure 1.16).Figure 1.16 Fonction de rpartition du nombre denfants des familles de La Runion.F(x) 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0 -1 0 1 2 3 4 x

5. a Au moins 1 enfant correspond aux familles qui ont 1, 2, 3 ou 4 et + enfants, ou encore toutes les familles sauf celles qui ont 0 enfant, cest--dire toutes les familles sauf celles qui prsentent la modalit x1 de X. Le nombre de ces familles est leffectif cumul dcroissant n2cd = 148 839, soit 179 877 31 038. Ainsi, 148 839 familles sont composes dau moins 1 enfant. b. Au plus 2 enfants correspond aux familles qui ont 0, 1 ou 2 enfants, cest-dire les familles qui prsentent les modalits x1, x 2 ou x3 de X. Le nombre de ces familles est leffectif cumul croissant n3cc = 137 102, soit 31 038 + 54 812 + 51 252. Ainsi, 137 102 familles sont composes dau plus 2 enfants.

24

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Exercice 3 : LhistogrammeLa Scurit routire tudie laccidentologie des passagers des vhicules de tourisme, gs de 18 65 ans. Le tableau suivant indique le nombre de tus par tranches dge en 2005 :ge Effectif

[18 ; 25[ [25 ; 35[ [35 ; 45[ [45 ; 65[Source : ONISR, 2006

790 545 377 606

1. Dterminez : a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Dessinez lhistogramme de la distribution.

Solution1 1. a. L population tudie est compose des passagers des vhicules de tourisme, gs La de 18 65 ans. b. La variable tudie est X = ge des tus . 2. a. La variable tudie est quantitative continue. b. Les modalits de la variable tudie sont les quatre classes suivantes : [18 ; 25[ ; [25 ; 35[ ; [35 ; 45[ ; [45 ; 65[. 3. Nous calculons les amplitudes de classes (A i), soit : A1 = 25 18 = 7 ; A 2 = 35 25 = 10 ; A3 = 45 35 = 10 ; A4 = 65 45 = 20. Puisquelles sont diffrentes, il est ncessaire dutiliser les densits pour raliser lhistogramme. Avec la calculatrice TI 84, conformment la figure 1.17, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (A i) dans la colonne L2. Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER . La colonne L3 fait alors apparatre les densits (voir figure 1.17). Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal, soit 7. Pour calculer les effectifs corrigs (nic) dans la colonne L4, placez le cur25

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

seur sur len-tte de colonne L4. Indiquez L4=L3 7. Puis appuyez sur ENTER . La colonne L4 fait alors apparatre les effectifs corrigs. Avec la calculatrice GRAPH 75, saisissez les effectifs (ni) dans List1 et les amplitudes (A i) dans List2, placez le curseur sur len-tte de List3, appuyez sur OPTN pour accder au menu List, et tapez la squence : F1 F1 1 F1 2, soit List3=List1List2, puis validez avec la touche EXE. Placez le curseur sur len-tte de List4 et tapez la squence : F1 3 7 EXE. List4 fait apparatre les effectifs corrigs (voir figure 1.18).Figure 1.17 Calcul des densits avec la TI 84.

Figure 1.18 Calcul des effectifs corrigs avec la GRAPH 75.

Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir figure 1.19).Figure 1.19 Histogramme des tus par tranches dge.800 700 600 500 400 300 200 100 0 0 10 20 30 40 50 60 xi nic

26

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Exercice 4 : Discrtisation des donnesLAgence de lenvironnement et de la matrise de lnergie (ADEME) vous informe sur les missions de CO2 par habitant dans le monde en 2002 :Pays missions de CO2 (en tCO2 par habitant)

Asie du sud Afrique Amrique Latine Chine Europe centrale CEI Moyen Orient Europe de lOuest Japon ASIE (NPI) Australasie Amrique du NordSource : ADEME, 2002

0,82 1,39 2,79 3,05 5,68 5,97 6,04 8,28 9,14 10,46 12,2 20,02

LADEME souhaite distinguer trois classes de pays, selon leur niveau dmissions de CO2 : ceux qui mettent moins de 6 tonnes par habitant ; ceux qui mettent de 6 moins de 10 tonnes par habitant ; ceux qui mettent de 10 moins de 22 tonnes par habitant. 1. Dterminez : a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Construisez le tableau statistique associ. Pour cela, discrtisez le caractre tudi selon la classification souhaite par lADEME. 4. Dessinez lhistogramme de la distribution.

Solution1 a. L population tudie est compose des rgions du monde numres. 1. La b. La variable tudie est X = missions de CO2 . 2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

27

2. a. La variable tudie est quantitative continue. b. Lensemble des modalits de la variable tudie est M = {5 ; 1,39 ; 2,79 ; 3,05 ; 5,68 ; 5,97 ; 6,04 ; 8,28 ; 9,14 ; 10,46 ; 12,2 ; 20,02}. 3. Le tableau statistique associ est compos de deux colonnes : La premire colonne comporte les classes dmission de CO2. La seconde colonne comporte les effectifs ni affects chacune de ces classes. Le tableau statistique associ X est le suivant.missions de CO2 ni

[0 ; 6[ [6 ; 10[ [10 ; 22[

6 3 3

4. Nous calculons ensuite les amplitudes de classes (Ai), soit : A1 = 6 0 = 6 ; A 2 = 10 6 = 4 ; A3 = 22 10 = 12. Avec la TI 84, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (A i) dans la colonne L2. Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER . La colonne L3 fait alors apparatre les densits. Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal, soit 4. Pour calculer les effectifs corrigs (n ic) dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L3 4. Puis appuyez sur ENTER. La colonne L4 fait alors apparatre les effectifs corrigs (voir figure 1.21). Avec la GRAPH 75, saisissez les effectifs (ni) dans List1 et les amplitudes (A i) dans List2, placez le curseur sur len-tte de List3, appuyez sur OPTN pour accder au menu List, et tapez la squence : F1 F1 1 F1 2, soit List3=List1List2, puis validez avec la touche EXE (voir figure 1.20). Placez le curseur sur len-tte de List4 et tapez la squence : F1 3 4 EXE. List4 fait apparatre les effectifs corrigs.Figure 1.20 Calcul des densits avec la GRAPH 75.

Figure 1.21 Calcul des effectifs corrigs avec la TI 84.

28

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir figure 1.22).Figure 1.22 Histogramme des pays selon leurs missions de CO2.4 nic

2

0 0 2 4 6 8 10 12 14 16 18 20 22

Xi

Exercice 5 : Les polygonesLADEME vous transmet le tableau suivant, qui recense les individus dans le monde selon le niveau de CO2 quils mettent :mission moyenne de CO2 (tonnes CO2 par habitant) Population (millions)

[0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 8[ [8 ; 10[ [10 ; 16[ [16 ; 22[Source : ADEME, 2002

2 205,79 1 809,21 401,26 172,46 590,05 112,48 319,84

1. Sur un mme graphique : a. Dessinez lhistogramme des frquences de la distribution. b. Dessinez le polygone des frquences de la distribution. 2. la suite de la question prcdente : a. Calculez les frquences cumules croissantes et dcroissantes. b. Reprsentez les polygones des frquences cumules croissantes et dcroissantes sur un mme graphique.

29

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Solution1 a. Une simple lecture du tableau permet de voir que les amplitudes de classes ne sont 1. U i pas constantes, ce qui est confirm par leur calcul en colonne C (voir figure 1.23). Les frquences sont calcules en colonne D, puis les densits (di) en colonne E, en effectuant le rapport des frquences sur les amplitudes. Enfin, les frquences corriges (f ic) sont obtenues en colonne F en multipliant ces densits par leffectif minimal.Figure 1.23 Rsultats sous Excel.

partir de ces frquences corriges, il est possible de tracer lhistogramme des frquences sur une feuille de papier millimtr (voir figure 1.24). b. Les classes sont damplitudes ingales. On procde un dcoupage artificiel en prenant lamplitude minimale, soit 2, pour unit damplitude. Le polygone des frquences est alors obtenu en joignant la rgle les milieux des bases suprieures des rectangles du dcoupage prcdent (voir figure 1.24).Figure 1.24 Histogramme et polygone des frquences des pays selon leurs missions de CO2.fic 0,40 0,35 0,30 Polygone 0,25 0,20 0,15 0,10 0,05 0,00 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 Classes

2. a. la suite du tableau Excel prcdent, les frquences cumules croissantes (f icc) sont calcules dans la colonne G et les frquences cumules dcroissantes (f icd) dans la colonne H (voir figure 1.23). Ces calculs sont effectus selon le mme principe que pour les effectifs cumuls croissants et dcroissants, en remplaant les effectifs par les frquences.

30

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

b. La prsentation de ces rsultats est lgrement modifie pour faire apparatre dans un mme tableau les frquences cumules croissantes et dcroissantes de chacune des bornes des classes (voir figure 1.25).Figure 1.25 Donnes pour les polygones de frquences cumules.

Les courbes des frquences cumules croissantes et dcroissantes de la figure 1.26 sont ralises partir de ce dernier tableau.Figure 1.26 Polygones des frquences cumules croissantes et dcroissantes des pays selon leurs missions de CO2.fi cumules 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 0 2 4 6 8 xi 10 12 14 16 18 20 22 ficc ficd

Pour raliser ces courbes des effectifs cumuls sous Excel, slectionnez, en mettant en surbrillance, les deux colonnes contenant les modalits ni et les effectifs x i, soit la plage A34:C42 de la figure 1.25. Puis cliquez sur Insertion/Nuages de points dans la barre de menus. Slectionnez le nuage de points avec courbes droites et marqueurs (en bas gauche). Le graphique saffiche alors immdiatement. En slectionnant la bonne plage de donnes ds le dpart, Excel a automatiquement rempli lassistant graphique adquat, comme la figure 1.27. Vous pouvez retrouver cette bote de dialogue en slectionnant le graphique et en cliquant sur Cration/Slectionner des donnes.Figure 1.27 Donnes saisies dans lassistant graphique.

31

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Statistique descriptive

Annexe 1.1 Prsentation du tableur (Excel 2003, 2007)Quand vous ouvrez Excel, la zone de travail situe au centre sappelle le CLASSEUR. La BARRE DE TITRE de la fentre affiche le nom du classeur par exemple, Classeur1 que vous devez renommer et enregistrer. Un classeur comporte par dfaut trois feuilles, dont le nom figure sur un ONGLET par exemple, Feuil2 . Il est possible de renommer, dinsrer ou de supprimer une feuille en faisant un clic droit sur un des onglets et en choisissant Insrer, Supprimer ou Renommer dans le menu. Lintersection dune ligne et dune colonne sappelle une CELLULE. Une cellule est caractrise par sa RFRENCE, colonne-ligne par exemple, B4 . La BARRE DE MENUS permet daccder aux diffrents menus droulants : Accueil, Insertion, Mise en page, Formules, Donnes, Rvision, Affichage, Dveloppeur, Complments. Sous la barre de menus se trouvent les BARRES DOUTILS, accessibles uniquement avec la souris. Lorsquon pointe sans cliquer sur les diffrents boutons, une info-bulle affiche le nom du bouton et sa fonction. Sous les barres doutils se trouve la BARRE DE FORMULE. Dans sa partie gauche apparat la rfrence de la cellule active et dans la partie droite apparaissent les donnes, lors de leur saisie. Entre les deux, le symbole f x (Insrer une fonction) dsigne lassistant fonction. Il comprend toutes sortes de fonctions, notamment statistiques, et sera extrmement prcieux pour les problmes et exercices. Pour saisir des donnes dans une cellule, placez la souris dessus, cliquez et entrez les chiffres ou les lettres voulus. Passez dune cellule une autre grce la souris ou aux touches , , et du clavier. Pour effectuer une opration mathmatique, cliquez sur une cellule, tapez le signe = pour indiquer quil sagit dune formule de calcul, puis faites lopration en utilisant les signes mathmatiques du clavier : +, , * et /. Par exemple, pour additionner une cellule une autre, cliquez sur la cellule qui doit accueillir le rsultat, tapez =, cliquez sur la premire cellule, tapez + puis cliquez sur la seconde cellule additionner. Validez avec ENTRE pour faire apparatre le rsultat. Llvation la puissance sobtient en appuyant sur la touche accent grave, ^, suivie du nombre de la puissance dsire, ou en utilisant la fonction Puissance de lassistant fonction. Il existe trois types de rfrences de cellules : pour passer dun type lautre, utilisez la touche F4, qui procde par permutation circulaire, comme le montre cet exemple : saisissez =A1 dans la cellule A2, placez le curseur de la souris la suite de A1, contre le 1, et appuyez sur F4. Vous voyez alors apparatre : $A$1 (rfrence absolue). Si vous appuyez de nouveau sur F4, vous voyez apparatre successivement : A$1, $A1 (rfrences mixtes) et enfin A1 (rfrence relative).

32

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Rfrences relatives : par dfaut, sous Excel, les rfrences des cellules sont relatives . Lorsquon recopie une formule dune cellule une autre, elle sadapte automatiquement en fonction du dplacement en ligne ou en colonne. Si la formule =B2 + B3 est saisie en B4 puis recopie en C4, elle devient =C2 + C3. Si la formule =B2 + C2 est saisie en D2 puis recopie en D3, elle devient =B3 + C3. Si la formule =B2 + C2 est saisie en D2 puis recopie en E3, elle devient =C3 + D3. Rfrences absolues : on peut figer la colonne et la ligne dune cellule, en mettant le signe $ devant la lettre de la colonne et devant le nombre de la ligne, afin que la cellule concerne reste identique en cas de recopie dune formule. Cette cellule est alors dfinie par une rfrence absolue dans la formule. Si la formule =B2 + $C$2 est saisie en D2 puis recopie en E3, elle devient =C3 + $C$2. Rfrences mixtes : on peut aussi dcider de ne figer que la colonne ou que la ligne dune cellule, en positionnant le symbole $ uniquement devant la lettre ou le nombre de la cellule. La cellule est alors dfinie par une rfrence mixte. Si la formule =B2 + $C2 est saisie en D2 puis recopie en E3, elle devient =C3 + $C3. Si la formule =B2 + C$2 est saisie en D2 puis recopie en E3, elle devient =C3 + D$2. La notion de fonction : Excel comporte des fonctions intgres, identifies par des noms de fonctions par exemple, SOMME, PRODUIT, MOYENNE, RACINE Les lments sur lesquels porte la fonction sont appels ARGUMENTS, se placent entre parenthses et sont spars par des points-virgules. Pour utiliser une fonction : placez le curseur dans la cellule o vous souhaitez faire apparatre le rsultat. Cliquez sur Insertion/Fonction (ou utilisez directement f x), slectionnez la catgorie de fonction souhaite (dans cet ouvrage, Statistique ou Math & Trigo), puis la fonction dsire. Entrez les arguments en vous laissant guider par la bote de dialogue Excel. Validez en cliquant sur OK. Remarque : pour faire une somme, il est possible de se servir de licne propose par dfaut dans la barre doutils du menu Accueil. Cliquez sur la cellule o vous voulez faire apparatre la somme, cliquez sur licne , puis slectionnez les cellules dont vous souhaitez faire la somme, et validez avec ENTRE. Les fonctions statistiques seront explores lors de la correction des exercices. Dans Excel 2007, la partie haute sappelle le Ruban, et le Bouton Office situ en haut gauche permet daccder aux fonctions de base (enregistrer, imprimer, etc.), mais aussi aux options et complments. Pour accder aux options, cliquez sur le Bouton Office, puis sur Options Excel.

33

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive

Statistique descriptive

Annexe 1.2 Prsentation de deux modles de calculatrice : GRAPH 75 (Casio) et TI 84 (Texas Instrument)La calculatrice GRAPH 75 CasioOn accde au menu STAT par la touche MENU ; les colonnes sont notes List1, List2, etc. Pour diter un tableau : appuyez sur la touche MENU, et avec le pav directionnel, slectionnez STAT, puis validez avec la touche EXE. Saisissez alors les donnes et validez chacune delles par la touche EXE. Pour changer de liste, il suffit de se dplacer avec le pav directionnel. Pour effacer une colonne entire : placez le curseur sur len-tte de la liste (par exemple List1) que vous souhaitez effacer, appuyez sur la touche F6, puis slectionnez DEL-A. Enfin, la question Delete List ? , rpondez Yes en appuyant sur la touche F1. Pour accder au menu LIST, tapez la squence : OPTN F1, puis faites dfiler les fonctions avec la touche F6. Pour effectuer la somme des termes dune colonne, par exemple de List1, et lafficher dans List2, placez le curseur dans la premire cellule de List2, appuyez sur la touche F6 pour voir apparatre la fonction Sum et tapez la squence : F1 OPTN F1 F1 1, soit SUM List1. Validez en appuyant sur la touche EXE, et la somme de List1 saffichera dans List2. Pour calculer les effectifs cumuls croissants dune srie, entrez les effectifs, par exemple dans List1, et placez le curseur sur len-tte de List2, pour voir afficher les effectifs cumuls croissants dans List2. Tapez alors la squence : OPTN F1, puis faites dfiler les fonctions avec la touche F6 pour faire apparatre la fonction Cuml. Tapez alors : F3 OPTN F1 F1 1, soit Cuml List1. Validez en appuyant sur la touche EXE et la List2 affichera les effectifs cumuls croissants.

La calculatrice TI 84 Texas InstrumentNotations : les colonnes sont notes L1, L2, L3, L4, L5, L6. Les cellules sont identifies par leur colonne, suivie de leur ligne entre parenthses par exemple, L1(2) indique la cellule figurant dans la premire colonne, la deuxime ligne. Pour saisir un tableau : appuyez sur la touche STAT. ditez le tableau en appuyant sur la touche 1. Saisissez les donnes (validez chacune par la touche ENTER) en vous dplaant avec le curseur. Pour quitter lditeur de tableau : appelez la fonction QUIT par lappui successif sur les touches 2ND et MODE. Pour effacer une colonne entire : placez le curseur sur len-tte de colonne Li que vous souhaitez effacer. Appuyez sur les touches CLEAR et ENTER. Pour effectuer la somme des termes dune colonne : placez le curseur dans la cellule (1) o vous souhaitez faire apparatre la somme. Appuyez sur les touches 2ND et LIST, puis,34

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

dans le menu MATH, appelez la fonction sum(. Indiquez la colonne Lj dont vous souhaitez faire la somme (par exemple, L1 est obtenu par 2ND et 1) et validez avec ENTER. Pour effectuer la somme cumule dune colonne : placez le curseur sur len-tte de colonne Li dans laquelle vous souhaitez obtenir les effectifs cumuls. Appuyez sur les touches 2ND et LIST, puis, dans le menu OPS, appelez la fonction cumSum(. Indiquez la colonne Lj dont vous souhaitez faire la somme cumule et validez avec ENTER.

BibliographieBoll M., Lexploitation du hasard, Que sais-je ?, PUF, 1947. Calot G., Cours de statistique descriptive, Dunod, Paris, 1969. Chareille P. et Pinault Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. Dodge Y., Premiers pas en statistique, Springer, 2005. Droesbeke J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001. Le Bras H., Naissance de la mortalit. Lorigine politique de la statistique et de la dmographie, Gallimard/Le Seuil, Paris, 2000. Liorzou A., Initiation la pratique statistique, Eyrolles, 1985. Piatier A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962. Roger P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. Rohrbasser J.-M. et Veron J., Leibniz et les raisonnements sur la vie humaine, INED, Paris, 2001. Vessereau A., La statistique, Que sais-je ?, PUF, 1962.

35

2010 Pearson France Statistique descriptive, 2e d. tienne Bressoud, Jean-Claude Kahan

Chapitre 1 Introduction la statistique descriptive