cours030202

Embed Size (px)

Citation preview

  • 8/7/2019 cours030202

    1/188

  • 8/7/2019 cours030202

    2/188

    2

    Statistique Descriptive

    Fabrice MAZEROLLE

    Notes de cours 2008

    Dernire mise jour le mercredi 2 avril 2008

    1re anne de Licence AES Marseille & Aix

  • 8/7/2019 cours030202

    3/188

    3

    Rsum du cours

    Ce cours dintroduction la statistique descriptive de niveau L1 a pour objet dedonner les outils de bases permettant de dcrire une population statistique. Unepremire section est consacre la dfinition des termes habituellement utiliss enstatistique descriptive. Le chapitre 2 introduit loutil de base danalyse des chiffres : letableau. Le chapitre 3 est consacr la prsentation des principales statistiquespermettant de rsumer une masse de chiffres. Le chapitre 4 traite des formules debase utilises dans lanalyse des volutions temporelles impliquant des grandeursquantitatives. Le chapitre 5 couronne les quatre chapitres prcdents en dcrivantune partie de la grande palette des graphiques statistiques. Le chapitre 6 peut treconu comme une premire tape vers la statistique mathmatique, bien que restantrattach au dernier tage de la statistique descriptive : il sagit de lanalysedes tendances et des corrlations. Enfin le chapitre 7 est essentiellement utile ltudiant en conomie : il traite de la courbe de LORENZ et du coefficient de GINI,deux outils complmentaires dont les principales applications sont lanalyse de laplus ou moins grande galit de la rpartition dune masse (de revenu, de richesse,de ressources, tec.) au sein dune population.

    Pour toute question relative ce cours, merci de madresser un mail

    [email protected] .

    mailto:[email protected]:[email protected]
  • 8/7/2019 cours030202

    4/188

    4

    Sommaire

    Chapitre 1 :Vocabulaire de la statistique descriptive

    Chapitre 2 :Les tableaux statistiques

    Chapitre 3 :Statistiques permettant de rsumer une srie

    Chapitre 4 :Indices et progressions

    Chapitre 5 :Diagrammes et graphiques

    Chapitre 6 :Tendances et corrlations

    Chapitre 7 :Courbe de LORENZ et coefficient de GINI

    Bibliographie

  • 8/7/2019 cours030202

    5/188

    5

    Chapitre 1Vocabulaire de la statistique descriptive

    1 -Utilit de la statistique descriptive en conomieA -DfinitionB -Exemples d'utilisation

    2 -TerminologieA Population et units statistiquesB Echantillons et sous-ensembles dune populationC -Critres de classification

    1)Critres quantitatifs2)Critres qualitatifs

    3 -Modes de regroupement des donnes

    A -Srie simpleB - Distribution par valeurs ou par modalits

    1)Distribution par valeurs2)Distribution par modalits

    C -Regroupement par catgories1)Catgories de valeurs2)Catgories de modalits

    1 - Utilit de la statistique descriptive en conomie

    A Dfinition

    On divise gnralement l'tude de la statistique gnrale en deux parties :

    La statistique descriptive, qui est un ensemble de mthodes permettant de dcrireles units statistiques (voir la section 2 pour une dfinition plus prcise du terme"units statistiques") qui composent une population (voir la section 2 pour unedfinition plus prcise du terme "population").

    La statistique mathmatique dont l'objet est de formuler des lois partir del'observation d'chantillons, c'est--dire de sous-ensemble d'une population

    statistique (voir la section 2 pour une dfinition plus prcise du terme "population").La statistique mathmatique intervient dans les enqutes et les sondages. Elles'appuie sur la statistique descriptive, mais aussi sur le calcul des probabilits.

  • 8/7/2019 cours030202

    6/188

    6

    Enfin, lconomtrie est lapplication de la statistique (descriptive et mathmatique) la mesure et ltude chiffre des grandeurs conomiques.

    B - Exemples d'utilisation

    Soit le tableau ci-aprs qui donnent quelques statistiques macroconomiques despays de lUE 27 ainsi que de certains de leurs partenaires commerciaux. Leschiffres contenus dans ce tableau permettent de rpondre de multiples questions.

    Certaines des rponses sont immdiates, dautres ncessitent de faire certainscalculs ou bien de reprsenter les chiffres sous formes visuelles (graphique parexemple).

    Supposons que lon souhaite savoir quel est le pays de lUE 27 qui a lasuperficie la plus leve ? La rponse est immdiate. Il suffit de regarder le tableauet de voir quil sagit de la France avec une superficie gale 643 427 km2 (sachant

    que la France mtropolitaine ne compte que 547 030 km2, mais mme dans ce cas,elle reste le plus grand pays de lUE).

    Bien quil suffise de regarder le tableau pour rpondre cette question, lesprit estimmdiatement attir par la possibilit faire des comparaisons plus prcises. Denombreuses autres questions peuvent alors tre poses, mais qui vont ncessitersoit des calculs supplmentaires, soit un ragencement des donnes, soit unecombinaisons de ces donnes avec dautres donnes du tableau, etc.

    Ainsi, on peut par exemple classer les pays du tableau (ou seulement ceux de lUE 27 par ordre de superficie croissante ou dcroissante, ce qui permet alors dun seulcoup dil de se reprsenter lordre de grandeur des surfaces.

    On peut galement calculer la surface totale des pays de lUE 27 et ensuitediviser la surface de chaque pays par ce total et multiplier par cent. On obtient alorsle pourcentage de la surface de chaque pays dans la surface de lUE.

    On peut aussi comparer la surface de lUE 27 avec la surface des Etats-Unis ou dela Chine, etc.

    On peut encore, de faon trs habituelle, comparer la superficie de chaque pays

    avec sa population. Par exemple, si on divise la population franaise totale en 2007(mtropolitaine et non mtropolitaine) par la superficie totale de la France(mtropolitaine et non mtropolitaine), on obtient la densit de population ou nombredhabitants par km2, soit :

    On devra calculer ce chiffre pour tous les pays du tableau, ou seulement pour ceuxde lUE 27 et faire une la moyenne des rsultats obtenus. Ce qui permettra alors

    de savoir quel est lcart de chaque pays par rapport cette moyenne, etc.

  • 8/7/2019 cours030202

    7/188

    Tableau 1 : Quelques statistiques macroconomiques des pays de lUE 27ainsi que de certains de leurs partenaires commerciaux

  • 8/7/2019 cours030202

    8/188

    Bien souvent, pour rpondre certaines questions, les calculs prcdents nesuffiront pas, o bien, sils suffisent, il faudra aussi crer un autre tableau, pour faireapparatre plus prcisment certaines informations.

    Supposons par exemple que lon souhaite avoir une ide synthtique sur la question

    suivante : Combien y-a-t-il de pays qui sont membres de la zone Euro au premierjanvier 2008, quels sont ces pays, combien reprsentent-ils en pourcentage du totaldes pays, et quels sont les autres pays.

    Pour rpondre toutes ces questions, il faudra faire quelques calculs et ensuitercapituler ces rsultats dans un tableau (pour plus de dtails sur les tableaux, voirla section 3 de ce chapitre, ainsi que le chapitre 2 du cours) ou dans un graphique,ou encore sur une carte. Supposons ici, que pour simplifier, on se contente dutableau suivant :

    Rpartition des pays de lUE 27 entre membres et non-membres

    de la zone Euro au premier janvier 2008

    Ce tableau a donc ncessit quelques calculs statistiques simples :

    Reprage des pays membres et non-membresComptage des pays appartenant chaque catgorieCalcul des pourcentages

    Des calculs plus complexes (mais aussi plus intressants) peuvent tre faits. Parexemple, plutt que de calculer combien les pays membres et non-membresreprsentent en pourcentage des 27 de lUE, on peut, sans doute de faon pluspertinente, se demander combien chaque groupe reprsente en pourcentage du

    Produit Intrieur Brut total de lUE27. Pour obtenir un tel tableau (voir tableau ci-aprs), il faudra :

    1) additionner les PIB des 15 pays membres de la zone euro au 1er janvier 20082) Additionner les PIB des 12 pays non membres de la zone euro au 1er janvier 2008.3) calculer les pourcentages respectifs.

  • 8/7/2019 cours030202

    9/188

    On obtient alors le tableau ci-aprs :

    Plutt que de reprsenter le rsultat sous forme dun tableau on peut choisir unereprsentation visuelle, par exemple une reprsentation en secteurs, dite aussiparfois en camembert :

  • 8/7/2019 cours030202

    10/188

    10

    2 - Terminologie

    A Population et units statistiques

    En statistique, la population dsigne un ensemble d'units statistiques. Les unitsstatistiques sont les entits abstraites qui reprsentent des personnes, despopulations d'animaux ou des objets. Les premires populations ayant fait l'objetdun recensement ayant t des populations humaines (d'o le lien troit entrestatistique et dmographie) on emploie frquemment le terme "individus" commesynonyme de "units statistiques".

    La statistique sert dcrire l'ensemble des units statistiques qui composent lapopulation. On commence par compter ces units. La premire informationstatistique que l'on tire d'une population est en effet le nombre de ses units.

    Exemple 1 :La population de la France, de ses rgions, de ses dpartements, deces communes de moins de 10 000 habitants et des communes de plus de 10 000habitants ( grandes villes ) est estime annuellement par lINSEE. Les rsultatssont disponibles sur son site internet1. On sait ainsi que les populations des 3 plusgrandes villes de France sont, selon la dernire estimation publie en janvier 2007(qui porte sur lanne 2005) :

    Source :http://www.insee.fr/fr/recensement/nouv_recens/resultats/grandes-villes.htm#L

    Exemple 2 : Le tableau 1 contient une population de 35 pays, donc 35 unitsstatistiques.

    1 Voir le lien suivant :http://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultats-recensement.htm

    http://www.insee.fr/fr/recensement/nouv_recens/resultats/grandes-villes.htm#Lhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/grandes-villes.htm#Lhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultats-recensement.htmhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultats-recensement.htmhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultats-recensement.htmhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultats-recensement.htmhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultats-recensement.htmhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultats-recensement.htmhttp://www.insee.fr/fr/recensement/nouv_recens/resultats/grandes-villes.htm#L
  • 8/7/2019 cours030202

    11/188

    11

    B Echantillons et sous-ensembles dune population

    Il est frquent que lon prlve un chantillon dans une population statistique et/ouque lon dcoupe la population selon certains critres (ou dimensions ou encore

    caractristiques)

    Pour comprendre le lien entre population et lchantillon, prenons lexemple durecensement de la population franaise. Chaque anne, la population est rvalue partir des rsultats dune enqute qui porte sur le choix dun chantillon. Ainsi,dans les 900 communes de 10 000 habitants ou plus, une partie de la population estrecense chaque anne par tirage au sort (8%). Il y a donc un sondage annuel quiaboutit recenser 40% de la population de ces villes en 5 ans. Cette opration esten fait un sondage grande chelle. Concrtement, une ville de plus de 10 000habitants est divise en cinq groupes d'adresses rparties sur tout le territoire de lacommune. Chaque anne, lINSEE prlve un chantillon de 8% d'adresses dans un

    des cinq groupes et on le recense. La dtermination des chantillons de personnesinterroges est effectue en utilisant les fichiers de taxe d'habitation et les registresd'assurance-maladie, ce qui permet l'extrapolation avec une grande fiabilit desdonnes des sondages. Ainsi, tous les habitants d'une mme rue ne seront pasrecenss la mme anne2.

    Pour notre propos, la relation de la population lchantillon est facile dcrire partir dun diagramme dEULER suivant.

    Le lien entre lchantillon et la population

    2Pour plus de dtails, voir le document de lINSEE, Le plan de sondage dans les communes de 10

    000 habitants ou plus, INSEE Mthodes, Pour comprendre le recensement de la population, numrohors srie.

    http://www.insee.fr/fr/ppp/sommaire/imeths01g.pdfhttp://www.insee.fr/fr/ppp/sommaire/imeths01g.pdfhttp://www.insee.fr/fr/ppp/sommaire/imeths01g.pdfhttp://www.insee.fr/fr/ppp/sommaire/imeths01g.pdfhttp://www.insee.fr/fr/ppp/sommaire/imeths01g.pdfhttp://www.insee.fr/fr/ppp/sommaire/imeths01g.pdfhttp://www.insee.fr/fr/ppp/sommaire/imeths01g.pdf
  • 8/7/2019 cours030202

    12/188

    12

    En gnral, on parle dchantillon dune population statistique quand les unitsstatistiques sont tires au sort ou alors choisies par une mthode qui permetdassurer la reprsentativit de lchantillon par rapport la population totale.Cependant, ces dfinitions ne concernent plus directement la statistique

    descriptive mais plutt la statistique mathmatique.

    Ce qui nous intresse ici, cest la possibilit de dcouper une population en sous-populations en utilisant certains critres.

    Prenons pour exemple la population des 35 pays dutableau 1. Ces 35 pays sont lesunits statistiques du tableau. Nous souhaitons par exemple dcouper cettepopulation entre trois sous ensembles, suivant les critres de la monnaie utilise etlappartenance lUE 27. On aura donc :

    15 pays membres de lUE 27 qui font partie de la zone Euro.

    12 pays membres de lUE 27 qui ne font pas (encore) partie de la zone Euro8 pays partenaires de lUE 27 et qui utilisent dautres monnaies.

    Pour concrtiser ce dcoupage en 3 sous populations, on peut par exempleconstruire un rectangle contenant 35 petits carrs, chaque carr reprsentant unpays. Puis dcouper les trois zones comme dans le graphique ci-dessous.

    Dcoupage dune population statistique (les 35 pays du tableau) en trois sous-populations, suivant deux critres (appartenance lUE27 et monnaieofficielle).

  • 8/7/2019 cours030202

    13/188

    13

    C - Critres de classification

    Nous avons vu dans lexemple prcdent que les units statistiques dune populationpouvaient tre regroupes suivant des critres ou dimensions. Ces critres sontchoisis en fonction de ce qui nous intresse. On parle de critre, mais aussi parfois

    de dimension.

    On distingue deux sortes de critres : Les critres quantitatifs Les critres qualitatifs

    1) Critres quantitatifs

    Les critres quantitatifs sont les critres qui sont reprsents par des chiffres.Cest la raison pour laquelle on les appelle aussi parfois des variables. Lesvariables prennent des valeurs.

    Par exemple, dans le tableau 1 , on peut voir que la superficie est un critre declassification quantitatif. Cest une variable qui dont les diffrentes occurrencessont appeles valeurs. Chacune des 35 units statistiques de notre population estainsi caractrise par une valeur. La superficie est donc ici une variable qui prend35 valeurs diffrentes. Cest un cas particulier dans lequel le nombre de valeurs dela variable est gal au nombre des units statistiques de la population. Nous verronsque dans des cas de ce type, ou bien lorsque le nombre de valeurs possibles, bienquinfrieur au nombre dunits statistiques, est grand, un regroupement par classesde valeurs peut tre utile.

    Les critres quantitatifs ou variables permettent de faire des calculs. On peutpar exemple additionner les superficies, calculer des moyennes, etc.

  • 8/7/2019 cours030202

    14/188

    14

    Dans le tableau 1, la plupart des critres sont quantitatifs. On peut donc effectuerdes calculs sur les valeurs. Il ny a gure que la monnaie et le nom des pays qui nesont pas des critres quantitatifs. Ce sont des critres qualitatifs.

    2) Critres qualitatifs

    Les critres qualitatifs sont tous les critres qui ne sont pas reprsents de faonnumrique. On les appelle des caractres . Les caractres prennent desmodalits.

    Par exemple, dans le tableau 1, on peut voir que la monnaie utilise dans chaquepays est un critre qualitatif qui possde 21 modalits. Ces modalits sont lesdiffrentes monnaies. Il y a en effet 15 pays qui ont la modalit euro et les 20autres qui ont chacun pour modalit une monnaie diffrente. On voit donc dans cetteexemple que le nombre de modalits (21) est infrieur celui de la population (35).

  • 8/7/2019 cours030202

    15/188

    15

    3 - Modes de regroupement des donnes

    A - Srie simple

    Letableau 1est un tableau dans lequel les donnes nont pas t regroupes. Cest

    un tableau de donnes brutes. Nous pouvons lire pour chaque ligne les diffrentesvaleurs ou modalits des variables ou des caractres associs chacune des 35units statistiques de la population. Chaque colonne correspond une sriesimple de valeurs ou de modalits.

    Par exemple, dans le cas de la variable superficie , il y a 35 valeurs diffrentes.Dans le cas du caractre monnaie , il y a 21 modalits. Dans le cas de la variable nombre de frontires terrestres avec dautres pays de lUE 27 , les 35 pays serpartissent seulement sur 8 valeurs.

    Mais on comprend facilement quune prsentation exhaustive, dans laquelle aucun

    regroupement nest effectu, nest pas toujours pratique, mme si lon dispose dunordinateur, comme cest le cas aujourdhui, pour effectuer les calculs. En ralit, leplus souvent, les donnes sont collectes et entres dans lordinateur sous formedun tableau brut de ce type (ou sous une autre forme), mais ensuite, elles sontregroupes.

    B - Distribution par valeurs ou par modalits

    Suivant que le critre est une variable ou un caractre, on peut effectuer unregroupement par valeurs ou un regroupement par modalits. Dans ce cas, on parlede distribution. En effet, la srie initiale des 35 donnes va tre distribue sur unnombre gnralement infrieur (ou au maximum gal), de valeurs ou de modalits.

    1) Distribution par valeurs

    Prenons lexemple de la variable nombre de frontires terrestres avec dautrespays de lUE 27 dans le tableau 1. Un regroupement des 35 units statistiquespour chacune des valeurs possibles de la variable donnera alors le tableau suivant :

    Distribution des pays des pays dutableau 1selon leur nombre de frontires terrestres avec les pays de lUE 27

  • 8/7/2019 cours030202

    16/188

    16

    2) Distribution par modalits

    Dans le tableau 1, nous allons choisir le seul critre qualitatif disponible poureffectuer un regroupement par modalits : la monnaie officielle utilise dans chaquepays. On sait videmment le rsultat davance : En 2008, 15 pays sont dans la zone

    euro et les 20 autres utilisent toujours leur monnaie nationale. Dans ces conditions,un regroupement par modalits, quoique peu utile, donnerait le rsultat suivant :

    C - Regroupement par catgories

    Lorsquil y a trop de valeurs ou trop de modalits, on peut procder unregroupement par catgories de valeurs ou de modalits.

    1) Catgories de valeurs

    Prenons lexemple de la variable superficie dans le tableau 1. Un regroupementdes 35 units statistiques pour chacune des valeurs possibles de la variabledonnerait un tableau avec 35 valeurs, ce qui naurait aucun intrt. En revanche, onpeut crer des classes de valeurs pour les superficies et rpartir les 35 pays lintrieur de ces classes. Comment procder sachant que le plus petit (Malte) naquune superficie de 316 km2 et le plus grand pays (La Russie) a une superficie de17 075 200 km2 ? Si lon regarde les superficies des diffrents pays, on voit quuntrs grand nombre de pays ont des superficies infrieures 600 000 km2. Pour lefaire apparatre, classons les pays par ordre croissant de superficies (voir le tableauci-aprs)

  • 8/7/2019 cours030202

    17/188

    Regroupement des pays par catgories de superficies

  • 8/7/2019 cours030202

    18/188

    Dcoupage du monde en zones selon les catgories de lOMC

    Source : OMC, http://www.wto.org/english/res_e/statis_e/its2007_e/its07_world_maps_e.pdf

    http://www.wto.org/english/res_e/statis_e/its2007_e/its07_world_maps_e.pdf
  • 8/7/2019 cours030202

    19/188

    2) Catgories de modalits

    Prenons lexemple du caractre pays dans le tableau 1. Un regroupement des35 units statistiques pour chacune des modalits possibles du caractre donneraitun tableau avec 35 modalits, ce qui naurait aucun intrt. En revanche, on peut

    crer des classes de modalits pour les pays. On peut par exemple rpartir les 35pays selon catgories propose par lOrganisation Mondiale du Commerce (voircarte prcdente). Si lon regroupe nos 35 pays selon ces 6 catgories on obtient letableau suivant :

    Regroupement des pays selon des catgories gographiques

    A noter quil sagit bien dun regroupement par catgories de modalits car chaquepays est en lui-mme une modalit.

  • 8/7/2019 cours030202

    20/188

    20

    Chapitre 2Les tableaux statistiques

    1 Sries brutes ou vecteurs

    A -sries classes et non classesB -Sries identifies et non identifies2 Tableaux unidimensionnels

    A - Tableaux avec chiffres brutsB - Tableaux avec pourcentagesC - Tableaux avec cumuls

    1)Cumuls des donnes brutes2)Cumuls des pourcentages

    3 - Tableaux avec statistiques rsumes4 Tableaux croiss

    A Dfinition et exemple

    1)Dfinition2)Exemple

    a)Effectifsb)Pourcentages

    B Distributions marginales1)Dfinition2)Exemple

    a)Effectifsb)Pourcentages

    C Distributions conditionnelles1)Colonnes

    a)Effectifsb)Pourcentages

    2)Lignesa)Effectifsb)Pourcentages

    1 Sries brutes ou vecteurs

    Avant mme dtre prsentes sous forme de tableau, les donnes sont parfois

    prsentes sous formes de sries brutes.Prenons lexemple de la variable nombre de frontires terrestres avec dautrespays de lUE 27 dans le tableau 1. On peut la reprsenter sous la forme dunvecteur de donnes, galement appel srie.

    Srie nombre de frontires terrestres avec dautres pays de lUE 27 :

    S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0,5, 0,0}

  • 8/7/2019 cours030202

    21/188

    21

    A - sries classes et non classes

    S1 est une srie non classe. Considrons maintenant la srie S2, qui elle, est unesrie classe par ordre croissant

    S2 : {0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4,5, 5, 6, 8}

    B - Sries identifies et non identifies

    En revanche, ni S1, ni S2 ne sont des sries identifies. Pour quelles soientidentifies, il faudrait crer des couples de valeurs.

    Ainsi, la srie S3 ci-dessous est une srie identifie, non classe :

    S3 = {{Allemagne, 8}, {Belgique, 4}, {France, 5}, {Italie, 3}, {Luxembourg, 3}, {Pays-Bas, 2}, {Danemark, 1}, {Irlande, 1}, {Royaume-Uni, 1}, {Grce, 1}, {Espagne, 2},{Portugal, 1}, {Autriche, 6}, {Finlande, 1}, {Sude, 1}, {Chypre, 0}, {Estonie, 1},{Hongrie, 4}, {Lettonie, 2}, {Lituanie, 2}, {Malte, 0}, {Pologne, 4}, {Rpubliquetchque, 4}, {Slovaquie, 4}, {Slovnie, 3}, {Bulgarie, 2}, {Roumanie, 2}, {Suisse, 4},{Etats-Unis, 0}, {Chine, 0}, {Inde, 0}, {Japon, 0}, {Russie, 5}, {Taiwan, 0}, {HongKong, 0}}

    Enfin, la srie S4 ci-dessous est une srie identifie et classe par ordre croissantdu nombre de frontires terrestres avec dautres pays de lUE 27 :

    S4 = {{Chypre, 0}, {Malte,0}, {Etats-Unis ,0}, {Chine,0},{Inde,0}, {Japon,0}, {Taiwan,0},{Hong Kong, 0}, {Danemark,1}, {Irlande,1}, {Royaume-Uni,1}, {Grce,1}, {Portugal,1}, {Finlande, 1}, {Sude,1}, {Estonie,1}, {Pays-Bas, 2}, {Espagne, 2}, {Lettonie, 2},{Lituanie, 2}, {Bulgarie, 2}, {Roumanie,2}, {Italie ,3}, {Luxembourg, 3}, {Slovnie, 3},{Belgique,4}, {Hongrie, 4}, {Pologne,4}, {Rpublique tchque,4}, {Slovaquie, 4},{Suisse,4}, {France, 5 }, {Russie, 5}, {Autriche,6}, {Allemagne, 8}}

    2 Tableaux unidimensionnels

    La prsentation sous forme de srie est utile pour certains calculs, mais on utilise

    bien plus frquemment les tableaux pour prsenter les caractristiques des unitsdune population statistique.

    Le tableau est un outil statistique rbarbatif. La meilleure preuve est que lon voitbeaucoup moins de tableaux dans les mdias que lon ne voit de graphiques.

    Nanmoins, pour des tudes prcises, les tableaux sont souvent ncessaires etmme plus utiles que les graphiques. Une remarque simple simpose en effet ici : silon dispose dun tableau, on peut faire un graphique. Inversement, si lon disposeseulement dun graphique, on ne peut pas revenir au tableau initial (ou trsrarement). Le tableau est donc une sorte de pralable au graphique.

  • 8/7/2019 cours030202

    22/188

    22

    En outre :

    il est souvent possible de produire plusieurs graphiques partir dun mmetableau.

    Il est aussi souvent possible de calculer plusieurs statistiques rsumes partir dun tableau.

    Ainsi, si le tableau est rbarbatif, il est cependant trs utile.

    A - Tableaux avec chiffres bruts

    Le tableau 1 est un tableau de chiffres bruts qui contient plusieurs sries de chiffrescaractrisant une population de 35 units statistiques.

    Le tableau ci-aprs, quant lui, est galement un tableau qui prsente des chiffres

    bruts extraits du tableau 1et regroups par classes :

    Distribution des 35 pays par classes de superficieChiffres bruts

    B - Tableaux avec pourcentages

    Souvent, on ajoute une colonne dans laquelle les donnes sont prsentes enpourcentages comme ci-dessous :

    Distribution des 35 pays par classes de superficiePourcentages

  • 8/7/2019 cours030202

    23/188

    23

    C - Tableaux avec cumuls

    On peut aussi ajouter des colonnes avec les cumuls. Une colonne o les chiffresbruts sont cumuls et une autre o ce sont les pourcentages qui sont cumuls.

    1) Cumuls des donnes brutes

    Distribution des 35 pays par classes de superficieChiffres bruts et cumuls

    2) Cumuls des pourcentages

    Distribution des 35 pays par classes de superficieChiffres bruts et cumuls, pourcentages et pourcentages cumuls

    3 - Tableaux avec statistiques rsumes

    Parfois, on prfre rsumer une srie de chiffres par son total, par sa moyenne, parses valeurs extrmes, ou par diffrentes autres statistiques que nous tudierons

    dans le chapitre 3. Le tableau ci-aprs indique les moyennes simples (voir lechapitre 5 pour une dfinition plus prcise de la moyenne simple) de certaines desvariables du tableau 1, ainsi que les valeurs minimales et maximales pour les sriescorrespondantes.

  • 8/7/2019 cours030202

    24/188

    24

    Tableau de statistiques rsumes pour certaines des variables du tableau 1

    Note : Certaines moyennes ne sont pas reportes (superficie, population) car la dispersion est tropgrande pour que la moyenne ait un sens.

    4 -Tableaux croiss

    A Dfinition et exemple

    1) Dfinition

    Les tableaux croiss sont appels ainsi car ils croisent deux distributions au seindun mme tableau. Les possibilits de croisement sont multiples. En fait, commelillustre le tableau synoptique ci-aprs, il y a 16 possibilits.

    Diffrentes possibilits de croisement de 2 distributions

    2) Exemple

    a) EffectifsLe tableau crois ci-aprs illustre le cas numro 6. Les variables Age mdian et Indice de fcondit du tableau 1 ont en effet t regroupes par catgories devaleurs puis croises dans le tableau. On a choisi de mettre les catgories dgesmdians en lignes et les catgories dindices de fcondit en colonne, mais linverseaurait galement t possible sans que cela ne change la signification du tableau.

  • 8/7/2019 cours030202

    25/188

    25

    Avant de construire le tableau crois, on regarde les valeurs minimales et maximalesdes deux sries. On voit alors que lge mdian varie de 24,8 ans (Inde) 43,5 ans(Japon) et que lindice de fcondit varie de 0,98 enfants par femme (Hong Kong) 2,81 enfants par femme (Inde).

    Il reste alors former les catgories. Il sagit dun choix arbitraire. Pour simplifier,nous allons former les catgories suivantes :

    Age mdian (3 catgories) : [20-30 ans [ ; [30-40 ans [ ;[40-50]

    Indice de fcondit (3 catgories) : [0-1,4 enfants/femme [; [1,4-2 enfants/femme [ ;[2-3 enfants/femme].

    Ensuite on choisit une des 2 sries, par exemple la srie des indices de fcondit enon la classe par ordre croissant.

    On forme les 3 groupes de fcondit, en utilisant par exemple des couleursdiffrentes pour chaque groupe. Ensuite, il suffit de compter pour chaque groupe,combien de pays ont un ge mdian compris dans les trois catgories dge mdian

    que nous avons dfini : [20-30 ans [ ; [30-40 ans [ ; [40-50]

  • 8/7/2019 cours030202

    26/188

    26

    On obtient alors le tableau suivant :

    Tableau crois indice de fcondit/ge mdian - Effectifs

    Notons bien que ce tableau crois contient leffectif des 35 pays. Autrement dit, si on

    fait la somme des 9 chiffres contenus dans le tableau, on trouve leffectif total de lapopulation, soit 35.

    b) Pourcentages

    Ce tableau peut tre mis sous forme de pourcentages en divisant chacun des 9chiffres par 35 et en multipliant par 100. On obtient alors une distribution croise des35 pays en fonction de lge mdian et de lindice de fcondit, mais contrairementau cas prcdent, cette distribution croise est exprime en en pourcentages

    Tableau crois indice de fcondit/ge mdian - Pourcentages

    On peut facilement vrifier quil sagit dun tableau en pourcentages en additionnantles 9 chiffres pour obtenir 100 (en tenant compte des arrondis).

    B Distributions marginales

    1) Dfinition

    Lorsquon ajoute au tableau crois une colonne pour la somme des valeurs en ligneet une ligne pour la somme des valeurs en colonnes, on appelle cette colonne etcette ligne les distributions marginales.

  • 8/7/2019 cours030202

    27/188

    27

    2) Exemple

    a) Effectifs

    Reprenons le tableau crois indice de fcondit/ge mdian , mais ajoutons une

    ligne et une colonne.

    Chaque chiffre de la dernire ligne ajoute (en caractre gras) reprsente letotal des effectifs de la colonne correspondante. Cest la distributionmarginale en lignes ou distribution de la population des 35 pays sur 3catgories dge mdian. En effet 1+20+14 = 35.

    Chaque chiffre de la dernire colonne ajoute reprsente le total des effectifsde la ligne correspondante. Cest la distribution marginale en colonnes oudistribution de la population des 35 pays sur 3 catgories dindices defcondit. En effet 17 +16 +2 = 35.

    Les deux distributions marginales des effectifs

  • 8/7/2019 cours030202

    28/188

    28

    b) Pourcentages

    La dernire ligne et la dernire colonne du tableau prcdent peuvent sexprimer enpourcentage de la faon suivante :

    C Distributions conditionnelles

    1) Colonnes

    a) Effectifs

    Reprenons le tableau crois indice de fcondit/ge mdian , mais concentrons-nous sur les diffrentes colonnes. Considrons par exemple la colonne des gesmdians compris dans lintervalle [30-40[ :

    Exemple de distribution conditionnelle en colonne (effectifs)

  • 8/7/2019 cours030202

    29/188

    29

    La distribution par catgories dge de fcondit des 20 pays dont lge mdian estdans lintervalle [30-40 ans [est appele distribution conditionnelle en colonne.Lexpression conditionnelle provient du fait que les 20 pays concerns sont unesous-population de la population totale et que cette sous-population correspond tous les pays qui rpondent la condition tre dans lintervalle [30-40[des ges

    mdians .

    On voit quil y a 3 distributions conditionnelles possibles puisquil y a 3 catgoriesdges mdians.

    b) Pourcentages

    Leffectif de la distribution conditionnelle prcdente est de 20. Il est distribu selonles 3 catgories dindices de fcondit. Si lon fait abstraction du reste du tableau, onpeut diviser chacun des chiffres de cette colonne par 20 et le multiplier par 100 defaon exprimer la distribution conditionnelle en pourcentages. On aura alors :

    Si maintenant on effectue la mme opration pour les trois colonnes on obtient letableau des tableaux des distributions conditionnelles en colonnes enpourcentages.

    Les 3 distributions conditionnelles en colonnes (pourcentages)

    Dans chaque colonne, leffectif initial a t divis par le chiffre correspondant de lasous population de pays associs la catgorie dge mdian correspondante.

    2) Lignes

    a) Effectifs

    De la mme faon quil y a des distributions conditionnelles en colonnes, il y a aussides distributions conditionnelles en ligne. Cette fois, on isole 3 sous populations quicorrespondent aux catgories dindices. A titre dexemple, dans le tableau ci-aprs,la catgorie dindice de fcondit [1,4 2 enfants/femme [a t isole, ce quicorrespond une sous population de pays gale 16. La distribution de ces payspar catgories dges de fcondit est ensuite donne par la ligne encadre.

  • 8/7/2019 cours030202

    30/188

    30

    Naturellement, puisquil y a 3 catgories dindice de fcondit, il y a 3 souspopulations et trois distributions conditionnelles.

    Exemple de distribution conditionnelle en ligne (effectifs)

    b) Pourcentages

    Suivant le mme principe que pour les distributions conditionnelles en colonne, onpeut transformer les distributions deffectifs en distribution de pourcentages endivisant les chiffres de chaque ligne par le total de la ligne. On obtient alors letableau suivant des distributions conditionnelles en colonnes en pourcentages.

    Les 3 distributions conditionnelles en ligne (pourcentages)

  • 8/7/2019 cours030202

    31/188

    31

    Chapitre 3 : Statistiques permettant de rsumer une srie

    1 Tendance centrale et dispersion des valeurs dune variable2 -Les statistiques de tendance centrale

    A -Le mode1)Dfinition2)Remarques propos du mode

    a)Une srie peut avoir plusieurs modesb)Le mode n'existe pas forcmentc)Le mode n'est pas forcment la valeur la plus leved)Variables et caractres peuvent avoir un modee)Mettre la srie sous forme de distribution pour reprer le mode

    B -La moyenne arithmtique1)La moyenne arithmtique simple2)La moyenne arithmtique pondre

    3)Calcul de la moyenne sur des donnes catgoriellesC -La mdiane

    1)Origine du mot, sens gomtrique2)Sens du mot en statistique descriptive3)Mthode de calcul

    a)n est pairb)n est impair

    3 -Les statistiques de dispersionA -Minimum, maximum, intervalle de variation et rapport de variation

    1)Minimum et maximum dune srie2)Intervalle de variation ou tendue3)Rapport de variation

    B -Intervalle interquartileC - Variance, cart-type et coefficient de variation

    1)La variancea)Dfinitionb)Exemplec)Utilit de la variance

    2)L'cart-typea)Dfinitionb)Mthode de calcul

    c)Utilit de lcart-type3)Le coefficient de variation

    Annexe :Mthode alternative pour le calcul des quartiles

  • 8/7/2019 cours030202

    32/188

    32

    1 Tendance centrale et dispersion des valeurs dune variable

    Nous avons dj vu dans le chapitre prcdent, un exemple de tableau contenantdes statistiques rsumes, tableau qui est reproduit ci-dessous pour mmoire:

    Tableau de statistiques rsumes pour certaines des variables du tableau 1

    Ce tableau ne contient que trois statistiques rsumant les diffrentes sries dutableau 1 : Il sagit de la moyenne simple, ainsi que des valeurs minimales etmaximales de chaque srie. Nous allons maintenant tudier systmatiquement lesprincipales autres statistiques permettant de rsumer une srie. A chaque fois, oninsistera sur la mthode de calcul (plutt que sur la formule) et on sappuiera sur desexemples extraits du tableau 1.

    Il est habituel de distinguer deux types de statistiques rsumes, quitte ensuite les runir dans des statistiques rsumes plus labores :

    Les statistiques qui rsument la tendance centrale dune srie ou dune

    distribution :

    o mode,o moyenneo mdiane.

    Les statistiques qui rsument la dispersion dune srie :

    o intervalle de variation (aussi appele tendue )o intervalle interquartile.

    Certaines de ces statistiques, tout en rsumant la dispersion de la srie,tiennent aussi compte de sa valeur centrale. Cest le cas de :

    o lcart-type,o de la varianceo du coefficient de variation3.

    Une dernire remarque : bien quil soit possible deffectuer des calculs destatistiques rsumes sur les donnes groupes en catgories, cest dconseill de

    3

    Il existe aussi des statistiques qui rsument la forme dune distribution, mais celles-ci ne sontplus gure utilises aujourdhui dans la mesure o il est plus facile dobserver directement legraphique dune distribution pour en apprcier la forme.

  • 8/7/2019 cours030202

    33/188

    33

    le faire quand on dispose des donnes brutes ou regroupes par valeurs oumodalits. Cest une question de bon sens. Si lon effectue les calculs sur desdonnes regroupes par catgories, on obtient des rsultats approximatifs et mmecarrment faux quand on les compare aux calculs effectus sur les donnes brutes(sans parler des formules abstruses et abscondes quil faut employer pour effectuer

    les calculs de moyennes, mdianes, quartiles ou variance sur des donnescatgorielles).

    2 Les statistiques de tendance centrale

    A Le mode

    1) dfinition

    Le mode d'une srie est la valeur la plus frquente d'une srie.

    Exemple : Soit la srie {8,4,4,3,4,3,8,2,5}

    La valeur la plus frquente de cette srie est 4. Le mode est donc gal 4. L'effectifassoci ce mode est 3.

    2) Remarques propos du mode

    a) Une srie peut avoir plusieurs modes

    Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, les "2" sont misen gras et les "3" sont souligns, car ce sont les valeurs qui reviennent le plussouvent : 5 fois chacune. Cette srie a 2 modes, elle est bimodale. Ses deux modessont : 2 et 3. L'effectif associ chacun de ces modes est : 5. Bien entendu, on peutavoir des sries avec 3, 4, 5, etc. modes. Ce sont alors des sriesmultimodales.

    b) Le mode nexiste pas forcment

    C'est le cas lorsque toutes les valeurs ont le mme effectif comme dans l'exemplesuivant : {8,6,5,7,3,1}. Dans ce cas, on peut aussi dire que toutes les valeurs sontmodales.

    c) Le mode nest pas la valeur la plus leveIl ne faut pas confondre le mode, qui est la valeur la plus frquente, avec la valeur la

    plus leve de la srie. Dans la srie {8,6,5,7,3,1}, il n'y a pas de mode, mais lavaleur la plus leve est 8. Il peut arriver que le mode soit aussi la valeur la plusleve, mais ce nest alors quune concidence.

    d) Variables et caractres peuvent avoir un mode

    La notion de mode existe aussi bien dans le cas dune srie qui se rapporte unevariable que dans le cas dune srie qui se rapporte un caractre.

  • 8/7/2019 cours030202

    34/188

    34

    e) Mettre la srie sous forme dune distribution pour reprer le mode

    Pour dtecter le mode, il est souvent plus facile de distribuer les lments de la sriepar valeurs (ou par modalits). Soit la srie nombre de frontires terrestres avecdautres pays de lUE 27 extraite du tableau 1:

    S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0,5, 0,0}

    Nous savons que cette srie peut tre mise sous forme dune distribution par valeursde la faon suivante :

    Distribution des pays dutableau 1selon leur nombre de frontires terrestres avec les pays de lUE 27

    Nous voyons alors plus facilement quels sont les deux modes de la srie.

    B - La moyenne arithmtique

    Le mot moyenne a pour origine le latin "mdius, mot signifiant "qui est au milieu"."Mdius" est aussi l'origine du mot "mdiane". Pourtant, en statistique, les deux mots

    conduisent des dfinitions diffrentes. Ceci nous laisse supposer que la notion demilieu n'est pas toujours facile dfinir.

    1) La moyenne arithmtique simple

    La moyenne arithmtique d'une srie ou moyenne arithmtique simple secalcule par une formule qui est donne par l'expression :

    (1)

  • 8/7/2019 cours030202

    35/188

    35

    Le "x" surmont d'un trait dsigne classiquement la moyenne. On remarque que lasomme va de 1 n o n dsigne le nombre d'units statistiques de la population.Appliquons cette dfinition au calcul de la moyenne de la srie suivante = {4, 0, 1, 1,2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. On a donc :

    2) La moyenne arithmtique pondre

    La moyenne arithmtique d'une distribution ou moyenne arithmtiquepondre se calcule par une formule qui est donne par l'expression :

    (2)

    La somme varie cette fois de 1 k, avec k qui reprsente le nombre de valeurs de lasrie. Dans le cas o aucune valeur n'est rpte k=n. Sinon k

  • 8/7/2019 cours030202

    36/188

    36

    En pratique, si le calcul de la moyenne doit tre fait sans machine calculer nitableur et que les donnes sont peu nombreuses (infrieures 10), mieux vaututiliser la formule (1). Sinon, la formule (2) peut tre prfre.

    La moyenne arithmtique ne peut pas tre calcule pour un caractre

    (dimension quantitative). Soit par exemple le caractre sexe, avec les deuxmodalits "F" et "H", dans une population de 10 personnes. On a la srie suivante :{F,H,F,F,H,H, F,F,F,H}. La modalit "Femme" est plus frquente (6 contre 4 pour lamodalit "Homme") : c'est le mode. En revanche, on ne peut pas calculer demoyenne arithmtique. La mme chose est vraie si l'on met cette srie sous formed'une distribution :

    Sexe EffectifsH 4F 6

    On peut calculer les frquences associes chaque modalit. On voit alors que lamodalit la plus frquente est "F" (0,6 contre 0,4 pour la modalit "H"). Mais la notionde moyenne arithmtique n'a pas de sens pour un caractre.

    3) Calcul de la moyenne sur des donnes catgorielles

    Ainsi que prcis dans lintroduction cette section consacre la moyenne, il faut tout prix viter de procder ce type de calcul. Nous ne le donnons ici qu titredinformation. Lorsque l'on a une distribution par classes de valeurs, la moyenne secalcule en prenant la formule de la moyenne pondre et en remplaant dans cette

    formule "xi" par "ci", o ci reprsente le centre de la classe i, cest--dire lamoyenne arithmtique des extrmits de classe. A dfaut d'avoir une valeur xi onprend "ci". Ceci explique que le calcul de la moyenne donne un rsultat imprcis. Onva le voir dans les deux exemples suivants :

    Soit la srie dj utilise prcdemment : {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1,3, 3, 4, 5}. Nous savons que la moyenne arithmtique simple applique cette srieest :

    Exemple 1 : Supposons maintenant que seule la distribution par classe de valeursd'amplitudes gales nous soit donne :

    Classes ni[0-2[ 4[2- 4[ 10[4- 6] 6

  • 8/7/2019 cours030202

    37/188

    37

    Pour calculer la moyenne, nous devons dterminer les centres de classe, puis fairela somme des "nix ci" et diviser par n. Autrement dit, nous devons appliquer laformule :

    La notation ci indique le centre de classe et o k reprsente le nombre de classes.Comme indiqu prcdemment, le centre de classe est gal la moyenne desextrmits de classe. On a donc le tableau de calcul suivant :

    Classes nici (moyenne des

    extrmits declasse)

    ni x ci

    [0-2[ 4 1 4[2- 4[ 10 3 30[4- 6] 6 5 30

    64

    Et finalement :

    Nous avons donc une marge d'erreur non ngligeable par rapport la vraiemoyenne, savoir 2,7. La marge d'erreur en pourcentage est donne par :

    La marge d'erreur dpend de la dfinition des classes.

    Exemple 2 : Supposons que l'on ait maintenant deux classes d'amplitudes ingales.

    Le calcul se fait de la mme faon, mais on obtient un rsultat diffrent :

    Classes ni ci ni x ci[0-4[ 14 2 28[4- 6] 6 5 30

    58

    La moyenne est donc :

  • 8/7/2019 cours030202

    38/188

    38

    On voit donc que chaque fois que l'on change les classes ou que l'on modifie leuramplitude, on exerce un effet sur la moyenne par le jeu de la modification descentres de classe. Il est donc facile de manipuler la moyenne en choisissant lesamplitudes de classe. C'est pourquoi il est recommand de ne calculer lamoyenne partir des centres de classe que lorsqu'on ne peut pas faire

    autrement, c'est--dire lorsque l'on ne dispose pas des donnes brutes.

    C - La mdiane

    1) Origine du mot, sens gomtrique

    Le mot mdiane a pour origine le latin mdius, mot signifiant qui est aumilieu . Mdius est aussi l'origine du mot "moyenne". Pourtant, en statistique,les deux mots conduisent des dfinitions diffrentes. Ceci nous laisse supposerque la notion de milieu n'est pas toujours facile dfinir.

    Avant d'avoir une dfinition statistique, la mdiane a d'abord une dfinitiongomtrique. On dfinit ainsi, par exemple, les mdianes d'un triangle. Une mdianed'un triangle est une droite qui joint un sommet au milieu du ct oppos. Il y a donc3 mdianes par triangle.

    2) Sens du mot en statistique descriptive

    La mdiane est la valeur de la variable (et dans certains cas, la modalit ducaractre) qui partage la population, dont les valeurs ont pralablement t classespar ordre croissant, en deux sous populations gales. On la dsigne par

    l'abrviation Me.

  • 8/7/2019 cours030202

    39/188

    39

    3) Mthode de calcul

    Toujours se ramener une srie : Si les donnes se prsentent sous formed'une distribution, convertir la distribution en srie.

    Classer la srie : Une fois la srie constitue, l'ordonner en classant les

    chiffres par ordre croissant. On dsignera par k le rang dune valeur dans lasrie (voir tableau ci-aprs). Dterminer si la srie comprend un nombre pair ou impair dunits

    statistiques : Soit n le nombre dunits statistiques. Deux cas peuvent alorsse prsenter : celui ou nest pair et celui ou nest impair.

    a) n est pair

    Dans ce cas la mdiane est gale la moyenne arithmtique de a(k) et dea(k+1) o k est tel que n = 2k et o a(k) et a(k+1) sont les valeurs associes ket k+1

    Exemple : si l'on prend la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4,5}.

    On a donc le tableau suivant (o les valeurs sont classes par ordre croissant):

    Puisque n=20, n est pair. Donc n= 2k implique 20 = 2k soit k = 10 et k+1 = 11. Lesvaleurs associes sont a(k) = 3 et a(k+1) = 3. Par consquent :

    Me = [a(k)+a(k+1)]/2=(3+3)/2=3

  • 8/7/2019 cours030202

    40/188

    40

    On peut aussi appliquer la formule propose par le tableur EXCEL ( cf. la noticetechnique sur le site de Microsoft :http://support.microsoft.com/kb/103493/fr4.

    Dans ce cas, on doit calculer Me de la faon suivante :

    Me = a(k) + [ f x [ a(k+1) - a(k)] ]

    Pour comprendre cette formule, il faut dabord dfinir g :

    g = [(1/2) (n-1)] +1.

    Une fois que lon a dfinit g, on peut en dduire k et f :

    k reprsente le rang de la valeur dans le classement du tableau ci-dessus et

    est gal la partie entire de g.

    f est la partie dcimale de g.

    a(k) est la valeur associe au rang k

    a(k+1) est la valeur associe au rang k+1.

    Si lon applique cette formule, on voit que :

    g = [(1/2)(20-1)]+1=10,5

    Par consquent k= 10 et f = 0,5. On a donc a(k) = 3 et a(k+1)=3. Ds lors :

    Me = 3 + [0,5(3-3)] = 3

    4La notice technique sur le site de Microsoft ( http://support.microsoft.com/kb/103493/fr ) prsente la

    formule diffremment mais aboutit au mme rsultat.

    http://support.microsoft.com/kb/103493/frhttp://support.microsoft.com/kb/103493/frhttp://support.microsoft.com/kb/103493/frhttp://support.microsoft.com/kb/103493/frhttp://support.microsoft.com/kb/103493/frhttp://support.microsoft.com/kb/103493/fr
  • 8/7/2019 cours030202

    41/188

    41

    b) n est impair

    Dans ce cas la mdiane est gale a(k+1) o k est dfini par 2k+1 = n et oa(k+1) est la valeur associe k+1

    Exemple : si l'on prend la srie prcdente mais que l'on enlve le 20me

    lment, onalors la srie { 4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4 } ou n = 19 et letableau suivant (o les valeurs sont classes par ordre croissant) :

    2k+1 = n donne donc 2k+1 = 19, cest--dire k=9. Donc k+1 = 10 .

    Par consquent la mdiane est gale a(k+1) soit 3.

    On peut, comme dans le cas o n est pair, applique la formule propose par letableur EXCEL et on obtiendra le mme rsultat.

  • 8/7/2019 cours030202

    42/188

    42

    3 - Les statistiques de dispersion

    A - Minimum, maximum, intervalle de variation et rapport de variation

    1) Minimum et maximum dune srie

    Revenons au tableau de statistiques rsumes dans lequel figure, pour certaines desvariables du tableau 1, les valeurs minimale et maximale de la srie.

    Tableau de statistiques rsumes pour certaines des variables du tableau 1

    Ces deux valeurs donnent immdiatement une certaine idede la dispersion. On voitpar exemple que les carts entre les superficies des pays, de mme que lcart entreles populations sont trs importants.

    2) Intervalle de variation (ou tendue )

    Lintervalle de variation (IV) ou ltendue de la srie est simplement une faon de

    rsumer le minimum et le maximum de la srie en un seul chiffre. On lobtient ainsi :

    Intervalle de variation de la srie = valeur maximale Valeur minimale

    Dans le tableau ci-aprs, lintervalle de variation a t ajout sur la dernire lignepour les 8 sries :

    Tableau de statistiques rsumes pour certaines des variables du tableau 1

    La dernire ligne donne lintervalle de variation (arrondi au nombre entier le plusproche), cest--dire la diffrence entre la valeur maximale et la valeur minimale.

  • 8/7/2019 cours030202

    43/188

    43

    3) Rapport de variation

    Le rapport de variation est simplement le rapport de la valeur maximale la valeurminimale. Ainsi, si lon divise le PIB par habitant maximum par le PIB par habitantminimum en 2006, on obtient :

    On voit ainsi que lcart est pratiquement de 1 100 puisque le PIB/habitant duLuxembourg est 99 fois suprieur celui de lInde. Naturellement, il sagit de chiffresexprims en dollars courant. Il faudrait, pour tre plus prcis, les exprimer en paritde pouvoir dachat.

    B - Intervalle interquartile

    Lintervalle de variation ne donne quune ide imprcise et parfois fausse de ladispersion de la srie, car les valeurs extrmes peuvent tre exceptionnelles et lereste de la population statistique tre concentr sur un intervalle beaucoup plusretreint. On peut parfaitement sen rendre compte dans le tableau ci-dessus, o lesintervalles de variation sont normes pour les superficies et pour les populations, carde toutes petites les (comme Malte) sont compares avec des pays ayant presquela taille dun continent (Russie, Chine, Inde). Do lide de calculer lintervalleinterquartile qui donne une ide plus prcise de la dispersion des valeurs dunesrie (ou dune distribution). Avant de dfinir lintervalle interquartile, il convient

    cependant de dfinir les quartiles.1) Quartiles

    Les quartiles sont les trois valeurs qui partagent la population, dont les valeurs ontpralablement t classes par ordre croissant, en quatre sous populations demme taille. On les dsigne respectivement par Q1, Q2 et Q3 .

  • 8/7/2019 cours030202

    44/188

    44

    2) Calcul des quartiles

    On notera que Q2 = Me. Autrement dit, le deuxime quartile nest autre que lamdiane que nous avons dj tudie. Il est important de noter quil nexiste pasdalgorithme universellement accept pour dterminer les quartiles Q1 et Q3.

    Dans ce qui suit, nous utiliserons la formule employe par le logiciel EXCEL deMicrosoft5.

    Prenons lexemple de la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, ona n=20

    Le calcul de Qi (i=1,2 ou 3) seffectuera ds lors au moyen la formule suivante :

    Qi = a(k) + [ f x [ a(k+1) - a(k)] ]

    Sagissant du premier quartile on aura donc :

    Q1 = a(k) + [ f x [ a(k+1) - a(k)] ]

    Pour comprendre cette formule, il faut dabord dfinir g :

    g = [(1/4) (n-1)] +1.

    5 Voir la notice technique sur le site de Microsoft : http://support.microsoft.com/kb/103493/fr . La

    notice prsente la formule diffremment mais aboutit au mme rsultat. Les principales autresmthodes de calcul des quartiles sont rsumes sur le siteMathworld. Lavantage de la mthodeMicrosoft est quil nest pas ncessaire dappliquer une formule diffrente suivant que n estpair ou impair.

    Le logiciel Mathematica 6, dtermine quant lui les quartiles de la faon suivante :

    Sagissant de la srie prcdente, on trouve ainsi Q3 = 11,175 avec Mathematica :

    Un autre algorithme de calcul est propos dans lannexe ce chapitre.

    http://support.microsoft.com/kb/103493/frhttp://support.microsoft.com/kb/103493/frhttp://mathworld.wolfram.com/Quartile.htmlhttp://mathworld.wolfram.com/Quartile.htmlhttp://mathworld.wolfram.com/Quartile.htmlhttp://support.microsoft.com/kb/103493/fr
  • 8/7/2019 cours030202

    45/188

    45

    Une fois que lon a dfinit g, on peut en dduire k et f : k reprsente le rang de la valeur dans le classement du tableau ci-dessous et

    est gal la partie entire de g f est la partie dcimale de g. a(k) est la valeur associe au rang k et a(k+1) est la valeur associe au rang

    k+1 Si lon applique cette formule, on voit que :

    g = [(1/4)(20-1)]+1=5,75

    Par consquent k= 5 et f = 0,75. On a donc a(k) = 2 et a(k+1)=2. Ds lors :

    Q1 = 2 + [0,75 x (2-2)] = 2

    On peut suivre la formule sur le tableau ci-aprs :

    Le calcul de Q3 seffectue au moyen de la mme formule que pour Q1, soit :

    Q3 = a(k) + [f x [a (k+1) - a(k)]]

    Mais avec un changement dans la dfinition de g. Dsormais on a :

    g = [(3/4) (n-1)] +1

    Prenons toujours lexemple de la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3,4, 5}, on a n=20. Ds lors :

    g = [(3/4) (n-1)] +1 = [(3/4)(20-1)]+1=15,25

    Par consquent k= 15 et f = 0,25. On a donc a(k) = 4 et a(k+1)=4. Ds lors :

    Q3 = 4 + [0,25 x (4-4)] = 4

  • 8/7/2019 cours030202

    46/188

    46

    On peut suivre la formule sur le tableau ci-aprs :

    3) Intervalle interquartile

    L'intervalle interquartile (IIQ) est la diffrence entre le troisime quartile et lepremier quartile. Il s'crit :

    IIQ = Q3 - Q1

    L'intervalle interquartile sert apprcier la dispersion de la srie, de faon absolue,ou bien par comparaison avec une autre srie ( condition que les valeurs de lautresrie soient exprimes dans la mme unit). En effet, les valeurs Q

    1et Q

    3dlimitent

    une plage au sein de laquelle environ6 50% des valeurs de la srie sontconcentres. Plus cet intervalle est large, plus la srie est disperse. Danslexemple que nous avons utilis, lIIQ est gal 4-2 = 2.

    Le tableau ci-aprs donne la mdiane, Q1 et Q3 , ainsi que lintervalle interquartilepour certaines des variables du tableau 1 . Les calculs ont t effectus avecMicrosoft EXCEL en utilisant la mme formule que celle propose ci-dessus etdonnent par consquent, sauf erreur, les mmes rsultats que si les calculs sonteffectus avec une machine calculer ou la main (certains problmes darrondis

    peuvent crer de lgres divergences non significatives).

    6 Cest pour cette raison que les algorithmes de calcul diffrent.

  • 8/7/2019 cours030202

    47/188

    47

    Tableau de statistiques rsumes pour certaines des variables du tableau 1

    Prenons lexemple de la densit de population. Q1, Q3 et lintervalle interquartile

    nous indiquent respectivement des chiffres gaux 74, 212 et 138 (cest--dire 212-74). Cela signifie quenviron la moiti de nos 35 pays a une densit de populationcomprise entre 74 et 212, et que lcart entre ces deux bornes est de 138. On peutgalement calculer le rapport Q3/Q1 qui est ici de 212/74 = 2,86, alors que le rapportde variation (valeur maximale/valeur minimale est de 6356/8 = 794.5 ). Ces rsultatscompltent ceux dj indiqus par la moyenne et lintervalle de variation. Ils nousmontrent aussi la difficult de rsumer correctement une srie statistique par unchiffre. Cest une des raisons pour lesquelles les graphiques sont de plus en plusutiliss de prfrence aux statistiques rsumes. En effet, non seulement ils sontplus parlants que les tableaux, mais aussi, ils rsument mieux la srie ou ladistribution, quune kyrielle de statistiques telles que celles que nous sommes en

    train de calculer.

    Dautant que ces statistiques rsumes, bien quintressantes et dj fortnombreuses, restent encore insuffisantes. Elles peuvent en effet tre compltes partrois autres indicateurs que nous allons tudier maintenant : La variance, lcart-typeet le coefficient de variation

  • 8/7/2019 cours030202

    48/188

    48

    C - Variance, cart-type et coefficient de variation

    Ces trois statistiques sont lies entre elles. Elles sont toutes les trois des indicateursde la dispersion dune srie par rapport sa valeur moyenne. Le plus simple est decommencer par ltude de la variance.

    1) La variance

    La variance est un indicateur de la dispersion dune srie par rapport sa moyenne.De mme que la moyenne, elle se rsume un seul chiffre qui sobtient par un calculque nous allons dcomposer ci-aprs.

    a) Dfinition

    La dfinition de la variance dune srie de chiffres est donne par la formule7 :

    O :

    V dsigne la variance des nvaleurs associes aux nunits statistiques de lapopulation. Chacune de ces valeurs est dsigne par xi , le i tant un indicequi varie de 1 n (i = 1 .,n).

    est la moyenne arithmtique simple des nvaleurs associes aux units

    statistiques xi (i= 1, , n).

    7 Nous donnons ici la formule de la variance des valeurs associes aux units statistiques dunepopulation et non la variance dun chantillon de cette population, dont la dfinition est lgrementdiffrente. En effet, pour calculer la variance dun chantillon, on divise par n-1 au lieu de diviser parn, mais dans ce cas le n de lchantillon est videmment beaucoup plus petit que le n de lapopulation et lon diffrencie alors les deux en dsignant par N le nombre dunits statistiques de lapopulation et par n le nombre dunits statistiques de lchantillon. De plus, si lon veut extraire

    plusieurs chantillons de la population, on est amen rajouter un indice aux n pour les distinguer (onprendra alors lindice j puisque lindice i est dj utilis pour dsigner les units statistiques elles-mmes).

  • 8/7/2019 cours030202

    49/188

    49

    b) Exemple

    Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} ou n=20. Pourcalculer la variance de cette srie, on procde ainsi :

    Toujours se ramener une srie :par exemple, si au lieu davoir une srieon avait la distribution suivante :

    Il faudrait dabord la transformer en srie.

    Calculer la moyenne arithmtique simple :

    Retrancher ensuite cette moyenne de chacune des 20 valeurs de la srie(colonne 3 du tableau ci-aprs ).

    On obtient ainsi une srie qui comprend des valeurs ngatives (car certainesvaleurs de la variable sont infrieures la moyenne et donc si on retranche lamoyenne elles deviennent ngatives) et des valeurs positives (car certainesvaleurs de la variable sont suprieures la moyenne et donc si on retranchela moyenne elles restent positives).

    Afin de tenir compte la fois des distances positives et ngatives, on ne peutpas additionner immdiatement les valeurs de la colonne 3. Il faut dabordlever au carr chacune de ces valeurs, de faon obtenir une srie devaleurs positives (colonne 4).

    Cette srie de valeurs positives reflte dj en elle-mme la dispersion parrapport la moyenne. Mais il faut encore additionner ces valeurs pour avoirun chiffre unique (dernire valeur en gras dans la colonne 4)

    Diviser ensuite ce total par n, pour avoir en fait une sorte de moyenne. Cestpour cela que lon dit que la variance nest finalement que la moyenne ducarr des carts la moyenne . Et lon obtient la variance de notre srie dechiffres, soit ici :

  • 8/7/2019 cours030202

    50/188

    50

    Tableau pour la disposition du calcul de la variance

    c) Utilit de la variance

    La variance nest pas dune grande utilit en soi. On peut seulement dire que pluselle est leve, plus la dispersion autour de la moyenne est leve. Mais comme lescarts la moyenne ont t levs au carr, le chiffre obtenu, quoiquexprim danslunit de la variable, est gnralement assez lev et encombrant . Cestpourquoi, on utilise surtout la variance comme calcul intermdiaire pour obtenirlcart-type et le coefficient de variation.

  • 8/7/2019 cours030202

    51/188

    51

    2) Lcart-type

    a) Dfinition

    La dfinition de lcart-type dune srie de chiffres est donne par la formule :

    En dautres termes, lcart-type est gal la racine carre de la variance.

    b) Exemple

    Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} ou n=20.

    Nous voulons calculer lcart-type. Nous avons dj calcul la variance :

    V(x)=1,81

    Il suffit donc de prendre la racine carre de la variance et lon obtient :

    c) Utilit de lcart-type

    De faon gnrale :

    si lcart-type est faible, cela signifie que les valeurs sont assez concentresautour de la moyenne.

    si lcart-type est lev, cela veut dire au contraire que les valeurs sont plusdisperses autour de la moyenne.

    Exemple : Dans une usine, le fait davoir un cart-type aussi bas que possible peutconstituer un objectif de contrle de qualit. Soit une entreprise qui fabrique uncertain composant et quun des lments du contrle de la qualit consiste mesurer le diamtre du composant. Chaque composant aura donc son diamtremesur. On calculera ensuite le diamtre moyen, puis lcart-type. Si lcart-type estfaible, cela signifie que les pices ont dans lensemble un diamtre proche de lamoyenne, donc que leur diamtre se ressemble. la limite, un cart-type nul signifieque toutes les pices ont le mme diamtre. Inversement, plus lcart-type est lev,plus il y a de pices dont le diamtre scarte de la moyenne et qui risque de ne pascadrer avec le systme auxquelles elles sont destines.

  • 8/7/2019 cours030202

    52/188

    52

    Une autre utilit de lcart-type est de servir de bornes. On regardera par exemplecombien de valeurs de la srie sont comprises dans lintervalle dfini par :

    Dans lexemple de S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} , dontnous avons dj calcul la moyenne simple (2,7), nous obtenons lintervalle suivant :

    [2,7 1,345 ; 2,7 + 1,345] = [1,355 ; 4,045]

    Pour savoir combien dunits ont des valeurs comprises dans cet intervalle, il fautclasser la srie par ordre croissant des valeurs de la variable et ensuite encadrer lesvaleurs comprises dans lintervalle. On voit ainsi que 14 units sur 20 ont des valeurscomprises dans lintervalle, ce qui reprsente 70% de la population. Si ces valeurs serapportaient aux caractristiques des pices dun processus industriel on pourrait

    juger que la qualit est acceptable ou bien au contraire se fixer comme objectifdaugmenter le nombre de valeurs qui sont dans cet intervalle. On voit que cetintervalle est avec lintervalle interquartile une autre faon de mesurer la dispersiondune srie.

    Nombres dunits statistiques dont la valeur est comprise dans lintervalle

  • 8/7/2019 cours030202

    53/188

    53

    3) Le coefficient de variation

    Lcart-type est un outil intressant pour mesurer la dispersion dune srie, ainsi quenous venons de le voir. Mais il possde une limite : Il est est exprim dans lunitde la variable dont il mesure la dispersion des valeurs.

    Ainsi, par exemple, si on veut comparer les dispersions de deux sries qui sontexprimes dans des units diffrentes, on ne peut pas.

    Le tableau de statistiques rsumes ci-aprs donne lcart-type de certaines desvariables du tableau 1. On peut regarder chaque cart-type et constater quil estlev ou pas, mais on ne pourrait comparer chaque cart-type qu un autre cart-type exprim dans la mme unit.

    Par exemple, si lon avait aussi la srie des ges mdians de lanne 1997 pour lesmmes 35 pays, on pourrait regarder si la dispersion a augment ou diminu en 10

    ans, car les deux cart-types seraient exprims dans la mme unit (lanne).

    Par contre, on ne peut pas dire, en regardant lcart-type des densits par habitanten 2006 (qui est de 138) que la distribution de valeurs est plus groupe autour de lamoyenne que dans le cas des PIB par habitant de 2006, dont lcart-type estpourtant beaucoup plus lev (17 239). Car comme les deux sries sont exprimesdans des units diffrentes, elles ne sont pas comparables.

    Tableau de statistiques rsumes pour certaines des variables du tableau 1

    Do lide de calculer le coefficient de variation qui est gal lcart-type divispar la moyenne, cest--dire :

  • 8/7/2019 cours030202

    54/188

    54

    Le tableau ci-dessus donne le coefficient de variation de certaines des variables dutableau 1.Cette fois on peut comparer les dispersions des diffrentes sries, car lecoefficient de variation est un nombre sans dimension. Sil est gal 0, cest quetoutes les valeurs de la srie sont identiques. Plus il est lev et plus les valeurs dela variable sont disperses. Et si lon compare par exemple la dispersion des

    densits la dispersion des PIB, on peut dire que les densits par habitant sont aumoins 4 fois plus disperses que les PIB par habitant (2,94/0,69=4,26).

  • 8/7/2019 cours030202

    55/188

    55

    Annexe : Mthode alternative pour le calcul des quartiles

    Cette mthode ne correspond pas celle employe par EXCEL, ni par les autreslogiciels de calcul. Elle nest donne ici qu titre dinformationparce quelle est

    la plus logique. Cest aussi la mthode qui est propose dans Wikipedia (voirhttp://fr.wikipedia.org/wiki/Crit%C3%A8res_de_position ) :

    i) Toujours se ramener une srie : Si les donnes se prsentent sous formed'une distribution par valeurs, convertir la distribution en srie.

    ii) Classer la srie : Une fois la srie constitue, l'ordonner en classant les chiffrespar ordre croissant.

    iii) Dterminer le quotient et le reste de la division de n par 4 : Soit n le nombre

    d'lments de la srie et p le quotient de la division de n par 4. Quatre cas peuventse prsenter, suivant les quatre valeurs possibles du reste de la division de n par 4.On peut en effet avoir n=4p (pas de reste) ; n=4p+1 (reste 1); n=4p+2 (reste 2);n=4p+3 (reste 3). Envisageons successivement ces quatre cas .

    a) Cas o n = 4p

    C'est le cas o, quand on divise n par 4, on trouve p et que le reste est nul. Dans cecas, on a :

    Q1 = moyenne entre la pe et (p+1)e valeur.

    Q2 = Me = moyenne entre la (2p)e valeur et la (2p+1)e valeur.

    Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur

    Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5},on a n = 4 p = 20 p=5.

    http://fr.wikipedia.org/wiki/Crit%C3%A8res_de_positionhttp://fr.wikipedia.org/wiki/Crit%C3%A8res_de_position
  • 8/7/2019 cours030202

    56/188

    56

    En classant cette srie on obtient le tableau suivant :

    Fichier EXCEL

    Par consquent, on a :

    Q1 = moyenne entre la pe et la (p+1)e valeur =(2+2)/2=2

    Q2 = Me = moyenne entre la (2p)e valeur et la (2p+1)e valeur = (3+3)/2=3

    Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur = (4+4)/2=4

    Les 4 groupes de valeurs sont : {{0, 1, 1, 1, 2}, {2, 2, 2, 2, 3}, {3, 3, 3, 3, 4}, {4, 4, 4, 5,5}}

    b) Cas o n = 4p + 1

    Dans ce cas, le reste de la division par 4 est 1 et l'on a :

    Q1 = moyenne entre la pe et la (p+1)e valeur.

    Q2 = (2p+1)e valeur.

    Q3 = moyenne entre la (3p+1)e valeur et la (3p+2)evaleur.

    Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3} on an =17 et n = 4p + 1, avec p = 4.

    http://www.mazerolle.fr/stats/Excel/chapitre-fichier06.xlshttp://www.mazerolle.fr/stats/Excel/chapitre-fichier06.xls
  • 8/7/2019 cours030202

    57/188

    57

    En classant cette srie on obtient le tableau suivant :

    Fichier EXCEL

    Par consquent, on a :

    Q1 = moyenne entre la p

    e

    et la (p+1)

    e

    valeur = (1+2)/2=1,5Q2 = (2p+1)

    e valeur = 2

    Q3 = moyenne entre la (3p+1)e valeur et la (3p+2)evaleur=(3+4)/2=3,5

    Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, {2, 2, 2, 2}, 2, {3, 3, 3, 3}, {4, 4, 4, 5}}

    On a exclu Q2=Me pour obtenir 4 groupes gaux.

    c) Cas o n = 4p + 2

    Dans ce cas, le reste de la division par 4 est 2 et l'on a :

    Q1 =(p+1)e valeur.

    Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur.

    Q3 = (3p+2)e valeur

    Exemple :si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3}, on an=18 et n = 4p+2, avec p= 4.

    http://www.mazerolle.fr/stats/Excel/chapitre-fichier07.xlshttp://www.mazerolle.fr/stats/Excel/chapitre-fichier07.xls
  • 8/7/2019 cours030202

    58/188

    58

    En classant cette srie on obtient le tableau suivant :

    Fichier EXCEL

    Par consquent, on a :

    Q1 =(p+1)e valeur = 2

    Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur = (2+3)/2=2,5

    Q3 = (3p+2)e valeur =3

    Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, {3, 3, 3, 3}, 3, {4, 4, 4, 5}}

    On a exclu Q1 et Q3 pour obtenir 4 groupes gaux.

    d) Cas o n = 4p + 3

    Dans ce cas, le reste de la division par 4 est 3 et l'on a :

    Q1 =(p+1)e valeur.

    Q2 = (2p+2)e valeur.

    Q3 = (3p+3)e valeur.

    Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4} ona n=19 et n = 4p+3, avec p= 4.

    http://www.mazerolle.fr/stats/Excel/chapitre-fichier08.xlshttp://www.mazerolle.fr/stats/Excel/chapitre-fichier08.xls
  • 8/7/2019 cours030202

    59/188

    59

    En classant cette srie on obtient le tableau suivant :

    Fichier EXCEL

    Par consquent, on a :

    Q1 =(p+1)

    e

    valeur = 2Q2 = (2p+2)

    e valeur = 3

    Q3 = (3p+3)e valeur = 4

    Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, 3, {3, 3, 3, 3}, 4, {4, 4, 4,5}}

    On a exclu Q1, Q2 et Q3 pour obtenir 4 groupes gaux.

    http://www.mazerolle.fr/stats/Excel/chapitre-fichier09.xlshttp://www.mazerolle.fr/stats/Excel/chapitre-fichier09.xls
  • 8/7/2019 cours030202

    60/188

    60

    Tableau rcapitulatif

    Fichier EXCEL

    http://www.mazerolle.fr/stats/Excel/Formules-de-calcul-des-quartiles.xlshttp://www.mazerolle.fr/stats/Excel/Formules-de-calcul-des-quartiles.xls
  • 8/7/2019 cours030202

    61/188

    61

    Chapitre 4Indices et progressions

    1 IndicesA Dfinitions

    1)Nombre indice2)Srie indiceB Indice temporel et indice de situation

    1)Indice temporel2)Indice de situation

    C Indice lmentaire et indice synthtique1)Indice lmentaire2)Indice synthtique

    D Indice dvolution de la valeur dun panier de biens1)Dfinition de la valeur dun panier de biens2)Indice de LASPEYRES

    a)Indice dvolution des prixb)Indice dvolution des quantits

    2 ProgressionsA Variation absolueB Taux de croissance sur une priodeC Taux de croissance sur plusieurs priodes

    1)Formule directe (en passant par laccroissement global)2)Formule indirecte (en passant par les accroissements successifs)3)Exemple numrique4)Lien avec la moyenne gomtrique

    D Taux de croissance du produit de 2 valeursE Taux de croissance du rapport de 2 valeursF Complments

    1)Augmentations et/ou diminutions successives2)Augmentation en % suivie dune diminution identique en pourcentage3)Temps de doublement dune grandeur4)Exemple dutilisation en conomie

    Nous avons vu au chapitre 2 que les chiffres dune srie pouvaient tre prsentssous forme deffectifs, de pourcentages et de pourcentages cumuls. Mais ce nest

    pas tout : les chiffres dune srie peuvent aussi tre mis sous forme dindices. Deplus, il est frquent que lon souhaite tudier une srie dont les valeurs changent aucours du temps ou bien, plus simplement, que les valeurs dune seule sriecorrespondent diffrentes valeurs dans le temps (il sagit alors dune sriechronologique). Dans ces deux cas, le calcul dun indicateur de progression (tauxde variation, taux de croissance) va permettre de rsumer lvolution avec un seulchiffre. Les indices et les progressions sont aussi utiliss pour comparer dessituations (gnralement deux sries dont les valeurs changent selon le lieu).

  • 8/7/2019 cours030202

    62/188

    62

    1 - Indices

    A - Dfinition

    1) Nombre indice

    Un nombre indice est une mesure de la variation dune grandeur compare unevaleur de rfrence gale 100 et appele base .

    Exemple : En dcembre 2007, l'Indice des prix la consommation de l'INSEE (IPC),base 100 en 1998, s'tablissait ainsi :

    Source :http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29 .

    La valeur de rfrence est ici la valeur 100 en 1998. A partir de ce tableau, on peutvoir que :

    les prix ont augment de 17,70% entre 1998 et 2007 (en 10 ans) les prix ont augment de 117,26-114,73=2,53% entre dcembre 2006 et

    novembre 2007 (en 1 an) Les prix ont augment de 117,7-117,26=0,44% entre novembre 2007 et

    dcembre 2007 (en un mois)Certains indices ne sont pas exprims par rapport une base 100, mais par rapport une base 1. C'est le cas de l' indice S.I.E.R

    Exemple : Lindice de trafic routier en le de France, dit indice S.I.E.R . (ServiceInterdpartemental d'Exploitation Routire) est gal 1 quand le trafic est fluide,cest--dire quand il faut en moyenne 1 minute pour faire un km. Si lindice est gal 2, cela signifie que les temps de parcours sur le rseau sont deux fois plus longs quesi le trafic est fluide. Sil est gal 3, ils sont 3 fois plus longs et ainsi de suite.(Source :www.sytadin.equipement.gouv.fr ).

    2) Srie indice

    Une srie indice est une srie divise par une de ses valeurs et ventuellementmultiplie par 100.

    Exemple : Soit la srie S1 = {1, 3, 7, 4, 8, 6, 11, 9}

    Pour transformer cette srie en sri indice, nous allons diviser chaque lment de lasrie par l'un des lments, par exemple 7 (troisime lment) et ensuite multiplierchaque lment par 100. On obtient alors :

    I1 = {14,3 ; 42,9 ; 100 ; 57,1 ; 114,3 ; 85,7 ; 157,1 ; 128,6}

    http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29http://www.sytadin.equipement.gouv.fr/http://www.sytadin.equipement.gouv.fr/http://www.sytadin.equipement.gouv.fr/http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29
  • 8/7/2019 cours030202

    63/188

    63

    I1 est une srie indice. Sa base "100" est le troisime lment de la srie. On voitainsi que le choix de la "base" est arbitraire. On aurait pu aussi diviser par le premierlment de la srie. Mais plutt que de partir de la srie initiale S1, on peut aussipartir de I1 et diviser chaque lment par 14,3 et multiplier par 100. On a alorseffectu un changement de base, la nouvelle base tant le premier lment de la

    srie.

    I2 = [I1/I1(1)]*100 = {100, 300, 700, 400, 800, 600, 1100, 900}

    Les deux graphiques ci-dessous, du type "nuages de points relis" reprsententrespectivement les sries indices I1 et I2. On remarque que le changement de basena pas dincidence sur la forme de la courbe, mais seulement sur les valeursindiques par lchelle de lordonne (la position relative de ces valeurs les unes parrapport aux autres sur l'chelle demeurant inchange).

    B - Indice temporel et indice de situation

    1) Indice temporel

    Un indice temporel est un indice qui concerne une comparaison de valeurs dans letemps. La base est dans ce cas la date de rfrence.

    Exemple : Une action a cot 54,10 euro l'ouverture des marchs boursiers et 54euros la fermeture. Lindice de variation du cours de laction sur la sance, donnpar (54/54,1)*100 = 99,815, est un indice temporel, la base tant lheure delouverture du march le jour considr.

    2) Indice de situation

    Un indice de situation, galement appel indice spatial, est un indice qui concernenimporte quelle comparaison de valeurs, hormis les comparaisons temporelles.

    Exemple : En 2002, le nombre de victimes daccidents de la route en France a tde 129 par million dhabitants, alors quau Portugal il a t de 165 par milliondhabitants. Lindice de situation du nombre de victimes daccidents est gal (165/129)*100 = 127,9, si lon prend le nombre daccidents en France comme base.

  • 8/7/2019 cours030202

    64/188

    64

    C - Indice lmentaire et indice synthtique

    1) Indice lmentaire

    Un indice lmentaire est un indice qui renseigne sur lvolution temporelle ou

    situationnelle (spatiale) dune seule valeur. Il a pour dfinition :

    O V0

    reprsente la valeur de rfrence et Vtla valeur qui est compare la valeur

    de rfrence.

    Dans le cas dun indice temporel, 0 reprsente la priode rfrence (la base) et t la priode que lon compare la priode de rfrence.

    Dans le cas dun indice de situation ou indice spatial, 0 reprsente la situation derfrence (la base) et t la situation que lon compare la situation de rfrence.

    Exemple : le Ph , ou potentiel hydrogne de leau dune piscine a t mesur 8h du matin. La mesure rvle quil est gal sa valeur de neutralit (soit 7 sur unechelle qui varie de 1 14). Le soir 18 h, on mesure nouveau le Ph et cettevaleur est alors de 5. Lindice lmentaire de la variation du Ph entre 8 h et 18 h estdonn par :

    2) Indice synthtique

    Un indice synthtique est un indice qui rsume lvolution de plusieurs grandeurs :plusieurs prix, plusieurs quantits, plusieurs valeurs (prix x quantits), etc.

    Exemple : Le prix dun bien x est gal 1,7 euros la date 0. la date t, il est gal 2,5 euros. Le prix dun bien y est gal 3 euros la date 0 et 2 euros la date t.

    Les donnes sont rsumes dans le tableau ci-aprs :

    Dates

    0 t

    Biensx 1,7 2,5

    y 3 2

    Nous pouvons calculer les indices lmentaires dvolution des prix du bien x et dubien y. Mais nous pouvons aussi calculer lindice synthtique dvolution du prix desdeux biens. Pour calculer cet indice synthtique, nous allons faire une moyennearithmtique de chacun des indices lmentaires.

  • 8/7/2019 cours030202

    65/188

    65

    On obtient alors le tableau suivant :

    Dates

    0 t Indice lmentairecoefficients

    de

    pondration

    Indice * Coefficient

    Biensx 1,7 2,5 147,06 0,5 73,53

    y 3 2 66,67 0,5 33,33Indice synthtique 106,86

    La colonne "indices lmentaires" est obtenue en divisant les prix en t par les prix en0 et en multipliant ce rapport par 100 :

    Ixt/0 = Indice lmentaire du prix de x = (2,5/1,7)*100=147,06

    Iyt/0 = Indice lmentaire du prix de y = (2/3)*100= 66,67

    Pour obtenir l'indice synthtique de l'volution du prix des deux biens, on fait lamoyenne des deux indices :

    It/0 = Indice synthtique = (147,06 * 0,5) + (66,67*0,5)= 73,53+33,3=106,86

    Lorsque l'on fait une moyenne simple, on suppose que la contribution de chaquebien l'volution totale est la mme. En ralit cela revient attribuer un coefficient1/2 chaque bien. Si l'on dsigne par x le coefficient de pondration de x et par yle coefficient de pondration de y on aura x = 0,5 et y =0,5 et donc x + y = 1.L'indice synthtique d'volution du prix des deux biens pourra alors s'crire :

    Dans le cas o x = 0,5 et y =0,5 on aura :

    Cependant, nous pouvons choisir de pondrer chaque bien par des coefficients x ety diffrents de mais toujours tels que x + y = 1. Si l'on prend par exemple x =1/4 et y = 3/4, on obtient :

    Et enfin si l'on prend x = 3/4 et y = 1/4, on obtient :

  • 8/7/2019 cours030202

    66/188

    66

    L'intrt du choix d'une pondration diffrente de la pondration 50/50 apparatmieux si l'on tudie un cas particulier d'indice synthtique : l'indice d'volution du prixd'un panier compos de plusieurs biens reprsentatifs, communment appel indiced'volution des prix.

    D - Indice d'volution de la valeur d'un panier de bien

    En conomie, on s'intresse particulirement l'volution du niveau gnral des prix.Cette question est dlicate car chacun s'intresse des prix diffrents. Chacun a sonpropre panier reprsentatif de biens dont l'volution des prix le proccupe.

    Malgr ces considrations qui pourraient conduire renier la notion d'indice gnraldes prix, la plupart des conomistes se rfrent l'indice des prix calcul par l'INSEE(Institut National de la Statistique et des tudes conomiques).

    1) Dfinition de la valeur d'un panier de biens

    La valeur de chaque produit d'un panier de bien est le produit dun prix par unequantit. Soit V

    t

    i = ptix qt

    ila valeur du bien i, la date t o pti est le prix du bien i la

    date t et qti sa quantit. Par exemple, si pt

    i= 3 euros et que qti=2 units, on a :

    S'il y a nproduits dans le panier (i= 1 n), la valeur totale du panier la date tscrira :

    Exemple : soit le tableau suivant qui donne le prix unitaire en euros et les quantitsde 3 biens la date t :

    pt qt Produit 1 15 3Produit 2 7 9Produit 3 3 11

    La valeur du panier est alors donne par :

    La valeur du panier est donc gale 141 euros.

    Lvolution de la valeur du panier entre les deux dates 0 et tdpend de lvolutiondu prix de chaque bien et de lvolution de la quantit de chaque bien. Il faut les donc

    construire un indice synthtique qui permette dimputer lvolution de la valeur dupanier au composant prix ou la composante quantit. Trois conomistes,

  • 8/7/2019 cours030202

    67/188

    67

    LASPEYRES, PAASCHE et FISHER, ont propos des indices synthtiques diffrentspour mesurer lvolution des composants prix et quantit au sein de la valeur dupanier.

    Le plus frquemment utilis de nos jours est l'indice de LASPEYRES. C'est pourquoi

    nous n'tudierons que cet indice dans ce cours introductif. Le lecteur intress parles deux autres indices synthtiques peut se rfrer l'ouvrage de Bernard PY,2007, Statistique descriptive : nouvelle mthode pour comprendre et bien russir5me dition, Economica.

    L'indice de LASPEYRES permet de mesurer deux volutions :

    -- L'volution des prix des produits composant un panier de biens (indice deLASPEYRES d'volution des prix)

    -- L'volution des quantits de produits composant un panier de biens (indice de

    LASPEYRES d'volution des quantits)

    2) Indice de LASPEYRES

    a) Indice dvolution des prix

    Lindice de LASPEYRES dvolution des prix mesure lvolution, entre deux dates0 et t, des prix des biens qui composent un panier, en prenant comme rfrence lavaleur du panier la date initiale (t = 0) et en supposant que les quantits de biensdans le panier nont pas vari entre 0 et t.

    Sa dfinition est la suivante :

    On voit ainsi que si les prix ne changent pas entre 0 et t (cest--dire si pti = p0

    i ),lindice synthtique de LASPEYRES des prix demeure gal 100. Pour comprendre

    la signification de cet indice et voir comment on le calcule, prenons un exempleconcret.

    http://www.amazon.fr/gp/redirect.html?ie=UTF8&location=http://www.amazon.fr/Statistique-descriptive-Nouvelle-m%C3%A9thode-comprendre/dp/2717853898?ie=UTF8&s=books&qid=1197440547&sr=1-7&tag=httpmazechezt-21&linkCode=ur2&camp=1642&creative=6746http://www.amazon.fr/gp/redirect.html?ie=UTF8&location=http://www.amazon.fr/Statistique-descriptive-Nouvelle-m%C3%A9thode-comprendre/dp/2717853898?ie=UTF8&s=books&qid=1197440547&sr=1-7&tag=httpmazechezt-21&linkCode=ur2&camp=1642&creative=6746
  • 8/7/2019 cours030202

    68/188

    68

    Exemple : Soit le tableau ci-aprs, qui donne les prix et les quantits de deuxproduits 1 et 2, aux dates 0 et t. On peut supposer que le produit 1 est un pantalon etle produit 2 un tee shirt (voir le fichier EXCEL).

    Date 0 Date t

    Produit 1 p01=15 q01=3 pt1=22 qt1=10

    Produit 2 p02=7 q0

    2=9 pt2=5 qt

    2=8

    Dans cet exemple, le prix du bien 1 (pantalon) augmente (de 15 22 euros) tandisque celui du bien 2 (tee shirts) baisse (de 7 5 euros).

    Mais les quantits aussi ont chang. Pour diverses raisons, les gens ont achet plusde pantalons et moins de tee-shirts. Il n'est pas ncessaire que ces quantitsvoluent en sens inverse des prix car il ne s'agit pas dune relation instantane, mais

    d'une volution dans le temps. Pour mesurer l'volution des prix, LASPEYRESsuppose donc que les quantits ne changent pas. Il pose la question : quelle seraitl'volution de la valeur de ce panier si les quantits n'avaient pas chang ?

    Pour rpondre cette question et savoir si l'indice synthtique des prix ainsi dfiniaugmente ou baisse, appliquons la formule de LASPEYRES d'volution des prix :

    On enregistre donc une volution des prix du panier de bien de 2,8 % selon laformule de LASPEYRES.

    b) Indice d'volution des quantits

    Lindice de LASPEYRES des quantits mesure lvolution, entre deux dates 0 et t,des quantits des biens qui composent un panier, en prenant comme rfrence lavaleur du panier la date initiale (t=0) et en supposant que les prix des biens dans lepanier nont pas vari entre 0 et t.

    Sa dfinition est la suivante :

    On voit ainsi que si les quantits ne changent pas entre 0 et t (cest--dire si qti =

    q0i), lindice synthtique de LASPEYRES des quantits demeure gal 100. Pour

    comprendre la signification de cet indice et voir comment on le calcule, prenons unexemple concret.

    http://www.mazerolle.fr/stats/Excel/Laspeyres-exemple01.xls
  • 8/7/2019 cours030202

    69/188

    69

    Exemple : reprenons le tableau prcdent, qui donne les prix et les quantits dedeux produits 1 et 2, aux dates 0 et t voir le fichier EXCEL).

    Date 0 Date t

    Produit 1 p01

    =15 q01

    =3 pt1

    =22 qt1

    =10Produit 2 p02=7 q0

    2=9 pt2=5 qt

    2=8

    Dans cet exemple, la quantit du bien 1 augmente (de 3 10 units) tandis quecelle du bien 2 baisse (de 9 8 units). Pour savoir si l'indice synthtique desvolumes augmente ou baisse, appliquons la formule de LASPEYRES d'volution desquantits :

    On enregistre donc une volution des volumes du panier de bien de 90,74 % selon laformule de LASPEYRES.

    3) Indice des prix de l'INSEE

    Lun des indices synthtiques les plus connus et les plus utiliss est lindice des prix

    la consommation (IPC) publi chaque mois par lINSEE. L'IPC permet de mesurerl'inflation, cest--dire la variation du niveau gnral des prix des biens et desservices consomms par les mnages sur le territoire franais entre deux priodesdonnes. C'est une mesure synthtique des volutions de prix qualit constante.

    Pour le calculer, lINSEE applique la formule de lindice de LASPEYRES des prix un chantillon de quelques 21000 indices lmentaires. Ces 21000 indiceslmentaires sont calculs partir de prix recueillis dans 106 agglomrations de plusde 2000 habitants rparties sur tout le territoire. Lindice couvre plus de 1000 varitsde produits, regroupes en 161 groupes. Pour viter toute tentative de manipulationdes prix, la liste prcise de ces 1000 varits de produits reste confidentielle.

    Actuellement, la priode de rfrence, ou base de lIPC, est 1998. Ci-aprs, lecamembert qui donne la structure des pondrations par grandes catgories deconsommation.

    http://www.mazerolle.fr/stats/Excel/Laspeyres-exemple01.xls
  • 8/7/2019 cours030202

    70/188

    70

    Source : Insee,http://www.insee.fr/fr/indicateur/indic_cons/info_ipc.htm

    LIPC est publi aux environs du 13 de chaque mois et porte sur lvolution des prixdu mois prcdent. Ce chiffre, rgulirement relay par les mdias, est trs attenducar il sert de multiples fonctions conomiques parmi lesquelles la connaissance de

    linflation, la dfinition des objectifs de la politique montaire, mais aussi leversement de pensions et de divers revenus, tels le SMIC, dont le montant est index sur lvolution de lIPC.

    Depuis le milieu de l'anne 2006, l'indice des prix a fait l'objet de critiques et decontroverses. Selon l'conomiste Florence JANY-CATRICE, "Les rflexions les plusintressantes qui ont t dresses pour clairer ces critiques sont celles qui mettenten avant l'ide qu'avec la fin des classes moyennes, ou plus humblement, la fin du"Franais moyen", il devient dlicat pour les individus de s'identifier l'espace derfrence commun dress par l'Insee (c'est--dire le panier moyen de la mnagre)qui, transform en coefficients budgtaires, est un lment central du calcul de

    l'indice" (Le Monde, 5 Mars 2007, "L'acte de naissance du chacun-pour-soi")Pour rpondre ces critiques l'Insee met sur son site Internet, disposition, un