29
Cours de statistique La statistique est une science qui a pour objet le groupement méthodique de faits ou événements répétitifs qui se prêtent à une évaluation numérique dans le temps suivant une loi donnée. Il faut savoir que parmi tous les domaines de la mathématique, celle qui est utilisée à la plus large échelle dans un cadre professionnel dans les entreprises est bien la statistique! Raison pour laquelle ce chapitre est un des plus gros alors que seuls les concepts élémentaires y sont présentés! Il est peut être inutile de préciser que la statistique est beaucoup utilisée en ingénierie, physique théorique, en économétrie, en gestion de projets, dans l'industrie des processus, dans les domaines des assurances vies et non vies, dans l'actuariat ou dans la simple analyse de banque de données (avec MS Excel très souvent... malheureusement....) et la liste est encore longue. Par ailleurs, nous rencontrerons les outils présentés ici assez souvent dans les chapitres de Mécanique des Fluides, de Thermodynamique, des Techniques de Gestion, du Génie Industriel et d'Économétrie (en particulier dans ces deux dernières). Le lecteur pourra donc s'y reporter pour avoir des applications pratiques concrètes des quelques-uns des éléments théoriques les plus importants qui seront vus ici. Signalons également que outre les quelques exemples simples données sur ces pages, de nombreux autres exemples applicatifs sont donnés sur le serveur d'exercices du site dans les catégories Probabilités et Statistiques, Génie Industriel, Économétrie et Techniques de Gestion. Définition: Le but principal de la statistique est de déterminer les caractéristiques d'une population donnée à partir de l'étude d'une partie de cette population, appelée "échantillon" ou "échantillon représentatif". Remarque: Le traitement des données concerne la "statistique descriptive". L'interprétation des données à partir des estimateurs

madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Cours de statistique

La statistique est une science qui a pour objet le groupement méthodique de faits ou événements répétitifs qui se prêtent à une évaluation numérique dans le temps suivant une loi donnée.

Il faut savoir que parmi tous les domaines de la mathématique, celle qui est utilisée à la plus large échelle dans un cadre professionnel dans les entreprises est bien la statistique! Raison pour laquelle ce chapitre est un des plus gros alors que seuls les concepts élémentaires y sont présentés!

Il est peut être inutile de préciser que la statistique est beaucoup utilisée en ingénierie, physique théorique, en économétrie, en gestion de projets, dans l'industrie des processus, dans les domaines des assurances vies et non vies, dans l'actuariat ou dans la simple analyse de banque de données (avec MS Excel très souvent... malheureusement....) et la liste est encore longue. Par ailleurs, nous rencontrerons les outils présentés ici assez souvent dans les chapitres de Mécanique des Fluides, de Thermodynamique, des Techniques de Gestion, du Génie Industriel et d'Économétrie (en particulier dans ces deux dernières). Le lecteur pourra donc s'y reporter pour avoir des applications pratiques concrètes des quelques-uns des éléments théoriques les plus importants qui seront vus ici.

Signalons également que outre les quelques exemples simples données sur ces pages, de nombreux autres exemples applicatifs sont donnés sur le serveur d'exercices du site dans les catégories Probabilités et Statistiques, Génie Industriel, Économétrie et Techniques de Gestion.

Définition: Le but principal de la statistique est de déterminer les caractéristiques d'une population donnée à partir de l'étude d'une partie de cette population, appelée "échantillon" ou "échantillon représentatif".

Remarque: Le traitement des données concerne la "statistique descriptive". L'interprétation des données à partir des estimateurs s'appelle "l'inférence statistique" (ou "statistique inférentielle"), et l'analyse de données en masse la "statistique fréquentielle" (en opposition à l'inférence bayesienne).

Lorsque nous observons un événement prenant en compte certains facteurs, il peut arriver qu'une deuxième observation ait lieu dans des conditions qui semblent identiques. En répétant ces mesures plusieurs fois sur différents objets supposés similaires, nous pouvons constater que les résultats observables sont distribués statistiquement autour d'une valeur moyenne qui est, finalement le résultat possible le plus probable. Dans la pratique, nous n'effectuons cependant parfois qu'une seule mesure et il s'agit alors de déterminer la valeur de l'erreur que nous commettons en adoptant celle-ci comme moyenne mesurée. Cette détermination nécessite de connaître le type de distribution statistique auquel nous avons à faire et c'est ce que nous allons nous attarder (entre autres) à étudier ici (les bases du moins!). Il existe cependant plusieurs approches méthodologiques courantes (les moins courantes n'étant pas citées pour l'instant) face au hasard :

Page 2: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

1. Une toute première consiste à ignorer purement et simplement les éléments aléatoires, pour la bonne raison que l'on ne sait pas comment les intégrer. Nous utilisons alors la "méthode des scénarios" appelé aussi "simulation déterministe". C'est typiquement un outil utilisé par les financiers ou gestionnaires non diplômés travaillant avec des outils comme MS Excel (qui inclut un outil de gestion de scénarios) ou MS Project (qui inclut un outil de type scénarios optimiste, pessimiste, attendu déterministes).

2. Une seconde approche envisageable, quand nous ne savons pas associer des probabilités précises aux futurs événements aléatoires, est la théorie des jeux (cf. chapitre de la Théorie Des Jeux Et De La Décision) où l'on utilise des critères de sélection semi-empiriques comme le critère du maximax, du minimax, de Laplace, de Savage, etc.

3. Enfin, quand nous pouvons lier des probabilités aux événements aléatoires, soit que ces probabilités découlent de calculs ou de mesures, soit qu'elles reposent sur une expérience acquise auprès de situations antérieurs de même nature que la situation actuelle, nous pouvons faire appel aux statistiques descriptives et inférentielles (contenu du présent chapitre) pour tirer des informations exploitables et pertinentes de cette masse de données acquises.

4. Une dernière approche quand nous avons connaissance de probabilités relatives aux issues intervenantes faisant suite à des choix stratégiques est l'utilisation de la théorie de la décision (cf. chapitre de la Théorie Des Jeux Et De La Décision).

Remarque: Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un "indicateur". C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise le biais, l'incertitude et autres caractéristiques statistiques. Nous cherchons en général à ce que l'estimateur soit sans biais, convergeant et efficace.

Introduisons avant de continuer quelques définitions qui vont nous être utiles pour la suite sur le concept d'échantillons et de moyennes :

1. ÉCHANTILLONS

Lors de l'étude statistique d'ensembles d'informations, la façon de sélectionner l'échantillon est aussi importante que la manière de l'analyser. Il faut que l'échantillon soit représentatif de la population (nous ne faisons pas nécessairement référence à des populations humaines!). Pour cela, l'échantillonnage aléatoire est le meilleur moyen d'y parvenir.

Le statisticien part toujours de l'observation d'un ensemble fini d'éléments, que nous qualifions de "population". Les éléments observés, en nombre n, sont tous de même nature, mais cette nature peut être fort différente d'une population à l'autre.

Définitions:

D1. Nous sommes en présence d'un "caractère quantitatif" lorsque chaque élément observé fait explicitement l'objet d'une même mesure. A un caractère quantitatif donné, nous associons une "variable quantitative" continue ou discrète qui synthétise toutes les valeurs possibles que la mesure considérée est susceptible de prendre (ce type d'information étant représenté par des courbes de Gauss, de Bêta, de Poisson, etc.)

Page 3: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Remarque: Nous reviendrons sur le concept de "variable" en statistiques plus loin...

D2. Nous sommes en présence d'un "caractère qualitatif" lorsque chaque élément observé fait explicitement l'objet d'un rattachement unique à une "modalité" choisie dans un ensemble de modalités exclusives (de type: homme | femme) permettant de classer tous les éléments de l'ensemble étudié selon un certain point de vue (ce type d'information étant représenté par des diagrammes à barre, fromages, diagrammes à bulles, etc.). L'ensemble des modalités d'un caractère peut être établi à priori avant l'enquête (une liste, une nomenclature, un code) ou après enquête. Une population étudiée peut être représentée par un caractère mixte, ou ensemble de modalités tel que genre, tranche salariale, tranche d'âge, nombre d'enfants, situation matrinomaile par exemple pour un individu.

D3. Un "échantillon aléatoire" est un échantillon tiré au hasard dans lequel tous les individus d'une population ont la même chance, ou "équiprobabilité" (et nous insistons sur le fait que cette probabilité doit être égale), de se retrouver dans l'échantillon.

D4. Dans le cas contraire d'un échantillon dont les éléments n'ont pas été pris au hasard, nous disons alors que l'échantillon est "biaisé" (dans le cas inverse nous disons qu'il est "non-biaisé")

Remarque: Un petit échantillon représentatif est, de loin, préférable à un grand échantillon biaisé. Mais lorsque la taille des échantillons utilisés est petite, le hasard peut donner un résultat moins bon que celui qui est biaisé...

La notion de "moyenne" ou "tendance centrale" (les financiers appellent cela aussi une "mesure de localisation"...) est avec la notion de "variable" à la base des statistiques.

Cette notion nous semble très familière et nous en parlons beaucoup sans nous poser trop de questions. Pourtant il existe divers qualificatifs (nous insistons sur le fait que ce ne sont que des qualificatifs!) pour distinguer la forme de la résolution d'un problème consistant à calculer la moyenne.

Il faut donc être très très prudent quant aux calculs des moyennes car il y a une fâcheuse tendance dans les entreprises à se précipiter et à utiliser systématiquement la moyenne arithmétique sans réfléchir, ce qui peut amener à de graves erreurs! 

Nous verrons ci-dessous différentes moyennes avec des exemples relatifs à l'arithmétique, au dénombrement, à la physique, à l'économétrie, à la géométrie et à la sociologie. Le lecteur trouvera d'autres exemples pratiques en parcourant l'ensemble du site.

Définitions: Soit des nombres réels, nous avons alors :

D1. La "moyenne arithmétique" ou "moyenne empirique" (la plus communément connue)

définie par le quotient de la somme des n valeurs observées par l'effectif total n:

Page 4: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.1)

et très souvent notée ou encore et est pour toute loi statistique discrète ou continue un estimateur sans biais de l'espérance (mais pas forcément).

Si plusieurs valeurs occurrent plus d'une fois dans les mesures, la moyenne arithmétique sera alors souvent notée formellement:

  (7.2)

et appelée "moyenne pondérée par les effectifs". Enfin, indiquons que dans le cadre de cette démarche, la moyenne pondérée par les effectifs prendra le nom "d'espérance mathématique" dans le domaine d'étude des probabilités.

Nous pouvons tout aussi bien utiliser les fréquences d'apparition des valeurs observées (dites "fréquence des classes"):

  (7.3)

Nous avons alors la "moyenne pondérée par les fréquences de classe":

  (7.4)

Avant de continuer, indiquons que dans le domaine de la statistique il est souvent utile et nécessaire de regrouper les mesures/données dans des intervalles de classe de largeur donnée (voir les exemples plus loin). Il faut souvent faire plusieurs essais pour cela même s'il existe des formules semi-empiriques pour choisir le nombre de classes lorsque nous avons n valeurs à disposition. Une des ses règles semi-empiriques utilisée par de nombreux praticiens consiste à retenir le plus petit nombre entier de classes k tel que:

  (7.5)

la largeur de l'intervalle de classe étant alors obtenue en divisant l'étendue (différence entre la valeur maximale mesurée et la minimale) par k. Par convention et en toute rigueur... (donc rarement respecté dans les notations), un intervalle de classe est fermé à gauche et ouvert à droite: [...,...[.

Ensuite, pour chaque intervalle i le praticien prendra par tradition pour la moyenne entre les deux bornes pour le calcul et la multipliera par la fréquence fi de classe correspondante. Dès lors, le regroupement en fréquence de classe fait que :

1. La moyenne pondérée par les effectifs diffère de la moyenne arithmétique.

Page 5: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

2. Vue l'approximation effectuée elle sera un moins bon indicateur que la moyenne arithmétique

3. Elle est très sensible aux choix du nombre de classes donc médiocre à ce niveau là

Plus loin, nous verrons deux propriétés extrêmement importantes de la moyenne arithmétique et de l'espérance mathématique qu'il vous faudra absolument comprendre (moyenne pondérée des écarts à la moyenne et la moyenne des écarts à la moyenne).

Remarque: Le "mode", noté Mod ou simplement M, est par définition la valeur qui apparaît le plus grand nombre de fois dans une série de valeurs. Dans MS Excel, soulignons que la fonction MODE( ) renvoie la première valeur dans l'ordre des valeurs ayant le plus grand nombre d'occurrences en supposant donc une distribution unimodale.

D2. La "médiane" ou "moyenne milieu", notée (ou plus simplement M), est la valeur qui coupe une population en deux parties égales. Dans le cas d'une distribution statistique continue f(x) d'une variable aléatoire X, il s'agit de la valeur qui représente 50% de probabilités cumulées d'avoir lieu tel que (nous détaillerons le concept de distribution statistique plus loin très en détails):

  (7.6)

Dans le cas d'une série de valeurs ordonnées , la médiane est donc de par sa définition la valeur de la variable telle que l'on ait autant d'éléments qui ont une valeur qui lui est supérieure ou égale, que d'éléments qui ont une valeur qui lui est inférieure ou égale. Elle est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique

Plus rigoureusement:

- Si le nombre de termes est impair, de la forme 2n+1, la médiane de la série est le terme de rang n+1 (que les termes soient tous distincts ou non!).

- Si le nombre de termes est pair, de la forme 2n, la médiane de la série est la demi-somme (moyenne arithmétique) des valeurs des termes de rang n et n + 1 (que les termes soient tous distincts ou non!).

Dans tous les cas, de par cette définition, il découle qu'il y a au moins 50 % des termes de la série inférieurs ou égaux à la médiane, et au moins 50% des termes de la série supérieurs ou égaux à la médiane.

Considérons par exemple la table de salaires ci-dessous:

N° Employé Salaire Cumul employés %Cumul employés

1 1200 1 6%

Page 6: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

2 1220 2 12%3 1250 3 18%4 1300 4 24%5 1350 5 29%6 1450 6 35%7 1450 7 41%8 1560 8 47%9 1600 9 53%

10 1800 10 59%11 1900 11 65%12 2150 12 71%13 2310 13 76%14 2600 14 82%15 3000 15 88%16 3400 16 94%17 4800 17 100%

Tableau: 7.1  - Identification de la médiane

Il y a un nombre impair 2n+1 de valeurs. Donc la médiane de la série est le terme de rang n+1. Soit 1'600.- (résultat que vous donnera n'importe quel tableur informatique). La moyenne arithmétique quant à elle vaut 2'020.

En relation directe avec la médiane il est important de définir le concept suivant afin de comprendre le mécancisme sous-jacent:

Définition: Soit donné une série statistique , nous appelons "dispersion des écarts absolus" autour de x le nombre  défini par : 

  (7.7)

 est minimum pour une valeur de x la plus proche d'une valeur donnée  au sens de l'écart absolu. La médiane est la valeur qui réalise ce minimum (extrémum)! L'idée va alors consister à étudier les variations de la fonction pour trouver le rang de cet extrémum.

En effet, nous pouvons écrire :

  (7.8)

Donc par définition de la valeur x :

Page 7: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.9)

Ce qui nous permet donc de faire sauter les valeurs absolues est simplement le choix de l'indice r qui est pris de telle manière que la série de valeurs peut en pratique toujours être coupé en deux parties: tout ce qui est inférieur à un élément de la série indexé par r et tout ce qui lui est supérieur (la médiane donc par anticipation).

 est donc une fonction affine (assimilable à l'équation d'une droite pour r et n fixés) par morceaux (discrète) où l'on peut assimiler le facteur:

2r-n   (7.10)

à la pente et:

  (7.11)

à l'ordonnée à l'origine.

La fonction est donc décroissante (pente négative) tant que r est inférieur à n/2 et croissante quand r est supérieur à n/2. Plus précisément, nous distinguons deux cas qui nous intéressent particulièrement puisque n est un entier (elle pas donc par un extremum!) :

- Si n est pair, nous pouvons poser , alors la pente peut s'écrire  et elle est nulle si  et dès lors puisque ce résultat n'est valable par construction que pour

 alors  est constante sur   et nous avons un extrémum obligatoirement au milieu de cet intervalle (moyenne arthmétique des deux termes).

- Si n est impair, nous pouvons poser (nous coupons la série en deux parties égales), alors le pente peut s'écrire  et elle est donc nulle si  et dès

lors puisque ce résultat n'est valable que pour alors il est immédiat que la valeur du milieu sera la médiane .

Nous retrouvons donc bien la médiane dans les deux cas. Nous verrons aussi plus loin comment la médiane est définie pour une variable aléatoire continue.

Il existe un autre cas pratique où le statisticien n'a à sa disposition que des valeurs regroupées sous forme d'intervalles de classes statistiques. La procédure pour déterminer la médiane est alors différente:

Lorsque nous avons à notre disposition uniquement une variable classée, l'abscisse du point de la médiane se situe en général à l'intérieur d'une classe. Pour obtenir alors une valeur plus

Page 8: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

précise de la médiane, nous procédons à une interpolation linéaire. C'est ce que nous appelons la "méthode d'interpolation linéaire de la médiane".

La valeur de la médiane peut être lue sur le graphique ou calculée analytiquement. Effectivement, considérons le graphique représentant la probabilité cumulée F(x) en intervalles de classe comme ci-dessous où les bornes des intervalles ont été reliées par des droites:                      

  (7.12)

La valeur de la médiane M se trouve évidemment au croisement entre la probabilité de 50% (0.5) et l'abscisse. Si nous prenons dans le cadre particulier de l'exemple ci-dessus la borne supérieure de l'intervalle de classe précédant celle contenant la médiane nous avons 2 et 4 pour la borne inférieure de l'intervalle suivant. Nous avons alors en calculant la pente la relation suivante:

  (7.13)

Ce que nous écrivons fréquemment:

  (7.14)

d'où la valeur de la médiane:

  (7.15)

Prenons le tableau suivant que nous retrouverons bien plus tard dans le présent chapitre:

Page 9: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Montant destickets

Nombre de tickets Nombre cumulés de tickets

Fréquences relatives cumulées

[0;50[ 668 668 0.068[50,100[ 919 1'587 0.1587[100,150[ 1'498 3'085 0.3085[150,200[ 1'915 5000 0.5000[200,250[ 1'915 6'915 0.6915[250,300[ 1'498 8'413 0.8413[300,350[ 919 9'332 0.9332[350,400[ 440 9'772 0.9772[400 et + 228 10'000 1

Tableau: 7.2  - Identification de la classe médiane et du mode

Nous voyons que la "classe médiane" est dans l'intervalle [150,200] car la valeur cumulée de 0.5 s'y trouve (colonne toute à droite) mais la médiane a elle, en utilisant la relation établie précédemment, précisément une valeur de (c'est trivial dans l'exemple particulier du tableau ci-dessus mais faisons quand même le calcul...):

  (7.16)

et nous pouvons faire de même avec n'importe quel autre centile bien évidemment!

Nous pouvons également donner une définition pour déterminer la valeur modale si nous sommes seulement en possession des fréquences des classes d'intervalles. Pour cela partons du diagramme en barre des fréquences simplifié ci-dessous:

  (7.17)

En utilisant les relations de Thalès (cf. chapitre de Géométrie Euclidienne), nous avons immédiatement, en notant M la valeur modale:

Page 10: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.18)

Comme dans une proportion, on ne change pas la valeur du rapport en additionnant les numérateurs et en additionnant les dénominateurs, il vient:

  (7.19)

Nous avons alors:

  (7.20)

Avec l'exemple précédent cela donne alors:

  (7.21)

La question qui se pose ensuite est celle de la pertinence du choix de la moyenne, du mode ou de la médiane et termes de communication...

Un bon exemple reste celui du marché du travail où de façon générale, alors que le salaire moyen et le salaire médian sont relativement différents, les institutions de statistiques étatiques calculent la médiane que beaucoup de médias traditionnels assimilent alors explicitement au concept de "moyenne arithmétique" dans leurs communiqués.

Remarque: Pour éviter d'obtenir une moyenne arithmétique ayant peu de sens, nous calculons souvent une "moyenne élaguée", c'est à dire une moyenne arithmétique calculée après avoir enlevé des valeurs aberrantes à la série.

Les "quantiles" généralisent la notion de médiane en coupant la distribution en des ensembles données de parties égales (de même cardinal pourrions nous dire...) ou autrement dit en intervalles réguliers. Nous définissons ainsi les "quartiles", les "déciles" et les "centiles" (ou "percentiles") sur la population, ordonnée dans l'ordre croissant, que nous divisons en 4, 10 ou 100 parties de même effectif.

Nous parlerons ainsi du centile 90 pour indiquer la valeur séparant les premiers 90% de la population des 10% restant.

Précisons que dans la version francophone de MS Excel les fonctions QUARTILE( ), CENTILE( ), MEDIANE( ), RANG.POURCENTAGE ( ) sont disponibles et spécifions qu'il existe plusieurs variantes de calcul des ces centiles d'où une variation possible entre les résultats sur différents logiciels.

Page 11: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Ce concept est très important dans le cadre des intervalles de confiance que nous verrons beaucoup plus loin dans ce chapitre et très utile dans le domaine de la qualité avec l'utilisation des boîtes à moustaches (traduction de Box & Whiskers Plot ou BoxPlot) permettant de comparer rapidement deux populations de données et surtout d'éliminer les valeurs aberrantes (prendre comme référence la médiane sera justement plus judicieux!):

  (7.22)

Une autre représentation mentale très importante des boîtes à moustache est la suivante (elle permet de se donner donc une idée de l'asymétrie de la distribution):

Page 12: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.23)

D4. Par analogie avec la médiane, nous définissons la "médiale" comme étant la valeur (dans l'ordre croissant des valeurs) qui partage la somme (cumuls) des valeurs en deux masses égales (donc la somme totale divisée par deux).

Dans le cas de salaires, alors que le médiane donne le 50% des salaires se trouvant en-dessous et en-dessus, la médiale donne combien de salariés se partagent (et donc le salaire partageant) la première moitié et combien de salariés se partagent la seconde moitié de l'ensemble des coûts salariaux.

Par exemple pour revenir à notre tableau sur les salaires:

Page 13: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

N° Employé Salaire Cumul salaire %Cumulé salaire1 1200 1200 3.5%2 1220 2420 7%3 1250 3670 10.7%4 1300 4970 14.5%5 1350 6320 18.4%6 1450 7770 22.6%7 1450 9220 26.8%8 1560 10780 31.4%9 1600 12380 36.1%10 1800 14180 41.3%11 1900 16080 46.8%12 2150 18230 53.1%13 2310 20540 59.8%14 2600 23140 67.4%15 3000 26140 76.1%16 3400 29540 86%17 4800 34340 100%

Tableau: 7.3  - Identification de la médiale

La somme de tous les salaires fait donc 34'340 et la médiale est alors 17'170 (entre l'employé n°11 et 12) alors que la médiane était de 1'600. Nous voyons alors que la médiale correspond au 50% du cumul. Ce qui est un indicateur très utile dans le cadre des analyse de Pareto ou de Lorenz par exemple (cf. chapitre de Technique de Gestion).

D5. La "moyenne quadratique" parfois simplement notée Q qui est définie par :

  (7.24)

avec m=2.

Remarque: C'est une des moyennes les plus connues en statistiques car l'écart-type est une moyenne quadratique (voir plus loin).

Exemple:

Soit un carré de côté a , et un autre carré de côté b. La moyenne des aires des deux carrés est égale à carrée de côté:

  (7.25)

D6. La "moyenne harmonique" parfois simplement notée H est définie par :

Page 14: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.26)

peu connue mais découle souvent de raisonnements simples et pertinents (typiquement la résistance équivalente d'un circuit électrique ayant plusieurs résistances en parallèles). Il existe une fonction MOYENNE.HARMONIQUE( ) dans MS Excel pour la calculer.

Exemple:

Soit une distance d parcourue dans un sens à la vitesse  et dans l'autre (ou pas) à la vitesse

. La vitesse moyenne s'obtiendra en divisant la distance totale 2d par le temps mis à la parcourir:

    (7.27)

Si nous calculons le temps mis lorsqu'on parcourt d avec une vitesse  c'est tout simplement le quotient:

    (7.28)

Le temps total vaut donc: 

  (7.29)

La vitesse moyenne (son inverse pour être exacte) sera donc bien du type harmonique :

  (7.30)

D7. La "moyenne géométrique" parfois notée simplement G est définie par :

  (7.31)

Cette moyenne est souvent oubliée mais néanmoins très connue dans le domaine de l'économétrie (surtout quand nous étudierons le rendement géométrique moyen) et de la finance d'entreprise (cf. chapitre Techniques De Gestion) raison pour laquelle il existe une fonction MOYENNE.GEOMETRIQUE( ) dans MS Excel pour la calculer.

Exemple:

Page 15: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Supposons qu'une banque offre une possibilité de placement et prévoit pour la première année un intérêt (c'est absurde mais c'est un exemple) de , mais pour la deuxième année un intérêt de  Au même moment une autre banque offre un intérêt constant pour deux ans: X%. C'est pareil, dirons-nous un peu rapidement. En fait les deux placements n'ont pas la même rentabilité.

Dans la première banque, un capital deviendra au bout de la première année: 

    (7.32)

et la seconde année: 

  (7.33)

Dans l'autre banque nous aurons au bout d'un an: 

  (7.34)

et après la seconde année:

  (7.35)

etc...

Comme vous pouvez le voir le placement ne sera pas identique si ! Donc X% n'est donc pas la moyenne de  et .

Posons maintenant:

  et   (7.36)

Quelle est en fait la valeur moyenne r ?

Au bout de deux ans le capital est multiplié par . Si la moyenne vaut r il sera alors multiplié par . Nous avons donc la relation:

  (7.37)

C'est un exemple d'application où nous retrouvons donc la moyenne géométrique. L'oubli de la moyenne harmonique une erreur fréquente dans les entreprises lorsque certains employés calculent le taux moyen d'augmentation d'une valeur de référence.

D8. La "moyenne mobile", appelée aussi "moyenne glissante" est définie par:

Page 16: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.38)

La moyenne mobile est particulièrement utilisée en économie, où elle permet de représenter une courbe de tendance d'une série de valeurs, dont le nombre de points est égal au nombre total de points de la série de valeurs moins le nombre que vous spécifiez pour la période.

Une Moyenne Mobile (MM) en finance est calculée à partir des moyennes des cours d'une valeur, sur une période donnée: chaque point d'une moyenne mobile sur 100 séances est la moyenne des 100 derniers cours de la valeur considérée. Cette courbe, affichée simultanément avec la courbe d'évolution des cours de la valeur, permet de lisser les variations journalières de la valeur, et de dégager des tendances.

Les moyennes mobiles peuvent être calculées sur différentes périodes, ce qui permet de dégager des tendances à court terme MMC (20 séances selon les habitudes de la branche), moyen terme (50-100 séances) ou long terme MML (plus de 100 séances).

  (7.39)

Les croisements des moyennes mobiles par la courbe des cours (découpée avec une certaine granularité) de la valeur génèrent des signaux d'achat ou de vente (selon les professionnels) suivant le cas:

- Signal d'achat: lorsque la courbe des cours franchit la MM.

- Signal de vente: lorsque la courbe des cours franchit la MM vers le bas.

Outre la moyenne mobile, précisons qu'il existe une quantité d'autres indicateurs artificiels souvent utilisés en finance comme par exemple le "upside/downside ratio".

L'idée est la suivante: Si vous avec un produit financier (cf. chapitre d'Économétrie)

actuellement de prix  (prix courant) pour lequel vous avez un objectif de gain haut à un prix

Page 17: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

haut correspondant que noterons  (high price) et inversement le potentiel de perte que vous

estimez à un prix  (low price).

Alors, le rapport:

  (7.40)

donne le Upside/Downside Ratio.

Par exemple, un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 5.- a donc

un ratio  et donc un facteur spéculatif identique pour permette le grain ou une perte de 5.-.

Un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 20.- a donc un  donc deux fois le potentiel spéculatif de gain par rapport à celui de perte.

Certaines associations boursières recommandent de refuser les  inférieurs à 3. Les

investisseurs ont tendance à rejeter les  trop élevés pouvant être un signe de gonflage artificiel.

D9. La "moyenne pondérée" (dont nous avons déjà fait mention plus haut d'un cas particulier) est définie par:

  (7.41)

et est utilisée par exemple en géométrie pour localiser le barycentre d'un polygone, en physique pour déterminer le centre de gravité ou en statistiques pour calculer une espérance (le dénominateur étant toujours égal à l'unité en probabilités) et en gestion de projets pour estimer les durées des tâches.

Dans le cas général le poids représente l'influence pondéré ou arbitraire/empirique de

l'élément par rapport aux autres.

D10. La "moyenne fonctionnelle" ou "moyenne intégrale" est définie par :

  (7.42)

Page 18: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

où dépend d'une fonction f d'une variable réelle intégrable (cf. chapitre de Calcul Différentiel Et Intégral) sur un intervalle [a,b]. Elle est très souvent utilisée en théorie du signal (électronique, électrotechnique).

2.9. PROPRIÉTÉS DES MOYENNESVoyons maintenant quelques propriétés pertinentes qui relient quelques-unes de ces moyennes ou qui sont propres à une moyenne donnée.

Les premières propriétés sont importantes donc prenez garde à bien les comprendre :

P1. Le calcul des moyennes arithmétique, quadratique et harmonique peut être généralisé à l'aide de la relation suivante :

  (7.43)

où nous retrouvons :

1. Pour , la moyenne arithmétique

2. Pour , la moyenne quadratique

3. Pour , la moyenne harmonique

P2. La moyenne arithmétique a une propriété de linéarité, c'est-à-dire que (sans démonstration car quand simple à vérifier) :

  (7.44)

C'est la version statistique de la propriété de l'espérance en probabilité que nous verrons plus loin.

P3. La somme pondérée des écarts à la moyenne arithmétique est nulle.

Démonstration:

D'abord, par définition, nous savons que :

et   (7.45)

il s'ensuit que :

  (7.46)

Page 19: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Ainsi, cet outil ne peut être utilisé comme mesure de dispersion!

Par extension la moyenne des écarts à la moyenne pondérée par les effectifs est nulle aussi :

  (7.47)

C.Q.F.D.

Ce résultat est relativement important car il permettra plus loin de mieux saisir le concept d'écart-type et de variance.

P4. Soit à démontrer :

  (7.48)

Démonstration:

Tout d'abord, nous prenons deux nombres réels non nuls et tels que et nous écrivons :

1. La moyenne arithmétique :

  (7.49)

2. La moyenne géométrique :

  (7.50)

3. La moyenne harmonique :

  (7.51)

4. La moyenne quadratique :

  (7.52)

Remarque: Les comparaisons entre les moyennes précitées et la médiane ou encore les moyennes glissantes et pondérées n'ont pas de sens c'est pour cela que nous nous abstenons à les faire.

Page 20: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Prouvons déjà que   par l'absurde en posant :

  (7.53)

Par commodité posons  nous savons que . Or :

  (7.54)

et nous cherchons à montrer que  n'est pas possible. Mais ceci découle des équivalences suivantes :

  (7.55)

Il y donc contradiction et ce qui vérifie notre hypothèse initiale :

  (7.56)

Regardons maintenant si :

Sous l'hypothèse . Nous cherchons donc maintenant à montrer que :

  (7.57)

Or nous avons les équivalences suivantes :

Page 21: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.58)

et la dernière expression est évidement correcte.

Or le carré d'un nombre est toujours positif ce qui vérifie notre hypothèse initiale :

  (7.59)

Nous prouvons maintenant et démontrons-le par l'absurde en posant :

  (7.60)

Or le carré d'un nombre est toujours positif ce qui vérifie notre hypothèse initiale :

  (7.61)

Nous avons donc bien :

  (7.62)

Démontrons par l'absurde que en posant et que .

Démonstration:

Nous avons alors :

  (7.63)

Il y a donc contradiction avec l'hypothèse initiale et nous avons donc bien :

  (7.64)

C.Q.F.D.

Page 22: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

Ces inégalités démontrées, nous pouvons alors passer à une figure que nous attribuons à Archimède pour placer trois de ces moyennes. L'intérêt de cet exemple est de montrer qu'il existe des relations remarquables parfois entre la statistique et la géométrie (fruit du hasard ???).

  (7.65)

Nous allons d'abord poser et O est le milieu de . Ainsi, le cercle dessiné est de centre O et de rayon . D est l'intersection de la perpendiculaire à passant par

B et du cercle (nous choisissons l'intersection que nous voulons). H est quant à lui le projeté orthogonal de B sur .

Archimède affirme que est la moyenne arithmétique de a et b et que est la moyenne géométrique de a et b, et la moyenne harmonique de a et b.

Nous démontrons donc que (trivial) :

  (7.66)

Donc est bien la moyenne arithmétique de a et b.

Ensuite nous avons dans le triangle rectangle ADB:

  (7.67)

Puis dans le triangle rectangle nous avons :

  (7.68)

Nous additionnons alors ces deux égalités, et nous trouvons :

Page 23: madagascar-interculturel.e-monsite.commadagascar-interculturel.e-monsite.com/.../moyenne.docx · Web view1. Une toute première consiste à ignorer purement et simplement les éléments

  (7.69)

Nous savons que D est sur un cercle de diamètre , donc ADC est rectangle en D, donc :

  (7.70)

Puis nous remplaçons et par a et b:

  (7.71)

Et donc, est bien la moyenne géométrique de a et b.

Nous reste à prouver alors que est la moyenne harmonique de a et b :

Nous avons dans un premier temps (projection orthogonale) :

  (7.72)

Puis nous avons aussi (projection orthogonale aussi):

  (7.73)

Nous avons donc :

  (7.74)

et comme , nous avons donc :

  (7.75)

est donc bien la moyenne harmonique de a et b, Archimède ne s'était pas trompé.