30
Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati` eres 1 Statistique descriptive 2 1.1 efinitions ............................. 2 1.2 Effectif, moyenne, m´ ediane et mode ............... 3 1.3 Fr´ equences ............................. 8 1.4 ´ Etendue et quartiles ....................... 9 1.5 ´ Ecarts et variance ......................... 11 1.6 Pr´ esentation des r´ esultats .................... 13 1.7 Changement de variable ..................... 16 1.8 erie double ............................ 18 2 Solutions 21 3 ef´ erences 30 1

Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

  • Upload
    dohanh

  • View
    221

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Statistiques - Alternance HSE

Anne Fredet, Jean-Marie Gourdon

8 janvier 2006

Table des matieres

1 Statistique descriptive 21.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Effectif, moyenne, mediane et mode . . . . . . . . . . . . . . . 31.3 Frequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.4 Etendue et quartiles . . . . . . . . . . . . . . . . . . . . . . . 91.5 Ecarts et variance . . . . . . . . . . . . . . . . . . . . . . . . . 111.6 Presentation des resultats . . . . . . . . . . . . . . . . . . . . 131.7 Changement de variable . . . . . . . . . . . . . . . . . . . . . 161.8 Serie double . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Solutions 21

3 References 30

1

Page 2: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

1 Statistique descriptive

1.1 Definitions

Definition 1.1.1 A la base de toute etude statistique, il y a une population,formee d’individus sur lesquels on observe des caracteres.

Pour fixer les idees, il est plus facile de penser en termes de population hu-maine. Les individus sont des personnes, et les caracteres observes peuventetre morphologiques (taille, poids, couleur des yeux), physiologiques (groupesanguin, numeration globulaire, taux de cholesterol) ou psychologiques (reactionsa des tests ou reponses a une enquete d’opinion).

Definition 1.1.2 L’effectif d’une population est le nombre d’individus decette population.

Les caracteres observes peuvent etre de plusieurs types :

Definition 1.1.3 Un caractere est dit– qualitatif, quand les valeurs ne peuvent etre ni ordonnees ni ajoutees

(groupe sanguin, couleur des yeux, vote pour un candidat).– ordinal, quand les valeurs peuvent etre ordonnees mais pas ajoutees

(opinions exprimees sur une echelle de valeurs)– quantitatif, quand les valeurs sont numeriques (mesures physiques, phy-

siologiques, economiques).Les valeurs que peut prendre un caractere s’appellent les modalites.

La statistique intervient quand il est impossible ou inutile d’observer uncaractere sur l’ensemble de la population. On l’observe alors sur une sous-population, de taille reduite, en esperant tirer de l’observation des conclusionsgeneralisables a toute la population.

Definition 1.1.4 Si les donnees d’un caractere quantitatif sont recueilliessur des individus, le resultat est un n-uplet de nombres, entiers ou decimaux,que l’on appelle echantillon ou serie statistique, de taille n.

On reserve plutot le terme d’echantillon au resultat de experiences meneesindependamment les unes des autres, et dans des conditions identiques (lan-cers de des, mesure du poids de nouveaux-nes,...). On appellera serie sta-tistique le resultat d’experiences qui ne sont pas interchangeables. Le cas le

2

Page 3: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

plus frequent est celui ou la population est constituee d’instants successifs(releves quotidiens de temperatures, chiffres mensuels du chomage,...). Onparle alors de serie chronologique.

Definition 1.1.5 On distingue souvent les caracteres discrets (ceux qui neprennent que peu de modalites distinctes) des caracteres continus (pour les-quels toutes les valeurs observees sont a priori differentes).

La frontiere entre continu et discret est beaucoup moins claire en pratiquequ’en theorie. Tout recueil de donnees se fait avec une certaine precision,et dans une certaine unite. Si une taille est mesuree avec une precision del’ordre du centimetre, tout chiffre correspondant a une quantite inferieure aucentimetre ne contient aucune information et doit etre elimine. Cela signifieque la taille en centimetres est une valeur entiere, donc un caractere discret.Differentes techniques statistiques (histogrammes, ...) imposent de regrouperles donnees en classes, ce qui revient a les rendre discretes, les nouvelles mo-dalites etant les differentes classes.

En statistiques, on est en general en presence d’un grand nombre de valeurs.Or, si l’integralite de ces valeurs forme l’information, il n’est pas aise de ma-nipuler plusieurs centaines voir milliers de chiffres, ni d’en tirer des conclu-sions. Il faut donc calculer quelques valeurs qui vont permettre d’analyser lesdonnees.

1.2 Effectif, moyenne, mediane et mode

Definition 1.2.1 L’effectif d’une valeur est le nombre de fois ou cette valeurapparaıt.L’effectif cumule croissant d’une valeur est le nombre de fois ou une valeurinferieure ou egale a cette valeur apparaıt.L’effectif cumule decroissant d’une valeur est le nombre de fois ou une valeursuperieure ou egale a cette valeur apparaıt.

Definition 1.2.2 Le mode est la valeur du caractere statistique qui apparaitle plus frequemment.

Definition 1.2.3 Soient n valeurs disctinctes ou non de la variable. Si cettevariable prend p valeurs distinctes (p ≤ n) x1, · · · , xp d’effectifs respectifs

3

Page 4: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

n1, · · · , np (avec n1 + · · · + np = n) alors la moyenne (arithmetique) estdonnee par

x =1

n

p∑i=1

nixi.

Si la serie est continue et si on travaille avec des classes, alors les valeurs xi

considerees sont les centres des classes.

Definition 1.2.4 La mediane est la valeur qui separe les donnees en deuxpartie egales. C’est-a-dire que 50% des valeurs sont inferieures a la medianeet 50% sont superieures.

Exercice 1.2.1 A un partiel, les notes suivantes ont ete obtenues :

etudiant A B C D E F G H I J K L M N O P Q R Snote 11 8 12 12 4 13 5 10 15 12 6 9 17 9 4 8 11 12 7

Calculer l’effectif de chaque note, les effectifs cumules croissants et decroissants,puis la moyenne, la mediane et le mode de cette serie.

Exercice 1.2.2 Les 50 notes suivantes ont ete attribuees par un jury.

note 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20effectifs 1 2 2 3 2 3 2 3 4 3 2 3 4 4 3 1 2 1 2 2 1

Calculer les effectifs cumules croissants et decroissants, puis la moyenne et lamediane de cette epreuve.

Exercice 1.2.3 Un jury a attribue 50 notes. Elles sont regroupees dans cetableau :

Notes Effectifs[0; 5[ 10[5; 8[ 8[8; 12[ 12[12; 15[ 11[15; 20[ 9

Calculer la moyenne et mediane de cette serie.

4

Page 5: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Exercice 1.2.4 La repartition des salaires d’une entreprise est la suivante :

Salaires en francs Repartition employes[4000; 6000[ 20[6000; 8000[ 96[8000; 10000[ 52[10000; 12000[ 17[18000; 20000[ 2

Calculer le salaire moyen puis le salaire median de cette entreprise.Refaire ces calculs en negligeant les deux plus gros salaires.

Exercice 1.2.5 On dispose d’une table de survie relative a un groupe de1000 personnes nees a la meme date (date 0) et suivies a partir de leurnaissance. On a le tableau suivant :

epoque(exprimees en annees)

Nombre de personnes du groupeencore vivante a cette epoque

0 100010 93020 90030 85040 78050 68060 56070 38080 15090 20100 0

Calculer

1. La duree mediane d’existence des 1000 personnes observees

2. La duree moyenne d’existence (ou esperance de vie) des 1000 personnesen question

3. L’esperance de vie (calculee a partir de l’annee 0) pour une personneayant atteint l’age de 70 ans

Remarque 1.2.1 La maniere dont les valeurs sont regroupees influe surla moyenne, la mediane et les quartiles. Par exemple, supposons que l’on

5

Page 6: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

considere les tailles en centimetres de 10 personnes et que l’on ait les va-leurs suivantes : 162; 173; 185; 170; 178; 175; 178; 180; 168; 183. La moyenneest donc

162 + 173 + 185 + 170 + 178 + 175 + 178 + 180 + 168 + 183

10= 175, 2 cm

Imaginons que l’on souhaite regrouper ces valeurs par intervalles. Plusieurschoix se presentent :

– Quelle largeur d’intervalle choisir ?– Les intervalles seront-ils ouverts a droite et fermes a gauche ou ouverts

a gauche et ferme a droite ?Considerons plusieurs possibilites et regardons la moyenne dans ces cas :

1. Si l’intervalle a une largeur de 5cm et est ouvert a gauche et ferme adroite, on obtient le tableau suivant :

intervalle effectif centre]160; 165] 11162, 5]165; 170] 2 167, 5]170; 175] 2 172, 5]175; 180] 3 177, 5]180; 185] 2 182, 5]185; 190] 0 187, 5

La moyenne est donc

162, 5× 1 + 167, 5× 2 + 172, 5× 2 + 177, 5× 3 + 182, 5× 2

10= 174 cm

2. Si l’intervalle a une largeur de 5cm et est ferme a gauche et ouvert adroite, on obtient le tableau suivant :

intervalle effectif centre[160; 165[ 1 162, 5[165; 170[ 1 167, 5[170; 175[ 2 172, 5[175; 180[ 3 177, 5[180; 185[ 2 182, 5[185; 190[ 1 187, 5

6

Page 7: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

La moyenne est donc

162, 5× 1 + 167, 5× 1 + 172, 5× 2 + 177, 5× 3 + 182, 5× 2 + 187, 5× 1

10= 176 cm

3. Si l’intervalle a une largeur de 5cm et est ouvert a gauche et ferme adroite, on obtient le tableau suivant :

intervalle effectif centre]160; 170] 3 165]170; 180] 5 175]180; 190] 2 185

La moyenne est donc

165× 3 + 175× 5 + 185× 2

10= 174 cm

4. Si l’intervalle a une largeur de 5cm et est ferme a gauche et ouvert adroite, on obtient le tableau suivant :

intervalle effectif centre[160; 170[ 2 165[170; 180[ 5 175[180; 190[ 3 185

La moyenne est donc

165× 2 + 175× 5 + 185× 3

10= 176 cm

On voit donc que ces choix changent la moyenne. De meme, la mediane etles quartile sont modifies.

Il existe au moins deux autres moyennes :

Definition 1.2.5 Soient a1, · · · , an des nombres. La moyenne geometriquede cette serie est le nombre

(a1 × a2 × · · · × an)1/n

Exercice 1.2.6 Le prix de l’essence a augmente de 20 % l’an dernier et de10 % cette annee. Quelle est la hausse moyenne de l’essence ?

7

Page 8: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Exercice 1.2.7 Une societe a vu son benefice augmenter ces trois dernieresannees : de 10 % la premiere annee, de 21 % la deuxieme et de 2% la troisieme.Quelle est son augmentation annuelle moyenne ?

Exercice 1.2.8 Si l’inflation d’un pays est de 5% la premiere annee et de15% la suivante, calculer l’augmentation moyenne des prix.

Definition 1.2.6 Soient a1, · · · , an des nombres. La moyenne harmoniquede cette serie est le nombre

n

( 1a1

+ · · ·+ 1an

)

Exercice 1.2.9 Eric fait un aller - retour entre une ville A a une ville B avelo. A l’aller, sa vitesse moyenne est de 20 km/h et au retour, elle est de 26km/h. Quelle est sa vitesse moyenne ?

Exercice 1.2.10 Dans une entreprise de fabrication 3 ouvriers produisentdes pieces. L’ouvrier A met 10 min par piece, l’ouvrier B met 15 min etl’apprenti C met 20 min. Quel est le temps moyen de realisation d’une piece ?

Exercice 1.2.11 Une petite usine abrite 2 machines. La premiere machine aproduit 500 pieces a la vitesse de 100 pieces par heure. Une seconde machinea produit 300 pieces a la vitesse de 60 pieces par heure. Calculez la vitessemoyenne de production dans l’usine.

Exercice 1.2.12 Soient x1 et x2 deux reels distincts positifs

1. Exprimer les moyennes arithmetique m, geometrique G et harmoniqueH de ces deux variables

2. Montrer que H < G < m

3. Montrer que G est la moyenne geometrique de H et de m

4. Montrer que H est la moyenne harmonique de H − x1 et H − x2

1.3 Frequences

Pour comparer deux echantillons d’effectifs differents, on se ramene a desvaleurs comparables. On utilise pour cela la frequence :

8

Page 9: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Definition 1.3.1 Soient n valeurs disctinctes ou non de la variable. Suppo-sons que cette variable prenne p valeurs distinctes (p ≤ n) x1, · · · , xp d’ef-fectifs respectifs n1, · · · , np (avec n1 + · · ·+np = n). On appelle frequence dela valeur xi le rapport entre ni et n : fi = ni

n. La frequence est generalement

donne sous la forme d’un pourcentage.On appelle frequences cumulees croissantes les variables fci =

∑ij=1 fj et

frequences cumulees decroissantes les variables fdi =∑p

j=i fj.

Exercice 1.3.1 A un partiel, les notes suivantes ont ete obtenues :

etudiant A B C D E F G H I J K L M N O P Q R S Tnote 11 8 12 12 4 13 5 10 15 12 6 9 17 9 4 8 11 12 7 10

Calculer la frequence de chaque note. Donner egalement les frequences cu-mulees croissantes et decroissantes.

Exercice 1.3.2 La repartition des salaires d’une entreprise est la suivante :

Salaires en francs Repartition employes[4000; 6000[ 20[6000; 8000[ 96[8000; 10000[ 52[10000; 12000[ 17

Calculer les frequences cumulees croissantes et decroissantes de chaque tranchesalariale.

1.4 Etendue et quartiles

La moyenne, la mediane et le mode ne nous donnent pas d’informationsur la dispersion des valeurs. On utilise alors d’autres caracteristiques :

Definition 1.4.1 L’etendue est la difference entre les valeurs observees lesplus elevees et les plus faibles dans un ensemble de donnees.

On ne tient pas compte de beaucoup de renseignements lorsqu’on calculel’etendue, puisqu’on n’examine que les valeurs les plus elevees et les plusfaibles. La valeur de l’etendue d’un ensemble de donnees est grandementinfluencee par la presence d’une seule valeur inhabituellement elevee ou faiblea l’interieur de l’echantillon (une valeur aberrante).

9

Page 10: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

On peut exprimer l’etendue sous la forme d’un intervalle comme 4 a 10, danslequel 4 est la valeur la plus faible et 10, la valeur la plus elevee. On l’exprimesouvent sous la forme de la longueur d’un intervalle. L’etendue de 4 a 10, parexemple, est de 6. L’etendue est un outil instructif qui sert de supplement ad’autres mesures comme la mediane ou les quartiles :

Definition 1.4.2 La mediane divise les donnees en deux ensembles egaux.On a parfois besoin de plus d’informations :

– Le quartile inferieur Q1 est la valeur pour laquelle 25 % des valeurssont inferieures a Q1 et 75 % lui sont superieures.

– Le quartile superieur Q3 est la valeur pour laquelle 75 % des valeurssont inferieures a Q3 et 25 % lui sont inferieures.

Il convient de noter que la mediane prend la notation Q2, c’est-a-dire ledeuxieme quartile.

Exercice 1.4.1 Donner les quartiles correspondant a cette serie : 6, 47, 49,15, 43, 41, 7, 39, 43, 41, 36

L’ecart interquartile est une autre etendue utilisee comme mesure de la dis-persion :

Definition 1.4.3 La difference entre les quartiles superieur et inferieur (Q3- Q1) est appele ecart interquartile

Cet ecart indique la dispersion d’un ensemble de donnees. L’ecart interquar-tile couvre 50 % d’un ensemble de donnees et elimine l’influence des valeursaberrantes, parce qu’on soustrait, en effet, le quartile le plus eleve et le quar-tile le plus faible.

Exercice 1.4.2 Gabrielle a commence a travailler dans une boutique d’in-formatique il y a un an. Son superviseur lui a demande de tenir un dossierdu nombre d’ordinateur(s) qu’elle a vendu(s) chaque mois. L’ensemble dedonnees qui suit indique le nombre d’ordinateur(s) qu’elle a vendu(s) men-suellement au cours des 12 derniers mois : 34, 47, 1, 15, 57, 24, 20, 11, 19,50, 28, 37. Utilisez les dossiers des ordinateurs vendus par Gabrielle pourtrouver :

1. la mediane

2. l’etendue

3. les quartiles superieur et inferieur

4. l’ecart interquartile

10

Page 11: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

1.5 Ecarts et variance

Soient n valeurs disctinctes ou non de la variable. Supposons que cettevariable prenne p valeurs distinctes (p ≤ n) x1, · · · , xp d’effectifs respectifsn1, · · · , np (avec n1 + · · ·+ np = n).Apres avoir determine ou se situent les valeurs du caractere statistique encherchant des criteres de position (mediane, quartiles, ...), on peut cherchera determiner la dispersion de ces valeurs. De maniere plus generale, il estimportant de savoir si les valeurs sont groupees ou au contraire dispersees,ce qui indique si la population est uniforme ou pas vis-a-vis du critere teste.Par exemple, apres avoir calcule la moyenne, on peut chercher a savoir dequelle facon les valeurs s’eloignent de cette moyenne. On utilise alors denouvelles variable : les ecarts :

– ecart moyenLe premier reflexe serait de calculer la moyenne de ces ecarts. Maisles proprietes de la moyenne nous assurent que la moyenne des ecartsest nulle. En effet, certains de ces ecarts sont negatifs et d’autres sontpositifs, la somme des ecarts positifs compensant exactement la sommedes ecarts negatifs. Il faut donc s’abstraire du signe et calculer alorsla moyenne de la valeur absolue des ecarts. C’est ce que l’on appellel’ecart moyen.

ecart moyen =

1n

∑pi=1 |xi − x| dans le cas d’une serie

discrete non triee

∑pi=1 ni|xi−x|∑n

i=1 ni=

∑pi=1 fi|xi − x| dans le cas d’une serie

discrete regroupee

∑pi=1 ni|mi−x|∑n

i=1 ni

dans le cas d’une serie continueou les mi sont les centres des classes

L’utilisation des valeurs absolues est souvent une impasse en mathematique.S’il s’agit de rendre positif les ecarts, un autre outil est a notre disposition :la moyenne quadratique des ecarts. C’est ce qu’on appelle l’ecart type, noteσ.

11

Page 12: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

– ecart type

ecart type = σ =

√1n

∑pi=1(xi − x)2 dans le cas d’une serie

discrete non triee

√∑pi=1 ni(xi−x)2∑n

i=1 ni=

√∑pi=1 fi(xi − x)2 dans le cas d’une serie

discrete regroupee

√∑pi=1 ni(mi−x)2∑n

i=1 ni

dans le cas d’une serie continueou les mi sont les centres des classes

Proposition 1.5.1 Proprietes de l’ecart type :– L’ecart type est toujours positif et est nul si la serie statistique est

constante.– Sensibilite aux valeurs extremes :

comme la moyenne, l’ecart type est sensible aux valeurs extremes ouaberrantes et il est parfois necessaire d’eliminer ces valeurs avant defaire le calcul de l’ecart type.

Si m est la moyenne, σ l’ecart-type, alors– environ 68 % des donnees se situent dans l’intervalle ]m− σ; m + σ[– environ 95 % des donnees se situent dans l’intervalle ]m−2σ; m+2σ[– environ 99 % des donnees se situent dans l’intervalle ]m−3σ; m+3σ[L’ecart-type est aussi utile quand on compare la dispersion de deuxensembles de donnees separes qui ont approximativement la mememoyenne. La dispersion des mesures autour de la moyenne est plusetroite dans le cas d’un ensemble de donnees dont l’ecart-type estplus petit. Habituellement, un tel ensemble renferme comparativementmoins de valeurs elevees ou de valeurs faibles. Un element selectionneau hasard a partir d’un ensemble de donnees dont l’ecart-type est faiblepeut se rapprocher davantage de la moyenne qu’un element d’un en-semble de donnees dont l’ecart-type est plus eleve.

La formule de l’ecart type peut se reveler compliquee. On a donc definila variance. La variance V est le carre de l’ecart type.

Definition 1.5.1 V = 1n

∑pi=1 ni(xi − x)2

12

Page 13: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Exercice 1.5.1 A un partiel, les notes suivantes ont ete obtenues :

etudiant A B C D E F G H I J K L M N O P Q R Snote 11 8 12 12 4 13 5 10 15 12 6 9 17 9 4 8 11 12 7

Calculer la variance et l’ecart-type

Exercice 1.5.2 On dispose d’une table de survie relative a un groupe de1000 personnes nees a la meme date (date 0) et suivies a partir de leurnaissance. On a le tableau suivant :

epoque(exprimees en annees)

Nombre de personnes du groupeencore vivante a cette epoque

0 100010 93020 90030 85040 78050 68060 56070 38080 15090 20100 0

Calculer la variance et l’ecart-type

1.6 Presentation des resultats

Lorsque l’on a observe une serie statistique, il est souvent souhaitable depresenter les resultats sous forme graphique.

Diagramme en batons

Dans un diagramme en batons, les effectifs des differentes classes sontrepresentes par des rectangles dont les aires sont proportionnelles achaque effectif. On peut representer les effectifs de variables nominalesaussi bien que numeriques.Lorsque la variable est numerique continue, on groupe les observations par

13

Page 14: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

classes contigues. La representation des observations par des rectangles dehauteurs proportionnelles a chaque effectif s’appelle alors histogramme. Generalementon dessine les rectangles sans espace entre eux pour montrer la continuite dela variable (et la contiguıte des classes). On utilise souvent la valeur centralecomme valeur designant la classe (axe horizontal).Si on considere les employes d’une entreprise, on peut representer leur salairesous differentes formes. Soit le tableau suivant :

Salaires en francs Repartition employes[4000; 6000[ 20[6000; 8000[ 96[8000; 10000[ 52[10000; 12000[ 17

On peut lui associer les diagrammes suivants :

14

Page 15: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

On remarque que si les intervalles sont de longueurs differentes, l’effectifetant proprtionnel a l’aire, le plus haut baton ne correspond pas forcementa l’effectif le plus eleve.

Polygones

On peut se representer les polygones de frequence par des lignes briseesqui relient les sommets des rectangles dans un diagramme en baton.Si on reprend l’exemple precedent, on obtient le diagramme suivant :

La mediane d’une serie peut s’obtenir par lecture graphique : la medianed’une serie est l’intersection des courbes representatives des effectifs (oufrequences) cumules croissants et des effectifs (ou frequences) cumules decroissants.

Diagramme en secteurs

Dans un diagramme en secteurs (de facon familiere, “camembert”), leseffectifs des differentes classes sont representes par des secteurs d’angle pro-portionnels aux effectifs. On s’en sert generalement pour representer les ef-fectifs de variables nominales.

15

Page 16: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Si on considere la repartition des salaires suivantes :

Salaires en francs Repartition employes frequences en %[4000; 6000[ 20 10, 81%[6000; 8000[ 96 51, 89%[8000; 10000[ 52 28, 11%[10000; 12000[ 17 9, 19%

Total 185 100%

on peu avoir une representation sous forme de camembert :

Explications : La decoupe s’effectue proportionnellement a chacune des partsdu total. Total de reference : 360 degres correspondant a 185 employes.Ainsi les parts des effectifs seront calculees proportionnellement a 360 degres.Exemple : je lis dans mon tableau que la tranche de salaire [4000 ; 6000[represente 10,81 % du total Cette tranche de salaire representera alors 10,81% de 360 degres : 10, 81×360/100 = 38, 92 degres. La portion representativede la tranche [4000 ; 6000[ aura donc un ecartement de 38,92 degres

1.7 Changement de variable

Le changement de variable est important en analyse de donnees. Il estparfois impose par la methode, pour la clarte des donnees. Des exemples

16

Page 17: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

classiques de changement de variables sont les changement d’echelle : passerdes degres aux radians, des kilometres aux miles, des annees-lumiere auxparsecs, des degres centigrades aux degres Farenheit, d’une echelle lineaire aune echelle logarithmique,...

Definition 1.7.1 Centrer une variable v consiste a en soustraire sa moyenne.Reduire une variable v consiste a la diviser par son ecart-type.Une variable centree-reduite satisfait aux deux proprietes suivantes :

– sa moyenne est nulle– son ecart type est egal a un

Cela permet d’obtenir :

1. des donnees independantes de l’echelle choisie

2. des variables ayant meme moyenne et meme dispersion.

Proposition 1.7.1 Influence du changement de variable sur l’ecart-type etla moyenne :

– Decalage de la moyenne par translation :la moyenne est translatee si on ajoute ou retranche une constante a laserie statistique. Si yi = xi + C alors my = mx + C.

– Stabilite de la moyenne par multiplication par une constante :si on multiplie une serie par une constante positive, la moyenne estmultipliee par la meme constante. Si yi = Kxi alors my = Kmx.

– Invariance de l’ecart-type par translation :l’ecart type n’est pas modifie si on ajoute ou retranche une constante ala serie statistique. Si yi = xi + C alors σy = σx.

– Stabilite de l’ecart-type par multiplication par une constante :si on multiplie une serie par une constante positive, l’ecart type estmultiplie par la meme constante. Si yi = Kxi alors σy = Kσx.

Exercice 1.7.1 On mesure les acteurs d’une troupe de theatre. On trouveque leur taille moyenne est m, avec un ecart-type σ.

1. Que deviennent la taille et l’ecart-type si l’on s’apercoit que les mesuresont ete faites sur une estrade de 2cm?

2. Pour faire les costumes, la longueur de tissu necessaire est le double dela taille d’un comedien plus 10 cm. Quelles est la longueur moyenne detissu necessaire ? Quelle est l’ecart-type ?

17

Page 18: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

1.8 Serie double

Definition 1.8.1 On considere une population d’effectif n, si on etudie deuxcaracteres X et Y de cette population, on dit que l’on etudie une serie statis-tique double.Chaque individu de cette population est designe par un nombre compris entre1 et n. A chaque individu i (1 ≤ i ≤ n) correspond un couple (xi; yi), ouxi est la modalite du caractere X et yi est la modalite du caractere Y as-socie a l’individu i. Ces deux caractere peuvent etre qualitatifs, quantitatifsou quantitatif et qualitatif.

Definition 1.8.2 On appelle covariance d’une serie statistique double (X ;Y) ou les caractere X et Y sont quantitatifs le nombre note cov(X, Y) ou σxy

defini par :

cov(X, Y ) = σxy =1

n

n∑i=1

(xi − x)(yi − y) =1

n

n∑i=1

xiyi − xy

On peut verifier que

1

n

n∑i=1

(xi − x)(yi − y) =1

n

n∑i=1

(xiyi − xiy − xyi + xy)

=1

n

n∑i=1

xiyi − x1

n

n∑i=1

yi − y1

n

n∑i=1

xi +1

n

n∑i=1

xy

=1

n

n∑i=1

xiyi − xy − yx +1

nn

n∑i=1

xy

=1

n

n∑i=1

xiyi − xy

On remarque que la formule est symetrique et que cov(X, Y ) = cov(Y, X).On represente ces valeurs dans un graphique a deux dimensions, ou xi estl’abscisse et yi est l’ordonnee du point Mi associe a (xi, yi).

Exercice 1.8.1 On considere la serie composer des variables suivantes :(10,40), (20,10), (30,18), (40,20), (50,57) et (60,14). Quelle est la covariancede cette serie ?

18

Page 19: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Droite de regression

Dans certains cas, le nuage de points representant une serie statistiquedouble (X , Y) est tel que ses points sont proche d’une certaine droite D.Supposons que cette droite ait pour equation y = ax + b.A chaque point Mi (xi; yi) de ce nuage de point, on peut faire correspondreun point Pi de la droite D ayant la meme abscisse que Mi, pour avoir uneidee des ecarts entre les points Mi du nuage de point et de la droite D, onpeut calculer le nombre E :

E = P1M21 + P2M

22 + · · ·+ PnM

2n =

n∑i=1

[yi − (axi + b)]2

Le nombre

E = P1M21 + · · ·+ PnM

2n

=n∑

i=1

[yi − (axi + b)]2

19

Page 20: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

est minimum pour :

a =cov(X, Y )

V (X)=

σxy

σ2x

b = y − ax

La droite d’equation y = ax + b est appelee alors droite de regression deY en X , on dit qu’on a obtenu cette equation par la methode des moindrescarres.

Exercice 1.8.2 Determiner l’equation de la droite de regression de Y en Xassociee a la serie (10,30), (20,60), (30,90), (40,120), (50,150) et (60,180).

Exercice 1.8.3 Determiner l’equation de la droite de regression de Y en Xassociee a la serie (10,20), (20,50), (30,80), (40,110), (50,140) et (60,170).

De la meme facon on peut definir une droite d’equation de X en Y d’equationx = ay + b, en faisant correspondre a chaque point Mi (xi; yi) de ce nuage

de point un point Pi de la droite D ayant la meme ordonnee que Mi et enminimisant le nombre :

E = P1M21 + · · ·+ PnM

2n

=n∑

i=1

[xi − (ayi + b)]2

Ce nombre est minimum pour :

a =cov(Y, X)

V (Y )=

σxy

σ2y

b = x− ay

Remarques : les deux droites de regression de Y en X et de X en Y passenttoutes deux par le point moyen (x, y).

Exercice 1.8.4 On considere deux variables x et y independantes dont onconnait quelques valauers (xi, yi) : (1, 1), (2, 8), (3, 27), (4, 64), (5, 125), (6, 216)et (7, 343). Quelle est l’equation de la droite de regression de Y en fonctionde X ?

20

Page 21: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

2 SolutionsSolution 1.2.1

note 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20effectif

(nbr d’etudiants)0 0 0 2 1 1 1 2 2 1 2 4 1 0 1 0 1 0 0 0

effectifscumules

croissants0 0 0 2 3 4 5 7 9 10 12 16 17 17 18 18 19 0 0 0

effectifcumules

decroissants19 19 19 19 17 16 15 14 12 10 9 7 3 2 2 1 1 0 0 0

et

moyenne =11 + 8 + 12 + 12 + 4 + 13 + 5 + 10 + 15 + 12 + 6 + 9 + 17 + 9 + 4 + 8 + 11 + 12 + 7

19= 9, 74

Il y a 19 notes. La mediane est donc la 10eme note : c’est 10 (il y a 9 notesau dessous de 10 et 9 notes au dessus). Le mode est 12 (cette note est donnee4 fois).

Solution 1.2.2

note (xi) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20effectifs(ni) 1 2 2 3 2 3 2 3 4 3 2 3 4 4 3 1 2 1 2 2 1

effectifscumules

croissants1 3 5 8 10 13 15 18 22 25 27 30 34 38 41 42 44 45 47 49 50

effectifscumules

decroissants50 49 47 45 42 40 37 35 32 28 25 23 20 16 12 9 8 6 5 3 1

et

moyenne =

∑nixi

50≈ 9, 66

On a donc la repartion suivantes des notes

0; 1; · · · ; 9; 9; 9; 10; 10; · · · ; 19; 19; 20

Il n’y a pas de valeur partageant la serie statistique en deux groupes de memeeffectif. Dans ce cas, l’intervalle median est [9, 10] et on prend pour medianele centre de cet intervalle : 9,5.

Solution 1.2.3

Notes Effectifs centre de classe Effectifs cumules[0; 5[ 10 2, 5 10[5; 8[ 8 6, 5 18[8; 12[ 12 10 30[12; 15[ 11 13, 5 41[15; 20[ 9 17, 5 50

21

Page 22: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

moyenne =2, 5× 10 + 6, 5× 8 + 10× 12 + 13, 5× 11 + 17, 5× 9

50= 10, 06

La mediane est la note correspondant a l’effectif cumule 25. La medianese trouve donc dans l’intervalle [8; 12[. On la determine par interpolationlineaire :

M − 8

25− 18=

12− 8

30− 18donc m ≈ 10, 33.

Solution 1.2.4

Salaires en francs Repartition employesmilieu

de la tranchesalariale

effectifscumules

croissants[4000; 6000[ 20 5000 20[6000; 8000[ 96 7000 116[8000; 10000[ 52 9000 168[10000; 12000[ 17 11000 185[18000; 20000[ 2 19000 187

On a donc

moyenne =20× 5000 + 96× 7000 + 52× 9000 + 17× 11000 + 19000× 2

20 + 96 + 52 + 17 + 2≈ 7824, 22

Le salaire median correspont au salaire du 94eme employe. Il est comprisdans la tranche [6000; 8000[. Plus precisement,

m− 6000

94− 20=

8000− 6000

116− 20donc m ≈ 7541, 67

Si on neglige les deux plus gros salaires, on a

moyenne =20× 5000 + 96× 7000 + 52× 9000 + 17× 11000

20 + 96 + 52 + 17≈ 7713, 52

Le salaire median correspont au salaire du 93eme employe. Il est comprisdans la tranche [6000; 8000[. Plus precisement,

m− 6000

93− 20=

8000− 6000

116− 20donc m ≈ 7520, 83

Solution 1.2.5 1. La duree mediane est l’age auquel la 500eme personneest decedee = 60 + (70− 60)× 560−500

560−380= 63, 33 ans.

22

Page 23: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

2.

duree d’existence(en annees)

xi : Centre de la classeni : nbr de decesdans la periode

0 a 10 5 7010 a 20 15 3020 a 30 25 5030 a 40 35 7040 a 50 45 10050 a 60 55 12060 a 70 65 18070 a 80 75 23080 a 90 85 13090 a 100 95 20

donc la duree moyenne de vie est

5× 70 + 15× 30 + 25× 50 + 35× 70 + 45× 100 + 55× 120 + 65× 180 + 75× 230 + 85× 130 + 95× 20

1000= 57, 5ans

3.

duree d’existenceau-dela de 70 ans (en annees)

Centre de la classe xini nbr de decesdans la periode

xini

0 a 10 5 230 115010 a 20 15 130 195020 a 30 25 20 500

380 3600

Esperance de vie cherche : 70 + 3600380

≈ 79, 5 ans.

Solution 1.2.6 Soit p le prix de l’essence . Au bout de la premiere annee, leprix de l’essence est de 1, 20× p. Au bout de la deuxieme annee, son prix estde 1, 10×1, 20×p soit 1, 32×p. Appelons a present m le pourcentage moyend’augmentation par an. Au bout de la premiere annee, le prix de l’essence estde (1 + m)p. Au bout de la deuxieme annee, son prix est de (1 + m)2p. Nousavons donc (1 + m)2 = 1, 32 soit 1 + m =

√1, 32 ≈ 1, 1489 Le pourcentage

d’augmentation est donc environ de 14,89 %.Cette moyenne est la moyenne geometrique des augmentations annuelles.

23

Page 24: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Solution 1.2.7 Soit C son chiffre d’affaire initial. A l’issue de la premiereannee, son chiffre d’affaire est C × 1, 1. A l’issue de la seconde annee, sonchiffre d’affaire est C×1, 1×1, 21. A l’issue de la troisieme annee, son chiffred’affaire est C × 1, 1× 1, 21× 1, 02.Soit m le pourcentage moyen d’augmentation annuelle. A l’issue de la premiereannee, son chiffre d’affaire serait C × (1 + m). A l’issue de la seconde annee,son chiffre d’affaire est C× (1+m)× (1+m). A l’issue de la troisieme annee,son chiffre d’affaire est C × (1 + m)× (1 + m)× (1 + m).On veut donc que (1 + m)3 = 1, 1 × 1, 21 × 1, 02 ie 1 + m ≈ 1, 107. Sonaugmentation annuelle moyenne est de 10,7 %.

Solution 1.2.8 L’augmentation moyenne des prix se calcule grace a la moyennegeometrique des coefficients multiplicateurs 1,05 et 1,15 soit une augmenta-tion moyenne de

√1, 05× 1, 15 ≈ 1, 0988 et donc un pourcentage moyen

d’augmentation annuelle de 9,88%.

Solution 1.2.9 Soit d la distance entre la ville A et la ville B, t le temps misa l’aller et T le temps mis au retour . Alors d = 20 × t soit t = d

20pour

l’aller et et d = 26× T soit T = d26

pour le retour Durant l’aller - retour : ladistance parcourue est egale a 2d ; la duree du parcours est egale a t + T ; onnote V est la vitesse moyenne parcourue durant l’ensemble du trajet . On aalors : 2d = V × (t+T ) = V ( d

20+ d

26) Soit 2 = V ( 1

20+ 1

26) en divisant chaque

membre de l’equation par d On en deduit que V = 2120

+ 126

≈ 22, 6 km/h. Ce

resultat est la moyenne harmonique des vitesses.

Solution 1.2.10 En 60mn, l’ouvrier A a fait 6 pieces, l’ouvrier B en a fait 4et l’ouvrier C en a fait 3 donc au total 13 pieces ont ete fabriquees en 180minutes, soit une moyenne de 13,85 mn par piece.On pouvait trouver directement ce resultat en utilisant la moyenne harmo-nique :

m =3

110

+ 115

+ 120

=180

13≈ 13, 85

Solution 1.2.11 Vitesse moyenne = nombre total de pieces produites/nombred’heures de production. La premiere machine a produit 500 pieces en (500/100)=5heures. La seconde machine a produit 300 pieces en (300/60)=5 heures. Ona donc produit 800 pieces en 10 heures. La vitesse moyenne est donnee par :

v =800

500100

+ 30060

=800

10= 80 pieces/heure

24

Page 25: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Solution 1.2.12 1. m = x1+x2

2, G =

√x1x2 et H = 2

1x1

+ 1x2

= 2x1x2

x1+x2

2. On a

(x1 − x2)2 > 0 car les variables sont distinctes

⇒ x21 − 2x1x2 + x2

2 > 0

⇒ x21 + 2x1x2 + x2

2 > 4x1x2

⇒ (x1 + x2)2 > 4x1x2

⇒ (x1 + x2)2x1x2 > 4(x1x2)

2

⇒ (x1 + x2)√

x1x2 > 2x1x2 car les variables sont positives

⇒√

x1x2 >2x1x2

x1 + x2

⇒ G > H

De meme

4x1x2 < (x1 + x2)2

⇒ x1x2 <(x1 + x2)

2

4

⇒√

x1x2 <x1 + x2

2car les variables sont positives ⇒ G < m

3. H ×m = 2x1x2

x1+x2× x1+x2

2= x1x2 = G2

4. On veut montrer que H = 2x1x2

x1+x2= 2(H−x1)(H−x2)

(H−x1)+(H−x2). On a

H =2(H − x1)(H − x2)

(H − x1) + (H − x2)

⇔ 2H2 −Hx1 −Hx2 = 2H2 − 2Hx1 − 2Hx2 + 2x1x2

⇔ 2x1x2 = H(x1 + x2)

⇔ H =2x1x2

x1 + x2

La derniere egalite etant vraie, on a le resultat.

Solution 1.3.1note 4 5 6 7 8 9 10 11 12 13 14 15 16 17 total

effectifs(nbr d’etudiants)

2 1 1 1 2 2 2 2 4 1 0 1 0 1 20

frequence(pourcentage)

10% 5% 5% 5% 10% 10% 10% 10% 20% 5% 0 5% 0 5% 100%

frequencescumulees

croissantes10% 15% 20% 25% 35% 45% 55% 65% 85% 90% 90% 95% 95% 100%

frequencescumulees

decroissantes100% 90% 85% 80% 75% 65% 55% 45% 35% 15% 10% 10% 5% 5%

25

Page 26: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Solution 1.3.2

Salaires en francs Repartition employes Frequenceeffectifscumules

croissants

frequencescumulees

croissantes

effectifscumules

decroissants

frequencescumulees

decroissantes[4000; 6000[ 20 10, 81% 20 10, 81% 185 100%[6000; 8000[ 96 51, 89% 116 62, 7% 165 89, 19%[8000; 10000[ 52 28, 11% 168 90, 81% 69 32, 3%[10000; 12000[ 17 9, 19% 185 100% 17 9, 19%

total 185 100%

Solution 1.4.1 Donnees ordonnees dans l’ordre croissant : 6, 7, 15, 36, 39,41, 41, 43, 43, 47, 49. Donc Mediane Q2 =41, Quartile superieur Q3 =43 etQuartile inferieur Q1 =15.

Solution 1.4.2 Les valeurs dans l’ordre croissant sont : 1, 11, 15, 19, 20, 24,28, 34, 37, 47, 50, 57.

1.

Mediane =12 + 1

2= 6, 5e valeur

=(6e + 7e observations)

2=

24 + 28

2= 26

2.

etendue = difference entre la valeur la plus elevee et la valeur la plus faible

= 57− 1 = 56

3.

Quartile inferieur Q1 = valeur du milieu de la premiere moitie des donnees

= la mediane de 1, 11, 15, 19, 20, 24

=(3e + 4e observations)

2

=15 + 19

2= 17

Quartile superieur Q3 = valeur du milieu de la seconde moitie des donnees

= la mediane de 28, 34, 37, 47, 50, 57

=(3e + 4e observations)

2

=37 + 47

2= 42

26

Page 27: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

4. ecart interquartile = Q3−Q1 = 42− 17 = 25.

Solution 1.5.1 On a

note 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20effectif

(nbr d’etudiants)0 0 0 2 1 1 1 2 2 1 2 4 1 0 1 0 1 0 0 0

et

moyenne =11 + 8 + 12 + 12 + 4 + 13 + 5 + 10 + 15 + 12 + 6 + 9 + 17 + 9 + 4 + 8 + 11 + 12 + 7

19= 9, 74

On en deduit que la variance V est egale a :

V =1

19

(2× (4− 9, 74)2 + (5− 9, 74)2 + (6− 9, 74)2 + (6− 9, 74)2 + (7− 9, 74) + 2× (8− 9, 74)2 + 2× (9− 9, 74)2 + (10− 9, 74)2 + 2× (11− 9, 74)2 + 4× (12− 9, 74)2 + (13− 9, 74)2 + (15− 9, 74)2 + (17− 9, 74)2

)=

231, 6844

19≈ 12, 194

et donc

σ =√

V ≈ 3, 5

On verifie bien que 68 % des notes (ici 13) sont situees dans l’intervalle[9, 74 − 3, 5; 9, 74 + 3, 5] = [6, 24; 13, 24] et que 95 % des notes (ici 18) sontsitues dans l’intervalle [9, 74− 2× 3, 5; 9, 74 + 2× 3, 5] = [2, 74; 16, 74]

Solution 1.5.2 On a

duree d’existence(en annees)

xi : Centre de la classeni : nbr de decesdans la periode

0 a 10 5 7010 a 20 15 3020 a 30 25 5030 a 40 35 7040 a 50 45 10050 a 60 55 12060 a 70 65 18070 a 80 75 23080 a 90 85 13090 a 100 95 20

donc la duree moyenne de vie est

5× 70 + 15× 30 + 25× 50 + 35× 70 + 45× 100 + 55× 120 + 65× 180 + 75× 230 + 85× 130 + 95× 20

1000= 57, 5ans

27

Page 28: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

On en deduit que la variance V est egale a

V =1

1000

(70× (5− 57, 5)2 + 30× (15− 57, 5)2 + 50× (25− 57, 5)2 + 70× (35− 57, 5)2 + 100× (45− 57, 5)2 + 120× (55− 57, 5)2 + 180× (65− 57, 5)2 + 230× (75− 57, 5)2 + 130× (85− 57, 5)2 + 20× (95− 57, 5)2

)= 558, 75

et donc l’ecart-type est

σ =√

V ≈ 23, 64

Solution 1.7.1 1. La taille de chaque comedien a ete surevaluee de 2cm,donc la moyenne aussi. La moyenne est donc m− 2cm. L’ecart-type nechange pas.

2. La longueur moyenne de tissu necessaire est donc 2m + 10cm. L’ecart-type est alors 2σ.

Solution 1.8.1 On a

x =1

6(10 + 20 + 30 + 40 + 50 + 60) = 35

y =1

6(40 + 10 + 18 + 20 + 57 + 14) = 26, 5∑

i=1

6xiyi = 10× 40 + 20× 10 + 30× 18 + 40× 20 + 50× 57 + 60× 14

= 5630

cov(X, Y ) =1

6

6∑i=1

xiyi − xy ≈ 10, 833

28

Page 29: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Solution 1.8.2 On a

x =1

6(10 + 20 + 30 + 40 + 50 + 60) = 35

y =1

6(30 + 60 + 90 + 120 + 150 + 180) = 105

6∑i=1

xiyi = 10× 30 + 20× 60 + 30× 90 + 40× 120 + 50× 150 + 60× 180 = 27300

cov(X, Y ) =1

6

6∑i=1

xiyi − xy = 875

σ2x =

1

6

6∑i=1

(xi − x)2

=1

6((10− 35)2 + (20− 35)2 + (30− 35)2 + (40− 35)2 + (50− 35)2 + (60− 35)2) =

1750

6≈ 291, 66

a =cov(X, Y )

σ2x

=8751750

6

= 3

b = y − ax = 105− 35× 3 = 0

On voit que l’{equation de la droite de regression est y = 3x, ce qui estnormal car pour tout i, on voit que yi = 3xi.

29

Page 30: Statistiques - Alternance HSEfredet/enseignements/MathAlternanceHSE/... · Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des mati`eres 1 Statistique

Solution 1.8.3 On a

x =1

6(10 + 20 + 30 + 40 + 50 + 60) = 35

y =1

6(20 + 50 + 80 + 110 + 140 + 170) = 95

6∑i=1

xiyi = 10× 20 + 20× 50 + 30× 80 + 40× 110 + 50× 140 + 60× 170 = 25200

cov(X, Y ) =1

6

6∑i=1

xiyi − xy = 875

σ2x =

1

6

6∑i=1

(xi − x)2

=1

6((10− 35)2 + (20− 35)2 + (30− 35)2 + (40− 35)2 + (50− 35)2 + (60− 35)2) =

1750

6≈ 291, 66

a =cov(X, Y )

σ2x

=8751750

6

= 3

b = y − ax = 95− 35× 3 = −10

On voit que l’{equation de la droite de regression est y = 3x− 10, ce qui estnormal car pour tout i, on voit que yi = 3xi − 10.

Solution 1.8.4 on trouve y = 55x− 108 commeequation de droite.

3 References

– Statistique et calcul des probabilites, Walder Masieri, Editions Dalloz– L’essentiel des probabilites et statistiques, Francois Aubin et Rene Si-

gnoret, Editions Ellipses– http://www.inrialpes.fr/sel/

– http://www.statcan.ca/francais/edu/index_f.htm

– http://fr.wikipedia.org/wiki/Accueil

30