14
1 Chapitre 1. Statistiques descriptives 1. Introduction. Pour résoudre des problèmes en génie, des données doivent être recueillies, décrites et analysées pour produire des informations sommaires. Le rôle des statistiques descriptives est de donner une idée sommaire sur les données par le calcul d’un nombre de statistiques et par des représentations graphiques. 2. Concepts de base. Population, échantillon et variable. Une étude statistique se base sur des données. Cependant, il est souvent impossible d’avoir les données complètes surtout s’il y a un grand nombre de possibilités ou si l’analyse des données utilise un test destructif. Par exemple, il serait impossible de déterminer la résistance moyenne d’un type de contenants en testant jusqu’à rupture chaque contenant sortant de la ligne de production. Même si on n’est pas dans les situations ci-dessus, étudier toutes les données serait onéreux en temps et en argent. Un ingénieur qui s’intéresse à vérifier si un procédé de fabrication respecte les spécifications va inspecter suivant un plan établi un certain nombre d’unités produites chaque jour. La différence entre toutes les données possibles et un nombre restreint de données recueillies est important dans la compréhension des statistiques. Population. Une population en statistique est l’ensemble des observations possibles d’une caractéristique d’intérêt. Échantillon Un échantillon d’une population est un sous ensemble de la population qui sera recueilli dans le cadre de l’étude concernée.

Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

1

Chapitre 1. Statistiques descriptives

1. Introduction.

Pour résoudre des problèmes en génie, des données doivent être recueillies, décrites et

analysées pour produire des informations sommaires. Le rôle des statistiques descriptives est de

donner une idée sommaire sur les données par le calcul d’un nombre de statistiques et par des

représentations graphiques.

2. Concepts de base. Population, échantillon et variable.

Une étude statistique se base sur des données. Cependant, il est souvent impossible d’avoir les

données complètes surtout s’il y a un grand nombre de possibilités ou si l’analyse des données

utilise un test destructif. Par exemple, il serait impossible de déterminer la résistance moyenne

d’un type de contenants en testant jusqu’à rupture chaque contenant sortant de la ligne de

production.

Même si on n’est pas dans les situations ci-dessus, étudier toutes les données serait onéreux en

temps et en argent.

Un ingénieur qui s’intéresse à vérifier si un procédé de fabrication respecte les spécifications va

inspecter suivant un plan établi un certain nombre d’unités produites chaque jour.

La différence entre toutes les données possibles et un nombre restreint de données recueillies

est important dans la compréhension des statistiques.

Population.

Une population en statistique est l’ensemble des observations possibles d’une caractéristique

d’intérêt.

Échantillon

Un échantillon d’une population est un sous ensemble de la population qui sera recueilli dans le

cadre de l’étude concernée.

Page 2: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

2

Variable

La variable est la caractéristique observée. En génie, en général les variables étudiées sont

quantitatives, c'est-à-dire mesurables. On distingue deux variables quantitatives :

- Variables discrètes : Une variable est dite discrète si elle prend un nombre fini de

valeurs ou un nombre infini de valeurs mais isolées.

- Variables continues : Une variable est dite continue si elle prend ses valeurs dans un

intervalle réel.

Exemple.

Variable : Résistance

Type : Continue

Population : Toutes les mesures des résistances produites.

Échantillon : Mesures de 50 résistances.

Exemple.

Variable : Nombre de paquets qui arrivent à un serveur dans une période d’une minute

Type : discrète

Population : Tout nombre possible de paquets qui arrivent dans une période d’une minute

Échantillon : Nombre de paquets qui arrivent dans une minute pendant 50 périodes d’une

minute.

Échantillon aléatoire

Un échantillon aléatoire est un échantillon où toutes les unités de la population ont la même

chance d’être sélectionnées. Si par exemple, un ingénieur sélectionne les 10 premières unités

produites, son échantillon n’est pas aléatoire. Pour sélectionner un échantillon aléatoire, il faut

utiliser un générateur de nombres aléatoires.

Page 3: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

3

Statistique

Une statistique est une mesure faite sur un échantillon.

Paramètre.

Un paramètre est une caractéristique de la population que la statistique va nous permettre

d’estimer.

3. Statistiques de base.

Statistiques de tendance centrale.

Moyenne d’échantillon.

La moyenne d’échantillon est une mesure centrale autour de laquelle gravitent les données de

l’échantillon.

La moyenne est donnée par 1

n

i

i

X

Xn

, où iX est la ième donnée et n le nombre de données

dans l’échantillon.

Exemple.

La moyenne de la série de données suivantes : 2 3.5 6 2 1.5 est

2 3.5 6 2 1.53

5X

.

En général, le nombre de données est grand pour faire les calculs à la main, on utilise alors un

logiciel comme Excel ou un logiciel spécialisé en statistiques.

Exemple.

Dans un procédé de fabrication de cartes pour circuits imprimés, on a mesuré l’épaisseur en mils

du placage en cuivre d’un échantillon de 100 cartes et on a obtenu :

3,468 3,428 3,516 3,509 3,461 3,492 3,478 3,482

3,49 3,467 3,519 3,498 3,504 3,469 3,497 3,466

Page 4: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

4

3,458 3,478 3,5 3,443 3,449 3,525 3,461 3,5

3,561 3,506 3,479 3,444 3,524 3,531 3,501 3,539

3,481 3,497 3,513 3,461 3,528 3,496 3,533 3,496

3,512 3,55 3,541 3,441 3,569 3,531 3,468 3,513

3,505 3,523 3,47 3,475 3,457 3,536 3,528 3,458

3,469 3,461 3,502 3,431 3,491 3,506 3,439 3,443

3,517 3,481 3,535 3,515 3,46 3,575 3,488 3,495

3,51 3,483 3,467 3,467 3,502 3,471 3,516

3,556 3,482 3,512 3,45 3,516 3,476 3,515

3,495 3,518 3,523 3,564 3,522 3,52 3,474

3,489 3,514 3,47 3,477 3,536 3,491 3,484

En utilisant la fonction moyenne d’Excel par exemple, on obtient 3.495X .

Médiane.

Une autre statistique de mesure centrale utilisée est la médiane. Si la série de données est

ordonnée, la médiane est un nombre réel qui sépare la série en deux.

Si le nombre de données est impair, la médiane est la valeur de la série ordonnée qui sépare la

série en deux et si le nombre de données est pair, la médiane est la moyenne des deux valeurs

qui se trouvent au centre de la série ordonnée.

La médiane est en général différente de la moyenne à moins que les données de part et d’autre

de la médiane soient à la même distance de celle-ci.

Exemples.

La médiane de la série ordonnée 2 2 3 4 4 4 5 est 4.

La médiane de la série ordonnée 1 1 2 2 4 4 5 6 est la moyenne de 2 et 4 qui est 3.

La médiane des données sur l’épaisseur du placage des cartes se fait avec un logiciel et on

obtient 3.496.

La série 1 1 2 2 3 4 4 à pour moyenne 2.428 et pour médiane 2. Si on reprend la même

série en changeant la dernière valeur par 9, la moyenne change pour 3.143 et la médiane reste

toujours 2. La moyenne est donc plus sensible que la médiane.

Page 5: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

5

Statistiques de variabilité ou de dispersion.

Variance d’échantillon.

Les statistiques centrales ne sont pas suffisantes à elles seules de résumer les données. Pour

cela regardons de près les deux séries de données suivantes;

Série 1 : 2 2 50 98 98

Série 2 : 44 44 50 56 56

Ces deux séries ont la même moyenne qui est 50 et la même médiane qui est 50. Cependant il y

a une différence fondamentale à savoir que la série 1 set plus étendue que la série 2. Pour

mesurer cette dispersion des données par rapport à la moyenne, on utilise une statistique qui

tient compte des écarts entre chaque donnée et la moyenne. La variance est la statistique qui

mesure cette dispersion. On la calcule comme une moyenne des carrées des écarts entre les

données et la moyenne.

La variance est donnée par

2

1

( )

1

n

i

i

X X

n

et a pour unité celle de la variable au carré. On

utilise aussi la racine carrée de la variance qui est une forme de distance moyenne entre les

données et la moyenne, cette statistique sera appelée écart type d’échantillon S et a les mêmes

unités que la variable étudiée. On a alors

2

1

( )

1

n

i

i

X X

Sn

ou

2

2 1

( )

1

n

i

i

X X

Sn

Exemples.

Série 1 : 2 2 2 2 2

2 (2 50) (2 50) (50 50) (98 50) (98 50)2304

4S

et

2304 48S

Page 6: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

6

Série 2 : 2 2 2 2 2

2 (44 50) (44 50) (50 50) (56 50) (59 50)36

4S

et

36 6S .

La série 1 a une plus grande variance que la série 2.

Exemple.

La variance des données sur l’épaisseur de placage est obtenue avec la formule var d’ Excel. On

obtient 2 0.00103S et 0.0321S

Coefficient de variation.

Pour comparer deux séries n’ayant pas la même moyenne ou ayant des unités différentes, on

utilise une statistique qui mesure la dispersion relative qui est le coefficient de variation. On le

définit par

100%S

CVX

Un coefficient de variation faible indique une faible dispersion et une forte homogénéité.

Exemple.

Le coefficient de variation dans l’exemple de l’épaisseur du placage est 0.92%. Ce coefficient est

très faible, on en déduit que les données sont peu dispersées.

4. Distribution d’une variable

Effectif et Fréquence.

- Cas d’une variable discrète : L’effectif d’une valeur est le nombre de fois que la valeur

est observée dans l’échantillon. La fréquence d’une valeur est la proportion qu’elle est

observée dans l’échantillon.

- Cas d’une variable continue. La série de données est partagée en intervalles appelées

classes. L’effectif d’une classe est le nombre d’observations de l’échantillon qui sont

dans cette classe. La fréquence d’une classe est la proportion d’observations de

l’échantillon qui sont dans cette classe.

Page 7: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

7

Distribution d’une variable.

Un résumé qui peut prendre la forme d’un tableau ou d’un graphique qui met en évidence les

données individuelles dans le cas d’une variable discrète ou sous forme de classes dans le cas

d’une variable continue en précisant leurs effectifs ou leurs fréquences.

Exemple.

Les données suivantes représentent la résistance à la traction de tiges d’acier.

Résistance à la traction

103779 103633 103779 103633 103799 97383 105087 102325

102906 102616 101162 107848 103488 101162 106395 105377

104796 106831 102470 99563 102906 98110 100872 104796

103197 102325 105232 105813 101017 104651 104360 106831

100872 104651 103924 108430 104651 102906 101453 105087

103197 105337 101744 106104 100726 106540 101744 101598

103799 100145

Les résultats suivants ont été obtenus par Stagraphics.

Page 8: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

8

Tableau des fréquences.

Exemple.

Les données suivantes représentent des durées de vie d’un certain dispositif.

Durée de vie

12411 272005 108561 46684 233254 40479 93241

21491 89601 116729 16263 150011 59067 118077

33771 6171 60266 399071 82273 87592 95291

72435 28637 313879 46252 53533 173580 199458

27668 78954 162792 149432 102947 77084 137149

220413 45771 7400 50668 43911 182737 61894

10291 58526 49022

Les résultats suivants ont été obtenus par Stagraphics.

Page 9: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

9

5. Graphiques.

Histogramme.

Un histogramme est un graphique qui résume le tableau des effectifs ou des fréquences.

Exemples.

On reprend les exemples précédents. Les histogrammes qui suivent ont été obtenus avec

Statgraphics.

Page 10: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

10

6. Diagramme en boîte.

Une série ordonnée de données peut être partagée en quatre par trois nombres appelées

quartiles. Le plus petit est noté 1Q , le deuxième 2Q qui est la médiane et le plus grand est 3Q .

La moitié des valeurs se trouvent entre 1Q et 3Q .

La quantité 3 1Q Q est l’intervalle interquartile et noté IQR. Les données inférieures à

1 1.5Q IQR ou supérieures à 3 1.5Q IQR

sont dites données extrêmes.

Le diagramme en boîte est un graphique qui montre la médiane, les quartiles et les données

extrêmes. Une application fréquente du diagramme en boîte est la comparaison de plusieurs

séries de données.

Page 11: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

11

Exemples.

On reprend les exemples précédents. Les diagrammes en boîte ont été obtenus avec

Statgraphics

Page 12: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

12

Asymétrie d’une distribution.

Les asymétries Classiques sont exposées dans les graphiques suivants :

Page 13: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

13

7. Densités.

Les histogrammes de la résistance à la traction et de la durée de vie présentent des formes

différentes. Celui de la résistance à la traction ressemble à une cloche alors que celui de la durée

de vie à une forme avec une forte asymétrie à droite.

Si on construit un histogramme de telle sorte que l’aire de chaque rectangle soit égale à la

fréquence de chaque classe (Ceci se fait en prenant pour unité la longueur de la classe et pour

hauteur la fréquence ou si on veut conserver les unités, on prend pour hauteur la fréquence

divisée par la longueur de la classe). L’histogramme ainsi construit à une aire égale à 1 et l’aire

de chaque classe est la fréquence de la classe. Cependant, avec l’histogramme on ne peut

calculer que des aires d’intervalles dont les extrémités sont des extrémités de classe.

Afin d’avoir un modèle pour toute la population et qui permettrait de calculer la fréquence de

tout intervalle, on ajuste une fonction à l’histogramme qu’on appelle fonction de densité. Nous

verrons plus loin l’utilisation des densités.

Page 14: Chapitre 1. Statistiques descriptives 1. Introduction ... de cours/Cours1.p… · Ce coefficient est très faible, on en déduit que les données sont peu dispersées. ... 103197

14