33
LA RÉDACTION DES NOTES D’OBSERVATION AU DOSSIER Colloque de l’AEESICQ Cégep de Ste-Foy Juin 2005 Yvon Brassard

Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

Embed Size (px)

Citation preview

Page 1: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

Statistiques Descriptives I

Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures de tendance centrale (moyenne, médiane, mode) et des mesures de variabilité (écart, écart-type, variance).

Auteurs : Phillip E. PfeiferTraduction et adaptation : Younes BENJELLOUN

© 2014 Phillip E. Pfeifer, Younes Benjelloun et Manager par les chiffres.

MPC | Manager Par les Chiffres

Page 2: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

2

DE

UX

TY

PE

S D

E S

TAT

IST

IQU

ES

DE

SC

RIP

TIV

ES

Deux types de Statistiques Descriptives

• Les Mesures de Tendances Centraleso La Moyenneo La Médianeo Le Mode

• Les Mesures de Variabilitéo Etendue (Maximum – Minimum)o L‘Ecart-Typeo La Variance

Ce module couvre ces six mesures statistiques. Les trois premières décrivent le «centre» d'un ensemble de données. Les trois dernières décrivent la diffusion d'un ensemble de données. A chaque définition, nous identifierons et expliquerons la fonction Excel que l’on peut utiliser pour calculer la mesure en question.

MPC | Manager Par les Chiffres

Page 3: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

3

LA MO

YENNEDéfinition

La Moyenne = La moyenne arithmétique d’un ensemble de données (nombre1 + nombre2 +… nombren) / n

Fonction Excel = Moyenne(nomb1, nomb2, …, nombn) - ou - Moyenne(Première cellule:Dernière cellule)

La Moyenne

A noterSi vous connaissez la moyenne de l'échantillon et le nombre de valeurs, vous pouvez multiplier les deux pour calculer le total. C'est l’une des raisons pour lesquelles la moyenne de l'échantillon est une mesure très populaire en statistiques.

MPC | Manager Par les Chiffres

Page 4: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

4

LA MO

YENNELa Moyenne

Question 1: Quelle est la moyenne des ventes de véhicules par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2

Réponse :

On sait que la moyenne = (nombre1 + nombre2 +… nombren) / n

Par conséquent, en remplaçant nos valeurs :

La moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8

Nous pouvons également calculer rapidement le montant total en multipliant5,8 véhicules en moyenne x 5 jours = 29 véhicules pour la semaine.

MPC | Manager Par les Chiffres

Page 5: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

5

LA MÉ

DIA

NEDéfinition

La Médiane = La médiane est le point qui se trouve au milieu. Le même nombre de valeurs se trouvent au-dessus et au-dessous de la médiane.

Note: S'il y’a un nombre pair de valeurs de données, la médiane est la moyenne des deux valeurs centrales.

Fonction Excel = Médiane(nombre1, nombre2, …, nombren) - ou - Médiane(Première cellule:Dernière cellule)

La Médiane

A noterLe tri des données permet de trouver plus facilement la médiane.

MPC | Manager Par les Chiffres

Page 6: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

6

LA MÉDIANE

La Médiane

Question 1: Quelle est la médiane des ventes de véhicules par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2

Réponse:

On sait que la médiane est le point qui se trouve au milieu d’un ensemble de données triées.

Par conséquent, en triant nos valeurs:

La Médiane = 2, 2, 4, 8, 13 = 4

On note que deux valeurs sont inférieures (2, 2) et deux valeurs sont supérieures (8, 13)

MPC | Manager Par les Chiffres

Page 7: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

7

LA MÉDIANE

La Médiane

Question 2: Quelle serait la médiane si nos données ne contenaient que les ventes de véhicules du mardi au vendredi ? Mar.=8, Mer.=4, Jeu.=13, Ven.=2

Réponse:

On sait que la médiane est le point qui se trouve au milieu d’un ensemble de données triées.

Par conséquent, en triant nos valeurs :

Les données triées= 2, 4, 8, 13

Mais, dans cet exemple, il y’a deux points dans le milieu, 4 et 8. On prend alors la moyenne des deux points.

Médiane = (4 + 8) / 2 = 6

MPC | Manager Par les Chiffres

Page 8: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

8

LE M

OD

E

Définition

Le Mode = Le mode est la valeur apparaissant le plus souvent.

Remarque : S’il n’y a pas de valeur qui se répète on dit que les données ne possèdent pas de mode.

Fonction Excel = Mode(nombre1, nombre2, …, nombren) - ou - Mode(Première cellule:Dernière cellule)

Le Mode

Définitions

Unimodal = Lorsqu’une seule valeur est la plus fréquente

Bimodal = Lorsque deux valeurs apparaissent le plus souvent

MPC | Manager Par les Chiffres

Page 9: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

9

LE M

OD

ELe Mode

Question 1: Quel est le mode des ventes de véhicules par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2

Réponse :

On sait que le mode est la valeur apparaissant le plus souvent.

Par conséquent, en triant nos valeurs :

2, 2, 4, 8, 13

Le mode est 2 comme il apparait deux fois, et les trois autres valeurs n’apparaissent qu'une seule fois.

Nous pouvons aussi décrire cet ensemble comme des données unimodales parce qu'il n’y a qu’un seul mode.

MPC | Manager Par les Chiffres

Page 10: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

10

LE M

OD

ELe Mode

Question 2: Si les données incluaient les ventes de samedi de 13 véhicules, quel serait le mode pour les ventes de la semaine du lundi au samedi ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2, Sam.=13

Réponse :

On sait que le mode est la valeur apparaissant le plus souvent.

Par conséquent, en triant nos valeurs :

2, 2, 4, 8, 13, 13

Les valeurs 2 et 13 sont toutes les deux des modes pour cet ensemble de données bimodales.

MPC | Manager Par les Chiffres

Page 11: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

11

ME

SU

RE

S D

E LA

TE

ND

AN

CE

CE

NT

RA

LEMesures de la Tendance Centrale

• La Moyenneo La moyenne arithmétique

• La Médianeo La Valeur au Milieu

• Le Modeo La valeur se produisant le plus souvent

L'ensemble de la Moyenne, la Médiane et le Mode peuvent vous en dire beaucoup sur la façon dont les données sont distribuées .... comme nous allons le voir maintenant.

MPC | Manager Par les Chiffres

Page 12: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

12

LA S

YM

ÉT

RIE

ET

L‘AS

YM

ÉT

RIE

La Symétrie et l‘Asymétrie

Définitions

Si les données sont unimodales et la moyenne, la médiane et le mode sont tous égaux, on dit que les données sont symétriques.

Si les données sont unimodales et la moyenne, la médiane et le mode sont toutes différentes, les données sont dites asymétriques.

Les données sont dites désaxées vers la droite lorsqu’elle contiennent quelques grandes valeurs et de nombreuses petites valeurs. Dans ce cas, la moyenne de l'échantillon est normalement supérieure à la médiane.

Les données sont dites désaxées vers la gauche lorsqu’elle contiennent quelques petites valeurs et de nombreuses grandes valeurs. Dans ce cas, la moyenne de l'échantillon est normalement inférieure à la médiane.

MPC | Manager Par les Chiffres

Page 13: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

13

LA S

YM

ÉT

RIE

ET

L‘AS

YM

ÉT

RIE

La Symétrie et l‘Asymétrie

Question 1: Décrivez les données suivantes de ventes de voitures pour une semaine en termes de symétrie et d'asymétrie. Lun.=2, Mar.=12, Mer.=9, Jeu.=7, Ven.=5, Sam.=7

Réponse :

Tout d’abord, le tri de nos valeurs nous donne ceci : 2, 5, 7, 7, 9, 12

La Moyenne = (2 + 5 + 7 + 7 + 9 + 12) / 6 = 7La Médiane = 7 (Valeur du milieu)Le Mode = 7 (apparit 2 fois)

Par conséquent, la moyenne, la médiane et le mode sont tous égaux, ainsi l'ensemble des données serait décrit comme symétriques.

MPC | Manager Par les Chiffres

Page 14: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

14

LA S

YM

ÉT

RIE

ET

L‘AS

YM

ÉT

RIE

La Symétrie et l‘Asymétrie

Question 2: Décrivez les données de vente suivantes en termes de symétrie et d'asymétrie. Lun.=2, Mar.=21, Mer.=9, Jeu.=2, Ven.=3, Sam.=5

Réponse :

Tout d’abord, le tri de nos valeurs nous donne ceci : 2, 2, 3, 5, 9, 21

La Moyenne = (2 + 2 + 3 + 5 + 9 + 21) / 6 = 7La Médiane = (3 + 5) / 2 = 4 (La moyenne des 2 valeurs du milieu)Le Mode = 2 (apparait 2 fois)

La moyenne, la médiane et le mode ne sont pas égaux, ces données sont donc asymétriques. Parce que la moyenne, la médiane et le mode sont différents ET le mode étant inférieur à la médiane, qui, à son tour, est inférieure à la moyenne de l'échantillon --- nous disons que les données sont désaxées vers la droite.

A noterLes données de l’entreprise sont souvent désaxées vers la droite (pensez aux salaires, les ventes part client, etc.)

MPC | Manager Par les Chiffres

Page 15: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

15

MESURE DE LA VARIABILITÉ

Mesure de la Variabilité

• Mesure de la Variabilitéo L’Etendue (Maximum – Minimum)o L‘Ecart-Typeo La Variance

Beaucoup de décisions commerciales sont fondées non seulement sur des moyennes, mais aussi sur la variabilité autour de la moyenne. La variabilité de la température, par exemple, conduit à des coûts plus élevés de chauffage / refroidissement. Nous passons maintenant à trois statistiques qui décrivent la propagation des données, come par exemple la mesures de la variabilité.

MPC | Manager Par les Chiffres

Page 16: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

16

L’ETENDUE

Définition

L’Etendue = La différence entre la plus grande et la plus petite des valeurs d’un échantillon de

données.

La Fonction Excel = Max(n1, n2, …, nn) - Min(n1, n2, …, nn)- ou - Max(première cell.:dernière cell.) - Min(première cell.:dernière cell.)

L’Etendue

Question 1: Quelle est l’étendue des ventes de voitures par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2

Réponse:

On sait que l’étendue = Maximum - MinimumPar conséquent, en substituant nos valeurs:Etendue = 13 – 2 = 11

Notes que “l’étendue’’ va de 2 à 13, l’étendue des données est 11.

MPC | Manager Par les Chiffres

Page 17: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

17

L’EC

AR

T-TY

PE

L’Ecart-Type

A noterPensez à l'écart type de l'échantillon comme une mesure de la façon dont les données varient. Si toutes les données ont la même valeur, l'écart type sera égal à zéro.

Définition

L’écart-type de l'échantillon est la racine carrée des carrés des distances «moyennes» des points par rapport à la moyenne de l'échantillon.

(nb1 – x )^2 + (nb2 – x )^2 + … + (nbn – x )^2 ^ (1/2)Ecart-Type = n-1

Avec x = moyenne de l’échantillon et n = nombre de données dans l’échantillon.

Fonction Excel = ECARTYPE (nb1, nb2, …, nbn)

* A noter que le signe ^2 signifie au carré et le ^(1/2) ou ^0,5 signifient racine carré, comme sur Excel.

MPC | Manager Par les Chiffres

Page 18: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

18

L’EC

AR

T-TY

PE

L’Ecart-TypeQuestion 1: Quel est l’écart-type des ventes de voitures par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2

Réponse :

On sait que la moyenne = (nb1 + nb2 +… nbn) / n

Pas conséquent, en substituant nos valeurs :

La moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8

Puis en continuant notre calcul de l’écart-type de l'échantillon…

La somme des carrés des écarts = (2 – 5,8)^2 + (8 – 5,8)^2 … + (2 – 5,8)^2 = 88,8Ecart-type = (88,8 / (5 – 1))^0,5 = 4,71

Il est important de connaître la formule de calcul de l’écart-type, mais l’utilisation d’Excel facilite considérablement le traitement des données.

* A noter que le signe ^2 signifie au carré et le ^0,5 signifient racine carré, comme sur Excel.

MPC | Manager Par les Chiffres

Page 19: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

19

SA

MP

LE S

TAN

DA

RD

DE

VIA

TIO

NL’Ecart-Type

A noter

L’écart-type est une meilleure mesure de la variabilité des données car il utilise tous les points de données (et pour d'autres raisons techniques que nous n’aborderons pas.)

Pour calculer un écart-type, vous devrez presque toujours utiliser Excel .... même s'il y a peu de données à analyser.

Si il y’a beaucoup de données unimodales, distribution symétrique (courbe en cloche), une règle empirique indique que 68% des valeurs se situent à un écart-type de la moyenne (entre la moyenne moins l’écart-type et la moyenne plus l’écart-type).

En prenant l’exemple précédent, où la moyenne de l'échantillon = 5,8 et l'écart-type = 4,71 (et en supposant une distribution en forme de cloche des données – ce qui n’est pas le cas), notre règle d'or serait alors de dire que 68% des valeurs se situent entre 5,8 - 4,71 et 5,8 + 4,71 (ou entre environ 1,1 et 10,5).

MPC | Manager Par les Chiffres

Page 20: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

20

LA V

AR

IAN

CE

La Variance

A noterSi cela vous semble familier, c’est normal ! Le calcul de la variance de reprend toutes les étapes du calcul écart-type .. sauf la racine carré finale. Par conséquent, la variance est aussi égale à Ecart-Type ^ 2.

Définition

La Variance est la ‘’moyenne’’ des distances au carré des points de l'échantillon par rapport à la valeur moyenne (c’est aussi le carré de l'écart type).

(nb1 – x )^2 + (nb2 – x )^2 +…+ (nbn – x )^2

La Variance = n - 1

Avec x = valeur moyenne et n = nombre de données dans l’échantillon

Fonction Excel = var(nb1, nb2, …, nbn)

MPC | Manager Par les Chiffres

Page 21: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

21

LA VARIANCELa Variance

Question 1: Quelle est la variance des ventes de voitures par jour sur cette semaine ? Lun.=2, Mar.=8, Mer.=4, Jeu.=13, Ven.=2

Réponse :

La valeur moyenne = (2 + 8 + 4 + 13 + 2) / 5 = 5,8

Puis en continuant notre calcul de l’écart-type de l'échantillon…

La somme des carrés des écarts = (2 – 5,8)^2 + (8 – 5,8)^2 … + (2 – 5,8)^2 = 88,8Variance = (88,8 / (5 – 1)) = 22,2

A noterEtant donné que la variance est le carré de l'écart-type, si vous disposez de l’une vous pouvez facilement calculer l'autre. En général, l'écart-type est beaucoup plus facile à interpréter, en partie, parce qu'il a les mêmes unités que les données. (par exemple, l’écart-type de 4,71 calculé précédemment correspond à 4,71 voitures. Le 22,2 correspond au nombre de voitures au carré)

MPC | Manager Par les Chiffres

Page 22: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

22

STATISTIQUES DESCRIPTIVES

Statistiques Descriptives

• Mesures de Tendances Centraleso La Moyenneo La Médianeo Le Mode

• Measures de Variabilitéo Etendue (Maximum – Minimum)o L‘Ecart-Typeo La Variance

Ceci complète notre introduction aux six statistiques descriptives énumérées ci-dessus. Ce qui suit sont quelques diapositives qui montrent comment ces statistiques se comportent si vous multipliez les données par une constante "b" et vous ajoutez une autre constante "a". C'est ce qu'on appelle une conversion linéaire. Les transformations utilisées pour convertir des kilogrammes en livres, les miles en kilomètres, et des millions en milliards sont tous des exemples de conversions linéaires.

MPC | Manager Par les Chiffres

Page 23: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

23

STA

TIS

TIQ

UE

S D

ES

CR

IPT

IVE

S P

OU

R D

ON

ES

TR

AN

SF

OR

ES

Statistiques Descriptives pour Données Transformées

Prenons X comme les données d’origine.Disons que Y = a + b * X sont les données transformées.

Moyenne (Y) = a + b * Moyenne (X)Mediane (Y) = a + b * Mediane(X)Mode(Y) = a + b * Mode(X)

A noterLa moyenne, la médiane et le mode se comportent tous de façon logique pour les données transformées linéairement. Ainsi, si la température moyenne était de 68 degrés Fahrenheit, la température médiane (si elle est calculée en utilisant les mêmes données exprimées en degrés Celsius) serait (5/9) * (68-32) = 20 degrés Celsius. Cela est vrai parce que la transformation de Fahrenheit en Celsius est linéaire ... et due à la façon dont les trois indicateurs statistiques se comportent.

MPC | Manager Par les Chiffres

Page 24: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

24

STA

TIS

TIQ

UE

S D

ES

CR

IPT

IVE

S P

OU

R D

ON

ES

TR

AN

SF

OR

ES

Statistiques Descriptives pour Données Transformées

Prenons X comme les données d’origine.Disons que Y = a + b * X sont les données transformées.

Etendue(Y) = abs(b) * Etendue(X)Ecart-Type(Y) = abs(b) * Ecart-Type(X)Variance(Y) = b^2 * Variance(X)

A noterEtant donné que l’Etendue, l'écart-type et la variance sont toute mesure variabilité, il n’est donc pas surprenant que l'ajout d'une constante aux données n'affecte pas ces trois statistiques. La multiplication des données par une constante, cependant, multiplie l’étendue et l'écart-type par la valeur absolue de la constante et multiplie la variance par la constante au carré. Ainsi, si l'écart-type de la température était de 10 degrés Celsius, l'écart type de la même donnée devrait être (5/9) * 10 ou de 50/9 en degrés Celsius.

MPC | Manager Par les Chiffres

Page 25: Statistiques Descriptives I Ce module couvre les statistiques couramment utilisées pour décrire ou résumer un ensemble de données, y compris des mesures

25

Statistiques Descriptives à Deux Variables (Module MPC - Prochainement disponible). Ce module fournit davantage d’apprentissages en statistiques, y compris la corrélation et la régression.

N’importe quel livre d’introduction aux statistiques comme Introductory Statistics (9th Edition), Neil. A. Weiss, Pearson Publishing, 2010.

RE

NC

ES

CO

MP

LÉM

EN

TAIR

ES

Références Complémentaires

MPC | Manager Par les Chiffres