21
Page 1 STATISTIQUE DESCRIPTIVE CHAPITRE 1 PRESENTATION NUMERIQUE ET GRAPHIQUE D’UNE SERIE STATISTIQUE I. GENERALITES ET DEFINITIONS On appelle statistiques (au pluriel) ou série statistique des collections de nombres présentées sous formes de tableaux ou de graphiques. La statistique (au singulier) est l’ensemble des méthodes scientifiques à partir desquelles on organise, présente et analyse les données numériques et qui permettent de tirer des conclusions et de prendre des décisions judicieuses. On appelle population l’ensemble d’individus que ce soient des personnes, des animaux, des plantes ou des objets. Une étude statistique porte généralement sur un caractère (c’est une « facette » que présente un individu) déterminé présenté par chacun des individus d’une population donnée. Exemple : étude statistique portant sur le poids de nouveau-nés, la taille, le taux de cholestérol, le taux d’urée sanguine de personnes d’une population. Remarque : Parfois on emploie le terme de variable statistique au lieu de caractère. L’étude statistique d’un phénomène doit comporter les quatre étapes suivantes : 1. Le recueil des données On considère une population de laquelle on veut faire une étude statistique portant sur un caractère présenté par chacun des individus. Il est généralement impossible de faire des observations sur chaque individu de la population soit à cause de l’effectif qui est trop grand, soit parce qu’elle est destructive (contrôle de qualité d’un produit) ; on devra choisir une partie composée de individus appelée échantillon de taille . Le problème important en statistique consiste avant tout en le choix de l’échantillon. La méthode de choix de l’échantillon la plus fréquente est appelée méthode des sondages ; elle consiste à choisir au hasard un échantillon de la population. L’expression « Hasard » signifie qu’il n’y a aucune raison pour qu’un individu soit choisi de préférence à un autre c’est à dire que chaque individu de la population a la même probabilité d’être choisi. Cette méthode vise à réaliser un échantillon représentatif de la population : les informations obtenues à partir des observations faites sur l’échantillon doivent pouvoir être étendues, sans erreur grave, à l’ensemble de la population. En mathématiques, un caractère est une application définie sur l’ensemble de la population à valeurs dans un ensemble appelé ensemble des modalités du caractère. Un caractère peut donc présenter plusieurs modalités : Exemple Le caractère groupe sanguin a des modalités : A, B, AB et O. Le caractère sexe a deux modalités : masculin et féminin. Le caractère taille des personnes a plusieurs modalités : 165 cm, 157 cm, 173 cm etc. Parmi les caractères étudiés, on distingue : Caractère quantitatif : Un caractère est quantitatif si ses modalités sont mesurables. Exemple : Taille, Poids, Taux d’urée, Taux de cholestérol, Nombre d’enfants. Un caractère quantitatif peut être : Discret, si les mesures du caractère sont discrètes (c’est-à-dire que les mesures sont séparées les unes des autres). Exemple : Nombre d’enfants d’une famille. Continu, si les mesures du caractère peuvent prendre n’importe quelle valeur entre des limites données. Exemple : Taille, Poids, Taux de cholestérol, Taux de glucose.

stat chitre 1 et 2.pdf

Embed Size (px)

Citation preview

  • Page 1

    STATISTIQUE DESCRIPTIVE

    CHAPITRE 1

    PRESENTATION NUMERIQUE ET GRAPHIQUE DUNE SERIE STATISTIQUE

    I. GENERALITES ET DEFINITIONS

    On appelle statistiques (au pluriel) ou srie statistique des collections de nombres prsentes sous formes de tableaux ou de graphiques.

    La statistique (au singulier) est lensemble des mthodes scientifiques partir desquelles on organise, prsente et analyse les donnes numriques et qui permettent de tirer des conclusions et de prendre des dcisions judicieuses.

    On appelle population lensemble dindividus que ce soient des personnes, des animaux, des plantes ou des objets.

    Une tude statistique porte gnralement sur un caractre (cest une facette que prsente un individu) dtermin prsent par chacun des individus dune population donne. Exemple : tude statistique portant sur le poids de nouveau-ns, la taille, le taux de cholestrol, le taux dure sanguine de personnes dune population. Remarque : Parfois on emploie le terme de variable statistique au lieu de caractre. Ltude statistique dun phnomne doit comporter les quatre tapes suivantes :

    1. Le recueil des donnes On considre une population de laquelle on veut faire une tude statistique portant sur un caractre prsent par chacun des individus. Il est gnralement impossible de faire des observations sur chaque individu de la population soit cause de leffectif qui est trop grand, soit parce quelle est destructive (contrle de qualit dun produit) ; on devra choisir une partie compose de individus appele chantillon de taille . Le problme important en statistique consiste avant tout en le choix de lchantillon. La mthode de choix de lchantillon la plus frquente est appele mthode des sondages ; elle consiste choisir au hasard un chantillon de la population. Lexpression Hasard signifie quil ny a aucune raison pour quun individu soit choisi de prfrence un autre cest dire que chaque individu de la population a la mme probabilit dtre choisi. Cette mthode vise raliser un chantillon reprsentatif de la population : les informations obtenues partir des observations faites sur lchantillon doivent pouvoir tre tendues, sans erreur grave, lensemble de la population. En mathmatiques, un caractre est une application dfinie sur lensemble de la population valeurs dans un ensemble appel ensemble des modalits du caractre. Un caractre peut donc prsenter plusieurs modalits : Exemple Le caractre groupe sanguin a des modalits : A, B, AB et O. Le caractre sexe a deux modalits : masculin et fminin. Le caractre taille des personnes a plusieurs modalits : 165 cm, 157 cm, 173 cm etc. Parmi les caractres tudis, on distingue : Caractre quantitatif : Un caractre est quantitatif si ses modalits sont mesurables.

    Exemple : Taille, Poids, Taux dure, Taux de cholestrol, Nombre denfants. Un caractre quantitatif peut tre : Discret, si les mesures du caractre sont discrtes (cest--dire que les mesures sont spares

    les unes des autres). Exemple : Nombre denfants dune famille.

    Continu, si les mesures du caractre peuvent prendre nimporte quelle valeur entre des limites donnes. Exemple : Taille, Poids, Taux de cholestrol, Taux de glucose.

  • Page 2

    Caractre qualitatif : Un caractre est qualitatif si ses modalits ne sont pas mesurables. Exemple : Groupe sanguin, Sexe. 2. La prsentation des donnes

    Les donnes recueillies doivent tre prsentes sous forme de tableaux ou de graphiques et quelques fois cette prsentation donne une ide suffisante de linformation contenue dans ces donnes. En outre, lorsque le caractre est quantitatif, on utilise les paramtres caractristiques qui sont un ensemble de valeurs permettant de reprsenter au mieux la srie statistique et den tirer des informations suffisantes.

    3. Lanalyse des donnes Cette tape fondamentale consiste obtenir des informations concernant le caractre tudi dans la population partir de celles obtenues sur lchantillon en utilisant les mthodes du calcul de probabilits appeles mthodes statistiques.

    4. La fiabilit des rsultats Il sagit de prciser le degr de confiance quil faut accorder aux rsultats obtenus par lanalyse des donnes en fonction des donnes observes.

    II. PRESENTATION NUMERIQUE ET GRAPHIQUE

    Dans cette partie, nous allons apprendre comment on reprsente, pour chaque nature du caractre, numriquement et graphiquement une srie statistique simple.

    1. Caractre quantitatif discret Soit la srie statistique , ,, o est la valeur du caractre quantitatif discret prsente par lindividu avec 1,2, , . Leffectif total : cest le nombre de valeurs . Ltendue de la srie : cest la diffrence entre la valeur maximale et la valeur minimale.

    Une srie statistique sur un caractre quantitatif discret est trs souvent reprsente sous la forme dun tableau :

    Valeur du caractre TOTAL Effectif

    Exemple : On fait une tude statistique portant sur le nombre denfants par famille dans un chantillon comportant 36 familles. La srie statistique est :

    5 1 2 1 2 7 0 6 6 3 3 1 0 2 0 0 4 4 5 4 0 2 0 5 6 4 1 1 0 0 0 2 3 4 1 1 Certaines valeurs se rptent un certain de nombre de fois. Il est donc recommand de reprsenter cette srie sous forme de tableau :

    Nombre denfants 0 1 2 3 4 5 6 7 TOTAL

    Effectif 9 7 5 3 5 3 3 1 36

    Leffectif de : cest le nombre dindividus prsentant la valeur du caractre . Leffectif total : cest la somme des effectifs des classes.

    La frquence de : cest le rapport de leffectif de leffectif total .

    Exemple A

  • Page 3

    Dans une rgion donne, on tudie le nombre denfants par famille. On choisit au hasard un chantillon de taille 100 et on fait les observations suivantes :

    Nombre denfants

    Effectif

    Frquence

    0

    1

    2

    3

    4

    5

    6 ou plus

    5

    15

    25

    20

    15

    13

    7

    0,05

    0,15

    0,25

    0,20

    0,15

    0,13

    0,07

    TOTAL 100 1 Considrons la srie statistique suivante :

    Valeur du caractre Effectif

    La reprsentation graphique de ce tableau peut tre sous deux formes : Diagramme en btons des effectifs : cest un ensemble de btons ayant pour abscisses les

    valeurs du caractre et pour hauteurs les effectifs . Polygone des effectifs : cest la ligne brise joignant les extrmits des btons. Exemple : Reprsenter graphiquement la srie statistique de lexemple A.

    Remarque On peut tracer le diagramme en btons et le polygone des frquences en portant en ordonn les frquences .

    0

    5

    10

    15

    20

    25

    30

    0 1 2 3 4 5 6 ou plus

    Effectif

    Nombre d'enfants

    Diagramme en btons et polygone des effectifs

  • Page 4

    Effectif cumul * jusqu' la me valeur : cest la somme de leffectif de et de tous les effectifs des valeurs qui prcdent .

    * + , + + Frquence cumule * jusqu' la me valeur : cest la somme de la frquence de et de toutes les frquences des valeurs qui prcdent .

    * + , + + Exemple

    Nombre denfants

    Effectif

    Effectif cumul

    * Frquence

    Frquence cumule

    * 0

    1

    2

    3

    4

    5

    6 ou plus

    5

    15

    25

    20

    15

    13

    7

    5

    20

    45

    65

    80

    93

    100

    0,05

    0,15

    0,25

    0,20

    0,15

    0,13

    0,07

    0,05

    0,20

    0,45

    0,65

    0,80

    0,93

    1,00

    De la mme faon, on tablit le diagramme en btons et le polygone des effectifs cumuls (ou des frquences cumules).

    2. Caractre quantitatif continu

    Lorsque ltude statistique porte sur un caractre quantitatif continu la reprsentation prcdente nest plus possible parce que, entre deux valeurs du caractre, on trouve toujours une infinit de valeurs ; par consquent, si lchantillon est de taille assez leve, plusieurs valeurs sont extrmement

    0

    20

    40

    60

    80

    100

    0 1 2 3 4 5 6 ou plus

    Effectif cumul

    Nombre d'enfants

    Diagramme en btons et polygone des effectifs cumuls

  • Page 5

    proches. La reprsentation prcdente entranerait alors une grande dispersion des effectifs et ne permettrait pas de suivre les variations du caractre dans lchantillon. Pour cela, il est dusage de rpartir son talement en diffrentes classes disjointes limites chacune par une borne infrieure et une borne suprieure. La diffrence entre ces deux limites sappelle amplitude de la classe, et dans la majorit des cas les amplitudes sont gales. On procde de la faon suivante laide dun exemple. Exemple : La pese de 37 nouveau-ns a donn les rsultats suivants (exprims en Kg) :

    2,00 2,05 2,07 2,11 4,93 4,94 4,94 4,95 4,95 On partage la srie statistique en / classes de mme amplitude 0 en procdant de la faon suivante : 1. On calcule ltendue E :

    1 234 2 4,95 2,00 2,95 2. On dtermine lamplitude des classes 0 sachant que : 1 /. 0 Le nombre de classes / est gnralement pris gal la valeur approche de o est la taille de lchantillon (dans notre exemple 37). On prendra par exemple / 6. Do 0 1/ 2,956 0,49 9 0,50 3. On partage la srie statistique en 6 classes de mme amplitude 0,50 ensuite on attribue les

    effectifs chaque classe.

    Classe Effectif

    [2,00 , 2,50[ [2,50 , 3,00[ [3,00 , 3,50[ : [3,50 , 4,00[ ; [4,00 , 4,50[ < [4,50 , 5,00[ =

    TOTAL Dune faon plus gnrale, on obtient la srie statistique prsente sous la forme du tableau suivant :

    Classe Centre de classe Effectif >?@, ?> >?, ?> >?A, ?>

    Total ?A et ? sont les extrmits de la classe >?A, ?> (la valeur extrme droite ? nappartient pas la classe >?A, ?>). est leffectif de la classe >?A, ?> . reprsente le centre de la classe >?A, ?> . ?A + ?2 est leffectif total.

  • Page 6

    La reprsentation graphique de ce tableau peut tre sous deux formes : Lhistogramme des effectifs (ou des frquences) est lensemble des rectangles ayant pour

    largeur lamplitude de la classe et pour hauteur leffectif (ou la frquence) de la classe. Le polygone des effectifs (ou des frquences) est la ligne brise joignant les milieux des

    bases suprieures des diffrents rectangles adjacents. Exemple B On effectue lopration de pesage sur un chantillon de 100 nouveau-ns. Les valeurs des poids exprimes en Kg et rparties en 8 classes figurent dans le tableau suivant :

    Classe des poids Effectif

    * Centre de classe

    Frquence

    [2,20 , 2,50[

    [2,50 , 2,80[

    [2,80 , 3,10[

    [3,10 , 3,40[

    [3,40 , 3,70[

    [3,70 , 4,00[

    [4,00 , 4,30[

    [4,30 , 4,60[

    3

    11

    13

    20

    24

    15

    8

    6

    2,35

    2,65

    2,95

    3,25

    3,55

    3,85

    4,15

    4,45

    0,03

    0,11

    0,13

    0,20

    0,24

    0,15

    0,08

    0,06

    TOTAL 100 1

    La reprsentation graphique peut tre aussi le polygone des effectifs cumuls : cest la ligne brise joignant les points ? , B o ? est la valeur extrme droite de la classe >?A, ?> et B est leffectif cumul jusqu' ?. Exemple : Tracer le polygone des effectifs cumuls de lexemple B.

    0

    5

    10

    15

    20

    25

    30

    Effectif

    Poids de nouveau-ns (Kg)

    Histogramme et polygone des effectifs

    2,20 2,50 2,80 3,10 3,40 3,70 4,00 4,30 4,60

  • Page 7

    Classe des poids Effectif

    Centre de classe

    Effectif cumul

    * [2,20 , 2,50[

    [2,50 , 2,80[

    [2,80 , 3,10[

    [3,10 , 3,40[

    [3,40 , 3,70[

    [3,70 , 4,00[

    [4,00 , 4,30[

    [4,30 , 4,60[

    3

    11

    13

    20

    24

    15

    8

    6

    2,35

    2,65

    2,95

    3,25

    3,55

    3,85

    4,15

    4,45

    3

    14

    27

    47

    71

    86

    94

    100

    Remarque : De la mme faon, on peut tracer le polygone des frquences cumules en portant en ordonne les frquences cumules.

    3. Caractre qualitatif

    Il nest plus alors possible dutiliser un diagramme cartsien puisque les modalits ne sont pas mesurables. Diverses mthodes sont possibles ; nous indiquerons deux dentre elles partir de lexemple suivant : Exemple C Pour tudier les ractions denfants un vaccin, on considre un chantillon de 100 de ces enfants et, pour chacun deux, sa raction au vaccin. On a le tableau suivant :

    0

    20

    40

    60

    80

    100

    2,20 2,50 2,80 3,10 3,40 3,70 4,00 4,30 4,60

    Effectif cumul

    Poids de nouveau-ns (Kg)

    Polygone des effectifs cumuls

  • Page 8

    Classe Effectif

    Frquence

    Pas de raction 25 0,25

    Faible raction (rougeur par exemple)

    30 0,30

    Raction moyenne (bouton par exemple)

    30 0,30

    Forte raction (abcs par exemple)

    15 0,15

    TOTAL 100 1

    25%

    30%

    30%

    15%

    Diagramme secteurs ou "camembert"

    Pas de raction

    Faible raction

    Raction moyenne

    Forte raction

    0

    5

    10

    15

    20

    25

    30

    Pas de raction

    Faible raction Raction moyenne

    Forte raction

    Effectif

    Types de ractions

    Diagramme bandes

  • Page 9

    Exemple Dans une tude sur la localisation prcise dun cancer de lestomac, on a rparti 298 sujets atteints, selon le sexe et la localisation du cancer, comme suit :

    Rgion du pylore

    Corps de lestomac

    Rgion du cardia

    TOTAUX

    Hommes 53 (27,32%) 66 (34,02%) 75 (38,66%) 194

    Femmes 48 (46,15%) 33 (31,73%) 23 (22,12%) 104

    On conclut graphiquement que le cancer localis la rgion du pylore est plus frquent chez les malades femmes que chez les malades hommes contrairement celui localis la rgion du cardia. En ce qui concerne le cancer localis au corps de lestomac, il y a presque autant de malades hommes que de malades femmes.

    0%

    10%

    20%

    30%

    40%

    50%

    Rgion du pylore Corps de l'estomac Rgion du cardia

    Frquence

    Localisation prcise d'un cancer

    Diagramme bandes

    Hommes

    Femmes

  • Page 10

    STATISTIQUE DESCRIPTIVE

    CHAPITRE 2

    PARAMETRES CARACTERISTIQUES DUNE SERIE STATISTIQUE

    I. INTRODUCTION

    Soit une srie statistique dun caractre quantitatif (discret ou continu) dans un chantillon de taille . Les reprsentations dune telle srie par un tableau et par un graphique sont en gnral insuffisantes pour saisir linformation contenue dans les donnes. Dans ce chapitre, nous allons introduire les paramtres caractristiques qui sont un ensemble de valeurs permettant de reprsenter au mieux la srie statistique. Il y a trois types de paramtres :

    - Paramtres de position. - Paramtres de dispersion. - Paramtres de forme.

    II. PARAMETRES DE POSITION

    Les paramtres de position sont des paramtres qui servent situer la srie statistique : ce sont des paramtres qui renseignent globalement sur les valeurs de la srie statistique.

    1. Moyenne arithmtique

    On considre la srie statistique prsente sous la forme du tableau suivant :

    Valeur du caractre Effectif

    avec

    La moyenne arithmtique des valeurs du caractre est dfinie par :

    D .

    Remarque Dans le cas o le caractre est quantitatif continu les valeurs reprsentent les centres de

    classes. La moyenne arithmtique de la srie statistique brute (cest--dire du relev, pour chaque individu

    de lchantillon, de la valeur du caractre observ) est :

    D

    Dans certains problmes, le calcul de la moyenne arithmtique prsente dun maniement difficile ; cependant on pourra remdier cet inconvnient en utilisant la mthode suivante dite mthode indirecte. Mthode indirecte On procde de la faon suivante :

  • Page 11

    1. On effectue le changement de valeurs du caractre en posant E F o F est la valeur du caractre qui correspond leffectif le plus lev : cette valeur est appele le mode (cest la valeur la plus frquente).

    2. On calcule la moyenne arithmtique des valeurs E . EG 1 . E

    3. On dduit la moyenne arithmtique des valeurs par la relation : EG + F Exemple Calculer la moyenne arithmtique de la srie statistique de lexemple B en utilisant les deux mthodes.

    Classe des poids Centre de classe Effectif . I J, KK . I [2,20 , 2,50[

    [2,50 , 2,80[

    [2,80 , 3,10[

    [3,10 , 3,40[

    [3,40 , 3,70[

    [3,70 , 4,00[

    [4,00 , 4,30[

    [4,30 , 4,60[

    2,35

    2,65

    2,95

    3,25

    3,55

    3,85

    4,15

    4,45

    3

    11

    13

    20

    24

    15

    8

    6

    07,05

    29,15

    38,35

    65,00

    85,20

    57,75

    33,20

    26,70

    -1,20

    -0,90

    -0,60

    -0,30

    0,00

    0,30

    0,60

    0,90

    -3,60

    -9,90

    -7,80

    -6,00

    0,00

    4,50

    4,80

    5,40

    TOTAL 100 342,40 -12,60

    Mthode directe 342,40100 3,42 Mthode indirecte EG + F 12,60100 + 3,55 3,424

    2. Mode

    Le mode F est la valeur du caractre qui correspond leffectif le plus lev (cest la valeur la plus frquente). Exemple : Dans lexemple A, le mode est F 2. Dans le cas o le caractre est quantitatif continu, on dtermine la classe qui correspond leffectif le plus lev : cette classe est appele classe modale. Le mode est donc la demi-somme des valeurs extrmes de la classe modale. Exemple : Dans lexemple B, le mode est : F 3,70 + 3,402 3,5

    3. Mdiane

    La mdiane L dune srie statistique est la valeur du caractre telle quil y ait 50% des valeurs qui lui soient infrieures et 50% suprieures. La mdiane L partage donc la srie statistique en deux groupes de mme effectif. Pour un caractre quantitatif discret, on peut avoir les cas suivants : Nombre de valeurs impair : La mdiane occupe le rang du milieu de la srie statistique

    ordonne, condition que les valeurs ses cts soient diffrentes. Exemple : 3 8 14 15 18 22 23 L 15

  • Page 12

    Nombre de valeurs pair : On dfinit alors un intervalle mdian. Exemple : 3 8 14 15 18 22 Lintervalle mdian : 14 15

    Dans le cas o il y a rptition des valeurs centrales, on ne peut dfinir ni mdiane, ni intervalle mdian. Exemple : 6 8 9 9 9 13 15

    Pour un caractre quantitatif continu, on utilise la formule dinterpolation linaire. M N + N, NO O, KO * o Pet P sont les extrmits de la classe contenant la mdiane. @ est la frquence de la classe >P, P>. B est la frquence cumule jusqu' P. Proprits La mdiane et la moyenne sont des reprsentants dune position centrale dans la srie statistique. La mdiane et la moyenne ont chacune une valeur comprise entre les valeurs extrmes de la srie

    statistique. Elles peuvent tre gales ou diffrentes. Si la srie statistique est symtrique alors elles sont gales.

    Lorsque la srie statistique est plus allonge vers les grandes valeurs, la mdiane est infrieure la moyenne. Lorsquelle est plus allonge vers les petites valeurs, la mdiane est suprieure la moyenne.

    Plus lasymtrie de la srie statistique est importante, plus la mdiane scarte de la moyenne. Exemple : Dterminer la mdiane de la srie statistique de lexemple B.

    Classe des poids Effectif Frquence Frquence cumule * [2,20 , 2,50[

    [2,50 , 2,80[

    [2,80 , 3,10[

    [3,10 , 3,40[

    [3,40 , 3,70[

    [3,70 , 4,00[

    [4,00 , 4,30[

    [4,30 , 4,60[

    3

    11

    13

    20

    24

    15

    8

    6

    0,03

    0,11

    0,13

    0,20

    0,24

    0,15

    0,08

    0,06

    0,03

    0,14

    0,27

    0,47

    0,71

    0,86

    0,94

    1,00

    Solution Dans la classe [3,40 , 3,70[ se situent les observations comprises entre 47% et 71%, donc en particulier lobservation de 50% qui correspond la mdiane. L 3,40 + 3,70 3,400,24 0,50 0,47 3,437 Autre formulation M N + N, NO , * o est leffectif total. @ est leffectif de la classe >P, P>. B est leffectif cumul jusqu' P.

    4. Quartiles

    Ils sont au nombre de trois :

  • Page 13

    Le premier quartile Q est la valeur du caractre telle quil y ait 25% des valeurs qui lui soient infrieures et 75% suprieures.

    Le deuxime quartile Q nest autre que la mdiane. Le troisime quartile Q: est la valeur du caractre telle quil y ait 75% des valeurs qui lui soient

    infrieures et 25% suprieures. Les quartiles Q, Q et Q: partagent la srie statistique ordonne en quatre groupes de mme effectif. Caractre quantitatif discret

    Exemple : 3 4 7 9 13 18 20 24 25 Q 7 Q L 13 Q: 20 Caractre quantitatif continu

    On utilise la formule dinterpolation linaire. R N + N, NO O, ,K * o Pet P sont les extrmits de la classe contenant le premier quartile Q. @ est la frquence de la classe >P, P>. B est la frquence cumule jusqu' P. Autre formulation R N + N, NO S * o est leffectif total. @ est leffectif de la classe >P, P>. B est leffectif cumul jusqu' P. RJ N + N, NO O, TK * o Pet P sont les extrmits de la classe contenant le troisime quartile Q:. @ est la frquence de la classe >P, P>. B est la frquence cumule jusqu' P. Autre formulation RJ N + N, NO UJS * V o Pet P sont les extrmits de la classe contenant le troisime quartile Q:. est leffectif total. @ est leffectif de la classe >P, P>. B est leffectif cumule jusqu' P.

    Exemple : Dterminer les quartiles de la srie statistique de lexemple B. Solution La classe [2,80 , 3,10[ contient le premier quartile Q. Q 2,80 + 3,10 2,800,13 0,25 0,14 3,05 Le deuxime quartile L Q 3,437. La classe [3,70 , 4,00[ contient le troisime quartile Q:. Q: 3,70 + 4 3,700,15 0,75 0,71 3,78 Remarque On dfinit galement les dciles et les centiles. Un dcile est lune des neuf valeurs qui partagent la srie statistique ordonne en 10 groupes de mme effectif (10% chacun). De mme, un centile est lune des cent valeurs qui partagent la srie statistique ordonne en 100 groupes de mme effectif (1% chacun). Lorsque le caractre est quantitatif continu, les dciles et les centiles sont obtenus par la formule dinterpolation linaire.

  • Page 14

    5. Dciles

    Pour 0 1,2,3,4,5,6,7,8,9 on a : W N + N, NO U O * V o Pet P sont les extrmits de la classe contenant le 0ime dcile X. @ est la frquence de la classe >P, P>. B est la frquence cumule jusqu' P. Autre formulation

    Pour 0 1,2,3,4,5,6,7,8,9 on a : W N + N, NO U. O * V o Pet P sont les extrmits de la classe contenant le 0ime dcile X. est leffectif total. @ est leffectif de la classe >P, P>. B est leffectif cumule jusqu' P.

    6. Centiles

    Pour 0 1,2, ,99 on a : Y N + N, NO U OO * V o Pet P sont les extrmits de la classe contenant le 0ime centile Z. @ est la frquence de la classe >P, P>. B est la frquence cumule jusqu' P. Autre formulation

    Pour 0 1,2, ,99 on a : Y N + N, NO U. OO * V o Pet P sont les extrmits de la classe contenant le 0ime centile Z. @ est la frquence de la classe >P, P>. B est la frquence cumule jusqu' P.

    7. Reprsentation graphique Box Plot

    Le Box Plot ou le Box and Whiskers Plot (traduction anglaise du terme bote moustaches ) est une reprsentation graphique de quelques paramtres de position du caractre tudi tels que la mdiane, les quartiles, le minimum et le maximum. Ce diagramme est utilis notamment pour comparer un mme caractre dans deux ou plusieurs chantillons de tailles diffrentes. Le Box Plot est un rectangle allant du 1er quartile Q au 3me quartile Q: (la longueur du rectangle est donc gale Q: Q appele cart interquartile) et il est coup par la mdiane. On ajoute alors des segments de droites aux extrmits, appels moustaches, menant jusqu' la valeur minimale P de la srie qui est suprieure la valeur frontire basse et la valeur maximale [ de la srie qui est infrieure la valeur frontire haute. Les valeurs frontires basse et haute sont dfinis par : \]^ Q 1,5. Q: Q \]_ Q: + 1,5. Q: Q Toute valeur de la srie statistique infrieure P ou suprieure [ est dite valeur atypique (traduction franaise du terme outliers ). Elle est reprsente par des signes (toile, carr, etc.). Exemple

  • Page 15

    On mesure la taille sur un chantillon qui comporte 22 hommes et 22 femmes. Les valeurs des tailles exprimes en cm sont classes par ordre croissant puis reprsentes dans le tableau suivant :

    N dordre Hommes Femmes 1 150 149 2 165 163 3 167 164 4 168 165 5 169 169 6 169 169 7 170 170 8 173 172 9 174 172 10 175 172 11 175 172 12 175 173 13 176 173 14 176 174 15 177 175 16 178 175 17 178 175 18 179 177 19 179 177 20 180 177 21 182 178 22 185 182

    Reprsenter le Box Plot de cette distribution. On dtermine dabord les paramtres ncessaires qui reprsentent le Box Plot. On possde une srie statistique brute puisque les valeurs ne sont regroupes en classes. Dans ce cas, on dtermine la mdiane, le premier et le troisime quartile par les formules suivantes : Mdiane

    M N + . N, N avec 0 ` a

    ` b

    Pet Psont les valeurs de la srie statistique ordonne de rangs a` b et a`

    b + 1 respectivement. N.B. : a` b est appel partie entire de ` : cest le plus grand entier infrieur ou gal ` . Exemples : >2,67c 2 ; >5c 5 ; >8,99c 8 Premier quartile R N + . N, N avec 0 `; a`; b Pet Psont les valeurs de la srie statistique ordonne de rangs a`; b et a`; b + 1 respectivement. Troisme quartile RJ N + . N, N avec 0 :.`; a:.`; b Pet Psont les valeurs de la srie statistique ordonne de rangs a:.`; b et a:.`; b + 1 respectivement.

  • Page 16

    Paramtres Hommes Femmes

    R 169 169 M 175 172,5 RJ 178,25 175,5

    Ecart interquartile 9,25 6,5

    def 155,125 159,25 deg 192,125 185,25

    N h \]^ 165 163 i j \]_ 185 182

    Valeur atypique 150 149

    Le Box Plot permet de rpondre certaines questions : La srie est-elle symtrique ? En reprant la position de la mdiane dans la bote, et la dissymtrie

    des moustaches. La partie centrale (50% des effectifs) est-elle plus ou moins concentre ou tale par rapport au

    reste de la srie ? Existe-t-il des observations atypiques ? En les reprant et les identifiant. La partie centrale correspondante 50% des effectifs est plus concentre pour le groupe Femme que pour le groupe Homme. Lasymtrie de la distribution du groupe Homme est moyennement importante puisque la mdiane nest pas situe au milieu de la bote et les deux moustaches sont de longueurs diffrentes. Lasymtrie de la celle du groupe Femme est peu importante (presque symtrique) puisque la mdiane est presque situe au milieu de la bote et les deux moustaches sont de longueurs presque gales. Il y a une seule taille atypique pour chacun des deux groupes (les moustaches ne stendent que jusqu la valeur maximale).

    III. PARAMETRES DE DISPERSION

    Les paramtres de positon ne donnent aucun renseignement sur la dispersion des valeurs autour des valeurs centrales (moyenne arithmtique ou mdiane), les paramtres que nous allons introduire vont nous permettre dvaluer la dispersion des valeurs de la srie statistique autour des valeurs centrales introduites prcdemment (moyenne arithmtique et mdiane). Considrons les deux sries de valeurs suivantes :

    Hommes Femmes

    145150155160165170175180185190

    Box plotsTaille

    Sexe

  • Page 17

    k : 95 97 100 103 105 k : 50 75 100 125 150

    k et k ont la mme moyenne et mdiane L 100. Cependant elles diffrent profondment. Ce qui fait leur diffrence, cest ce quen statistique on nomme la dispersion ; la deuxime srie est beaucoup plus disperse que la premire. On dfinit alors les caractristiques de dispersion de deux sortes : celles lies la moyenne : cart-type (cest le plus utilis en statistique) ; celles lies la mdiane : cart-interquartile. Ces paramtres nous permettent de prciser le degr de dispersion des diffrentes valeurs dune srie statistique autour dune valeur centrale. Soit une srie statistique :

    Valeur du caractre Effectif

    avec

    1. Variance

    La variance dune srie statistique est dfinie par :

    l, . D, . ,

    D, 2. Ecart-type

    Lcart-type dune srie statistique est la racine carre de la variance.

    l m . D, m . ,

    D, Remarque Dans le cas o le caractre est quantitatif continu les valeurs reprsentent les centres de

    classes. La variance de la srie statistique brute est : l, D, ,

    D,

    Dans certains problmes, le calcul de la variance prsente dun maniement difficile ; cependant on pourra remdier cet inconvnient en utilisant la mthode suivante dite mthode indirecte.

    Mthode indirecte On procde de la faon suivante : 1. On effectue le changement de valeurs du caractre en posant E F o F est le mode. 2. On calcule la variance no des valeurs E.

    no 1 . E EG 3. On dduit la variance n des valeurs par la relation : n no. Exemple Calculer la variance de la srie statistique de lexemple B en utilisant les deux mthodes.

  • Page 18

    Classe des poids

    Centre de classe

    Effectif

    . . , I J, KK . I . I,

    [2,20 , 2,50[

    [2,50 , 2,80[

    [2,80 , 3,10[

    [3,10 , 3,40[

    [3,40 , 3,70[

    [3,70 , 4,00[

    [4,00 , 4,30[

    [4,30 , 4,60[

    2,35

    2,65

    2,95

    3,25

    3,55

    3,85

    4,15

    4,45

    3

    11

    13

    20

    24

    15

    8

    6

    07,05

    29,15

    38,35

    65,00

    85,20

    57,75

    33,20

    26,70

    16,57

    77,25

    113,13

    211,25

    302,46

    222,34

    137,78

    118,82

    -1,20

    -0,90

    -0,60

    -0,30

    0,00

    0,30

    0,60

    0,90

    -3,60

    -9,90

    -7,80

    -6,00

    0,00

    4,50

    4,80

    5,40

    4,32

    8,91

    4,68

    1,80

    0,00

    1,35

    2,88

    4,86

    TOTAL 100 342,40 1199,5

    9 -12,60 28,80

    Mthode directe

    n 1199,59100 3,424 0,27 Mthode indirecte n no 28,80100 0,126 0,27 Signification de la variance (ou de lcart-type)

    Lorsque lasymtrie dune srie statistique (dfinie plus loin) nest pas importante, lcart-type ou la variance de cette srie mesure le degr de dispersion des valeurs autour de la moyenne : la dispersion est dautant plus forte que lcart-type (ou la variance) est grand (relativement la moyenne). Dautre part, lorsque lon compare deux sries statistiques portant sur un mme caractre alors celle qui a lcart-type le plus lev est la plus disperse. Exemple Lcart-type de k : n 3,69 Lcart-type de k : n 35,36

    3. Ecart-interquartile

    Lcart-interquartile de la srie statistique est dfini par : R RJR o Qet Q: sont respectivement le premier quartile et le troisime quartile. Lcart-interquartile Q correspond 50% des effectifs situs dans la partie centrale de la distribution. Il mesure approximativement lcart des 50% des valeurs la mdiane. La dispersion est dautant plus faible que lcart-interquartile est petit.

    4. Coefficient de dispersion

    Les paramtres de dispersion introduits prcdemment dpendent des units de mesures utilises. Pour comparer deux sries statistiques dont les donnes sont exprimes dans des units diffrentes (cest--dire deux sries statistiques dont chacune porte sur un caractre diffrent), on introduit le coefficient appel coefficient de dispersion.

    Coefficient de variation p lD Coefficient interquartile relatif YR RM Exemple

  • Page 19

    Comparer les coefficients de variation des sries statistiques de lexemple A et lexemple B. Exemple A

    2,99 n 3,08 n 1,75 V n 0,58 Exemple B 3,424 n 0,27 n 0,52 V n 0,15 La srie statistique de lexemple A est plus disperse que celle de lexemple B.

    IV. PARAMETRES DE FORME

    Ces nouveaux coefficients sont destins prciser la forme de la srie statistique telle que lasymtrie et laplatissement et permettre la comparaison de plusieurs sries statistiques dans leur ensemble.

    1. Moments

    Soit r un entier naturel. On appelle moment dordre r de la srie statistique le nombre suivant :

    s . s Si r 0 , F@ 1 Si r 1 , F (Le moment dordre 1 nest autre que la moyenne)

    On appelle moment centr dordre r de la srie statistique le nombre suivant : ts . Ds

    Si r 0 , u@ 1 Si r 1 , u 0 Si r 2 , u n (Le moment centr dordre 2 nest autre que la variance)

    Proprits tJ J J, + ,J tS S SJ + v,, JS

    2. Coefficient dasymtrie w tJlJ, o u: et n sont respectivement le moment centr dordre 3 et lcart-type. Ce coefficient est d PEARSON appel coefficient de Skewness, la valeur centrale choisie est la moyenne. Si k 0 alors la srie statistique est parfaitement symtrique. Si k h 0 alors la srie statistique est asymtrique (non symtrique) Si les distributions sont asymtriques, ces coefficients doivent renseigner sur limportance de lasymtrie. Lasymtrie est dautant plus importante que le coefficient dasymtrie est lev.

    3. Coefficient de drive

    On peut choisir le coefficient de drive suivant : x tJlJ Si y est ngatif, lensemble des valeurs de la srie statistique est plus tal du ct des valeurs du caractre infrieures la moyenne : la srie statistique est tire vers les plus petites valeurs. Si y est positif, la signification est contraire : la srie statistique est tire vers les plus grandes valeurs.

    4. Coefficient daplatissement

  • Page 20

    Le degr daplatissement de la distribution des valeurs est exprim par le coefficient daplatissement appel coefficient de Kurtosis.

    z tSlS Lanalyse revient comparer 3. Si { 3 alors la srie statistique est normalement (moyennement) aplatie. Si { h 3 alors la srie statistique est faiblement aplatie. Si { j 3 alors la srie statistique est fortement aplatie. Remarque : Le coefficient de Kurtosis mesure galement le degr de dispersion des valeurs de la srie statistique autour de la moyenne puisque la srie trs aplatie est celle qui a le degr de dispersion trs fort. Exemple On prendra la valeur 7 dans la classe 6 ou plus .

    Nombre denfants Effectif . . , . J . S 0

    1

    2

    3

    4

    5

    7

    5

    15

    25

    20

    15

    13

    7

    0

    15

    50

    60

    60

    65

    49

    0

    15

    100

    180

    240

    325

    343

    0

    15

    200

    540

    960

    1625

    2401

    0

    15

    400

    1620

    3840

    8125

    16807

    TOTAL 100 299 1203 5741 30807 Moyenne : 2,99 Variance : n 3,08 Ecart-type : n 1,75 Moment dordre 1 :

    F 1100 . 2,99| Moment dordre 2 :

    F 1100 . | 1203100 12,03 Moment dordre 3 :

    F: 1100 . :| 5741100 57,41 Moment dordre 4 :

    F; 1100 . ;| 30807100 308,07 Moment centr dordre 3 : u: F: 3FF + 2F: 2,96 Moment centr dordre 4 :

  • Page 21

    u; F; 4FF: + 6FF 3F; 26,97 Coefficient dasymtrie : k u:n: U 2,961,75:V 0,30 Lasymtrie nest pas importante. Coefficient de drive : y u:n: 2,961,75: 0,55 h 0 Lensemble des valeurs est plus tal du ct des valeurs du caractre suprieures la moyenne. Coefficient daplatissement : { u;n; 26,971,75; 2,84 Le degr daplatissement est moyen.

    V. CONCLUSION

    La statistique descriptive a pour but de prsenter les donnes observes relatives un caractre sous une forme telle que lon puisse en prendre connaissance facilement. Les donnes observes peuvent tre : prsentes sous forme de tableaux et de graphiques. condenses sous la forme de paramtres caractristiques (de position, de dispersion et de forme). La prsentation des donnes sous forme de tableaux et de graphiques et le regroupement des donnes sous forme de paramtres caractristiques nous permettent de saisir des informations concernant le caractre tudi sur lchantillon prlev au hasard de la population : ce sont les deux premires tapes que comporte ltude statistique. Dans les chapitres ultrieurs, nous allons apprendre effectuer les deux dernires tapes de ltude statistique ; ces tapes constituent lanalyse des donnes et la fiabilit des rsultats.