40
CHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques): les valeurs sont numériques Exemples : - continues: Taille d’un être humain, Poids d’un animal, Taux de cholestérol, Température, Vitesse d’un mobile, … - discontinues ou discrètes (dénombrements) : Nombre d’enfants dans une famille, Nombre de têtes de bétail par exploitation agricole, Nombre de buts marqués par match au football … Mesures de LOCALISATION (tendance centrale, position), de DISPERSION, de FORME. Exemples : 1. Positions différentes: {1, 2, 3, 4, 5, 6, 7} et {8, 9, 10, 11, 12, 13, 14} 2. Dispersions différentes: {0, 3, 5, 6, 7, 9, 12} et {5, 5, 5, 6, 7, 7, 7} 3. Formes différentes: symétrie {4, 5, 6, 7, 8, 9, 10} asymétrie gauche {5, 5, 5, 5, 5, 8, 10} asymétrie droite {5, 7, 10, 10, 10, 10, 10} 1 2 3 4 5 0 5 10 15 20 25 30 35 X DISTRIBUTION SYMETRIQUE Fréquence 1 2 3 4 5 0 10 20 30 40 50 X DISTRIBUTION ASYMETRIQUE A GAUCHE Fréquence 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 X DISTRIBUTION ASYMETRIQUE A DROITE Fréquence Variables qualitatives (non métriques): les valeurs sont non numériques Exemples :

Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

CHAPITRE I. STATISTIQUES DESCRIPTIVESI.A RAPPEL THEORIQUE

Variables quantitatives (métriques): les valeurs sont numériques

Exemples:

- continues: Taille d’un être humain, Poids d’un animal, Taux de cholestérol, Température, Vitesse d’un mobile, …

- discontinues ou discrètes (dénombrements) : Nombre d’enfants dans une famille, Nombre de têtes de bétail par exploitation agricole, Nombre de buts marqués par match au football …

Mesures de LOCALISATION (tendance centrale, position), de DISPERSION, de FORME.

Exemples: 1. Positions différentes: {1, 2, 3, 4, 5, 6, 7} et {8, 9, 10, 11, 12, 13, 14}2. Dispersions différentes: {0, 3, 5, 6, 7, 9, 12} et {5, 5, 5, 6, 7, 7, 7}3. Formes différentes: symétrie {4, 5, 6, 7, 8, 9, 10}

asymétrie gauche {5, 5, 5, 5, 5, 8, 10}asymétrie droite {5, 7, 10, 10, 10, 10, 10}

1 2 3 4 5

0

5

10

15

20

25

30

35

X DISTRIBUTION SYMETRIQUE

Fréq

uenc

e

1 2 3 4 5

05

1015202530354045

X DISTRIBUTION ASYMETRIQUE A GAUCHE

Fréq

uenc

e

1 2 3 4 5

05

1015202530354045

X DISTRIBUTION ASYMETRIQUE A DROITE

Fréq

uenc

e

Variables qualitatives (non métriques): les valeurs sont non numériques

Exemples:

- ordinales: Classe de BMI, Intensité d’une douleur (absente, minime, légère, modérée, sévère, extrême), Echelle de satisfaction d’un produit (insuffisant, moyen, bon, excellent), Poids d’un bébé (petit poids, poids moyen, poids élevé), Vélocité d’un chien (lent, assez rapide, rapide), …

- nominales: Sexe, Etat-civil, Commune de résidence, Profession, Faculté d’un étudiant, Couleur des cheveux, Groupe sanguin, Fonction d’un chien (chien de compagnie, de chasse, d’utilité, …), …

Moins riches en paramètres.

Page 2: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

On s’intéresse aux représentations graphiques pour visualiser la répartition entre les différentes modalités (appelées aussi items).

Exemples: Camemberts, Tartes, …

Exemple graphique: le mode d’accouchement pour les naissances en Communauté Française de Belgique de 1994 à 2003 (échantillon de 250.379 naissances).

spontané179513

72%ventouse

194608%

forceps10015

4%

césarienne4099316%

manœuvre sur siège 3980%

Mode d'accouchement ( ONE / 1994 -2003 / échantillon de 250379 naissances)

Statistiques de localisation

I) X: x1, x2, x3, ……, xn Petites séries de données

II) X: x1*, x2

*, x3*, ……, xc

* Séries groupées – Variables continuesDonnées regroupées en classes de centres x1

*, x2*, ...,

xc*;

n1, n2 , n3, ……., nc n1+n2+n3+…...+nc = N

III) X: x1, x2, x3, ……, xc Séries groupées – Variables discrètesn1, n2, n3, ……, nc Données répétées; n1+n2+n3+…...+nc = N

1. La moyenne arithmétique

Définition, pour les trois types de séries de données:

I) = II) = III) (Petites séries) (Données groupées, variable continue) (Données groupées, variable discrète)

Page 3: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

- est influencée par la présence de valeurs «extrêmes»

Exemple: la série {10, 10, 10, 10, 80} donne une moyenne de (10+10+10+10+80)/5 = 24 qui ne reflète pas vraiment une valeur de tendance centrale.

- La somme des écarts entre les valeurs observées et la moyenne est nulle

Influence d’une transformation linéaire: X Y =a X + b

La moyenne d’une transformation linéaire des xi est la transformation linéaire de la moyenne .

X → Y = a X + b => → = a + b (yi = axi + b).

Vérification:

Rappel préalable: 3 propriétés de ∑ 1) ∑ (xi + yi) = ∑ xi + ∑ yi

2) ∑ (axi) = a ∑ xi

3) ∑ a = na

(! Remarque: lorsqu’il n’y a pas de confusion possible, nous notons = ∑ xi)

Démonstration:

2. La médiane (prononcer “x tilde”)

La moitié des observations lui sont inférieures (ou égales) et la moitié supérieures (ou égales)

a) Pour les séries non groupées en classes, la série étant ordonnée:

- Si n est impair: la médiane est l’observation de rang (n + 1)/2: = x ((n+1)/2)

Exemples: {2, 2, 3, 4, 5} = 3{1, 7, 11} = 7

- Si n est pair: la médiane est la moyenne arithmétique des observations x(n/2) et x ((n/2)+1):

= (x(n/2) + x((n/2)+1)) / 2

Exemples: {2, 2, 3, 3} = (2+3)/2 = 2,5

{1, 1, 1, 3, 3, 7, 8, 157} = (3+3) / 2 = 3

Page 4: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

b) Pour les données groupées en classes, la «classe médiane» est la classe qui contient la médiane.

- La médiane possède une grande stabilité par rapport aux valeurs extrêmes, (parfois aberrantes): elle n’est pas influencée par la valeur de telles observations.

Exemple: la série {9, 10, 10, 11, 80} a comme moyenne 24 et comme médiane 10.

3. Le mode (cf. «à la mode», …) xM

a) Pour les séries non groupées en classes, le(s) mode(s) est (sont) la ou les valeur(s) observée(s) de fréquence maximum

b) Pour les séries groupées en classes, la ou les classe (s) modale(s) est (sont) la ou les classes de fréquence maximum si l’intervalle de classe est constant ou de fréquence unitaire maximum si cet intervalle n’est pas constant

En fonction du nombre de modes, on parle de distribution unimodale, bimodale, …

- Le mode est une caractéristique intéressante à connaître notamment dans le cas de distributions asymétriques. (C’est un paramètre également utilisable dans le cas de données qualitatives nominales!).

1 2 3 4 5

0

5

10

15

20

25

X / LE MODE UNIQUE = 3

FREQ

.AB

S.

Le mode peut ne pas exister: exemple la série {1, 2, 3, 4, 5} xM = ???Il peut y en avoir 2: exemple la série {1, 1, 3, 3, 8, 11} xM = 1 et 3 (distribution bimodale)Ou plus de 2: exemple la série {1, 1, 1, 2, 2, 2, 7, 7, 7, 23} xM = 1, 2 et 7 (distribution trimodale)

4. Quantiles

1 2 3 4 5

0

5

10

15

20

25

X / IL Y A DEUX MODES : 1 & 5

FREQ

.ABS

.

1 2 3 4 5

0

2

4

6

8

10

12

X / IL N'Y A PAS DE MODE (INDETERMINE)

FREQ

.AB

S.

Page 5: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

Cas particuliers: Médiane, Quartiles, Déciles, Centiles, Percentiles, …Les quantiles d’ordre k: Q1, Q2, ……, Q k-1 divisent la série statistique ordonnée en k parties de même effectif.

Les quartiles inférieur, moyen (=médiane) et supérieur divisent la série ordonnée en 4 parties de même effectif.

Les déciles D1, D2,……, D9 la divisent en 10 parties; les centiles en 100.

Le qème percentile d’une distribution est la valeur en dessous de laquelle q% des observations se trouvent (lui sont inférieures ou égales). La médiane est donc le 50ème percentile, le premier quartile est le 25ème percentile, le 3ème quartile est le 75ème percentile.

Statistiques de dispersion

Elles quantifient les écarts autour de la moyenne.

Des séries statistiques peuvent avoir les mêmes moyennes mais se différencier par la dispersion des valeurs observées autour de cette moyenne.

Exemples: les 3 séries ont la même moyenne mais leurs dispersions sont très différentes

Série 1: {10, 10, 10, 10, 10} → = 10

Série 2: {5, 5, 10, 15, 15} → = 10

Série 3: {0, 0, 10, 20, 20} → = 10

1. L’étendue E (ou «l’amplitude» ou en anglais, le «range»)E = x (n) – x (1)

L’étendue se définit comme la différence entre la plus grande et la plus petite des valeurs observées (la série étant ordonnée, le maximum = x(n) et le minimum = x(1)).

Elle est sensible à la présence de valeurs aberrantes et ne peut donc, en conséquence, qu’être retenue pour des séries dont les observations sont réparties «convenablement» (sans valeurs extrêmes).

Illustration: │********************___________________________________________*│x(1) x(n)

L’étendue ne convient pas ici│*_________________________***********_______________________*│x(1) x(n)

L’étendue ne convient pas ici│*___*__*__*___*__**_**___***__****_***_**_*_**___**__*___*__*__│x(1) x(n)

Page 6: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

L’étendue convient, les données sont bien réparties

2. La variance:

Construction: 1) Ecarts à la moyenne: xi - 2) Mise au carré: (xi - )²3) Sommation: ∑ (xi - )²4) Division par n-1 (inférence statistique): 1/(n-1) * ∑ (xi - )²

Statistique plus informative que l’étendue: elle tient compte de chacune des données.

Selon le type de série de données:

(Petites séries) (Données groupées, var. continue) (Données groupées, var. discrète)

Formule « pratique» de la variance

Pour les séries non groupées: =Démonstration:

= = = =

=

Influence d’une transformation linéaire: X Y = a X + b

(rappel: la moyenne devenait ) (Le paramètre «b» n’intervient donc pas pour la variance)

Vérification: = =

=

L’unité dans laquelle s’exprime la variance vaut le carré de l’unité utilisée pour les valeurs observées: ennuyeux! C’est pourquoi, on définit l’écart-type, racine carrée de la variance.

3. L’écart-type ou déviation standard: sx

Page 7: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

- Il possède une interprétation intéressante pour la distribution normale (voir graphique ci-

dessous, pour la normale de moyenne 0 et d’écart-type 1). Ainsi, par exemple, la probabilité de se trouver dans un intervalle

- d’un écart-type autour de la moyenne est égale à 0,6827, soit 68,27%

- de deux écarts-type autour de la moyenne vaut 0,9545, soit 95,45%

- de trois écarts-type autour de la moyenne vaut 0,9973, soit 99,73%

Remarque: pour la distribution normale, la probabilité de s’écarter de plus de deux écarts-type de la moyenne est de l’ordre de 5% (4,55% exactement). Dans le cas d’une distribution continue unimodale, la probabilité de s’écarter de plus de trois écarts-type de la moyenne est de l’ordre de 5% (4,94%).

Influence d’une transformation linéaire: X Y = a X + b

sx → sy =│a│sx où │a│ désigne la valeur absolue de a =

(Le paramètre «b» n’intervient donc pas pour l’écart-type)

4. Le coefficient de variation: cv

-5.00-4.73

-4.46-4.19

-3.92-3.65

-3.38-3.11

-2.84-2.57

-2.30-2.03

-1.76-1.49

-1.22-0.95

-0.68-0.41

-0.140.13

0.400.67

0.941.21

1.481.75

2.022.29

2.562.83

3.103.37

3.643.91

4.184.45

4.724.99

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

Densité de probabilité de la loi normale N ( 0 ; 1)

X

Fonc

tion

dens

ité d

e pr

obab

ilité

68,27 %

95,45%

-3 E-T 3 E-T-2 E-T 2 E-T

-1 E-T 1 E-T

99,73 %

Page 8: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

Coefficient sans dimension; il est défini pour des variables à valeurs > 0 et est souvent exprimé en %.

- Exemple : = 1 000, sx = 100, cv = 0,1(= 100/1 000) = 100 000, sx = 100, cv = 0,001 (= 100/100 000)

Notion de variable centrée-réduite

La variable mesure l’écart par rapport à la moyenne en unités d’écart-type: c’est la variable centrée-réduite, de moyenne 0 et d’écart-type 1.

Cette variable Z est sans dimension et est indépendante des unités choisies.

Elle s’avère donc fort utile pour comparer des distributions.

Exemple:

Un étudiant a obtenu 84 (sur 100 points) à un examen de mathématique où la moyenne était de 76 et l’écart-type 10.

En statistique, il a obtenu 90 (sur 100 points), la moyenne générale était de 82 et l’écart-type de 16.

Question: où l’étudiant est-il relativement le plus doué?

On calcule ses notes centrées–réduites:

En mathématique = (84 – 76) / 10 = 8 / 10 = 0,8En statistique = (90 – 82) / 16 = 8 / 16 = 0,5

L’étudiant se situe à 0,8 fois l’écart-type réduit au-dessus de la moyenne en mathématique, et seulement 0,5 fois en statistique. Il est donc relativement meilleur en mathématique.

Cette notion de variable centrée-réduite sera très utilisée par la suite.

Remarque: justification du fait qu’une variable centrée-réduite a pour moyenne 0 et écart-type 1.

Comme , on effectue en réalité une transformation linéaire de variables:

Z =

Dès lors: = a + b = = 0 et sz=│ a │ sx = = 1

Représentations graphiques

nj = effectif (fréquence absolue)

Nj = effectif cumulé

n’j = nj / N = proportion (fréquence relative)

Page 9: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

N’j = Nj /N = proportion cumulée

A. Données groupées, variable discrèteDiagrammes en bâtons.

0 1 2 3 4 5 6 7 80

4000

8000

12000

16000

215 1485

5331

10649

1495911929

6678

2092342

Nombre de garçons dans les familles de 8 enfants ( n = 53680 ) Source : "Que sais-je?" n° 281 de Statistique

Nombre de garçons

Nom

bre

de fa

mill

es

B. Données groupées en classes, variable continue

Notation des classes:] xj, xj+1]. Le nombre de classes est égal à c.

Chaque classe est caractérisée par les éléments suivants: son centre , sa longueurIj, sa limite inférieure xj et sa limite supérieure xj+1, son effectif nj

nj = effectif de la classe j (fréquence absolue)n’j = proportion (fréquence relative) de la classe j (= nj / N)Nj = effectif cumulé de la classe j (= n1 + n2 + …. + nj)N’j = proportion cumulée de la classe j (= Nj / N ou n’1 + n’2 + ... n’j)

L’histogramme des effectifs: suite de rectangles associés à chacune des classes j et dont la surface est égale à nj. Si Ij est la longueur de la classe j, la hauteur du rectangle associé est nj / Ij. Il s’agit donc d’un effectif par unité de classe. La surface totale des rectangles est égale à N.

L’histogramme des proportions: suite de rectangles associés à chacune des classes j et dont la surface est égale à n’j. Si Ij est la longueur de la classe j, la hauteur du rectangle associé est

n’j / Ij. Il s’agit donc d’une fréquence par unité de classe. La surface totale des rectangles est égale à 1.

Le diagramme, ou polygone, des effectifs cumulés: on associe à chaque fin de classe j un point dont l’ordonnée vaut Nj. L’ensemble de ces points sont joints par des segments de droite.

Le diagramme, ou polygone, des proportions cumulées: on associe à chaque fin de classe j un point dont l’ordonnée vaut N’j. L’ensemble de ces points sont joints par des segments de droite.

Remarque: si N tend vers l’infini et que le nombre de classes augmente de telle sorte que la longueur de classe tende vers 0, les proportions tendent vers les probabilités, l’histogramme des proportions tend vers le graphique de densité de probabilité (cf. chap.III), le diagramme des proportions cumulées tend vers le graphique de la fonction de répartition (cf. chap.III).

Page 10: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

I.B. EXERCICES

I.1 Dans une enquête sur les otites aiguës, on recueille chez un enfant les 9 informations suivantes

- L’âge: 4 ans - Le sexe: féminin- La profession du père: commerçant- La commune de résidence: Bruxelles- L’antécédent familial d’allergie (oui / non): oui- La consommation de tabac du père (en cigarettes par jour sous la forme: de 0 à 9, de 10 à

19, plus de 20): 10 à 19- Le nombre d’otites depuis 1 an: 2- Le déficit auditif moyen: 11,5 décibels- La douleur articulaire (absente, modérée, intense): modérée

Déterminer, parmi ces 9 variables, celles qui présentent un caractère qualitatif ordinal.

I.2 Voici les âges (exprimés en années) d’un groupe de sujets:20 / 23 / 28 / 21 / 20 / 18 / 29 / 20 / 24 / 22.

a) Calculer les statistiques classiques de position (moyenne, médiane, mode) et de dispersion de ces données (étendue, variance, écart-type, coefficient de variation). Fournir les résultats à deux décimales.

b) Si on remplaçait la valeur 29 par 39, déterminer, parmi les statistiques calculées, celles qui seraient modifiées par ce changement

I.3 Un chercheur souhaite étudier la température X en degrés Celsius d’un groupe de patients présentant de la fièvre. Pensant simplifier ses calculs, il procède au changement de variable

. Il obtient, pour Y, une moyenne de 1 et une variance de 0,64.Calculer la moyenne et l’écart-type de la variable X

I.4 On s’intéresse au temps d’apparition X (exprimé en minutes) des symptômes d’empoisonnement par des champignons vénéneux. On forme les classes suivantes:

Classes de temps d’apparition Effectifs(50;70] 10(70;90] 20(90;110] 41(110;130] V(130;150] 10

L’effectif de la classe (110;130] est un paramètre appelé V, qui est à déterminer en fonction des contraintes décrites ci-dessous.

a) La moyenne de X vaut 100 et la variance de X vaut 480 → est-il possible de trouver une valeur de V? Si oui, la fournir.

b) La moyenne de X est supérieure à 100 et la variance de X vaut 480 → est-il possible de trouver une valeur de V? Si oui, la fournir.

Page 11: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

I.5 On s’intéresse à la distribution des âges de 7 personnes, 5 médecins et 2 kinésithérapeutes, participant à une réunion médicale. On dispose des renseignements suivants:

- la distribution des âges est unimodale, le mode étant de 44 ans - un médecin a l’âge médian, 46 ans- les deux kinésithérapeutes ont l’âge moyen, soit 47 ans

Peut-on, sur base de ces informations, en déduire l’âge du médecin qui préside la réunion et qui est la personne la plus âgée assistant à la réunion?

I.6 Un service de médecine interne d’un hôpital nous a faxé les renseignements suivants relatifs aux jours d’admission en hospitalisation pour la période du lundi 15 août au vendredi 19 août 2011. Certaines données ont été hélas mal imprimées! Voici les données disponibles:

Jour nj = effectif Nj’ = proportion cumulée

Lundi 15 août (férié) 0 0

Mardi 16 aoûtMercredi 17 août 12 0,60

Jeudi 18 août 9Vendredi 19 août 3

Peut-on, sur base de ces seuls renseignements déterminer le nombre de patients qui ont été admis le mardi 16 août 2011?

I.7 Un service de maternité s’interroge sur le poids de naissance des nouveau-nés. Pour répondre à cette question, les poids en grammes de 100 nouveau-nés sont relevés de la manière suivante

Classes (en grammes) (2000;2500] (2500;3000] (3000;3500] (3500;4000] (4000;4500] (4500;5000] Total

Effectifs 6 22 33 31 7 1 100

a) Calculer les proportions, les effectifs cumulés et les proportions cumulées

b) Repérer dans quelles classes se trouvent le premier quartile, la médiane et le troisième quartile.

I.8 On s’intéresse à la moyenne et à l’écart-type de la durée d’hospitalisation, mesurée en jours, pour une maladie rare. On ne dispose plus des données individuelles mais on sait que pour 10 patients atteints de cette maladie la somme des 10 durées de séjour valait 670 et la somme des carrés des 10 durées de séjour valait 82.116.

On reçoit entre-temps la donnée pour un onzième patient qui a connu une durée d’hospitalisation de 122 jours.

Déterminer, la moyenne et l’écart-type (à 2 décimales) de la durée d’hospitalisation pour l’ensemble des 11 patients.

Page 12: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

I.9 Dans le graphe ci-dessous, on a représenté les âges (en mois) d’enfants traités en kiné respiratoire pour une bronchite spastique. Que vaut la moyenne, exprimée avec deux décimales?

Que vaut la valeur de l’ordonnée de la 1ère classe sachant que la proportion de cas tombant dans cette classe vaut 0,27 ? Indiquer les unités de cette ordonnée.

I.10 La répartition des célibataires (échantillon) selon leur âge est fournie par le tableau suivantClasses d’âge (15-30] (30-

40] (40-50] (50-60] (60-70] (70-

80] (80-90]

effectifs 4500 450 400 230 200 M 20

Sachant que l’âge moyen est égal à 28,764626 ans, à quel effectif correspond la valeur manquante M?

I.11 Dans un hôpital, la durée moyenne du séjour des patients est de 9 jours et la durée médiane de 7 jours. La durée la plus fréquente est de 5 jours. A partir de ces éléments, déterminer la proposition qui est vraie parmi les 4 proposées ci-dessous:

1. l’écart-type de la durée de séjour est de 2 jours2. approximativement 50% des patients ont été hospitalisés pour une durée inférieure à 5 jours3. la médiane est très influencée par les séjours de longue durée 4. la distribution des durées d’hospitalisation présente un caractère asymétrique

I.12 Soit un ensemble de n (n > 3) observations quantitatives dont l’écart-type est nul. Déterminer la proposition vraie parmi les 6 propositions suivantes

1. toutes les valeurs observées sont différentes les unes des autres

Page 13: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

2. toutes les valeurs observées sauf une sont égales entre elles3. toutes les valeurs observées sont nécessairement nulles4. toutes les valeurs observées sont égales à la médiane5. le coefficient de variation de la série de données est égal à 16. toutes les valeurs observées sont telles que leurs n écarts par rapport à la moyenne sont

constants et non nuls.

I.13 Une étude a été réalisée dans un service d’obstétrique portant sur un échantillon de 20 bébés nés prématurément. On a notamment mesuré le périmètre crânien et on a calculé la moyenne (23 cm) et la somme des carrés des observations (10.701,6 cm²). On a constaté par la suite qu’une des observations initiales avait été transcrite de manière erronée: la valeur considérée dans les calculs était de 26 cm alors que la valeur exacte était en réalité de 22 cm. Pour la série tenant compte de la donnée corrigée, donner la moyenne (avec une décimale) et l’écart-type (avec deux décimales).

I.14 On a répertorié le nombre de frères et sœurs de tous les étudiants d’une même promotion.Nombre de frères et sœurs 0 1 2 3 4 Total

Effectif 38 94 75 48 5 260

a) Calculer la moyenne (à 5 décimales) et la médiane de cette distribution

b) Six étudiants absents lors du recueil des données annoncent qu’ils ont respectivement 2, 3, 2, 3, 4 et 2 frères et sœurs. Calculer la moyenne (à 5 décimales) et la médiane de la série de données complétée. Comparer avec les valeurs précédemment calculées.

I.15 La variance d’une variable quantitative continue X a été calculée sur un ensemble de n (> 2) observations. Cette variance est1. nulle dès lors que la variable X possède une moyenne et une médiane nulle2. nulle si X est une variable centrée-réduite3. inchangée si on centre la variable4. toujours supérieure à la moyenne de X5. un réel positif compris dans l’intervalle [0;1]6. est d’autant plus grande que l’effectif n augmente7. est d’autant plus grande que l’effectif n diminue8. toujours égale à 1

Déterminer la proposition vraie parmi les 8 propositions énoncées.

I.16 Exercice «ouvert»: Le tableau suivant reprend pour un échantillon de 18 marques d’eau minérale mises en vente sur le marché, leurs compositions en Na (Sodium), Ca (Calcium), Mg (Magnésium) exprimées en mg/litre, ainsi que leur pH (potentiel Hydrogène). 11 d’entre elles présentent un caractère non gazeux (eau plate), tandis que les 7 autres se caractérisent par un caractère gazeux (eau gazeuse).

marque Na Ca Mg pH typeChaudfontaine 44,00 65,00 18,00 7,60 PLATEEvian 6,50 80,00 26,00 7,20 PLATE

Page 14: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

Hépar 14,20 549,00 119,00 7,20 PLATEOrée du Bois 43,00 234,00 70,00 7,20 PLATESaint-Amand 28,00 176,00 46,00 7,20 PLATESan Benedetto 11,70 128,90 17,90 7,50 PLATESource Beaupré 3,00 58,00 24,00 7,60 PLATESpa Reine 3,00 4,50 1,30 6,00 PLATEThonon 3,00 108,00 14,00 7,40 PLATEVittel 4,70 202,00 43,00 7,30 PLATEVolvic 11,60 11,50 8,00 7,00 PLATEBadoit 165,00 190,00 85,00 6,00 GAZEUSECristalline 84,00 67,00 26,00 5,20 GAZEUSEPerrier 11,80 155,00 6,80 5,50 GAZEUSESaint-Alban 350,00 220,00 70,00 6,50 GAZEUSESaint-Léger 93,00 64,00 26,00 5,20 GAZEUSEVichy Célestins 1172,00 103,00 10,00 6,80 GAZEUSEVichy Saint-Yorre 1708,00 90,00 11,00 6,60 GAZEUSE

Commenter les statistiques descriptives de base obtenues sur ces données à l’aide du logiciel SPSS:

Page 15: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

I.17 Un chercheur prépare une étude randomisée dans laquelle deux groupes de patients seront soumis à deux thérapies différentes A et B. Le chercheur a reçu l’accord de 57 patients pour participer à l’étude. Il décide d’utiliser la table de nombres aléatoires pour assigner à chacun d’eux l’un des deux traitements ( voir fascicule des tables, première table I).

a) S’il prend comme règle de conduite d’assigner le traitement A pour les nombres de 0 à 4 et B pour les nombres de 5 à 9, en commençant par la première ligne de la table, combien de patients y aura-t-il dans chaque groupe? A quel traitement sera assigné le 9ème patient? Et le 16ème?

Page 16: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

b) S’il prend comme règle de conduite de commencer à la 14ème ligne (14 étant le nombre donné au hasard par une personne «innocente») et d’assigner le traitement A pour 0 et les nombres pairs, et B pour les nombres impairs, combien de patients y aura-t-il dans chaque groupe? A quel traitement sera assigné le 9ème patient? Et le 16ème?

I.18 Questions à choix multiple (une seule bonne réponse par question)

a) L’étendue d’une variable quantitative X a été calculée sur un ensemble de n observations.Cette étendue est

1. un nombre négatif ou nul2. toujours strictement inférieure à la variance3. fortement influencée par les valeurs extrêmes4. toujours strictement supérieure à la moyenne5. un des paramètres de tendance centrale parmi les plus simples

b) Dans un ensemble de n observations d’une variable quantitative X comportant au moins deux valeurs distinctes, on peut affirmer que

1. la médiane n’est jamais nulle2. la moyenne arithmétique n’est jamais nulle3. l’écart-type n’est jamais nul4. la moyenne est toujours supérieure à la médiane5. l’écart-type est toujours égal à l’étendue

c) Le diagramme de fréquence cumulée est particulièrement utile dans la détermination de

1. La moyenne2. La médiane3. Le mode4. L’écart-type5. La variance

d) Soit un groupe de 15 sujets ayant obtenu une moyenne égale à 80 points à un test noté sur 100 points. Si nous enlevons 80 points à chacun des sujets, la variance

1. augmente2. diminue3. ne change pas4. devient égale à 05. il est impossible de répondre à cette question avec les données fournies

e) Pour un ensemble de 10 observations d’une variable quantitative,1. La médiane correspond toujours à une observation de l’ensemble2. La médiane peut correspondre à une observation de l’ensemble3. La médiane ne correspond jamais à une observation de l’ensemble4. La moyenne correspond toujours à une observation de l’ensemble5. Le mode ne correspond jamais à une observation de l’ensemble6. La moyenne ne correspond jamais à une observation de l’ensemble

Page 17: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

f) Les quatre statistiques suivantes: étendue, variance, écart-type et écart interquartile ont été calculées sur un ensemble de n observations d'une variable continue X.

1. Si toutes les observations sont exprimées en unités centrées réduites, ces 4 statistiques sont égales à 1

2. Si ces 4 statistiques sont nulles, les n observations sont toutes nécessairement nulles 3. Si on ajoute une même valeur constante non nulle à chacune des observations, les 4

nouvelles statistiques obtenues sont identiques aux 4 anciennes4. Ces 4 statistiques s’expriment toutes dans les mêmes unités que les observations5. Si on ajoute une observation aux n précédentes, ces 4 statistiques augmentent6. Ces 4 statistiques sont des quantités positives ou nulles et nécessairement égales entre

elles si leur moyenne est égale à leur médiane

I.19 On désire comparer, dans un contexte déterminé, la rapidité de jeunes enfants selon leur sexe. A cet effet, on donne à un groupe «représentatif» de 12 filles et à un groupe «représentatif» de 12 garçons le même parcours d’obstacles à effectuer et on mesure le temps mis par chacun d’entre eux pour le parcourir.

Les résultats obtenus (temps exprimé en secondes) sont les suivants:

Filles 32 26 25 29 35 40 25 30 41 27 40 28

Garçons 45 40 38 29 42 39 31 37 32 28 41 48

a) Déterminer la valeur de la médiane du temps de réalisation de l’exercice chez les filles et les garçons

b) Calculer les temps moyens de parcours de réalisation de l’exercice chez les filles et les garçons

c) Peut-on conclure à une différence de rapidité entre les filles et les garçons sur base des résultats obtenus?

I.20 On s’intéresse à la durée de séjour (exprimée en jours) à l’hôpital Erasme de patients présentant une hernie discale lombaire. Parmi ceux-ci, un échantillon représentatif de 100 sujets a été retenu. Les graphiques suivants ont été réalisés (boîte à moustaches, voir § II.D, et diagramme en bâtons).

Quelle est la proposition fausse parmi les propositions suivantes?

1. le premier quartile est égal à 5 jours

2. la distribution observée présente un caractère asymétrique

3. la moyenne de la durée de séjour est > 7 jours

4. le mode est égal à la médiane qui vaut 7 jours

5. l’écart interquartile est de 5 jours

Page 18: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

6. la première valeur éloignée, à partir du bord supérieur de la boîte, est égale à 18 jours

7. quatre patients présentent une durée de séjour extrême

I.21 Les six diagrammes en bâtons ci-dessous représentent six distributions d’un score variant de 0 à 10 mesuré sur 20 patients. Ils correspondent dans le désordre à six tableaux de statistiques de position et de dispersion. Associez à chaque graphique (repéré par une lettre) le tableau de mesures correspondant (repéré par un chiffre).

Page 19: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

A

0123456

0 1 2 3 4 5 6 7 8 9 10

Effe

ctifs

B

01234567

0 1 2 3 4 5 6 7 8 9 10

Effe

ctifs

C

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 10

Effe

ctifs

D

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7 8 9 10

Effe

ctifs

E

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 10

Effe

ctifs

F

0

1

2

3

4

5

0 1 2 3 4 5 6 7 8 9 10

Effe

ctifs

Mesures de position et de dispersion:

Tableau 1 Tableau 2 Tableau 3 Tableau 4 Tableau 5 Tableau 6Moyenne 5 5,6 6,95 5 4,75 5Médiane 5 5 7 5 5 5Ecart-type(arrondi à 3 décimales)

1,487 2,088 1,959 3,244 2,074 2,176

Page 20: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

Réponses:

Diagrammes en bâtons TableauxABCDEF

I.22 Soient X et Y deux variables quantitatives mesurées simultanément sur n sujets. Peut-on toujours écrire, quelles que soient les variables:

a) var (X + Y) = var (X) + var (Y)b) var (X + Y) = var (X) – var (Y)c) var (X – Y) = var (X) – var (Y)d) var (X - Y) = var (X) + var (Y)

Solution: les valeurs observées sont notées pour X: x1, x2, …, xn et pour Y: y1, y2, ..., yn

Nous aurons par exemple

→ var (X+Y) = var X + var Y + 2 cov (X,Y)

On pourrait montrer de la même manière que

var (X-Y) = var X + var Y - 2 cov (X,Y)

La covariance entre X et Y est un paramètre statistique qui sera étudié dans le chapitre consacré à la régression et à la corrélation.

Exemple numérique (tableau ci-dessous) montrant que

var (X+Y) ≠ var X + var Y et var (X-Y) ≠ var X – var Y:

Prenons pour X les 5 observations: 3, 6, 9, 12, 15 et pour Y les 5 observations: 1, 2, 3, 4, 5.

Page 21: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

X Y X+Y X-Y

3 1 4 2

6 2 8 4

9 3 12 6

12 4 16 8

15 5 20 10

Moyenne 9 3 12 6

Variance 22,5 2,5 40 10

On obtient var X = 22,5; var Y = 2,5; var (X+Y) = 40; var (X-Y) = 10. Clairement,

var (X+Y) ≠ var X + var Y et var (X-Y) ≠ var X – var Y.

Les 4 propositions a), b),c) et d) sont donc fausses.

Page 22: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

I.C. UTILISATION DES LOGICIELS STATISTIQUES

Exemple 1

Le volume expiratoire maximum par seconde (VEMS) a été mesuré chez 57 étudiants de sexe masculin. Les résultats obtenus, exprimés en litres, sont indiqués dans la première table ci-dessous,

VEMS4,47 4,47 3,48 5,00 3,42 3,783,10 3,57 4,20 4,50 3,60 3,754,50 2,85 3,70 4,20 3,20 4,054,90 5,10 5,30 4,16 4,56 3,543,50 5,20 4,71 3,70 4,78 4,144,14 4,80 4,10 3,83 3,60 2,984,32 5,10 4,30 3,90 3,96 3,544,80 4,30 3,39 4,47 3,193,10 4,70 3,69 3,30 2,854,68 4,06 4,44 5,43 3,04

Statistiques descriptives présentées par le logiciel SPSS

Statistiques

VEMS

N Valide 57,0000

Moyenne 4,0604

Médiane 4,1000

Mode 4,4700

Déviation standard ,6715

Variance ,4509

Étendue 2,5800

Minimum 2,8500

Maximum 5,4300

Somme 231,4400

Percentiles 25 3,5400

50 4,1000

75 4,5300

Page 23: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

VEMS

Ecart interquartile = Q3 - Q1 = 4,5300 – 3,5400= 0,9900

Compléments sur les boîtes à moustaches

Exemple:Description, à l’aide de boîtes à moustaches de la durée (exprimée en jours), qu’a nécessitée la revalidation, chez des femmes (groupe 1) et chez des hommes (groupe 2) ayant tous subi un accident du même type. (Graphique fourni par le logiciel statistique SPSS).

Les boîtes à moustaches indiquent quelques traits marquants des séries de données, intégrant les

concepts de centralité et de dispersion. Le segment inférieur d’une boîte représente la valeur du

premier quartile (A) tandis que le segment supérieur représente celle du troisième quartile (B), la

boîte contient donc 50% des observations. La médiane est représentée par un segment horizontal

dans la boîte (C). La boîte est prolongée en haut et en bas par deux moustaches qui s’étendent

respectivement jusqu’au maximum (D) et au minimum (E) de la série de données, pour autant

qu’il n’y ait pas de valeurs éloignées ou extrêmes. Une valeur éloignée (représentée par un rond)

Maximum: 5,4300

Percentile 75: 4,5300 = Q3

Percentile 25: 3,5400 = Q1

Minimum: 2,8500

Médiane: 4,1000 = Q2

Étendue = max – min = 5,4300 – 2,8500= 2,5800

Moustaches

Boîte

Page 24: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

est une observation dont la valeur est comprise entre 1,5 et trois fois la hauteur de la boîte,

comptée à partir du bord supérieur (troisième quartile) ou inférieur (premier quartile) de la boîte

à moustaches (F). De la même façon, une valeur extrême (représentée par une étoile) est une

observation dont la valeur est située à plus de trois fois la hauteur de la boîte, toujours comptée à

partir du bord supérieur (troisième quartile) ou inférieur (premier quartile) de la boîte à

moustaches (G).

Exemple 2Les températures maximales moyennes mensuelles d’Uccle (IRM) sont données dans le tableau ci-

dessous. Elles concernent quarante-quatre années, de 1968 à 2011, et sont exprimées en degrés Celsius. A

titre informatif, la dernière colonne « moy» du tableau présente, pour chaque année, la moyenne

arithmétique pondérée des températures des 12 mois s’y référant.

A

B

C

D

E

F

G

Page 25: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

année janvier février mars avril mai juin juillet août septembre octobre novembre décembre moy1968 3,60 4,00 10,20 15,10 15,30 19,70 21,30 20,80 18,50 15,70 7,90 2,60 12,911969 7,10 3,60 8,30 13,10 18,40 19,90 22,90 21,70 19,60 17,80 9,40 2,20 13,731970 5,60 5,50 6,60 9,80 18,00 23,70 20,80 22,40 20,30 14,30 11,60 4,70 13,641971 6,40 6,80 6,80 14,00 20,20 18,30 23,80 21,80 19,30 15,70 8,10 7,70 14,131972 4,40 7,80 12,60 12,20 16,40 18,20 22,00 20,60 17,00 14,50 8,40 7,50 13,491973 5,20 5,60 10,30 10,70 17,30 22,00 21,90 24,40 20,10 13,60 9,00 5,70 13,871974 8,70 8,30 9,90 15,30 17,00 20,00 20,00 22,10 17,20 9,90 9,50 9,10 13,951975 9,10 8,60 7,50 11,90 16,30 20,10 23,20 25,00 19,50 12,80 8,50 5,10 14,001976 6,40 6,30 8,30 13,10 19,40 24,80 25,50 24,20 18,90 15,20 9,10 4,40 14,661977 5,20 8,40 11,40 10,90 16,50 18,00 20,90 20,40 17,80 16,40 9,10 8,30 13,651978 5,00 4,80 10,00 11,90 16,50 19,10 19,90 19,90 17,60 15,10 9,50 6,00 12,991979 0,30 3,10 8,50 11,90 16,90 19,40 20,70 20,10 18,90 15,60 9,00 7,90 12,751980 3,30 9,00 8,60 11,80 16,70 18,80 19,20 21,70 20,10 13,10 7,00 5,80 12,931981 5,80 5,00 12,30 12,70 17,70 18,50 20,50 21,10 19,40 12,60 9,80 3,20 13,261982 4,70 7,40 9,70 12,70 18,00 21,40 23,40 21,60 21,60 14,20 10,50 6,20 14,321983 8,30 4,00 10,00 13,80 15,50 21,60 26,00 23,60 18,70 14,60 10,20 6,50 14,471984 5,80 5,20 8,00 13,20 13,80 18,40 21,80 23,40 16,80 14,60 12,30 6,70 13,361985 -0,30 3,40 7,50 13,00 17,80 18,70 22,90 21,10 19,20 14,40 5,40 7,80 12,631986 4,80 -0,40 8,70 10,40 19,00 22,20 22,20 20,80 16,20 15,80 10,80 7,10 13,231987 -0,60 4,70 6,40 16,40 14,60 18,40 21,70 21,00 19,60 15,20 8,30 6,30 12,701988 8,40 7,10 8,40 14,70 18,90 19,20 20,20 22,00 17,60 14,90 8,90 8,60 14,101989 6,90 8,30 12,90 11,20 21,30 21,50 24,10 23,30 20,10 16,40 9,70 7,90 15,351990 7,40 11,60 12,70 13,60 20,70 19,60 23,00 25,10 17,50 16,50 9,00 5,50 15,221991 5,90 3,20 13,10 13,90 15,10 17,20 23,40 24,20 20,80 14,40 8,50 6,00 13,881992 4,90 8,30 10,30 13,40 20,60 21,20 23,20 22,50 18,70 11,40 10,50 6,00 14,261993 8,40 4,40 11,00 16,30 19,40 21,10 21,10 20,30 17,10 12,20 5,50 7,40 13,751994 7,20 5,70 11,00 13,20 16,90 20,80 26,70 22,40 17,30 14,20 12,80 8,00 14,741995 6,70 9,40 9,60 13,00 18,30 18,90 25,90 25,30 18,00 17,50 10,20 3,10 14,701996 4,90 3,70 7,60 15,20 14,60 20,80 21,60 22,20 16,70 14,80 7,70 2,50 12,711997 2,60 9,20 12,30 12,90 17,90 20,50 21,90 26,20 19,70 14,30 9,70 7,30 14,571998 7,00 9,70 11,00 13,00 19,80 20,60 20,50 22,20 18,90 12,30 6,60 6,60 14,041999 7,70 5,70 11,30 14,20 19,30 19,90 24,20 22,40 21,70 14,20 8,60 6,50 14,702000 6,10 8,80 10,30 14,60 19,10 21,30 18,90 23,00 19,90 14,40 10,20 7,70 14,532001 5,90 7,50 9,40 12,20 19,70 20,00 23,20 23,70 16,30 17,90 9,20 4,90 14,212002 7,20 10,00 11,60 14,40 17,60 21,40 22,00 22,30 18,70 13,80 11,30 6,30 14,742003 4,60 6,60 13,10 15,20 18,00 23,80 24,20 25,30 20,60 11,60 11,10 7,10 15,142004 5,60 7,60 10,50 15,20 17,10 20,70 21,80 23,00 20,00 15,10 9,20 5,30 14,272005 7,10 4,90 10,70 14,70 18,00 23,20 23,00 21,40 21,20 18,10 8,90 5,90 14,812006 4,50 4,90 8,40 14,00 18,80 22,00 28,60 20,20 23,40 18,00 12,40 8,20 15,342007 9,30 9,60 12,10 20,50 19,00 21,90 21,70 21,30 18,20 14,00 9,30 6,70 15,322008 8,60 10,30 9,40 13,80 21,30 20,70 22,40 21,70 18,20 14,20 9,40 5,10 14,602009 3,70 6,30 10,90 17,40 19,10 21,30 23,60 24,90 20,40 15,10 12,10 5,30 15,052010 2,20 5,00 10,40 15,70 15,40 22,40 25,80 21,50 18,60 14,70 8,20 1,20 13,462011 6,70 8,10 12,40 19,60 20,00 21,70 20,10 21,90

Page 26: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

Pour chaque mois, on peut obtenir les statistiques descriptives de base:

Nous représentons, à titre d’exemples, les histogrammes des mois de janvier et juillet:

Page 27: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

Nous résumons l’information de chaque mois par une boîte à moustaches:

Page 28: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

Questions

1. La moyenne et l’écart-type des maxima journaliers moyens de juillet à Uccle pour ces 44 dernières années valent respectivement, en degrés Celsius, 22,54°C et 2,08°C.

Que deviennent la moyenne et la variance de ces statistiques (à donner avec 3 décimales après avoir effectué les calculs à 4 décimales) en degrés Fahrenheit ? La formule liant ces 2 échelles est:Température Fahrenheit = 1,8 * Température Celsius +32.

Réponse: en fonction de la transformation linéaire des données, F = 1,8 C + 32 → = 1,8 + 32 et sf² = (1,8)² sc².La moyenne en degrés Fahrenheit = (1,8 * 22,54) + 32 = 72,57La variance exprimée en (degrés Fahrenheit)² = (1,8)² * (2,08)² = 14,02

2. Le mois de janvier 2010 (température maximale moyenne de 2,2 °C), caractérisé par son épisode neigeux, apparaît-il plus remarquable que ne l’est le mois de juillet de 2010 (température maximale moyenne de 25,8°C) par sa période de canicule ?

Réponse: ces données peuvent être comparées en passant aux valeurs centres-réduites.

Pour le mois de janvier: xjanv = 2,2 → zjanv = (2,2 – 5,64) / 2,33 = -1,48 Pour le mois de juillet: xjuil = 25,8 → zjuil = (25,8 – 22,54) / 2,08 = 1,57Le mois de juillet 2010 apparaît donc un peu plus extrême que le mois de janvier 2010 et fut donc relativement un peu plus chaud que janvier ne fut froid.

Remarque:

1. Nous pouvons constater le rôle relativement important joué par l’année extrême 2006 dans le calcul des mesures de dispersion de notre série de données de juillet. Voyons, à titre illustratif, ce que deviendraient les paramètres statistiques en retirant soit l’année record 2006, soit l’année minimum 2000, soit une année «normale» comme 2008.

temp. Juillet n Moyenn

eMédian

eEtendu

eVarianc

eEcart-type

44 années d'observation 44 22,54 22,10 9,7 4,33 2,08

retrait de l'an 2006 (année maximum "record") 28,6 4

3 22,40 22,00 7,8 3,53 1,88

retrait de l'an 2000 (année minimum) 18,9 43 22,62 22,20 9,4 4,11 2,03

retrait de l'an 2008 (année "normale") 22,4 43 22,54 22,00 9,7 4,43 2,10

Page 29: Vrije Universiteit Brusselhomepages.vub.ac.be/~cverhoev/STAT-I301/CHAPITRE I.docx · Web viewCHAPITRE I. STATISTIQUES DESCRIPTIVES I.A RAPPEL THEORIQUE Variables quantitatives (métriques):

2. Nous examinerons dans un chapitre futur l’analyse des liens qui peuvent exister entre les variables (corrélations). Il est permis de se demander en effet si d’éventuelles relations existent entre les mois (juin relativement chaud entraîne-t-il juillet relativement chaud? par exemple).D’autre part, on peut aussi se poser la question de savoir si certains mois présentent des températures maximales moyennes similaires (janvier – février ou juillet-août, par exemple).