Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Chapitre 4
Variables Quantitatives continues
1. Organisation des données
2. Représentation graphique : histogramme
3. Fonction de répartition
4. Principaux paramètres de tendance centrale : mode, moyenne,médiane
5. Principaux paramètres de dispersion : étendue, écart-type,quantiles
6. Intervalle de variation
7. Box plot
1 Organisation des données
Une variable quantitative continue est à valeurs réelles. Elleprend un trop grand nombre de valeurs pour qu�on puissetoutes les recenser.
1. Découpage en classes :
On détermine la plus petite valeur prise amin et la plusgrande valeur prise amax par la variable. Puis on se donneune série d�intervalles appelés classes de la forme ]a; b]couvrant l�ensemble des valeurs de la variable :
[amin; amax]� ]a0; a1][]a1; a2][]a2; a3] [ :::]ak�1; ak]
Exemple : On a demandé aux 10 élèves de la classe determinale la durée (en minutes) du trajet domicile-lycée.
Données individuelles :
6 ; 6 ; 7 ; 10 ; 12 ; 13 ; 20 ; 23 ; 30 ; 36
Plus petite valeur = 6. Plus grande valeur = 36.
On se donne le découpage en classes ]5,15], ]15,30] et]30,40 ].
On appelle amplitude de la classe ]a; b] la valeur de ladi¤érence b� a.
Exemple : amplitude de ]5,15] = 15 - 5 = 10.
Lors de ce découpage, les classes peuvent être de mêmeamplitude ou d�amplitudes di¤érentes.
Exemples : trois classes de même amplitude : ]5,20] ;]20,35] ; ]35,50]
Le principe de base est que les observations sont répartiesuniformément au sein de chaque classe.
2. Pour chaque classe ]a; b] on compte le nombre d�individuspour lesquels la variable prend une valeur strictement
supérieure à a et inférieure ou égale à b: On appelle nil�e¤ectif de la i-ème classe.
3. On regroupe dans un tableau les di¤érentes classes et leurse¤ectifs respectifs.
Exemple :
Tableau 1 de distribution des e¤ectifs :
Durée ]5,15] ]15,30] ]30,40]E¤ectifs ni 6 3 1
Tableau 2 de distribution des e¤ectifs :
Durée ]5,20] ]20,35] ]35,50]E¤ectifs ni 7 2 1
Tableau 3 de distribution des e¤ectifs :
Durée ]5,10] ]10,15] ]15,30] ]30,50]E¤ectifs 4 2 3 1
Remarques
� La somme des e¤ectifs des di¤érentes classes doit êtreégal à l�e¤ectif total. n1 + n2 + ::+ nk = N:
� Le tableau de distribution des e¤ectifs contient moinsd�information que les données individuelles.
En e¤et, connaître l�e¤ectif d�une classe ne renseigne passur la répartition des données individuelles à l�intérieur dela classe. Ceele-ci est supposée uniforme.
� On peut présenter de façon équivalente le tableau de dis-tribution des proportions :
Tableau 1 de distribution des proportionsDurée ]5,15] ]15,30] ]30,40]Proportions pi 0,6 0,3 0,1E¤ectif total N =10
2 Représentation graphique
2.1 Densité de proportion
Reprenons l�exemple suivant :
Population : élèves d�une classe de terminaleVariable X : durée du trajet domicile-lycée
Tableau de distribution de X:
Durée X ]5,15] ]15,30] ]30,40]Proportions pi 0,6 0,3 0,1
Lorsqu�on veut représenter une variable quantitative continue,on détermine préalablement les densités de proportion des dif-férentes classes.
La densité de proportion d�une classe ]a; b] est donnée par
densité de proportion de ]a; b] =proportion de ]a; b]
amplitude de ]a; b]
Exemple : Durée du trajet domicile - lycée
E¤ectif total N =10
Durée X ]5;15] ]15;30] ]30;40]Proportion pi 0,6 0,3 0,1Amplitude 10 15 10Densité de proportion 0,06 0,02 0,01
2.2 Histogramme
La représentation graphique d�une variable quantitative con-tinue est l�histogramme.
On dessine pour chaque classe ]a; b] un rectangle de base ]a; b]et de hauteur la densité de proportion de la classe ]a; b].
Exemple : Durée du trajet domicile - lycée
Distribution des durées de trajet domicile-lycée pour des élèves de
Terminale
5 15 25
durée
densité de proportion effectif total = 10
0,01
0,02
0,03
0,04
0,05
0,06
35 45
Ainsi, la surface de chaque rectangle est exactement la pro-portion de la classe correspondante.
Surface du rectangle = hauteur � largeur= densité de proportion de ]a; b] � amplitude de ]a; b]
=proportion de ]a; b]
amplitude de ]a; b]� amplitude de ]a; b]
= proportion de ]a; b]
La surface totale de l�histogramme est égale à 1 puisqu�elle estégale à la somme des proportions.
2.3 Estimation d�une proportion à partir de
l�histogramme
Distribution des durées de trajet domicile-lycée pour des élèves de
Terminale
5 15 25
durée
densité de proportion effectif total = 10
0,01
0,02
0,03
0,04
0,05
0,06
35 45
Proportion d�observations comprises entre 8 et 32 ?
�! Proportion de ]8,32]
= [0,06 � (15-8)] + [0,3] + [0,01 � (32-30)]
= 0,42 + 0,3 + 0,02 = 0,74
74% des durées de trajet sont comprises entre 8 et 32 minutes.
Remarque : pour une variable continue,
proportion de ]8,32] = proportion de [8,32]
= proportion de [8,32[ = proportion de ]8,32[
3 Fonction de répartition d�une vari-
able continue
3.1 Proportions cumulées
La proportion cumulée d�une valeur V est la proportion desobservations qui sont inférieures ou égales à cette valeur V .
Pour une variable continue, il est équivalent de chercher laproportion d�observations qui sont strictement inférieures à lavaleur V (faux dans le cas discret).
Exemple : Durée du trajet domicile - lycée
Durée X ]5;15] ]15;30] ]30;40]Proportion pi 0,6 0,3 0,1Proportions cumulées Fi 0 0,6 0,9 1E¤ectif total N = 10
La proportion cumulée indiquée pour une classe ]a; b] cor-respond en fait à la proportion cumulée en b:
3.2 Fonction de répartition
On appelle Fonction de répartition de la variable X la fonctionnotée F dé�nie pour tout réel x; qui associe à ce réel x lafréquence des observations qui sont inférieures ou égales à x:
On peut l�appeler encore fonction de distribution cumulative.
F (x) = fréquence(ou proportion)
des observations � x
= proportion cumulée de x
Exemple : Durée du trajet domicile - lycée
Durée X ]5;15] ]15;30] ]30;40]Proportion cumulée Fi 0 0,6 0,9 1E¤ectif total N = 10
F (0) = 0 F (5) = 0 F (15) = 0; 6F (30) = 0; 9 F (40) = 1
On connait facilement la valeur de F (x) dans certains cas :
� si x est une valeur inférieure ou égale à la borne inférieurede la première classe, F (x) = 0
� si x est une valeur supérieure ou égale à la borne supérieurede la dernière classe, F (x) = 1
� si x est la borne supérieure de la i-éme classe, F (x) = Fi
Comment calculer F (x) sinon ?
1. On détermine à quelle classe ]a; b] appartient la valeur x.
2. On applique la formule
F (x) = F (a) + (x� a)� F (b)� F (a)b� a
Exemple : Durée du trajet domicile - lycée
Durée ]5;15] ]15;30] ]30;40]Proportion cumulée Fi 0 0,6 0,9 1
� F (10) ? 10 2]5; 15]
F (10) = F (5) + (10� 5)� F (15)�F (5)15�5
F (10) = 0 + 5� 0;6�010 = 0; 3:
� F (20)? 20 2]15; 30]
F (20) = F (15) + (20� 15)� F (30)�F (15)30�15
= 0; 6 + 5� 0;9�0;615 = 0; 7:
Remarque : La fonction de répartition est croissante et si x 2]a; b], alors on doit trouver F (x) 2]F (a);F (b)]:
3.3 Représentation graphique de la fonction
de répartition
Pour chaque valeur V qui est une borne de classe, on asso-cie un point de coordonnées (V; F (V )). On joint les pointsconsécutifs par un segment.
On termine en prolongeant en 0 et en 1 aux deux extrêmes.
Exemple : Durée du trajet domicile - lycée
Durée ]5;15] ]15;30] ]30;40]Proportion cumulée Fi 0 0,6 0,9 1E¤ectif total = 10
Points à tracer: (5;0) ; (15;0,6) ; (30;0,9) ; (40;1)
Fonction de répartition de la durée de trajet domicile-lycée pour des
élèves de terminale
Proportions cumulées
Durée
0 15105 30 40
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
20 3525
3.4 Calcul de proportions
� La proportion d�observations inférieures à a estF (a)
� La proportion d�observations supérieures à b est 1�F (b)
� La proportion d�observations comprises entre a et b (aveca � b) est :F (b)� F (a)
C�est aussi la proportion de ]a; b] ou ]a; b[ ou [a; b[ ou[a; b]:
Exemples :
Pourcentage d�élèves mettant plus de 15 minutes pour se ren-dre au lycée
= 1� F (15) = 1� 0; 6 = 0; 4 soit 40%.
Pourcentage d�élèves mettant moins de 5 minutes pour se ren-dre au lycée = F (5) = 0.
Pourcentage d�élèves mettant entre 10 et 20 minutes pour serendre au lycée :
proportion de ]10; 20] = F (20)� F (10)= 0; 7� 0; 3 = 0; 4:
4 Paramètres de tendance centrale
4.1 La classe modale
La classe modale est la classe ayant la plus grande densité deproportion.
Graphiquement, c�est la classe correspondant au rectangle leplus haut dans l�histogramme.
Exemple : Durée du trajet domicile - lycée
Durée ]5;15] ]15;30] ]30;40]Densité de proportion 0,06 0,02 0,01
La classe modale est ]5;15].
Remarques :
� Il peut y avoir une ou plusieurs classes modales.
� Attention :
plus grande densité de proportion 6= plus grande propor-tion
Exemple :
Classe ]5;15] ]15;30] ]30;40]Proportion 0,4 0,5 0,1Densité de proportion 0,04 0,033 0,01
4.2 La moyenne
4.2.1 Calcul de la moyenne à partir des e¤ectifs
On appelle centre de la classe ]a; b] le milieu de cette classe.
Centre de la classe ]a; b] =a+ b
2
On note xi le centre de la i�ème classe.
Lorsque les données sont regroupées en k classes, chaque classeva être résumée par son centre. La moyenne est alors obtenuepar le calcul suivant :
Moyenne =P(centre � e¤ectif)
E¤ectif total
� =
kPi=1
xi � ni
N=x1n1 + x2n2 + :::+ xknk
N
Exemple : durée du trajet domicile - lycée
Durée X ]5;15] ]15;30] ]30;40]Centre xi 10 22,5 35E¤ectif ni 6 3 1
� =(10� 6) + (22; 5� 3) + (35� 1)
10= 16; 25
Remarque :
La moyenne calculée sur les données regroupées n�est pas tou-jours égale à celle calculée sur les données individuelles, égaleici à 16.60.
La �vraie�valeur de la moyenne est celle calculée sur les don-nées individuelles.
La moyenne calculée sur les données regroupées est une valeurapprochée de la vraie valeur de la moyenne ; il y a eu perted�information lors du regroupement des données en classes.
4.2.2 Calcul de la moyenne à partir des proportions
La moyenne est alors obtenue par le calcul suivant :
Moyenne =P
(centre � proportion)
� =kPi=1(xi � pi) = (x1p1 + x2p2 + :::+ xkpk)
Exemple : durée du trajet domicile - lycée
Durée X ]5;15] ]15;30] ]30;40]Centre xi 10 22,5 35Proportion pi 0,6 0,3 0,1
� = (10� 0; 6) + (22; 5� 0; 3) + (35� 0; 1) = 16; 25
Remarque : on obtient le même résultat en utilisant les e¤ectifsou les proportions.
Propriétés de la moyenne
Les remarques faites dans le cas d�une variable quantitativediscrète s�appliquent encore.
Notamment on peut appliquer les mêmes formules pour cal-culer une moyenne sur une population issue d�un regroupementde populations distinctes.
4.3 La médiane
La médiane est la valeur qui partage les observations en deuxgroupes : 50% des observations sont inférieures à la médiane(et 50% sont supérieures).
Autrement dit,
F (M�ediane) = 0; 5
Détermination de la médiane :
1. Si il existe une borne de classe b telle que F (b) = 0; 5;
alors M�ediane = b:
2. Sinon, on détermine l�intervalle ]a; b] tel que F (a) < 0; 5
et F (b) > 0; 5:
Puis on applique la formule
M�ediane = a+ (b� a)� 0; 5� F (a)F (b)� F (a)
Exemple : Durée du trajet domicile - lycée
Durée ]5;15] ]15;30] ]30;40]Proportion cumulée Fi 0 0,6 0,9 1
E¤ectif total = 10
F (5) = 0 et F (15) = 0; 6:
La médiane est dans l�intervalle ]5;15].
Médiane = 5 + (15� 5)� 0; 5� F (5)F (15)� F (5)
= 5 + (10)� 0;5�00;6�0 = 13; 33:
Approximation Graphique :
Proportions cumulées
Durée
0 15105 30 40
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
20 3525
4.4 Comparaison Mode-Moyenne- Médiane
Il n�y a pas de règle générale entre les trois quantités. On peutdistinguer cependant trois cas :
Si la distribution est symétrique :
mode ' moyenne ' médiane
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
9
10
Si la distribution est disymétrique étalée à droite :
mode < médiane < moyenne
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
9
10
Si la distribution est disymétrique étalée à gauche :
moyenne < médiane < mode
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
9
10
5 Paramètres de dispersion
De même que pour une variable discrète, la moyenne n�estpas su¢ sante pour décrire la distribution et on s�intéresse à ladispersion de celle-ci.
5.1 L�étendue
L�étendue est la di¤érence entre la plus grande valeur et la pluspetite valeur prise par la variable.
5.2 L�écart-type
Il mesure la dispersion des données autour de la moyenne.
On applique les mêmes formules de calcul que dans le casd�une variable discrète, mais les valeurs sont remplacées parles centres de classe.
Calcul à partir des e¤ectifs
Dé�nition :
Variance =P(centre - moyenne)2 � e¤ectif
e¤ectif total
�2 =
kPi=1(xi � �)2 � ni
N
Formule de calcul pratique :
Variance =P(centre)2 � e¤ectife¤ectif total
- moyenne2
�2 =
kPi=1(xi)
2 � ni
N� �2
On a ensuite l�écart-type � =p�2.
Exemple : durée du trajet domicile - lycée
Durée X ]5;15] ]15;30] ]30;40]Centre xi 10 22,5 35E¤ectif ni 6 3 1
� = 16; 25
�2 = (102�6)+(22;52�3)+(352�1)10 �16; 252
= 3343;7510 � 264; 06 = 70; 31
� = 8; 39
Remarques :
La variance (et donc l�écart-type) calculée sur les données re-groupées n�est pas égale à celle calculée sur les données indi-viduelles, qui serait égale ici à 10,74.
La �vraie�valeur de l�écart-type est celle calculée sur les don-nées individuelles. L�écart-type calculé sur les données re-groupées est une valeur approchée ; il y a eu perte d�informationlors du regroupement des données en classes.
Calcul à partir des proportions
Dé�nition :
Variance =P(centre - moyenne)2 � proportion
�2 =kPi=1(xi � �)2 � pi
Formule de calcul pratique :
Variance =P[(centre)2� proportion] - moyenne2
�2 =
"kPi=1(xi)
2 � pi#� �2
On a ensuite l�écart-type � =p�2.
Exemple : durée du trajet domicile - lycée
Durée X ]5;15] ]15;30] ]30;40]Centre xi 10 22,5 35Proportion pi 0,6 0,3 0,1
� = 16; 25
�2 =(102�0,6)+(22,52�0,3)+(352�0,1)-16,252
= 70,31
écart-type � = 8; 39
Remarque : on obtient le même résultat en utilisant les e¤ectifsou les proportions.
5.3 Propriétés complémentaires
5.3.1 Changement de variable linéaire
Supposons qu�on étudie la variable X de moyenne �X et devariance �2X : On considère le changement Y = aX + b; où aet b sont des constantes réelles.
Alors on a directement la moyenne de Y :
�Y = a� �X + b:
La variance et l�écart type de Y sont :
�2Y = a2 � �2X :�Y = jaj � �X :
Exemple : On a mesuré la température corporelle de 130hommes et femmes ; l�étude a été réalisée en degrés Celsius.
On a trouvé une température moyenne de 35; 7 degrés C,avec une variance de 0; 16 (d�C)2 et donc un écart type de0; 4 d�C:
On souhaite exprimer ces résultats en degrés Fahrenheit. Lacorrespondance entre les deux mesures est :
F = 1; 8C + 32:
Alors la température moyenne en degrés Fahrenheit est de :
(1; 8� 35; 7) + 32 = 96; 26:
La variance en (degrés Celsius)2 est de
(1; 8)2 (0; 16) = 0; 518
L�écart-type en degrés Celsius est de (1; 8) (0; 4) = 0; 72
5.3.2 Variable centrée réduite
Une variable centrée et réduite est une variable dont la moyenneest nulle et l�écart-type vaut 1.
Pour centrer et réduire la variable X; on fait le changementde variable
Y =X � �X�X
Alors on véri�e que �Y = 0 et �Y = 1:
Y est centrée réduite.
5.4 Les Quantiles
5.4.1 Le quantile d�ordre �
Le quantile est une valeur qui partage les observations en deuxgroupes.
Soit � une proportion donnée (0 < � < 1):
Le quantile d�ordre �; noté q�; est la valeur telle que la pro-portion de valeurs qui lui sont inférieures est �:
Et la proportion d�observations supérieures au quantile q� est(1� �):
Autrement dit, la proportion cumulée du quantile q� est �:
Ou encore : F (q�) = � .
5.4.2 Cas particuliers
� La médiane est le quantile d�ordre 0,5 (ou 50%).
� Les quartiles :
- le premier quartile est le quantile d�ordre 0,25.
25% des observations sont inférieures à Q1 = q0;25 et75% sont supérieures.
- le second quartile est le quantile d�ordre 0,5.
Q2 = q0;5 = médiane.
- le troisième quartile est le quantile d�ordre 0,75.
75% des observations sont inférieures à Q3 = q0;5 et 25%sont supérieures.
� Les déciles. L�étendue des observations est divisée en 10parties contenant chacune 10% des données.
Le premier décile est le quantile d�ordre 0,1.
Le deuxième décile est le quantile d�ordre 20%. Etc...
Le neuvième décile est le quantile d�ordre 90%.
� Les percentiles. L�étendue des observations est divisée en100 parties contenant chacune 1% des données.
Le premier percentile est le quantile d�ordre 1%.
Le dixième percentile est le quantile d�ordre 10%. Etc...
5.4.3 Détermination des quantiles
On généralise ce qu�on a vu pour la médiane.
Pour une proportion � donnée, on cherche la valeur q� telleque F (q�) = �: On regarde le tableau des proportions cu-mulées.
1. Si il existe une borne de classe b telle que F (b) = �; alorsq� = b:
2. Sinon, on détermine l�intervalle ]a; b] tel que
F (a) < � et F (b) > �:
Puis on calcule la valeur du quantile par la formule
q� = a+ (b� a)��� F (a)F (b)� F (a)
Exemple : Durée du trajet domicile - lycée
Durée X ]5;15] ]15;30] ]30;40]Proportion cumulée Fi 0,6 0,9 1E¤ectif total = 10
- Quantile d�ordre 60% ?
F (15) = 0; 6 alors q0;6 = 15:
60% des observations sont inférieures à 15.
60% des élèves mettent moins de 15 minutes pour aller aulycée.
- Troisième quartile ? (quantile d�ordre 75%)
Il est dans l�intervalle ]15;30]
Q3 = q0;75 = 15 + (30� 15)�0;75�F (15)F (30)�F (15)
Q3 = 15 + (15)� 0;75�0;60;9�0;6 = 22; 5:
75% des élèves mettent moins de 22,5 minutes pour aller aulycée.
- Premier quartile ? (quantile d�ordre 25%)
Il est dans l�intervalle ]5;15]
Q1 = q0;25 = 5 + (15� 5)�0;25�F (5)F (15)�F (5)
= 5 + (10)� 0;25�00;6�0 = 9; 17:
25% des élèves mettent moins de 9,2 minutes pour aller aulycée.
Approximation Graphique :
Proportions cumulées
Durée
0 15105 30 40
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
20 3525
6 Intervalle de variation
Soit � une proportion donnée (0 < � < 1):
L�intervalle de variation au risque � ou de niveau 1�� contientune proportion 1 � � d�observations ; de plus, les donnéesqui sont à l�extérieur de cet intervalle (en proportion �) serépartissent également : il y en a autant à �gauche� qu�à�droite�, en proportion �2 :
On écrit donc l�intervalle de variation
I1�� = [q�2; q1��2
]
où q�2est le quantile d�ordre �2
et q1��2est le quantile d�ordre 1� �
2 :
En général, on choisit pour 1 � � la valeur 90%, ou 95% ou99%.
Exemple : Durée du trajet domicile - lycée
Durée ]5;15] ]15;30] ]30;40]Proportion cumulée Fi 0,6 0,9 1E¤ectif total = 10
L�intervalle de variation au niveau 90% est
I0;9 = I90% = [q0;05 ; q0;95] = [5; 83 ; 35]:
q0;05 = 5 + (15� 5)� 0;05�F (5)F (15)�F (5) = ::: = 5; 83
q0;95 = 30 + (40� 30)� 0;95�F (30)F (40)�F (30) = ::: = 35
90% des élèves mettent entre 5,83 et 35 minutes pour aller aulycée. 5% ont une durée de trajet inférieure à 5,83 mn (entre5 et 5,83) et 5% des élèves mettent plus de 35 mn pour serendre au lycée (entre 35 et 40 mn).
L�intervalle de variation au niveau 95% est
I0;95 = I95% = [q0;025 ; q0;975] = [5; 42 ; 37; 5]:
L�intervalle de variation au niveau 99% est
I0;99 = I99% = [q0;005 ; q0;995] = [5; 08 ; 39; 5]:
7 Boîte à moustaches
L�intervalle interquartile est l�intervalle [Q1;Q3].
C�est l�intervalle de variation de niveau 50%. Il contient 50%des observations. 25% des observations sont inférieures à Q1et 25% sont supérieures à Q3:
Exemple : Durée du trajet domicile - lycée
[Q1;Q3] = [9; 17; 22; 5] : 50% des élèves mettent entre 9,2et 22,5 minutes pour aller au lycée.
Représentation graphique : La boîte à moustaches (Box andwhiskers plot)
5 13,339,17 22,5 40
5 10 15 20 25 30 35 40