View
2
Download
0
Category
Preview:
DESCRIPTION
MATHS
Citation preview
1
11
Chapitre 3Chapitre 3Statistique descriptive à une variableStatistique descriptive à une variable
BachelorBachelor 2 2 –– Fondation 2iEFondation 2iE20102010-- 20112011
H. MoussaH. Moussa22
Les statistiques pourquoi ? Les statistiques pourquoi ?
• Multiplicité des champs d’application
•Informatique, robotique
•Climatologie, hydrologie, agriculture
•Economie, gestion
•Biologie, médecine
•Planification urbaine, ….
� Outil d’ aide à la prise de décision
33
Caractéristiques d’une étude statistique Caractéristiques d’une étude statistique
�� L’usage de la statistique ne garantit L’usage de la statistique ne garantit pas l’objectivitépas l’objectivité
�� La précision ne garantit pas la véritéLa précision ne garantit pas la vérité
�� L’interprétation doit primer sur le calculL’interprétation doit primer sur le calcul
44
Présentation et Caractérisation Présentation et Caractérisation de données de données
55
Populations et échantillons Populations et échantillons
Population d’individusPopulation d’individus
Échantillon
Individu
Caractère
QualitatifSexe, Qualité, secteur d’activités,…
QuantitatifÂge, débit de cours d’eau, cours boursier,..
66
Sondages et recensementsSondages et recensements
�� Recensement Recensement
enquête menée auprès de toute la population enquête menée auprès de toute la population
�� SondageSondage
enquête menée auprès d’un échantillonenquête menée auprès d’un échantillon
�� Échantillon représentatif (non biaisé) de la Échantillon représentatif (non biaisé) de la population population ciblecible
�� Quel échantillon choisir ?Quel échantillon choisir ?
2
EchantillonnageEchantillonnage
�� "Un échantillon est "Un échantillon est représentatif si représentatif si les unités qui le les unités qui le constituent ont été choisies par un procédé tels que tous constituent ont été choisies par un procédé tels que tous les membres de la population ont la même probabilité les membres de la population ont la même probabilité de faire partie de l'échantillon" (de faire partie de l'échantillon" (GhiglioneGhiglione & & MatalonMatalon, , 19981998).).
�� Echantillonnage Echantillonnage aléatoire: chaque élément de la aléatoire: chaque élément de la population a une chance égale d'être choisipopulation a une chance égale d'être choisi..
�� Echantillonnage Echantillonnage par par quotas (strates): quotas (strates): échantillonnage échantillonnage permettant de retrouver les mêmes proportions de permettant de retrouver les mêmes proportions de caractéristiques jugées essentielles dans l'échantillon caractéristiques jugées essentielles dans l'échantillon que dans la population.que dans la population.
77
L’EchantillonnageL’Echantillonnage
88
Choisir un bon échantillon : l’échantillon aléatoireChoisir un bon échantillon : l’échantillon aléatoire
À l'élection présidentielle américaine de 1936, la revue «Literacy Digest» a procédé à un sondage à partir des immatriculations et des listes des bottins téléphoniques. Elle a envoyé 10 millions de bulletins fictifs et a reçu 2,3 milllions de réponses. Ses prédictions : le candidat Landon : 55% des voix le candidat Roosevelt : 41% des voix.
La maison Gallup a prélevé un échantillon «aléatoire» de 6 500 personnes et a obtenu comme prédictions :
Landon : 35% et Roosevelt : 64%.
Les résultats de l'élection : Landon 37% et Roosevelt 61%.
Pourquoi la méthode d'échantillonnage de la revue «Literacy Digest » n'était-elle pas valable ?
99
L’observation statistiqueL’observation statistique
�� But : déterminer But : déterminer les caractéristiques de la population les caractéristiques de la population que l'on veut étudierque l'on veut étudier
�� Comment ? Par estimation Comment ? Par estimation ieie en prélevant un en prélevant un échantillon pour recueillir échantillon pour recueillir des données sur des données sur les les caractéristiques à étudier . Les d’une caractéristique caractéristiques à étudier . Les d’une caractéristique sont présentées sont présentées sous forme de sous forme de tableauxtableaux et de et de graphiquesgraphiques. .
�� statistique statistique descriptivedescriptive
NB :Caractéristique à étudier = Variable NB :Caractéristique à étudier = Variable statistique statistique => Variable aléatoire=> Variable aléatoire 1010
Variable statistiqueVariable statistique
Fiabilité d’un Fiabilité d’un échantillonnageéchantillonnage
�� Les résultats Les résultats obtenus lors obtenus lors de l'étude d'un échantillon de l'étude d'un échantillon sontsont--ils valables pour toute ils valables pour toute la population? la population?
�� statistiquestatistique inférentielleinférentielle ::�� Estimation (moyenne,
variance, écart-type)� Tests de validité � Intervalle de confiance
1111
STATISTIQUE DESCRIPTIVE STATISTIQUE DESCRIPTIVE UNIVARIÉEUNIVARIÉE
Partie 1 Partie 1
1212
3
1313
Collecte de donnéesCollecte de données
�� Exemple 1Exemple 1les 50 notes attribuées par un jury à un examenles 50 notes attribuées par un jury à un examen
1414
Variables discrètesVariables discrètes
•• la variable ne prend qu'un nombre fini de valeurs : la variable ne prend qu'un nombre fini de valeurs : les modalités (xles modalités (xii) )
Dans l’exemple 1, on regroupe les notes par ordre Dans l’exemple 1, on regroupe les notes par ordre
croissant : croissant :
x i
n i
Effectif de la modalité x i
1515
Variables continuesVariables continues
•• la variable prend ses valeurs dans un intervalle la variable prend ses valeurs dans un intervalle (classe ) (classe )
Exemple : Regroupement par classes des 50 notesExemple : Regroupement par classes des 50 notes
ClasseClasse
effectif totaleffectif total∑ ∑ ∑ ∑ ni =N
ni
[x i-1; x i [
1616
FréquenceFréquence
�� Fréquence de la mesure xFréquence de la mesure xii du caractèredu caractère
∑∑∑∑====
====
ii
ii
ii
n
nf
totaleffectif
xàattachéeffectiff
N
1717
Effectifs et Fréquences cumulésEffectifs et Fréquences cumulés
�� Effectifs cumulés (NEffectifs cumulés (Nii))
�� Fréquences cumulées (FFréquences cumulées (Fii))
ii
i
kki nnnnnN ++++++++++++++++======== −−−−
====∑∑∑∑ 12
11 ...
N
NfffffF iii
i
kki ====++++++++++++++++======== −−−−
====∑∑∑∑ 12
11 ...
1818
ExempleExemple
NotesNotes EffectifsEffectifs(n(nii))
Effectifs Effectifs cumuléscumulés(N(Nii) )
FréquencesFréquences(f(fii))
Fréquences Fréquences cumuléescumulées
(F(Fii))
[ 0; 5 [[ 0; 5 [ 1010
[ 5; 8 [[ 5; 8 [ 88
[ 8; 12 [[ 8; 12 [ 1212
[12; 15 [[12; 15 [ 1111
[15; [15; 21 21 [[ 99N = ∑ ∑ ∑ ∑ ni = Interprétation?
4
1919
Représentation graphiqueReprésentation graphique
�� Variables discrètesVariables discrètes�� Diagramme en bâtons ou par Diagramme en bâtons ou par secteurssecteurs
�� Variables continuesVariables continues�� HistogrammeHistogramme
�� Polygones et polygones cumulatifsPolygones et polygones cumulatifs
2020
Diagramme en bâtonsDiagramme en bâtons
�� Exemple 1Exemple 1Statistiques du Statistiques du personnel d’une personnel d’une PME suivant lePME suivant lenombre d’enfants nombre d’enfants à chargeà charge
Nom
bre
d’en
fant
s à
char
geE
ffect
ifs
Effe
ctifs
cu
mul
és
Fré
quen
ces
Fré
quen
ces
cum
ulée
s
11 1313 1313 0,430,43 0,430,43
22 99 2222 0,30,3 0,730,73
33 55 2727 0,170,17 0,900,90
44 22 2929 0,070,07 0,970,97
55 11 3030 0,030,03 11
TotalTotal 3030 -- 11 --
2121
Diagramme en bâtons ou en barresDiagramme en bâtons ou en barres
Nombre d’enfants par salarié
Nom
bre
de s
alar
iés
(effe
ctifs
)
2222
HistogrammeHistogramme
�� Exemple 2: Exemple 2: étude de la taille (en m) d’un groupe d’individusétude de la taille (en m) d’un groupe d’individus
Classes Classes Effectifs (ni)Effectifs (ni)[1,700[1,700 ; 1,720 [; 1,720 [ 33[1,720 ; 1,740 [[1,720 ; 1,740 [ 33[1,740 ; 1,760 [[1,740 ; 1,760 [ 55[1,760 ; 1,780 [[1,760 ; 1,780 [ 66[1,780 ; 1,800 [[1,780 ; 1,800 [ 44[1,800 ; 1,820 [[1,800 ; 1,820 [ 3 3
2424
même amplitude :
0,02 m
2323
HistogrammeHistogramme
1.71 1.73 1.771.75 1.79 1.81
8
6
4
2
0
30 %
20 %
10 %
0 %
nombre
pourcentage
taille
EFFECTIFS
FREQUENCES
TAILLE (m)
2424
Histogramme : influence des amplitudes des Histogramme : influence des amplitudes des classesclasses
�� Dans un histogramme, les effectifs et les Dans un histogramme, les effectifs et les fréquences sont traduits par les surfaces fréquences sont traduits par les surfaces des rectangles. On a la relation suivante :des rectangles. On a la relation suivante :
Base du rectangle = amplitudeBase du rectangle = amplitude
Hauteur du rectangle =Hauteur du rectangle = Effectif Effectif AmplitudeAmplitude
5
2525
Exercice : tracer l’histogrammeExercice : tracer l’histogramme
Classes Classes Effectifs (ni)Effectifs (ni)[47,50[47,50 ; 52,50[; 52,50[ 1010[52,50 ; 57,50[[52,50 ; 57,50[ 3030[57,50 ; 60,50[[57,50 ; 60,50[ 6060[60,50 ; 63,50[[60,50 ; 63,50[ 7272[63,50 ; 67,50[[63,50 ; 67,50[ 4040[67,50 ; 80,50[[67,50 ; 80,50[ 48 48
260260
2626
Polygone des effectifs ou des fréquencesPolygone des effectifs ou des fréquences
EFFECTIFS
FREQUENCES
2727
Le polygone des fréquences cumuléesLe polygone des fréquences cumulées
�� Pour la même série , tracer Pour la même série , tracer le polygone des le polygone des effectifs cumulés (ou des fréquences effectifs cumulés (ou des fréquences cumulées)cumulées)
��ordonnées = effectifs cumulés ou ordonnées = effectifs cumulés ou fréquences cumuléesfréquences cumulées
�� Abscisses = bornes supérieures des classesAbscisses = bornes supérieures des classes��Les points sont reliés par des segments de Les points sont reliés par des segments de
droitedroite
2828
Exemple 3: Notes de MathsExemple 3: Notes de Maths
ClassesEffectifs
n i
Effectifs cumulés
Ei
Fréquences fi en %
Fréquences cumulées
Fi en %[6 - 9[ 7 7 46,70 46,70
[9 - 11[ 5 12 33,30 80,00[11 - 14[ 3 15 20,00 100,00
Total 15 100,00
2929
Exemple : Polygone des effectifs Exemple : Polygone des effectifs cumuléscumulés
Répartition des notes obtenues en MATH
0
2
4
6
8
10
12
14
16
0 6 9 11 14 20
Classe des notes
Effe
ctifs
cum
ulés
3030
Caractérisation numérique des Caractérisation numérique des donnéesdonnées
�� Approche graphique : histogramme Approche graphique : histogramme et et polygone polygone donnent une vue donnent une vue globale et globale et détaillée de la distribution des individus détaillée de la distribution des individus dans un échantillon ou une populationdans un échantillon ou une population
�� Pour extraire Pour extraire les caractéristiques les caractéristiques essentielles des séries , on utilise des essentielles des séries , on utilise des grandeurs numériques grandeurs numériques
6
3131
Paramètres numériques Paramètres numériques de séries statistiquesde séries statistiques
�� MMesures esures de de tendance centrale tendance centrale ou de ou de positionposition�� modemode�� médiane médiane �� MoyenneMoyenne�� Médiale (voir Médiale (voir TD 3)TD 3)
�� MMesures esures de de dispersiondispersion�� étendue, étendue, �� ÉcartÉcart--typetype, variance, , variance, �� écart écart moyenmoyen�� Intervalle interquartileIntervalle interquartile
3232
Mesures de tendances Mesures de tendances centrale ou de positioncentrale ou de position
3333
Le modeLe mode
�� correspond à la variable qui présente l’effectif correspond à la variable qui présente l’effectif (ou la fréquence) le (ou la fréquence) le plus plus élevéélevé
�� représentation graphique : le représentation graphique : le sommet de la sommet de la distribution distribution
le mode est la valeur la plus fréquente
3434
ExemplesExemples
•distribution unimodale
taille
mode pourles femmes
mode pourles hommes
fréquence
fréquence
X
•distribution bimodale
Taille des individus dans une population adulte
3535
Avantages et inconvénients du modeAvantages et inconvénients du mode
�� Avantages Avantages -- Détermination graphique aisée Détermination graphique aisée
�� Inconvénients Inconvénients du modedu mode
-- Significatif Significatif uniquement si unique uniquement si unique -- Variable continue : le mode peut varier en Variable continue : le mode peut varier en
fonction du découpage des classes fonction du découpage des classes
45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 kg
3636
La médianeLa médiane
�� La médiane est un paramètre de position, La médiane est un paramètre de position, qui permet de couper la population étudiée qui permet de couper la population étudiée en deux groupes contenant le même en deux groupes contenant le même nombre d'individus. nombre d'individus.
�� �� 50 % de la population étudiée a une 50 % de la population étudiée a une modalité inférieure à la médiane et 50 % modalité inférieure à la médiane et 50 % une modalité supérieure à la médiane. une modalité supérieure à la médiane.
7
3737
Calcul de la médiane : cas Calcul de la médiane : cas discret (1/2)discret (1/2)
�� ExempleExemple 11
�� Poids d’un échantillon de 9 personnes Poids d’un échantillon de 9 personnes ::
�� La série est classée suivant l’ordre La série est classée suivant l’ordre croissant :croissant :
45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 kg
45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 (kg)
3838
Calcul de la médiane : cas Calcul de la médiane : cas discret (2/2)discret (2/2)
�� ExempleExemple 22
�� Si le nombre d’individus est pair, on prend la Si le nombre d’individus est pair, on prend la moyenne entre les deux valeurs centralesmoyenne entre les deux valeurs centrales ::
45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 kg
médiane =
56 + 62 2 = 59
3939
Médiane : variable continueMédiane : variable continue
• Colonne des fréquences cumuléesla médiane est ici la note correspondant à la fréquence cumulée 50% : F(Me) = 50%
•La médiane se trouve donc dans l'intervalle [9 ;11[
� On la détermine par interpolation linéaire
Exemple 3
ClassesEffectifs
n i
Effectifs cumulés
Ni
Fréquences fi en %
Fréquences cumulées
Fi en %[6 - 9[ 7 7 46,70 46,70[9 - 11[ 5 12 33,30 80,00
[11 - 14[ 3 15 20,00 100,00Total 15 100,00
4040
Interpolation LinéaireInterpolation Linéaire
4141
Détermination graphique de la médianeDétermination graphique de la médiane
Répartition des notes obtenues en MATH
0
20
40
60
80
100
0 6 9 11 14 20
Notes
Fré
que
nces
cu
mu
lées
en %
Me
50A B
C
M
M'
4242
Médiane : variable continueMédiane : variable continue
Par interpolation linéaire, f(c) est approchée par la valeur I. D’où d’après le théorème de Thalès
Soit Me ≈ 9,2
50 % des personnes ont eu une note inférieure à 9,2 et 50 % des individus ont eu plus de 9,2 .
467,080,0
467,050,0
911
9
−−=
−−Me
8
4343
Formule générale de la Formule générale de la médiane médiane (variable continue)(variable continue)
�� Par interpolation linéaire, on a :Par interpolation linéaire, on a :
(((( )))) (((( ))))(((( )))) (((( ))))ii
i
ii
i
xfxf
xfMef
xx
xMe
−−−−
−−−−====
−−−−
−−−−
++++++++ 11
4444
Détermination graphique de la médianeDétermination graphique de la médiane
�� Sur le polygone des fréquences cumuléesSur le polygone des fréquences cumuléesMe correspond à l’abscisse du point de Me correspond à l’abscisse du point de coordonnée ½ : F(Me) = 50%coordonnée ½ : F(Me) = 50%
�� Sur le polygone des effectifs cumulés, Me Sur le polygone des effectifs cumulés, Me correspond à l’abscisse du point de correspond à l’abscisse du point de coordonnée ½ coordonnée ½ N ( N: effectif N ( N: effectif total) total)
4545
Avantages et inconvénients Avantages et inconvénients de la médianede la médiane
�� Avantages Avantages -- Calcul aisé Calcul aisé -- Donne une idée satisfaisante de la tendance centrale Donne une idée satisfaisante de la tendance centrale
-- Robuste : elle n’est pas influencée par les valeurs aberrantes de Robuste : elle n’est pas influencée par les valeurs aberrantes de la série.la série.
-- Minimise la somme des écarts moyensMinimise la somme des écarts moyens
�� Inconvénients Inconvénients -- Pas toujours définie dans le cas d’une série discrète.Pas toujours définie dans le cas d’une série discrète.-- Exemple : 12 n’est pas la médiane de la série :Exemple : 12 n’est pas la médiane de la série :
6 7 7 8 10 11 6 7 7 8 10 11 12 1212 1212 14 17 14 17 1717 1717
4646
La La moyenne arithmétiquemoyenne arithmétique
n1, n2, n3, .........,nN sont les effectifs correspondants aux • modalités x1, x2, x3, .......,xN., si la série est discrète , • ou centres de chaque classe, si la série est continue .
2ème formule
4747
La moyenne : série discrèteLa moyenne : série discrète
�� Calculer la moyenne de la série suivante :Calculer la moyenne de la série suivante :
4848
La moyenne : série continueLa moyenne : série continue
�� Calculer la moyenne de la série suivante :Calculer la moyenne de la série suivante :
9
4949
Avantages et inconvénients Avantages et inconvénients de la moyennede la moyenne
�� Avantages Avantages -- Meilleure caractéristique de position : elle prend en Meilleure caractéristique de position : elle prend en
compte toutes les valeurs d’une sériecompte toutes les valeurs d’une série-- Elle minimise la somme des écarts quadratiques Elle minimise la somme des écarts quadratiques
�� Inconvénients Inconvénients -- Moins robuste que la médiane : elle Moins robuste que la médiane : elle est influencée par est influencée par
les valeurs aberrantes ( exagérément faibles ou les valeurs aberrantes ( exagérément faibles ou exagérément élevées) de la série.exagérément élevées) de la série.
45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 kg
5050
Les caractéristiques de Les caractéristiques de dispersiondispersion
5151
L’ étendue d’une distribution statistiqueL’ étendue d’une distribution statistique
�� L’étendue est la différence entre la plus grande L’étendue est la différence entre la plus grande valeur et la plus petite valeur et la plus petite valeurvaleur de la série :de la série :
�� Exemple Exemple (diapo n(diapo n°°48), 48), le calcul exact donnele calcul exact donne ::
20 20 -- 0 = 200 = 20
�� Un calcul approché ( centre des classes) Un calcul approché ( centre des classes)
17.5 17.5 -- 2.5 = 152.5 = 15
5252
L‘intervalle L‘intervalle interquartileinterquartile
�� Le premier quartile (QLe premier quartile (Q11) est la valeur telle que 25 ) est la valeur telle que 25 % des valeurs prises par la variable lui soit % des valeurs prises par la variable lui soit inférieures et 75% lui soit supérieures.inférieures et 75% lui soit supérieures.
�� Le troisième quartile (QLe troisième quartile (Q33) est la valeur telle que ) est la valeur telle que 75 % des valeurs prises par la variable lui soit 75 % des valeurs prises par la variable lui soit inférieures et 25% lui soit supérieures.inférieures et 25% lui soit supérieures.
�� Remarque : deuxième quartile = médiane. Les Remarque : deuxième quartile = médiane. Les quartiles sont des caractéristiques de quartiles sont des caractéristiques de positionposition
�� Intervalle interquartile : QIntervalle interquartile : Q3 3 -- QQ11
5353
Variance et écart type Variance et écart type
V: varianceV: variance
L'écart L'écart -- type est le nombre : .type est le nombre : .
Autre formule :Autre formule :
5454
ExempleExemple
Compléter le tableau suivant :Compléter le tableau suivant :
10
Compléments de TD NCompléments de TD N°°33
Concentration Concentration –– indice de Giniindice de Gini--MédialeMédiale
Courbe de concentrationCourbe de concentration
�� La courbe de concentration, ou courbe de La courbe de concentration, ou courbe de Lorenz, joint, par des segments de droite, les Lorenz, joint, par des segments de droite, les points ayant, pour :points ayant, pour :
-- abscisses : les fréquences cumulées (en %)abscisses : les fréquences cumulées (en %)
-- ordonnées : le rapport des xordonnées : le rapport des xii nnii cumulés sur la cumulés sur la somme totale des somme totale des xxkk nnkk ( en %)( en %)
Exemple Exemple iièmeème ordonnée = ordonnée = xx11 nn11 + … + x+ … + xii nnii
somme de tous les (somme de tous les (xxkk nnkk ))
Indice de GiniIndice de Gini
�� L'indice de Gini L'indice de Gini G est G est le le double de la surface double de la surface SScomprise entre la diagonale comprise entre la diagonale et la courbe de et la courbe de Lorenz : Lorenz :
G G = 2 S = 2 S
�� S = ½ [S = ½ [1 1 –– ∑∑ffii ((qqii + q+ qii--11)])]
Fréquences cumulées : Fi
Pou
rcen
tage
cum
ulé
du
cara
ctèr
e (q
i)
fi = Fi – Fi-1
MédialeMédiale
�� Valeur partageant en 2 fractions de poids Valeur partageant en 2 fractions de poids égale la masse cumulée des xégale la masse cumulée des xii nnii
�� Correspond à l’abscisse ( Correspond à l’abscisse ( lue sur l’axe des classeslue sur l’axe des classes ) du point ) du point d’ordonnée 50% , pris sur la courbe de concentrationd’ordonnée 50% , pris sur la courbe de concentration
�� détermination par interpolation linéairedétermination par interpolation linéaire
Recommended