Upload
lianne-raynaud
View
106
Download
3
Embed Size (px)
Citation preview
Iheb Bougmiza Les statistiques descriptives 1
Faculté de médecine de Sousse
Module : BiostatistiquePCEM2 2011-2012
Les statistiques descriptives
Iheb Bougmiza
03 novembre 2011
Iheb Bougmiza Les statistiques descriptives 2
Iheb Bougmiza Les statistiques descriptives 3
Place des statistiques…
Problème Recherche
Question de recherche
Type d’étude
Population cible
Instr. mesure
Planifier Analyse données
ÉchéancierBudget
Éthique
Iheb Bougmiza Les statistiques descriptives 4
Approches
Faire des exercices +++
« we learn by doing »
« j’entends et j’oublie. Je vois et je retiens, je fais et je comprend »
Le moins de mathématique possible et le plus orienté possible vers la résolution de problèmes concrets
Iheb Bougmiza Les statistiques descriptives 5
Les objectifs
A la fin du cours, l’étudiant sera capable de
1. Définir la notion de variable
2. Identifier les types de variables
3. Présenter les données par des tableaux de fréquence
4. Présenter les données par des graphiques
5. Décrire les paramètres de tendance centrale
6. Décrire les paramètres de dispersion
Iheb Bougmiza Les statistiques descriptives 6
Au menu ….
I) la notion de variables et de mesure
1. Définitions
2. Types de variables
II) La présentation des données
1. Méthode tabulaire
2. Méthode graphique
III) Les paramètres de réduction
1.Les paramètres de tendance centrale
2.Les paramètres de dispersion
Iheb Bougmiza Les statistiques descriptives 7
La statistique en médecine…
Outil pour répondre à plusieurs questions
— Quelle est la valeur normale de la glycémie ?
— Quel est le risque de complication d’une maladie X ?
— Quel est le risque d’un traitement ?
— Le traitement A est-il plus efficace que le traitement B ?
Iheb Bougmiza Les statistiques descriptives 8
La variabilité est la règle (1)…
Iheb Bougmiza Les statistiques descriptives 9
La variabilité est la règle (2)…
La variabilité totale = variabilité expérimentale et variabilité biologique.
Variabilité biologique = variabilité intra-individuelle + variabilité inter-individuelle
La décision dans l’incertain (diagnostic, traitement, pronostic..)
Iheb Bougmiza Les statistiques descriptives 10
Une petite réflexion…
8% des accidents mortels sur autoroute sont directement provoqués par des conducteurs ayant emprunté l’autoroute en sens inverseCela signifie que 92% des accidents mortels sont imputables à des conducteurs ayant roulé en bon sens
Conclusion : il est statistiquement moins dangereux de prendre l’autoroute en sens inverse !!!!!!
Iheb Bougmiza Les statistiques descriptives 11
I) la notion de variables et de mesure1. Définitions
Une variable est une propriété commune aux individus de la population étudiée (taille, poids, glycémie, genre…) et qui varie en fonction du temps, du lieu et de l’individu
Les modalités d'une variable sont les différentes valeurs que celle-ci peut prendre — variable situation familiale : célibataire, marié, veuf..— variable genre: homme, femme.— variable prénom : El Fehem, Mohamed, Salah…
Iheb Bougmiza Les statistiques descriptives 12
I) la notion de variables et de mesure2. Types de variables
Iheb Bougmiza Les statistiques descriptives 13
Variable quantitative :les modalités s’expriment par des valeurs numériques— Variable continue :prend un nombre infini de valeurs à l’intérieur d’un intervalle
donné (nombre réel) Taille, poids, glycémie…
— Variable discrète : prend un nombre fini de valeur à l’intérieur d’un intervalle donné (nombre entier) Nbr de lits dans un hôpital, nbr d’enfants dans une famille
On transforme parfois une variable continue en une variable discrète = Discrétisation = groupement par classe (plus simple mais perte de l’information)
I) la notion de variables et de mesure2. Types de variables
Iheb Bougmiza Les statistiques descriptives 14
Variable qualitative : les modalités s’expriment par des qualités (genre, système ABO, état civil...)— ordinale : s’exprime en classes qui peut être ordonnée selon une
échelle de valeurs (degré de satisfaction, niveau d’étude, NSE, taille vestimentaire)
— Nominales : les classes ne peuvent pas être hiérarchisées. L’ordre de précision est arbitraire (ABO, état civile, religion…)
— Binaires ne prennent que 2 valeurs (H/F, malade/sain…) appelées aussi: Variables dichotomiques, Variables booléennes: vrai ou faux ou Variables de Bernouilli (0/1)
I) la notion de variables et de mesure2. Types de variables (résumé)
Iheb Bougmiza Les statistiques descriptives 15
Iheb Bougmiza Les statistiques descriptives 16
QUALITATIVE QUANTITATIVE
continue
discrète
temporelle
ordinale
nominale
binaire
I) la notion de variables et de mesure2. Types de variables (résumé)
Iheb Bougmiza Les statistiques descriptives 17
Applications : indiquer pour chaque variable l’échelle de mesure appropriée Variables Échelle
Age de l’enfant en mois
Gnre de l’enfant : G/F
Poids de l’enfant en gr
Origine : Monastir, Sousse, Mahdia
État vaccinal : non vacc/incomplet/complet
Profession père : Agricult/Comercant/autres
……
…..
…..
…..
……
……
Indiquez le type et l’échelle de mesure
Iheb Bougmiza Les statistiques descriptives 18
Applications : indiquer pour chaque variable l’échelle de mesure appropriée
Variables Type et échelle
Date de naissance
Age en classe
Statut tabagique (Fumeur/Non Fumeur)
Couleur des yeux
Le nombre de dents
Nationalité
……
…..
…..
…..
……
……
Indiquez le type et l’échelle de mesure
II) La présentation des données brutes
Iheb Bougmiza Les statistiques descriptives 19
Comment les structurer et les interpréter ?
Groupes Age (années)
A 32 ; 35 ; 40 ; 42 ; 43 ; 43 ; 49 ; 50 ; 55 ; 58
B22 ; 26 ; 27 ; 27 ; 29 ; 30 ; 31 ; 31 ; 33 34 36 ; 36 ; 38 ; 39 ; 39 ; 42 ; 44 ; 46 ; 51 ; 53
C20 ; 20 ; 21 ; 22 ; 23 ; 24 ; 24 ; 24 ; 26 ; 28 ; 28 ; 28 ; 29 ; 29 ; 30 ; 32 ; 33 ; 33 ; 35 38 ; 41 ; 43 ; 45 ; 45
Iheb Bougmiza Les statistiques descriptives 20
Il faut présenter l’effectif absolu (faire un tri à plat) Il faut présenter la proportion d’individus dans une modalité par rapport
au total = fréquence relative qui peut s’exprimer en pourcentages ou non
Situation familiale
Effectif(ou fréq. absolue)
Fréquence relative
Fréquence relative (%)
Marié 390 0,46 46%
célibataire 463 0,54 54%
Total 853 1,00 100%
C’est la même chose !
II) La présentation des données 1. Méthode tabulaire
Iheb Bougmiza Les statistiques descriptives 21
Il faut faire attention aux données manquantes +++
Elles peuvent êtres liées : — Au refus de réponse— A des mesures non pratiquées ou oublis de saisie
Tenter de récupérer le maximum de données manquantes
En tenir compte dans le tableau de fréquences
II) La présentation des données 1. Méthode tabulaire
Méthode visuelle pour saisir rapidement la forme d’une distribution
Le choix du graphique est déterminé par l’échelle de mesure de la variable
Les Variables qualitatives :— Diagramme en bâtons— Diagramme en secteur
Les Variables quantitatives— Histogrammes— polygones de fréquence
Iheb Bougmiza Les statistiques descriptives 22
II) La présentation des données 2. présentation graphique
Iheb Bougmiza Les statistiques descriptives 23
II) La présentation des données 2. Méthode graphique (diagramme en bâtons)
Iheb Bougmiza Les statistiques descriptives 24
II) La présentation des données 2. Méthode graphique (diagramme en secteurs)
Iheb Bougmiza Les statistiques descriptives 25
Année de 1ère
inscription
Effectif
1998 8
1999 27
2000 42
2001 88
2002 115
2003 192
2004 381
Année de 1ère inscription
0
100
200
300
400
500
1998 1999 2000 2001 2002 2003 2004
II) La présentation des données 2. Méthode graphique (Polygone de fréquences)
Iheb Bougmiza Les statistiques descriptives 26
672N =
AGE
100
80
60
40
20
0
-20
Minimum
Maximum
Médiane
Q1
Q3
II) La présentation des données 2. Méthode graphique (Boite à moustaches)
Ce sont des valeurs numériques qui résument les mesures d’une variable quantitative
Paramètres de tendance centrale
— Des mesures qui localisent « le centre » d’une distribution
Paramètres de dispersion
— Renseignent sur l’étalement de la série autour de la mesure de tendance centrale
Iheb Bougmiza Les statistiques descriptives 27
III) Les paramètres de réduction1. Définition et types
Iheb Bougmiza Les statistiques descriptives 28
Fréquences
TendancesTendancescentralescentrales DispersionDispersion
MOYENNE
MODE
MEDIANE
ETENDUE ECART-TYPE
III) Les paramètres de réduction1. Définition et types
Iheb Bougmiza Les statistiques descriptives 29
III) Les paramètres de réduction2. Les paramètres de tendance centrale
Où situeriez-vous le "centre" ? A la valeur 6, qui est la plus fréquente ? ou bien plus à droite, par exemple de façon à partager les observations en paquets égaux ? Si oui, où, exactement ? 7, 8, 9 ?
Iheb Bougmiza Les statistiques descriptives 30
Mesure la plus connue
Division de la somme de toutes les valeurs de l'échantillon par sa taille (n).
Le point auquel il faudrait placer un support pour que la "planche" reste en équilibre.
N
XXXm n
...21
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Moyenne)
Iheb Bougmiza Les statistiques descriptives 31
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Moyenne)
Iheb Bougmiza Les statistiques descriptives 32
On compare deux classes de 10 élèves
A11111211121113111020
Moy12,2
B1313141312141315120
Moy11,9
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Moyenne)
Classe A est meille
ure que la
classe B ?????
Iheb Bougmiza Les statistiques descriptives 33
Inconvénient de la moyenne +++ Sensibilité aux valeurs extrêmes
— erreurs
— cas particuliers
Données51 danseuse 152 danseuse 245 danseuse 350 danseuse 451 danseuse 551 danseuse 653 danseuse 749 danseuse 8
235 sumotoriMoyenne Formule
70,78 =MOYENNE(A2:A10)
les danseuses ont de quoi se faire du
sushi
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Moyenne)
Iheb Bougmiza Les statistiques descriptives 34
Oops !!!!!!!
A11111211121113111020
Moy11,3
B1313141312141315120
Moy13,2
Existe-t-il un paramètre meille
ur
que la moyenne pour synthétiser
l’information ?
Valeur pour laquelle il y a autant d'observations à gauche qu'à droite.
La meilleure mesure de TC pour les variables ordinales
Pour la calculer :— on classe les observations par ordre croissant— on cherche quelle est la valeur qui divise les observations en deux
groupes égaux ? Si le nombre d'observations est pair: la médiane est la
moyenne entre les observations n/2 et n/2 + 1 Si le nombre d'observations est impair: la médiane est la
valeur (n+1)/2. Iheb Bougmiza Les statistiques descriptives 35
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Médiane)
Iheb Bougmiza Les statistiques descriptives 36
50%50% 50%50%
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Médiane)
Iheb Bougmiza Les statistiques descriptives 37
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Médiane)
Iheb Bougmiza Les statistiques descriptives 38
La médiane se situe entre174 et 176 cm.
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Médiane)
Iheb Bougmiza Les statistiques descriptives 39
A11111211121113111020
Moy12,2Med11,0
B1313141312141315120
Moy11,9Med13,0
III) Les paramètres de réduction2. Les paramètres de tendance centrale (la Médiane)
Iheb Bougmiza Les statistiques descriptives 40
La valeur la plus fréquente dans un échantillon. Si l'échantillon est divisé en classes, la classe modale constitue la classe la plus fréquente.
Distributions bimodales, ou multimodales
le mode est 6
III) Les paramètres de réduction2. Les paramètres de tendance centrale (le mode)
Iheb Bougmiza Les statistiques descriptives 41
Exemple : 156, 178, 189, 178, 152, 1, 34 : le mode = ??
III) Les paramètres de réduction2. Les paramètres de tendance centrale (le mode)
Iheb Bougmiza Les statistiques descriptives 42
Quartiles : 3 valeurs qui partagent la distribution en 4— 1er quartile : divise d’un coté les 25 % des valeurs
les plus faibles et de l’autre coté les 75 % restants— 2ème quartile = Médiane
— 3ème quartile : divise l’échantillon en ¾ - ¼
Déciles (9 valeurs : 10 %, 20 % ……., 90 %)
Percentiles (1%, 2%.........99%)
III) Les paramètres de réduction2. Les paramètres de tendance centrale (les quartiles, déciles et percentiles)
Iheb Bougmiza Les statistiques descriptives 43
1 – On range en premier lieu les données par ordre croissant
Ordre 1 2 3 4 5 6 7 8 9 10
Valeur 105 112 122 124 130 134 137 139 147 160
Me2 – On calcule la position de Q1 et Q3
P (q1) = n +1/ 4 = 2,75 P (q3) = (n +1/ 4) x 3 = 8,25
q1 = entre 112 et 122 mm q3 = entre 139 et 147 mm
130, 124, 147, 160, 139, 105, 112, 137, 122, 134
III) Les paramètres de réduction2. Les paramètres de tendance centrale (les quartiles, déciles et percentiles)
Problème :— moyenne identique— étalement différent des
données +++
Nécessité de mesurer la dispersion des données
Iheb Bougmiza Les statistiques descriptives 44
III) Les paramètres de réduction2. Les paramètres de dispersion
Iheb Bougmiza Les statistiques descriptives 45
Mesure l'écart entre la valeur la plus élevée et la plus petite
— Exemple : 220 cm - 171 cm = 49 cm.
Etendue (Et.) = Valeur maximale (Vmax) -Valeur minimale (Vmin)
III) Les paramètres de réduction2. Les paramètres de dispersion (l’étendue)
Iheb Bougmiza Les statistiques descriptives 46
Mesure l'écart entre la valeur la plus élevée et la plus petite
— Exemple : 220 cm - 171 cm = 49 cm.
Etendue (Et.) = Valeur maximale (Vmax) -Valeur minimale (Vmin)
III) Les paramètres de réduction2. Les paramètres de dispersion (l’étendue)
Inconvénient : l’étendue ne tie
nt
pas compte de l’ensemble des
valeurs
Iheb Bougmiza Les statistiques descriptives 47
Moyenne des carrés des écarts à la moyenne
La variance n’est pas dans la même unité que les données— m m2
— kg kg2
X X-M (X-M)2
1 -5,3 28,2
3 -3,3 10,9
3 -3,3 10,9
4 -2,3 5,3
5 -1,3 1,7
5 -1,3 1,7
6 -0,3 0,1
7 0,7 0,5
8 1,7 2,9
9 2,7 7,2
10 3,7 13,6
10 3,7 13,6
11 4,7 22,0
Moyenne 0,0 9,1N
x
22 )(
III) Les paramètres de réduction2. Les paramètres de dispersion (la variance)
Iheb Bougmiza Les statistiques descriptives 48
Caractérise la dispersion des valeurs de part et d’autre de la moyenne.
Plus l'écart-type est grand, plus la dispersion est grande également.
racine carrée de la variance même unité que les données Formule :
N
x
2)(
III) Les paramètres de réduction2. Les paramètres de dispersion (l’écart-type)
Iheb Bougmiza Les statistiques descriptives 49
Relation entre les trois indices (1)
La relation dépend de la forme la distribution Distribution symétrique (ou à peu près) : mode =
médiane = moyenne
So ?
Iheb Bougmiza Les statistiques descriptives 50
Relation entre les trois indices (2) Distribution asymétrique
— Etalée à gauche : mode < médiane <moyenne
Iiiik !!!
http://www.faecesoftheworld.co.uk/
Iheb Bougmiza Les statistiques descriptives 51
Relation entre les trois indices (3) Distribution asymétrique
— Etalée à droite : mode > médiane > moyenne
http://www.faecesoftheworld.co.uk/
Yuuuk !!!
Notions essentielles…
La variabilité est une caractéristique de toutes les mesures
Pour la description d’une population— Méthode tabulaire— Méthode graphique (dépend de la nature des variables)— Méthode numérique : il est indispensable de définir des
indices synthétiques Les paramètres de tendance centrale Les paramètres de dispersion
Iheb Bougmiza Les statistiques descriptives 52
Iheb Bougmiza Les statistiques descriptives 53