1. Mondher Abrougui Biostatistique I ISEFC - 2008 1 INSTITUT
SUPERIEUR DE LEDUCATION ET DE LA FORMATION CONTINUE Dpartement
Biologie Gologie SN101/1 " BIOSTATISTIQUE - 1 " Cours &
Activits : Mondher Abrougui Anne Universitaire - 2008
2. Mondher Abrougui Biostatistique I ISEFC - 2008 2 PLAN DU
COURS - BIOSTATISTIQUE BIOSTATISTIQUE 1 = L1 : Statistiques
descriptives une ou deux variables BIOSTATISTIQUE 2 = L2 :
Statistiques infrentielles une ou deux variables BIOSTATISTIQUE 3 =
L3 : Statistiques multifactorielles descriptive et infrentielles
BIOSTATISTIQUE 1 STATISTIQUES DESCRIPTIVES UNE OU DEUX VARIABLES
CHAPITRE I. ELEMENTS DE STATISTIQUE ET DE BIOSTATISTIQUE 1.
INTRODUCTION A LA STATISTIQUE 2. OBJECTIF DES MODULES DE
BIOSTATIQUE 2.1. Le module biostatistique I : Statistiques
descriptives 2.2. Le module biostatistique II : Statistiques
infrentielles 2.3. Le module biostatistique III : Statistiques
multifactorielles descriptive et infrentielle 3. DEMARCHE GENERALE
EN STATISTIQUE 3.1. Lidentification du problme 3.2. Le recueil des
donnes 3.3. L'analyse et l'interprtation des donnes 4. NOTIONS DE
BASE ET TERMINOLOGIE 4.1. Ensemble / Population / Echantillon /
Elment / Individu 4.2. Recensement / Echantillonnage 4.2.1. Le
recensement 4.2.2. Lchantillonnage 4.3. Caractre / Modalit /
Variable: 4.3.1. Le caractre 4.3.2. Modalit / Mesure 4.3.3. Tableau
lmentaire 4.3.4. La variable statistique 4.3.5. Nature des
variables statistiques et chelles de mesures 4.3.5.1. Variable
quantitatif. 4.3.5.2. Variable qualitative 4.3.5.3. Exemple
dillustration des principaux types de descripteurs 4.3.6. Variables
dpendantes et indpendantes 4.3.6.1. Les variables indpendantes
4.3.6.2. Les variables dpendantes 4.3.7. La variabilit et
l'incertain en biologie 4.3.7.1 La variabilit biologique 4.3.7.2 La
variabilit mtrologique 4.3.8. Proprits des variables 4.4. Infrence
et risque statistique 4.5. Une dfinition plus explicite de la
biostatistique : 4.6. Dnomination mathmatique :
3. Mondher Abrougui Biostatistique I ISEFC - 2008 3 5.
REPRESENTATION DES DONNEES 5.1. Tableaux statistiques 5.2.
Reprsentations graphiques et statistique descriptive 5.2.1.
Lhistogramme 5.2.1.1. Lhistogramme : paramtres de description (mode
et symtrie) 5.2.2. Barre moustache - Box Plot 6. STATISTIQUES
DESCRIPTIVES UNIVARIEES 6.1. Paramtre de position et valeurs
centrales 6.1.1. Le mode, ou valeur dominante 6.1.2. La moyenne
6.1.2. 1. Calcul de la moyenne par changement dorigine et dunit.
6.1.2.2. Autres indicateurs de moyenne : 6.1.3. La mdiane et la
classe mdiane 6.1.3.1. Dfinition gnrale : 6.1.3.2. Mdiane, pour les
donnes ranges 6.1.3.3. Mdiane, pour les donnes condenses 6.1.3.4.
Mdiane, pour les donnes rparties par classes 6.1.4 Quantiles :
Mesures de position statistique en rfrence la mdiane 6.1.4.1.
Dfinition des quantiles 6.1.4.2. Les quartiles 6.1.4.3. Les dciles
6.1.4.4. Les centiles 6.1.4.5. Calculs des quantiles 6.1.4.5.1.
Dtermination des valeurs de la variable partir dun rang centile
donnes. 6.1.4.5.2. Dtermination du rang centile partir dune valeur
donne de la variable. 6.1.5. Moyenne et mdiane 6.1.6. Avantages et
inconvnients des diffrentes valeurs centrales : 6.2. Paramtre de
dispersion 6.2.1. Les paramtres de dispersion absolue 6.2.1.1
Ltendue de la variation 6.2.1.2. Quartile et intervalle
interquartile : Mesures de la dispersion statistique en rfrence la
mdiane 6.2.1.2.1. L'intervalle interquartile 6.2.1.2.2.
L'intervalle inter-dcile 6.2.1.3. Mesures de la dispersion
statistique en utilisant lcart semi-interquartile 6.2.1.4. Mesures
de la dispersion statistique en rfrence la moyenne arithmtique
6.2.1.4.1. Ecart absolu moyen ou Ecart Moyen Absolu EMA 6.2.1.2.2.
Variance et cart-type : 6.2.2. Les paramtres de dispersion relative
6.3 Exercices dApplications avec explicitation et utilisation du
logiciel Excel 6.3. Paramtres de forme 6.3.1. Coefficient dasymtrie
et de drive 6.3.1.1. Coefficient dasymtrie 6.3.1.2. Coefficient de
drive 6.3.2. Coefficient daplatissement PARTIE EXERCICES CHAPITRE
II
4. Mondher Abrougui Biostatistique I ISEFC - 2008 4 ETUDE DE
DEUX VARIABLES STATISTIQUES - SERIE STATISTIQUE DOUBLE - 1.
PRESENTATION DUNE SERIE A DEUX VARIABLES 2. GENERALISATION DES
REPRESENTATIONS 3. CALCUL DES FREQUENCES DUNE STATISTIQUE A DEUX
VARIABLES 3.1. Frquences relatives partielles 4. CALCUL DES
MOYENNES MARGINALES DUNE STATISTIQUE A DEUX VARIABLES 5. COVARIANCE
6. COEFFICIENT DE CORRELATION 7. DROITE DE REGRESSION OU
DAJUSTEMENT 7.1. Importance de ltude de corrlation entre 2
variables statistiques 7.2. Droite de rgression linaire CHAPITRE
III. INFORMATIQUE ET STATISTIQUE : Pr-requis, mise niveau et
apprentissages 1. INFORMATIQUE : PRE-REQUIS ET MISE A NIVEAU 1.1.
Matriels et interfaces utiles 1.2 Pr requis 1.3 Mise niveau
thorique et pratique 2. APPRENTISSAGES INFORMATIQUE ORIENTE
STATISTIQUE 2.1. Gestion de donnes numrique et de tableau sur Word
et Excel 2.2. Gestion de calculs et de formules statistique dans
Excel 2.3. Gestion et laboration de calcul statistique sur Excel
2.4. Gestion et laboration de reprsentations graphiques sur Excel
2.5. Utilisation et insertion de Macro dans Excel 2.6.
Reprsentation de sries et calculs statistique (tableau et
graphique) 2.7. Ajustement linaire de sries chronologiques avec et
sans variations saisonnires. 2.8. Prsentation et principe de
logiciel danalyse de donne statistique 2.9. Utilisation Excel et
prsentation d XLSTAT comme outil pour statistique descriptive
APPLICATIONS ET TRAVAUX DIRIGES EXERCICES APPLIQUES : STATISTIQUES
ET INFORMATIQUE PLANCHE DACTIVITES QUELQUES STATISTICIENS LEXIQUE
FRANAIS / ANGLAIS BIBLIOGRAPHIE
5. Mondher Abrougui Biostatistique I ISEFC - 2008 5 CHAPITRE I.
ELEMENTS DE STATISTIQUE ET DE BIOSTATISTIQUE 1. INTRODUCTION A LA
STATISTIQUE Statistique : le terme statistique dsigne la fois : 1)
l'ensemble des donnes numriques concernant une catgorie de faits
(sens trs ancien). Il s'agit de l'expression dans sa signification
la plus usuelle. 2) l'ensemble des mthodes mathmatiques permettant
: a) de rsumer quantitativement l'information recueillie sur un
ensemble d'lments au moyen d'une investigation exhaustive. C'est la
statistique descriptive, qui fait l'objet de ce cours. b) de
gnraliser de grands ensembles d'lments les conclusions tires des
rsultats obtenus avec des ensembles beaucoup plus restreints appels
chantillons. C'est la statistique infrentielle ou probabiliste, qui
sera brivement explicite dans ce module et plus explicite dans les
modules de Biostatistique II et III. Les statistiques ont pour
origine le besoin des tats pour grer rationnellement leurs
ressources. Pour cela, il tait ncessaire aprs collecte
d'informations (ncessit de techniques de quantification ;
production de donnes nombreuses, organises en tableaux) de disposer
de mthodes permettant de dfinir les variations, les volutions, les
ressemblances ou les diffrences entre rgions, entre annes, entre
catgories. Exemple de problmes : Dnombrement des populations
humaines : recensements Dnombrement des terres et leur rpartition.
Calcul et rpartition des impts. Ces techniques se sont mises en
place grce au dveloppement du calcul des probabilits au 18me sicle;
puis, au 19me sicle grce lmergence des mthodes statistiques. Il
s'agissait au dpart de l'tude mthodique des faits sociaux par des
procds numriques : classements, dnombrements, inventaires chiffrs,
recensements, destins renseigner et aider les gouvernements dans
leurs prises de dcisions. partir de 1843, la statistique dsigne
l'ensemble de techniques d'interprtation mathmatique appliques des
phnomnes pour lesquels une tude exhaustive de tous les facteurs est
impossible, cause de leur grand nombre ou de leur complexit. Les
statistiques s'appuient sur les probabilits et sur la loi des
grands nombres. La statistique vise dcrire, rsumer et interprter
des phnomnes dont le caractre essentiel est la variabilit. Elle
fournit de la manire la plus rigoureuse possible des lments
d'apprciation utiles l'explication ou la prvision de ces phnomnes,
mais elle n'explique ni ne prvoit aucun d'entre eux (Vigneron
1997). La mthode statistique permet galement d'prouver la validit
de rsultats (obtenus, mesurs, collects) en fonction mme de leur
variabilit, dans les domaines o les variations sont la rgle,
c'est--dire les domaines de la biologie sensu lato, dans celui des
sciences de l'environnement galement. La mthode statistique fournit
de ce fait tous les personnels confronts l'interprtation de
rsultats d'observation ou d'exprimentation, un outil
d'interprtation adapt aux conditions particulires de leur domaine
d'activit.
6. Mondher Abrougui Biostatistique I ISEFC - 2008 6 L'attrait
des chiffres tient dans la croyance que la mensuration est le
critre primordial de toute tude scientifique (Francis Galton
(1822-1911)). Cette fascination rpond l'ide que ce que nous voyons
et mesurons dans le monde n'est que la reprsentation superficielle
et imparfaite d'une ralit cache. Il faut se mfier de cette tendance
qui veut que les mesures abstraites rsumant de grands tableaux de
donnes doivent exprimer ncessairement quelque chose de plus rel et
de plus fondamental que les donnes elles-mmes. Tout statisticien
doit faire un effort pour contrebalancer cette tendance. C'est
pourquoi toute interprtation statistique doit prciser clairement
quelles donnes (population, chantillon), et quelles hypothses ont t
utilises pour aboutir un certain type de conclusion. 2. OBJECTIF
DES MODULES DE BIOSTATIQUE Lenseignement de la biostatistique est
subdivis en 3 modules : Biostatistique I, Biostatistique II et
Biostatistique III. Ces trois modules complmentaires ont pour
objectifs de permettre aux tudiants de dvelopper des comptences qui
leur permettront : - dacqurir et de parfaire la connaissance des
principales notions relatives lutilisation des mthodes
statistiques, - de rsoudre des questions empiriques par
lutilisation des tests statistiques, - de matriser et de complter
les notions de bases des statistiques en vue de les appliquer des
exemples spcifiques aux sciences biologiques, prises dans leur sens
gnral (biologie, mdecine, pharmacie, cologie) - dappliquer ces
notions et mthodes sur des donnes biologiques partir de logiciels
simples - dutiliser des logiciels de statistique et dapprendre la
lecture de leurs rsultats. Les statistiques constituent, en
biologie, l'outil permettant de rpondre de nombreuses questions qui
se posent en permanence aux biologistes, en voici, titre dexemples
quelques unes : - Quelle est la valeur normale d'une grandeur
biologique, taille, poids, glycmie ? - Quelle est la fiabilit d'une
mesure ou dune observation ? - Quel est le risque ou lavantage dun
traitement? - Les conditions exprimentales A sont-elles plus
efficaces que celles des conditions de B ? - Les effets de la
variable A sont-ils les mmes ou diffrent-ils des effets de la
variable B ? Ces cours visent dvelopper la comprhension
conceptuelle des biostatistiques, travers lapplication, les
suppositions sous-jacentes, et linterprtation danalyses
statistiques prsentes avec un minimum de formules et avec
lassistance dinterface et de logiciels informatiques. 2.1. Le
module biostatistique I : Statistiques descriptives Ce module est
une initiation aux notions fondamentales de statistique descriptive
(non paramtrique et paramtrique). Il explicitera les procds
classiques de la statistique une dimension, uni-modale, bimodale et
uni-varie qui permettent de rsumer et danalyser linformation
recueillie sur chaque caractre (variable (continue ou discrte,
qualitative ou quantitative)) pris isolment. Ce module de
Biostatistique 1, vise initier les tudiants aux statistiques et
prsenter brivement la premire tape de lanalyse des donnes : la
description. Lobjectif poursuivi dans une telle analyse est de 3
ordres : - tout dabord, obtenir un contrle des donnes et liminer
les donnes aberrantes, - ensuite, rsumer les donnes (opration de
rduction) sous forme graphique ou numrique, - enfin, tudier les
particularits de ces donnes
7. Mondher Abrougui Biostatistique I ISEFC - 2008 7 Ce qui
permettra ventuellement de choisir des mthodes plus complexes. Les
mthodes descriptives se classent en deux catgories qui souvent sont
complmentaires : la description numrique et la description
graphique. La prsentation synthtique dun grand ensemble de donnes
rsultant de ltude de plusieurs caractres quantitatifs ou
qualitatifs sur une population sera traite par le module de
biostatistique III. 2.2. Le module biostatistique II : Statistiques
infrentielles Ce module reprend les lments de bases des
statistiques descriptives en y introduisant une approche plus
probabiliste. Les mthodes statistiques sont orientes vers des tudes
classiques destimation et dhypothse, de manire satisfaire les
conditions d'applications des mthodes de l'infrence (approche
dductiviste). Il fourni des outils statistique qui permettent
d'tendre ou de gnraliser, dans certaines conditions, les
conclusions obtenues par la statistique descriptive partir de la
fraction des individus (chantillon) que l'on a observ ou tudi
exprimentalement, l'ensemble des individus constituant la
population. L'objectif de ce module de statistique infrentielle est
de fournir des rsultats relatifs une population partir de mesures
statistiques ralises sur des chantillons ou de comparer
statistiquement et de faon significative si des chantillons sont
identiques ou non selon un ou plusieurs paramtres ou tests
(indpendance, hypothses, estimation,). 2.3. Le module
biostatistique III : Statistiques multifactorielles descriptive et
infrentielle Ce module complte les modules de biostatistique I et
II. Il sera centr sur ltude multifactorielle qui fournit des
mthodes visant dcrire linformation globale dont on dispose quand on
considre les caractres tudis dans leur ensemble. Les interrelations
entre les caractres et leurs effets sur la structuration de la
population seront pris en considrations. LAnalyse en Composantes
Principales (ACP) et lAnalyse Factorielle des Correspondances (AFC)
ont pour but de rvler ces interrelations entre caractres et de
proposer une structure de la population. Un des intrts majeurs de
ces analyses est de fournir une mthode de reprsentation dune
population dcrite par un ensemble de caractres dont les modalits
sont quantitatives (mesures continues), pour une ACP, ou
qualitatives (pour une AFC). 3. DEMARCHE GENERALE EN STATISTIQUE
Toute tude statistique peut tre dcompose en deux phases au moins :
le recueil ou la collecte des donnes statistiques, et leur analyse
ou leur interprtation. 3.1. Lidentification du problme La phase
prliminaire toute approche statistique vise dterminer et identifier
le problme par un ensemble de questionnements qui permettront de
dlimiter les investigations et les diffrentes approches : Quels
sont les objectifs ? Quelle est la population ou lchantillon tudier
? Quels sont les caractristiques et les variables ? Que pourra
apporter une tude statistique ?
8. Mondher Abrougui Biostatistique I ISEFC - 2008 8 3.2. Le
recueil des donnes Nous appellerons donnes les valeurs obtenus et
rfrences suite une investigation ou une tude ralise (mesures,
observations, enqutes,). Le recueil des donnes peut tre ralis soit
par la simple observation des phnomnes, soit par l'exprimentation,
c'est--dire en provoquant volontairement l'apparition de certains
phnomnes contrls. Exemple : le rle de quelques substances (N, P, K)
dans la production de biomasse chez les vgtaux. Lorsque les donnes
sont trs nombreuses, ou particulirement difficiles obtenir, il sera
ncessaire pour la mise en oeuvre rationnelle du recueil de dfinir
des mthodes appropries de collecte. Il s'agira de plans
d'chantillonnage ou de plans d'exprience dont la mise en oeuvre
sera fonction du type de problme que l'on est amen rsoudre. Exemple
: la numration des mammifres d'une aire protge : inventaire et
recensement. Il existe de ce fait plusieurs mthodes de collecte des
donnes (voir notions de base et terminologie): 3.3. L'analyse et
l'interprtation des donnes L'analyse statistique se subdivise en
deux tapes : - La statistique dductive ou descriptive : elle a pour
but de rsumer et de prsenter les donnes observes sous la forme la
plus accessible (simplification et rduction des donnes, la fois
visuelle et conceptuelle). - L'analyse inductive ou infrence
statistique est l'ensemble des mthodes permettant de formuler en
termes probabilistes un jugement sur une population, partir des
rsultats observs sur un chantillon extrait au hasard de cette
population. Les mthodes statistiques les plus classiques sont
celles de l'estimation (estimation par domaine de confiance) et
celles de l'preuve d'hypothse. Leurs conceptions de base sont dues
essentiellement R.A. Fisher (1890 - 1962). Elle permet d'tendre ou
de gnraliser, dans certaines conditions, les conclusions obtenues
par la statistique descriptive partir de la fraction des individus
(chantillon) que l'on a observ ou tudi exprimentalement, l'ensemble
des individus constituant la population. Les conditions (de
validit) sont lies aux hypothses faites sur la population contenant
les individus et sur la faon dont ont t prises les mesures. Cette
phase inductive comporte des risques d'erreur qu'il convient
d'apprcier. Ces deux tapes sont interdpendantes. En particulier,
l'observation et l'exprimentation doivent tre organises (protocole)
de manire satisfaire les conditions d'applications des mthodes de
l'infrence. L'objectif de la statistique infrentielle est de
fournir des rsultats relatifs une population partir de mesures
statistiques ralises sur des chantillons (prvision, dcision..)
9. Mondher Abrougui Biostatistique I ISEFC - 2008 9 4. NOTIONS
DE BASE ET TERMINOLOGIE 4.1. Ensemble / Population / Echantillon /
Elment / Individu - Lensemble en statistique, est la collection
(finie ou infinie) d'units, ou d'lments, sur laquelle porte
l'observation. Pour que cet ensemble soit correctement dfini, il
faut lui donner une dfinition prcise de faon ce que deux personnes
diffrentes aboutissent toujours la mme liste d'lments. L'ensemble
des lments observs sera appel E. - Les lments sont les objets
constitutifs de l'ensemble. Ce sont des objets dtermins dont
l'appartenance tel ou tel ensemble E est sans ambigut. Les lments
peuvent tre dsigns par leur position dans le tableau de donnes : 1
pour le premier, i pour un lment quelconque, n pour le dernier
lment, N pour la somme des lments constituant lensemble. * Exemple
: lment : membre d'une population statistique (spcimen, prlvement
d'eau, individu...) * Question Quel est l'lment ? Il faut le dfinir
de manire pouvoir le reconnatre sans ambigut. - La population
correspond l'ensemble des individus sur lequel porte ltude ou la
prvision, (il est gnralement difficile de ltudier dans sa totalit),
et lchantillon reprsente la fraction de cette population qui est
rellement observe ou tudie : - Population-cible : ensemble des
lments viss, en principe, par l'chantillonnage. * Question Quelle
est la population-cible ? Il s'agit l de la population sur laquelle
on aimerait bien que les conclusions de l'tude portent. -
Population statistique : ensemble des lments effectivement
reprsents par l'chantillonnage. Les lments qui la composent se
caractrisent par au moins une caractristique commune et exclusive
qui permet de les distinguer sans ambigut. * Question Quelle est la
population statistique ? Il faut mentionner la ou les
caractristiques qui permettent de la distinguer de tout autre
population statistique. - Population biologique: ensemble des
individus d'une mme espce habitant un lieu donn un moment donn.
Notion qui relve davantage de la biologie que de la statistique. *
Question Quelle est la population biologique ? Il faut spcifier le
temps et le lieu. - Communaut : ensemble des individus de diverses
espces retrouvs dans un espace et un temps donns. Notion qui relve
davantage de la biologie que de la statistique. - Quelle est la
communaut ? Il faut spcifier le temps et le lieu. Exemples gnraux:
- Pour les instituts de sondage, la population tudie sera un
ensemble d'hommes et de femmes occupant une portion dfinie de
l'espace (pays, rgion, commune) et l'chantillon " reprsentatif"
sera un nombre limit mais reprsentatif des catgories pertinentes en
fonction
10. Mondher Abrougui Biostatistique I ISEFC - 2008 10 du
problme pos (ge, sexe, catgories socio-professionnelles, origine
gographique, etc.) (Pour la Tunisie, chantillons de 1000 1200
individus pour une population de prs de 10 millions d'habitants). -
Toute l'eau qui s'coule d'une rivire un moment donn constitue la
population. Les 20 prlvements de 10 cm3 que l'on va analyser
constituent l'chantillon. - Le sang dune personne peut tre considr
comme une population, une prise de sang comme un prlvement
(individu, observation) et lensemble des prlvements sera considr
comme un chantillon. La notion dindividu est trs large : les lments
dun chantillon ou dune population sont appels gnralement des
individus, cependant cette notion peut tre remplac par plusieurs
dnominations: unit statistique, sujet, objet, lment, observation,
mesure, doses, toutefois, ds que la dnomination est choisi aucune
ambigut ne doit persiste. 4.2. Recensement / Echantillonnage 4.2.1.
Le recensement : qui consiste gnralement en un recueil
dinformations auprs de tous les individus dune population (ce qui
est trs difficile dans le cas de la Biostatistique, mais plus
facile dans des tudes dmographique). Il est plus adapt ltude des
populations. Il consiste en un dnombrement de toutes les personnes
ou individus ou attributs dune population dans sa totalit. Il sagit
de la source de donnes la plus complte dont on dispose sur la
population. La mthode est trs fastidieuse car rien nest nglig pour
tenir compte de chaque individu. En effet, le recensement est trs
important puisquil sagit de la seule enqute permettant de brosser
un tableau dtaill de toute la population. Lenqute ou la prise de
donnes ou le rfrencement des attributs couvre toute la population,
ce qui facilite la comparaison des renseignements enregistrs.
Exemples : population dun pays ; pollution mondiale ; animaux en
voie de disparition ; gnome humain ; . 4.2.2. Lchantillonnage : qui
consiste gnralement en un recueil dinformations auprs de quelques
individus ou partie dune population lchantillon , (ce qui est
gnralement le cas en Biostatistique). Parfois lchantillonnage se
fait par sondage (cas en gologie (tremblement de terre), en
mdecine) chantillon : fragment d'un ensemble prlev pour juger de
cet ensemble. Fraction de la population statistique sur laquelle
des mesures sont faites pour connatre les proprits de cette
population. * Question - quel est l'chantillon ? Quel est son
effectif ?
11. Mondher Abrougui Biostatistique I ISEFC - 2008 11 Figure 1
: Populations et chantillons chantillon reprsentatif : chantillon
qui reprsente fidlement la composition et la complexit de la
population statistique. - pour tre reprsentatif, un chantillon doit
tre alatoire. - reprsentatif ne veut pas dire "conforme l'ide que
le chercheur se fait de la population"! chantillon alatoire:
chantillon prlev de manire ce que chacun des lments de la
population statistique ait une probabilit connue et non nulle
d'appartenir cet chantillon. - un chantillon alatoire est
reprsentatif de sa population statistique - alatoire ne signifie
pas "n'importe comment"! chantillon alatoire simple : prlvement au
hasard, de faon indpendante, d'un certain nombre d'lments de la
population statistique. Tous les lments ont la mme probabilit d'tre
inclus dans l'chantillon. 4.3. Caractre / Modalit / Variable:
4.3.1. Le caractre, les lments d'un ensemble sont dcrits par un
caractre. Cela revient tablir une correspondance entre chaque lment
i de l'ensemble E et l'ensemble X des modalits ou des valeurs du
caractre. La fonction f : E X i xi est une application au sens
mathmatique : chaque lment de E a une modalit (caractre qualitatif)
ou une valeur (caractre quantitatif) et une seule dans X. Ainsi le
caractre peut tre dfini comme une des caractristiques ou des
attributs dun individu, 4.3.2. Modalit / Mesure : la modalit
(respectivement la mesure) est lune des formes particulire dun
caractre. Les diffrentes situations o les lments de E peuvent se
trouver l'gard d'un caractre qualitatif considr, sont les
diffrentes modalits du caractre qualitatif X. Dans le cas ou le
caractre X est quantitatif, les diffrentes situations o les lments
de E peuvent se trouver sont des mesures. Ces modalits ou ces
mesures doivent tre la fois incompatibles (un lment de E ne peut
prendre qu'une seule modalit) et exhaustive ( chaque lment de E
doit pouvoir correspondre une modalit de X) de sorte que chaque
lment de E ait une modalit et une seule dans X.
12. Mondher Abrougui Biostatistique I ISEFC - 2008 12 En
statistique, chaque individu peut tre dfinit par un ensemble
dattributs qui le caractrise dans le contexte dun problme tudi. La
couleur du pelage est un caractre Les variantes de la couleur du
pelage sont des modalits : noir, gris,... Le sexe est un caractre,
ses modalits sont de 2 types : soit male soit femelle La taille
peut prendre plusieurs modalits : 1m ; 1,1m ; 1,2m etc Autres
exemple de caractres : Le taux de glycmie, la vitesse de
coagulation ; la production laitire ; 4.3.3. Tableau lmentaire :
c'est un tableau simple entre o les lignes correspondent aux lments
de l'ensemble tudi et les colonnes aux caractres (ou variables)
dcrivant ces lments (Tableau 1 (1.1 et 1.2)). Variables
Observations Variable 1 Variable 2 Variable Variable p Observation
1 Observation 2 Observation Observation n Tableau 1.1 : exemple de
tableau de saisie lmentaire La premire colonne est en principe
rserve la liste nominale des lments. Tableau 1.2 : Exemples de
tableaux de donnes 4.3.4. La variable statistique, chaque attribut
(ou caractre ou caractristique) a des modalits, ou peut sexprimer
selon une mesure, celles-ci varient dun individu lautre ou dun
groupe dindividus un autre groupe dindividus. La variable
statistique est le nom que lon donne ces caractres (attributs,
caractristiques).
13. Mondher Abrougui Biostatistique I ISEFC - 2008 13
Explicitation de variable en biologie : caractristique mesurable ou
observable sur un lment (variable propre) ou dans son environnement
(variable associe). 4.3.5. Nature des variables statistiques et
chelles de mesures Dans chaque tude statistique il est trs
important de considrer la nature des donnes (observations,
caractres, attributs) que l'on va tester. D'elle dpend la nature
des oprations possibles et donc des statistiques utilisables dans
chaque situation. Il est donc primordial de prciser la nature de
chaque variable, ou caractre. Il existe deux types de variables (ou
observations, celles-ci peuvent tre soit quantitatives soit
qualitatives. Ces variables peuvent tre mesures do limportance du
choix des chelles de mesures, c'est--dire, des rgles permettant
daffecter une valeur chaque individu de la population ou de
lchantillon. 4.3.5.1. Variable quantitatif : c'est un caractre
auquel on peut associer un nombre c'est-- dire, pour simplifier,
que l'on peut "mesurer" (grandeur mesurable). Les diffrentes
situations o peuvent se trouver les lments sont des mesures; elles
sont ordonnables et la moyenne a une signification On distingue
alors deux types de caractre quantitatif : a - Variable discrte ou
discontinue : c'est un caractre quantitatif, un tel caractre ne
prend qu'un nombre fini de valeurs (valeur entire dnombrable et
sans aucune valeur intermdiaire). Les diffrentes situations o
peuvent se trouver les lments (observations, mesures, valeurs,)
sont des nombres isols dont la liste peut tre tablie a priori.
Exemple: (nombre d'enfants, nombre de ptales dune fleur, nombre de
dents,..) : (1 ; 2 ; 3 ; 4 ; 5 ;.10 ; 11 ;) b - Variable continue :
c'est un caractre quantitatif, un tel caractre peut, thoriquement,
prendre toutes les valeurs d'un intervalle de l'ensemble des
nombres rels. Toutes les valeurs ne sont pas dnombrables et ne
peuvent pas tre tablit a priori. Ses valeurs sont alors regroupes
en classes (taille, temps, poids, vitesse, glycmie, altitude,
surfaces,.) (1,60 m ; 1,61 m ; 1,62 m ;..) c - Les mesures des
donnes ou variables quantitatives comprennent les dnombrements (ou
comptages) et les mesures (ou mensurations). c1 - Dans le cas des
dnombrements, la caractristique tudie est une variable discrte ou
discontinue, ne pouvant prendre que des valeurs entires non
ngatives (nombre de fruits par rameau, nombre de ptales par fleur,
nombre de ttes de btail..). Il suffit de compter le nombre
d'individus affects par chacune des valeurs de la variable. Exemple
: nombre de ptales par fleur dans un chantillon de 1000 fleurs de
Renonculus repens. Nombre de ptales par fleur 3 4 5 6 7 Nombre de
fleurs 1 20 959 18 2 c2 - Dans le cas des mesures, la variable est
de nature continue (hauteur, poids, surface, concentration,
temprature..). Les valeurs possibles sont illimites mais du fait
des mthodes de mesure et du degr de prcision de l'appareil de
mesure, les donnes varient toujours de faon discontinue.
14. Mondher Abrougui Biostatistique I ISEFC - 2008 14 Les
mensurations peuvent tre ralises dans plusieurs chelles de mesure :
lchelle numrique, l'chelle de rapport, l'chelle d'intervalle. Elles
sont manipulables suivant les oprations de l'arithmtique. c2.1 -
L'chelle numrique est caractrise par limportance des valeurs
mesures. Le (0) signifie bien l'absence du phnomne. Exemple :
population, taux de fcondit, prcipitations. c2.2 - L'chelle de
rapport ou de taux exprime le rapport entre deux valeurs. Leur
total n'a pas de signification et caractris par l'existence d'un
zro absolu et de distances de taille connue entre deux valeurs
quelconque de l'chelle. C'est le cas de la mesure de la masse ou du
poids. En effet, les chelles de mesure des poids en pounds ou en
grammes ont toutes deux un zro absolu et le rapport entre deux
poids quelconque d'une chelle est indpendant de l'unit de mesure
(le rapport des poids de deux objets mesurs en pounds et celui de
ces mmes objets mesurs en grammes sont identiques). (Densit de
population, proportion une date ou un lieu donne). c2.3 - Dans
l'chelle d'intervalle, le point zro et l'unit de mesure sont
arbitraires mais les distances entre deux valeurs quelconques de
l'chelle sont de taille connue. Une telle chelle permet de reprer
la position de chaque lment par rapport une origine arbitraire. La
valeur 0 est donc conventionnelle et ne signifie pas l'absence du
phnomne C'est le cas de la mesure de la temprature (chelle
Fahrenheit ou Celsius), de la Latitude de la Longitude, laltitude,
... Ces chelles quantitatives sont compatibles avec l'utilisation
de tests paramtriques. 4.3.5.2. Variable qualitative : c'est un
caractre qualitatif, dans ce type de variable les modalits ne sont
pas quantifiables (pas mesurables) (couleur des yeux, douleur, ).
Ce sont des noms ou ce qui revient au mme des sigles ou des codes.
Les diffrentes modalits ne sont pas ordonnables. Attention, mme si
les modalits sont des codes numriques, les oprations sur les
modalits n'ont aucun sens. Exemple : type de relief avec trois
modalits (plaine, montagne, plateau), ou encore taille dune niche
cologique avec quatre modalits (petite, moyenne, grande, trs
grande). Les donnes qualitatives peuvent tre assimiles au cas des
variables discontinues, en supposant que les diffrentes variantes
du caractre qualitatif sont ranges dans un ordre correspondant par
exemple la suite des nombres entiers positifs (diffrentes couleurs,
diffrents degrs d'infection...). Les donnes qualitatives peuvent
tre ralises dans deux chelles de mesure : chelle de rangement et
l'chelle nominale. Ces donnes ne sont pas manipulables par
l'arithmtique. a - Dans l'chelle ordinale (de rangement), on parle
dans ce cas de caractre ordinal (caractres qui peuvent tre exprims
sur une chelle ordinale) : dans cette chelle chaque modalit est
explicitement significative du rang pris par chaque individu pour
le caractre considr. Si E possde N lments, les modalits seront 1er
, 2eme , 3eme , ... neme . Comme on possde juste l'ordre des
individus, on ne sait rien de l'intervalle des valeurs. Il existe
une certaine relation entre les objets du type plus grand que,
suprieur , plus difficile que, prfre ..... Une transformation ne
changeant pas l'ordre des objets est admissible. La statistique la
plus approprie pour dcrire la tendance centrale des donnes est la
mdiane. b - Dans l'chelle nominale, les nombres ou symboles
identifient les groupes auxquels divers objets appartiennent. C'est
le cas des numros d'immatriculation des voitures ou de scurit
15. Mondher Abrougui Biostatistique I ISEFC - 2008 15 sociale
(chanes de caractres). Le mme nombre peut tre donn aux diffrentes
personnes habitant le mme dpartement ou de mme sexe constituant des
sous-classes. Les symboles dsignant les diffrentes sous-classes
dans l'chelle nominale peuvent tre modifis sans altrer
l'information essentielle de l'chelle. Les seules statistiques
descriptives utilisables dans ce cas sont le mode, la frquence...
et les tests applicables seront centrs sur les frquences des
diverses catgories. Ces deux dernires chelles ne permettent que
l'utilisation de tests non paramtriques. 4.3.5.3. Exemple
dillustration des principaux types de descripteurs Figure 2 :
Typologie des caractres pour une approche statistique
16. Mondher Abrougui Biostatistique I ISEFC - 2008 16 Figure 3
: Exemples de variables statistiques et chelles de mesures
17. Mondher Abrougui Biostatistique I ISEFC - 2008 17
APPLICATION I Application I.1 Identifiez le type (et le sous-type)
des variables suivantes : Rponses a) Le nombre danimaux par
laboratoire ; a) quantitatif discret b) La niche cologique
principale ; b) qualitatif nominal c) Le modle de matriel utilis ;
c) qualitatif nominal d) La distance en kilomtre entre le prlvement
A et le prlvement B ; d) quantitatif continue e) tre vgtarien ou
non ; e) qualitatif ordinal f) Le temps pass observer le
comportement X ; f) quantitatif continue g) Avoir ou non une
rponse; g) qualitatif ordinal h) Le nombre de frres et soeurs. h)
quantitatif discret 4.3.6. Variables dpendantes et indpendantes En
statistique on adopte encore une autre dichotomie pour le concept
de variable en parlant de variables indpendantes et de variables
dpendantes. 4.3.6.1. Les variables indpendantes sont celles qui
sont manipules par lexprimentateur (lappartenance au groupe et nous
contrlons les traitements appliqus aux diffrents groupes). 4.3.6.2.
Les variables dpendantes sont celles qui sont mesurs, rfrencs,
exemple de donnes (survie, rsistances, tolrance, performance, ).
Fondamentalement, une tude porte sur les variables indpendantes et
les rsultats de ltude (les donnes) sont les variables dpendantes.
4.3.7. La variabilit et l'incertain en biologie Toutes les
questions, proprement biologique en relation avec les statistiques,
refltent une proprit fondamentale des systmes biologiques qui est
leur variabilit. Cette variabilit est la somme d'une variabilit
exprimentale (lie au protocole de mesure) et d'une variabilit
proprement biologique. On peut ainsi dcomposer la variabilit d'une
grandeur mesure en deux grandes composantes : Variabilit Totale =
Variabilit Biologique + Variabilit Mtrologique 4.3.7.1 La
variabilit biologique Elle peut tre dcompose en deux termes : -
d'une part la variabilit intra-individuelle, qui fait que la mme
grandeur mesure chez un sujet donn peut tre soumise des variations
alatoires ; - d'autre part la variabilit interindividuelle qui fait
que cette mme grandeur varie d'un individu l'autre.
18. Mondher Abrougui Biostatistique I ISEFC - 2008 18
Variabilit Biologique = Variabilit intra-individuelle + Variabilit
interindividuelle La variabilit intra-individuelle peut tre observe
lors de la mesure de la performance d'un athlte qui n'est pas
capable des mmes performances chaque essai, mais qui se diffrencie
des autres athltes (variabilit interindividuelle). En gnral, la
variabilit intra est moindre que la variabilit inter. 4.3.7.2 La
variabilit mtrologique Elle peut tre elle aussi dcompose en deux
termes : d'une part les conditions exprimentales dont les
variations entranent un facteur d'alas ; et d'autre part les
erreurs induites par l'appareil de mesure utilis. Variabilit
Mtrologique = Variabilit Exprimentale + Variabilit instrumentale
(appareil de mesure) La mesure de la pression artrielle peut
grandement varier sur un individu donn suivant les conditions de
cette mesure ; il est ainsi recommand de la mesurer aprs un repos
d'au moins 15 minutes, allong, en mettant le patient dans des
conditions de calme maximal. Cette recommandation vise minimiser la
variabilit due aux conditions exprimentales. La prcision de
l'appareil de mesure est une donne intrinsque de l'appareil, et est
fournie par le constructeur. 4.3.8. Proprits des variables
Caractristiques mesurables ou observables. Propres (attribut de
l'lment) ou associes (composante de son environnement). Alatoires
(diffrentes variantes peuvent apparatre, chacune avec une certaine
probabilit) ou contrles (le chercheur obtient avec certitude la
variante dsire, en gnral par manipulation). Dpendantes (on cherche
en comprendre ou prvoir le comportement) ou indpendantes
(expliquent par hypothse au moins une partie du phnomne tudi).
Simples ou complexes (ex.: rapports, pourcentages...). Divers types
mathmatiques et chelles de variation. 4.4. Infrence et risque
statistique Infrence statistique: gnralisation la population
statistique des rsultats d'un test statistique ralis sur un
chantillon reprsentatif de cette population. Cette gnralisation se
fait au risque du statisticien. Gnralisation la population-cible:
lorsque cette dernire est diffrente de la population statistique,
cette gnralisation se fait au risque du biologiste.
19. Mondher Abrougui Biostatistique I ISEFC - 2008 19 Figure 4
: Reprsentation graphique de diffrentes populations et des risques
4.5. Une dfinition plus explicite de la biostatistique : La
statistique est un ensemble dinstruments scientifiques par lesquels
on recherche expliquer certains phnomnes. Elle se compose de
mthodes permettant de recueillir, de classer, de prsenter et
danalyser des observations relatives ces phnomnes pour en tirer
ensuite des conclusions et prendre des dcisions. En biologie, la
statistique est un ensemble de mthodes visant dcrire, rsumer et
interprter des phnomnes dont le caractre essentiel est la
variabilit. 4.6. Dnomination mathmatique : - E : reprsente
lensemble de tous les individus sur lequel porte ltude statistique
- : reprsente la population sur laquelle porte ltude statistique,
Si E est une numration exhaustive de tous les individus
susceptibles dtre analyss, il peut tre appel population ou univers
et sera not . Dans le cas contraire, E sera un chantillon de . -E :
reprsente le cardinal de E, cest le nombre de donnes (ou
dobservations) rfrences, il correspond leffectif ou la taille qui
est gnralement not N. La taille de lchantillon est leffectif ou le
nombre dindividus sur lequel sont ralis effectivement les
observations, cest un sous ensemble de E (dans le cas o E
caractrise la population entire), il correspond gnralement au
cardinal E. - N : reprsente la taille dune population ou dun
chantillon, cest un nombre qui dsigne le nombre dindividu que
rassemble un chantillon ou une population.
20. Mondher Abrougui Biostatistique I ISEFC - 2008 20 - p :
reprsente lensemble des variables caractrisant les individus sur
lequel porte ltude statistique. E est de dimension p, si lanalyse
de E est faite selon p variables (o p I (entier naturel)). Exemple
: Dans une population E, on tudie 4 variables (w, x, y, et z) : w :
age, x : le sexe, y : la taille et z : le poids. Dans ce cas E est
de dimension p, ou de dimension 4 - Systme de notation Lorsqu'on
mesure la valeur ou observe l'tat d'un certain nombre de variables
sur un lment, on utilise l'une ou l'autre des notations suivantes
pour dsigner les variables : - s'il y a une, deux ou trois
variables : x, y et z - s'il y a plus de trois variables: x1, x2,
x3 ... xj ... xp Les variables sont donc numrotes de la premire, la
p-ime, une variable quelconque tant la jime. Un jeu de donnes
(p.ex. un chantillon) comporte n lments. Un quelconque de ces
lments est le i-ime. Ces lments sont souvent qualifis
d'observations ou d'objets. - lorsqu'on mesure la valeur d'une
variable x sur un lment quelconque (le i-ime), on dsigne cette
valeur par xi. - i varie de 1 n, donc on a les mesures x1, x2, ...
xi ... xn. Si le jeu de donnes consiste en un tableau de n lments
dcrits par p variables (tableau n p), on note: Il arrive que les
lments soient rpartis en k groupes caractriss par une variable
qualitative. Dans ce cas, on peut aussi noter les observations
d'une variable par un double indice, le premier dsignant le numro
de l'observation au sein d'un groupe (i-ime lment), le deuxime
dsignant le numro du groupe (gime groupe ou j-ime groupe): - xig ou
encore xij la mesure prise sur le i-ime lment du g-ime (ou j-ime)
groupe.
21. Mondher Abrougui Biostatistique I ISEFC - 2008 21 -
Notation somme (sigma) La lettre grecque sigma majuscule dsigne une
sommation (addition de tous les lments d'un ensemble). La sommation
des valeurs des n observations d'une variable x, soit de tous les
xi pour i allant de 1 n, se note: = n i ix1 Donc ni n i i xxxxx
++++== .....21 1 Si l'on veut faire la somme de tous les lments
d'un tableau de n observations et p variables, on crira: +++++++++=
= = n i npijni p j xxxxxxxxxij 1 2212111211 1 .......... Si a est
une constante, tous les ai sont gaux. Donc: naaaaa ni n i ia
=++++== .....21 1 = = +=+ n i i n i i xnaax 1 1 )( == = n i i n i i
xaax 11 On se sert de ces proprits des sommations pour simplifier
ou dvelopper des expressions comportant des sommations.
22. Mondher Abrougui Biostatistique I ISEFC - 2008 22
Application I.2 Simplifier le plus possible l'expression suivante:
Dvelopper le plus possible l'expression suivante:
23. Mondher Abrougui Biostatistique I ISEFC - 2008 23 -
Frquences absolues, relatives et cumules (voir tableau exemple)
Dsign par F ou f La notion de frquence peut tre exprime de
plusieurs manires : * Frquence absolue (effectif) * Frquence
relative (ou frquence) * Frquences cumules Variables Exemples de
Frquences x1 x2 x3 x4 Total Effectif ou Frquence absolue (ni) 8 2 9
3 22 Frquence absolue cumule croissante 8 8+2=10 10+9=19 19+3=22
Frquence absolue cumule dcroissante 22 22-8=14 14-2=12 12-9=3
Frquence relative (fi) 8/22 2/22 9/22 3/22 22/22 = 1 Frquence
relative cumule croissante 8/22 8/22+2/22=10/22 19/22 22/22
Frquence relative cumule dcroissante ou frquence cumule dcroissante
22/22 = 1 22/22-8/22 =14/22 (14-2)/22 =12/20 (12-9)/22 =3/22
Tableau 2 : Exemples explicatifs des frquences (Ce tableau servira
dexemple pour comprendre les notions de frquences) * Frquences
absolues = Effectif Le terme de frquence absolue dsigne les
effectifs : a chaque modalit xi du caractre X, peut correspondre un
ou plusieurs individus dans l'chantillon de taille n. On appelle
effectif (ou frquence absolue) de la modalit xi, le nombre ni o ni
est le nombre dindividu de chacune des modalits * Frquence relative
= Frquences On appelle frquence de la modalit xi, le nombre fi tel
que n nf i i = Remarques : Rq1 : Le pourcentage est une frquence
exprime en pour cent. Il est gal 100 fi. Rq2 : Lemploi des
frquences ou frquences relatives savre utile pour comparer deux
distributions de frquences tablies partir dchantillons de taille
diffrente. * Frquences cumules = frquences relatives cumules On
appelle frquences cumules ou frquences relatives cumules en xi, le
nombre ficum tel que =cumf i = i p p f 1 Remarques Rq1 : la taille
de lchantillon est = nn n i i ==1 Rq2 : 1 1 == k i f
24. Mondher Abrougui Biostatistique I ISEFC - 2008 24 -
Fonctions cumulatives * fonction cumule croissante ou ascendante *
fonction cumule dcroissante ou descendante Dfinitions Soit S une
srie statistique une variable de type quantitatif et a une modalit
de S. La frquence cumule croissante associe a est la somme des
frquences de toutes les modalits infrieures ou gales a dans la srie
S. Dans le cas d'une srie S dont les modalits sont regroupes en
classes, la frquence cumule croissante de la classe [a ; b[ est la
somme des frquences de cette classe et des classes qui prcdent
(c'est--dire dont les lments sont strictement infrieurs a) s'il y
en a. Remarques * La frquence cumule croissante de la plus petite
modalit ou de la classe laquelle appartiennent les plus petites
modalits est gale la frquence de cette modalit ou de cette classe;
* La frquence cumule croissante de la plus grande modalit ou de la
classe laquelle appartiennent les plus grandes modalits est gale 1
(ou 100 % pour les frquences exprimes en pourcentages). 5.
REPRESENTATION DES DONNEES Il existe plusieurs niveaux de
description statistique : la prsentation brute des donnes, des
prsentations par tableaux numriques, des reprsentations graphiques
et des rsums numriques fournis par un petit nombre de paramtres
caractristiques. Nous reviendrons sur les reprsentations graphiques
et les tableaux respectivement dans les paragraphes suivants et
dans les exemples 5.1. Tableaux statistiques En gnral une srie
statistique caractre discret se prsente sous la forme : Valeurs X1
X2 .. Xp Effectifs N1 N2 .. Np Frquences F1 F2 .. Fp Plutt que
rcrire ce tableau on crira souvent : la srie (xi, ni). (On
n'indique pas le nombre de valeurs lorsqu'il n'y a pas d'ambigit).
Souvent on notera N l'effectif total de cette srie donc N = n1+n2+.
. .+np. (Voir paragraphe 4.3.3 ; 4.6 Tableau 1 et 2)
25. Mondher Abrougui Biostatistique I ISEFC - 2008 25
Application I.3 : Caractres quantitatifs discrets Dans le cas dun
caractre quantitatif discret, ltablissement de la distribution des
donnes observes associes avec leurs frquences est immdiat. Exemple
: La ccidomyie du htre provoque sur les feuilles de cet arbre des
galles dont la distribution de frquences observes est la suivante :
Caractre X : xi : nombre de galles par feuille 0 1 2 3 4 5 6 7 8 9
10 ni : nombre de feuilles portant xi galles 182 98 46 28 12 5 2 1
0 1 0 fi : frq. relative 0,485 0,261 0,123 0,075 0,032 0,013 0,005
0,003 0 0,003 0 fi cum. : frq. Relative cumule 0,485 0,746 0,869
0,944 0,976 0,989 0,994 0,997 0,997 1 1 La taille de lchantillon
tudi est n = 375 feuilles Application I.4 : Utiliser le logiciel
Excel pour dresser ces tableaux et raliser les calculs Application
I.5 : Caractres quantitatifs continus (Mots cls : Nombre de
classes, intervalle entre classe (amplitude), tendu de la variable
X) Dans le cas d'un caractre quantitatif continu, ltablissement du
tableau de frquences implique deffectuer au pralable une rpartition
en classes des donnes. Cela ncessite de dfinir le nombre de classes
attendu et donc lamplitude associe chaque classe ou intervalle de
classe. En rgle gnrale, on choisit des classes de mme amplitude.
Pour que la distribution en frquence est un sens, il faut que
chaque classe comprenne un nombre suffisant de valeurs (ni).
Diverses formules empiriques permettent dtablir le nombre de
classes pour un chantillon de taille n. La rgle de STURGE :
)log3,3(1 nclassedeNombre += La rgle de YULE : 4 5,2
nclassedeNombre = L'intervalle entre chaque classe est obtenu
ensuite de la manire suivante : Intervalle de classe = (X max - X
min) / Nombre de classes Avec Xmax et Xmin, respectivement la plus
grande et la plus petite valeur de X dans la srie statistique. A
partir de Xmin on obtient les limites de classes ou bornes de
classes par addition successive de lintervalle de classe. En rgle
gnral, on tente de faire concider lindice de classe ou valeur
centrale de la classe avec un nombre entier ou ayant peu de
dcimales. Toutes les donnes sont comprises entre Xmin et Xmax et
chaque donne appartient une et une seule classe.
26. Mondher Abrougui Biostatistique I ISEFC - 2008 26 Exemple :
Dans le cadre de ltude de la population de glinottes huppes (Bonasa
umbellus), les valeurs de la longueur de la rectrice principale
peuvent tre rparties de la faon suivante : 158 152 171 163 140 157
162 171 158 164 163 159 153 160 149 158 152 165 156 162 150 154 155
162 155 164 164 157 159 158 159 153 163 158 174 162 156 151 160 158
162 166 162 164 158 153 165 158 150 160 Dfinition du nombre de
classes : Rgle de Sturge : 1 + (3,3 log 50) = 6,60 Rgle de Yule : 4
505,2 = 6,64 Les deux valeurs sont trs peu diffrentes Dfinition de
lintervalle de classe : mmIC 15,5 6,6 140174 = = que lon arrondit 5
mm par commodit Tableau de distribution des frquences Caractre X :
xi : longueur de la rectrice bornes des classes en mm [140-145[
[145-150[ [150-155[ [155-160[ [160-165[ [165-170[ [170-175[ Valeur
mdiane des classes xi 142,5 147,5 152,5 157,5 162,5 167 ,5 172,5 ni
: nombre dindividu par classe de taille xi 1 1 9 17 16 3 3 fi :
frquence relative 0,02 0,02 0,18 0,34 0,32 0,06 0,06 fi cum. :
frquence relative cumule (croissante) 0,02 0,04 0,22 0,56 0,88 0,94
1 Application I.6 : Utiliser le logiciel Excel pour dresser ce
tableau, calculer lintervalle des classes et raliser les
calculs
27. Mondher Abrougui Biostatistique I ISEFC - 2008 27 5.2.
Reprsentations graphiques et statistique descriptive Les
reprsentations graphiques sont trs importantes en statistique
descriptive. Elles ont lavantage de renseigner immdiatement sur
lallure gnrale de la distribution. Elles facilitent linterprtation
des donnes recueillies. La reprsentation graphique des donnes
montre la forme gnrale de la distribution et donne une image de la
grandeur des nombres qui constituent les donnes. Dautres
statistiques simples sont utilises pour reprsenter le centre de la
distribution et les mesures lies la dispersion des observations
autour de cette tendance centrale. Dans cette partie, nous ne
prsenterons que les cas particuliers de lhistogramme et des Barres
moustaches (Box Plot) cependant, dautres reprsentations seront
abordes dans les diffrentes parties de ce fascicule. De plus,
plusieurs activits pratiques de construction (voir TD)
expliciteront les constructions de plusieurs types de graphes et
prsenterons leurs nombreux avantages (pour plus dinformations
consulter le document reprsentation graphique du TD). Exemple de
graphe sous Excel Exemple de construction en TD 5.2.1. Lhistogramme
Dfinition : L'histogramme consiste faire figurer les effectifs
d'une variable par classe de valeur. Il est reprsent quand la
variable est quantitative continue par des rectangles dont la
surface (et non la hauteur) est proportionnelle aux effectifs.
28. Mondher Abrougui Biostatistique I ISEFC - 2008 28
APPLICATION II Application II.1 - Lhistogramme : exemple A partir
de la liste des valeurs du tableau des effectifs suivante,
construire lhistogramme correspondant (utiliser le logiciel Excel)
classes (mettre lunit) effectif (en nombre) 4 3 5 10 6 24 7 16 8 6
9 11 10 14 11 7 12 5 13 2 Tableau deffectifs Application II.2 : Les
classes peuvent tre dfinies dintervalles gaux ou non. Dans ce
dernier cas, seule la surface sera proportionnelle leffectif (et
non la hauteur) 5.2.1.1. Lhistogramme : paramtres de description
Pour dcrire la forme d'un histogramme on utilise les notions de
mode et de symtrie : le mode est la valeur dominante, dont
l'effectif est le plus lev. Un histogramme peut avoir aucun, un ou
plusieurs modes. Dans un histogramme, le mode est le rectangle qui
a l'aire la plus grande.
29. Mondher Abrougui Biostatistique I ISEFC - 2008 29 La
symtrie traduit la distribution des valeurs de part et dautre du ou
des modes Cas dune distribution bimodale asymtrique Application
II.3 : Caractres quantitatifs discrets Pour les caractres
quantitatifs discrets, la reprsentation graphique est le diagramme
en btons o la hauteur des btons correspond leffectif ni associ
chaque modalit du caractre xi.
30. Mondher Abrougui Biostatistique I ISEFC - 2008 30 Exemple :
Dans lexemple de la ccidomyie du htre, la distribution des
frquences observes du nombre de galles par feuille peut tre
reprsente par un diagramme en btons avec en ordonne les effectifs
ni et en abscisse les diffrentes modalits de la variable tudie.
Application II.4 : Caractres quantitatifs continus Pour les
caractres quantitatifs continus, la reprsentation graphique est
lhistogramme o la hauteur du rectangle est proportionnelle
leffectif ni. Ceci nest vrai que si lintervalle de classe est
constant. Dans ce cas laire comprise sous lhistogramme savre
proportionnelle leffectif total. En revanche lorsque les
intervalles de classe sont ingaux, des modifications simposent pour
conserver cette proportionnalit. Dans ce cas, en ordonne, au lieu
de porter leffectif, on indique le rapport de la frquence sur
lintervalle de classe. Ainsi la superficie de chaque rectangle
reprsente alors leffectif associ chaque classe. Exemple : Dans
lexemple de la longueur de la rectrice centrale des individus mles
de la glinotte huppe, la distribution des frquences observes est
reprsente par un histogramme avec en ordonne les effectifs ni et en
abscisse les limites de classe de la variable tudie. Application
II.5 : Utiliser le logiciel Excel pour raliser lhistogramme de
lapplication 2
31. Mondher Abrougui Biostatistique I ISEFC - 2008 31 5.2.2.
Barre moustache - Box Plot Remarque : Pour comprendre cette partie
il est ncessaire de se rfrer au paragraphe 6.1. Paramtre de
position et valeurs centrales . Une "bote moustaches" (traduction
franaise du terme "Box and Whiskers Plot", ou en abrg "Box Plot")
est une reprsentation graphique de quelques paramtres de
distribution d'une variable, invente par Tukey en 1977. Cest une
reprsentation graphique dune variable quantitative qui permet
dapprhender (rsumer une distribution empirique) la dispersion dun
chantillon. Rappel (En rfrence au paragraphe 6.1. Paramtre de
position et valeurs centrales .) On appelle intervalle
inter-quantiles lintervalle [Q (0,25), Q (0,75)], qui contient la
moiti centrale des valeurs de lchantillon. On appelle intervalle
inter-dciles l'intervalle [Q (0,1), Q (0,9)], qui contient 80% des
valeurs centrales de l'chantillon. Ces intervalles sont la base
d'une reprsentation trs compacte de la distribution empirique : le
diagramme en boite (ou bote moustaches, box plot, box-and-whisker
plot). Il n'y a pas de dfinition standardise de cette
reprsentation. Elle consiste en une bote rectangulaire, dont les
deux extrmits sont les quartiles. Ces extrmits se prolongent par
des traits termins par des segments orthogonaux (les moustaches).
La longueur de ces segments varie selon les auteurs. Il existe donc
plusieurs variantes pour reprsenter les boites moustache, nous
traiterons de celle la plus frquemment utilise. Nous proposons par
exemple de fixer la longueur des segments aux dciles extrmes. On
reprsente aussi la mdiane par un trait dans la bote, et parfois les
valeurs extrmes par des points (voir figure ci-dessous). Exemples
de reprsentations graphiques: botes moustache (box-plot)
32. Mondher Abrougui Biostatistique I ISEFC - 2008 32 Analysons
rapidement les boites moustaches ci dessus : La bote moustaches
utilise gnralement 5 valeurs qui rsument des donnes : - Le minimum,
- Les 3 quartiles Q1, Q2 (mdiane) et Q3, - Le maximum. Les
quartiles Q1, Q2, Q3 sont les lments essentiels de ce type de
graphique. Nous dtaillerons les tapes de la construction des
quartiles et de l'cart interquartile en TD. - les premier et
troisime quartiles (Q1 (0,25) et Q3 (0,75)) : bordures infrieure et
suprieure de la bote rectangulaire - la mdiane : trait horizontal
long au sein de la bote rectangulaire (Q2 (0,5)) - la moyenne :
marque plus (+) au sein de la bote, pouvant tre confondue avec la
mdiane - les extrmits infrieure et suprieure des moustaches :
marques en forme de tiret (-) situe sur le trait vertical, et
correspondant respectivement la plus petite donne suprieure une
valeur a1, et la plus grande donne infrieure une valeur a3; Il est
possible de calculer ces extrmits avec les formules suivantes : a1=
Q1-1.5*(Q3-Q1) = Q1-1,5QI a3= Q3+1.5*(Q3-Q1) = Q3-1,5QI avec QI =
Intervalle inter-quartiles - les minimum et maximum : marques
extrmes en forme de cercle (o) ; si le minimum ou le maximum n'est
pas confondu avec le tiret d'extrmit de moustache, c'est qu'il
s'agit d'une valeur atypique ("outlier"). Les valeurs atypiques
peuvent tre situes strictement en dessous de la moustache infrieure
a1 (nb atyp. inf.) ou strictement en dessus de la moustache
suprieure a3 (nb atyp. sup.). Pour plus de dtails sur l'utilisation
des botes moustaches, voir TD. Application II.6 : Cration et test
dune macro BoxPlot sous Excel voir TD. Remarque : La mdiane est une
valeur centrale de l'chantillon : il y a autant de valeurs qui lui
sont infrieures que suprieures. Si la distribution empirique de
l'chantillon est peu dissymtrique, comme par exemple pour un
chantillon simul partir d'une loi uniforme ou normale, la moyenne
et la mdiane sont proches. Si l'chantillon est dissymtrique, avec
une distribution trs tale vers la droite, la mdiane pourra tre
nettement plus petite que la moyenne. Contrairement la moyenne, la
mdiane est insensible aux valeurs aberrantes. Elle possde une
proprit d'optimalit par rapport l'cart absolu moyen.
33. Mondher Abrougui Biostatistique I ISEFC - 2008 33 6.
STATISTIQUES DESCRIPTIVES UNIVARIEES Quelques exemples * Exemples
de sries univaries Une srie univarie est forme par une srie de
mesures d'une variable quantitative, gnralement continue (valeurs
dcimales), effectues sur un mme chantillon : Exemple 1 : - 5
mesures du poids d'un organe (en g) : 14,5 13,2 18,63 15,0 13,33
Eventuellement : on peut avoir faire un variable quantitative
discrte (valeurs entires), pourvu que la notion de moyenne ait un
sens par rapport cette variable (ce n'est pas un "code"): Exemple 2
: - 7 mesures du "nombre de poils aux pattes d'une mouche" : 27 28
25 21 28 19 20 * Donnes de deux sries univaries Dans cette
situation, les deux sries de donnes concernent la mme variable.
Dans la situation la plus courante, la premire srie provient d'un
chantillon "tmoin", la seconde d'un chantillon "trait" : Exemple 1
: - On dispose de deux chantillons de rats males, dont on a mesur
le poids corporel (en g): 3 rats TEMOINS : 410 432 417 5 rats
TRAITES par un anabolisant : 435 482 457 502 473 Autre situation
frquente : on observe le mme chantillon "avant" et "aprs" un
traitement : Exemple 2 : - On mesure l'hmatocrite (units
arbitraires) avant et aprs un traitement anticoagulant : les
mesures AVANT le traitement : 97 103 95,5 102 100 les mesures APRES
le traitement : 84 78 90,5 85 76 On peut aussi comparer des
chantillons qui diffrent par l'origine bio-gographique, l'ge, le
sexe... * Donnes de plusieurs sries univaries Les diffrentes sries
de donnes concernent la mme variable. Plusieurs traitements ont t
appliqus (ou bien on a chantillonn des populations rputes
diffrentes) : Exemple : - On dispose de trois chantillons de rats
males, dont on a mesur le poids corporel (en g): 3 rats TEMOINS :
410 ; 432 ; 417 5 rats TRAITES par un anabolisant : 435 ; 482 ; 457
; 502 ; 473 4 rats traits par un PLACEBO : 422 ; 437 ; 395 ; 412
Les statistiques descriptives visent reprsenter des donnes dont on
veut connatre les principales caractristiques quantifiant leur
variabilit.
34. Mondher Abrougui Biostatistique I ISEFC - 2008 34 Trois
aspects sont essentiels l'interprtation d'une distribution : -
Paramtre de position : le centre de la distribution et la
rpartition autour d'une valeur centrale (moyenne, mode, mdiane,
quantiles, ..) - Paramtre de dispersion ou dtendue : les valeurs
sont-elles disperses ou concentres ? - Paramtre de forme : la forme
de la distribution : la symtrie, laplatissement 6.1. Paramtre de
position et valeurs centrales Le but des valeurs centrales est de
rsumer en une seule valeur l'ensemble des valeurs d'une
distribution statistique. Il existe quatre valeurs de positions : -
Le mode (Mo), - La moyenne ( X ou ) - La mdiane ou le mdian (Me ou
Md) - Les fractiles (Quantiles) (Qn) Parmi ces valeurs les trois
premires sont des valeurs de position centrales : 6.1.1. Le mode,
ou valeur dominante, est la valeur la plus frquente d'une
distribution. Cette valeur se calcule toujours partir d'un
dnombrement des modalits du caractre. Il faut donc distinguer le
cas des caractres discrets et des caractres continus (voir notions
de bases). * Caractre qualitatif et caractre discret : Pour un
caractre qualitatif, ou pour un caractre quantitatif discret ayant
un nombre de modalits infrieur au nombre d'lments, le mode est la
modalit ou la valeur qui a la frquence simple la plus leve (ou
l'effectif le plus lev, ce qui revient au mme). * Caractre
quantitatif continu : Les modalits tant en nombre infini, il est
peu probable que deux lments aient la mme valeur. Dans ce cas, le
mode ne peut pas tre dfini directement, il faut au pralable tablir
une partition en classes. Le mode est alors le centre de la classe
modale, c'est dire de la classe qui a la frquence moyenne la plus
leve. Le mode correspond la valeur lue en abscisse du sommet de
l'histogramme. Lorsque celui-ci prsente deux pics spars par un
creux, on dit que la distribution est bimodale. APPLICATION III
Application III. 1 : Cas de calcul des modes : - Cas 1 : Donnes
ranges : le mode est la valeur de la donne qui apparat le plus
frquemment (celle qui a le plus doccurrences) : 140 ; 141 ; 144 ;
144 ; 148 ; 148 ; 152 ; 152 ;152 ; 154 ; 155 ; 158 ; 158 ; 161 ;
170 ; 172 Le mode est 152 car il possde le plus grand nombre
doccurrences (il est rfrenc 3 fois) - Cas 2 : Donnes condenses : le
mode est la valeur de la donne qui possde la frquence la plus leve
(relative ou absolue). Modalits xi (age en annes) 14 16 18 21 22 24
25 Total Frquences absolues 5 12 10 8 11 7 3 56 Frquences relatives
0,089 0,214 0,179 0,143 0,196 0,125 0,054 1,000 Dans cette srie
statistique, le mode est gal Mo = 16 ans
35. Mondher Abrougui Biostatistique I ISEFC - 2008 35 - Cas 3 :
Donnes groupes en classes : la classe modale est la classe ayant la
plus haute frquence (relative ou absolue). Dans le tableau des
classes relatives la longueur de la rectrice de Bonasa umbellus ,
la classe modale est [155mm-160mm[. Il est possible de calculer de
faon plus prcise le mode en appliquant la formule suivante :
LmobmoMo ) 21 1 ( + += 1 = diffrence entre leffectif de la classe
modale et leffectif de la classe prcdente. bmo : Borne infrieur de
la classe modale Lmo : largeur de la classe modale 2 = diffrence
entre leffectif de la classe modale et leffectif de la classe qui
suit. 1 = (17-9) = 8 ; 2 = (17-16) = 1 ; bmo = 155 ; Lmo = 5 1595)
18 8 (155 = + +=Mo mm 6.1.2. La moyenne Formalisation mathmatique
de la moyenne arithmtique La moyenne arithmtique, not X ou , est la
mesure la plus commune de tendance centrale, elle se dfinit comme
la somme des scores divise par le nombre de scores. Par exemple, en
biologie la moyenne peut tre rsume par la somme des observations
divise par leffectif de lchantillon tudi: N X X = Elle est calcule
pour les caractres quantitatifs. * Calcul partir du tableau
lmentaire : La moyenne est la somme des valeurs divise par le
nombre d'lments : N X X n i i= = 1 * Calcul partir du tableau de
dnombrement : On effectue une moyenne pondre en assimilant chaque
classe j son centre jX et en pondrant par l'effectif nj de la
classe. N nX X j k j j )( 1 = = * Moyenne pondre :
36. Mondher Abrougui Biostatistique I ISEFC - 2008 36 Plus
gnralement, on recourt la pondration lorsque les units n'ont pas le
mme poids. Si chaque unit i est dcrite par sa modalit xi et son
poids pi, la moyenne pondre est : = = = n i i i n i i p p pX X 1 1
)( * Proprits de la moyenne 1) Si A = moyenne de X XnX n i i ==1 2)
La somme des carts la moyenne est gale zro. ( ) 0 1 == XX n i i 3)
La moyenne minimise les distances au carr ( )2 1 AX n i i = est
minimum si ,et seulement si, A est la moyenne du caractre X
Application III.2 : 1) Exemple avec illustration Soit les valeurs
de quatre notes : 10, 12, 13 et 16, la moyenne arithmtique est: (11
+ 12 + 13 + 16) / 4 = 13 Illustration 10 11 12 13 14 15 16 17 1 2 3
4 Notes Moyenne La moyenne arithmtique donne une valeur telle que
la somme des carts (rectangles jaunes) est nulle
37. Mondher Abrougui Biostatistique I ISEFC - 2008 37 La somme
de n fois la moyenne donne la somme des n valeurs Les nombres a, b,
c, d, ... sont dits en progression arithmtique, dans cet ordre, si
la distance qui les spare est constante : b - a = c -b = d - c =
... Avec trois nombres, si 2b = a + c alors b est la moyenne
arithmtique de a et c 2) Exemple Soit la srie statistique suivante
: valeurs 0 1 2 3 4 effectifs 1 2 1 4 2 La moyenne est : x = 0 + 1
+ 1 + 2 + 3 + 3 + 3 + 3 + 4 + 4 1 + 2 + 1 + 4 + 2 = 24 10 = 2,4 On
prfrera crire : x = 0 + 21 + 2 + 43 + 24 1 + 2 + 1 + 4 + 2 = 24 10
= 2,4 3) Calcul de la moyenne Soit la srie statistique suivante :
valeurs x1 x2 xp effectifs n1 n2 np La moyenne est : x = n1x1 +
n2x2 + + npxp n1 + n2 + + np Remarque : Si les donnes ont t
regroupes en classes, on ne peut calculer la valeur exacte de la
moyenne. On peut toutefois en dterminer une bonne approximation en
remplaant chaque classe par son milieu. 4) Dans les sries
statistiques suivantes dterminer les moyennes : a) Tableau de
frquences valeurs 12 13 14 15 16 frquences 0,05 0,17 0,43 0,30 0,05
x = b) Donnes rparties en classes classes [0 ; 5[ [5 ; 10[ [10 ;
15[ [15 ; 20] effectifs 7 12 14 2
38. Mondher Abrougui Biostatistique I ISEFC - 2008 38 Remplaons
chaque classe par son milieu : x 5) Proprits a) Addition ou
Multiplication de toutes les donnes par un mme nombre : Ex : Soit
la srie : 10, 12, 14. x = Ajoutons 2 : la nouvelle srie est : 12,
14, 16. x = Divisons par 2 : la nouvelle srie est : 6, 7, 8. x =
Cas gnral : Soit un rel quelconque : Si l'on ajoute toutes les
donnes, la moyenne augmente d' Si on multiplie toutes les donnes
par , la moyenne est multiplie par Si on divise toutes les donnes
par , la moyenne est divise par b) Moyennes partielles Ex : Sur un
patient diabtique aprs 10 prises de sang, le taux moyen de glycmie
est rgul 1,25g/l. La valeur de la glycmie la 11me prise est de 0,8
g/l. Quel est le nouveau taux moyen de glycmie de ce patient ? -
Calculons la somme des 10 prises de sang = 1,25 x 10 = 12,5 g/l -
Calculons la nouvelle somme des 11 prises de sang = 1,25 x 10 + 0,8
= 13,3 g/l - Calculons la nouvelle moyenne des 11 prises de sang =
13,3/11 = 1,20g/l Cas gnral : Si on runi deux groupes disjoints
ayant respectivement pour moyennes et effectifs, x1 et n1 d'une
part, x2 et n2 d'autre part, la moyenne de l'ensemble sera alors :
x = n1 x1 + n2 x2 n1 + n2 Application III.3 : Calculer des moyennes
en utilisant le logiciel Excel et calculer la moyenne de lexemple 2
de lApplication III.2 : 6.1.2. 1. Calcul de la moyenne par
changement dorigine et dunit. (Voir partie Application VII :
Approfondissement) 6.1.2.2. Autres indicateurs de moyenne : Il
existe des indicateurs de la moyenne autre que la moyenne
arithmtique. Nanmoins, ils sont moins utiliss en biostatistique car
ils ne prsentent d'intrt que dans des cas trs particuliers. Ils ne
feront pas lobjet de ces modules: la moyenne gomtrique, la moyenne
harmonique, la moyenne quadratique, la moyenne
arithmtico-gomtrique.
39. Mondher Abrougui Biostatistique I ISEFC - 2008 39 6.1.3. La
mdiane et la classe mdiane 6.1.3.1. Dfinition gnrale : On appelle
mdiane la valeur "du milieu". On dit qu'elle partage la srie
statistique en deux moitis : il y a autant de valeurs en dessous
qu'au dessus. (Cest la donne qui permet de diviser une srie ordonne
dune faon croissante en 2 parties gales (50%, 50%). La mdiane ne
peut tre calcule que pour les caractres quantitatifs. 6.1.3.2.
Mdiane, pour les donnes ranges : Les valeurs du caractre X tant
classes par ordre croissant, la mdiane est la valeur du caractre
qui partage l'ensemble dcrit par X en deux sous ensembles
d'effectifs gaux : 50 % des lments ont des valeurs de X suprieures
X md et 50% prennent des valeurs infrieures. - Mthode Soit une srie
statistique d'effectif total n, range par ordre croissant. Pour
dterminer son rang, il y a 2 cas : si n est impair : la mdiane est
la valeur de rang n + 1 2 md = 44 si n est pair : nous prendrons la
demi-somme des deux valeurs dont les rangs entourent le nombre n +
1 2 md = 45 APPLICATION IV Application IV.1 Cas de donnes discrtes
"en vrac" 10, 7, 12, 18, 16, 15, 5, 11, 11, 20, 15, 11, 18, 14
Ordonnons la srie par ordre croissant : 5, 7, 10, 11, 11, 11, 12,
14, 15, 15, 16, 18, 18, 20 Il y a 14 termes or la valeur de rang
est 14+1 2 = 7,5. La mdiane est donc la demi somme des 7me et 8me
termes : mdiane = 12 + 14 2 = 13 6.1.3.3. Mdiane, pour les donnes
condenses : La dfinition est la mme, elle correspond dans ce cas la
premire modalit ou valeur dont la frquence relative cumule dpasse
0,500 ou leffectif cumul dpasse les 50%. Mthode : Il faut calculer
les frquences ou les effectifs cumuls ds que celle-ci atteint
respectivement 0.5 ou 50% il suffit de choisir le nombre mi chemin
entre la modalit ou valeur concerne et la suivante. 18 43 44 46 62
18 43 44 46 62 95
40. Mondher Abrougui Biostatistique I ISEFC - 2008 40
Application IV.2 Cas dun tableau d'effectifs On ordonne le tableau,
et on cherche l'lment qui partage la distribution en deux parties
gales: on repre l'lment qui a le rang (N+1)/2 pour le caractre X.
Si la distribution a un nombre impair d'lments on trouve une valeur
unique qui est la mdiane, si la distribution a un nombre pair
d'lments, on trouve deux valeurs qui dterminent un intervalle mdian
: on prend alors pour mdiane le centre de cet intervalle mdian.
valeurs 1 2 3 4 5 6 effectifs 6 11 25 19 15 5 effectifs cumuls 6 17
42 61 76 81 frquence 17 42 61 76 81 frquence 0,07 0,14 0,31 0,23
0,19 0,06 frquences cumules 0,07 0,21 0,52 0,75 0,94 1,00
L'effectif total est de 81 or la valeur de rang 81+1 2 = 41. La
mdiane est donc le 41me terme : mdiane = 3 6.1.3.4. Mdiane, pour
les donnes rparties par classes Remarque Si les donnes ont t
regroupes en classes, on ne peut dterminer la valeur exacte de la
mdiane. En revanche, on appellera classe mdiane, la classe qui la
contient (et permet donc d'en donner un encadrement). La classe
mdiane est la premire classe o la frquence cumule est suprieure
0,500. Application IV.3 classe [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 8]
frquence 10% 38% 45% 7% frquence cumule 10% 48% 93% 100% 48% des
valeurs sont strictement infrieures 4 Et 93% des valeurs sont
strictement infrieures 6 La classe mdiane est donc la classe [4 ;
6[ On peut donc en dduire l'encadrement suivant 4 < md < 6
Mthode de calcul Pour prciser la valeur de la mdiane, il faut
supposer que toutes les donnes sont rparties uniformment
(c'est--dire que les donnes sont rparties sur un continuum). On
repre la classe qui contient la mdiane, puis on ralise une
interpolation linaire pour estimer la valeur de celle-ci selon la
formule suivante : Lmd Fmd Fmd BmdMd )500,0 ( 1 += O : Bmd : Borne
infrieure de la classe mdiane Fmd-1 : Frquence relative cumule de
la classe qui prcde la classe mdiane. Fmd : Frquence relative de la
classe mdiane. Lmd : largeur, amplitude des classes Attention, il
faut bien interprter cette dernire ligne : Les donnes qui valent 3
ont un rang compris entre 18 et 42 inclus
41. Mondher Abrougui Biostatistique I ISEFC - 2008 41
Application pour lexemple prcdent : 088,42 45,0 )48,0500,0 (4 =
+=Md Remarques : Rq1 : Autre mthode de calcul de la mdiane : il est
aussi possible de dterminer la mdiane l'aide des polygones des
effectifs cumuls (voir TD) Rq2 : Proprits de la mdiane : La mdiane
est la valeur du caractre qui est la plus proche de toutes les
autres. C'est celle qui minimise les distances en valeur absolue :
N xi - xmd est minimum si et seulement si xmd est la mdiane du
caractre X i=1 6.1.4 Quantiles : Mesures de position statistique en
rfrence la mdiane Il a t vu prcdemment que la mdiane partage la
distribution des frquences en 2 parties gales. Il est possible de
partager une distribution de frquence en 4 parties gales
(quartiles), en 10 parties gales (dciles), en 100 parties gales
(centiles), en n parties gales. 6.1.4.1. Dfinition des quantiles :
on appelle quantiles les valeurs du caractre qui dfinissent les
bornes d'une partition en classes d'effectifs gaux. 6.1.4.2. Les
quartiles sont les trois valeurs qui permettent de dcouper la
distribution en quatre classes d'effectifs gaux. On les notes XQ1,
XQ2 et XQ3 Reprsentation des quartiles Partition du caractre Xmin
intervalle interquartile 1 intervalle interquartile 2 intervalle
interquartile 3 Xmax intervalle interquartile 4 Frquence des lments
25% XQ1 Quartile infrieur 25% XQ2 Mdiane 25% XQ3 Quartile suprieur
25% - Q1 : quartile infrieur, 25% des valeurs de la variable lui
sont infrieures et 75% lui sont suprieures - Q2 : mdiane, 50% des
valeurs de la variable lui sont infrieures et 50% lui sont
suprieures - Q1 : quartile suprieur, 75% des valeurs de la variable
lui sont infrieures et 25% lui sont suprieures Remarque : XQ2 est
gal la mdiane. 6.1.4.3. Les dciles sont les 9 valeurs de X qui
permettent de dcouper la distribution en dix classes d'effectifs
gaux. 0n les note Xd1...Xd9. Reprsentation des dciles Partition du
caractre Xmin Int-1 Int-2 Int-3 .. Int-9 Xmax Int-10 Frquence des
lments 10% Xd1 1/10 10% Xd2 1/20 10% Xd3 1/30 Xd8 1/20 10% Xd9 9/10
10%
42. Mondher Abrougui Biostatistique I ISEFC - 2008 42
Int-(intervalle interdcile) - D1 : dcile infrieur, 10% des valeurs
de la variable lui sont infrieures et 90% lui sont suprieures - D2
: 20% des valeurs de la variable lui sont infrieures et 80% lui
sont suprieures - D3 : 30% des valeurs de la variable lui sont
infrieures et 70% lui sont suprieures - D4 :. - D5 : mdiane, 50%
des valeurs de la variable lui sont infrieures et 50% lui sont
suprieures . - D9 : dcile suprieur, 90% des valeurs de la variable
lui sont infrieures et 10% lui sont suprieures 6.1.4.4. Les
centiles sont les 99 valeurs de X qui permettent de dcouper la
distribution en 100 classes d'effectifs gaux. 0n les note
Xc1...Xc99. Remarques Les diffrentes mesures de position (quartile,
dcile,) ne sont que des cas particuliers des centiles. Les centiles
sont donc trs utiles pour dterminer les valeurs des autres mesures
de positions Exemple de correspondances entre mesures de positions
Q1= C25 = 25me centile Q2= C50 = D50 = 50me centile = Mdiane Q3 =
C75 = 75me centile D1= C10 = 10me centile D2= C20 = 20me centile D9
= C90 = 90me centile 6.1.4.5. Calculs des quantiles Nous nous
limiterons aux cas des centiles car nous pouvons facilement faire
des correspondances avec les autres mesures de positions.
6.1.4.5.1. Dtermination des valeurs de la variable partir dun rang
centile donnes. C : rang du centile (le rang est donne, quelle est
la valeur de la variable correspondant ce rang ?) a) Cas des donnes
ranges : C : rang du centile : Il correspond la donne dont le rang
est lentier qui suit : 100 N si 100 N nest pas un entier. Dans le
cas contraire si 100 N est un entier, C correspond la donnes dont
la position (le rang) est a mis chemin entre le rang donne par :
100 N et la position suivante N : nombre total de valeurs dans la
srie statistique : le rang du centile
43. Mondher Abrougui Biostatistique I ISEFC - 2008 43
Application IV.4 Exemples : Soit la srie statistique suivante : 58
; 59 ; 64 ; 64 ; 64 ; 68 ; 71 ; 71 ; 79 ; 82 ; 82 ; 85 ; 92 ; 92 ;
92 ; 95 - trouver les centiles suivants : C15 ; C40 - trouver les
quartiles : Q2 et Q3 Rponses : N : 16 - Pour centile C15 : =15, le
rang de la donne est dtermin par la formule 4,2 100 1516 100 == xN
La valeur nest pas un entier, le rang est donc le premier entier
suivant 2,4 ainsi C15 correspond au rang 3, ce dernier correspond
la valeur : 64 - Pour centile C40 (qui correspond au dcile 4) : =20
le rang de la donne est dtermin par la formule 4,6 100 4016 100 ==
xN La valeur nest pas un entier, le rang est donc le premier entier
suivant 6,4 ainsi C40 (ou D4) correspond au rang 7, ce dernier
correspond la valeur : 71 - Pour centile C50 ou quartile Q2 ou la
mdiane (qui correspond au dcile 5) : =50 le rang de la donne est
dtermin par la formule 8 100 5016 100 == xN La valeur est un
entier, C correspond la donnes dont la position (le rang) est a mis
chemin entre le rang 8 et le rang 9, ainsi Q2 correspond la moyenne
des valeurs du au rang 8 (qui correspond la valeur 71) et le rang 9
(qui correspond la valeur 71) : 75 2 7971 2 = + =Q - Pour centile
C75 ou quartile 3: =75 le rang de la donne est dtermin par la
formule 12 100 7516 100 == xN La valeur est un entier, C correspond
la donnes dont la position (le rang) est a mis chemin entre le rang
12 et le rang 13, ainsi Q3 correspond la moyenne des valeurs du au
rang 12 (qui correspond la valeur 85) et le rang 13 (qui correspond
la valeur 92) : 5,88 2 9285 3 = + =Q b) Cas des donnes condenses :
La mthode est identique la prcdente, mais il est aussi possible de
travailler avec les frquences relatives. Dans le cas de
dtermination avec les frquences, C correspond la premire modalit
dont la frquence cumule dpasse 100 . Dans le cas o 100 est un
entier, il suffira de choisir le nombre mi-chemin entre la modalit
concerne et la suivante.
44. Mondher Abrougui Biostatistique I ISEFC - 2008 44
Application IV.5 Calculons C69 pour des donnes condenses xi ni eff
cum fi Fi (freq cum) Choisir C = 69 128 8 8 0,11 0,11 calcul avec
les effectifs 145 13 21 0,18 0,29 C 69 = 49,68 160 14 35 0,19 0,49
calcul avec les frquences 180 16 51 0,22 0,71 C 69 = 0,69 195 11 62
0,15 0,86 197 7 69 0,10 0,96 209 3 72 0,04 1,00 Somme 72 Pour le
calcul avec les effectifs : la formule est la suivante : (N=72)
68,49 100 6972 100 == xN C69 correspond la modalit occupant le rang
50 dans la distribution, elle correspond donc la valeur 180 Pour le
calcul avec les frquences : la formule est la suivante : 69,0100/69
100 == C69 correspond la modalit dont la frquence relative cumule
dpasse 0,69. Dans la distribution, cette frquence correspond la
valeur 180 c) Cas des donnes groupes en classes : La classe
contenant C correspond la premire classe o la frquence cumule
atteint ou dpasse 100 , par rfrence la formule du calcul de la
mdiane (vue prcdemment) il est possible dcrire la formule suivante
de C Lc Fc Fc BcC )100( 1 += O : Bc : Borne infrieure de la classe
contenant c Fc -1 : Frquence relative cumul de la classe qui prcde
la classe contenant c Fc : Frquence relative de la classe contenant
c. Lc : largeur, amplitude de la classe contenant c
45. Mondher Abrougui Biostatistique I ISEFC - 2008 45
Application IV.6 Calculer C80 des classes suivantes : limites
infrieures des classes (cm) mi ni eff cum fi Fi (freq cum) 130 135
12 12 0,12903 0,1290 140 145 20 32 0,21505 0,344 150 155 24 56
0,25806 0,602 160 165 21 77 0,22581 0,828 170 175 11 88 0,11828
0,946 180 185 5 93 0,05376 1,000 Somme 93 1,00000 La classe
contenant C (C80) est la premire classe o Fi > 80,0100/80 100 ==
C80 correspond la classe [160-170[ Calcul de la valeur de la
modalit correspondant C80 Lc Fc Fc BcC )100( 1 += Bc : Borne
infrieure de la classe contenant C80 = 160 cm Fc -1 : Frquence
relative cumul de la classe qui prcde la classe contenant C80 =
0,828 Fc : Frquence relative de la classe contenant C80 = 0,22581
Lc : largeur, amplitude de la classe contenant C80 =
130-140=150-140==10cm AN (application numrique) cmC 7619,16810)
22581,0 828,0 100 80 (16080 = += 6.1.4.5.2. Dtermination du rang
centile partir dune valeur donne de la variable. Cet dtermination
est le processus inverse par rapport aux lments prcdent du
paragraphe : 5.1.4.5.1., ce qui consiste recherche C pour une
valeur connu Xi dune srie statistique X. a) Cas des donnes ranges
ou condenses Il suffit de calculer simplement le pourcentage des
donnes infrieures la valeur (ou observation) donne.
46. Mondher Abrougui Biostatistique I ISEFC - 2008 46
Application IV.7 Exemple 1 : srie ordonne croissante Dans les
valeurs de la glycmie de la srie statistique suivante trouver le
centile C de la valeur 0,96g/l : 0,6 g/l; 0,6 g/l; 0,65 g/l; 0,7
g/l; 0,72 g/l; 0,72 g/l; 0,72 g/l; 0,74 g/l; 0,75 g/l; 0,75 g/l;
0,76 g/l; 0,78 g/l; 0,78 g/l; 0,8 g/l; 0,8 g/l; 0,83 g/l; 0,83 g/l;
0,84 g/l; 0,84 g/l; 0,84 g/l; 0,9 g/l; 0,96 g/l; 1,01 g/l; 1,02
g/l; 1,1 g/l; 1, 15 g/l; 1,16 g/l; 1,18g/l ; 1,2g/l. Il sagit de
trouver le pourcentage des donnes dont la valeur de la glycmie est
infrieure 0,96g/l : Cette valeur est la 22 positions (22me valeur
de la srie ordonne de faon croissante), il y a 21 valeurs de la
glycmie infrieures 0,96g/l sur un total de 29 valeurs (N= 29),le
pourcentage est donc de : %41,72) 29 21 (100 = , ainsi le rang
centile C de la valeur de la glycmie de 0,96g/l est de 72 (la
valeur de 0,96g/l de glycmie correspond au centile C72) Application
IV.8 Exemple 2: tableau de distribution condense Dans le tableau de
distribution des valeurs de la glycmie suivante trouver le centile
C de la valeur 1,1g/l : xi (g/l) 0,6 0,65 0,7 0,75 0,8 0,85 0,9
0,95 1 1,05 1,1 1,15 1,2 ni 8 12 24 26 32 32 28 26 21 24 20 18 11
ni (cum) 8 20 44 70 102 134 162 188 209 233 253 271 282 Il sagit de
trouver le pourcentage des donnes dont la valeur de la glycmie est
infrieure 1,1g/l : Cette valeur est la 253 positions (253 me
valeurs des effectifs cumuls), il y a 233 valeurs de la glycmie
infrieures 1,1g/l sur un total de 282 valeurs (N= 282), le
pourcentage est donc de : %62,82) 282 233 (100 = , ainsi le rang
centile C de la valeur de la glycmie de 1,1g/l est de 82 (au moins
82% des valeurs de la glycmie sont infrieures 1,1g/l). b) Cas des
donnes ranges en classes Le rang centile C dune donne (ou
observation) est obtenu par la formule suivante + 1)(100 r r rr Ffr
L bx Xr : la donne dont on recherche le rang centile C br : borne
infrieure de la classe contenant Xr Lr : largeur de la classe
contenant Xr fr : frquence relative de la classe contenant Xr Fr-1
: frquence relative cumule de la classe qui prcde la classe
contenant Xr
47. Mondher Abrougui Biostatistique I ISEFC - 2008 47
Application IV.9 Exemple : tableau de distribution group en classes
Dans le tableau de distribution des valeurs de la glycmie suivante
trouver le centile C de la valeur 1,1g/l : xi (g/l) [0,6-0,7[
[0,7-0,8[ [0,8-0,9[ [0,9-1,0[ [1,0-1,1[ [1,1-1,2[ [1,2-1,3[
[1,3-1,4[ [1,4-1,5[ somme ni 20 18 26 28 29 25 21 20 21 208,00 fi
0,10 0,09 0,13 0,13 0,14 0,12 0,10 0,10 0,10 1,00 ni (cum) 20 38 64
92 121 146 167 187 208 Fi cum 0,10 0,18 0,31 0,44 0,58 0,70 0,80
0,90 1,00 Recherchons les rangs centile des valeurs de la glycmie
suivante : 0,81g/l ; 1,12g/l et 1,18g/l * Pour la valeur de la
glycmie de 0,8g/l 0,8g/l se situe dans la classe [0,8-0,9[, le rang
centile de 0,8g/l est len