96
Mondher Abrougui Biostatistique « I » ISEFC - 2008 1 INSTITUT SUPERIEUR DE L’EDUCATION ET DE LA FORMATION CONTINUE Département Biologie – Géologie SN101/1 " BIOSTATISTIQUE - 1 " Cours & Activités : Mondher Abrougui Année Universitaire - 2008

Biostatistique

Embed Size (px)

DESCRIPTION

 

Citation preview

  • 1. Mondher Abrougui Biostatistique I ISEFC - 2008 1 INSTITUT SUPERIEUR DE LEDUCATION ET DE LA FORMATION CONTINUE Dpartement Biologie Gologie SN101/1 " BIOSTATISTIQUE - 1 " Cours & Activits : Mondher Abrougui Anne Universitaire - 2008
  • 2. Mondher Abrougui Biostatistique I ISEFC - 2008 2 PLAN DU COURS - BIOSTATISTIQUE BIOSTATISTIQUE 1 = L1 : Statistiques descriptives une ou deux variables BIOSTATISTIQUE 2 = L2 : Statistiques infrentielles une ou deux variables BIOSTATISTIQUE 3 = L3 : Statistiques multifactorielles descriptive et infrentielles BIOSTATISTIQUE 1 STATISTIQUES DESCRIPTIVES UNE OU DEUX VARIABLES CHAPITRE I. ELEMENTS DE STATISTIQUE ET DE BIOSTATISTIQUE 1. INTRODUCTION A LA STATISTIQUE 2. OBJECTIF DES MODULES DE BIOSTATIQUE 2.1. Le module biostatistique I : Statistiques descriptives 2.2. Le module biostatistique II : Statistiques infrentielles 2.3. Le module biostatistique III : Statistiques multifactorielles descriptive et infrentielle 3. DEMARCHE GENERALE EN STATISTIQUE 3.1. Lidentification du problme 3.2. Le recueil des donnes 3.3. L'analyse et l'interprtation des donnes 4. NOTIONS DE BASE ET TERMINOLOGIE 4.1. Ensemble / Population / Echantillon / Elment / Individu 4.2. Recensement / Echantillonnage 4.2.1. Le recensement 4.2.2. Lchantillonnage 4.3. Caractre / Modalit / Variable: 4.3.1. Le caractre 4.3.2. Modalit / Mesure 4.3.3. Tableau lmentaire 4.3.4. La variable statistique 4.3.5. Nature des variables statistiques et chelles de mesures 4.3.5.1. Variable quantitatif. 4.3.5.2. Variable qualitative 4.3.5.3. Exemple dillustration des principaux types de descripteurs 4.3.6. Variables dpendantes et indpendantes 4.3.6.1. Les variables indpendantes 4.3.6.2. Les variables dpendantes 4.3.7. La variabilit et l'incertain en biologie 4.3.7.1 La variabilit biologique 4.3.7.2 La variabilit mtrologique 4.3.8. Proprits des variables 4.4. Infrence et risque statistique 4.5. Une dfinition plus explicite de la biostatistique : 4.6. Dnomination mathmatique :
  • 3. Mondher Abrougui Biostatistique I ISEFC - 2008 3 5. REPRESENTATION DES DONNEES 5.1. Tableaux statistiques 5.2. Reprsentations graphiques et statistique descriptive 5.2.1. Lhistogramme 5.2.1.1. Lhistogramme : paramtres de description (mode et symtrie) 5.2.2. Barre moustache - Box Plot 6. STATISTIQUES DESCRIPTIVES UNIVARIEES 6.1. Paramtre de position et valeurs centrales 6.1.1. Le mode, ou valeur dominante 6.1.2. La moyenne 6.1.2. 1. Calcul de la moyenne par changement dorigine et dunit. 6.1.2.2. Autres indicateurs de moyenne : 6.1.3. La mdiane et la classe mdiane 6.1.3.1. Dfinition gnrale : 6.1.3.2. Mdiane, pour les donnes ranges 6.1.3.3. Mdiane, pour les donnes condenses 6.1.3.4. Mdiane, pour les donnes rparties par classes 6.1.4 Quantiles : Mesures de position statistique en rfrence la mdiane 6.1.4.1. Dfinition des quantiles 6.1.4.2. Les quartiles 6.1.4.3. Les dciles 6.1.4.4. Les centiles 6.1.4.5. Calculs des quantiles 6.1.4.5.1. Dtermination des valeurs de la variable partir dun rang centile donnes. 6.1.4.5.2. Dtermination du rang centile partir dune valeur donne de la variable. 6.1.5. Moyenne et mdiane 6.1.6. Avantages et inconvnients des diffrentes valeurs centrales : 6.2. Paramtre de dispersion 6.2.1. Les paramtres de dispersion absolue 6.2.1.1 Ltendue de la variation 6.2.1.2. Quartile et intervalle interquartile : Mesures de la dispersion statistique en rfrence la mdiane 6.2.1.2.1. L'intervalle interquartile 6.2.1.2.2. L'intervalle inter-dcile 6.2.1.3. Mesures de la dispersion statistique en utilisant lcart semi-interquartile 6.2.1.4. Mesures de la dispersion statistique en rfrence la moyenne arithmtique 6.2.1.4.1. Ecart absolu moyen ou Ecart Moyen Absolu EMA 6.2.1.2.2. Variance et cart-type : 6.2.2. Les paramtres de dispersion relative 6.3 Exercices dApplications avec explicitation et utilisation du logiciel Excel 6.3. Paramtres de forme 6.3.1. Coefficient dasymtrie et de drive 6.3.1.1. Coefficient dasymtrie 6.3.1.2. Coefficient de drive 6.3.2. Coefficient daplatissement PARTIE EXERCICES CHAPITRE II
  • 4. Mondher Abrougui Biostatistique I ISEFC - 2008 4 ETUDE DE DEUX VARIABLES STATISTIQUES - SERIE STATISTIQUE DOUBLE - 1. PRESENTATION DUNE SERIE A DEUX VARIABLES 2. GENERALISATION DES REPRESENTATIONS 3. CALCUL DES FREQUENCES DUNE STATISTIQUE A DEUX VARIABLES 3.1. Frquences relatives partielles 4. CALCUL DES MOYENNES MARGINALES DUNE STATISTIQUE A DEUX VARIABLES 5. COVARIANCE 6. COEFFICIENT DE CORRELATION 7. DROITE DE REGRESSION OU DAJUSTEMENT 7.1. Importance de ltude de corrlation entre 2 variables statistiques 7.2. Droite de rgression linaire CHAPITRE III. INFORMATIQUE ET STATISTIQUE : Pr-requis, mise niveau et apprentissages 1. INFORMATIQUE : PRE-REQUIS ET MISE A NIVEAU 1.1. Matriels et interfaces utiles 1.2 Pr requis 1.3 Mise niveau thorique et pratique 2. APPRENTISSAGES INFORMATIQUE ORIENTE STATISTIQUE 2.1. Gestion de donnes numrique et de tableau sur Word et Excel 2.2. Gestion de calculs et de formules statistique dans Excel 2.3. Gestion et laboration de calcul statistique sur Excel 2.4. Gestion et laboration de reprsentations graphiques sur Excel 2.5. Utilisation et insertion de Macro dans Excel 2.6. Reprsentation de sries et calculs statistique (tableau et graphique) 2.7. Ajustement linaire de sries chronologiques avec et sans variations saisonnires. 2.8. Prsentation et principe de logiciel danalyse de donne statistique 2.9. Utilisation Excel et prsentation d XLSTAT comme outil pour statistique descriptive APPLICATIONS ET TRAVAUX DIRIGES EXERCICES APPLIQUES : STATISTIQUES ET INFORMATIQUE PLANCHE DACTIVITES QUELQUES STATISTICIENS LEXIQUE FRANAIS / ANGLAIS BIBLIOGRAPHIE
  • 5. Mondher Abrougui Biostatistique I ISEFC - 2008 5 CHAPITRE I. ELEMENTS DE STATISTIQUE ET DE BIOSTATISTIQUE 1. INTRODUCTION A LA STATISTIQUE Statistique : le terme statistique dsigne la fois : 1) l'ensemble des donnes numriques concernant une catgorie de faits (sens trs ancien). Il s'agit de l'expression dans sa signification la plus usuelle. 2) l'ensemble des mthodes mathmatiques permettant : a) de rsumer quantitativement l'information recueillie sur un ensemble d'lments au moyen d'une investigation exhaustive. C'est la statistique descriptive, qui fait l'objet de ce cours. b) de gnraliser de grands ensembles d'lments les conclusions tires des rsultats obtenus avec des ensembles beaucoup plus restreints appels chantillons. C'est la statistique infrentielle ou probabiliste, qui sera brivement explicite dans ce module et plus explicite dans les modules de Biostatistique II et III. Les statistiques ont pour origine le besoin des tats pour grer rationnellement leurs ressources. Pour cela, il tait ncessaire aprs collecte d'informations (ncessit de techniques de quantification ; production de donnes nombreuses, organises en tableaux) de disposer de mthodes permettant de dfinir les variations, les volutions, les ressemblances ou les diffrences entre rgions, entre annes, entre catgories. Exemple de problmes : Dnombrement des populations humaines : recensements Dnombrement des terres et leur rpartition. Calcul et rpartition des impts. Ces techniques se sont mises en place grce au dveloppement du calcul des probabilits au 18me sicle; puis, au 19me sicle grce lmergence des mthodes statistiques. Il s'agissait au dpart de l'tude mthodique des faits sociaux par des procds numriques : classements, dnombrements, inventaires chiffrs, recensements, destins renseigner et aider les gouvernements dans leurs prises de dcisions. partir de 1843, la statistique dsigne l'ensemble de techniques d'interprtation mathmatique appliques des phnomnes pour lesquels une tude exhaustive de tous les facteurs est impossible, cause de leur grand nombre ou de leur complexit. Les statistiques s'appuient sur les probabilits et sur la loi des grands nombres. La statistique vise dcrire, rsumer et interprter des phnomnes dont le caractre essentiel est la variabilit. Elle fournit de la manire la plus rigoureuse possible des lments d'apprciation utiles l'explication ou la prvision de ces phnomnes, mais elle n'explique ni ne prvoit aucun d'entre eux (Vigneron 1997). La mthode statistique permet galement d'prouver la validit de rsultats (obtenus, mesurs, collects) en fonction mme de leur variabilit, dans les domaines o les variations sont la rgle, c'est--dire les domaines de la biologie sensu lato, dans celui des sciences de l'environnement galement. La mthode statistique fournit de ce fait tous les personnels confronts l'interprtation de rsultats d'observation ou d'exprimentation, un outil d'interprtation adapt aux conditions particulires de leur domaine d'activit.
  • 6. Mondher Abrougui Biostatistique I ISEFC - 2008 6 L'attrait des chiffres tient dans la croyance que la mensuration est le critre primordial de toute tude scientifique (Francis Galton (1822-1911)). Cette fascination rpond l'ide que ce que nous voyons et mesurons dans le monde n'est que la reprsentation superficielle et imparfaite d'une ralit cache. Il faut se mfier de cette tendance qui veut que les mesures abstraites rsumant de grands tableaux de donnes doivent exprimer ncessairement quelque chose de plus rel et de plus fondamental que les donnes elles-mmes. Tout statisticien doit faire un effort pour contrebalancer cette tendance. C'est pourquoi toute interprtation statistique doit prciser clairement quelles donnes (population, chantillon), et quelles hypothses ont t utilises pour aboutir un certain type de conclusion. 2. OBJECTIF DES MODULES DE BIOSTATIQUE Lenseignement de la biostatistique est subdivis en 3 modules : Biostatistique I, Biostatistique II et Biostatistique III. Ces trois modules complmentaires ont pour objectifs de permettre aux tudiants de dvelopper des comptences qui leur permettront : - dacqurir et de parfaire la connaissance des principales notions relatives lutilisation des mthodes statistiques, - de rsoudre des questions empiriques par lutilisation des tests statistiques, - de matriser et de complter les notions de bases des statistiques en vue de les appliquer des exemples spcifiques aux sciences biologiques, prises dans leur sens gnral (biologie, mdecine, pharmacie, cologie) - dappliquer ces notions et mthodes sur des donnes biologiques partir de logiciels simples - dutiliser des logiciels de statistique et dapprendre la lecture de leurs rsultats. Les statistiques constituent, en biologie, l'outil permettant de rpondre de nombreuses questions qui se posent en permanence aux biologistes, en voici, titre dexemples quelques unes : - Quelle est la valeur normale d'une grandeur biologique, taille, poids, glycmie ? - Quelle est la fiabilit d'une mesure ou dune observation ? - Quel est le risque ou lavantage dun traitement? - Les conditions exprimentales A sont-elles plus efficaces que celles des conditions de B ? - Les effets de la variable A sont-ils les mmes ou diffrent-ils des effets de la variable B ? Ces cours visent dvelopper la comprhension conceptuelle des biostatistiques, travers lapplication, les suppositions sous-jacentes, et linterprtation danalyses statistiques prsentes avec un minimum de formules et avec lassistance dinterface et de logiciels informatiques. 2.1. Le module biostatistique I : Statistiques descriptives Ce module est une initiation aux notions fondamentales de statistique descriptive (non paramtrique et paramtrique). Il explicitera les procds classiques de la statistique une dimension, uni-modale, bimodale et uni-varie qui permettent de rsumer et danalyser linformation recueillie sur chaque caractre (variable (continue ou discrte, qualitative ou quantitative)) pris isolment. Ce module de Biostatistique 1, vise initier les tudiants aux statistiques et prsenter brivement la premire tape de lanalyse des donnes : la description. Lobjectif poursuivi dans une telle analyse est de 3 ordres : - tout dabord, obtenir un contrle des donnes et liminer les donnes aberrantes, - ensuite, rsumer les donnes (opration de rduction) sous forme graphique ou numrique, - enfin, tudier les particularits de ces donnes
  • 7. Mondher Abrougui Biostatistique I ISEFC - 2008 7 Ce qui permettra ventuellement de choisir des mthodes plus complexes. Les mthodes descriptives se classent en deux catgories qui souvent sont complmentaires : la description numrique et la description graphique. La prsentation synthtique dun grand ensemble de donnes rsultant de ltude de plusieurs caractres quantitatifs ou qualitatifs sur une population sera traite par le module de biostatistique III. 2.2. Le module biostatistique II : Statistiques infrentielles Ce module reprend les lments de bases des statistiques descriptives en y introduisant une approche plus probabiliste. Les mthodes statistiques sont orientes vers des tudes classiques destimation et dhypothse, de manire satisfaire les conditions d'applications des mthodes de l'infrence (approche dductiviste). Il fourni des outils statistique qui permettent d'tendre ou de gnraliser, dans certaines conditions, les conclusions obtenues par la statistique descriptive partir de la fraction des individus (chantillon) que l'on a observ ou tudi exprimentalement, l'ensemble des individus constituant la population. L'objectif de ce module de statistique infrentielle est de fournir des rsultats relatifs une population partir de mesures statistiques ralises sur des chantillons ou de comparer statistiquement et de faon significative si des chantillons sont identiques ou non selon un ou plusieurs paramtres ou tests (indpendance, hypothses, estimation,). 2.3. Le module biostatistique III : Statistiques multifactorielles descriptive et infrentielle Ce module complte les modules de biostatistique I et II. Il sera centr sur ltude multifactorielle qui fournit des mthodes visant dcrire linformation globale dont on dispose quand on considre les caractres tudis dans leur ensemble. Les interrelations entre les caractres et leurs effets sur la structuration de la population seront pris en considrations. LAnalyse en Composantes Principales (ACP) et lAnalyse Factorielle des Correspondances (AFC) ont pour but de rvler ces interrelations entre caractres et de proposer une structure de la population. Un des intrts majeurs de ces analyses est de fournir une mthode de reprsentation dune population dcrite par un ensemble de caractres dont les modalits sont quantitatives (mesures continues), pour une ACP, ou qualitatives (pour une AFC). 3. DEMARCHE GENERALE EN STATISTIQUE Toute tude statistique peut tre dcompose en deux phases au moins : le recueil ou la collecte des donnes statistiques, et leur analyse ou leur interprtation. 3.1. Lidentification du problme La phase prliminaire toute approche statistique vise dterminer et identifier le problme par un ensemble de questionnements qui permettront de dlimiter les investigations et les diffrentes approches : Quels sont les objectifs ? Quelle est la population ou lchantillon tudier ? Quels sont les caractristiques et les variables ? Que pourra apporter une tude statistique ?
  • 8. Mondher Abrougui Biostatistique I ISEFC - 2008 8 3.2. Le recueil des donnes Nous appellerons donnes les valeurs obtenus et rfrences suite une investigation ou une tude ralise (mesures, observations, enqutes,). Le recueil des donnes peut tre ralis soit par la simple observation des phnomnes, soit par l'exprimentation, c'est--dire en provoquant volontairement l'apparition de certains phnomnes contrls. Exemple : le rle de quelques substances (N, P, K) dans la production de biomasse chez les vgtaux. Lorsque les donnes sont trs nombreuses, ou particulirement difficiles obtenir, il sera ncessaire pour la mise en oeuvre rationnelle du recueil de dfinir des mthodes appropries de collecte. Il s'agira de plans d'chantillonnage ou de plans d'exprience dont la mise en oeuvre sera fonction du type de problme que l'on est amen rsoudre. Exemple : la numration des mammifres d'une aire protge : inventaire et recensement. Il existe de ce fait plusieurs mthodes de collecte des donnes (voir notions de base et terminologie): 3.3. L'analyse et l'interprtation des donnes L'analyse statistique se subdivise en deux tapes : - La statistique dductive ou descriptive : elle a pour but de rsumer et de prsenter les donnes observes sous la forme la plus accessible (simplification et rduction des donnes, la fois visuelle et conceptuelle). - L'analyse inductive ou infrence statistique est l'ensemble des mthodes permettant de formuler en termes probabilistes un jugement sur une population, partir des rsultats observs sur un chantillon extrait au hasard de cette population. Les mthodes statistiques les plus classiques sont celles de l'estimation (estimation par domaine de confiance) et celles de l'preuve d'hypothse. Leurs conceptions de base sont dues essentiellement R.A. Fisher (1890 - 1962). Elle permet d'tendre ou de gnraliser, dans certaines conditions, les conclusions obtenues par la statistique descriptive partir de la fraction des individus (chantillon) que l'on a observ ou tudi exprimentalement, l'ensemble des individus constituant la population. Les conditions (de validit) sont lies aux hypothses faites sur la population contenant les individus et sur la faon dont ont t prises les mesures. Cette phase inductive comporte des risques d'erreur qu'il convient d'apprcier. Ces deux tapes sont interdpendantes. En particulier, l'observation et l'exprimentation doivent tre organises (protocole) de manire satisfaire les conditions d'applications des mthodes de l'infrence. L'objectif de la statistique infrentielle est de fournir des rsultats relatifs une population partir de mesures statistiques ralises sur des chantillons (prvision, dcision..)
  • 9. Mondher Abrougui Biostatistique I ISEFC - 2008 9 4. NOTIONS DE BASE ET TERMINOLOGIE 4.1. Ensemble / Population / Echantillon / Elment / Individu - Lensemble en statistique, est la collection (finie ou infinie) d'units, ou d'lments, sur laquelle porte l'observation. Pour que cet ensemble soit correctement dfini, il faut lui donner une dfinition prcise de faon ce que deux personnes diffrentes aboutissent toujours la mme liste d'lments. L'ensemble des lments observs sera appel E. - Les lments sont les objets constitutifs de l'ensemble. Ce sont des objets dtermins dont l'appartenance tel ou tel ensemble E est sans ambigut. Les lments peuvent tre dsigns par leur position dans le tableau de donnes : 1 pour le premier, i pour un lment quelconque, n pour le dernier lment, N pour la somme des lments constituant lensemble. * Exemple : lment : membre d'une population statistique (spcimen, prlvement d'eau, individu...) * Question Quel est l'lment ? Il faut le dfinir de manire pouvoir le reconnatre sans ambigut. - La population correspond l'ensemble des individus sur lequel porte ltude ou la prvision, (il est gnralement difficile de ltudier dans sa totalit), et lchantillon reprsente la fraction de cette population qui est rellement observe ou tudie : - Population-cible : ensemble des lments viss, en principe, par l'chantillonnage. * Question Quelle est la population-cible ? Il s'agit l de la population sur laquelle on aimerait bien que les conclusions de l'tude portent. - Population statistique : ensemble des lments effectivement reprsents par l'chantillonnage. Les lments qui la composent se caractrisent par au moins une caractristique commune et exclusive qui permet de les distinguer sans ambigut. * Question Quelle est la population statistique ? Il faut mentionner la ou les caractristiques qui permettent de la distinguer de tout autre population statistique. - Population biologique: ensemble des individus d'une mme espce habitant un lieu donn un moment donn. Notion qui relve davantage de la biologie que de la statistique. * Question Quelle est la population biologique ? Il faut spcifier le temps et le lieu. - Communaut : ensemble des individus de diverses espces retrouvs dans un espace et un temps donns. Notion qui relve davantage de la biologie que de la statistique. - Quelle est la communaut ? Il faut spcifier le temps et le lieu. Exemples gnraux: - Pour les instituts de sondage, la population tudie sera un ensemble d'hommes et de femmes occupant une portion dfinie de l'espace (pays, rgion, commune) et l'chantillon " reprsentatif" sera un nombre limit mais reprsentatif des catgories pertinentes en fonction
  • 10. Mondher Abrougui Biostatistique I ISEFC - 2008 10 du problme pos (ge, sexe, catgories socio-professionnelles, origine gographique, etc.) (Pour la Tunisie, chantillons de 1000 1200 individus pour une population de prs de 10 millions d'habitants). - Toute l'eau qui s'coule d'une rivire un moment donn constitue la population. Les 20 prlvements de 10 cm3 que l'on va analyser constituent l'chantillon. - Le sang dune personne peut tre considr comme une population, une prise de sang comme un prlvement (individu, observation) et lensemble des prlvements sera considr comme un chantillon. La notion dindividu est trs large : les lments dun chantillon ou dune population sont appels gnralement des individus, cependant cette notion peut tre remplac par plusieurs dnominations: unit statistique, sujet, objet, lment, observation, mesure, doses, toutefois, ds que la dnomination est choisi aucune ambigut ne doit persiste. 4.2. Recensement / Echantillonnage 4.2.1. Le recensement : qui consiste gnralement en un recueil dinformations auprs de tous les individus dune population (ce qui est trs difficile dans le cas de la Biostatistique, mais plus facile dans des tudes dmographique). Il est plus adapt ltude des populations. Il consiste en un dnombrement de toutes les personnes ou individus ou attributs dune population dans sa totalit. Il sagit de la source de donnes la plus complte dont on dispose sur la population. La mthode est trs fastidieuse car rien nest nglig pour tenir compte de chaque individu. En effet, le recensement est trs important puisquil sagit de la seule enqute permettant de brosser un tableau dtaill de toute la population. Lenqute ou la prise de donnes ou le rfrencement des attributs couvre toute la population, ce qui facilite la comparaison des renseignements enregistrs. Exemples : population dun pays ; pollution mondiale ; animaux en voie de disparition ; gnome humain ; . 4.2.2. Lchantillonnage : qui consiste gnralement en un recueil dinformations auprs de quelques individus ou partie dune population lchantillon , (ce qui est gnralement le cas en Biostatistique). Parfois lchantillonnage se fait par sondage (cas en gologie (tremblement de terre), en mdecine) chantillon : fragment d'un ensemble prlev pour juger de cet ensemble. Fraction de la population statistique sur laquelle des mesures sont faites pour connatre les proprits de cette population. * Question - quel est l'chantillon ? Quel est son effectif ?
  • 11. Mondher Abrougui Biostatistique I ISEFC - 2008 11 Figure 1 : Populations et chantillons chantillon reprsentatif : chantillon qui reprsente fidlement la composition et la complexit de la population statistique. - pour tre reprsentatif, un chantillon doit tre alatoire. - reprsentatif ne veut pas dire "conforme l'ide que le chercheur se fait de la population"! chantillon alatoire: chantillon prlev de manire ce que chacun des lments de la population statistique ait une probabilit connue et non nulle d'appartenir cet chantillon. - un chantillon alatoire est reprsentatif de sa population statistique - alatoire ne signifie pas "n'importe comment"! chantillon alatoire simple : prlvement au hasard, de faon indpendante, d'un certain nombre d'lments de la population statistique. Tous les lments ont la mme probabilit d'tre inclus dans l'chantillon. 4.3. Caractre / Modalit / Variable: 4.3.1. Le caractre, les lments d'un ensemble sont dcrits par un caractre. Cela revient tablir une correspondance entre chaque lment i de l'ensemble E et l'ensemble X des modalits ou des valeurs du caractre. La fonction f : E X i xi est une application au sens mathmatique : chaque lment de E a une modalit (caractre qualitatif) ou une valeur (caractre quantitatif) et une seule dans X. Ainsi le caractre peut tre dfini comme une des caractristiques ou des attributs dun individu, 4.3.2. Modalit / Mesure : la modalit (respectivement la mesure) est lune des formes particulire dun caractre. Les diffrentes situations o les lments de E peuvent se trouver l'gard d'un caractre qualitatif considr, sont les diffrentes modalits du caractre qualitatif X. Dans le cas ou le caractre X est quantitatif, les diffrentes situations o les lments de E peuvent se trouver sont des mesures. Ces modalits ou ces mesures doivent tre la fois incompatibles (un lment de E ne peut prendre qu'une seule modalit) et exhaustive ( chaque lment de E doit pouvoir correspondre une modalit de X) de sorte que chaque lment de E ait une modalit et une seule dans X.
  • 12. Mondher Abrougui Biostatistique I ISEFC - 2008 12 En statistique, chaque individu peut tre dfinit par un ensemble dattributs qui le caractrise dans le contexte dun problme tudi. La couleur du pelage est un caractre Les variantes de la couleur du pelage sont des modalits : noir, gris,... Le sexe est un caractre, ses modalits sont de 2 types : soit male soit femelle La taille peut prendre plusieurs modalits : 1m ; 1,1m ; 1,2m etc Autres exemple de caractres : Le taux de glycmie, la vitesse de coagulation ; la production laitire ; 4.3.3. Tableau lmentaire : c'est un tableau simple entre o les lignes correspondent aux lments de l'ensemble tudi et les colonnes aux caractres (ou variables) dcrivant ces lments (Tableau 1 (1.1 et 1.2)). Variables Observations Variable 1 Variable 2 Variable Variable p Observation 1 Observation 2 Observation Observation n Tableau 1.1 : exemple de tableau de saisie lmentaire La premire colonne est en principe rserve la liste nominale des lments. Tableau 1.2 : Exemples de tableaux de donnes 4.3.4. La variable statistique, chaque attribut (ou caractre ou caractristique) a des modalits, ou peut sexprimer selon une mesure, celles-ci varient dun individu lautre ou dun groupe dindividus un autre groupe dindividus. La variable statistique est le nom que lon donne ces caractres (attributs, caractristiques).
  • 13. Mondher Abrougui Biostatistique I ISEFC - 2008 13 Explicitation de variable en biologie : caractristique mesurable ou observable sur un lment (variable propre) ou dans son environnement (variable associe). 4.3.5. Nature des variables statistiques et chelles de mesures Dans chaque tude statistique il est trs important de considrer la nature des donnes (observations, caractres, attributs) que l'on va tester. D'elle dpend la nature des oprations possibles et donc des statistiques utilisables dans chaque situation. Il est donc primordial de prciser la nature de chaque variable, ou caractre. Il existe deux types de variables (ou observations, celles-ci peuvent tre soit quantitatives soit qualitatives. Ces variables peuvent tre mesures do limportance du choix des chelles de mesures, c'est--dire, des rgles permettant daffecter une valeur chaque individu de la population ou de lchantillon. 4.3.5.1. Variable quantitatif : c'est un caractre auquel on peut associer un nombre c'est-- dire, pour simplifier, que l'on peut "mesurer" (grandeur mesurable). Les diffrentes situations o peuvent se trouver les lments sont des mesures; elles sont ordonnables et la moyenne a une signification On distingue alors deux types de caractre quantitatif : a - Variable discrte ou discontinue : c'est un caractre quantitatif, un tel caractre ne prend qu'un nombre fini de valeurs (valeur entire dnombrable et sans aucune valeur intermdiaire). Les diffrentes situations o peuvent se trouver les lments (observations, mesures, valeurs,) sont des nombres isols dont la liste peut tre tablie a priori. Exemple: (nombre d'enfants, nombre de ptales dune fleur, nombre de dents,..) : (1 ; 2 ; 3 ; 4 ; 5 ;.10 ; 11 ;) b - Variable continue : c'est un caractre quantitatif, un tel caractre peut, thoriquement, prendre toutes les valeurs d'un intervalle de l'ensemble des nombres rels. Toutes les valeurs ne sont pas dnombrables et ne peuvent pas tre tablit a priori. Ses valeurs sont alors regroupes en classes (taille, temps, poids, vitesse, glycmie, altitude, surfaces,.) (1,60 m ; 1,61 m ; 1,62 m ;..) c - Les mesures des donnes ou variables quantitatives comprennent les dnombrements (ou comptages) et les mesures (ou mensurations). c1 - Dans le cas des dnombrements, la caractristique tudie est une variable discrte ou discontinue, ne pouvant prendre que des valeurs entires non ngatives (nombre de fruits par rameau, nombre de ptales par fleur, nombre de ttes de btail..). Il suffit de compter le nombre d'individus affects par chacune des valeurs de la variable. Exemple : nombre de ptales par fleur dans un chantillon de 1000 fleurs de Renonculus repens. Nombre de ptales par fleur 3 4 5 6 7 Nombre de fleurs 1 20 959 18 2 c2 - Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface, concentration, temprature..). Les valeurs possibles sont illimites mais du fait des mthodes de mesure et du degr de prcision de l'appareil de mesure, les donnes varient toujours de faon discontinue.
  • 14. Mondher Abrougui Biostatistique I ISEFC - 2008 14 Les mensurations peuvent tre ralises dans plusieurs chelles de mesure : lchelle numrique, l'chelle de rapport, l'chelle d'intervalle. Elles sont manipulables suivant les oprations de l'arithmtique. c2.1 - L'chelle numrique est caractrise par limportance des valeurs mesures. Le (0) signifie bien l'absence du phnomne. Exemple : population, taux de fcondit, prcipitations. c2.2 - L'chelle de rapport ou de taux exprime le rapport entre deux valeurs. Leur total n'a pas de signification et caractris par l'existence d'un zro absolu et de distances de taille connue entre deux valeurs quelconque de l'chelle. C'est le cas de la mesure de la masse ou du poids. En effet, les chelles de mesure des poids en pounds ou en grammes ont toutes deux un zro absolu et le rapport entre deux poids quelconque d'une chelle est indpendant de l'unit de mesure (le rapport des poids de deux objets mesurs en pounds et celui de ces mmes objets mesurs en grammes sont identiques). (Densit de population, proportion une date ou un lieu donne). c2.3 - Dans l'chelle d'intervalle, le point zro et l'unit de mesure sont arbitraires mais les distances entre deux valeurs quelconques de l'chelle sont de taille connue. Une telle chelle permet de reprer la position de chaque lment par rapport une origine arbitraire. La valeur 0 est donc conventionnelle et ne signifie pas l'absence du phnomne C'est le cas de la mesure de la temprature (chelle Fahrenheit ou Celsius), de la Latitude de la Longitude, laltitude, ... Ces chelles quantitatives sont compatibles avec l'utilisation de tests paramtriques. 4.3.5.2. Variable qualitative : c'est un caractre qualitatif, dans ce type de variable les modalits ne sont pas quantifiables (pas mesurables) (couleur des yeux, douleur, ). Ce sont des noms ou ce qui revient au mme des sigles ou des codes. Les diffrentes modalits ne sont pas ordonnables. Attention, mme si les modalits sont des codes numriques, les oprations sur les modalits n'ont aucun sens. Exemple : type de relief avec trois modalits (plaine, montagne, plateau), ou encore taille dune niche cologique avec quatre modalits (petite, moyenne, grande, trs grande). Les donnes qualitatives peuvent tre assimiles au cas des variables discontinues, en supposant que les diffrentes variantes du caractre qualitatif sont ranges dans un ordre correspondant par exemple la suite des nombres entiers positifs (diffrentes couleurs, diffrents degrs d'infection...). Les donnes qualitatives peuvent tre ralises dans deux chelles de mesure : chelle de rangement et l'chelle nominale. Ces donnes ne sont pas manipulables par l'arithmtique. a - Dans l'chelle ordinale (de rangement), on parle dans ce cas de caractre ordinal (caractres qui peuvent tre exprims sur une chelle ordinale) : dans cette chelle chaque modalit est explicitement significative du rang pris par chaque individu pour le caractre considr. Si E possde N lments, les modalits seront 1er , 2eme , 3eme , ... neme . Comme on possde juste l'ordre des individus, on ne sait rien de l'intervalle des valeurs. Il existe une certaine relation entre les objets du type plus grand que, suprieur , plus difficile que, prfre ..... Une transformation ne changeant pas l'ordre des objets est admissible. La statistique la plus approprie pour dcrire la tendance centrale des donnes est la mdiane. b - Dans l'chelle nominale, les nombres ou symboles identifient les groupes auxquels divers objets appartiennent. C'est le cas des numros d'immatriculation des voitures ou de scurit
  • 15. Mondher Abrougui Biostatistique I ISEFC - 2008 15 sociale (chanes de caractres). Le mme nombre peut tre donn aux diffrentes personnes habitant le mme dpartement ou de mme sexe constituant des sous-classes. Les symboles dsignant les diffrentes sous-classes dans l'chelle nominale peuvent tre modifis sans altrer l'information essentielle de l'chelle. Les seules statistiques descriptives utilisables dans ce cas sont le mode, la frquence... et les tests applicables seront centrs sur les frquences des diverses catgories. Ces deux dernires chelles ne permettent que l'utilisation de tests non paramtriques. 4.3.5.3. Exemple dillustration des principaux types de descripteurs Figure 2 : Typologie des caractres pour une approche statistique
  • 16. Mondher Abrougui Biostatistique I ISEFC - 2008 16 Figure 3 : Exemples de variables statistiques et chelles de mesures
  • 17. Mondher Abrougui Biostatistique I ISEFC - 2008 17 APPLICATION I Application I.1 Identifiez le type (et le sous-type) des variables suivantes : Rponses a) Le nombre danimaux par laboratoire ; a) quantitatif discret b) La niche cologique principale ; b) qualitatif nominal c) Le modle de matriel utilis ; c) qualitatif nominal d) La distance en kilomtre entre le prlvement A et le prlvement B ; d) quantitatif continue e) tre vgtarien ou non ; e) qualitatif ordinal f) Le temps pass observer le comportement X ; f) quantitatif continue g) Avoir ou non une rponse; g) qualitatif ordinal h) Le nombre de frres et soeurs. h) quantitatif discret 4.3.6. Variables dpendantes et indpendantes En statistique on adopte encore une autre dichotomie pour le concept de variable en parlant de variables indpendantes et de variables dpendantes. 4.3.6.1. Les variables indpendantes sont celles qui sont manipules par lexprimentateur (lappartenance au groupe et nous contrlons les traitements appliqus aux diffrents groupes). 4.3.6.2. Les variables dpendantes sont celles qui sont mesurs, rfrencs, exemple de donnes (survie, rsistances, tolrance, performance, ). Fondamentalement, une tude porte sur les variables indpendantes et les rsultats de ltude (les donnes) sont les variables dpendantes. 4.3.7. La variabilit et l'incertain en biologie Toutes les questions, proprement biologique en relation avec les statistiques, refltent une proprit fondamentale des systmes biologiques qui est leur variabilit. Cette variabilit est la somme d'une variabilit exprimentale (lie au protocole de mesure) et d'une variabilit proprement biologique. On peut ainsi dcomposer la variabilit d'une grandeur mesure en deux grandes composantes : Variabilit Totale = Variabilit Biologique + Variabilit Mtrologique 4.3.7.1 La variabilit biologique Elle peut tre dcompose en deux termes : - d'une part la variabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peut tre soumise des variations alatoires ; - d'autre part la variabilit interindividuelle qui fait que cette mme grandeur varie d'un individu l'autre.
  • 18. Mondher Abrougui Biostatistique I ISEFC - 2008 18 Variabilit Biologique = Variabilit intra-individuelle + Variabilit interindividuelle La variabilit intra-individuelle peut tre observe lors de la mesure de la performance d'un athlte qui n'est pas capable des mmes performances chaque essai, mais qui se diffrencie des autres athltes (variabilit interindividuelle). En gnral, la variabilit intra est moindre que la variabilit inter. 4.3.7.2 La variabilit mtrologique Elle peut tre elle aussi dcompose en deux termes : d'une part les conditions exprimentales dont les variations entranent un facteur d'alas ; et d'autre part les erreurs induites par l'appareil de mesure utilis. Variabilit Mtrologique = Variabilit Exprimentale + Variabilit instrumentale (appareil de mesure) La mesure de la pression artrielle peut grandement varier sur un individu donn suivant les conditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos d'au moins 15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recommandation vise minimiser la variabilit due aux conditions exprimentales. La prcision de l'appareil de mesure est une donne intrinsque de l'appareil, et est fournie par le constructeur. 4.3.8. Proprits des variables Caractristiques mesurables ou observables. Propres (attribut de l'lment) ou associes (composante de son environnement). Alatoires (diffrentes variantes peuvent apparatre, chacune avec une certaine probabilit) ou contrles (le chercheur obtient avec certitude la variante dsire, en gnral par manipulation). Dpendantes (on cherche en comprendre ou prvoir le comportement) ou indpendantes (expliquent par hypothse au moins une partie du phnomne tudi). Simples ou complexes (ex.: rapports, pourcentages...). Divers types mathmatiques et chelles de variation. 4.4. Infrence et risque statistique Infrence statistique: gnralisation la population statistique des rsultats d'un test statistique ralis sur un chantillon reprsentatif de cette population. Cette gnralisation se fait au risque du statisticien. Gnralisation la population-cible: lorsque cette dernire est diffrente de la population statistique, cette gnralisation se fait au risque du biologiste.
  • 19. Mondher Abrougui Biostatistique I ISEFC - 2008 19 Figure 4 : Reprsentation graphique de diffrentes populations et des risques 4.5. Une dfinition plus explicite de la biostatistique : La statistique est un ensemble dinstruments scientifiques par lesquels on recherche expliquer certains phnomnes. Elle se compose de mthodes permettant de recueillir, de classer, de prsenter et danalyser des observations relatives ces phnomnes pour en tirer ensuite des conclusions et prendre des dcisions. En biologie, la statistique est un ensemble de mthodes visant dcrire, rsumer et interprter des phnomnes dont le caractre essentiel est la variabilit. 4.6. Dnomination mathmatique : - E : reprsente lensemble de tous les individus sur lequel porte ltude statistique - : reprsente la population sur laquelle porte ltude statistique, Si E est une numration exhaustive de tous les individus susceptibles dtre analyss, il peut tre appel population ou univers et sera not . Dans le cas contraire, E sera un chantillon de . -E : reprsente le cardinal de E, cest le nombre de donnes (ou dobservations) rfrences, il correspond leffectif ou la taille qui est gnralement not N. La taille de lchantillon est leffectif ou le nombre dindividus sur lequel sont ralis effectivement les observations, cest un sous ensemble de E (dans le cas o E caractrise la population entire), il correspond gnralement au cardinal E. - N : reprsente la taille dune population ou dun chantillon, cest un nombre qui dsigne le nombre dindividu que rassemble un chantillon ou une population.
  • 20. Mondher Abrougui Biostatistique I ISEFC - 2008 20 - p : reprsente lensemble des variables caractrisant les individus sur lequel porte ltude statistique. E est de dimension p, si lanalyse de E est faite selon p variables (o p I (entier naturel)). Exemple : Dans une population E, on tudie 4 variables (w, x, y, et z) : w : age, x : le sexe, y : la taille et z : le poids. Dans ce cas E est de dimension p, ou de dimension 4 - Systme de notation Lorsqu'on mesure la valeur ou observe l'tat d'un certain nombre de variables sur un lment, on utilise l'une ou l'autre des notations suivantes pour dsigner les variables : - s'il y a une, deux ou trois variables : x, y et z - s'il y a plus de trois variables: x1, x2, x3 ... xj ... xp Les variables sont donc numrotes de la premire, la p-ime, une variable quelconque tant la jime. Un jeu de donnes (p.ex. un chantillon) comporte n lments. Un quelconque de ces lments est le i-ime. Ces lments sont souvent qualifis d'observations ou d'objets. - lorsqu'on mesure la valeur d'une variable x sur un lment quelconque (le i-ime), on dsigne cette valeur par xi. - i varie de 1 n, donc on a les mesures x1, x2, ... xi ... xn. Si le jeu de donnes consiste en un tableau de n lments dcrits par p variables (tableau n p), on note: Il arrive que les lments soient rpartis en k groupes caractriss par une variable qualitative. Dans ce cas, on peut aussi noter les observations d'une variable par un double indice, le premier dsignant le numro de l'observation au sein d'un groupe (i-ime lment), le deuxime dsignant le numro du groupe (gime groupe ou j-ime groupe): - xig ou encore xij la mesure prise sur le i-ime lment du g-ime (ou j-ime) groupe.
  • 21. Mondher Abrougui Biostatistique I ISEFC - 2008 21 - Notation somme (sigma) La lettre grecque sigma majuscule dsigne une sommation (addition de tous les lments d'un ensemble). La sommation des valeurs des n observations d'une variable x, soit de tous les xi pour i allant de 1 n, se note: = n i ix1 Donc ni n i i xxxxx ++++== .....21 1 Si l'on veut faire la somme de tous les lments d'un tableau de n observations et p variables, on crira: +++++++++= = = n i npijni p j xxxxxxxxxij 1 2212111211 1 .......... Si a est une constante, tous les ai sont gaux. Donc: naaaaa ni n i ia =++++== .....21 1 = = +=+ n i i n i i xnaax 1 1 )( == = n i i n i i xaax 11 On se sert de ces proprits des sommations pour simplifier ou dvelopper des expressions comportant des sommations.
  • 22. Mondher Abrougui Biostatistique I ISEFC - 2008 22 Application I.2 Simplifier le plus possible l'expression suivante: Dvelopper le plus possible l'expression suivante:
  • 23. Mondher Abrougui Biostatistique I ISEFC - 2008 23 - Frquences absolues, relatives et cumules (voir tableau exemple) Dsign par F ou f La notion de frquence peut tre exprime de plusieurs manires : * Frquence absolue (effectif) * Frquence relative (ou frquence) * Frquences cumules Variables Exemples de Frquences x1 x2 x3 x4 Total Effectif ou Frquence absolue (ni) 8 2 9 3 22 Frquence absolue cumule croissante 8 8+2=10 10+9=19 19+3=22 Frquence absolue cumule dcroissante 22 22-8=14 14-2=12 12-9=3 Frquence relative (fi) 8/22 2/22 9/22 3/22 22/22 = 1 Frquence relative cumule croissante 8/22 8/22+2/22=10/22 19/22 22/22 Frquence relative cumule dcroissante ou frquence cumule dcroissante 22/22 = 1 22/22-8/22 =14/22 (14-2)/22 =12/20 (12-9)/22 =3/22 Tableau 2 : Exemples explicatifs des frquences (Ce tableau servira dexemple pour comprendre les notions de frquences) * Frquences absolues = Effectif Le terme de frquence absolue dsigne les effectifs : a chaque modalit xi du caractre X, peut correspondre un ou plusieurs individus dans l'chantillon de taille n. On appelle effectif (ou frquence absolue) de la modalit xi, le nombre ni o ni est le nombre dindividu de chacune des modalits * Frquence relative = Frquences On appelle frquence de la modalit xi, le nombre fi tel que n nf i i = Remarques : Rq1 : Le pourcentage est une frquence exprime en pour cent. Il est gal 100 fi. Rq2 : Lemploi des frquences ou frquences relatives savre utile pour comparer deux distributions de frquences tablies partir dchantillons de taille diffrente. * Frquences cumules = frquences relatives cumules On appelle frquences cumules ou frquences relatives cumules en xi, le nombre ficum tel que =cumf i = i p p f 1 Remarques Rq1 : la taille de lchantillon est = nn n i i ==1 Rq2 : 1 1 == k i f
  • 24. Mondher Abrougui Biostatistique I ISEFC - 2008 24 - Fonctions cumulatives * fonction cumule croissante ou ascendante * fonction cumule dcroissante ou descendante Dfinitions Soit S une srie statistique une variable de type quantitatif et a une modalit de S. La frquence cumule croissante associe a est la somme des frquences de toutes les modalits infrieures ou gales a dans la srie S. Dans le cas d'une srie S dont les modalits sont regroupes en classes, la frquence cumule croissante de la classe [a ; b[ est la somme des frquences de cette classe et des classes qui prcdent (c'est--dire dont les lments sont strictement infrieurs a) s'il y en a. Remarques * La frquence cumule croissante de la plus petite modalit ou de la classe laquelle appartiennent les plus petites modalits est gale la frquence de cette modalit ou de cette classe; * La frquence cumule croissante de la plus grande modalit ou de la classe laquelle appartiennent les plus grandes modalits est gale 1 (ou 100 % pour les frquences exprimes en pourcentages). 5. REPRESENTATION DES DONNEES Il existe plusieurs niveaux de description statistique : la prsentation brute des donnes, des prsentations par tableaux numriques, des reprsentations graphiques et des rsums numriques fournis par un petit nombre de paramtres caractristiques. Nous reviendrons sur les reprsentations graphiques et les tableaux respectivement dans les paragraphes suivants et dans les exemples 5.1. Tableaux statistiques En gnral une srie statistique caractre discret se prsente sous la forme : Valeurs X1 X2 .. Xp Effectifs N1 N2 .. Np Frquences F1 F2 .. Fp Plutt que rcrire ce tableau on crira souvent : la srie (xi, ni). (On n'indique pas le nombre de valeurs lorsqu'il n'y a pas d'ambigit). Souvent on notera N l'effectif total de cette srie donc N = n1+n2+. . .+np. (Voir paragraphe 4.3.3 ; 4.6 Tableau 1 et 2)
  • 25. Mondher Abrougui Biostatistique I ISEFC - 2008 25 Application I.3 : Caractres quantitatifs discrets Dans le cas dun caractre quantitatif discret, ltablissement de la distribution des donnes observes associes avec leurs frquences est immdiat. Exemple : La ccidomyie du htre provoque sur les feuilles de cet arbre des galles dont la distribution de frquences observes est la suivante : Caractre X : xi : nombre de galles par feuille 0 1 2 3 4 5 6 7 8 9 10 ni : nombre de feuilles portant xi galles 182 98 46 28 12 5 2 1 0 1 0 fi : frq. relative 0,485 0,261 0,123 0,075 0,032 0,013 0,005 0,003 0 0,003 0 fi cum. : frq. Relative cumule 0,485 0,746 0,869 0,944 0,976 0,989 0,994 0,997 0,997 1 1 La taille de lchantillon tudi est n = 375 feuilles Application I.4 : Utiliser le logiciel Excel pour dresser ces tableaux et raliser les calculs Application I.5 : Caractres quantitatifs continus (Mots cls : Nombre de classes, intervalle entre classe (amplitude), tendu de la variable X) Dans le cas d'un caractre quantitatif continu, ltablissement du tableau de frquences implique deffectuer au pralable une rpartition en classes des donnes. Cela ncessite de dfinir le nombre de classes attendu et donc lamplitude associe chaque classe ou intervalle de classe. En rgle gnrale, on choisit des classes de mme amplitude. Pour que la distribution en frquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs (ni). Diverses formules empiriques permettent dtablir le nombre de classes pour un chantillon de taille n. La rgle de STURGE : )log3,3(1 nclassedeNombre += La rgle de YULE : 4 5,2 nclassedeNombre = L'intervalle entre chaque classe est obtenu ensuite de la manire suivante : Intervalle de classe = (X max - X min) / Nombre de classes Avec Xmax et Xmin, respectivement la plus grande et la plus petite valeur de X dans la srie statistique. A partir de Xmin on obtient les limites de classes ou bornes de classes par addition successive de lintervalle de classe. En rgle gnral, on tente de faire concider lindice de classe ou valeur centrale de la classe avec un nombre entier ou ayant peu de dcimales. Toutes les donnes sont comprises entre Xmin et Xmax et chaque donne appartient une et une seule classe.
  • 26. Mondher Abrougui Biostatistique I ISEFC - 2008 26 Exemple : Dans le cadre de ltude de la population de glinottes huppes (Bonasa umbellus), les valeurs de la longueur de la rectrice principale peuvent tre rparties de la faon suivante : 158 152 171 163 140 157 162 171 158 164 163 159 153 160 149 158 152 165 156 162 150 154 155 162 155 164 164 157 159 158 159 153 163 158 174 162 156 151 160 158 162 166 162 164 158 153 165 158 150 160 Dfinition du nombre de classes : Rgle de Sturge : 1 + (3,3 log 50) = 6,60 Rgle de Yule : 4 505,2 = 6,64 Les deux valeurs sont trs peu diffrentes Dfinition de lintervalle de classe : mmIC 15,5 6,6 140174 = = que lon arrondit 5 mm par commodit Tableau de distribution des frquences Caractre X : xi : longueur de la rectrice bornes des classes en mm [140-145[ [145-150[ [150-155[ [155-160[ [160-165[ [165-170[ [170-175[ Valeur mdiane des classes xi 142,5 147,5 152,5 157,5 162,5 167 ,5 172,5 ni : nombre dindividu par classe de taille xi 1 1 9 17 16 3 3 fi : frquence relative 0,02 0,02 0,18 0,34 0,32 0,06 0,06 fi cum. : frquence relative cumule (croissante) 0,02 0,04 0,22 0,56 0,88 0,94 1 Application I.6 : Utiliser le logiciel Excel pour dresser ce tableau, calculer lintervalle des classes et raliser les calculs
  • 27. Mondher Abrougui Biostatistique I ISEFC - 2008 27 5.2. Reprsentations graphiques et statistique descriptive Les reprsentations graphiques sont trs importantes en statistique descriptive. Elles ont lavantage de renseigner immdiatement sur lallure gnrale de la distribution. Elles facilitent linterprtation des donnes recueillies. La reprsentation graphique des donnes montre la forme gnrale de la distribution et donne une image de la grandeur des nombres qui constituent les donnes. Dautres statistiques simples sont utilises pour reprsenter le centre de la distribution et les mesures lies la dispersion des observations autour de cette tendance centrale. Dans cette partie, nous ne prsenterons que les cas particuliers de lhistogramme et des Barres moustaches (Box Plot) cependant, dautres reprsentations seront abordes dans les diffrentes parties de ce fascicule. De plus, plusieurs activits pratiques de construction (voir TD) expliciteront les constructions de plusieurs types de graphes et prsenterons leurs nombreux avantages (pour plus dinformations consulter le document reprsentation graphique du TD). Exemple de graphe sous Excel Exemple de construction en TD 5.2.1. Lhistogramme Dfinition : L'histogramme consiste faire figurer les effectifs d'une variable par classe de valeur. Il est reprsent quand la variable est quantitative continue par des rectangles dont la surface (et non la hauteur) est proportionnelle aux effectifs.
  • 28. Mondher Abrougui Biostatistique I ISEFC - 2008 28 APPLICATION II Application II.1 - Lhistogramme : exemple A partir de la liste des valeurs du tableau des effectifs suivante, construire lhistogramme correspondant (utiliser le logiciel Excel) classes (mettre lunit) effectif (en nombre) 4 3 5 10 6 24 7 16 8 6 9 11 10 14 11 7 12 5 13 2 Tableau deffectifs Application II.2 : Les classes peuvent tre dfinies dintervalles gaux ou non. Dans ce dernier cas, seule la surface sera proportionnelle leffectif (et non la hauteur) 5.2.1.1. Lhistogramme : paramtres de description Pour dcrire la forme d'un histogramme on utilise les notions de mode et de symtrie : le mode est la valeur dominante, dont l'effectif est le plus lev. Un histogramme peut avoir aucun, un ou plusieurs modes. Dans un histogramme, le mode est le rectangle qui a l'aire la plus grande.
  • 29. Mondher Abrougui Biostatistique I ISEFC - 2008 29 La symtrie traduit la distribution des valeurs de part et dautre du ou des modes Cas dune distribution bimodale asymtrique Application II.3 : Caractres quantitatifs discrets Pour les caractres quantitatifs discrets, la reprsentation graphique est le diagramme en btons o la hauteur des btons correspond leffectif ni associ chaque modalit du caractre xi.
  • 30. Mondher Abrougui Biostatistique I ISEFC - 2008 30 Exemple : Dans lexemple de la ccidomyie du htre, la distribution des frquences observes du nombre de galles par feuille peut tre reprsente par un diagramme en btons avec en ordonne les effectifs ni et en abscisse les diffrentes modalits de la variable tudie. Application II.4 : Caractres quantitatifs continus Pour les caractres quantitatifs continus, la reprsentation graphique est lhistogramme o la hauteur du rectangle est proportionnelle leffectif ni. Ceci nest vrai que si lintervalle de classe est constant. Dans ce cas laire comprise sous lhistogramme savre proportionnelle leffectif total. En revanche lorsque les intervalles de classe sont ingaux, des modifications simposent pour conserver cette proportionnalit. Dans ce cas, en ordonne, au lieu de porter leffectif, on indique le rapport de la frquence sur lintervalle de classe. Ainsi la superficie de chaque rectangle reprsente alors leffectif associ chaque classe. Exemple : Dans lexemple de la longueur de la rectrice centrale des individus mles de la glinotte huppe, la distribution des frquences observes est reprsente par un histogramme avec en ordonne les effectifs ni et en abscisse les limites de classe de la variable tudie. Application II.5 : Utiliser le logiciel Excel pour raliser lhistogramme de lapplication 2
  • 31. Mondher Abrougui Biostatistique I ISEFC - 2008 31 5.2.2. Barre moustache - Box Plot Remarque : Pour comprendre cette partie il est ncessaire de se rfrer au paragraphe 6.1. Paramtre de position et valeurs centrales . Une "bote moustaches" (traduction franaise du terme "Box and Whiskers Plot", ou en abrg "Box Plot") est une reprsentation graphique de quelques paramtres de distribution d'une variable, invente par Tukey en 1977. Cest une reprsentation graphique dune variable quantitative qui permet dapprhender (rsumer une distribution empirique) la dispersion dun chantillon. Rappel (En rfrence au paragraphe 6.1. Paramtre de position et valeurs centrales .) On appelle intervalle inter-quantiles lintervalle [Q (0,25), Q (0,75)], qui contient la moiti centrale des valeurs de lchantillon. On appelle intervalle inter-dciles l'intervalle [Q (0,1), Q (0,9)], qui contient 80% des valeurs centrales de l'chantillon. Ces intervalles sont la base d'une reprsentation trs compacte de la distribution empirique : le diagramme en boite (ou bote moustaches, box plot, box-and-whisker plot). Il n'y a pas de dfinition standardise de cette reprsentation. Elle consiste en une bote rectangulaire, dont les deux extrmits sont les quartiles. Ces extrmits se prolongent par des traits termins par des segments orthogonaux (les moustaches). La longueur de ces segments varie selon les auteurs. Il existe donc plusieurs variantes pour reprsenter les boites moustache, nous traiterons de celle la plus frquemment utilise. Nous proposons par exemple de fixer la longueur des segments aux dciles extrmes. On reprsente aussi la mdiane par un trait dans la bote, et parfois les valeurs extrmes par des points (voir figure ci-dessous). Exemples de reprsentations graphiques: botes moustache (box-plot)
  • 32. Mondher Abrougui Biostatistique I ISEFC - 2008 32 Analysons rapidement les boites moustaches ci dessus : La bote moustaches utilise gnralement 5 valeurs qui rsument des donnes : - Le minimum, - Les 3 quartiles Q1, Q2 (mdiane) et Q3, - Le maximum. Les quartiles Q1, Q2, Q3 sont les lments essentiels de ce type de graphique. Nous dtaillerons les tapes de la construction des quartiles et de l'cart interquartile en TD. - les premier et troisime quartiles (Q1 (0,25) et Q3 (0,75)) : bordures infrieure et suprieure de la bote rectangulaire - la mdiane : trait horizontal long au sein de la bote rectangulaire (Q2 (0,5)) - la moyenne : marque plus (+) au sein de la bote, pouvant tre confondue avec la mdiane - les extrmits infrieure et suprieure des moustaches : marques en forme de tiret (-) situe sur le trait vertical, et correspondant respectivement la plus petite donne suprieure une valeur a1, et la plus grande donne infrieure une valeur a3; Il est possible de calculer ces extrmits avec les formules suivantes : a1= Q1-1.5*(Q3-Q1) = Q1-1,5QI a3= Q3+1.5*(Q3-Q1) = Q3-1,5QI avec QI = Intervalle inter-quartiles - les minimum et maximum : marques extrmes en forme de cercle (o) ; si le minimum ou le maximum n'est pas confondu avec le tiret d'extrmit de moustache, c'est qu'il s'agit d'une valeur atypique ("outlier"). Les valeurs atypiques peuvent tre situes strictement en dessous de la moustache infrieure a1 (nb atyp. inf.) ou strictement en dessus de la moustache suprieure a3 (nb atyp. sup.). Pour plus de dtails sur l'utilisation des botes moustaches, voir TD. Application II.6 : Cration et test dune macro BoxPlot sous Excel voir TD. Remarque : La mdiane est une valeur centrale de l'chantillon : il y a autant de valeurs qui lui sont infrieures que suprieures. Si la distribution empirique de l'chantillon est peu dissymtrique, comme par exemple pour un chantillon simul partir d'une loi uniforme ou normale, la moyenne et la mdiane sont proches. Si l'chantillon est dissymtrique, avec une distribution trs tale vers la droite, la mdiane pourra tre nettement plus petite que la moyenne. Contrairement la moyenne, la mdiane est insensible aux valeurs aberrantes. Elle possde une proprit d'optimalit par rapport l'cart absolu moyen.
  • 33. Mondher Abrougui Biostatistique I ISEFC - 2008 33 6. STATISTIQUES DESCRIPTIVES UNIVARIEES Quelques exemples * Exemples de sries univaries Une srie univarie est forme par une srie de mesures d'une variable quantitative, gnralement continue (valeurs dcimales), effectues sur un mme chantillon : Exemple 1 : - 5 mesures du poids d'un organe (en g) : 14,5 13,2 18,63 15,0 13,33 Eventuellement : on peut avoir faire un variable quantitative discrte (valeurs entires), pourvu que la notion de moyenne ait un sens par rapport cette variable (ce n'est pas un "code"): Exemple 2 : - 7 mesures du "nombre de poils aux pattes d'une mouche" : 27 28 25 21 28 19 20 * Donnes de deux sries univaries Dans cette situation, les deux sries de donnes concernent la mme variable. Dans la situation la plus courante, la premire srie provient d'un chantillon "tmoin", la seconde d'un chantillon "trait" : Exemple 1 : - On dispose de deux chantillons de rats males, dont on a mesur le poids corporel (en g): 3 rats TEMOINS : 410 432 417 5 rats TRAITES par un anabolisant : 435 482 457 502 473 Autre situation frquente : on observe le mme chantillon "avant" et "aprs" un traitement : Exemple 2 : - On mesure l'hmatocrite (units arbitraires) avant et aprs un traitement anticoagulant : les mesures AVANT le traitement : 97 103 95,5 102 100 les mesures APRES le traitement : 84 78 90,5 85 76 On peut aussi comparer des chantillons qui diffrent par l'origine bio-gographique, l'ge, le sexe... * Donnes de plusieurs sries univaries Les diffrentes sries de donnes concernent la mme variable. Plusieurs traitements ont t appliqus (ou bien on a chantillonn des populations rputes diffrentes) : Exemple : - On dispose de trois chantillons de rats males, dont on a mesur le poids corporel (en g): 3 rats TEMOINS : 410 ; 432 ; 417 5 rats TRAITES par un anabolisant : 435 ; 482 ; 457 ; 502 ; 473 4 rats traits par un PLACEBO : 422 ; 437 ; 395 ; 412 Les statistiques descriptives visent reprsenter des donnes dont on veut connatre les principales caractristiques quantifiant leur variabilit.
  • 34. Mondher Abrougui Biostatistique I ISEFC - 2008 34 Trois aspects sont essentiels l'interprtation d'une distribution : - Paramtre de position : le centre de la distribution et la rpartition autour d'une valeur centrale (moyenne, mode, mdiane, quantiles, ..) - Paramtre de dispersion ou dtendue : les valeurs sont-elles disperses ou concentres ? - Paramtre de forme : la forme de la distribution : la symtrie, laplatissement 6.1. Paramtre de position et valeurs centrales Le but des valeurs centrales est de rsumer en une seule valeur l'ensemble des valeurs d'une distribution statistique. Il existe quatre valeurs de positions : - Le mode (Mo), - La moyenne ( X ou ) - La mdiane ou le mdian (Me ou Md) - Les fractiles (Quantiles) (Qn) Parmi ces valeurs les trois premires sont des valeurs de position centrales : 6.1.1. Le mode, ou valeur dominante, est la valeur la plus frquente d'une distribution. Cette valeur se calcule toujours partir d'un dnombrement des modalits du caractre. Il faut donc distinguer le cas des caractres discrets et des caractres continus (voir notions de bases). * Caractre qualitatif et caractre discret : Pour un caractre qualitatif, ou pour un caractre quantitatif discret ayant un nombre de modalits infrieur au nombre d'lments, le mode est la modalit ou la valeur qui a la frquence simple la plus leve (ou l'effectif le plus lev, ce qui revient au mme). * Caractre quantitatif continu : Les modalits tant en nombre infini, il est peu probable que deux lments aient la mme valeur. Dans ce cas, le mode ne peut pas tre dfini directement, il faut au pralable tablir une partition en classes. Le mode est alors le centre de la classe modale, c'est dire de la classe qui a la frquence moyenne la plus leve. Le mode correspond la valeur lue en abscisse du sommet de l'histogramme. Lorsque celui-ci prsente deux pics spars par un creux, on dit que la distribution est bimodale. APPLICATION III Application III. 1 : Cas de calcul des modes : - Cas 1 : Donnes ranges : le mode est la valeur de la donne qui apparat le plus frquemment (celle qui a le plus doccurrences) : 140 ; 141 ; 144 ; 144 ; 148 ; 148 ; 152 ; 152 ;152 ; 154 ; 155 ; 158 ; 158 ; 161 ; 170 ; 172 Le mode est 152 car il possde le plus grand nombre doccurrences (il est rfrenc 3 fois) - Cas 2 : Donnes condenses : le mode est la valeur de la donne qui possde la frquence la plus leve (relative ou absolue). Modalits xi (age en annes) 14 16 18 21 22 24 25 Total Frquences absolues 5 12 10 8 11 7 3 56 Frquences relatives 0,089 0,214 0,179 0,143 0,196 0,125 0,054 1,000 Dans cette srie statistique, le mode est gal Mo = 16 ans
  • 35. Mondher Abrougui Biostatistique I ISEFC - 2008 35 - Cas 3 : Donnes groupes en classes : la classe modale est la classe ayant la plus haute frquence (relative ou absolue). Dans le tableau des classes relatives la longueur de la rectrice de Bonasa umbellus , la classe modale est [155mm-160mm[. Il est possible de calculer de faon plus prcise le mode en appliquant la formule suivante : LmobmoMo ) 21 1 ( + += 1 = diffrence entre leffectif de la classe modale et leffectif de la classe prcdente. bmo : Borne infrieur de la classe modale Lmo : largeur de la classe modale 2 = diffrence entre leffectif de la classe modale et leffectif de la classe qui suit. 1 = (17-9) = 8 ; 2 = (17-16) = 1 ; bmo = 155 ; Lmo = 5 1595) 18 8 (155 = + +=Mo mm 6.1.2. La moyenne Formalisation mathmatique de la moyenne arithmtique La moyenne arithmtique, not X ou , est la mesure la plus commune de tendance centrale, elle se dfinit comme la somme des scores divise par le nombre de scores. Par exemple, en biologie la moyenne peut tre rsume par la somme des observations divise par leffectif de lchantillon tudi: N X X = Elle est calcule pour les caractres quantitatifs. * Calcul partir du tableau lmentaire : La moyenne est la somme des valeurs divise par le nombre d'lments : N X X n i i= = 1 * Calcul partir du tableau de dnombrement : On effectue une moyenne pondre en assimilant chaque classe j son centre jX et en pondrant par l'effectif nj de la classe. N nX X j k j j )( 1 = = * Moyenne pondre :
  • 36. Mondher Abrougui Biostatistique I ISEFC - 2008 36 Plus gnralement, on recourt la pondration lorsque les units n'ont pas le mme poids. Si chaque unit i est dcrite par sa modalit xi et son poids pi, la moyenne pondre est : = = = n i i i n i i p p pX X 1 1 )( * Proprits de la moyenne 1) Si A = moyenne de X XnX n i i ==1 2) La somme des carts la moyenne est gale zro. ( ) 0 1 == XX n i i 3) La moyenne minimise les distances au carr ( )2 1 AX n i i = est minimum si ,et seulement si, A est la moyenne du caractre X Application III.2 : 1) Exemple avec illustration Soit les valeurs de quatre notes : 10, 12, 13 et 16, la moyenne arithmtique est: (11 + 12 + 13 + 16) / 4 = 13 Illustration 10 11 12 13 14 15 16 17 1 2 3 4 Notes Moyenne La moyenne arithmtique donne une valeur telle que la somme des carts (rectangles jaunes) est nulle
  • 37. Mondher Abrougui Biostatistique I ISEFC - 2008 37 La somme de n fois la moyenne donne la somme des n valeurs Les nombres a, b, c, d, ... sont dits en progression arithmtique, dans cet ordre, si la distance qui les spare est constante : b - a = c -b = d - c = ... Avec trois nombres, si 2b = a + c alors b est la moyenne arithmtique de a et c 2) Exemple Soit la srie statistique suivante : valeurs 0 1 2 3 4 effectifs 1 2 1 4 2 La moyenne est : x = 0 + 1 + 1 + 2 + 3 + 3 + 3 + 3 + 4 + 4 1 + 2 + 1 + 4 + 2 = 24 10 = 2,4 On prfrera crire : x = 0 + 21 + 2 + 43 + 24 1 + 2 + 1 + 4 + 2 = 24 10 = 2,4 3) Calcul de la moyenne Soit la srie statistique suivante : valeurs x1 x2 xp effectifs n1 n2 np La moyenne est : x = n1x1 + n2x2 + + npxp n1 + n2 + + np Remarque : Si les donnes ont t regroupes en classes, on ne peut calculer la valeur exacte de la moyenne. On peut toutefois en dterminer une bonne approximation en remplaant chaque classe par son milieu. 4) Dans les sries statistiques suivantes dterminer les moyennes : a) Tableau de frquences valeurs 12 13 14 15 16 frquences 0,05 0,17 0,43 0,30 0,05 x = b) Donnes rparties en classes classes [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20] effectifs 7 12 14 2
  • 38. Mondher Abrougui Biostatistique I ISEFC - 2008 38 Remplaons chaque classe par son milieu : x 5) Proprits a) Addition ou Multiplication de toutes les donnes par un mme nombre : Ex : Soit la srie : 10, 12, 14. x = Ajoutons 2 : la nouvelle srie est : 12, 14, 16. x = Divisons par 2 : la nouvelle srie est : 6, 7, 8. x = Cas gnral : Soit un rel quelconque : Si l'on ajoute toutes les donnes, la moyenne augmente d' Si on multiplie toutes les donnes par , la moyenne est multiplie par Si on divise toutes les donnes par , la moyenne est divise par b) Moyennes partielles Ex : Sur un patient diabtique aprs 10 prises de sang, le taux moyen de glycmie est rgul 1,25g/l. La valeur de la glycmie la 11me prise est de 0,8 g/l. Quel est le nouveau taux moyen de glycmie de ce patient ? - Calculons la somme des 10 prises de sang = 1,25 x 10 = 12,5 g/l - Calculons la nouvelle somme des 11 prises de sang = 1,25 x 10 + 0,8 = 13,3 g/l - Calculons la nouvelle moyenne des 11 prises de sang = 13,3/11 = 1,20g/l Cas gnral : Si on runi deux groupes disjoints ayant respectivement pour moyennes et effectifs, x1 et n1 d'une part, x2 et n2 d'autre part, la moyenne de l'ensemble sera alors : x = n1 x1 + n2 x2 n1 + n2 Application III.3 : Calculer des moyennes en utilisant le logiciel Excel et calculer la moyenne de lexemple 2 de lApplication III.2 : 6.1.2. 1. Calcul de la moyenne par changement dorigine et dunit. (Voir partie Application VII : Approfondissement) 6.1.2.2. Autres indicateurs de moyenne : Il existe des indicateurs de la moyenne autre que la moyenne arithmtique. Nanmoins, ils sont moins utiliss en biostatistique car ils ne prsentent d'intrt que dans des cas trs particuliers. Ils ne feront pas lobjet de ces modules: la moyenne gomtrique, la moyenne harmonique, la moyenne quadratique, la moyenne arithmtico-gomtrique.
  • 39. Mondher Abrougui Biostatistique I ISEFC - 2008 39 6.1.3. La mdiane et la classe mdiane 6.1.3.1. Dfinition gnrale : On appelle mdiane la valeur "du milieu". On dit qu'elle partage la srie statistique en deux moitis : il y a autant de valeurs en dessous qu'au dessus. (Cest la donne qui permet de diviser une srie ordonne dune faon croissante en 2 parties gales (50%, 50%). La mdiane ne peut tre calcule que pour les caractres quantitatifs. 6.1.3.2. Mdiane, pour les donnes ranges : Les valeurs du caractre X tant classes par ordre croissant, la mdiane est la valeur du caractre qui partage l'ensemble dcrit par X en deux sous ensembles d'effectifs gaux : 50 % des lments ont des valeurs de X suprieures X md et 50% prennent des valeurs infrieures. - Mthode Soit une srie statistique d'effectif total n, range par ordre croissant. Pour dterminer son rang, il y a 2 cas : si n est impair : la mdiane est la valeur de rang n + 1 2 md = 44 si n est pair : nous prendrons la demi-somme des deux valeurs dont les rangs entourent le nombre n + 1 2 md = 45 APPLICATION IV Application IV.1 Cas de donnes discrtes "en vrac" 10, 7, 12, 18, 16, 15, 5, 11, 11, 20, 15, 11, 18, 14 Ordonnons la srie par ordre croissant : 5, 7, 10, 11, 11, 11, 12, 14, 15, 15, 16, 18, 18, 20 Il y a 14 termes or la valeur de rang est 14+1 2 = 7,5. La mdiane est donc la demi somme des 7me et 8me termes : mdiane = 12 + 14 2 = 13 6.1.3.3. Mdiane, pour les donnes condenses : La dfinition est la mme, elle correspond dans ce cas la premire modalit ou valeur dont la frquence relative cumule dpasse 0,500 ou leffectif cumul dpasse les 50%. Mthode : Il faut calculer les frquences ou les effectifs cumuls ds que celle-ci atteint respectivement 0.5 ou 50% il suffit de choisir le nombre mi chemin entre la modalit ou valeur concerne et la suivante. 18 43 44 46 62 18 43 44 46 62 95
  • 40. Mondher Abrougui Biostatistique I ISEFC - 2008 40 Application IV.2 Cas dun tableau d'effectifs On ordonne le tableau, et on cherche l'lment qui partage la distribution en deux parties gales: on repre l'lment qui a le rang (N+1)/2 pour le caractre X. Si la distribution a un nombre impair d'lments on trouve une valeur unique qui est la mdiane, si la distribution a un nombre pair d'lments, on trouve deux valeurs qui dterminent un intervalle mdian : on prend alors pour mdiane le centre de cet intervalle mdian. valeurs 1 2 3 4 5 6 effectifs 6 11 25 19 15 5 effectifs cumuls 6 17 42 61 76 81 frquence 17 42 61 76 81 frquence 0,07 0,14 0,31 0,23 0,19 0,06 frquences cumules 0,07 0,21 0,52 0,75 0,94 1,00 L'effectif total est de 81 or la valeur de rang 81+1 2 = 41. La mdiane est donc le 41me terme : mdiane = 3 6.1.3.4. Mdiane, pour les donnes rparties par classes Remarque Si les donnes ont t regroupes en classes, on ne peut dterminer la valeur exacte de la mdiane. En revanche, on appellera classe mdiane, la classe qui la contient (et permet donc d'en donner un encadrement). La classe mdiane est la premire classe o la frquence cumule est suprieure 0,500. Application IV.3 classe [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 8] frquence 10% 38% 45% 7% frquence cumule 10% 48% 93% 100% 48% des valeurs sont strictement infrieures 4 Et 93% des valeurs sont strictement infrieures 6 La classe mdiane est donc la classe [4 ; 6[ On peut donc en dduire l'encadrement suivant 4 < md < 6 Mthode de calcul Pour prciser la valeur de la mdiane, il faut supposer que toutes les donnes sont rparties uniformment (c'est--dire que les donnes sont rparties sur un continuum). On repre la classe qui contient la mdiane, puis on ralise une interpolation linaire pour estimer la valeur de celle-ci selon la formule suivante : Lmd Fmd Fmd BmdMd )500,0 ( 1 += O : Bmd : Borne infrieure de la classe mdiane Fmd-1 : Frquence relative cumule de la classe qui prcde la classe mdiane. Fmd : Frquence relative de la classe mdiane. Lmd : largeur, amplitude des classes Attention, il faut bien interprter cette dernire ligne : Les donnes qui valent 3 ont un rang compris entre 18 et 42 inclus
  • 41. Mondher Abrougui Biostatistique I ISEFC - 2008 41 Application pour lexemple prcdent : 088,42 45,0 )48,0500,0 (4 = +=Md Remarques : Rq1 : Autre mthode de calcul de la mdiane : il est aussi possible de dterminer la mdiane l'aide des polygones des effectifs cumuls (voir TD) Rq2 : Proprits de la mdiane : La mdiane est la valeur du caractre qui est la plus proche de toutes les autres. C'est celle qui minimise les distances en valeur absolue : N xi - xmd est minimum si et seulement si xmd est la mdiane du caractre X i=1 6.1.4 Quantiles : Mesures de position statistique en rfrence la mdiane Il a t vu prcdemment que la mdiane partage la distribution des frquences en 2 parties gales. Il est possible de partager une distribution de frquence en 4 parties gales (quartiles), en 10 parties gales (dciles), en 100 parties gales (centiles), en n parties gales. 6.1.4.1. Dfinition des quantiles : on appelle quantiles les valeurs du caractre qui dfinissent les bornes d'une partition en classes d'effectifs gaux. 6.1.4.2. Les quartiles sont les trois valeurs qui permettent de dcouper la distribution en quatre classes d'effectifs gaux. On les notes XQ1, XQ2 et XQ3 Reprsentation des quartiles Partition du caractre Xmin intervalle interquartile 1 intervalle interquartile 2 intervalle interquartile 3 Xmax intervalle interquartile 4 Frquence des lments 25% XQ1 Quartile infrieur 25% XQ2 Mdiane 25% XQ3 Quartile suprieur 25% - Q1 : quartile infrieur, 25% des valeurs de la variable lui sont infrieures et 75% lui sont suprieures - Q2 : mdiane, 50% des valeurs de la variable lui sont infrieures et 50% lui sont suprieures - Q1 : quartile suprieur, 75% des valeurs de la variable lui sont infrieures et 25% lui sont suprieures Remarque : XQ2 est gal la mdiane. 6.1.4.3. Les dciles sont les 9 valeurs de X qui permettent de dcouper la distribution en dix classes d'effectifs gaux. 0n les note Xd1...Xd9. Reprsentation des dciles Partition du caractre Xmin Int-1 Int-2 Int-3 .. Int-9 Xmax Int-10 Frquence des lments 10% Xd1 1/10 10% Xd2 1/20 10% Xd3 1/30 Xd8 1/20 10% Xd9 9/10 10%
  • 42. Mondher Abrougui Biostatistique I ISEFC - 2008 42 Int-(intervalle interdcile) - D1 : dcile infrieur, 10% des valeurs de la variable lui sont infrieures et 90% lui sont suprieures - D2 : 20% des valeurs de la variable lui sont infrieures et 80% lui sont suprieures - D3 : 30% des valeurs de la variable lui sont infrieures et 70% lui sont suprieures - D4 :. - D5 : mdiane, 50% des valeurs de la variable lui sont infrieures et 50% lui sont suprieures . - D9 : dcile suprieur, 90% des valeurs de la variable lui sont infrieures et 10% lui sont suprieures 6.1.4.4. Les centiles sont les 99 valeurs de X qui permettent de dcouper la distribution en 100 classes d'effectifs gaux. 0n les note Xc1...Xc99. Remarques Les diffrentes mesures de position (quartile, dcile,) ne sont que des cas particuliers des centiles. Les centiles sont donc trs utiles pour dterminer les valeurs des autres mesures de positions Exemple de correspondances entre mesures de positions Q1= C25 = 25me centile Q2= C50 = D50 = 50me centile = Mdiane Q3 = C75 = 75me centile D1= C10 = 10me centile D2= C20 = 20me centile D9 = C90 = 90me centile 6.1.4.5. Calculs des quantiles Nous nous limiterons aux cas des centiles car nous pouvons facilement faire des correspondances avec les autres mesures de positions. 6.1.4.5.1. Dtermination des valeurs de la variable partir dun rang centile donnes. C : rang du centile (le rang est donne, quelle est la valeur de la variable correspondant ce rang ?) a) Cas des donnes ranges : C : rang du centile : Il correspond la donne dont le rang est lentier qui suit : 100 N si 100 N nest pas un entier. Dans le cas contraire si 100 N est un entier, C correspond la donnes dont la position (le rang) est a mis chemin entre le rang donne par : 100 N et la position suivante N : nombre total de valeurs dans la srie statistique : le rang du centile
  • 43. Mondher Abrougui Biostatistique I ISEFC - 2008 43 Application IV.4 Exemples : Soit la srie statistique suivante : 58 ; 59 ; 64 ; 64 ; 64 ; 68 ; 71 ; 71 ; 79 ; 82 ; 82 ; 85 ; 92 ; 92 ; 92 ; 95 - trouver les centiles suivants : C15 ; C40 - trouver les quartiles : Q2 et Q3 Rponses : N : 16 - Pour centile C15 : =15, le rang de la donne est dtermin par la formule 4,2 100 1516 100 == xN La valeur nest pas un entier, le rang est donc le premier entier suivant 2,4 ainsi C15 correspond au rang 3, ce dernier correspond la valeur : 64 - Pour centile C40 (qui correspond au dcile 4) : =20 le rang de la donne est dtermin par la formule 4,6 100 4016 100 == xN La valeur nest pas un entier, le rang est donc le premier entier suivant 6,4 ainsi C40 (ou D4) correspond au rang 7, ce dernier correspond la valeur : 71 - Pour centile C50 ou quartile Q2 ou la mdiane (qui correspond au dcile 5) : =50 le rang de la donne est dtermin par la formule 8 100 5016 100 == xN La valeur est un entier, C correspond la donnes dont la position (le rang) est a mis chemin entre le rang 8 et le rang 9, ainsi Q2 correspond la moyenne des valeurs du au rang 8 (qui correspond la valeur 71) et le rang 9 (qui correspond la valeur 71) : 75 2 7971 2 = + =Q - Pour centile C75 ou quartile 3: =75 le rang de la donne est dtermin par la formule 12 100 7516 100 == xN La valeur est un entier, C correspond la donnes dont la position (le rang) est a mis chemin entre le rang 12 et le rang 13, ainsi Q3 correspond la moyenne des valeurs du au rang 12 (qui correspond la valeur 85) et le rang 13 (qui correspond la valeur 92) : 5,88 2 9285 3 = + =Q b) Cas des donnes condenses : La mthode est identique la prcdente, mais il est aussi possible de travailler avec les frquences relatives. Dans le cas de dtermination avec les frquences, C correspond la premire modalit dont la frquence cumule dpasse 100 . Dans le cas o 100 est un entier, il suffira de choisir le nombre mi-chemin entre la modalit concerne et la suivante.
  • 44. Mondher Abrougui Biostatistique I ISEFC - 2008 44 Application IV.5 Calculons C69 pour des donnes condenses xi ni eff cum fi Fi (freq cum) Choisir C = 69 128 8 8 0,11 0,11 calcul avec les effectifs 145 13 21 0,18 0,29 C 69 = 49,68 160 14 35 0,19 0,49 calcul avec les frquences 180 16 51 0,22 0,71 C 69 = 0,69 195 11 62 0,15 0,86 197 7 69 0,10 0,96 209 3 72 0,04 1,00 Somme 72 Pour le calcul avec les effectifs : la formule est la suivante : (N=72) 68,49 100 6972 100 == xN C69 correspond la modalit occupant le rang 50 dans la distribution, elle correspond donc la valeur 180 Pour le calcul avec les frquences : la formule est la suivante : 69,0100/69 100 == C69 correspond la modalit dont la frquence relative cumule dpasse 0,69. Dans la distribution, cette frquence correspond la valeur 180 c) Cas des donnes groupes en classes : La classe contenant C correspond la premire classe o la frquence cumule atteint ou dpasse 100 , par rfrence la formule du calcul de la mdiane (vue prcdemment) il est possible dcrire la formule suivante de C Lc Fc Fc BcC )100( 1 += O : Bc : Borne infrieure de la classe contenant c Fc -1 : Frquence relative cumul de la classe qui prcde la classe contenant c Fc : Frquence relative de la classe contenant c. Lc : largeur, amplitude de la classe contenant c
  • 45. Mondher Abrougui Biostatistique I ISEFC - 2008 45 Application IV.6 Calculer C80 des classes suivantes : limites infrieures des classes (cm) mi ni eff cum fi Fi (freq cum) 130 135 12 12 0,12903 0,1290 140 145 20 32 0,21505 0,344 150 155 24 56 0,25806 0,602 160 165 21 77 0,22581 0,828 170 175 11 88 0,11828 0,946 180 185 5 93 0,05376 1,000 Somme 93 1,00000 La classe contenant C (C80) est la premire classe o Fi > 80,0100/80 100 == C80 correspond la classe [160-170[ Calcul de la valeur de la modalit correspondant C80 Lc Fc Fc BcC )100( 1 += Bc : Borne infrieure de la classe contenant C80 = 160 cm Fc -1 : Frquence relative cumul de la classe qui prcde la classe contenant C80 = 0,828 Fc : Frquence relative de la classe contenant C80 = 0,22581 Lc : largeur, amplitude de la classe contenant C80 = 130-140=150-140==10cm AN (application numrique) cmC 7619,16810) 22581,0 828,0 100 80 (16080 = += 6.1.4.5.2. Dtermination du rang centile partir dune valeur donne de la variable. Cet dtermination est le processus inverse par rapport aux lments prcdent du paragraphe : 5.1.4.5.1., ce qui consiste recherche C pour une valeur connu Xi dune srie statistique X. a) Cas des donnes ranges ou condenses Il suffit de calculer simplement le pourcentage des donnes infrieures la valeur (ou observation) donne.
  • 46. Mondher Abrougui Biostatistique I ISEFC - 2008 46 Application IV.7 Exemple 1 : srie ordonne croissante Dans les valeurs de la glycmie de la srie statistique suivante trouver le centile C de la valeur 0,96g/l : 0,6 g/l; 0,6 g/l; 0,65 g/l; 0,7 g/l; 0,72 g/l; 0,72 g/l; 0,72 g/l; 0,74 g/l; 0,75 g/l; 0,75 g/l; 0,76 g/l; 0,78 g/l; 0,78 g/l; 0,8 g/l; 0,8 g/l; 0,83 g/l; 0,83 g/l; 0,84 g/l; 0,84 g/l; 0,84 g/l; 0,9 g/l; 0,96 g/l; 1,01 g/l; 1,02 g/l; 1,1 g/l; 1, 15 g/l; 1,16 g/l; 1,18g/l ; 1,2g/l. Il sagit de trouver le pourcentage des donnes dont la valeur de la glycmie est infrieure 0,96g/l : Cette valeur est la 22 positions (22me valeur de la srie ordonne de faon croissante), il y a 21 valeurs de la glycmie infrieures 0,96g/l sur un total de 29 valeurs (N= 29),le pourcentage est donc de : %41,72) 29 21 (100 = , ainsi le rang centile C de la valeur de la glycmie de 0,96g/l est de 72 (la valeur de 0,96g/l de glycmie correspond au centile C72) Application IV.8 Exemple 2: tableau de distribution condense Dans le tableau de distribution des valeurs de la glycmie suivante trouver le centile C de la valeur 1,1g/l : xi (g/l) 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 1,05 1,1 1,15 1,2 ni 8 12 24 26 32 32 28 26 21 24 20 18 11 ni (cum) 8 20 44 70 102 134 162 188 209 233 253 271 282 Il sagit de trouver le pourcentage des donnes dont la valeur de la glycmie est infrieure 1,1g/l : Cette valeur est la 253 positions (253 me valeurs des effectifs cumuls), il y a 233 valeurs de la glycmie infrieures 1,1g/l sur un total de 282 valeurs (N= 282), le pourcentage est donc de : %62,82) 282 233 (100 = , ainsi le rang centile C de la valeur de la glycmie de 1,1g/l est de 82 (au moins 82% des valeurs de la glycmie sont infrieures 1,1g/l). b) Cas des donnes ranges en classes Le rang centile C dune donne (ou observation) est obtenu par la formule suivante + 1)(100 r r rr Ffr L bx Xr : la donne dont on recherche le rang centile C br : borne infrieure de la classe contenant Xr Lr : largeur de la classe contenant Xr fr : frquence relative de la classe contenant Xr Fr-1 : frquence relative cumule de la classe qui prcde la classe contenant Xr
  • 47. Mondher Abrougui Biostatistique I ISEFC - 2008 47 Application IV.9 Exemple : tableau de distribution group en classes Dans le tableau de distribution des valeurs de la glycmie suivante trouver le centile C de la valeur 1,1g/l : xi (g/l) [0,6-0,7[ [0,7-0,8[ [0,8-0,9[ [0,9-1,0[ [1,0-1,1[ [1,1-1,2[ [1,2-1,3[ [1,3-1,4[ [1,4-1,5[ somme ni 20 18 26 28 29 25 21 20 21 208,00 fi 0,10 0,09 0,13 0,13 0,14 0,12 0,10 0,10 0,10 1,00 ni (cum) 20 38 64 92 121 146 167 187 208 Fi cum 0,10 0,18 0,31 0,44 0,58 0,70 0,80 0,90 1,00 Recherchons les rangs centile des valeurs de la glycmie suivante : 0,81g/l ; 1,12g/l et 1,18g/l * Pour la valeur de la glycmie de 0,8g/l 0,8g/l se situe dans la classe [0,8-0,9[, le rang centile de 0,8g/l est len