489
2 e édition

Aide memoire statistique et probabilité 2e édition

Embed Size (px)

DESCRIPTION

Aide mémoire statistique et probabilité

Citation preview

  • R. V

    EYSSEY

    RE

    STATISTIQ

    UE

    ET PRO

    BA

    BILITS

    POU

    R LIN

    GN

    IEUR

    ISBN 2 10 049994 7

    AIDE-MMOIRE DE LINGNIEUR

    Rene Veysseyre

    STATISTIQUE ET PROBABILITS POUR LINGNIEUR

    RENEE VEYSSEYRE

    est agrge de mathmatiques et professeur honoraire lcole centrale de Paris.

    www.dunod.com

    Cet aide-mmoire rassemble toutes les dfinitions,lois et formules du calcul des probabilits et de lastatistique utiles lingnieur en activit aussi bienqu ltudiant en formation. La premire partie donne les principales dfinitions,

    et propose un rsum de tous les rsultats que lonpeut obtenir partir dun tableau de donnes.

    La deuxime partie donne le vocabulaire du calculdes probabilits et tudie les principales loisdiscrtes et continues.

    La troisime partie traite des problmes rencontrspar lingnieur dans le domaine de la dcision :chantillonnage, estimation et tests dhypothse,tests de comparaison, tests dajustement, rgression.

    La quatrime partie propose un rsum de lanalysedes donnes.

    Cette nouvelle dition a t augmente dun chapitresur la rgression multiple.

    2e dition

    2e dition

    NordCompoFichier en pice jointe9782100499946_couverture.jpg

  • Rene Veysseyre

    Aide-mmoire

    Statistique

    et

    probabilits

    pour lingnieur

    2

    e

    dition

    lims Page I Jeudi, 10. aot 2006 11:21 11

  • Dunod, Paris, 2001, 2006ISBN 2 10 049994 7

    lims Page II Jeudi, 10. aot 2006 11:21 11

  • doc 2006/8/9 11:52 page III #1

    TABLE DES MATIRES

    Principales notations XI

    AStatistique descriptive

    1 Reprsentation graphique et numrique des donnes 31.1 Gnralits et principales dfinitions 31.2 Sries numriques une dimension 71.3 Sries numriques deux dimensions 26

    BCalcul des probabilits

    2 Le modle probabiliste 332.1 Introduction 332.2 Les concepts probabilistes 352.3 Mesure de probabilit et espace probabilis 402.4 chantillons et sous-populations 41

    3 Probabilit conditionnelle. Indpendance 423.1 Dfinition 423.2 Principe des probabilits composes 443.3 vnements indpendants 44c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    III

  • doc 2006/8/9 11:52 page IV #2

    3.4 Indpendance deux deux et indpendance mutuelle 453.5 Thorme de Bayes 46

    4 Variables alatoires relles 494.1 Gnralits sur les variables alatoires 494.2 Fonction de rpartition 524.3 Densit de probabilit 544.4 Discontinuits dune fonction de rpartition et lois discrtes 564.5 Loi de probabilit dune variable alatoire Y fonction

    dune variable alatoire X 574.6 Indpendance de deux variables alatoires 584.7 Moments dune variable alatoire 59

    5 Lois de probabilit discrtes 675.1 Dfinition dune variable discrte 675.2 Loi de Dirac 695.3 Loi uniforme 705.4 Loi binomiale ou loi des tirages avec remise 715.5 Loi multinomiale 775.6 Loi hypergomtrique ou loi du tirage exhaustif 805.7 Loi de Poisson 835.8 Lois limites 845.9 Rsum 87

    6 Lois de probabilit continues 896.1 Gnralits 896.2 Loi uniforme 906.3 Loi exponentielle 926.4 Loi gamma 956.5 Lois bta de types I et II 976.6 Loi de Laplace-Gauss ou loi normale 1006.7 Loi log-normale 109

    7 Convolution. Fonctions caractristiques.Convergences stochastiques 1127.1 Convolution 112

    IV

  • doc 2006/8/9 11:52 page V #3

    7.2 Fonction caractristique 1167.3 Convergence des suites de variables alatoires 1207.4 Lois des grands nombres 1247.5 Thorme central limite 125

    8 Variables alatoires simultanes 1278.1 tude dun couple de variables alatoires discrtes 1278.2 tude dun couple de variables alatoires continues 1328.3 Extension des vecteurs alatoires 1398.4 Application : loi normale multidimensionnelle 141

    9 Processus alatoires 1469.1 Dfinitions 1479.2 Processus quivalents 1489.3 Moments 1499.4 Continuits 1499.5 Processus stationnaires 1509.6 Exemples de processus alatoires 1539.7 Martingale 1549.8 Mouvement brownien 1569.9 Marche au hasard 1579.10 Processus et chanes de Markov 1589.11 Processus ponctuels 1669.12 Application aux phnomnes dattente 170

    CStatistique infrentielle

    10 Caractristiques dun chantillon.Application aux chantillons gaussiens 179

    10.1 Introduction 17910.2 Dfinition dun chantillon alatoire 18010.3 Caractristiques dun chantillon alatoire 181c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    V

  • doc 2006/8/9 11:52 page VI #4

    10.4 Distribution du chi-deux 18510.5 Distribution de Fisher-Snedecor 18810.6 Distribution de Student 19010.7 Cas particulier des chantillons gaussiens 192

    11 Lois des valeurs extrmes. chantillons artificiels 19511.1 chantillons ordonns et statistique dordre 19511.2 Loi de la variable X(k), ralisation de rang k 19811.3 Loi de la variable X(n), plus grande valeur observe 19911.4 Loi de la variable X(1), plus petite valeur observe 20211.5 chantillons artificiels et simulation 203

    12 Thorie de lestimation 21012.1 Expos du problme et exemples 21012.2 Dfinition dune statistique 21212.3 Statistique exhaustive 21312.4 Information de Fisher 218

    13 Estimation ponctuelle 22013.1 Dfinition dun estimateur 22013.2 Principales qualits dun estimateur 22113.3 Estimateur sans biais de variance minimale 22713.4 Prcision intrinsque dun estimateur et ingalit de Cramer-Rao 22813.5 Mthode du maximum de vraisemblance (MV) 22913.6 Extension au cas de plusieurs paramtres 232

    14 Estimation par intervalle de confiance 23514.1 Dfinition dun intervalle de confiance 23514.2 Exemples dintervalles de confiance 23814.3 Estimation et intervalle de confiance dans le cas

    dune population deffectif fini 253

    15 Les tests statistiques 25515.1 Notions gnrales sur les tests statistiques 25515.2 Diffrentes catgories de tests statistiques 263

    VI

  • doc 2006/8/9 11:52 page VII #5

    15.3 Test entre deux hypothses simples et mthode de Neymanet Pearson 264

    15.4 Tests entre deux hypothses composites 26715.5 Principaux tests paramtriques 270

    16 Tests dajustement et de comparaison 27716.1 Tests dajustement 27716.2 Tests de comparaison dchantillons 28916.3 Analyse de la variance simple entre 299

    17 Tests dindpendance 30617.1 Variables quantitatives 30617.2 Variables ordinales et corrlation des rangs 30817.3 Concordance de p classements 31317.4 Liaison entre une variable quantitative et une variable qualitative 31417.5 Liaison entre deux variables qualitatives 316

    18 Fiabilit 32118.1 Gnralits et principales dfinitions 32118.2 Dfinition mathmatique de la fiabilit 32218.3 Taux de dfaillance 32418.4 Fiabilit dun matriel usag 32618.5 Fiabilit en cas de remplacement prventif 32718.6 Esprance de vie 32818.7 Exemples de lois de fiabilit 32818.8 Fiabilit dun systme en fonction de celle de ses composants 332

    DAnalyse des donnes

    19 Introduction lanalyse des donnes 33719.1 chantillon dune variable alatoire 33819.2 chantillon dun couple de variables alatoires 343c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    VII

  • doc 2006/8/9 11:52 page VIII #6

    19.3 chantillon de p variables alatoires 34519.4 Prsentation des principales mthodes 348

    20 Rgression linaire simple 35220.1 Introduction 35220.2 Mesures de liaison 35320.3 Choix des variables 35420.4 Modle thorique de la rgression simple 35520.5 Ajustement du modle de rgression linaire

    sur des donnes exprimentales 35720.6 tude de la rgression linaire (aspects descriptifs) 359

    20.7 tude de la rgression linaire (aspects infrentiels) 363

    20.8 tude dune valeur prvisionnelle 37120.9 Conclusions 375

    21 Rgression multiple. Modle linaire gnral 37621.1 Introduction 37621.2 Rgression entre variables alatoires 37721.3 Modle linaire gnral 38221.4 Estimations des paramtres du modle de rgression (Y, Xb, s2 In) 385

    21.5 Estimation du paramtre b du modle linaire 38721.6 Tests dans le modle linaire 38721.7 Intervalle de prvision 39021.8 Corrlations 39021.9 Fiabilit de la rgression 393

    22 Analyse de la variance 41022.1 Gnralits et but de la thorie 41022.2 Analyse de la variance double entre 41122.3 Analyse de la variance orthogonale entres multiples 41922.4 Analyse de la variance embote 42222.5 Carr latin 427

    VIII

  • doc 2006/8/9 11:52 page IX #7

    Annexes

    Analyse combinatoire 433

    Rappels mathmatiques 436

    Tables statistiques 442

    Bibliographie 467

    Index 471

    c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    IX

  • doc 2006/8/9 11:52 page X #8

  • doc 2006/8/9 11:52 page XI #9

    PRINCIPALES NOTATIONS

    N Ensemble des entiers positifs ou nuls (on dit aussi les entiers naturels).N Ensemble des entiers strictement positifs

    (cet ensemble ne contient pas 0).Z Ensemble des entiers de signes quelconques.Z Ensemble Z sauf 0.R Ensemble des entiers de signes quelconques.R1 Ensemble des entiers positifs ou nuls.R Ensemble des entiers non nuls.

    Cardinal dun ensemble fini (abrviation card) :Lentier naturel qui indique le nombre de ses lments.

    Cardinal dun ensemble infini : un nombre appel aleph.1[a, b] fonction caractristique de lensemble [a, b] gale 1 pour les points decet ensemble et 0, sinon.

    Notation de la fonction exponentielle :ea ou exp a (la deuxime notation est utilise pour viter dcrire un exposanttrop long).

    Notation de la fonction logarithme :ln dsigne le logarithme nprien et log le logarithme base 10 sauf dans lecas de la loi log-normale.

    Factorielle n! 5 n(n 1)(n 2)...2 3 1.Matrice transpose :La matrice tA transpose de la matrice A est obtenue en permutant lignes etcolonnes.

    c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    XI

  • doc 2006/8/9 11:52 page XII #10

  • doc 2006/8/9 11:52 page 1 #11

    AStatistiquedescriptive

  • doc 2006/8/9 11:52 page 2 #12

  • doc 2006/8/9 11:52 page 3 #13

    1 REPRSENTATIONGRAPHIQUE ET NUMRIQUE

    DES DONNES

    1.1 Gnralits et principales dfinitionsCe premier chapitre donne les dfinitions et les proprits des principales no-tions utiles pour comprendre et traiter un problme de statistique.La statistique descriptive a pour but : de dgager les proprits essentielles que lon peut dduire dune accumu-

    lation de donnes ; de donner une image concise et simplifie de la ralit.

    Le rsultat dune observation, dune mesure, nest pas gale la valeur tho-rique calcule ou espre par lingnieur ; la rptition dune mme mesure,ralise dans des conditions qui semblent identiques, ne conduit pas tou-jours aux mmes rsultats. Ces fluctuations, dues des causes nombreuses,connues ou inconnues, contrles ou non, crent des difficults aux ing-nieurs et aux scientifiques. Quel rsultat doivent-ils prendre ? Quel degr deconfiance peuvent-ils accorder la dcision prise ? Les rponses une enqutevarient dun individu un autre ; quelles conclusions valables peut-on tirerdun sondage ? Les mthodes de la statistique descriptive apportent des r-ponses ces problmes.Pour tre soumis un traitement statistique, un tableau de donnes doit com-porter au moins une variable de nature alatoire. Une dfinition simple ducaractre alatoire dune variable est quelle peut prendre au hasard des valeursdiffrentes.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    3

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 4 #14

    1 Reprsentationgraphique et numrique

    des donnes

    1.1 Gnralits et principalesdfinitions

    1.1.1 Population et individus

    Ensemble statistique ou population : runion des individus sur lesquels on tu-die une ou plusieurs proprits.

    Unit statistique : chaque individu.Une population doit tre correctement dfinie afin que lappartenance dunindividu cette population soit reconnue sans ambigut.

    Exemple 1.1

    Une usine fabrique des tiges mtalliques utilises dans lassemblage de certainesstructures. Pour tudier la rsistance la traction de ces tiges, on mesure cettersistance pour un lot de 100 tiges.

    Proprit tudie : la rsistance la traction de tiges mtalliques.

    Population statistique : lensemble des 100 tiges ou des 100 mesures.

    Unit statistique : chacune des tiges ou chacune des 100 mesures.

    1.1.2 Caractres et variables statistiques

    Caractres

    On sintresse certaines particularits ou caractres des individus dune popu-lation statistique : un seul caractre tudi, srie numrique une dimension (paragraphe 1.2), deux caractres tudis, srie numrique deux dimensions (para-

    graphe 1.3), plus de deux caractres, on doit utiliser les techniques de lanalyse multidi-

    mensionnelle (voir chapitres 19 et suivants).

    Les caractres tudis peuvent tre : le poids, la taille, le niveau dtudes, la catgorie socioprofessionnelle, le

    lieu dhabitation..., dans le secteur des sciences humaines, le poids, la masse, la composition..., dans le secteur des sciences techniques.

    Modalits

    Un caractre peut prendre diffrentes modalits. Ces modalits doivent treincompatibles et exhaustives afin que lappartenance ou la non-appartenance

    4

  • doc 2006/8/9 11:52 page 5 #15

    1 Reprsentationgraphique et numrique

    des donnes

    1.1 Gnralits et principalesdfinitions

    dun individu une modalit soit dfinie sans ambigut. Un caractre peuttre : quantitatif, les modalits sont mesurables ou reprables, qualitatif, les modalits ne sont pas mesurables.

    Variables statistiques ou alatoires

    Une variable statistique ou alatoire est un caractre faisant lobjet dune tudestatistique. Elle peut donc tre qualitative ou quantitative.

    Une variable quantitative est appele : discrte si elle prend un nombre fini de valeurs souvent entires, continue si elle prend toutes les valeurs dun intervalle fini ou infini.

    RemarqueEn toute rigueur, une variable statistique ne peut jamais tre continue, le degrde prcision des mesures ou des appareils entranant toujours des discontinuitsdans les rsultats.

    Une variable statistique ou alatoire est note par une lettre majuscule X , Y ,et les valeurs quelle prend par des lettres minuscules x1, x2..., y1, y2...

    1.1.3 chantillon

    chantillon : groupe restreint, ou sous-ensemble, issu de la population.chantillon alatoire : les rsultats recueillis sur ce sous-ensemble doivent pou-voir tre tendus, cest--dire infrs, la population entire.Pour dfinir un tel chantillon, une mthode consiste prlever, au hasard, unsous-ensemble dindividus, en utilisant, par exemple, des tables de nombres auhasard (chapitre 11, paragraphe 11.5).

    1.1.4 Frquences absolues, relatives, cumules

    Dans le cas des variables discrtes, on appelle : Frquence absolue ni ou effectif, associe une valeur xi de la variable ala-

    toire X , le nombre dapparitions de cette variable dans la population oudans lchantillon.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    5

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 6 #16

    1 Reprsentationgraphique et numrique

    des donnes

    1.1 Gnralits et principalesdfinitions

    Frquence relative, associe la valeur xi de la variable alatoire X , le nombre

    fi 5nin

    o ni est la frquence absolue et n le nombre total de donnes. Frquence cumule absolue, associe une valeur xi de la variable, le nombre

    dindividus dont la mesure est infrieure ou gale xi.

    Ni 5i

    k51

    nk

    On dfinit la frquence cumule relative :

    Fi 5i

    k51

    fk

    Exemple 1.2 Dfauts relevs sur une pice de tissu

    Un fabricant de tissu essaie une nouvelle machine ; il compte le nombre de dfautssur 75 chantillons de 10 mtres. Il a trouv les rsultats suivants :

    Tableau 1.1 Nombre de dfauts sur une pice de tissus.

    Nombre k de dfauts 0 1 2 3 4 5

    Nombre nk dchantillons 38 15 11 6 3 2

    Nombre dindividus : les 75 chantillons.

    Frquence absolue associe la valeur k, le nombre nk : par exemple, sur les 75chantillons examins, 11 prsentent k 5 2 dfauts, donc si k 5 2, nk 5 11.

    Frquence relative associe la valeur k : le quotient nk/n.11/75 5 0,146 est la frquence relative associe la valeur k 5 2.

    Frquence cumule absolue associe la valeur k : le nombre dchantillons ayantau plus k dfauts (k compris).38 1 15 1 11 5 64 est la frquence cumule absolue associe la valeur k 5 2.

    Frquence cumule relative associe la valeur k, le nombre dchantillons ayantau plus k dfauts (k compris) divis par n.

    64/75 5 0,853 est la frquence cumule relative associe la valeur k 5 2.

    Les frquences relatives et les frquences cumules relatives peuvent tre utili-ses pour comparer deux ou plusieurs populations.

    6

  • doc 2006/8/9 11:52 page 7 #17

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Dans le cas dune distribution continue, les donnes sont en gnral regrou-pes en classes (paragraphe 1.2.1). Les frquences absolues, relatives et cumu-les sont dfinies par rapport aux classes et non par rapport aux valeurs de lavariable.

    1.2 Sries numriques une dimension1.2.1 Reprsentation graphique des donnes

    En prsence dun ensemble de donnes associes un seul caractre, on doit : ranger ces donnes par valeurs non dcroissantes (ou non croissantes) et

    dterminer les frquences absolues, relatives et cumules, visualiser ces donnes laide dun diagramme en btons pour des variables

    discrtes ou dun histogramme pour des variables continues.

    Rangement des donnes par valeurs non dcroissantes

    Variables discrtesTableau 1.2 Donnes discrtes.

    Valeursde la

    variable

    Frquencesabsolues

    Frquencesrelatives

    Frquencescumulesabsolues

    Frquencescumulesrelatives

    xi ni fi Ni Fi 5i

    k51

    fk

    Exemple 1.3 Dfauts relevs sur une pice de tissu (suite)

    On complte le tableau 1.1 en calculant les frquences relatives fi , toutes les fr-quences absolues cumules Ni et les frquences relatives cumules Fi .

    Tableau 1.3 tude statistique du nombre de dfauts sur une pice de tissu.

    Nombrede dfauts

    ni fi Ni Fi

    0 38 0,506 38 0,506

    1 15 0,20 53 5 38 1 15 0,706

    2 11 0,146 64 5 53 1 11 0,853

    3 6 0,08 70 5 64 1 6 0,933

    4 3 0,04 73 5 70 1 3 0,973

    5 2 0,026 75 5 73 1 2 1c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    7

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 8 #18

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Variables continuesLes donnes sont regroupes en k classes.Une classe est dfinie par ses extrmits ei1, ei et son effectif ni.

    Effectif dune classe ou frquence absolueLe nombre ni de valeurs de la variable X telles que : ei1 X < ei.

    Amplitude dune classeLa quantit ei ei1.Frquence cumule relative

    Fi 5i

    k51

    fk

    avec F1 5 f1. Elle donne la proportion des individus tels que X < ei.

    Tableau 1.4 Donnes continues.

    Classes Effectifs Frquences absolues Frquences cumules

    ei1 X < ei ni fi Ni

    Exemple 1.4 Essais de fiabilit de dispositifs lectroniques

    100 dispositifs identiques ont t soumis un test de fiabilit ; on a not la durede vie, en heures, jusqu dfaillance (fin de laptitude du dispositif remplir lafonction requise).

    Tableau 1.5 Dure de vie de 100 dispositifs identiques.

    Dure de vie(en heures)

    Nombre nide dispositifs(frquenceabsolue)

    Frquencerelative fi

    Frquencecumuleabsolue

    Frquencecumulerelative Fi

    0 X < 150 30 0,30 30 0,30150 X < 300 15 0,15 45 0,45300 X < 450 12 0,12 57 0,57450 X < 600 10 0,10 67 0,67600 X < 750 8 0,08 75 0,75750 X < 900 8 0,08 83 0,83900 X < 1 050 8 0,08 91 0,911 050 X < 1 200 6 0,06 97 0,971 200 X < 1 350 3 0,03 100 1

    La variable statistique dure de vie des dispositifs est une variable continue.

    8

  • doc 2006/8/9 11:52 page 9 #19

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Les classes peuvent tre dgale amplitude ou non ; on choisit, soit le nombrede classes, soit lamplitude des classes. Dans lexemple 1.4, les classes sontdgale amplitude (150 heures).Le nombre de classes ne doit pas tre trop petit, perte dinformations, ni tropgrand, le regroupement en classes est alors inutile et de plus, certaines classespourraient avoir des effectifs trop faibles.En gnral, le nombre de classes est compris entre 5 et 20 ; il dpend dunombre n dobservations et de ltalement des donnes. La formule de Sturgesdonne une valeur approximative du nombre k de classes :

    k 5 1 1 3,222 log10 ndo le nombre de classes selon les valeurs de n (tableau 1.6).

    Tableau 1.6 Effectif n de lchantillon et nombre k de classes.

    n 10 10 < n< 35

    35 n< 70

    70 n< 90

    90 n< 150

    150 n< 300

    300 n< 620

    620 n< 1 300

    4 5 6 7 8 9 10 11

    La premire ligne donne leffectif de lchantillon tudi et la deuxime ligne, lenombre correspondant k de classes.

    Amplitude des classesElle est gale E/k o E 5 xmaxxmin est ltendue de la srie des observations(si les classes sont dgale amplitude).Si au contraire, on commence par dfinir lamplitude des classes, on ne doitpas choisir cette amplitude trop faible, le nombre de classes est alors trop levni trop grande, le nombre de classes est alors trop petit par rapport celui quedonne la formule de Sturges.Les valeurs dune classe sont assimiles la valeur centrale ou centre de la classegale : ei1 1 ei

    2Le regroupement en classes fait perdre aux individus leur caractre propre ainsique les dtails fins des distributions.

    Exemple 1.5 Essais de fiabilit de dispositifs lectroniques (suite)

    30 dispositifs ont une dure de vie comprise entre 0 et 150 heures, on admet queces 30 dispositifs ont tous une dure de vie gale 75 heures.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    9

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 10 #20

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    De mme, 10 dispositifs ont une dure de vie comprise entre 450 et 600 heuresque lon prend gale 525 heures.

    Le diagramme en feuilles

    On dcompose une donne numrique en deux parties : la tige qui comprend le premier ou les deux premiers chiffres, la feuille qui comprend les autres chiffres.

    On crit les tiges les unes sous les autres et en regard de chaque tige, les feuillescorrespondantes ; tiges et feuilles sont spares par un trait vertical.

    Exemple 1.6 Exemple de diagramme en feuilles

    Le tableau 1.7 donne le poids en grammes de 25 prouvettes.

    Tableau 1.7 Poids de 25 prouvettes.

    250 253 256 258 260 261 263 265 270271 272 273 274 276 276 279 279 281284 285 286 287 288 290 290

    Comme tige, on choisit les deux premiers chiffres de chaque mesure, cest--dire25, 26, 27, 28 et 29. Les feuilles sont alors constitues du dernier chiffre de lamesure :

    25 0 3 6 826 0 1 3 527 0 1 2 3 4 6 6 9 928 1 4 5 6 7 829 0 0

    Le diagramme indique que le poids moyen se situe entre 270 et 280 g et quildoit tre voisin de 270 g.

    Les diffrents modes de reprsentation graphique des donnes

    Les reprsentations graphiques permettent davoir rapidement une vue den-semble dun tableau de donnes.

    Variables discrtes : diagramme en btonsEn abscisses, on porte les diffrentes valeurs xi prises par la variable X . Puis,on trace un bton dont la longueur est proportionnelle ni ou fi ; dans ledeuxime cas, on peut ventuellement comparer deux sries de donnes.

    10

  • doc 2006/8/9 11:52 page 11 #21

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Exemple 1.7 Classement de 100 familles en fonction du nombredenfants

    On a relev le nombre denfants de 100 familles choisies au hasard. Le tableau 1.8donne les principales caractristiques de cette tude.

    Tableau 1.8 Statistique sur le nombre denfants de 100 familles.

    xi 0 1 2 3 4 5 6 7 Total

    ni 20 25 30 10 5 5 3 2 100

    fi 0,20 0,25 0,30 0,10 0,05 0,05 0,03 0,02 1

    Fi 0,20 0,45 0,75 0,85 0,90 0,95 0,98 1

    xi nombre denfants compris entre 0 et 7.

    ni nombre de familles ayant xi enfants.

    fi frquence relative des familles ayant xi enfants.

    Fi frquence cumule des familles ayant au plus xi enfants.

    0

    0,1

    0,2

    0,3

    0 1 2 3 4 5 6 7

    Figure 1.1 Diagramme en btons de la distribution de lexemple 1.7.

    Variables continues ou rparties en classes

    Histogramme et proprits

    Un histogramme est constitu de rectangles juxtaposs dont la base corres-pond lamplitude de chaque classe et dont la surface est proportionnelle lafrquence absolue ou relative de cette classe.Lhistogramme est un outil statistique facile utiliser, donnant rapidementune image du comportement dun procd industriel et lallure globale de lac

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    11

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 12 #22

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    distribution ; il montre ltalement des donnes et apporte ainsi des rensei-gnements sur la dispersion et sur les valeurs extrmes ; il permet de dceler,ventuellement, des valeurs aberrantes.

    Polygone de frquences

    Il permet de reprsenter sous forme de courbe, la distribution des frquencesabsolues ou relatives. Il est obtenu en joignant, par des segments de droite,les milieux des cts suprieurs de chaque rectangle de lhistogramme. Pourfermer ce polygone, on ajoute chaque extrmit une classe de frquencenulle.

    Exemple 1.8 tude de la dispersion dun lot de 400 rsistances

    On a contrl 400 rsistances dont la valeur nominale est gale 100 kV et on aregroup les rsultats en classes damplitude 2 kV qui reprsente environ le diximede la dispersion totale de lchantillon contrl.

    Tableau 1.9 tude statistique des mesures de la rsistancedun lot de 400 pices.

    Classe Limitesdes classes

    ni Ni fi Fi

    I [92, 94[ 10 10 0,025 0,025

    II [94, 96[ 15 25 0,0375 0,0625

    III [96, 98[ 40 65 0,10 0,1625

    IV [98, 100[ 60 125 0,15 0,3125

    V [100, 102[ 90 215 0,225 0,5375

    VI [102, 104[ 70 285 0,175 0,7125

    VII [104, 106[ 50 335 0,125 0,8375

    VIII [106, 108[ 35 370 0,0875 0,925

    IX [108, 110[ 20 390 0,05 0,975

    X [110, 112[ 10 400 0,025 1

    Les classes tant toutes de mme amplitude, lhistogramme est facile tracer ; ilsuffit de construire des rectangles dont laire est proportionnelle la frquence desrsistances de la classe correspondante.

    Courbes de frquences cumules

    Courbe cumulative croissante : on joint les points ayant pour abscisses la limitesuprieure des classes et pour ordonnes les frquences cumules croissantes

    12

  • doc 2006/8/9 11:52 page 13 #23

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    0102030405060708090

    100

    1

    90 92 94 96 98 100 102 104 106 108 110 112 114

    Figure 1.2 Histogramme de la distribution de lexemple 1.8 et polygonede frquence.

    correspondant la classe considre (pour le premier point, on porte la va-leur 0). Elle donne le nombre dobservations infrieures une valeur quel-conque de la srie.Courbe cumulative dcroissante : la construction de cette courbe est analogue la prcdente. Les points ont pour abscisses, les limites infrieures des classes etpour ordonnes, les frquences cumules dcroissantes (pour le dernier point,la valeur est 0). Elle donne le nombre dobservations suprieures une valeurquelconque de la srie.

    0

    1

    1

    92 94 96 98 100 102 104 106 108 110 112

    Figure 1.3 Courbe cumulative croissante (trait plein) et courbe cumulativedcroissante (trait pointill) de la distribution de lexemple 1.8.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    13

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 14 #24

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Autres modes de reprsentations graphiques

    On dfinit des diagrammes secteurs circulaires et des diagrammes rectangleshorizontaux.Le diagramme secteurs circulaires consiste en un cercle dcoup en secteurscirculaires ; laire de chaque secteur, reprsentant la proportion des diffrentescomposantes dun tout, est proportionnelle aux frquences, relatives ou abso-lues.Le diagramme rectangles horizontaux est dfini de faon analogue.Un autre mode de reprsentation est la bote moustaches ou box-plot (voirparagraphe 1.2.2, Quantiles).

    1.2.2 Reprsentation numrique des donnes

    Une srie de donnes peut tre rsume par quelques valeurs numriques ap-peles caractristiques des sries statistiques, classes en quatre grandes catgo-ries : les caractristiques de tendance centrale, les caractristiques de dispersion, les caractristiques de forme, les caractristiques de concentration.

    Caractristiques de tendance centrale

    Elles donnent une ide de lordre de grandeur des valeurs constituant la srieainsi que la position o semblent se concentrer les valeurs de cette srie. Lesprincipales caractristiques de tendance centrale sont la moyenne arithmtique,la mdiane, la mdiale, le mode et les quantiles.

    Moyenne arithmtique

    Dfinition et calcul

    Pour calculer la moyenne arithmtique, deux cas sont distinguer selon lafaon dont les donnes ont t recueillies.Cas 1 : n donnes non rparties en classes :

    x 51n

    ni51

    xi

    14

  • doc 2006/8/9 11:52 page 15 #25

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Cas 2 : n donnes rparties en k classes, la classe i tant deffectif absolu niet deffectif relatif fi :

    x 51n

    ki51

    nixi 5k

    i51

    fixi

    Changement dorigine et changement dchelle

    On pose pour toutes les donnes, yi 5 axi 1 b, a et b tant des constantes ;on obtient :

    y 5 a x 1 b

    Proprits La moyenne arithmtique permet de rsumer par un seul nombre la srie

    statistique. Elle prend en compte toutes les valeurs de la srie et elle est facile calculer. Elle est sensible aux valeurs extrmes, il est parfois ncessaire de supprimer

    des valeurs extrmes ou aberrantes .

    La quantit ei 5 xi x est lcart de la valeur xi la moyenne arithmtique.La moyenne arithmtique des carts ei est nulle.

    MdianeMeDfinition et calcul

    La mdiane est plutt une moyenne de position.La mdiane est la valeur, observe ou possible, dans la srie des donnes classes parordre croissant (ou dcroissant) qui partage cette srie en deux parties comprenantexactement le mme nombre de donnes de part et dautre de Me.Comme pour la moyenne arithmtique, on distingue deux cas.Cas 1 : n donnes non rparties en classes : pour une srie ayant un nombre impair de donnes, la mdiane est une

    valeur observe de la srie ; pour une srie ayant un nombre pair de donnes, on peut prendre pour

    valeur mdiane, indiffremment lune ou lautre des valeurs centrales ounimporte quelle valeur intermdiaire entre ces deux valeurs, par exemple,la moyenne arithmtique de ces deux valeurs, mais, dans ces conditions, cenest pas une valeur observe.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    15

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 16 #26

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Cas 2 : n donnes rparties en k classes. La mdiane est obtenue : soit par interpolation linaire lintrieur de la classe centrale, si le nombre

    de classes est impair, soit en prenant la moyenne des deux classes centrales , si le nombre de

    classes est pair.

    Pour faire ce calcul, on suppose implicitement que la distribution est uniforme lintrieur de chaque classe.

    Proprits Le calcul de la mdiane est rapide. La mdiane nest pas influence par les valeurs extrmes ou aberrantes. La mdiane est influence par le nombre des donnes mais non par leurs

    valeurs, elle ne peut donc pas tre utilise en thorie de lestimation. Si la variable statistique est discrte, la mdiane peut ne pas exister ; elle

    correspond seulement une valeur possible de cette variable. La mdiane est le point dintersection des courbes cumulatives croissante

    et dcroissante. La mdiane ne se prte pas aux combinaisons algbriques ; la mdiane dune

    srie globale ne peut pas tre dduite des mdianes des sries composantes.

    Exemple 1.9 Dispersion dun lot de 400 rsistances (suite)Calcul de la moyenne arithmtique :

    x 51

    400(93 3 10 1 95 3 15 1 97 3 40 1 1 111 3 10) 5 101,90

    La moyenne arithmtique est gale 101,90 kV.Mdiane : la srie des observations comporte un nombre pair de classes. Onpeut dfinir une classe mdiane comme la moyenne des classes V et VI, cest--dire la classe fictive [101, 103[ donc une rsistance gale 102 kV.Un calcul plus prcis consiste chercher la valeur de la rsistance de lindi-vidu occupant le rang 200 (ou 200,5 !). Ne connaissant pas la distribution lintrieur des classes, on fait une interpolation linaire. Le tableau de lexemple1.8 montre que cet individu appartient la classe V.125 rsistances ont une valeur nominale infrieure 100 kV et 215 rsistancesont une valeur nominale infrieure 102 kV do le calcul de la mdiane :

    100 12 3 (200 125)(215 125) 5 101,66

    16

  • doc 2006/8/9 11:52 page 17 #27

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    La mdiane est gale 101,66 kV. Donc, 200 rsistances ont une valeur nomi-nale infrieure ou gale 101,66 kV et 200 rsistances ont une valeur nominalesuprieure 101, 66 kV.Le point dintersection des deux courbes cumulatives a pour abscisse la mdiane.

    Exemple 1.10 tude de deux sries dobservationsOn considre les sries dobservations suivantes.Srie I : 5 observations classes par ordre croissant, 2, 5, 8, 11, 14Moyenne arithmtique 8, mdiane 8Srie II : 6 observations classes par ordre croissant, 6, 6, 14, 16, 18, 18Moyenne arithmtique 13, mdiane 15Srie III : les deux sries prcdentes runies, 2, 5, 6, 6, 8, 11, 14, 14, 16, 18, 18Moyenne arithmtique 10,72, mdiane 11

    Mode ou valeur dominanteM0Le mode est une moyenne de frquence.

    Dfinition

    Le mode est la valeur de la variable statistique la plus frquente que lon observedans une srie dobservations.

    Si la variable est une variable discrte, le mode sobtient facilement. Si la va-riable est une variable continue, on dfinit une classe modale.

    Proprits Le mode nexiste pas toujours et quand il existe, il nest pas toujours unique. Si aprs regroupement des donnes en classes, on trouve deux ou plu-

    sieurs modes diffrents, on doit considrer que lon est en prsence dedeux ou plusieurs populations distinctes ayant chacune leurs caractris-tiques propres ; dans ce cas, la moyenne arithmtique nest pas une caract-ristique de tendance centrale.

    Exemple 1.11 Dispersion dun lot de 400 rsistances (suite)On ne peut pas dfinir une valeur modale en ne connaissant pas la distribution lintrieur de chaque classe.On dfinit une classe modale, cest la classe V.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    17

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 18 #28

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Exemple 1.12 Suite de lexemple 1.10Srie I : pas de mode.Srie II : deux modes 6 et 18.Srie III : les deux sries runies, trois modes 6, 14 et 18.

    MdialeLa mdiale est la valeur centrale qui partage en deux parties gales la masse de lavariable.Par exemple, la mdiale partage un ensemble demploys dune entreprise endeux groupes tels que la somme totale des salaires perus par le premier groupesoit gale la somme totale des salaires perus par le second groupe.On vrifie facilement que :

    mdiale mdiane

    Remarque

    Pour dfinir nimporte quelle caractristique (except la moyenne arithmtique),il faut que les donnes soient classes en ordre croissant (ou dcroissant). Pour lecalcul de la mdiane, on peut trouver un rsultat diffrent selon que les donnessont classes par ordre croissant ou dcroissant.

    QuantilesCette notion est trs utilise dans les sciences humaines.

    Dfinition

    Les quantiles sont des caractristiques de position partageant la srie statistiqueordonne en k parties gales.Pour k 5 4, les quantiles, appels quartiles, sont trois nombres Q1, Q2, Q3tels que : 25 % des valeurs prises par la srie sont infrieures Q1, 25 % des valeurs prises par la srie sont suprieures Q3, Q2 est la mdiane Me, Q3 Q1 est lintervalle interquartile, il contient 50 % des valeurs de la

    srie.

    18

  • doc 2006/8/9 11:52 page 19 #29

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Pour k 5 10, les quantiles sont appels dciles, il y a neuf dciles D1, D2...10 % des valeurs de la srie sont infrieures D1...Pour k 5 100, les quantiles sont appels centiles, il y a 99 centiles, chacuncorrespondant 1 % de la population.

    Application

    Le diagramme en bote moustaches ou box-plot (Tukey) permet de repr-senter schmatiquement les principales caractristiques dune distribution enutilisant les quartiles.La partie centrale de la distribution est reprsente par une bote de largeurarbitraire et de longueur la distance interquartile, la mdiane est trace lin-trieur. La bote rectangle est complte par des moustaches correspondantaux valeurs suivantes : valeur suprieure : Q3 1 1,5(Q3 Q1) valeur infrieure : Q1 1,5(Q3 Q1)Les valeurs extrieures aux moustaches sont reprsentes par des toiles etpeuvent tre considres comme aberrantes.

    ** *

    Q1 Q3MeFigure 1.4 Exemple de bote moustaches (les astrisques * reprsententles valeurs aberrantes de la distribution).

    Caractristiques de dispersion

    Ces caractristiques quantifient les fluctuations des valeurs observes autourde la valeur centrale et permettent dapprcier ltalement de la srie. Les prin-cipales sont : lcart-type ou son carr appel variance, le coefficient de variationet ltendue.

    Variance et cart-type

    Dfinition et calcul

    La variance dun chantillon, note s2, est appele aussi cart quadratiquemoyen ou variance empirique. La racine carre de la variance est appele cart-type.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    19

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 20 #30

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Cest la moyenne de la somme des carrs des carts par rapport la moyennearithmtique.

    La moyenne arithmtique x et lcart-type s sexpriment avec la mme unitque les valeurs observes xi.

    Cas 1 : n donnes non rparties en classes :

    e2q 5 s2 5

    1n

    ni51

    (xi x)2

    Formule simplifie ne faisant apparatre que les donnes (facile dmontrer) :

    s2 51n

    ni51

    x2i x 2

    La variance est donc gale la moyenne des carrs moins le carr de la moyenne.

    Cas 2 : n donnes rparties en k classes, la classe i tant deffectif absolu ni.

    Dans ces conditions, on obtient :

    e2q 5 s2 5

    1n

    ki51

    ni (xi x) 2

    s2 51n

    ki51

    ni x2i x2

    Changement dorigine et dchelle

    On pose, pour toutes les donnes, Y 5 aX 1 b, a et b tant des constantes,on obtient :

    s2aX1b 5 a2 s2X

    Un changement dorigine na donc aucune influence sur le rsultat.

    Proprits Lcart-type s caractrise la dispersion dune srie de valeurs. Plus s est petit,

    plus les donnes sont regroupes autour de la moyenne arithmtique x etplus la population est homogne ; cependant avant de conclure, il faut faireattention lordre de grandeur des donnes.

    20

  • doc 2006/8/9 11:52 page 21 #31

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Lcart-type permet de trouver le pourcentage de la population appartenant un intervalle centr sur lesprance mathmatique.

    La variance tient compte de toutes les donnes, cest la meilleure caractris-tique de dispersion (nombreuses applications en statistique).

    Exemple 1.13 Sries dobservations de lexemple 1.10Srie I

    Variance : s2 515

    (22 1 52 1 82 1 112 1 142

    ) (8)2 5 18cart-type : s 5 4,24

    Srie IIVariance : s2 5 26,33cart-type : s 5 5,13

    Srie III (les deux sries runies)Variance : s2 5 28,74cart-type : s 5 5,36

    Coefficient de variation

    Dfinition

    Il sexprime, sous la forme dun pourcentage, par lexpression suivante :

    CV 5sx3 100

    Proprits Le coefficient de variation ne dpend pas des units choisies. Il permet dapprcier la reprsentativit de la moyenne arithmtique x par

    rapport lensemble des donnes. Il permet dapprcier lhomognit de la distribution, une valeur du coef-

    ficient de variation infrieure 15 % traduit une bonne homognit de ladistribution.

    Il permet de comparer deux distributions, mme si les donnes ne sont pasexprimes avec la mme unit ou si les moyennes arithmtiques des deuxsries sont trs diffrentes.

    Quelques exemples de coefficient de variation : le coefficient de variationdu rgime nival est voisin de 0,1 ; celui dun cours deau rgulier de 0,3mais il peut atteindre 0,5 et mme 1 pour un cours deau irrgulier.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    21

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 22 #32

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    tendue

    Dfinition

    Ltendue est la quantit :

    E 5 xmax xminProprits Ltendue est facile calculer. Elle ne tient compte que des valeurs extrmes de la srie ; elle ne dpend ni

    du nombre, ni des valeurs intermdiaires ; elle est trs peu utilise ds quele nombre de donnes dpasse 10.

    Elle est utilise en contrle industriel o le nombre de pices prleves d-passe rarement 4 ou 5 ; elle donne une ide apprciable de la dispersion.Cependant, ds que cela est possible, on prfre prlever 15 20 units etutiliser lcart-type pour apprcier la dispersion.

    Caractristiques de forme

    Distribution symtrique

    Une distribution est symtrique si les valeurs de la variable statistique sontgalement distribues de part et dautre dune valeur centrale. Pour une distri-bution symtrique :

    mode 5 mdiane 5 moyenne arithmtique

    Coefficient dasymtrie ou de dissymtrie ou skewness

    g1 5m3s3

    o m3 51n

    ni51

    (xi x)3

    Coefficient daplatissement ou kurtosis

    g2 5m4s4

    o m4 51n

    ni51

    (xi x)4

    Ces deux coefficients sont principalement utiliss pour vrifier quune distri-bution est proche dune distribution normale (loi de Laplace-Gauss) ; en effet,pour une telle loi, le coefficient daplatissement est gal 3 et le coefficient

    22

  • doc 2006/8/9 11:52 page 23 #33

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    dasymtrie 0 (chapitre 6, paragraphe 6.6.2). Selon la valeur de ces coeffi-cients, on peut donner quelques caractristiques sur la forme de la distribu-tion : si g1 > 0, la distribution est tale vers la droite, si g1 < 0, la distribution est tale vers la gauche, si g1 5 0, on ne peut pas conclure que la distribution est symtrique mais

    la rciproque est vraie, si g2 > 3, la distribution est moins aplatie quune distribution gaussienne, si g2 < 3, la distribution est plus aplatie quune distribution gaussienne.

    Caractristiques de concentration

    Ces caractristiques sont utilises pour une grandeur positive cumulative telleque le revenu, la consommation...

    Courbe de concentration

    Soit une distribution de consommation X de masse totaleM . chaque valeurxi de la variable X , on associe le point qui a : pour abscisse F (xi) 5 Proportion des individus consommant moins de xi

    pour ordonne G (xi) 5Masse des consommations < xi

    Masse totalePour une distribution non uniforme, cette courbe est toujours en dessousde la premire bissectrice ; en effet, F (xi) est la proportion des individusconsommant moins de xi ; ils ne peuvent pas globalement consommer autantque les 100 F (xi) % suivants donc G(xi) < F (xi).La courbe de concentration traduit le pourcentage des individus consommantmoins de xi la contribution de ces individus la moyenne x de la massetotale.

    Indice de concentration ou indice de Gini1

    Plus la distribution de X est ingalement rpartie, plus la courbe de concen-tration sloigne de la premire bissectrice, la premire bissectrice traduisantlquirpartition.

    1. conomiste italien n en 1884.c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    23

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 24 #34

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Un indice propos par Gini est le suivant (figure 1.5) :

    G 5 aire ODBC aire ODBALindice de Gini est gal au double de laire comprise entre la courbe deconcentration et la premire bissectrice.

    0

    1

    G/2

    O A

    C B

    D

    Figure 1.5 Courbe de concentration et indice de Gini.

    Cet indice est donn par lintgrale double o f est la densit de la loi de lavariable X et m son esprance mathmatique :

    G 512m

    1

    1

    | x y | f (x) f (y) dx dy

    Pour un chantillon de taille n, on obtient :

    G 51

    n (n 1) xn

    i51

    nj5i11

    xi xjExemple 1.14 tude de la rpartition du revenu annuel

    On considre la rpartition par tranches de revenus annuels des contribuables sou-mis limpt sur le revenu (rles mis en 1966 au titre des revenus de 1965).

    Le fait que la dernire classe soit ouverte nentrane pas dinconvnients pour lesreprsentations graphiques et les calculs car leffectif de cette classe reprsente en-viron 1 % de leffectif total (0,009 9).

    24

  • doc 2006/8/9 11:52 page 25 #35

    1 Reprsentationgraphique et numrique

    des donnes

    1.2 Sries numriques une dimension

    Tableau 1.10 Rpartition du revenu annuel.

    Classes de revenus(en francs)

    Nombre de contribuables(en milliers)

    0 R < 50 00050 000 R < 100 000100 000 R < 150 000150 000 R < 200 000200 000 R < 350 000350 000 R < 500 000500 000 R < 700 000700 000 et plus

    549,3

    3 087,4

    2 229,0

    1 056,7

    925,0

    211,0

    90,8

    81,6

    Total 8 230,8

    Pour calculer la moyenne arithmtique, on donne une valeur moyenne cettedernire classe, 775 000 F par exemple.

    La moyenne arithmtique est alors gale 142 225 F, lcart-type 114 640 F.Le coefficient de variation est gal 0,80.

    La mdiane est gale 110 742 F, elle est reprsente par le contribuable quia pour numro n 4 115,4 3 1 000, le nombre dobservations prsentant unevaleur infrieure la mdiane est gal au nombre dobservations prsentant unevaleur suprieure la mdiane.

    Le mode est approximativement gal 62 500 F.

    La distribution est tale vers la droite :

    mode < mdiane < moyenne arithmtique

    Le premier quartile est reprsent par le contribuable n 2057,733 1 000 qui apour revenu 74 433,50 F.

    Le troisime quartile est reprsent par le contribuable n 6173,1 3 1 000 quia pour revenu 164 536,24 F.

    Pour dfinir la courbe de concentration, on a divis, afin de simplifier les calculs,les revenus par 25 000.

    Abscisses Fi : frquences cumules croissantes

    Ordonnes Gi : (masse des revenus des contribuables x)/masse totale des revenus)La masse totale des revenus est gale 46 824,20 F (ou 46 824,23 25 000).c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    25

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 26 #36

    1 Reprsentationgraphique et numrique

    des donnes

    1.3 Sries numriques deux dimensions

    Tableau 1.11 Rsultats numriques du tableau 1.10.

    Classe Centre Effectif AbscisseFi

    Contributionde chaqueclasse

    OrdonneGi

    [0, 2[

    [2, 4[

    [4, 6[

    [6, 8[

    [8, 14[

    [14, 20[

    [20, 28[

    [28, [

    1

    3

    5

    7

    11

    17

    24

    31

    549,3

    3 087,4

    2 229,0

    1 056,7

    925,0

    211,0

    90,8

    81,6

    0,0667

    0,4418

    0,7127

    0,8410

    0,9534

    0,9791

    0,9901

    1

    549,3

    9 262,2

    11 145

    7 396,9

    10 175

    3 587

    2 179,2

    2 529,6

    0,00117

    0,2095

    0,4475

    0,605

    0,823

    0,899

    0,946

    1

    1.3 Sries numriques deux dimensionsSoient X et Y les deux caractres tudis, p le nombre de modalits prises parX , q le nombre de modalits prises par Y et n le nombre total dobservations.On tudie, par exemple, le poids et la taille dun nombre n dindividus, letemps de travail sans pause et le nombre de pices assembles ou le nombredaccidents survenus pendant cette priode.

    1.3.1 Reprsentation graphique des donnes

    Tableaux statistiques

    On suppose que les deux variables tudies sont des variables discrtes et queles caractres sont des caractres quantitatifs. Les tableaux statistiques portentle nom de tableaux croiss ou tableaux de contingence.Dans chaque case du tableau, on crit leffectif nij de lchantillon, cest--direle nombre de donnes tel que X 5 xi et Y 5 yj .On dfinit les frquences absolues suivantes : Les frquences marginales :

    ni . 5q

    j51

    ni j et n. j 5p

    i51

    ni j

    26

  • doc 2006/8/9 11:52 page 27 #37

    1 Reprsentationgraphique et numrique

    des donnes

    1.3 Sries numriques deux dimensions

    Tableau 1.12 Tableau de contingence.

    XY x1 xi xp Frquencesmarginales

    y1 n11 ni1 np1 n.1

    yj n1j nij npj n.j

    yq n1q niq n.qFrquencesmarginales

    n1. ni. np. n

    La frquence marginale ni. est donc le nombre dindividus possdant lamodalit i du caractre X quelle que soit la distribution du caractre Y ; parexemple tous les individus ayant le mme poids quelle que soit leur taille.

    Les frquences conditionnelles sont dfinies pour chaque valeur de i et j. La frquence conditionnelle nj/i est la distribution de la variable Y quand

    on a fix la modalit i pour la variable X ; on sintresse, par exemple, la rpartition des tailles des individus ayant tous le mme poids. Elle estdfinie par :

    nj/i 5ni jni.

    On dfinit de la mme faon la frquence conditionnelle nj/i par :

    ni/j 5ni jn.j

    On sintresse, par exemple, la rpartition des poids des individus ayanttous la mme taille.

    Les frquences relatives fij , fi. et f.j sont obtenues en divisant les effectifs nijet les frquences marginales ni. et n.j par leffectif total n.

    Les distributions X et Y sont statistiquement indpendantes si et seulementsi :

    fi j 5 fi . f. j

    pour toutes les valeurs des indices i et j.

    Diffrents tests peuvent tre mis en uvre pour vrifier lindpendance dedeux variables statistiques (chapitre 17, tests dindpendance).c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    27

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 28 #38

    1 Reprsentationgraphique et numrique

    des donnes

    1.3 Sries numriques deux dimensions

    Reprsentations graphiques

    Variables quantitatives : nuage de points dans R2. Variables qualitatives : analyse multidimensionnelle, en particulier thorie

    de la rgression (chapitres 19, 20, 21 et 22).

    1.3.2 Mesure de dpendance

    Ltude de la distribution simultane de deux variables a pour but de prciser letype de liaison pouvant exister entre ces deux variables, la nature et lintensitde cette liaison, laide de diffrents coefficients.

    Variables quantitatives

    Rapport de corrlation linaireSoient x et y les moyennes des valeurs prises par les variables X et Y gales :

    x 51n

    i

    ni . xi y 51n

    j

    n.j yj

    et sX et sY les carts-types de ces distributions.Le rapport de corrlation linaire est le coefficient symtrique par rapport auxvariables X et Y dfini par la relation :

    r 5

    1n

    i

    nij (xi x)(yj y

    )sX sY

    On dmontre que 1 r 1. r 5 0 non-corrlation linaire, r 5 1 relation du type aX 1 bY 1 c 5 0 o a, b et c sont des

    constantes.

    Rapport de corrlation de Y en XLe rapport de corrlation de la variable Y par rapport la variable X est uncoefficient non symtrique dfini par :

    e2Y/X 5s2Y/Xs2Y

    5

    1n

    i

    ni .(yi y

    )21n

    j

    n.j(yj y

    )228

  • doc 2006/8/9 11:52 page 29 #39

    1 Reprsentationgraphique et numrique

    des donnes

    1.3 Sries numriques deux dimensions

    yi est la moyenne des valeurs prises par la variable Y pour une valeur fixe xide la variable X cest--dire :

    yi 51ni.

    qk51

    nik yk

    On dmontre que 0 e2 1. e2 5 0 non-corrlation, e2 5 1 liaison fonctionnelle, une valeur de la variable X correspond une

    seule valeur de la variable Y .

    Remarques Si la variable X est qualitative et la variable Y quantitative, on peut calculerce rapport de corrlation. Si pour toutes les valeurs des indices i et j, leffectif nij est gal 1, alors lerapport de corrlation e2 est gal 1 mais, dans ce cas, il na aucune signification.

    Les proprits de ces deux coefficients et les tests correspondants sont donnsdans le chapitre 17.

    Variables qualitatives

    Les principaux coefficients sont les suivants : Coefficient d2

    d2 5i,j

    (nij ni. n.jn

    )2ni. n.jn

    5 n

    i,j

    n2ijni. n.j

    1 5 n

    i,j

    f 2ijfi. f.j

    1

    Plus d2 est petit, plus la liaison entre les variables X et Y est forte. Sesproprits sont tudies dans le chapitre 16, paragraphe 16.2.4.

    partir de ce coefficient, on peut en dfinir dautres : Coefficient de contingence(

    d2

    d2 1 n

    ) 12

    Coefficient de Pearsonf2 5

    d2

    nc D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    29

    A

    STATISTIQUEDESCRIPTIVE

  • doc 2006/8/9 11:52 page 30 #40

    1 Reprsentationgraphique et numrique

    des donnes

    1.3 Sries numriques deux dimensions

    Coefficient de Tschuprow

    T 5f2(

    p 1) (q 1)o p et q dsignent le nombre de modalits prises par les variables X etY respectivement. Ce coefficient est analogue un coefficient de corr-lation linaire 0 < T < 1.

    RemarqueDans le cas particulier o p 5 q 5 2, le calcul du coefficient d2 et donc desautres coefficients sont particulirement simples.

    Tableau 1.13 Calcul du coefficient d2 (p 5 q 5 2).

    XY

    x1 x2 Frquencesmarginales

    y1 n11 n21 n11 1 n21

    y2 n12 n22 n12 1 n22

    Frquencesmarginales

    n11 1 n12 n21 1 n22 n

    On obtient pour le coefficient d2 :

    d2 5 n(n11 n22 n12 n21 )2

    (n11 1 n21) (n11 1 n12) (n21 1 n22) (n12 1 n22)

    30

  • doc 2006/8/9 11:52 page 31 #41

    BCalcul

    des probabilits

  • doc 2006/8/9 11:52 page 32 #42

  • doc 2006/8/9 11:52 page 33 #43

    2 LE MODLE PROBABILISTE

    2.1 IntroductionDans des domaines trs diffrents comme le domaine scientifique, sociolo-gique, mdical, les sciences humaines..., on sintresse de nombreux phno-mnes dans lesquels apparat souvent leffet du hasard. Ces phnomnes sontcaractriss par le fait que les rsultats des observations varient dune exp-rience lautre.Une exprience est appele alatoire sil est impossible de prvoir son rsultat etsi, rpte dans des conditions identiques, elle peut donner, ou aurait pu don-ner, si lexprience est unique, des rsultats diffrents. En gnral, les rsultatsobtenus varient dans un certain domaine, certains rsultats apparaissant plusfrquemment que dautres. Ils peuvent tre visualiss par des diagrammes, deshistogrammes, des courbes cumulatives de frquences, etc., et tre caractri-ss par quelques valeurs numriques telles que la moyenne arithmtique, lamdiane, le mode, la variance... (voir chapitre 1).Le mot probabilit est pass rapidement dans le langage courant bien quela thorie des probabilits soit une branche relativement rcente des thoriesmathmatiques.Le concept des probabilits semblait tre connu des Grecs et des gyptiens.Cependant, ce nest que vers le milieu du XVIIe sicle que lon peut situer le d-but de cette thorie. Dabord limite ltude des jeux de hasard (jeux de pileou face, roulettes, jeux de cartes...), elle sest rapidement tendue tous les do-maines de la Science, en Physique (thorie du potentiel, physique statistique,physique corpusculaire...), en Informatique, en conomie, en Gntique, enPsychologie... Linfluence des jeux de hasard se retrouve encore dans certainesexpressions, comme lesprance mathmatique qui tait lesprance du gain,c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    33

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 34 #44

    2 Le modle probabiliste 2.1 Introduction

    pouvant tre parfois une perte. Le mot probabilit ou ladjectif probable estbien souvent synonyme du mot chance.Les premiers rsultats mathmatiques furent introduits par Pascal et Fermatau milieu du XVIIe sicle. Puis, apparaissent, la fin du XVIIe sicle, le nomde Huyghens et surtout au XVIIIe sicle, les noms de Bernoulli, De Moivre,Bayes, Laplace, (le tome VII de ses uvres sintitule Calcul des Probabili-ts), Gauss et au XXe sicle, Poincar, Borel, Frchet, Lvy, Kolmogorov,Khintchin...

    Alors que la thorie du calcul des probabilits sest dveloppe rapidement aucours du XXe sicle, le concept de probabilit soulve encore de nombreusescontroverses non entirement rsolues. Cependant, on peut distinguer deuxcoles et diffrents concepts.

    2.1.1 Lcole objective

    La probabilit dvnements rptitifs est dfinie partir de la frquence dap-paritions de ces vnements. On distingue diffrents concepts :

    Lapproche frquentiste ou frquentielle

    Cest la thorie de Laplace, VonMises ; elle est fonde sur la notion dpreuvesrptes et indpendantes, la probabilit tant dfinie comme la limite de lafrquence relative des observations.Cette frquence, exprime comme le rapport

    nan

    (na tant le nombre dessais

    o lvnement A a t ralis au cours de n essais indpendants, rpts dansdes conditions identiques), a des fluctuations autour dune valeur limite quiest la probabilit de lvnement A (loi des grands nombres). Mais, on sup-pose implicitement que la frquence relative tend vers cette limite avec unegrande probabilit ! Cest--dire, que lon dfinit la probabilit partir de laprobabilit !

    La notion de probabilit tire des jeux de hasard

    La probabilit est le quotient du nombre de cas favorables par le nombre decas possibles, mais chaque cas tant suppos galement possible, donc qui-probable, on dfinit encore la probabilit partir de la probabilit !

    34

  • doc 2006/8/9 11:52 page 35 #45

    2 Le modle probabiliste 2.2 Les conceptsprobabilistes

    Lapproche axiomatique ou mathmatique

    Kolmogorov a introduit, au dbut du XXe sicle (1933), les concepts probabi-listes cest--dire le modle probabiliste. partir daxiomes, il a construit unethorie parfaitement logique et cohrente, le mot hasard nintervenant pas.Cette axiomatique repose essentiellement sur des concepts mathmatiques g-nraux, principalement sur la thorie de lintgration et de la mesure.Jusqu la fin du XIXe sicle, la seule manire de dfinir lintgrale dune fonc-tion tait celle de Riemann avec les sommes de Riemann-Darboux. Grce auconcept de mesure, introduit par Borel (1894, 1897), Lebesgue labore unethorie plus gnrale de lintgration. Puis enfin, grce Radon vers 1913, lesconcepts de mesure et dintgration, dfinis sur R et Rn, vont tre tendus des ensembles plus gnraux sur lesquels on a dfini une tribu. La notionde tribu, les thormes de dcomposition de Lebesgue-Nikodym et lexistencedes densits ont apport un dveloppement considrable la thorie des pro-babilits et lui ont donn sa forme actuelle.La probabilit tant alors une mesure particulire, tous les rsultats de la thoriede la mesure lui sont applicables.

    2.1.2 Lcole subjective

    Elle associe, la frquence observe de la ralisation dun vnement, undegr de confiance (ou de croyance) qui permet dvaluer la probabilit decet vnement. Elle a t dveloppe principalement par Keynes, De Finetti,Savage...Elle va mme jusqu nier lexistence de probabilits objectives. Le trait deprobabilits de De Finetti commence en effet par la probabilit nexiste pas.Elle prend beaucoup dimportance dans les thories de la dcision en associantla probabilit des vnements celle de leurs consquences. Mais la difficultest dvaluer la premire probabilit, cest--dire la probabilit a priori et lim-portance des consquences dpend des utilisateurs.

    2.2 Les concepts probabilistes lorigine probabiliser consistait rpartir, sur chacun des lments dun en-semble, un ensemble de valeurs ou probabilits dont la somme tait gale 1.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    35

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 36 #46

    2 Le modle probabiliste 2.2 Les conceptsprobabilistes

    Si cet ensemble, ou espace des preuves, est de dimension finie, il ny a pas dedifficults majeures. En revanche, si cet espace a la puissance du continu, leproblme dassocier chacun de ses lments, une probabilit, est pratique-ment sans solution.Pour formaliser ces notions, trois tapes sont ncessaires : dfinir le cadre dans lequel on observe les manifestations du hasard, cest-

    -dire dfinir une exprience alatoire et lensemble fondamental V, dfinir un vnement alatoire et la classe C des vnements alatoires, dfinir une probabilit sur lespace (V, C), cest--dire affecter un poids

    chaque vnement traduisant la chance de ralisation de cet vnement.

    2.2.1 Exprience alatoire

    Une exprience est dite alatoire sil est impossible den prvoir le rsultat,cest--dire, si rpte dans les mmes conditions, elle peut donner des rsul-tats diffrents, dans un ensemble dissues considres comme possibles : succession dappels un standard tlphonique non surcharg, observation de la dure de vie dun individu anonyme dans une population

    humaine, observation de la dure de fonctionnement sans panne dun appareil, jeu de pile ou face de dure infinie...

    Les rsultats dune exprience alatoire appartiennent un espace fondamentalou espace des preuves V ; un point quelconque v de V est un rsultat lmen-taire.Do la dfinition :Une exprience alatoire est un choix au hasard dun point v dans un ensembleV.Lensemble V dpend des connaissances que lon a, a priori, sur les rsultatspossibles de lexprience alatoire.

    Exemples 2.1

    On lance une pice de monnaie. Pour lensemble V, on peut choisir : soit lensemble V1 5 {pile, face}, soit lensemble V2 5 {pile, face, tranche}.On considre la succession des appels un standard tlphonique non surcharget on tudie la rpartition des instants o le standard reoit un appel, partir dun

    36

  • doc 2006/8/9 11:52 page 37 #47

    2 Le modle probabiliste 2.2 Les conceptsprobabilistes

    instant choisi comme origine (on admet que deux appels ne peuvent se produirerigoureusement au mme instant, et que le phnomne nest pas limit dans letemps).

    Une ralisation de cet vnement est une suite croissante de nombres rels positifsti o ti dsigne linstant denregistrement du ime appel :

    v 5 {t1 < t2 < < tn < tn11 < }.V est donc une partie de (R1)N

    On lance deux ds et on sintresse la somme des points apparaissant sur les deuxds. On obtient : soit V1 5 {2, 3, . . . , 12} soit V2 5 {2, 3, . . . , 12}Nsi on recommence N fois la partie.

    On lance deux ds et on sintresse aux points marqus sur chaque d :

    v 5 {x, y} avec 1 x y 6V 5 {x, y}6 est une partie de Z2

    On considre lexprience alatoire dure de vie dun individu . LensembleV estsoit lensemble N, soit la demi-droite relle positive R selon le procd discontinuou continu de cette mesure.

    Le choix de lespace V peut savrer difficile ou mme arbitraire. Si on rptelexprience une infinit de fois, les espaces qui vont intervenir seront ZN ouR

    N de dimension infinie. Dans certains cas, il faut mme faire intervenir desespaces fonctionnels.

    2.2.2 vnement alatoire

    Un vnement alatoire est li une exprience alatoire ; une fois lexprienceralise, on peut alors dire si lvnement a t ralis ou non.Un vnement alatoire A peut tre identifi la partie de V dont les lmentsralisent lvnement A.

    Exemple 2.2

    On jette deux ds et soit A lvnement :

    le total des points est suprieur ou gal 11 .c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    37

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 38 #48

    2 Le modle probabiliste 2.2 Les conceptsprobabilistes

    Lensemble des rsultats possibles est lensemble V 5 {(1, 1), (1, 2), . . . , (6, 6)}.Un total suprieur ou gal 11 est reprsent par lensemble des trois couples :

    v 5 {x, y} tels que x 1 y 11, cest--dire les couples {5, 6}, {6, 5}, {6, 6}.Cet ensemble de trois couples ralise lvnement A.

    On pourrait choisir pour lensemble des vnements, lensemble P(V) desparties de V, mais comme cet ensemble est en gnral trop vaste pour tre probabilis , on se limite un ensemble strictement contenu dans P(V),vrifiant les proprits logiques suivantes, qui servent de base axiomatique ladfinition mathmatique de la notion dvnement alatoire.

    Paralllisme entre la terminologie ensemblisteet la terminologie probabiliste

    tout vnement A est associ son contraire, non A ou A ou Ac qui estralis si et seulement si A ne lest pas.Dans lespaceV des vnements, A et A sont reprsents par des ensemblescomplmentaires au sens ensembliste.

    Pour tout couple dvnements A et B, lvnement A et B est ralis si Aet B sont raliss.Dans lespace V des vnements, lvnement A et B est reprsentpar lintersection des ensembles ralisant A et B, on le note A et B ou A B .

    Pour tout couple dvnements A et B, lvnement A ou B est ralis silun des deux ou si les deux sont raliss.Dans lespace V des vnements, il est reprsent par la runion des en-sembles ralisant A et B, on le note, ou ntant pas exclusif, A ou B ou A B .

    Deux vnements A et B sont incompatibles si la ralisation de lun impliquela non ralisation de lautre,Dans lespace V des vnements, deux vnements incompatibles sont re-prsents par deux parties disjointes.

    Les vnements A1,A2 . . . ,An forment un systme complet dvnementsou systme exhaustif si les ensembles qui leur sont associs forment unepartition de lespace V.

    38

  • doc 2006/8/9 11:52 page 39 #49

    2 Le modle probabiliste 2.2 Les conceptsprobabilistes

    Tableau 2.1 Terminologies probabiliste et ensembliste.

    Terminologie probabiliste Terminologieensembliste

    Notation

    vnement certain

    vnement impossible

    vnement contraire

    A et B

    A ou B (ou non exclusif)

    vnements incompatibles

    Systme complet dvnements

    Implication A B

    Espace entier

    Partie vide

    Complmentaire

    Intersection

    Runion

    Parties disjointes

    Partition de V

    Inclusion

    V

    A ou Ac

    A BA BA B 5 Ai Bj 5 Ai 5 VA B

    Implication A B ou A B : lvnement A ne peut tre ralis sans que B le soit.

    Toutes les oprations prcdemment dfinies stendent plus de deux vne-ments. La classe des vnements associs une exprience alatoire est doncune tribu C de parties de V (tribu ou s-algbre). (Voir annexe 2 la dfinitiondune tribu.)En rsum :Un espace probabilisable est un couple (V, C) form dun ensemble V et dunetribu C de parties de V (qui sont les vnements).

    2.2.3 Quantification des rsultats

    Le rsultat dune exprience alatoire ne peut pas tre prvu avec certitude.La thorie des probabilits doit cependant donner des rsultats quantifis,donc associer chaque vnement un poids, cest--dire un nombre qui va-lue sa chance de ralisation, ce nombre traduit la loi du phnomne tu-di.Historiquement, cette notion sest dgage partir de la notion de frquencede ralisation dun vnement A li une exprience v, au cours dune suitede rptitions identiques de v. Puis lapproche axiomatique, utilise depuisla fin du sicle dernier, a donn les bases mathmatiques la thorie desprobabilits.c

    Dun

    od

    Laph

    otoc

    opie

    no

    nau

    toris

    ees

    tun

    dlit

    39

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 40 #50

    2 Le modle probabiliste 2.3 Mesure de probabilitet espace probabilis

    2.3 Mesure de probabilit et espaceprobabilis

    2.3.1 Dfinition de la probabilit

    Intuitivement, si A et B sont deux vnements incompatibles, la chance de voirse raliser A ou B doit tre gale la somme des poids traduisant les chancesde ralisation de A et B. De mme, si (An), n appartenant N, dsigne unensemble dvnements tel que chacun deux est impliqu par le suivant et telque leur ralisation simultane est impossible, alors le poids de An a une limitenulle quand n tend vers linfini.Une probabilit Pr dfinie sur lensemble (V,C ), est une application de Cdans [0, 1] telle que : Pr (V) 5 1 Pr ( Ai) 5

    i

    Pr (Ai) pour toute runion finie ou dnombrable dvne-

    ments incompatibles.

    Le triplet (V,C ,Pr) est un espace probabilis , la mesure Pr ainsi dfinie est unemesure positive de masse totale gale 1 1.

    2.3.2 Proprits lmentaires

    Elles se dduisent des axiomes de dfinition : Pr () 5 0 mais Pr (A) 5 0 nimplique pas A 5

    Lvnement A tel que Pr (A) 5 0 est un vnement presque impossible.

    Pr(A)5 1 Pr (A)

    Pr (A B) 5 Pr (A) 1 Pr (B) Pr (A B) Pr ( Ai)

    i

    Pr (Ai) (aucune hypothse particulire sur les vnements Ai)

    si la suite des vnements Ai tend vers 0 en dcroissant, la limite de Pr(Ai)est nulle.

    si Bi est un systme complet dvnements, alors

    A, Pr (A) 5i

    Pr (A Bi)

    40

  • doc 2006/8/9 11:52 page 41 #51

    2 Le modle probabiliste 2.4 chantillonset sous-populations

    Cest la premire forme du thorme des probabilits totales.

    Remarque

    Pr(A) 5 1 nimplique pas A 5 V. Lvnement A tel que Pr(A) 5 1 est unvnement presque certain.

    2.4 chantillons et sous-populationsDe nombreux problmes faisant intervenir le calcul des probabilits se ra-mnent aux problmes de tirer des chantillons de taille r dans un ensemblede taille n, appel population, quelle que soit la nature de ses lments. Sui-vant la rgle du tirage, cet chantillon est : ordonn ou non, avec ou sans rptitions (on dit aussi avec ou sans remise).

    Deux autres espaces interviennent souvent dans des problmes lmentaires,lespace des sous-populations de taille r avec rptitions et lespace des permu-tations de n objets.

    Remarque

    Choisir un lment au hasard, signifie que les divers choix possibles sont quipro-bables donc que lensemble V est muni de la loi de probabilit uniforme. Dansce cas, tous les calculs sont simples et se ramnent souvent des calculs danalysecombinatoire.

    Des rappels danalyse combinatoire sont dvelopps dans lannexe 1.

    c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    41

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 42 #52

    3 PROBABILIT CONDITIONNELLEINDPENDANCE

    3.1 DfinitionSoit (V, C,Pr) un espace probabilis. Lintersection de deux vnements A et Best lvnement, not AB, ralis, si et seulement si, les deux vnements A etB sont raliss. Cependant, on peut sintresser la ralisation de lvnementA sachant lvnement B ralis, si cet vnement est de probabilit non nulle,cest--dire on sintresse la probabilit conditionnelle sachant B.

    La probabilit conditionnelle sachant B est lapplication de C dans [0, 1] dfiniepar :

    A C Pr (A/B) 5 Pr (A B)Pr (B)

    Cette application dfinit une probabilit sur le mme espace probabilis(V, C,Pr), la probabilit conditionnelle Pr( . /B) est dfinie comme la proba-bilit Pr sur la tribu C, le terme Pr(B) est un facteur de normalisation.Selon les vnements A et B, diffrents cas sont possibles.

    3.1.1 Les vnements A et B sont incompatibles

    Lvnement A ne se ralisera pas si lvnement B est ralis :

    Pr (A/B) 5 0

    Exemple 3.1

    On lance deux ds et on considre les deux vnements :

    A : obtenir un chiffre impair sur les deux ds,

    B : la somme des points obtenus sur les deux ds est un nombre impair.

    Ces deux vnements sont incompatibles.

    42

  • doc 2006/8/9 11:52 page 43 #53

    3 Probabilit conditionnelleIndpendance

    3.1 Dfinition

    3.1.2 Les vnements A et B ne sont pas incompatibles

    Deux vnements peuvent tre totalement dpendants ou dpendants.

    vnements totalement dpendantsDeux vnements A et B sont totalement dpendants si A B, ou si lv-nement B tant ralis, la probabilit de ralisation de lvnement A estgale 1 :

    Pr (A/B) 5 1

    On dit que A dpend totalement de B.

    Exemple 3.2

    Les vnements suivants sont totalement dpendants :

    A : le nombre est gal 4, 6, 8,

    B : le nombre est un nombre pair compris entre 2 et 20.

    vnements dpendantsDeux vnements A et B sont dpendants si la probabilit de ralisation delvnement A change selon que B est ralis ou non.

    Exemple 3.3

    On lance un d parfaitement quilibr et on considre les vnements suivants :

    A : obtenir la face 6,

    B : obtenir un nombre pair,

    C : obtenir un nombre suprieur ou gal 3.

    Pr(A) 5 1/6 Pr(B) 5 1/2 Pr(C) 5 4/6 5 2/3

    Si lvnement B ralis, la probabilit de ralisation de A est gale 1/3.

    Si lvnement C ralis, la probabilit de ralisation de A est gale 1/4.

    Les probabilits conditionnelles de A ne sont donc pas gales la probabilit de Ani gales entre elles :

    Pr(A) 5 1/6 Pr(A/B) 5 1/3 Pr(A/C) 5 1/4

    Les vnements A et B dune part, A et C dautre part sont dpendants.

    c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    43

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 44 #54

    3 Probabilit conditionnelleIndpendance

    3.3 vnementsindpendants

    3.2 Principe des probabilits composesLe principe des probabilits composes dcoule des axiomes et des dfinitions.Il scrit :

    Pr (A B) 5 Pr (A/B) Pr (B) 5 Pr (B/A) Pr (A)Cette formule est valable mme si les probabilits Pr(A) et Pr(B) sont nullestoutes les deux ; mais dans ces conditions, on ne peut pas dfinir Pr(A/B) niPr(B/A).

    3.3 vnements indpendants3.3.1 Dfinition

    Lvnement A est indpendant de lvnement B si la probabilit de ralisa-tion de lvnement A nest pas modifie par une information concernant laralisation de lvnement B, cest--dire si :

    Pr (A/B) 5 Pr (A)

    Le principe des probabilits composes entrane :

    Pr (A B) 5 Pr (A) Pr (B) 5 Pr (B/A) Pr (A)Pr (B/A) 5 Pr (B)

    Lvnement B est donc galement indpendant de lvnement A. Les vnementsA et B sont indpendants et vrifient la proprit :

    Pr (A B) 5 Pr (A) Pr (B)

    3.3.2 vnements incompatibles et vnementsindpendants

    La proprit les vnements A et B sont incompatibles implique :

    Pr (A B) 5 Pr (A) 1 Pr (B)

    La proprit les vnements A et B sont indpendants implique :

    Pr (A B) 5 Pr (A) 3 Pr (B)

    44

  • doc 2006/8/9 11:52 page 45 #55

    3 Probabilit conditionnelleIndpendance

    3.4 Indpendancedeux deux

    et indpendance mutuelle

    Les oprations union et somme semblent jouer le mme rle que les opra-tions intersection et produit. Cependant, les deux concepts, incompatibleset indpendants, sont totalement diffrents : Le premier vnements incompatibles est une notion ensembliste. Le second vnements indpendants est une notion probabiliste : deux

    vnements peuvent tre indpendants pour une loi de probabilit et nonpour une autre loi.

    3.4 Indpendance deux deuxet indpendance mutuelle

    La notion dindpendance et le principe des probabilits composes se gn-ralisent plusieurs vnements.

    3.4.1 Gnralisation du principe des probabilits composes

    Ce principe se traduit par la formule de Poincar que lon dmontre par rcur-rence :

    Pr (A1 A2 . . . An) 5 Pr (A1) Pr (A2/A1) Pr (A3/A1 A2) ...Pr (An/A1 A2 . . . An1)

    3.4.2 Indpendance mutuelle

    Les vnements Ai, i (1, . . . , n), sont mutuellement indpendants si, pourtoute partie I de lensemble des indices, on a :

    Pr

    (iI

    Ai

    )5iI

    Pr(Ai)

    Lindpendance mutuelle implique lindpendance deux deux mais cest unecondition plus forte.

    Exemple 3.4

    On lance deux ds et on considre les vnements suivants :

    A : le premier d donne une face impaire,

    B : le deuxime d donne une face impaire,c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    45

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 46 #56

    3 Probabilit conditionnelleIndpendance

    3.5 Thorme de Bayes

    C : la somme des points apparaissant sur les deux faces est impaire.

    Les vnements A, B et C sont deux deux indpendants. En effet :

    Pr(A) 5 1/2 Pr(B) 5 1/2 Pr(C) 5 1/2

    Pr(A B) 5 Pr(A C) 5 Pr(B C) 5 1/4Les vnements A, B et C ne sont pas indpendants :

    Pr(A B C) 5 0

    3.5 Thorme de Bayes3.5.1 Deuxime forme du thorme des probabilits totales

    On considre un vnement A de probabilit non nulle et lensemble(Ci)i(1,...,n) de toutes les causes possibles de ralisation de cet vnement ;cet ensemble forme un ensemble complet dvnements et lvnement A seproduit en mme temps quun et un seul des Ci, cest--dire :

    A 5 (A C1) (A C2) (A Cn)On en dduit la deuxime forme du thorme des probabilits totales :

    Pr (A) 5n

    i51

    Pr (A Ci) 5n

    i51

    Pr (A/Ci) Pr (Ci)

    3.5.2 Thorme de Bayes

    Considrons une des causes susceptibles de raliser lvnement A, la cause Ckpar exemple. Le thorme des probabilits composes donne :

    Pr (A Ck) 5 Pr (A/Ck) Pr (Ck) 5 Pr (Ck/A) Pr (A)De la deuxime forme du thorme des probabilits totales, on dduit Pr(A),puis le thorme de Bayes :

    Pr (Ck/A) 5Pr (A/Ck) Pr (Ck)n

    i51

    Pr (A/Ci) Pr (Ci)

    Sous cette forme, le thorme de Bayes (publi aprs sa mort en 1763) apparatcomme une consquence logique des axiomes et des dfinitions. Il prsente un

    46

  • doc 2006/8/9 11:52 page 47 #57

    3 Probabilit conditionnelleIndpendance

    3.5 Thorme de Bayes

    grand intrt, car il permet de modifier notre connaissance des probabilitsen fonction dinformations nouvelles, il joue un rle trs important dans lastatistique baysienne.

    Exemple 3.5

    Trois machines automatiques produisent des pices de voitures. La machine M1produit 40 % du total des pices, la machine M2 25 % et la machine M3 produit35 %. En moyenne, les pourcentages des pices non conformes aux critres impo-ss sont de 10% pour la machine M1, de 5 % pour la machine M2 et de 1 % pourla machine M3.Une pice est choisie au hasard dans la production totale des trois machines. Onconstate quelle nest pas conforme aux critres imposs.Quelle est la probabilit quelle ait t produite par la machine M1 ?On peut appliquer directement le thorme de Bayes.Soit B lvnement la pice est bonne et D lvnement la pice est dfec-tueuse .Les trois causes possibles de ralisation de lvnement D sont les trois machines.On connat les probabilits de ces causes par exemple Pr(M1) 5 0,40 ainsi que lesprobabilits conditionnelles Pr(D/M1) 5 0,10.

    Pr (M1/D) 5Pr (D/M1) Pr (M1)3

    i51

    Pr (D/Mi) Pr (Mi)

    On peut visualiser ce problme par larbre suivant :

    V

    0,40M1

    0,90B0,10D

    0,25M2

    0,95B0,05D

    0,35M3

    0,99B0,01D

    Pr (M1/D) 5Pr (M1 et D)

    Pr (D)

    Pr (D) 5 0,40 3 0,10 1 0,25 3 0,05 1 0,35 3 0,01 5 0,056

    Pr (M1/D) 50,40 3 0,10

    0,0565 0,714

    c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    47

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 48 #58

    3 Probabilit conditionnelleIndpendance

    3.5 Thorme de Bayes

    3.5.3 Signification et rle de ce thorme Les vnements Ci constituent lensemble de toutes les causes possibles et

    exclusives de ralisation dun vnement A. Les probabilits Pr(Ci) des vnements Ci (pour chaque valeur de lindice i)

    sont values compte tenu de notre connaissance relative aux conditionsdans lesquelles lvnement A sest produit ou se produira.

    Les probabilits Pr(A/Ci) sont les probabilits de ralisation de A danslventualit Ci (pour chaque valeur de lindice i). Lvnement A tant liaux vnements Ci, nos connaissances sur ces liens permettent dattribuerdes valeurs aux probabilits conditionnelles.

    Lvnement A est ralis : les probabilits Pr(A/Ci) ne changent pas, les probabilits Pr(Ci) deviennent caduques, on doit les remplacer par les

    probabilits sachant A ralis, cest--dire les expressions Pr(Ci/A), on est donc pass des probabilits a priori aux probabilits a posteriori.

    Lexpression a priori ne signifie pas en labsence de toute information ;les expressions correctes sont probabilits avant et aprs information, car il estimpossible de dfinir des probabilits de ralisation dvnements sur lesquelson na aucune information.

    3.5.4 Conclusion

    La probabilit dun vnement peut tre considre comme une caractris-tique de notre information son sujet que lon modifie ds que cette infor-mation est complte.Toute probabilit est donc conditionnelle et dpend de notre connaissance des objetsen cause.

    Nous devons nous souvenir que la probabilit dun vnement nestpas une qualit de lvnement lui-mme mais un simple mot pourdsigner le degr de connaissance que nous, ou quelquun dautre,peut esprer.

    J. Stuart Mill (1806-1873)

    Cette dmarche baysienne est une des approches possibles de la probabilit ;elle peut servir au diagnostic mdical, la thorie de la dcision...

    48

  • doc 2006/8/9 11:52 page 49 #59

    4 VARIABLES ALATOIRESRELLES

    4.1 Gnralits sur les variables alatoires

    4.1.1 Dfinition dune variable alatoire

    Les variables alatoires constituent un espace fondamental dlments ala-toires, un tel lment tant dfini par rfrence une exprience alatoire.Si (V, C, Pr) dsigne un espace probabilis et (E , E) un espace probabilisable,un lment alatoire, dfini sur (V, C, Pr) et valeurs dans (E , E), est uneapplication mesurable de (V, C) dans (E , E). Cet lment est appel : variable alatoire relle si lespace (E , E) est lespace (R, B), o B est la tribu

    de Borel de R, variable alatoire complexe si lespace (E , E) est lespace (C, C), variable alatoire vectorielle ou vecteur alatoire, de dimension n, si lespace

    (E , E) est lespace (Rn, Bn).Dans ce chapitre, on ne dfinira que des variables alatoires relles. Les pro-prits de ces variables sont donc celles des fonctions relles mesurables.

    Exemple 4.1 Variable alatoire

    On jette n fois une pice de monnaie. Lespace fondamental est V 5 (P, F)n o Pdsigne pile et F face ; la tribu associe est la tribu P(V) des parties de V.

    On peut sintresser :

    soit aux rsultats lmentaires :

    v 5 (v1,v2, . . . ,vn) o vi dsigne soit pile, soit face.

    On obtient, par exemple, la succession v 5 (P, F, F, F, P, F) pour n 5 6c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    49

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 50 #60

    4 Variables alatoiresrelles

    4.1 Gnralitssur les variables alatoires

    soit au nombre de fois o pile est sorti au cours des n jets.

    On obtient, par exemple, 2 fois pile quand on a lanc 6 fois la pice.

    On dfinit une fonction X application de V dans V 5 (1, 2, . . . , n)o X (v) est le nombre de fois o pile apparat dans v.

    Si v 5 (P, F, F, F, P, F), X (v) 5 2. Si la pice est parfaitement quilibre, ilsemble logique de munir (V, P(V)) de la loi de probabilit uniforme :

    Pr(P) 5 Pr(F) 5 1/2

    Sur lespace (V, P(V)), on dfinit une probabilit PrX ou Pr, image de Prpar lapplication :

    A P(V) Pr(A) 5 Pr(X1(A))Cette application X est une variable alatoire.

    4.1.2 Loi de probabilit dune variable alatoirerelle X

    La loi de probabilit dune variable alatoire relle X est la loi de probabilitPrx dfinie sur lespace (R, B) par :

    B B Prx(B) 5 Pr(v/X (v) B) 5 Pr(X1(B)

    )On montre facilement que Prx est une mesure positive sur (R, B) et comme :

    Prx(R) 5 Pr(X1(R)) 5 Pr(V) 5 1

    cette mesure est une probabilit. Prx est la mesure image de Pr par X .(R, B, Prx) est lespace de probabilit associ la variable alatoire relle X .Une variable alatoire relle traduit donc lide de rsultat numrique associ unphnomne alatoire.

    Exemple 4.2 Loi de probabilit

    On jette deux ds quilibrs et on sintresse la somme S des points figurant surles deux ds. On dfinit les espaces V et V par : V 5 (1, 2, . . . , 6)2

    et V 5 (2, 3, . . . , 12)

    50

  • doc 2006/8/9 11:52 page 51 #61

    4 Variables alatoiresrelles

    4.1 Gnralitssur les variables alatoires

    V est lespace fondamental ou ensemble des couples v 5 (n1, n2), n1 et n2 pre-nant les valeurs entires entre 1 et 6, bornes comprises, et V est lensemble desrsultats possibles, cest--dire lensemble des valeurs que la somme S peut prendre.

    Soit X lapplication de V dans V telle que :

    X (v) 5 (n1, n2)

    Pr(v) 5 1/36 car tous les lments de V ont la mme probabilit de ralisation etle cardinal de V est gal 36.

    Par dfinition, Pr(A) 5 Pr(X1(A))Ainsi, Pr(6) 5 Pr{X1(6)} 5 Pr{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} 5 5/36.La loi Pr est constitue de masses ponctuelles, elle peut donc tre reprsente parun diagramme en btons.

    2 3 4 5 6 7 8 9 10 11 12

    6 / 36 -

    5 / 36 -

    4 / 36 -

    3 / 36 -

    2 / 36 -

    1 / 36 -

    0

    Figure 4.1 Histogramme de la loi de la variable alatoire S (somme despoints obtenus en lanant deux ds).

    4.1.3 Quelle tribu de RRR doit-on choisir ?

    Une variable alatoire relle est un procd de mesure dun phnomne ala-toire. La question essentielle est de connatre la probabilit que X prenne sesvaleurs dans un intervalle [a, b] et ceci, quel que soit cet intervalle, car la pro-babilit que X prenne une valeur donne, est souvent nulle. Prx permet dedonner un sens cette notion puisque :

    Prx([a, b]) 5 Pr(X [a, b])c D

    unod

    La

    phot

    ocop

    ien

    on

    auto

    rise

    estu

    nd

    lit

    51

    B

    CALCULDES

    PROBABILITS

  • doc 2006/8/9 11:52 page 52 #62

    4 Variables alatoir