22
Le raisonnement bayésien Modélisation et inférence

Modélisation et inférence - Springer978-2-287-33907-3/1.pdf · les paramètres décrivant les effets des facteurs explicatifs et un raisonnement probabiliste, pour traduire la

  • Upload
    letuyen

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Le raisonnement bayésienModélisation et inférence

SpringerParisBerlinHeidelbergNew YorkHong KongLondonMilanTokyo

Le raisonnement bayésienModélisation et inférence

Éric ParentJacques Bernier

Éric ParentAgroParisTech/ENGREF19, avenue du Maine75732 Paris Cedex 15

Jacques BernierLe Pech-de-Biaud24250 Saint-Martial-de-Nabirat

ISBN : 978-2-287-33906-6 Springer Paris Berlin Heidelberg New York

© Springer-Verlag France, Paris, 2007Imprimé en France

Springer-Verlag France est membre du groupe Springer Science + Business Media

Cet ouvrage est soumis au copyright. Tous droits réservés, notamment la reproduction et la représentation latraduction, la réimpression, l’exposé, la reproduction des illustrations et des tableaux, la transmission par voied’enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conserva-tion des banques de données. La loi française sur le copyright du 9 septembre 1965 dans la version en vigueurn’autorise une reproduction intégrale ou partielle que dans certains cas, et en principe moyennant le paiementde droits. Toute représentation, reproduction, contrefaçon ou conservation dans une banque de données parquelque procédé que ce soit est sanctionnée par la loi pénale sur le copyright.L’utilisation dans cet ouvrage de désignations, dénominations commerciales, marques de fabrique, etc. mêmesans spécification ne signifie pas que ces termes soient libres de la législation sur les marques de fabrique et laprotection des marques et qu’ils puissent être utilisés par chacun.La maison d’édition décline toute responsabilité quant à l’exactitude des indications de dosage et des modesd’emploi. Dans chaque cas, il incombe à l’usager de vérifier les informations données par comparaison à lalittérature existante.

Maquette de couverture : Jean-François Montmarché

CollectionStatistique et probabilités appliquées

dirigée par Yadolah DodgeProfesseur Honoraire

Université de Neuchâtel

Suisse

[email protected]

Comité éditorial :

Christian GenestDépartement de Mathématiqueset de statistiqueUniversité LavalQuébec GIK 7P4Canada

Marc HallinUniversité libre de BruxellesCampus de la Plaine CP 2101050 BruxellesBelgique

Ludovic LebartÉcole Nationale Supérieuredes Télécommunications46, rue Barrault75634 Paris Cedex 13France

Stephan MorgenthalerÉcole Polytechnique Fédéralede LausanneDépartement des Mathématiques1015 LausanneSuisse

Gilbert SaportaConservatoire nationaldes arts et métiers292, rue Saint-Martin75141 Paris Cedex 3France

Dans la même collection :

– Statistique. La théorie et ses applicationsMichel Lejeune, avril 2004

– Le choix bayésien. Principes et pratiqueChristian P. Robert, novembre 2005

– Maîtriser l’aléatoire. Exercices résolus de probabilités et statistiqueEva Cantoni, Philippe Huber, Elvezio Ronchetti, novembre 2006

– Régression. Théorie et applicationsPierre-André Cornillon, Éric Matzner-Løber, janvier 2007

Préface

Faire de la statistique bayésienne a été, du moins en France, longtempsconsidéré comme adhérer à une église : une affaire de foi avec les querelles dechapelle qui s’ensuivent. Étant agnostique en la matière, je confesse le grandplaisir que j’ai eu à lire ce livre et à en rédiger la préface, d’autant plus que celame donne l’occasion de rendre hommage à l’un des auteurs qui m’a beaucoupappris quand j’étais étudiant.

Curieuse situation en vérité que celle de la statistique bayésienne alors quechacun s’accorde à considérer qu’il faut prendre en compte, dans une prévisionou une estimation, les informations que l’on peut avoir a priori.

L’expression a priori signifie ici préalablement à une nouvelle expérience,enquête, etc. et non au sens d’une opinion préétablie et non prouvée (Monsieurvous avez des a priori...).

L’utilisation d’une information préalable figure d’ailleurs dans des approchesclassiques de la statistique, en particulier en théorie des sondages où la prise encompte d’informations auxiliaires joue un grand rôle, à la fois pour constituer leplan d’échantillonnage (stratification) ou pour améliorer après coup les estima-tions (les fameux redressements). Malgré l’abondance d’informations a priori,je n’ai encore jamais vu utiliser d’estimation bayésienne pour des intentionsde vote ou des indices de popularité : on continue à utiliser des estimationsfréquentistes basées sur les seules données de la dernière enquête alors que l’onsait pertinemment que le pourcentage de voix de tel candidat au deuxième tourdes élections présidentielles ne sera pas inférieur à 40 % ni supérieur à 70 % etn’est pas n’importe quelle valeur comprise entre 0 et 1 !

Pourquoi cette, sinon méconnaissance, du moins réticence à employer l’ap-proche bayésienne ? Très vraisemblablement cela provient de la suspicion quel’on peut avoir à l’encontre de la conception subjectiviste des probabilités quel’on associe à la démarche bayésienne : si chacun peut avoir sa distribution deprobabilité qui reflète ses croyances, alors comment en tirer des conclusions ac-ceptables par tous ? Un autre handicap, d’une nature toute différente, était queles calculs des distributions prédictives étaient d’une complexité décourageante,mais les performances des ordinateurs ont rendu faisables des procédés de si-mulations efficaces et la disponibilité de programmes informatiques a changé ladonne.

Un des mérites de cet ouvrage est de montrer avec un grand nombre d’exemples

viii Le raisonnement bayésien

tirés de la vaste expérience des auteurs, comment on peut modéliser de façonnaturelle les distributions a priori et en tirer des inférences adéquates. Lesauteurs réalisent le tour de force pour qui n’est pas bayésien, de présenterl’approche bayésienne comme une démarche objective.

Il s’agit donc d’un véritable précis de modélisation, ne passant aucun aspectsous silence : le lecteur, j’en suis sûr, appréciera les parties consacrées au calculbayésien. Les auteurs ne sont pas tombés dans le travers, trop fréquent dansde nombreuses publications, qui consiste à s’intéresser plus aux techniques desimulation qu’au problème à résoudre.

La rigueur et la qualité pédagogique de cet ouvrage devraient certainementcontribuer à la diffusion de cette approche et à une meilleure prise en comptedu raisonnement probabiliste dans les décisions.

Quelques mots pour conclure : la statistique bayésienne donne un cadreformel séduisant, peut-être l’ultime rationalisation de la statistique classiqueoù tout est modélisé : paramètres comme observations. Il faut alors prendregarde au risque de sur-modéliser et de confondre modèle et réalité. Observeravant de modéliser, s’assurer de la robustesse ou résistance aux données erro-nées ou atypiques, valider les prédictions sur des données indépendantes restentdes principes indispensables pour le praticien. Être ou ne pas être bayésien, làn’est plus la question : il s’agit d’utiliser à bon escient les outils adaptés quandcela est nécessaire.

Gilbert Saporta

Avant-propos

La statistique est un art interdisciplinaire de la quantification sous incerti-tudes utilisé par les physiciens, les économistes, les ingénieurs, les géographes,les biologistes, les assureurs, les psychologues, les météorologues, les gestion-naires d’entreprises, etc. bref, tous les praticiens soucieux de bâtir, sur desfondations solides, un pont entre théorie et données expérimentales. Depuisun siècle, la statistique s’est considérablement développée, initiant une révolu-tion dans les modes de pensée, car elle porte un langage de représentation dumonde et de ses incertitudes. C’est aujourd’hui une science mathématique dontl’objectif est de décrire ce qui s’est produit et de faire des projections quant àce qu’il peut advenir dans le futur. Parfois, la situation peut être simplementdécrite par quelques représentations graphiques d’analyse élémentaire des don-nées. Bien souvent, le problème est beaucoup plus compliqué car de multiplesfacteurs d’influence doivent être pris en compte. Schématiquement, on construitdeux ensembles avec ces facteurs. Un premier paquet contient les facteurs ditsexplicatifs, bien identifiés, ceux dont on souhaite étudier l’influence en détail.En ce qui concerne le second paquet de facteurs, on ne sait, ou on ne veut pas,représenter leur effet perturbateur au cas par cas et, de ce fait, le jargon desmodélisateurs le baptise sous le terme bruit, décrit alors de façon plus grossièrepar ses caractéristiques statistiques générales. Dans tous les cas, l’étude de lavariabilité est au centre des débats : il s’agit d’abord de caractériser l’influencedes facteurs identifiés et ensuite de représenter et d’évaluer le bruit résiduel dûà ces autres facteurs non pris en compte dans l’analyse de façon explicite.

Dans une telle situation, le statisticien classique utilise à la fois un raisonne-ment déterministe par l’absurde, afin de proposer des valeurs acceptables pourles paramètres décrivant les effets des facteurs explicatifs et un raisonnementprobabiliste, pour traduire la variabilité des résultats observés due au bruit. Cemode de pensée s’appuie sur l’hypothèse de la réalité objective des paramètres(et donc du modèle qui les définit) ainsi que sur l’interprétation de la probabilitécomme limite des fréquences de résultats observés. C’est cette conception, ditefréquentiste, qui est généralement enseignée dans les cursus de formation aca-démique en France. A contrario, le statisticien bayésien utilise le même cadrede pensée pour traiter par le pari probabiliste l’interaction de ces deux niveauxd’incertitudes : ignorance quant aux valeurs possibles des paramètres et aléades bruits entachant les résultats expérimentaux.

x Le raisonnement bayésien

Choisir la piste bayésienne paraîtra à certains inutilement trop sophistiquési on se limite aux modèles élémentaires (binomial, normal, etc.) : pour ces casd’école simples, l’approche fréquentiste est facile (nombreux logiciels), passéedans les mœurs (excellents cours de nombreux collègues), et offre au praticiendes résultats souvent très proches de ceux que donnerait une analyse bayésienneavec une distribution a priori peu informative. Mais pour peu que l’analystesouhaite prendre à bras le corps des problèmes plus proches de son réel quo-tidien, apparaissent variables multiples, données manquantes, effets aléatoires,grandeurs latentes... bref la structure des modèles de la vie scientifique modernese présente sous une forme où des couches successives de conditionnement s’em-boîtent... et pour lesquels l’approche bayésienne affirme sa véritable pertinence.Finalement, nous ne proposons dans ce livre rien d’autre que de tirer parti ducalcul des probabilités conditionnelles. Conditionner, telle est la clé qui ouvretoutes les portes, à la fois pour la modélisation (où nous plaidons pour l’éla-boration de modèles avec structures par couches) et pour l’inférence (où leBayésien exploitera les structures de conditionnement inverse).

Le livre est construit en deux parties :– Les situations d’ingénierie sous incertitudes partagent de nombreux points

communs. La première partie décrit les principes généraux de modélisa-tion statistique permettant d’encadrer mais aussi de venir au secours del’imagination de l’apprenti modélisateur : sont mis en place les conceptsde décisions, d’informations, d’états de la nature et d’expertise. Dans cecadre décisionnel, l’approche bayésienne est présentée comme une ana-lyse de sensibilité vis-à-vis d’un critère de risque. On décrit ensuite com-ment les modèles courants peuvent être construits sur la base de quelquesconcepts généraux : concepts de symétrie, de parcimonie et d’entropie ougrâce aux théories de comportements asymptotiques. Enfin, le raison-nement conditionnel permet la naissance de structures de modèles parcouches de variables latentes et nous décrivons les constructions condi-tionnelles les plus utiles : données manquantes, modèles hiérarchiques,modèles dynamiques, etc.

– L’inférence est le processus d’apprentissage qui permet d’identifier unsystème en reconstruisant le vecteur des états de la nature à partir desinformations collectées au fur et à mesure. La formule de Bayes donnela crédibilité à accorder à chaque paramètre sous la forme d’une distri-bution conjointe de probabilités dite loi a posteriori. Malheureusement,les modèles courants mettent en jeu de nombreux paramètres et, parconséquent, la distribution de probabilité a posteriori est une loi multidi-mensionnelle dont la constante de normalisation se présente sous la formed’une intégrale multiple complexe. Par ailleurs, la boîte à outils standarddes distributions de probabilité ne donne des expressions analytiques quepour un nombre trop restreint de distributions multidimensionnelles. Laseconde partie présente donc les méthodes de calcul de ces distributionsa posteriori, notamment les algorithmes de simulation Monte Carlo ettout particulièrement ceux par chaînes de Markov (MCMC) qui se ré-

Avant-propos xi

vèlent l’outil adéquat pour un cadre plus général d’inférence où les lois aposteriori n’ont plus de forme particulière.

En résumé, cet ouvrage présente le plus directement possible les élémentsclés de la statistique bayésienne, en faisant l’hypothèse que le lecteur possèdeles bases de la théorie des probabilités et s’est déjà trouvé confronté à desproblèmes ordinaires d’analyse statistique classique. Il aidera l’apprenti modé-lisateur à poser un problème, à en estimer les grandeurs caractéristiques, à an-ticiper le comportement à venir du système ainsi que sa variabilité. Il s’adresseaussi aux chercheurs et utilisateurs désireux de s’assurer du choix judicieuxdes méthodes qu’ils emploient, ... ou bien sûr, de les remettre en question etde s’en approprier de nouvelles. Pour tenter de clarifier la portée et les limitesdes outils inventoriés dans le livre, nous nous sommes efforcés de présenter,sans démonstration, les propriétés probabilistes de base essentielles à la justi-fication des méthodes. Ce faisant nous espérons que le débutant, au prix d’uninvestissement intellectuel que nous pensons être acceptable, aussi bien que lespécialiste, sont susceptibles de trouver des informations intéressantes et utilespour leurs propres besoins. Enfin, l’accès à cet ouvrage sera facilité pour lenovice s’il a acquis une première expérience de la statistique classique ou bayé-sienne par la lecture d’ouvrages de niveau élémentaire tels que Bernier et al.,2000. Nous avons essayé d’atteindre ici un public de praticiens et d’ingénieurssoucieux de la validité des techniques qu’ils doivent appliquer. Sans sacrifiertoute rigueur mathématique, notre ambition est plus ici de montrer que dedémontrer. Ce souci nous distingue d’ouvrages de niveau mathématique plusambitieux tels que Droesbeke et al., 2002, état de l’art pédagogique et com-plet sur les méthodes bayésiennes modernes, ou de Robert, 2006, remarquabletraité fondamental et source d’inspiration importante pour tous les statisticiensbayésiens francophones ou non. Les exemples ont volontairement été choisis as-sez simples pour illustrer les idées de base des méthodes de calcul et la miseen pratique de nombreux modèles d’usage courant. Certains exemples ne sontpropres qu’à un chapitre particulier : on les a appelés par la suite illustrations’ils permettent de mettre en lumière un point de théorie et application quandils sont utiles pour faire comprendre la mise en place d’un calcul algorithmique.D’autres exemples (numérotés de 1 à 12) sont par contre repris à travers plu-sieurs chapitres. Ils emmènent progressivement le lecteur vers des situationsd’applications plus complexes illustrant l’approche bayésienne et dont on peutnumériquement réaliser l’inférence a posteriori par le calcul bayésien conven-tionnel ou par les méthodes MCMC. Le lecteur peut ne pas respecter l’ordredes chapitres et effectuer une lecture en diagonale en suivant le fil d’un mêmeexemple. Pour faciliter ce type de lecture à partir du second chapitre, le signe« � » indique au lecteur à quel endroit du livre se poursuit l’exemple, tan-dis que le signe « � » pointe sur la page où a été commencé le traitementde l’exemple. Les points de modélisation et d’inférence traités pour ces douzeexemples sont également repris dans l’index.

Les idées forces de cet ouvrage se sont dégagées au cours de la directionde candidats au doctorat dans de nombreux domaines d’application de la sta-

xii Le raisonnement bayésien

tistique. C’est pourquoi ce livre est d’abord dédié à Thierry, Irène, Philippe,Vincent, Luc, Sandrine, Antoine, Vazken, Etienne, Alberto, Benoît, Billy, Ni-colas, Yves et Sophie...

Notre collègue et ami de l’Université de Liège, Jean-Jacques Boreux, physi-cien passionné d’analyse bayésienne et pédagogue en croisade contre le caractèresouvent inapplicable des mathématiques appliquées, nous a aidés à réécrire denombreux chapitres de cet ouvrage. Nous voulons également remercier le direc-teur de l’École nationale du génie rural, des eaux et des forêts, Cyrille Van Effen-terre, osant parier sur l’utilité à terme de nos investigations méthodologiques,et consider avec bienveillance celles qui n’ont pas abouti à un contrat d’ingénié-rie aidant au financement immédiat de notre établissement. Nous avons eu leplaisir de collaborer avec l’équipe des permanents du laboratoire de MOdélisa-tion, Risques, Statistique, Environnement, de l’ENGREF, qui nous ont motivéspar leur critique et nous ont soutenus en partageant notre quotidien. La miseen œuvre de ce texte doit beaucoup à la diligence et l’efficacité de Claude Pin-geon, notre secrétariat du MORSE. Nous remercions les Institutions qui nouspermis d’utiliser les données de nos exemples (INRA, CEMAGREF, Électricitéde France, HydroQuébec). Enfin, ce livre n’aurait jamais pu exister sans DeniseBernier : grâce lui soit rendue pour avoir accepté, cinq ans sans coup férir, queson retraité de mari se libère des obligations socio-culturelles ordinaires (pé-tanque, chorale, cartes...) pour jouer avec des objets bizarres (MCMC, latex,etc.). On ne saurait oublier de plus sa contribution comme expert à l’évalua-tion du prior de l’exemple du loto-foot, malgré un biais revendiqué en faveurde l’équipe de Bordeaux.

Novembre 2006, Paris, France

Éric Parent et Jacques Bernier

Sommaire

Préface vii

Avant-Propos ix

Table des illustrations xix

Liste des tableaux xxiii

I L’ANALYSE BAYÉSIENNE 1

1 La décision en présence d’information 3

1.1 Décision, information et règle de décision . . . . . . . . . . . . 31.2 Ensemble A des décisions ou actions . . . . . . . . . . . . . . . 61.3 Ensemble X des informations . . . . . . . . . . . . . . . . . . . 81.4 Les campagnes de collecte d’information . . . . . . . . . . . . . 111.5 Associer x ∈ Xe et a ∈ A . . . . . . . . . . . . . . . . . . . . . 11

2 Représentation probabiliste des connaissances 19

2.1 Modèle statistique et modèle d’expertise . . . . . . . . . . . . 202.1.1 De l’utilité des représentations probabilistes . . . . . . . 202.1.2 Les observables X et les observées x . . . . . . . . . . . 212.1.3 Les inconnues θ . . . . . . . . . . . . . . . . . . . . . . . 22

2.2 Modèles statistiques paramétriques . . . . . . . . . . . . . . . 222.2.1 Exemple 1 : un modèle probabiliste à variable discrète . 232.2.2 Exemple 2 : pollution bactériologique . . . . . . . . . . 232.2.3 Exemple 3 : longueurs de saumons . . . . . . . . . . . . 242.2.4 Exemple 4 : rencontres de football . . . . . . . . . . . . 262.2.5 Exemple 5 : débordements d’une rivière . . . . . . . . . 29

2.3 Modèles d’expertise . . . . . . . . . . . . . . . . . . . . . . . . 302.3.1 Utiliser d’autres données . . . . . . . . . . . . . . . . . . 312.3.2 La méthode par introspection . . . . . . . . . . . . . . . 342.3.3 Choix de priors non informatifs . . . . . . . . . . . . . . 39

2.4 Que sait-on ? Incertitude et aléa . . . . . . . . . . . . . . . . . 41

xiv Le raisonnement bayésien

2.4.1 Mise à jour de prior par propriété de conjugaison . . . . 422.4.2 Quand les informations l’emportent sur le prior . . . . . 49

3 Risque et aide bayésienne à la décision 53

3.1 Le cadre décisionnel théorique . . . . . . . . . . . . . . . . . . 543.1.1 Analyse extensive (ou a posteriori) . . . . . . . . . . . . 543.1.2 Analyse normale (ou prédictive) . . . . . . . . . . . . . 54

3.2 Des fonctions de désutilité simplifiées . . . . . . . . . . . . . . 553.2.1 La pénalisation quadratique . . . . . . . . . . . . . . . . 563.2.2 La pénalisation linéaire dissymétrique . . . . . . . . . . 56

3.3 Exemples d’analyses décisionnelles complètes . . . . . . . . . . 573.3.1 Protéger ou ne pas protéger . . . . . . . . . . . . . . . . 573.3.2 Prise en compte réglementaire des risques . . . . . . . . 59

3.4 Traitement décisionnel de la construction d’une digue . . . . . 613.4.1 Période de retour . . . . . . . . . . . . . . . . . . . . . . 623.4.2 Interprétation économique de la crue de projet . . . . . 633.4.3 Prior non informatif . . . . . . . . . . . . . . . . . . . . 643.4.4 Règle de décision bayésienne . . . . . . . . . . . . . . . 65

4 Comment construire un modèle ? 73

4.1 Questions préliminaires . . . . . . . . . . . . . . . . . . . . . . 744.1.1 Le modèle existe-il ? . . . . . . . . . . . . . . . . . . . . 744.1.2 Le scientifique est condammé à la statistique . . . . . . 744.1.3 L’état de la nature est inaccessible à nos sens . . . . . . 74

4.2 Modèles par théorèmes asymptotiques . . . . . . . . . . . . . . 754.2.1 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . 764.2.2 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . 764.2.3 Loi généralisée des extrêmes . . . . . . . . . . . . . . . . 774.2.4 Loi des dépassements . . . . . . . . . . . . . . . . . . . 78

4.3 Modèles par convolution . . . . . . . . . . . . . . . . . . . . . 794.3.1 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . 804.3.2 Loi binomiale négative . . . . . . . . . . . . . . . . . . . 82

4.4 Modèles statistiques par maximum d’entropie . . . . . . . . . . 834.4.1 Interprétation intuitive de l’entropie . . . . . . . . . . . 844.4.2 Maximiser l’entropie Q sous contraintes . . . . . . . . . 864.4.3 Lois connues et reconnues de la famille exponentielle . . 88

5 Construire un modèle brique par brique 93

5.1 Dépendance et indépendance conditionnelles . . . . . . . . . . 945.2 Modèle et symétrie par échangéabilité . . . . . . . . . . . . . . 955.3 Conditionnement, causalité et graphe orienté . . . . . . . . . . 975.4 Définitions grâce à un graphe orienté . . . . . . . . . . . . . . 1005.5 Conditionner, la clé pour modéliser intelligemment . . . . . . . 1005.6 Classes de modèles par conditionnement probabiliste . . . . . . 105

5.6.1 Données manquantes et censurées . . . . . . . . . . . . 105

Sommaire xv

5.6.2 Modèle dynamique à temps discret . . . . . . . . . . . . 1085.6.3 Modèle hiérarchique . . . . . . . . . . . . . . . . . . . . 111

II LE CALCUL BAYÉSIEN 123

6 Motivations du calcul bayésien 125

6.1 Un passage obligé de l’inférence statistique bayésienne . . . . . 1266.1.1 Un calcul d’intégrale . . . . . . . . . . . . . . . . . . . . 1266.1.2 Difficultés . . . . . . . . . . . . . . . . . . . . . . . . . . 127

6.2 Inventaire des méthodes . . . . . . . . . . . . . . . . . . . . . . 1286.2.1 Les commodités mathématiques de la conjugaison . . . 1286.2.2 Les techniques asymptotiques . . . . . . . . . . . . . . . 1286.2.3 Algorithmes de simulation avec indépendance . . . . . . 1286.2.4 Simulation Monte Carlo avec dépendance . . . . . . . . 129

6.3 Guide de lecture . . . . . . . . . . . . . . . . . . . . . . . . . . 129

7 Méthodes exactes et modèles unidimensionnels 133

7.1 Distributions conjuguées naturelles . . . . . . . . . . . . . . . . 1347.2 Théorème de Koopman-Darmois . . . . . . . . . . . . . . . . . 1357.3 Densité conjuguée d’un modèle exponentiel modifié . . . . . . 136

7.3.1 Construire la distribution conjuguée . . . . . . . . . . . 1367.3.2 Extensions aux mélanges des propriétés de conjugaison . 137

7.4 Distributions conjuguées pour les modèles les plus courants . . 1377.5 Inférence par les distributions conjuguées naturelles . . . . . . 139

7.5.1 Exemple 2 de la pollution bactériologique . . . . . . . . 1397.5.2 Exemple 3 des saumons revisité . . . . . . . . . . . . . . 142

7.6 Distribution a posteriori d’un quantile normal . . . . . . . . . 1477.7 Au-delà des distributions conjuguées naturelles . . . . . . . . . 149

8 Représentations multidimensionnelles 153

8.1 Un cas particulier de modèle normal . . . . . . . . . . . . . . . 1538.1.1 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . . 1538.1.2 Inférence statistique . . . . . . . . . . . . . . . . . . . . 1558.1.3 Extensions à l’approximation de lois non normales . . . 156

8.2 Modèle multinormal général . . . . . . . . . . . . . . . . . . . 1568.2.1 Modèle multinormal avec prior multinormal-Wishart . . 1588.2.2 Modèle multinormal sur l’exemple 9 . . . . . . . . . . . 1618.2.3 Données multivariées partiellement manquantes . . . . . 162

8.3 Le modèle multinomial-Dirichlet . . . . . . . . . . . . . . . . . 1648.3.1 Le conjugué naturel du modèle multinomial . . . . . . . 1648.3.2 Inférence pour l’exemple 4 du loto-foot . . . . . . . . . . 165

8.4 Extensions vers le non-paramétrique . . . . . . . . . . . . . . . 1658.4.1 Application du modèle Dirichlet au bootstrap bayésien . 1668.4.2 Boostrap bayésien sur l’exemple 9 . . . . . . . . . . . . 167

xvi Le raisonnement bayésien

9 Les méthodes asymptotiques 171

9.1 Utilisation des modes a posteriori . . . . . . . . . . . . . . . . 1719.2 Posterior avec prior négligeable . . . . . . . . . . . . . . . . . 173

9.2.1 θ est un paramètre réel scalaire . . . . . . . . . . . . . . 1739.2.2 θ est un paramètre k-dimensionnel . . . . . . . . . . . . 175

10 Simulation Monte Carlo avec indépendance 181

10.1 Nombres au hasard . . . . . . . . . . . . . . . . . . . . . . . . 18110.2 Du déterminisme à l’aléatoire . . . . . . . . . . . . . . . . . . . 18210.3 La distribution uniforme sur l’intervalle [0,1] . . . . . . . . . . 18310.4 Distribution réelle discrète ou continue . . . . . . . . . . . . . 183

10.4.1 Par méthode d’inversion . . . . . . . . . . . . . . . . . . 18310.4.2 Simulation d’une variable normale N(0, 1) . . . . . . . . 185

10.5 La méthode d’acceptation-rejet . . . . . . . . . . . . . . . . . . 18610.6 Méthode d’inversion générale . . . . . . . . . . . . . . . . . . . 18910.7 Intégration par échantillonnage simple . . . . . . . . . . . . . . 19010.8 Échantillonnage pondéré ou préférentiel . . . . . . . . . . . . . 191

10.8.1 Choix de la distribution instrumentale . . . . . . . . . . 19310.8.2 Méthode IS approchée . . . . . . . . . . . . . . . . . . . 19310.8.3 Calcul bayésien par échantillonnage pondéré . . . . . . . 19410.8.4 Ré-échantillonnage . . . . . . . . . . . . . . . . . . . . . 19510.8.5 Méthodes générales de ré-échantillonnage . . . . . . . . 196

10.9 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19710.9.1 Quantile de Gumbel pour l’exemple 11 . . . . . . . . . . 19710.9.2 Intégration par échantillonnage . . . . . . . . . . . . . . 19810.9.3 Évaluation d’un prior informatif pour l’exemple 4 . . . 20010.9.4 Rendement de la méthode SIR de Rubin . . . . . . . . . 202

11 Chaînes de Markov et simulations Monte Carlo 205

11.1 Quelques illustrations de chaînes de Markov . . . . . . . . . . 20611.2 Éléments constitutifs des chaînes de Markov . . . . . . . . . . 214

11.2.1 États . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21411.2.2 Propriété de Markov . . . . . . . . . . . . . . . . . . . . 21411.2.3 Homogénéité (ou stationnarité forte) . . . . . . . . . . . 21411.2.4 Noyau d’une chaîne de Markov . . . . . . . . . . . . . . 21511.2.5 Équations de Chapman-Kolmogorov . . . . . . . . . . . 21711.2.6 Motivations pour passer à la limite . . . . . . . . . . . . 22011.2.7 Itérer une chaîne de Markov ? . . . . . . . . . . . . . . . 22111.2.8 Distribution invariante . . . . . . . . . . . . . . . . . . . 222

11.3 Chaînes de Markov sur l’espace d’états de cardinal fini . . . . 22411.3.1 Irréductibilité . . . . . . . . . . . . . . . . . . . . . . . . 22511.3.2 Propriétés caractéristiques des visites . . . . . . . . . . . 22511.3.3 Chaîne récurrente . . . . . . . . . . . . . . . . . . . . . 22911.3.4 Chaîne apériodique . . . . . . . . . . . . . . . . . . . . . 22911.3.5 Chaîne positive . . . . . . . . . . . . . . . . . . . . . . 229

Sommaire xvii

11.4 Chaînes de Markov pour les espaces d’états de cardinal infini . 23011.4.1 ϕ−Irréductibilité . . . . . . . . . . . . . . . . . . . . . . 23011.4.2 Chaîne récurrente . . . . . . . . . . . . . . . . . . . . . 23111.4.3 Harris-récurrence . . . . . . . . . . . . . . . . . . . . . . 23211.4.4 Chaîne positive récurrente . . . . . . . . . . . . . . . . . 232

11.5 Théorème général de convergence ergodique . . . . . . . . . . . 23311.5.1 Moyenne empirique le long d’une trajectoire . . . . . . . 23311.5.2 Recours à la Harris-récurrence . . . . . . . . . . . . . . 23411.5.3 Interprétation de la propriété ergodique . . . . . . . . . 23411.5.4 Intégrer par échantillonnage le long d’une trajectoire . . 235

11.6 Rapidité de convergence . . . . . . . . . . . . . . . . . . . . . . 23611.6.1 A-t-on atteint le régime stationnaire ? . . . . . . . . . . 23611.6.2 Contrôler la rapidité de convergence . . . . . . . . . . . 23911.6.3 Réversibilité . . . . . . . . . . . . . . . . . . . . . . . . . 241

11.7 Simulations informatiques . . . . . . . . . . . . . . . . . . . . . 242

12 Algorithme de Metropolis-Hastings 245

12.1 Une méthode MCMC générale : Metropolis-Hastings . . . . . 24612.1.1 L’algorithme d’acceptation-rejet revisité . . . . . . . . . 24712.1.2 Limitations de l’algorithme d’acceptation-rejet . . . . . 24712.1.3 Algorithme de Metropolis-Hastings . . . . . . . . . . . . 24912.1.4 Conditions de π-réversibilité . . . . . . . . . . . . . . . . 25012.1.5 Pratique de l’algorithme de Metropolis-Hastings . . . . 251

12.2 Réglages de l’algorithme Metropolis-Hastings . . . . . . . . . . 255

13 Algorithme de Gibbs 263

13.1 Échantillonneur de Gibbs . . . . . . . . . . . . . . . . . . . . . 26313.1.1 Cas de deux coordonnées à valeurs continues . . . . . . 26413.1.2 Condition d’invariance . . . . . . . . . . . . . . . . . . . 26513.1.3 Échantillonnage de Gibbs d’un vecteur à k composantes 26613.1.4 Exemple d’application de l’échantillonneur de Gibbs . . 268

13.2 Algorithme de Gibbs et modélisation graphique . . . . . . . . 27013.2.1 Le DAG : une représentation utile du problème . . . . . 27013.2.2 Modèle graphique et conditionnelles complètes . . . . . 27113.2.3 Variables non observables . . . . . . . . . . . . . . . . . 27313.2.4 Traitement de l’exemple 6 . . . . . . . . . . . . . . . . . 27513.2.5 Traitement de l’exemple 10 . . . . . . . . . . . . . . . . 27613.2.6 Traitement de l’exemple 7 . . . . . . . . . . . . . . . . . 279

13.3 Discussions et exercices de maniement . . . . . . . . . . . . . . 28013.3.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . 28013.3.2 Capture/ marquage/ recapture . . . . . . . . . . . . . . . 281

xviii Le raisonnement bayésien

14 Algorithmes MCMC et par - delà 283

14.1 Méthodes hybrides . . . . . . . . . . . . . . . . . . . . . . . . . 28414.2 Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . 28814.3 Les logiciels d’analyse bayésienne . . . . . . . . . . . . . . . . . 294

14.3.1 Écrire ses propres programmes . . . . . . . . . . . . . . 29414.3.2 Utiliser des packages bayésiens tout faits . . . . . . . . . 29514.3.3 WinBUGS . . . . . . . . . . . . . . . . . . . . . . . . . . 296

14.4 Calculs d’intégration et contrôles pratiques de la convergence . 30014.4.1 Contrôle par l’échantillonnage pondéré séquentiel . . . . 30014.4.2 Approximation par un autorégressif . . . . . . . . . . . 30114.4.3 Test pour contrôler que la phase ergodique est atteinte . 303

14.5 Introduction aux méthodes particulaires . . . . . . . . . . . . . 30614.5.1 Une étape d’échantillonnage pondéré . . . . . . . . . . . 30614.5.2 Une étape de ré-échantillonnage . . . . . . . . . . . . . . 30714.5.3 Ajouter une transition à la mode MCMC . . . . . . . . 30914.5.4 Premières idées pour un algorithme particulaire . . . . . 30914.5.5 Réconcilier échantillonnage pondéré et MCMC . . . . . 31314.5.6 Utilisation des algorithmes particulaires . . . . . . . . . 314

15 Conclusions 323

15.1 Une démarche cohérente et des outils efficaces . . . . . . . . . 32315.2 De la difficulté d’être statisticien . . . . . . . . . . . . . . . . . 32515.3 Jeter des ponts transdisciplinaires . . . . . . . . . . . . . . . . 32615.4 Du plaisir d’être statisticien . . . . . . . . . . . . . . . . . . . . 327

Annexes 331

Bibliographie 351

Index 359

Table des illustrations

1.1 Contrôle sanitaire dans un arrondissement de Paris. . . . . . . 41.2 Échantillonnage de saumons juvéniles sur le Scorff. . . . . . . 51.3 Grille de loto sportif. . . . . . . . . . . . . . . . . . . . . . . . 61.4 Pointes de crue au-delà de 2 500 m3 / s de la Garonne . . . . 71.5 Alerte aux coliformes en 1992. . . . . . . . . . . . . . . . . . . 91.6 Décision conditionnelles à l’information météorologique. . . . . 14

2.1 Répartition des longueurs de juvéniles du Scorff. . . . . . . . . 252.2 Victoire, match nul et défaite. . . . . . . . . . . . . . . . . . . 282.3 Modèle de renouvellement poissonnien. . . . . . . . . . . . . . 292.4 A priori sur la moyenne des saumons juvéniles. . . . . . . . . . 322.5 A priori sur la variance des saumons juvéniles. . . . . . . . . . 332.6 Exemple de loi a priori de type bêta. . . . . . . . . . . . . . . 352.7 Connaissances a priori [θ]. . . . . . . . . . . . . . . . . . . . . 432.8 Mécanisme déductif [x sachant θ]. . . . . . . . . . . . . . . . . 432.9 Connaissances a posteriori [θ |x] . . . . . . . . . . . . . . . . . . 442.10 Prise en compte de l’information pour actualiser ρ. . . . . . . . 482.11 Mise à jour du paramètre μ. . . . . . . . . . . . . . . . . . . . 48

3.1 Coût moyen a posteriori de ne pas construire. . . . . . . . . . 60

5.1 Causalité et dépendance probabiliste. . . . . . . . . . . . . . . 985.2 Dépendances conditionnelles entre trois variables. . . . . . . . 995.3 Histogrammes des apports mensuels à Ghezala. . . . . . . . . . 1025.4 Deux visions de la loi des fuites. . . . . . . . . . . . . . . . . . 1045.5 Structure graphique de modèle à données manquantes. . . . . 1065.6 Apports avec données manquantes. . . . . . . . . . . . . . . . 1075.7 Posteriors avec et sans information complémentaire. . . . . . . 1095.8 Modèle dynamique à temps discret. . . . . . . . . . . . . . . . 1095.9 Graphe acyclique orienté d’un modèle hiérarchique. . . . . . . 1115.10 Pannes et indisponibilités de 12 avions. . . . . . . . . . . . . . 1135.11 Graphes acycliques orientés avec et sans échangéabilité. . . . . 1175.12 Modèle hiérarchique pour le loto-foot. . . . . . . . . . . . . . . 118

xx Le raisonnement bayésien

5.13 Représentation imagée de la vision d’un modélisateur. . . . . . 1195.14 Comment fait un biologiste pour identifier un animal du sol ? . 120

6.1 Densités a posteriori au voisinage du mode. . . . . . . . . . . . 131

7.1 Posterior marginal de l’écart entre aval et amont. . . . . . . . 1467.2 Densités a posteriori de la moyenne θ et de q0,9. . . . . . . . . 149

8.1 Posterior de la variance annuelle de la production. . . . . . . . 1628.2 Posterior de la moyenne de la production totale. . . . . . . . . 1638.3 Estimations non paramétriques de la fonction de répartition. . 168

9.1 Ajustement de Gumbel aux chutes de neige maximales. . . . . 1779.2 Distribution a posteriori asymptotique de x0,9. . . . . . . . . . 178

10.1 Histogramme sur 20 classes d’un 1 000-échantillon uniforme. . 18410.2 Méthode d’inversion de la fonction de répartition. . . . . . . . 18510.3 Méthode AR acceptation-rejet. . . . . . . . . . . . . . . . . . . 18610.4 Échantillon bêta par méthode d’acceptation-rejet. . . . . . . . 18810.5 Simulation d’une loi binormale par décomposition conditionnelle.19010.6 Mécanisme de l’échantillonnage pondéré. . . . . . . . . . . . . 19210.7 Mécanisme du sampling importance resampling. . . . . . . . . 19510.8 Posteriors exact et simulé d’un quantile Gumbel. . . . . . . . 19910.9 Distributions a priori et a posteriori des θi. . . . . . . . . . . 20110.10 Vraisemblances normées par importance sampling. . . . . . . . 20310.11 Vraisemblances normées par importance sampling resampling. . 203

11.1 Comportement des itérées d’un modèle sec-humide. . . . . . . 20711.2 Modèle de diffusion entre deux compartiments. . . . . . . . . . 20911.3 Modélisation autorégressive du chiffre d’affaires. . . . . . . . . 21111.4 Niveaux successifs d’un barrage réservoir. . . . . . . . . . . . . 21311.5 500 premiers tirages d’une chaîne bidimensionnelle. . . . . . . 22311.6 Distribution ergodique de la chaîne bidimensionnelle. . . . . . 22411.7 Époques de passages en A. . . . . . . . . . . . . . . . . . . . . 22811.8 Fréquences de l’état 1 d’une chaîne à deux états. . . . . . . . . 23711.9 Trajectoires markoviennes d’un auto-régressif. . . . . . . . . . 23811.10 Histogrammes des réalisations d’un autorégressif . . . . . . . . 23811.11 Un algorithme itératif avec un composant stochastique. . . . . 244

12.1 Problème inverse. . . . . . . . . . . . . . . . . . . . . . . . . . 24612.2 Ajustement d’un modèle linéaire sur dix données artificielles. . 25212.3 Marginales a posteriori de θ1. . . . . . . . . . . . . . . . . . . 25312.4 Marginales a posteriori de θ2. . . . . . . . . . . . . . . . . . . 25412.5 Marginales a posteriori de θ3. . . . . . . . . . . . . . . . . . . 25412.6 Distribution de θ1 et θ2 pendant la période de chauffe. . . . . . 25612.7 Marginales de θ1 et θ2 en comportement limite. . . . . . . . . 257

Table des illustrations xxi

12.8 Trajectoires de deux chaînes MH pour ρ après 1 000 itérations. 25812.9 Fréquences de renouvellement des deux chaînes. . . . . . . . . 25912.10 Distributions a posteriori de ρ exactes et simulées. . . . . . . . 262

13.1 Schéma de l’algorithme de Gibbs. . . . . . . . . . . . . . . . . 26713.2 La mise à jour bayésienne tire parti du conditionnement. . . . 27213.3 Posteriors marginaux des paramètres ρ et μ. . . . . . . . . . . 27713.4 Probabilité prédictive pour les pluies à Ghezala. . . . . . . . . 27813.5 Posteriors des paramètres des apports de La Grande. . . . . . 279

14.1 Ajustement de Weibull sur un échantillon de 30 observations. . 28514.2 Histogrammes a posteriori de λ et υ. . . . . . . . . . . . . . . 28714.3 Jaugeage hydrométrique sur 16 mesures. . . . . . . . . . . . . 29014.4 3 chaines simulées par l’échantillonneur de Gibbs. . . . . . . . 29214.5 Histogrammes simulés de β, α, σ. . . . . . . . . . . . . . . . . . 29214.6 Diagramme des incertitudes jointes du couple α, β. . . . . . . . 29314.7 Distribution a posteriori RB lissée de β. . . . . . . . . . . . . . 29414.8 Autocorrélogramme de l’hyperparamètre α. . . . . . . . . . . . 29814.9 Estimation du modèle de fiabilité des avions. . . . . . . . . . . 29814.10 Autocorrélation pour α, β et σ de la courbe de jaugeage. . . . 30214.11 Trois trajectoires bien mélangées de ρ. . . . . . . . . . . . . . . 30514.12 Fréquence d’acceptation pour le modèle de Weibull. . . . . . . 30514.13 Un mode non visité faute d’un nombre suffisant d’itérations. . 30714.14 Loi auxilliaire pour explorer la densité de probabilité cible. . . 30814.15 Certains points sont plus plausibles que d’autres. . . . . . . . . 30814.16 Tirage bootstap multinomial. . . . . . . . . . . . . . . . . . . . 30914.17 Enrichissement par un noyau markovien. . . . . . . . . . . . . 31014.18 Boucler sur le cycle suivant. . . . . . . . . . . . . . . . . . . . 31114.19 Échantillonnage pondéré et algorithmes markoviens. . . . . . . 31414.20 Avatars d’un échantillonnage pondéré séquentiel. . . . . . . . . 31514.21 Modèle dynamique de mélange de distributions gamma. . . . . 31714.22 Accentuation du relief par passage à la puissance de U(d). . . 32114.23 Résoudre un problème de décision optimale . . . . . . . . . . . 322

15.1 Statisticien, drôle de métier. . . . . . . . . . . . . . . . . . . . 324A.1 Histogramme d’ensemble des longueurs de saumons. . . . . . . 335A.2 Scorff : corrélation moyenne - écart-type. . . . . . . . . . . . . 336A.3 Médiane d’une gamma en fonction de a. . . . . . . . . . . . . . 338A.4 Log10 des rapports r75 et r90 pour une loi gamma. . . . . . . . 339A.5 Quartile3 et décile9 de Student en fonction de 2a. . . . . . . . 341

Liste des tableaux

1.1 Longueurs de saumons juvéniles. . . . . . . . . . . . . . . . . . 101.2 Débits annuels maximaux de la Garonne. . . . . . . . . . . . . 12

2.1 Modèle empirique de fiabilité météo. . . . . . . . . . . . . . . . 232.2 Information des 50 précédentes années. . . . . . . . . . . . . . . 312.3 Chances de victoire ou nul pour 7 équipes. . . . . . . . . . . . . 372.4 Élicitation des paramètres de non-perte. . . . . . . . . . . . . . 38

3.1 Barème de Kass et Raftery. . . . . . . . . . . . . . . . . . . . . 72

4.1 Lois de Halphen. . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.1 Précipitations mensuelles à Ghezala. . . . . . . . . . . . . . . . 1015.2 Fiabilité de climatisation de 13 avions. . . . . . . . . . . . . . . 114

6.1 Notations pour les densités de probabilité courantes. . . . . . . 130

7.1 Tableau des conjuguées naturelles. . . . . . . . . . . . . . . . . 1387.2 Données de production en TWH annuels. . . . . . . . . . . . . 148

8.1 Statistiques exhaustives du système HydroQuébec. . . . . . . . 1618.2 conjugaison multinomiale-Diriclet. . . . . . . . . . . . . . . . . 1658.3 Crédibilité à 99 % des quantiles de la variance. . . . . . . . . . 168

9.1 Mode a posteriori pour la distribution de Poisson. . . . . . . . 1739.2 Chutes maximales de neige à la Plagne. . . . . . . . . . . . . . 1769.3 Crédibilité asymptotique pour le quantile de Gumbel. . . . . . 178

10.1 Intervalles de crédibilité à 90 % exact et simulé. . . . . . . . . . 20010.2 Données de confrontation entre quatre équipes. . . . . . . . . . 200

11.1 Échanges entre compartiments. . . . . . . . . . . . . . . . . . . 209

12.1 Données générées pour la régression. . . . . . . . . . . . . . . . 251

xxiv Le raisonnement bayésien

14.1 Seize mesures de jaugeage. . . . . . . . . . . . . . . . . . . . . . 28914.2 Crédibilité à 90 % des paramètres de jaugeage. . . . . . . . . . 29314.3 Estimation des temps moyens interpannes. . . . . . . . . . . . . 299

A.1 Pêches sur 16 sites de Pont Callec. . . . . . . . . . . . . . . . . 335A.2 Médiane et premier décile de l’écart-type. . . . . . . . . . . . . 342