View
2
Download
0
Category
Preview:
Citation preview
MCMC ou ABC ?
Bonheurs et tourments de mise en œuvre sur un cas de risque sanitaire
AppliBUGS , 17 juin 2011
Clémence RIGAUX
En collaboration avec Sophie Ancelet, Frédéric Carlin, Christophe Nguyen-Thé, Isabelle Albert
1
Contexte : l’analyse du risque microbiologique dans les aliments
• Des modèles prédisant le comportement de bactéries pathogènes le long d’une chaîne de transformation des aliments (jusqu’à la maladie)
• Développement de méthodes quantitatives d’évaluation du risque microbiologique (QMRA : Quantitative Microbial Risk Assessment)
• permettant de rendre compte des diverses situations par la prise en compte des sources de variabilité et d’incertitudes• permettant le calcul du risque de toxi-infection
2C.Rigaux, AppliBUGS
Cas d’étude : B.cereus dans la purée de courgettes
• Un modèle de risque alimentaire dû au pathogène Bacillus cereus dans une chaîne de fabrication de purée de courgettes Construit par Afchain et al., 2008 Tenant compte de la grande diversité génétique de B.cereus : 6 groupes Analyse du risque par la méthode de simulation de Monte Carlo
θ
Y=f(θ)
3C.Rigaux, AppliBUGS
Mise en place d’une méthode d’inférence bayésienne
Données observées de contamination en B.cereus
dans des paquets de courgettes après des tests de vieillissement
Lois a priori sur les paramètresdu modèle de risqued’Afchain et al.,2008
Inférence bayésienne
Lois a posteriori sur les paramètres
du modèle
But : utiliser l’information issue de données de contamination dans les paquets de courgettes pour améliorer le modèle de Afchain et al.,2008, qui peut être vu comme un réseau bayésien :
remontée de l’information de long de la chaîne4C.Rigaux, AppliBUGS
Mise en place d’une méthode d’inférence bayésienne
Le théorème de Bayes donne la loi a posteriori, ie la loi des paramètres θsachant les données X :
Ici, deux méthodes possibles de calcul :
][
]][[][
X
XX
Méthode de Monte Carlo par Chaîne de Markov : MCMCChaînes de Markov convergeant vers la loi a posteriori
Méthode de calcul bayésien approché : ABCMéthode approchée n’utilisant pas la vraisemblance des observations, utilisant la simulation des données
5C.Rigaux, AppliBUGS
Plan
Introduction
1. Présentation du modèle et des données
2. Essai d’inférence bayésienne par méthode ABC
3. Mise en place de l’inférence bayésienne par MCMC
6C.Rigaux, AppliBUGS
Modèle complexe : 132 variables, comprenant 66 inputs, 60 variables intermédiaires, 6 outputs
1. Présentation du modèle et des données
Batch de légumes crus
Mélange
Mixage
Partitionnement en 860 paquets
Transport réfrigéré
Conservation au froid en magasin
Transport chez le consommateur
Conservation dans un réfrigérateur domestique
Ingrédients
Pasteurisation
Conservation au froid en usine
Cuisson
Intervalle de temps
Inactivation des spores
Germination des spores
Elimination totale des cellules végétatives et inactivation des spores
Germination des spores et croissance des cellules végétatives
Croissance des cellules végétatives
Processus biologiques impactant B.cereus
Source de contamination
7
1. Présentation du modèle et des données
Ce modèle peut être vu comme un réseau bayésien :
C
eqt
BTt ),(
Genetic group s =II,…,VII
TIT
PAST
eqt
ING
sC
HSTt ),(HTTt ),(RSTt ),(RTTt ),(CSTt ),(
I
sC
PAR
jsC
M
sC
B
sC
C
sC
HT
jsCRS
jsCRT
jsCCS
jsCPAST
jsC
TI
jsC
HS
jsC
Inac
s
Gr
s
Package j =1,…,860
8C.Rigaux, AppliBUGS
1. Présentation du modèle et des données
Des données de contamination après vieillissement, souvent censurées à gauche :75% des contaminations totales sous le seuil de détectionPour les 25% des contaminations positives, censure des concentrations en souches non détectées
Données (source) Produit Conditions Contamination en log CFU/g
(groupes génétiques détectés)
5 paquets de 800g 21 jours à 4°C < 1,7
5,5 (VI)
3 (VI)
3,8 (II)
3,1 (II)
6 (IV)
7,2 (II et IV)
6,4 (IV)
6,3 (IV)
6,3 (IV)
3,7 (II)
2,7 (II)
3,7 (II)
5 (II)
< 2 pour les 23 autres paquets
5,2 (VI)
4,4 (VI)
4,7 (VI)
< 2 pour les 20 autres paquets
14 paquets venant
du même batch
(INRA)
4 paquets de 800g 21 jours à 10°C
5 paquets de 800g5 jours à
20-25°C
50 paquets venant
de batch différents
(USINE)
27 paquets de 400g20 jours à 4°C
puis 10 jours à 8°C
23 paquets de 400g10 jours à 4°C
puis 20 jours à 8°C
9C.Rigaux, AppliBUGS
Plan
Introduction
1. Présentation du modèle et des données
2. Essai d’inférence bayésienne par méthode ABC
3. Mise en place de l’inférence bayésienne par MCMC
10C.Rigaux, AppliBUGS
2. Essai d’inférence bayésienne par ABC
Motivations pour tenter l’ABC dans notre contexte :
• Complexité du modèle• Problème initial de la loi multinomiale non programmable en Winbugs ou en Jags• Difficulté de convergence de la méthode MCMC • Comparaison de la méthode MCMC et de la méthode ABC
Objectif et principe de la méthode ABC :
Calcul des lois a posteriori sans utiliser de vraisemblance mais en comparant directement les données simulées (par le modèle de simulation de Monte Carlo) avec les données observées
11C.Rigaux, AppliBUGS
2. Essai d’inférence bayésienne par ABC
Méthode ABC : algorithme de type acceptation/rejet :
1. Générer θ (vecteur de paramètres) à partir des lois a priori 2. Simuler des données avec θ (à l’aide du modèle)3. Accepter θ si les données simulées sont proches des données observées
Sinon, refuser θ. Retourner en 1.
Loi a posteriori = distribution des θ acceptés
12C.Rigaux, AppliBUGS
2. Essai d’inférence bayésienne par ABC
Mise en place de la méthode :
Simulation de 64 paquets dans les mêmes conditions de vieillissement que les données,par le modèle d’Afchain et al., 2008, « augmenté » :
• 5 conditions de vieillissement différentes• 14 paquets Inra venant du même batch,
50 paquets industriels de bachs différents
13
2. Essai d’inférence bayésienne par ABC
Mise en place de la méthode :
• Construction d’une distance entre données simulées et observées• Ici en utilisant des statistiques résumées des concentrations simulées après
vieillissement :
nécessaires pour obtenir une comparaison globale des concentrations des données avec les concentrations prédites (mais perte de précision)
14C.Rigaux, AppliBUGS
2. Essai d’inférence bayésienne par ABC
Définition de la statistique résumée : un ensemble de conditions résumant les données :
A l’intérieur de chaque condition de vieillissement :- Le type de groupes génétiques dominants (ie au dessus du seuil de détection, avec les
autres groupes génétiques en quantité 10 fois inférieure) (II,…,VI) - Le nombre de paquets contaminés par ces groupes dominants- La quantité de bactéries de ces groupes dominants (log10ufc/g)- Le nombre de paquets non contaminés
Distance : On juge une série de 64 prédictions similaire aux 64 données si :
A l’intérieur de chaque condition de vieillissement :- On retrouve le même type de groupes génétiques dominants- Et un nombre similaire de paquets contaminés par cette souche (±1 ou ±2) - Et en quantité similaire : marge d’erreur ± δ log10ufc/g- Et un nombre similaire de paquets non contaminés
15C.Rigaux, AppliBUGS
2. Essai d’inférence bayésienne par ABC
Exemple sur une condition de vieillissement :
5,5 (VI)
3 (VI)
7,5 (VI)
3,8 (II)
3,1 (II)
Condition de
vieillissement
INRA 2 : 5 paquets
On accepte les 5 paquets simulés correspondants si ils comportent :
• De 1 à 3 paquets avec - entre 3.1-δ et 3.8+δ log10 ufc/g de souche II- des concentrations simulées en souches III à VII < à 1/10
de la concentration simulée en II dans ces paquets
• De 2 à 4 paquets avec - entre 3 – δ et 7.5+δ log10 ufc/g de souche VI - des concentrations simulées en souches III, III, IV, V et VII < à 1/10 de la concentration simulée en IV dans ces
paquets
• Les 5 paquets simulés correspondent à un des cas ci-dessus, avec éventuellement un paquet non contaminé.
16C.Rigaux, AppliBUGS
2. Essai d’inférence bayésienne par ABC
Résultat :
Avec 400 000 simulations (durée : 15h) et δ = 0.5 log10ufc/g :
→ Certaines conditions très difficiles à accepter L’ensemble des conditions doit être accepté simultanément pour accepter une
simulation. Donc 0 simulation acceptée.
(*) résultats obtenus avec le 1er jeu de 70 données et programme initial A.L., plusieurs batchs par simulation
ConditionsPourcentage de
simulation acceptées
Inra 1 98,9%
Inra 2 0,00%
Inra 3 1,21%
Industriel 1 0,00%
Industriel 2 0,00%
Les 64 paquets 0,00%
17C.Rigaux, AppliBUGS
2. Essai d’inférence bayésienne par ABC
Comment expliquer qu’on n’accepte jamais ?
• Résultat du modèle multivarié, de dimension 64*6 = 384 difficultés
• Données assez éloignées des prédictions du modèle• Souche VI : prévalence prédite par le modèle de 0.03%, mais dans les données
prévalence supérieure à 7.8%• Condition Inra 2 : prédiction surtout de II, III et IV, mais dans les données: du II et du VI
18C.Rigaux, AppliBUGS
Données > limite de détectionDonnées censuréesLimite de détection totaleConcentrations prédites
Exemple : groupe génétique VI, condition Industriel 2
Remarque : <0.1 bactérie dans le paquet : assimilé à 0.1 bactérie -> - 4 log10ufc/g
2. Essai d’inférence bayésienne par ABC
Essais pour avoir des meilleurs taux d’acceptation :
• Assouplissements de la distance : augmentation de la marge d’erreur δ, autoriser quelques paquets non contaminés, diminution de la limite de censure pour les groupes génétiques non détectées, etc.
• Modification des priors (élargissements) problème : les taux d’acceptation s’améliorent pour certaines conditions de vieillissement mais se dégradent pour d’autres
• Essais en supposant tous les paquets issus d’un même batch
Tous les paramètres θ à ce niveau de modèle sont au niveau batch 51 batchs 51 jeux de θ par simulation, donc 66*51 = 3366 inputs !
1 batch 1 jeu de θ par simulation, donc 66 inputs seulementmais sous-estimation de la variabilité !
modèle d’Afchain et al.,2008, de Monte Carlo de 1er degré : ne sépare pas la variabilité et l’incertitude problème de prise en compte de la variabilité entre les paquets qui viennent d’un même batch et les paquets venant de batch différents 19
2. Essai d’inférence bayésienne par ABC
Résultats des essais pour avoir des meilleurs taux d’acceptation :(en supposant tous les paquets issus d’un même batch)
(*) résultats obtenus avec le jeu de 64 données et programme bis issu du programme MCMC, 1 batch par simulation
Toujours aucune acceptation simultanée !??
Conditions
Modèle normal
1000 simulations
Erreur = 1 log10ufc/ g
Priors modifiés (10)
300 000 simulations
Erreur = 1 log10ufc/ g
Priors modifiés (10)
1 000 000 simulations
Erreur = 5 log10ufc/ g
Inra 1 99,8% 98,2% 98,3%
Inra 2 0,00% 0,1% 0,8%
Inra 3 1,5% 12,6% 19,6%
Industriel 1 0,60% 1,5% 1,8%
Industriel 2 0,00% 0,55% 1,44%
Les 64 paquets 0,00% 0,00% 0,00%
Pourcentage de simulation acceptées
20C.Rigaux, AppliBUGS
Configuration 10 : élargissement des priors de δVI, z, TminII, Log10Nmax, tCeq, teqpas, Tb, TTI
Plan
Introduction
1. Présentation du modèle et des données
2. Essai d’inférence bayésienne par méthode ABC
3. Mise en place de l’inférence bayésienne par MCMC
21C.Rigaux, AppliBUGS
3. Inférence bayésienne par MCMC
Mise en place :
• Utilisation de Jags
• «Augmentation» du modèle : rajout d’étapes de vieillissement des paquets dans les mêmes conditions que les données
• Vraisemblance : raccordement des données de concentrations en B.cereus (en ufc/g) aux concentrations simulées via une loi lognormale censurée (i : batch, j : paquet, s : groupe génétique, αj = LoD ou ):
Prédictions
)(;)),(log(~)log( 2
j
A
js
obs
js CCNC
)10/log( obs
jSC
][ X
Données
)100,0(~ Unif22C.Rigaux, AppliBUGS
Censure : uniquement pour les données censurées
Prior mis sur l’erreur :
Package j =1,…,64
C
eqt
BTt ),(
Genetic group s =II,…,VII
TIT
PAST
eqt
ING
sC
HSTt ),(HTTt ),(RSTt ),(RTTt ),(CSTt ),(
I
sC
PAR
jsC
M
sC
B
sC
C
sC
HT
jsCRS
jsCRT
jsCCS
jsCPAST
jsC
TI
jsC
HS
jsC
Inac
s
Gr
s
σ
obs
jsCA
jsC
j
A
jTt ),(
3. Inférence bayésienne par MCMC
Le réseau bayésien augmenté :
23C.Rigaux, AppliBUGS
3. Inférence bayésienne par MCMC
Méthodes de calcul :
• Simulation de 1 batch et de 64 paquets par batch Hypothèse : les paquets sont tous issus d’un même batch Même problème de prise en compte de la variabilité/incertitude que pour l’ABC
• Avec le logiciel Jags, simulation de 2 chaînes de Markov indépendantes • Période de chauffe (« Burn-in ») de 1 000 000 itérations• 2 000 000 itérations avec un pas de 1000 Convergence atteinte pour la majorité des inputs sauf difficultés pour 2 ou 3 : grosse autocorrélation
TTI Tmin II Delta II
24C.Rigaux, AppliBUGS
3. Inférence bayésienne par MCMC
Résultats : prior (--) versus posterior (―) : les + importantes modifications
Tmin II Tmin VI Tmin IV Erreur σ
Delta VI Muopt Log10Nmax z
Durée cuisson éq. Température intervalle Température blanchiment Concentration initiale VI
25
3. Inférence bayésienne par MCMC
Résultats : prévalence
Augmentation de la prévalence finale pour les souches II et VI, diminution pour les autres
Genetic Group
InitialAfter
cookingMilk
(ingredient)Starch
(ingredient)
After mixing with ingredients and partitioning
After pasteurization
After home cold
storage
II 100 60 100 100 28 13 13
III 100 48 100 100 80 40 40
IV 100 45 100 100 100 84 84
V 100 24 100 100 5 0.1 0.1
VI 100 45 100 100 6 0.03 0.03
VII 100 64 100 100 10 1 1
T ota l 100 83 100 100 100 88 88
II 100 100 100 100 80 59 59
III 100 87 100 100 65 1 1
IV 100 86 100 100 100 72 72
V 100 82 100 100 6 0.00 0.00
VI 100 93 100 100 50 15 15
VII 100 99 100 100 19 0.05 0.05
T ota l 100 100 100 100 100 90 90
MC prevalence (%)
MCMC prevalence (%)
--
-
+
26C.Rigaux, AppliBUGS
3. Inférence bayésienne par MCMC
Retour sur résultats
• Modifications des contaminations : cohérentes avec les données (II, VI)• Modifications des priors :
• soit en accord avec les avis d’experts ( ex : Tmin) réduction d’incertitude sur les lois de certains paramètres
• soit assez surprenantes aux yeux des experts questionnement du modèle, des connaissances ou de la méthode
Ex : Grosse réduction des durées équivalentes de cuisson problème avec le modèle de temps équivalents?
27C.Rigaux, AppliBUGS
Conclusion
Inférence bayésienne sur un réseau AQR :
Technique puissante permettant de faire remonter l’information apportée par les données le long de la chaîne de production
- permet de réduire l’incertitude sur les paramètres- et d’éventuellement s’interroger sur certains aspects du modèle
Méthode ABC : n’a pas abouti – modèle trop éloigné des données ??
Méthode MCMC : fonctionne, avec des résultats cohérents
- mais convergence lente à atteindre, car forte autocorrélation- prise en compte difficile de la variabilité entre les paquets de batchs différents, due à la structure du modèle
28C.Rigaux, AppliBUGS
Merci de votre attention !
Quelques références :
Afchain, A.L., Carlin, F., Nguyen-the, C., Albert, I., 2008. Improving quantitative exposure assessment by considering genetic diversity of B. cereus in cooked, pasteurised and chilled foods. International Journal of Food Microbiology, 128, 165-173.
Albert, I., Grenier, E., Denis, J.B., Rousseau, J., 2008. Quantitative Risk Assessment from Farm to Fork and Beyond: a global Bayesian Approach Concerning Food-Borne Diseases. Risk Analysis, 28, 557-571.
Delignette-Muller, M.L., Cornu, M., Pouillot, R., Denis, J.B., 2006. Use of Bayesian modelling in risk assessment: application to growth of Listeria monocytogenes and food flora in cold-smoked salmon. International Journal of Food Microbiology,106, 195–208.
29C.Rigaux, AppliBUGS
Recommended