Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
DEPARTEMENT D'INFORMATIQUE
THESE
Présentée par
HAM AMI Dal i la
Pour obtenir
LE DIPLOME DE DOCTORAT EN SCIENCES
Filière: Informatique
Spécialité: Informatique
Soutenue le : / /2017
Devant les membres du jury :
Directeur de thèse : Mr B. ATMANI Professeur à l’Université d’Oran 1, Ahmed Ben Bella
Président : Mr B. BELDJILALI Professeur à l’Université d’Oran 1, Ahmed Ben Bella
Examinateur : Mr H. HAFFAF Professeur à l’Université d’Oran 1, Ahmed Ben Bella
Examinateur : Mr A. RAHMOUN Professeur à l’Université de Sidi Bellabas
Examinateur : Mme H. FIZAZI Professeur à l’Université des Sciences et de la Technologie d'Oran
Examinatrice : Mr M. BENYETTOU Professeur à l’Université des Sciences et de la Technologie d'Oran
PERFORMANCE DU TRAITEMENT DES EPIDEMIOLOGIES PAR
EFFETS DE SIMULATION ET DATA MINING
Thèse effectuée au sein du Laboratoire d’Informatique d’Oran
Équipe de recherche « Apprentissage automatique, Intelligence artificielle et Raisonnement :
AIR»
De l’Université Ahmed Ben Bella Oran 1
Oran
Algérie
Résumé
La modélisation et simulation ont émergé comme outils de base pour le suivi
épidémiologique, la prévention et la prise de décision. Cependant, concevoir un modèle
prédictif optimal est une tâche des plus complexes. En effet, les systèmes épidémiologiques
ont la particularité d’être décrits par un ensemble massif de composants en interaction
continue et dont le comportement est dynamique et complexe. Ce qui engendre une quantité
de données et de connaissances qu’il est impossible à l’être humain d’en extraire les éléments
clés. Ainsi, identifier les structures appropriées et les paramètres déterminants reste à ce jour,
un facteur majeur de confusion pour les épidémiologistes et les modélisateurs.
Dans ce contexte de données épidémiologiques larges et souvent bruitées, la fouille de
données se trouvent être des techniques effectives pour l’extraction de connaissances
pertinentes.
Nous présentons dans cette thèse une approche de conception des modèles prédictifs
optimaux en utilisant conjointement : les outils de modélisation et simulation et les
techniques de fouille de données. Notre travail est principalement guidé par : la modélisation
et la simulation par les algèbres des processus, Bio-PEPA ; la fouille de données par les arbres
de décisions, les règles d’association et la segmentation. Notre approche s’applique à deux
exemples épidémiques réels : la tuberculose en Algérie et les oreillons en Grande Bretagne.
Mots clés : Modélisation et Simulation, Fouille de Données, Optimisation, Epidémiologie
Humaine
Abstract
Modeling and simulation emerged as major tools for epidemiological monitoring, prevention
and making decision. However, achieving an optimal model is a tedious and complex task.
Indeed, epidemiological systems are described by a massive set of components in continuous
interaction for which the behavior is dynamic and complex. Thus, leading to data and
knowledge for which human cannot deal. Thereby, identifying an appropriate model
structures and determinants parameters remain as confusion factor for epidemiologists and
developers.
In this context of large and noisy epidemiological data, data mining provides effective
methods for finding pertinent knowledge.
In this thesis, we propose an approach for optimal epidemiological modelsby using jointly:
modeling and simulation tools and data mining methods. Our work is mainly guided by:
process algebra modeling and simulation, Bio-PEPA; Decision tree, association rules and
clustering mining. The approach is demonstrated using two real epidemiological examples:
Tuberculosis in Algeria and mumps in United Kingdom.
Keywords: Modeling and Simulation, Data Mining, Optimizing, Human Epidemiology.
REMERCIEMENTS
Cette thèse de doctorat a été réalisée au Laboratoire d’Informatique Oran (LIO), rattaché à
l’université Ahmed Benbella Oran1, en collaboration avec le laboratoire de Modélisation et
Analyse des Systèmes Complexes (MACS : Modelling and Analysis of Complex Systems) de
l’université de Stirling, Scotland.
Je voudrais remercier ici toutes les personnes qui ont contribuées, de près ou de loin, à
l’accomplissement de se travail de recherche.
En premier lieu, mes remerciements vont au Professeur Baghdad Atmani qui a accepté de
diriger ce travail . Tout au long de ces années, il a su me guider et m’enrichir avec ses
connaissances constructives et hautement qualifiées. Son soutien et ses encouragements
m’ont apporté énormément. Le Professeur Atmani a suscité mes intérêts pour mener des
recherches innovatrices et m'a mis au défi de faire de mon mieux.
Je remercie également Professeur Carron Shankland de l’université de Stirling pour ses
conseils continus, son inspiration, ses commentaires perspicaces et son soutien ainsi que sa
patience tout au long de cette recherche. Je lui suis profondément reconnaissante.
C’est avec beaucoup de reconnaissance que je remercie les membres du Jury : Mme H. Fizazi
et Messieurs B. Beldjilali, H. Haffaf, A. Rahmoun et M. Benyettou, pour avoir pris le temps
de lire avec attention ma thèse et pour leurs remarques pertinentes et constructives.
A un niveau personnel, je remercie mes deux raisons de vivre, mon adorable petit garçon
Zakaria ainsi que mon cher et tendre époux Khalid, qui se sont armés de patience et de
sagesse pour l’accomplissement de cette thèse. Je les remercie pour leurs encouragements et
sacrifices.
Un merci sans frontière à mes très chers parents pour leur soutien, aide et encouragement,
qu’ils trouvent ici l’expression de ma gratitude.
Merci à tous les membres de ma famille, frères, beaux frères, belles sœurs et beaux parents.
J'aimerais également exprimer mes sincères remerciements à Mr Said Assous pour la lecture
de cette thèse dans un délai très court et pour tous ses conseils.
Je remercie mes collègues, de l’université de Mostaganem, qui ont de près ou de loin, permis
l’avancement de mes travaux.
Et pour finir merci à mes amies, Asma Assous et Lynn Reilly. A tous ceux et celles que je
n’ai pas cité et qui ont apporté un plus à cette thèse.
Table des matières
Introduction générale ........................................................................................................................ 1
Contexte et problématique de la thèse ........................................................................................ 1
Contributions ................................................................................................................................. 3
Structure de la thèse ...................................................................................................................... 5
Chapitre 1 : Modélisation épidémiologique ..................................................................................7
1.1 Introduction .............................................................................................................................8
1.2 Modélisation et simulation ....................................................................................................8
1.2.1 Modèle computationnel ............................................................................................9
1.2.2 Caractéristiques d’un modèle ...................................................................................9
1.2.3 Processus de modélisation ....................................................................................... 9
1.3 Epidémiologie humaine ...................................................................................................... 10
1.3.1 Définition ................................................................................................................. 10
1.3.2 Facteurs épidémiologiques .................................................................................... 10
1.3.3 Mode de transmission ............................................................................................ 10
1.4 Modèles épidémiques ......................................................................................................... 11
1.4.1 Terminologies ......................................................................................................... 11
1.4.2 Objectifs d’un modèle épidémique ...................................................................... 12
1.4.3 Structure du modèle épidémiologique ................................................................. 13
1.4.4 Classification des modèles .................................................................................... 14
1.4.5 Modèle à compartiments ....................................................................................... 14
1.4.5.1 Le modèle SIR....................................................................................... 14
1.4.5.2 Variantes du modèle SIR ...................................................................... 15
1.5 Etat de l’art des travaux de modélisation épidémiologique ........................................... 15
1.5.1 Modèle à base d’EDO (Equation Différentielle Ordinaire) ............................. 17
1.5.2 Modélisation par automates cellulaires ............................................................... 18
1.5.3 Modèle à base d’agents/centré individu .............................................................. 19
1.5.4 Modélisation par les algèbres des processus ....................................................... 21
1.6 La modélisation par Bio-PEPA ......................................................................................... 23
1.6.1 Définition ................................................................................................................. 23
1.6.2 Définition formelle ................................................................................................. 24
1.6.3 Sémantique structurelle de Bio-PEPA ................................................................. 24
1.6.4 Exemple ................................................................................................................... 26
1.6.5 Analyse du modèle épidémique par Bio-PEPA .................................................. 26
1.7 Synthèse des méthodes de modélisation .......................................................................... 26
1.8 Conclusion .............................................................................................................................. 27
Chapitre 2 : Optimisation des modèles épidémiologiques
2.1 Introduction ................................................................................................................. 29
2.2 Vérification des modèles épidémiologiques ................................................................ 30
2.2.1 Définition ......................................................................................................... 30
2.2.2 Techniques de vérification des modèles ........................................................... 30
2.3 Optimisation des modèles computationnels ................................................................ 32
2.3.1 Définition ........................................................................................................ 32
2.3.2 Méthodes d’optimisation .................................................................................. 32
2.4 Optimisation des modèles épidémiologiques : Etat de l’art ......................................... 33
2.4.1 Optimisation paramétrique ............................................................................... 33
2.4.2 Optimisation structurelle .................................................................................. 35
2.5 Discussion et conclusion .............................................................................................. 37
Chapitre 3 : La fouille de données pour l’épidémiologie humaine
3.1 Introduction ................................................................................................................. 39
3.2 Processus d’extraction des connaissances ................................................................... 39
3.2.1 Prétraitement des données ................................................................................ 39
3.2.2 Fouille de données ........................................................................................... 43
3.2.3 Evaluation et interprétation .............................................................................. 46
3.3 Synthèse de l’application de la fouille de données en épidémiologie .......................... 48
3.3.1 Classification ............................................................................................................. 49
3.3.2 Régression ........................................................................................................ 50
3.3.3 Segmentation ............................................................................................................. 50
3.3.4 Règles d’association ......................................................................................... 50
3.4 Fouille de données pour la modélisation épidémiologique .......................................... 51
3.4.1 Travaux connexes ................................................................................................ 51
3.4.2 Optimisation des modèles computationnels par la fouille de données ................ 52
3.5 Conclusion .................................................................................................................... 53
Chapitre 4 : Modélisation et simulation par les algèbres des processus : Bio-PEPA
4.1 Introduction ............................................................................................................ 55
4.2 Modélisation par Bio-PEPA ................................................................................... 55 4.2.1 Interaction expert\modélisateur ............................................................ 57 4.2.2 Conception du modèle formel .............................................................. 57
4.2.3 Simulation et analyse ........................................................................... 58 4.3 Optimisation du modèle ......................................................................................... 59 4.4 Vérification par langage narratif ............................................................................ 60
4.4.1 Langage narratif ................................................................................... 61
4.4.2 System Biological Markup Language (SBML) .................................. 62 4.4.3 Du modèle Bio-PEPA au modèle narratif ............................................ 64
4.5 Modélisation de la tuberculose ............................................................................... 65 4.5.1 La tuberculose ...................................................................................... 67
4.5.2 Modèle de la tuberculose ...................................................................... 67
4.5.3 Le modèle Bio-PEPA ........................................................................... 68
4.5.4 Simulation par Bio-PEPA et résultats .................................................. 70 4.6 Validation du modèle Bio-PEPA par langage narratif ........................................... 73 4.7 Conclusion .............................................................................................................. 76
Chapitre 5 : Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
5.1 Introduction ........................................................................................................... 78
5.2 Optimisation par fouille de données ..................................................................... 78
5.3 Modélisation de la tuberculose : Cas de l’Algérie................................................. 82
5.3.1 Situation épidémique en Algérie ........................................................... 82
5.3.2 Modélisation de la tuberculose par Bio-PEPA ..................................... 85
5.3.3 Processus d’optimisation par classification .......................................... 93
5.3.3.1 Prétraitement des données ........................................................ 94
5.3.3.2 Sélection des attributs ............................................................... 96
5.3.3.3 Classification ............................................................................ 98
5.3.3.4 Evaluation et interprétation .................................................... 100
5.3.3.5 Optimisation du modèle .......................................................... 104
5.3.3.6 Simulation et analyse .............................................................. 107
5.3.4 Généralisation de l’approche par des données additionnelles ........... 111
5.3.4.1 Prétraitement ........................................................................... 111
5.3.4.2 Sélection des attributs ............................................................. 111
5.3.4.3 Classification par arbre de décision ........................................ 112
5.3.4.4 Evaluation et interprétation .................................................... 112
5.3.4.5 Optimisation du modèle .......................................................... 114
5.3.4.6 Simulation et analyse .............................................................. 114
5.3.5 Optimisation par règles d’association ................................................. 118
5.3.5.1 Génération de règles ................................................................ 118
5.3.5.2 Evaluation et interprétation des règles générées ..................... 120
5.3.5.3 Optimisation du modèle .......................................................... 123
5.4 Conclusion ........................................................................................................... 127
Chapitre 6 : Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
6.1 Introduction ......................................................................................................... 129
6.2 Optimisation par fouille de données .................................................................... 129
6.3 Modélisation des oreillons en Grande Bretagne (Ecosse) .................................. 131
6.3.1 Situation épidémique en Ecosse ......................................................... 131
6.3.2 Modélisation de l’épidémie des oreillons ........................................... 132
6.3.3 Analyse de sensibilité ......................................................................... 141
6.3.4 Processus d’optimisation par fouille de données ................................ 143
6.3.4.1 Prétraitement des données ....................................................... 145
6.3.4.2 Sélection des attributs ............................................................. 146
6.3.4.3 Optimisation par règles d’association ..................................... 146
6.3.4.4 Evaluation et interprétation des règles extraites ..................... 147
6.3.4.5 Optimisation par segmentation ............................................... 149
6.3.4.6 Evaluation et interprétation des segments ............................... 151
6.4 Conclusion ................................................................................................ 158
Conclusion générale et perspectives ................................................................................... 160
Annexes A ............................................................................................................................. 164
Liste des Figures Figure 1.1 Modèles à compartiments .................................................................................................................. 144
Figure 1.2 Publications relatives aux termes "Modelling, Infectious Diseases" dans Web Of Science. ............. 166
Figure 1.3 Sémantique structurelle de Bio-PEPA ............................................................................................... 255
Figure 1.4 Modèle SEIR en Bio-PEPA ........................................................................... Erreur ! Signet non défini.
Figure 4.1 Optimisation des modèles épidémiologiques : Structure Générale ...................................................... 56
Figure 4.2 Composants d’un modèle SBML ......................................................................................................... 63
Figure 4.3 Modèle à compartiments de la tuberculose .......................................................................................... 66
Figure 4.4 Evolution de la tuberculose sans traitement. a) Modèle à base d’agents (2011) ; b) Modèle Bio-PEPA
...................................................................................................................................................................... 71
Figure 4.5 Evolution de la tuberculose sous application du traitement après 200 ans. ......................................... 72
Figure 4.6 Analyseur Bio-PEPA. a) Chargement du modèle SBML de Bio-PEPA. b) analyse des composants.
C) Rapport des composants sélectionnés. ..................................................................................................... 74
Figure 4.7 Résultats de simulation du modèle Bio-PEPA avec omission ............................................................. 75
Figure 4.8 Résultats d’analyse du modèle Bio-PEPA avec omission ................................................................... 76
Figure 5.1 Optimisation des modèles épidémiologiques : Structure Générale ...................................................... 79
Figure 5.2 Incidence de la tuberculose dans le monde (OMS, 2016) .................................................................... 83
Figure 5.3 Mortalité due à la tuberculose dans le monde (OMS, 2016) ................................................................ 84
Figure 5.4 Modèle à compartiments de la tuberculose .......................................................................................... 86
Figure 5.5 Modèle de la tuberculose en BIO-PEPA.............................................................................................. 87
Figure 5.6 Modèle de la tuberculose pour l’année 2009 ....................................................................................... 90
Figure 5.7 Modèle de la tuberculose pour l’année 2010 ...................................................................................... 91
Figure 5.8 Extrait de règles du modèle Bio-PEPA 2010 de « Analyseur Bio-PEPA ».............................................. 91
Figure 5.9 Arbre de décision J48/J48Graft ......................................................................................................... 101
Figure 5.10 Règles déduites de l’arbre J48 ......................................................................................................... 102
Figure 5.11 Règles déduites de l’algorithme LadTree ........................................................................................ 103
Figure 5.12 Modèle de la tuberculose pour la Daira Ain Tedles 2010 ................................................................ 107
Figure 5.13 Modèle de la tuberculose pour la Daira Kheireddine 2010 .............................................................. 107
Figure 5.14 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2010 ................................................ 110
Figure 5.15 Modèle final de la tuberculose pour l’année 2010 ........................................................................... 110
Figure 5.16 Modèle de la tuberculose pour l’année 2011 ................................................................................... 110
Figure 5.17 Modèle de la tuberculose pour l’année 2012 ................................................................................... 110
Figure 5.18 Modèle de la tuberculose pour la Daira Ain Tedles 2012 ................................................................ 115
Figure 5.19 Modèle de la tuberculose pour la Daira Kheireddine 2012 .............................................................. 116
Figure 5.20 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2012 ................................................ 116
Figure 5.21 Modèle final de la tuberculose pour l’année 2012 ........................................................................... 116
Figure 5.22 Histogrammes pour la tuberculose par Sexe (Série 1- 2010) ........................................................... 124
Figure 5.23 Histogrammes pour la tuberculose par Com (Série 1- 2010) ........................................................... 125
Figure 5.24 Histogrammes pour la tuberculose par TYPMAL (Série 2- 2012) .................................................. 126
Figure 5.25 Histogrammes pour la tuberculose par : Daira, Sex et COM. (Série 1- 2010) ................................. 126
Figure 5.26 Histogrammes pour la tuberculosis par : Daira et TYPMAL. (Série 2- 2012) ................................. 126
Figure 6.1 Optimisation des modèles épidémiologiques : Structure Générale .................................................... 130
Figure 6.2 Cas confirmés des oreillons, Ecosse 1988-2015 et la couverture vaccinale ROR. ............................ 131
Figure 6.3 Cas confirmés des oreillons, Ecosse 2004 – 2015, Distribution par âge. ........................................... 132
Figure 6.4 Modèle à compartiments des oreillons ............................................................................................. 132
Figure 6.5 Les oreillons en Angleterre et Pays de Gales ..................................................................................... 138
Figure 6.6 Prédiction de l’incidence des oreillons 139
Figure 6.7 Période inter-épidémique versus taux reproductive de base R0, ère pré-vaccinale ........................... 140
Figure 6.8 Graphes de simulation pour [19, 24] ......................................................................................... 154
Figure 6.9 Graphes des résultats de simulations relatives aux résultats de segmentation par l’algorithme sIB .. 155
Figure 6.10 Graphes des résultats de simulation relatives aux résultats de segmentation par l’algorithme K-means
.................................................................................................................................................................... 156
Figure 6.11 Prédiction de l’incidence des oreillons en Ecosse de l’année 2004 à 2015...................................... 157
Figure 6.12 Extension des Prédictions de l’incidence des oreillons en Ecosse à 2016 ....................................... 158
Liste des Tableaux Tableau 3.1 Matrice de confusion ......................................................................................................................... 47
Tableau 4.1 Liste des interactions dans un langage narratif .................................................................................. 62
Tableau 4.2 Composants Bio-PEPA vs langage narratif vs SBML ...................................................................... 62
Tableau 4.3 Paramètres du modèle (extraits de DeEspindola (2011)) .................................................................. 66
Tableau 5.1 Incidence de la tuberculose en Algérie (taux pour 100000) .............................................................. 84
Tableau 5.2 Paramètres du modèle ....................................................................................................................... 88
Tableau 5.3 Année de prédiction vs ensemble de données ................................................................................... 90
Tableau 5.4 Les attributs de la base de données de la tuberculose ........................................................................ 94
Tableau 5.5 Algorithmes de sélection des attributs (Witten et al., 2011) .............................................................. 97
Tableau 5.6 Méthodes de recherché pour la sélection des attributs (Witten et al., 2011) ..................................... 97
Tableau 5.7 Les algorithmes de classification (arbres de décision) (Witten et al., 2011) ..................................... 99
Tableau 5.8 Matrice de confusion et exactitude des classes référentielles de l’algorithme J48/J48Graft ........... 101
Tableau 5.9 Matrice de confusion et exactitude des classes référentielles de l’algorithme Ladtree ................... 104
Tableau 5.10 Matrice de confusion et exactitude des classes référentielles de l’algorithme J48 ........................ 113
Tableau 5.11 Récapitulatif des paramètres du modèle de la tuberculose optimisé (2010 et 2012) ..................... 117
Tableau 5.12 Les algorithmes de règles d’association (Witten et al., 2011) ....................................................... 117
Tableau 5.13 Expérimentations Série 1- Règles extraites de : Apriori, Predictive Apriori and Tertius .............. 120
Tableau 5.14 Expérimentations Série 2 - Règles extraites de: Apriori, Predictive Apriori and Tertius .............. 122
Tableau 5.15 Attributs pertinents. ....................................................................................................................... 122
Tableau 5.16 Attributs et modalités sélectionnés ................................................................................................ 123
Tableau 6.1 Paramètres du modèle des oreillons ................................................................................................ 134
Tableau 6.2 Analyse sensitive ............................................................................................................................. 141
Tableau 6.3 les attributs de la base de données des oreillons .............................................................................. 145
Tableau 6.4 Règles extraites des algorithmes: Apriori, Predictive Apriori and Tertius ...................................... 147
Tableau 6.5 Algorithmes de segmentation (Witten et al., 2011) ......................................................................... 150
Tableau 6.6 Valeurs expérimentales des paramètres ........................................................................................... 151
Tableau 6.7 Résultats de segmentation ............................................................................................................... 152
Tableau 6.8 Échantillon des résultats de segmentation par K-means .................................................................. 152
Tableau A.1 Descripteurs sélectionnés pour la base de données de la tuberculose .............................................. 164
Tableau A.2 Echantillon de la base de données de la tuberculose après prétraitement et sélection ..................... 166
Tableau A.3 Résultats des expérimentations par arbres de décision .................................................................... 167
Tableau A.4 Descripteurs sélectionnés pour la base de données de la tuberculose .............................................. 170
Tableau A.5 Résultats des expérimentations par arbres de décision .................................................................... 172
Liste des Abréviation AC Automate Cellulaire
AP Algèbres des Processus
ARFF Attribute-Relation File Format
Bio-PEPA Biochemical Performance Evaluation Process Algebra
CCS Calculus of Communicating Systems
CSV Comma-separated values
CTMC Continu time Markovian Chain
ECD Extraction des Connaissances à partir de bases de Données
ECG ElectroCardioGraphie
EDO Equation différentielle Ordinaire
FN False Negative rate
FP False Positive rate
HPS Health Protection Scotland
INSP Institut National de la Santé Publique
KDD Knowledge Discovery in Data bases
OMS Organisation Mondiale de la Santé
PEPA Performance Evaluation Process Algebra
PMI Protection Maternelle et Infantile
PRISM PRobabilistic Symbolic Model checker
ROC Receiver Operator Characteristic test
ROR Rougeole Oreillons Rubéole
SBML System biology Markup Language
SBSI Systems Biology Software Infrastructure
SRAS Syndrome Respiratoire Aigu Sévère
SVM Support Vector Machine
TN True Negative rate
TP True Positive rate
WEKA Waikato Environment for Knowledge Analysis
WHO World Health Organization
WSCCS Weighted Synchronous Calculus of Communicating Systems
XML Extensible Markup Language
Introduction Générale
Dans la présente introduction, nous exposons le contexte de ce travail de thèse en mettant
l’accent sur l’impact d’un modèle computationnel sur le suivi épidémiologique. Dans ce
contexte, nous détaillons la problématique abordée ainsi que les contributions liées aux choix
des techniques utilisées et des approches abordées dans ce présent travail de recherche.
Notre thèse a été développé dans le cadre d'une collaboration entre l’équipe de recherche AIR
« Apprentissage automatique, Intelligence artificielle et Raisonnement » du laboratoire LIO «
Laboratoire d’Informatique d’Oran » et l'équipe du laboratoire de Modélisation et Analyse
des Systèmes Complexes (MACS : Modelling and Analysis of Complex Systems) de
l’université de Stirling, Scotland.
Nous avons développé la problématique de notre travail autour d’un projet de recherche
CNEPRU B*01820120086 où il était question de mettre en place une Approche Spatiale pour
une Surveillance Epidémiologique Centrée Ontologie Médicale (Biosif II). Notre contribution
se focalise, essentiellement sur la modélisation, la simulation et l’optimisation
épidémiologique par fouille de données.
Contexte et problématique
La modélisation et la simulation ont largement contribués dans l’évolution et la
compréhension des systèmes épidémiques, ils s’avèrent être d’une aide très précieuse, dans le
sens où ils permettent de converger vers des modèles reproductifs de la réalité et envisager à
faible coût des schémas nouveaux et ainsi compléter les manques d’observation et d’analyse.
En effet, bien que les maladies infectieuses ne cessent d’exister, elles sont confrontées aux
modèles simulables qui eux ne cessent d’évoluer. Dans cet optique, plusieurs études ont été
conduites, Anderson and May (1991), Weber et al. (2001), Keeling and Rohani (2008),
Amouroux et al. (2008), Hamami et Atmani (2013) et Hamami et al (2017). De tels modèles
sont indispensables à la compréhension de la physiopathologie des épidémies et de leur
propagation, permettant ainsi aux secteurs sanitaires d’entreprendre des stratégies de contrôle
et de prévention.
Pour n’importe quel modèle simulable, le principal objectif est de produire une représentation
fidèle à la réalité et une prédiction optimale des épidémies. Toutefois, saisir la nature variable,
dynamique et complexe de la propagation de la maladie, tel que noté par Anderson et May
(1991): “the real world is undeniably replete with many complications; economic and social
as well as biological”, dépends fortement du processus de modélisation et d’optimisation régit
par l’échange interactif entre experts et développeurs.
Il est vrai qu’actuellement le processus de modélisation est étroitement lié à l’expérience de
l’expert et du développeur, où le degré d’inspiration et de suppositions de ces derniers
influencent grandement la structure du modèle à réaliser, ses paramètres et leur estimation. En
effet le degré de certitude du modèle conçu est étroitement lié au degré de connaissances
perçues par l’expert et le développeur. Ce point de vue, aussi confirmé par Keeling et Rohani
(2008): “The feasibility of model complexity is compromised by computational power, the
mechanistic understanding of disease natural history, and the availability of necessary
parameters. Consequently, the accuracy of any model is always limited”, nous amène à
Introduction Générale
2
argumenter que le fait de concevoir un modèle épidémiologique fondé uniquement sur des
hypothèses et des suppositions de l’expert et le développeur, décroit sa fiabilité et sa validité.
Ces modèles sont généralement décrits comme modèles incertains. Tel est le cas
principalement, quand le modèle conçu est dépendant des connaissances inconnues ou
impossibles à acquérir par une simple analyse humaine telle que l’expert. Ou encore quand
l’étude de la distribution de la maladie et l’identification de ses déterminants se rapportent à
l’identification des causes, qui restent à ce jour la caractéristique la plus dominante et la plus
difficile à cerner des plus célèbres épisodes de l’épidémiologie. En effet, à ce jour
l’épidémiologiste se base sur des études observationnelles et une série d’expérimentations,
afin d’établir la relation cause-à-effet, processus qui peut être couteux, difficile, voire
impossible à réaliser.
Dans ce contexte de conception de modèles cohérents avec la réalité, de réels sujets de
préoccupation concernent aujourd’hui la mise en œuvre d’outils et de techniques pour mieux
appréhender les modèles épidémiologiques incertains et se prémunir autant que possible
contre d’éventuelles connaissances rapportées ou omises par les épidémiologistes. Afin de
répondre au mieux à ces besoins, plusieurs travaux ont adopté des méthodes d’analyse, leur
permettant d’évaluer le degré de certitude et de validité de leur modèle ainsi que d’évaluer le
degré d’influence des paramètres ou des variables d’entrées du modèle sur ses sorties. Ce
processus baptisé : Optimisation des modèles simulables, est considéré aujourd’hui comme
étant une étape incluse dans le processus de modélisation.
L’optimisation a largement évolué ces dernières décennies, allant de la simple réévaluation
des paramètres du modèle à l’optimisation de sa structure. Bien que ces techniques
d’optimisation paramétrique et structurelle ont permis de raffiner l’espace des valeurs des
paramètres et les différentes structures existantes, toutefois, elles ne se basent que sur
l’existant. Autrement dit, d’une part les valeurs soumises à l’optimisation ne sont extraites que
d’un intervalle initialement bien défini par l’expert ou bien résumées de l’ensemble des
travaux existants. D’une autre part, les structures sélectionnées par les modélisateurs sont
soient proposées par les experts ou bien extraites des expériences épidémiologiques
ultérieures. Ainsi, ces approches et techniques d’optimisation ne permettent pas de rappeler
aux développeurs et épidémiologistes le cas d’une omission ou d’une ignorance, ou encore
d’intégrer dans le modèle les nouveaux facteurs qu’une épidémie peut exprimer.
Dans cette optique d’étude vouée à l’optimisation des modèles simulables par les algèbres des
processus en outre Bio-PEPA (Biochemical Preformance Evaluation of Process Algebra), et
afin de décroitre l’incertitude des modèles épidémiques, tout en respectant une description
rigoureuse des systèmes réels, il est urgent d’adopter une solution d’appui à
l’expert/développeur leur permettant de n’acquérir que des connaissances pertinentes basées
sur un raisonnement plus réaliste des systèmes épidémiques.
Il est bien connu aujourd’hui, que le besoin ressentit par les experts et les épidémiologistes de
suivre minutieusement l’historique médical des patients qu’ils vont traiter, ou de connaitre
leur antécédents ou même le risque encouru à leur prescrire tel ou tel médicament, incite à
stocker et conserver des données médicales collectées par les professionnels de la santé.
Introduction Générale
3
Cependant, face à la multitude de maladies auxquelles un patient est confronté ou encore au
nombre important de malades qu’une épidémie peut rapidement affecter, la taille et
complexité des données collectées font qu’il est devenu quasi-impossible par une simple
analyse humaine de conclure un tel ou tel fait. A partir de ce point de vue, plusieurs travaux
nous ont conduits au processus de l’extraction des connaissances et en particulier l’étape de
fouille de données (data mining).
De par sa définition la fouille de données est représentée par un ensemble de techniques
(algorithmes) qui permettent de transformer les données collectées en connaissances
pertinentes. Partant de cette description, aussi simple qu’elle le soit, et de la problématique
posée concernant l’incertitude des modèles computationnels ainsi que la limite dont souffrent
les méthodes d’optimisation, se spécifie notre objectif : « Performance du traitement des
épidémiologies par effets de simulation et de Data Mining ».
Contribution
La problématique abordée dans ce travail de thèse se situe aux abords de trois disciplines : la
modélisation et simulation, l’optimisation et la fouille de données. Notre principal objectif est
de proposer une approche d’optimisation nouvelle, simple et consistante. Ainsi, à partir d’un
ensemble de données épidémiologiques, nous allons extraire des connaissances pertinentes à
l’aide des méthodes de fouille de données. En se basant sur ces nouvelles connaissances, le
modèle computationnel Bio-PEPA initialement conçu sera optimisé et raffiné. En effet, les
domaines de la modélisation et du data mining sont indépendamment bien connus et
exploités. Toutefois, les recherches visant à combiner ces deux disciplines pour des fins
d’optimisation en générale et de la structure du modèle Bio-PEPA en particulier, restent
inconnues. Tel que décrit ci-dessus, ces deux approches ont des forces complémentaires,
d’une part l’importance du suivi épidémiologique n’est plus à démontrer par conséquent une
modélisation s’impose, d’autres parts il n’est plus à démontrer l’utilité de la fouille de
données qui ne cesse de prouver ses performances dans bien des domaines en outre le
domaine médical.
De manière concise, la motivation ultime de ce travail de thèse est d’orienter le processus
d’optimisation sur une intégration de l’étape de fouille de données dans le processus de la
modélisation computationnelle Bio-PEPA. Nous nous intéressons au suivi de la tuberculose
en Algérie et de l’épidémie des oreillons en Grande Bretagne.
Ainsi notre contribution s’articule autours de trois axes. Le premier axe se focalise sur le
choix de la méthode de modélisation. En effet, il existe aujourd’hui une panoplie de méthodes
de modélisation et simulation, les méthodes mathématiques, les méthodes à base d’agents ou
encore les algèbres des processus. Le choix dépond fortement de l’épidémie à reproduire et de
l’objectif à atteindre. Pour notre travail de thèse, la modélisation et la simulation par les
algèbres des processus, en outre le formalisme Bio-PEPA : Biochemical Preformance
Evaluation of Process Algebra, semble être l’outil idéal pour la reproduction de l’épidémie de
la tuberculose et des oreillons. En effet, son avantage majeur est de reprendre les avantages
des autres techniques de modélisation et de pallier leurs limites. Ainsi dans cette première
Introduction Générale
4
contribution, le choix de la méthode de modélisation et simulation par Bio-PEPA est motivé
par les objectifs suivants :
- Tenter de reproduire le plus fidèlement possible l’épidémie de la tuberculose et des oreillons.
- Mettre à notre disposition différentes techniques d’analyses.
- Développer des modèles consistants et simples à optimiser.
En suite, le deuxième axe se concentre sur l’optimisation des modèles initialement conçus. Il
est bien connu dans le monde de la modélisation, que l’étape succédant la conception d’un
modèle computationnel est la simulation. En effet, la simulation est le processus qui permet
de donner vie au modèle conçu. En mettant en interaction les paramètres et la structure
définis, la simulation permettra de générer des sorties, qui elles, feront l’objet d’analyse et
d’étude comparative avec le système réel. Cependant, l’un des inconvénients majeur de la
simulation est qu’elle ne peut pas fournir des résultats précis quand les données d’entrées
(paramètres et structure) sont incertaines ou incorrectement formulées, semant le doute dans
les capacités du développeur à assimiler correctement les connaissances acquises lors de la
conception. Dans cette optique, nous proposons comme deuxième contribution une approche
support à la vérification des modèles conçus. Ainsi, en traduisant le modèle conçu en un
langage narratif (langage humain), les experts et les épidémiologistes pourront facilement
vérifier les informations intégrées dans le modèle et détecter toute anomalie ou formulation
erronée. A ce stade, l’approche suggérée permet d’exploiter l’une des fonctionnalités offertes
par Bio-PEPA, qui consiste en la traduction du modèle Bio-PEPA en langage SBML (System
Biological Markup Language). En effet, SBML étant à la base du langage XML, sa forme
structurée nous permet d’extraire et de traduire plus aisément le modèle en un langage naturel.
Notre motivation par cette deuxième contribution réside dans le fait qu’une telle approche
offre une amélioration dans la qualité des informations qui constituent le modèle et ainsi
offre:
- Un langage familier aux experts et épidémiologistes qui ne sont pas connaisseurs des langages
de modélisation.
- Une vérification aisée de la validité des données formulant le modèle.
- Une réduction des doutes et des suspicions sur les informations que le développeur a pu
intégrer dans son modèle.
- Un canal fluide entre expert et développeur.
Enfin, le troisième axe, quoiqu’il reste étroitement lié au monde de l’optimisation, il intègre le
domaine de la fouille de données. Notre troisième et principale contribution consiste à réaliser
une transition entre les techniques de modélisation: Bio-PEPA et celles de la fouille de
données: Arbres de décision, règles d’associations et segmentation. L’utilité d’une telle
approche est d’assister à la fois l’expert et le développeur. Ainsi le modèle simulable est
optimisé et raffiné par l’intégration des règles et des connaissances pertinentes extraites par la
fouille de données. Ainsi, pour nous guider vers une optimisation optimale des modèles
prédictifs, cette contribution combine à la fois les performances de la modélisation et de la
fouille de données, deux disciplines qui restent aujourd’hui les plus essentielles et pertinentes
pour un suivi épidémiologique. Par le biais de cette nouvelle approche, nous proposons
d’améliorer et raffiner les modèles computationnels prédictifs d’une manière interactive, par
Introduction Générale
5
l’amplification des connaissances des experts. A notre connaissance, à ce jour aucune étude
n’a exploré le domaine du data minig pour des fins d’optimisation computationnelle Bio-
PEPA. D’un côté, les travaux épidémiologiques en relation avec le data mining exploitent les
informations extraites pour une simple analyse qu’ils restreignent à leur champ de
connaissances. D’un autre côté, les développeurs se basent généralement sur les modèles
existants, le plus souvent, extraits de la littérature. Ainsi, combiner ces deux disciplines,
permettra d’une part, aux experts de valider les nouvelles connaissances extraites en les
intégrant dans le modèle prédictif Bio-PEPA. Et d’une autre part, au fur et à mesure que les
données épidémiologiques évolues, les développeurs pourront optimiser et raffiner à temps
réel les paramètres et structure de leurs modèles en exploitant au mieux les nouvelles
connaissances acquises et extraites de la fouille de données.
Pour résumer, les trois contributions définies dans ce travail de thèse ont pour objectif de :
- Réaliser un modèle épidémiologique optimal, selon une complexité moindre et une intégration
complète, en utilisant les algèbres des processus en outre Bio- PEPA.
- Proposer une solution de vérification de modèle par langage narratif.
- Réaliser un modèle dynamique et interactif, répondant à la dynamique et variabilité de la
nature des épidémies et de l’environnement qui les accompagne en utilisant les techniques de
fouille de données.
- Enrichir les connaissances des experts et développeurs par le biais d’outils sures et compétents
en outre la modélisation par Bio-PEPA et la fouille de données par les arbres de décision, les
règles d’association et la segmentation.
Structure de la thèse
Cette thèse est organisée en deux grandes parties. La première partie constituée de trois
chapitres qui mettent en avant le contexte du problème étudié dans cette thèse ainsi que les
principaux axes qui sont en relation ou apportent des solutions. La seconde partie structurée
en trois chapitres, explicite notre modeste contribution à l’optimisation de la modélisation
épidémiologique au travers de la fouille de données. Ainsi, nous articulons ce travail de
recherche en six chapitres.
Le premier chapitre intitulé, « « Modélisation épidémiologique » est réservé aux concepts
fondamentaux sur lesquels se base notre étude. Nous présentons les principales notions de la
modélisation et de la simulation ainsi que l’épidémiologie humaine. Un survol sur les
différentes méthodes de modélisation est présenté suivi d’un état de l’art des méthodes de
modélisation et de simulation en épidémiologie humaine. Enfin, la dernière section de ce
chapitre 1, justifie le choix de la modélisation par les algèbres des processus en outre Bio-
PEPA.
Afin de situer notre problématique, Le chapitre 2 intitulé, « Optimisation des modèles
épidémiologiques » présente les principales approches adoptées pour l’optimisation des
modèles épidémiologiques. Trois grandes sections se distinguent dans ce chapitre. La
première section revient sur l’étape de vérification et validation des modèles initiée au
chapitre 1, montre leur importance et donne un bref aperçu sur leurs limites et propose comme
solution d’inclure la notion des langages narratifs. La deuxième section présente le principe
Introduction Générale
6
de l’optimisation et les méthodes existantes. En fin, la troisième section présente un tour
d’horizon sur les différents travaux existants pour l’optimisation des modèles
épidémiologiques et explicite les défis majeurs.
Le chapitre 3 intitulé, « La fouille de données pour l’épidémiologie humaine » est structuré en
cinq sections. Les trois premières sections présentent les notions de base du processus
d’extraction de données et en particulier l’étape de fouille de données. La quatrième section
survole les travaux de fouille de données dans le monde de l’épidémiologie humaine. Enfin,
nous concluons ce chapitre par la cinquième section en nous positionnant sur l’intégration du
data mining dans les phases du processus de modélisation.
Le chapitre 4 intitulé, « modélisation et simulation par les algèbres des processus : Bio-
PEPA » expose notre modèle prédictif qui est schématisé selon nos deux contribution :
modélisation par Bio-PEPA et traduction du modèle Bio-PEPA en langage narratif. La
structure générale ainsi que la description de chacun de ses composants sont présentées. Les
deux contributions sont validées au travers d’un exemple d’application extrait de la littérature:
la tuberculose humaine.
Le chapitre 5 intitulé, « Fouille de données pour l’optimisation des modèles
épidémiologiques : application à la tuberculose en Algérie » présente notre troisième
contribution : optimisation du modèle Bio-PEPA par les connaissances extraites de la fouille
de données. Cette contribution est soutenue par le cas d’étude de la tuberculose en Algérie.
Les sections de ce chapitre permettent d’une part de valider notre choix dans l’utilisation du
formalisme Bio-PEPA, et d’une autre part de se positionner dans les choix des méthodes de
fouille de données : les arbres de décision et les règles d’association.
Le dernier chapitre intitulé, « Fouille de données pour l’optimisation des modèles
épidémiologiques : application aux Oreillons » reprend l’approche présentée aux chapitre 5
(troisième contribution) et expose son application à l’épidémie des oreillons en Grande
Bretagne, où les mêmes objectifs sont ciblés : valider le choix de l’utilisation du formalisme
Bio-PEPA, et se positionner dans les choix des méthodes de fouille de données : les règles
d’association et la segmentation.
Finalement, nous concluons ce manuscrit par une synthèse des différentes contributions où
nous discuterons les perspectives envisagées pour poursuivre cette recherche.
Chapitre 1
Modélisation épidémiologique
Sommaire
1.5 Introduction
1.6 Modélisation et simulation
1.6.1 Modèle computationnel
1.6.2 Caractéristiques d’un modèle
1.6.3 Processus de modélisation
1.7 Epidémiologie humaine
1.7.1 Définition
1.7.2 Facteurs épidémiologiques
1.7.3 Mode de transmission
1.8 Modèles épidémiques
1.8.1 Terminologies
1.8.2 Objectifs d’un modèle épidémique
1.8.3 Structure du modèle épidémiologique
1.5.4 Classification des modèles
1.5.4.1 Modèle à compartiments
1.5.4.2 Variantes du modèle SIR
1.6 Etat de l’art des travaux de modélisation épidémiologique
1.8.1 Modèle à base d’EDO (Equation Différentielle Ordinaire)
1.8.2 Modélisation par automates cellulaires
1.8.3 Modèle à base d’agents/centré individu
1.8.4 Modélisation par les algèbres des processus
1.9 La modélisation par Bio-PEPA
1.9.1 Définition
1.9.2 Définition formelle
1.9.3 Sémantique structurelle de Bio-PEPA
1.9.4 Exemple
1.9.5 Analyse du modèle épidémique par Bio-PEPA
1.10 Synthèse des méthodes de modélisation
1.8 Conclusion
Chapitre 1 Modélisation épidémiologique
8
1.1 Introduction
La modélisation computationnelle a largement contribué dans le domaine épidémiologique,
où plusieurs méthodes ont vu le jour, les méthodes mathématiques, les méthodes à base
d’agent, ou encore les automates cellulaires (Anderson et May, 1991 ; Keeling et Rohani,
2008), permettant ainsi à plusieurs maladies émergentes d’être analysées et contrôlées.
Toutefois, les techniques et solutions proposées dans la littérature sont souvent conditionnées
par la nature de l’épidémie et les connaissances disponibles. Par exemple, étudier une
épidémie que seules ses données à une échelle macroscopique sont connues ne permet pas de
les modéliser à une échelle microscopique et donc adopter une technique à base d’agent n’est
pas très favorable. Réciproquement, utiliser les équations différentielles (EDOs) pour une
épidémie qui a besoin d’être reproduite à un niveau individuel où les détails les plus fins ont
besoin d’être représentés, n’est pas une tâche facile à l’étude.
Il est clair que le fait d’être devant un large éventail de choix de méthodes de modélisation, ne
simplifie guère la tâche au développeur. En effet, la dépendance des techniques de
modélisation à la nature de l’épidémie pénalise largement leur manipulation. La raison pour
laquelle nous avons opté dans notre étude pour la modélisation par les algèbres des processus
en outre Bio-PEPA (Biochemical Performance Evaluation Process Algebra).
Bio-PEPA est un formalisme de modélisation adapté à l’épidémiologie computationnelle. Ce
processus est particulièrement efficace pour reproduire à la fois l’échelle individuelle que
populationnelle. Par exemple la description d’un système épidémique qui peut être vu comme
un large réseau d’éléments en interaction continue, tel que chaque élément a un comportement
individuel et stochastique. Aussi, Bio-PEPA a l’avantage d’offrir différentes techniques
d’analyse (Ciocchetta et Hillston, 2009a, 2009b ; Benkirane et al, 2009).
A partir de ce contexte, nous détaillions ce chapitre selon les sections suivantes : la première
section met en avant les concepts de base de la modélisation. La deuxième section survole les
principes de l’épidémiologie. La troisième section revient sur les concepts relatifs aux
modèles épidémiologiques. Un tour d’horizon des travaux connexes de l’application de la
modélisation en épidémiologie est présenté dans la quatrième section. Dans la section 5, nous
abordons le principe de la modélisation par les algèbres des processus en outre Bio-PEPA.
Nous concluons par résumer les avantages de l’application de la modélisation en
épidémiologie et les principales limites.
1.2 Modélisation et simulation
La modélisation et la simulation ont largement été utilisées dans bien différents domaines.
Ceci dont l’objectif majeur est de bénéficier de ce que les modèles peuvent offrir en matière
de prédiction, compréhension et analyse.
Un modèle est typiquement défini comme étant un outil conceptuel fournissant une
représentation partielle ou intégrale d’un système complexe. La simualtion et l’imitation du
comportement du système réel au cours du temps afin d’estimer les caractéristiques du
modèle conçu.
Chapitre 1 Modélisation épidémiologique
9
1.2.1 Modèle computationnel
C’est une implémentation numérique des systèmes réels souvent complexes, où l’analyse
intuitive est non déductible. L’aspect fondamental permettant aux modèles de gérer la
complexité des systèmes est l’abstraction. En effet ce processus a l’avantage d’explorer
uniquement les aspects pertinents à l’étude et d’encapsuler le reste dans ce qui est le plus
communément connu sous le terme de boîte noire.
1.2.2 Caractéristiques d’un modèle
Souvent la conception d’un modèle pour un problème particulier est un compromis entre trois
éléments importants et souvent contradictoires: précision, transparence et flexibilité (Keeling
et Rohani, 2008). La précision définie par la qualité des résultats du modèle simulé par
rapport au système réel généralement décroît au dépens de la complexité du modèle. La
transparence qui est plus reliée aux différents composants du modèle est évaluée en fonction
du degré d’interactions des composants et de leur influence sur la dynamique du système. Plus
le nombre de composants du modèle accroit, plus il devient compliqué d’évaluer le rôle de
chaque composant et son interaction avec les autres. Tel qu’il a été reporté par Keeling et
Rohani (2008): « la transparence est souvent en contradiction avec la précision ». Enfin, la
flexibilité mesure le degré d’adaptation du modèle à des situations autres que celle pour
laquelle il a été conçu.
Afin de soulever cette ambiguïté en réconciliant ces trois termes tout en aboutissant aux
objectifs préétablis, la modélisation se base sur plusieurs étapes successives et itératives
appelées processus de modélisation.
1.2.3 Processus de modélisation
Le processus de modélisation est constitué de plusieurs étapes, souvent itératives telles que
décrites ci-dessous (Garrido, 2011) :
- Définition du problème : identifie des éléments critiques, où le développeur se familiarise
avec le problème posé, l’objectif et les résultats attendus.
- Conception de l’étude : se réfère à la collecte des données nécessaires auxquelles est affilié
le problème.
- Spécification du modèle : décrit les composants du modèle et leurs interactions, ainsi que
le comportement dynamique du modèle.
- Définition du processus : où les entrées, sorties, hypothèses et règles du système sont
spécifiées.
- Implémentation du modèle : selon les techniques de modélisation utilisées et les
informations récoltées des étapes précédentes, le modèle est ainsi élaboré.
- Simulation, analyse et validation : une fois le modèle conçu, il est exécuté et les résultats
sont analysés en les comparant aux sorties du système réel. Une fois l’évaluation validée, le
Chapitre 1 Modélisation épidémiologique
10
modèle ainsi construit est prêt à l’exploit, sinon dans le cas d’une incohérence par rapport au
système réel, un retour éminent vers les étapes ultérieures est nécessaire.
1.3 Epidémiologie humaine
Dans cette ère de croissance des maladies transmissibles (infectieuses) et de nouvelles
infections peu connues, l’étude épidémiologique est devenue de plus en plus importante.
L’intérêt portait à ce type d’investigation est largement souligné par les médias et les secteurs
médico-sociaux.
1.3.1 Définition
L’épidémiologie est une science basée sur la détection des causes ou sources d’une maladie.
Cette science implique aussi la caractérisation et la distribution de la maladie ou autre
problème de santé concernant différents paramètres, tels que l’âge, le sexe, l’ethnicité, le
comportement, le facteur temps, l’environnement spatial, etc (Friis, 2010).
1.3.2 Facteurs épidémiologiques
Les études épidémiologiques mettent l’accent sur le fait qu’une multitude de circonstances
épidémiologiques permettent aux maladies infectieuses de se propager, tels que les agents
infectieux, les hôtes, l’environnement et le facteur temps. Ces facteurs ont un impact
substantiel dans la susceptibilité de l’infection (Friis, 2010 ; Keeing et Rohani, 2008).
- Agent infectieux : est la cause d’une maladie infectieuse. Les bactéries, les virus ou les
parasites sont des agents infectieux.
- Hôte : est un organisme (humain ou animal), où l’agent infectieux se réfugie. Le degré
d’immunité de l’hôte, sa structure génétique ou son état de santé peuvent déterminer l’impact
de l’agent infectieux.
- Environnement : est l’ensemble des conditions externes à l’hôte, telles que sociales,
culturelles ou biologiques, permettant la transmission et la propagation de la maladie.
- Facteur temps: est l’un des facteurs primordiaux pour un suivi épidémiologique. Le facteur
temps peut décrire la durée de vie d’un hôte ou du pathogène, la période d’incubation ou la
durée de la persistance de l’infection, etc.
1.3.3 Mode de transmission
L’agent infectieux a la possibilité de voyager d’un hôte à un autre selon différentes méthodes.
Toutefois, tel qu’il a été présenté par McCaig (2008) en étude épidémiologique, on distingue
deux modes de transmission :
- Transmission directe : définie par un transfert direct du pathogène d’un hôte à un autre, par
exemple, le contact physique.
- Transmission indirecte : définie par le transfert du pathogène au travers d’un vecteur
intermédiaire entre les différents hôtes, par exemple, l’eau et la nourriture.
Chapitre 1 Modélisation épidémiologique
11
1.4 Modèles épidémiques
La modélisation épidémiologique a connu un engouement considérable par la publication
d’une panoplie de travaux (Anderson et May, 1991; Grassly et Fraser, 2006 ; Keeling et
Rohani, 2008 ; Vynnycky et White, 2010). Ceci est dû d’une part à la détermination des
développeurs à vouloir offrir des modèles de plus en plus réalistes et perspicaces, et d’une
autre part à la crainte des épidémiologistes à ne plus pouvoir contrôler les épidémies par de
simples méthodes statistiques. En effet, la variété des maladies émergentes et la dynamique
culturelle et sociale des populations ne permettent plus aux études observationnelles ou
expérimentales d’établir la cause-à-effet de la maladie ou de reproduire les comportements
d’une épidémie à différentes échelles.
Avant de parcourir les différents travaux qui ont marqué l’histoire de la modélisation
épidémiologique, il est important de rappeler quelques terminologies communes à
l’épidémiologie et la modélisation ainsi que les notions de base dont fait référence une
modélisation épidémiologique.
1.4.1 Terminologies
- Force d’infection : est définie par le taux auquel un individu susceptible peut acquérir
l’infection. Ce taux est fortement dépendant du nombre de contact entre hôtes.
- Le nombre de reproduction de base R0 : c’est une métrique qui correspond au nombre
d’infection secondaire due à un individu infecté introduit dans une population totalement
susceptible. (Anderson et May, 1991).
- Transmission dépendante de la fréquence : reflète la situation où le nombre de contact
entre hôte est indépendant de la taille de la population qui est généralement définie par la
notion de contrainte sociale. Ce mécanisme s’applique par exemple dans le cas où un individu
résidant dans une population de deux million a la même probabilité de contaminer une
population de cinq million. Ceci se traduit par le fait que le nombre de contact est dépendant
des contraintes sociales.
- Transmission dépendante de la densité : en assumant que la croissance de la taille de la
population implique une croissance du nombre de contact entre hôtes. Ainsi, le nombre
d’infecté est directement corrélé à la densité de la population.
1.4.2 Objectifs d’un modèle épidémique
Un modèle épidémique a deux objectifs :
- Prédiction : la prédiction est généralement l’objectif le plus fréquent lors d’une étude
épidémiologique. Elle requit une précision de la description de la maladie et de ses
déterminants. Un modèle prédictif a pour principal but d’apporter une aide à la décision
quand plusieurs alternatives de contrôle de stratégies existent. L’exemple présenté par
Keeling (2005) démontre bien l’utilité d’un modèle prédictif. L’auteur met l’accent sur deux
questions importantes lors de l’étude de la fièvre aphteuse en Grand Bretagne : est-ce que
Chapitre 1 Modélisation épidémiologique
12
l’épidémie est sous contrôle? est-ce que l’abattage du bétail réduit l’invasion de l’épidémie?
L’étude s’est achevée par la conception de trois modèles, où chacun reflète une structure et
des paramètres particuliers. L’auteur explicite la robustesse de cette étude, du fait que les trois
modèles ont réussi à prédire une large propagation de l’épidémie où l’abattage permettrait de
la contrôler.
Toutefois, il est important de noter que même un échec de prédiction, lors de la reproduction
d’un comportement épidémique, peut agir comme un diagnostic soulignant que les paramètres
utilisés peuvent aboutir à un comportement hors normes qui peut être bénéfique à des états
particuliers. Par exemple, durant une campagne d’éradication, les zones qui ne répondent pas
conformément à la prédiction du modèle conçu peuvent être sujet à de plus profondes mesures
de contrôle.
- Compréhension : un modèle peut être exploité à des fins de compréhension et
d’explication, tel que : comment une épidémie peut se propager et comment les facteurs
environnant affectent sa dynamique ? Par essence, l’épidémiologiste exploite le modèle
comme étant un monde parfait où il peut explorer chaque comportement en isolant les autres,
et ainsi décider quel facteur influence le plus l’étude. Avec une telle approche il devient plus
aisé d’examiner une multitude d’issues, telle qu’analyser la transmission d’une épidémie au
sein d’un groupe d’enfants au cours d’un cycle scolaire. Même s’il peut paraître qu’une telle
approche est purement fondée sur des hypothèses de l’expert; la perspicacité acquise est
souvent robuste et peut être appliquée à une variété de problèmes. Plus loin encore, la
compréhension générée de tels modèles peut faire office à des décisions pertinentes à
l’utilisation ou l’ignorance de tel ou tel élément.
1.4.3 Structure du modèle épidémiologique
La structure d’un modèle doit refléter l’histoire naturelle d’une épidémie (Vynnycky et White,
2010), d’où la nécessité de décrire d’une part les aspects de l’épidémie et d’autre part les
aspects décrivant la population. Le choix de la structure dépond fortement des critères
suivants :
- Identification des facteurs pertinents de la maladie. Lors du développement d’un modèle, il
est important de commencer par l’identification des paramètres clés de l’épidémiologie de la
maladie, tels que : la période d’infectiosité, la période de latence et les caractéristiques des
individus infectés. Ainsi, le modèle conçu produira un cadre idéal et maniable dans lequel il
est facilement possible d’intégrer les informations relatives à la maladie, pour une meilleure
prédiction. Le manque d’information à ce niveau impliquera une réévaluation de la structure
adaptée (Ribassin-Majed et al., 2013).
- La structure du modèle doit refléter le processus naturel du développement de la maladie.
De ce fait, des critères tels que le type de transmission, le type de population, etc., doivent être
explicités. Toutefois, il se trouve que pour un même type d’épidémie, différentes structures
peuvent être adoptées, selon le degré de dépendance aux critères inclus (Van Boben et al.,
2000).
Chapitre 1 Modélisation épidémiologique
13
- La structure du modèle dépend aussi du degré de précision dont a besoin le modèle de
prédiction. Par exemple, estimer le nombre des infectés par jour dû à une épidémie de grippe
serra très sensible au choix de considérer une période de latence ou pas. En effet, pour cet
exemple le fait de ne pas inclure dans le modèle une période de latence permettra de prédire
une propagation plus rapide. Aussi, la reproduction de la transmission à long terme est
souvent en étroite corrélation avec la dynamique démographique de la population ou encore
les périodes saisonnières. Un exemple clé est l’impact de l’évolution de la démographie d’une
population (naissance et décès) sur le nombre des susceptibles. En effet, le nombre annuel des
susceptibles émanant des naissances évolue considérablement par rapport au nombre mensuel
(Bouyer, 2009).
- L’objectif à atteindre détermine fortement la structure du modèle. En effet, il existe un grand
écart entre vouloir comprendre la maladie, et tenter de l’éradiquer. Si l’objectif est le contrôle
dans ce cas-là, le modèle sera enrichi par exemple par une structuration du traitement,
vaccination ou une mise en quarantaine. Ceci nous conduit au principe de la complexité du
modèle. Selon la fameuse citation de Einstein : « Models should be as simple as possible and
no simpler », donc il est très important de savoir se limiter dans la conception du modèle sans
pour autant perdre l’objectif à atteindre. Par conséquent, répondre aux critères ci-dessus requit
plusieurs données et paramètres pas toujours disponibles et qui font de ce processus une
opération souvent difficile et coûteuse en temps (May, 2004).
- Choix de la méthode de modélisation. Les modèles peuvent être déterministes ou
stochastiques. Les modèles déterministes décrivent ce qui arrive en moyenne dans une
population. Les modèles stochastiques permettent une évolution probabiliste des individus
dans une population. Selon le but à atteindre ou les éléments disponibles, le modélisateur
pourra opter pour une telle ou telle méthode de modélisation (Vynnycky et White, 2010).
Nous reviendrons sur les méthodes de modélisation ultérieurement (cf. section 1.5).
1.4.4 Classification des modèles
Généralement les modèles sont classifiés selon leur état déterministe ou stochastique
(Renshaw, 1993). Cependant, cette classification reste assez simpliste du fait que certains
modèles déterministes intègrent quelques éléments stochastiques et vice-versa. Selon
Vynnycky et White (2010), les modèles stochastiques sont utilisés quand le modèle fait
référence à une transmission dans une population à taille réduite ou quand les évaluations
(prédictions) font référence à une plage particulière.
Modèle déterministe. C’est un modèle qui se base sur des lois (fonctions analytiques)
mathématiques afin de décrire en moyenne l’évolution d’une population, où les paramètres
d’entrée sont constants. Ce qui implique une prédiction constante et prédéterminée au cours
du temps. Par exemple, le modèle prédit que lors du 3ème
jour, le nombre des infectés est égal
à 20 (Anderson et May, 1991).
Modèle stochastique. En se basant sur les lois de probabilité, les modèles stochastiques
permettent une évolution aléatoire des états des individus dans une population (Wilkinson,
Chapitre 1 Modélisation épidémiologique
14
2011). Par exemple, le modèle prédit un nombre variable d’infectés entre 1 et 30 lors du 3ème
jour.
1.4.5 Modèle à compartiments
En prenant en considération la classification ci-dessus, les modèles à compartiments sont les
plus communément référencés. Un modèle épidémique à compartiments est généralement
structuré en classes, où une population est divisée en groupes appelés compartiments. Ces
derniers interagissent selon la dynamique de l’épidémie. Ce type de modèle peut être
déterministe ou stochastique.
Cette notion de classe a été initialisée par les pionniers de la modélisation: Kermack
et McKendrick (1927) puis largement adoptée et développée dans d’autres travaux (Anderson
et May, 1991 ; Murray, 1989 ; Ferguson et al, 2001 ; Keeling et Ross, 2015).
La figure 1.1 illustre des modèles à compartiments de base utilisés en modélisation
épidémiologique.
Figure 1.1 Modèles à compartiments
1.4.5.1 Le modèle SIR
Kermack et McKendrick ont représenté les états des individus ainsi que leur évolution dans
une population par trois classes distinctes, Susceptible (S), Infecté (I) et Rétabli (R).
- Susceptible : représente les individus n’ayant pas encore acquis la maladie mais qui
peuvent l’acquérir une fois exposés au virus.
- Infecté : représente les individus porteurs du virus et qui peuvent le transmettre
directement ou via un vecteur de transmission aux individus susceptibles.
- Rétabli : représente les individus qui ne sont plus porteurs du virus. par exemple les
individus sont guéris de l’infection suite à un traitement, vaccinés ou naturellement
immunisés. L’immunité peut être temporaire ou permanente.
β
S I R
β
E I R
S
S I R
β
Chapitre 1 Modélisation épidémiologique
15
Partant d’une simple représentation épidémique basée sur une série de suppositions et afin de
décrire le flux entre compartiments, un modèle SIR peut être formulé en un modèle
d’équations telles que schématisées ci-dessous (Ma et Li, 2009) :
Où β est le taux de transmission ; γ est le taux de guérison.
Le modèle de base SIR peut être adapté à chaque type d’épidémie, où des classes
supplémentaires peuvent être incluses. Un exemple typique est la classe des exposés.
- Exposé : une fois infecté, un individu n’est pas forcément infectieux. Un lapse de temps
(période de latence) est nécessaire pour le transiter vers un état infectieux (infecté mais pas
encore infectant). Cette période de latence peut être évaluée selon l’apparition des symptômes
chez le malade. Toutefois, il est important de noter que ce n’est pas toujours le cas où des
maladies peuvent être totalement asymptomatiques.
1.4.5.2 Variantes du modèle SIR
En cas générale, les classes S, E, I et R peuvent être combinées pour dériver des variantes,
telles que :
- Le modèle SEIR où le modèle considère une période de latence.
- Le modèle SIRS où les individus guéris peuvent perdre leur immunité et redevenir
susceptibles à l’infection.
- Le modèle SEIRS où les deux modèles décrit ci-dessus sont combinés.
Notons que n’importe quel état considéré comme descripteur de la population pourra être
inclus dans les modèles ci-dessus et considéré comme un nouveau compartiment.
1.5 Etat de l’art des travaux de modélisation épidémiologique
Cette section a pour objectif de présenter l’état de l’art des différentes méthodes adoptées
pour une modélisation épidémiologique où les avantages et les limites sont discutés afin de
justifier le choix de la méthode pour notre étude.
Depuis l’innovation des modèles à compartiments et leur application en épidémiologie,
plusieurs maladies ont été modélisées, prenant en considération différentes variables et
différentes structures sur des échelles de complexité variables, aboutissant ainsi à différentes
Chapitre 1 Modélisation épidémiologique
16
techniques de modélisation : mathématiques, à base d’agent, par automates cellulaires ou par
algèbre de processus.
L’histoire de la modélisation épidémiologique remonte au 18ème
siècle, où Bernoulli a fait le
lien entre le monde des mathématiques et celui de la modélisation. Mais ce n’est que début du
20ème
siècle que ce domaine a été témoin d’un développement massif conceptuel et technique.
Bien que ce développement soit intéressant et enrichissant, il ne fait pas l’objet de cette thèse.
Nous référons le lecteur aux œuvres d’Anderson et May (1991), Hethcote (2000) et Keeling et
Rohani (2008) pour plus de détails.
La modélisation épidémiologique a vu naitre plusieurs formalismes se basant sur les
différentes techniques existantes. Ceci est dû d’une part à la diversité des phénomènes
épidémiques et d’une autre part à la multidisciplinarité des groupes de recherche. Les
épidémiologistes sont plus familiers à leurs études statistiques et les modélisateurs sont plus
habitués à leurs formalismes computationnels. Cette différence de concept a permis, durant la
dernière décennie, de tripler le nombre de travaux correspondants. Tel qu’il est illustré sur la
figure 1.2, où en 2004, le nombre de publications correspondant au terme de recherche
« Modelling infectious disease » était de 274 articles et qui ont par la suite flambé à plus de
770 publications en 2014. Ceci s’explique d’une part par la nécessité urgente de faire face aux
drames des invasions épidémiques et d’autre part à la force et l’utilité dont fait preuve la
modélisation épidémiologique.
Afin d’expliquer notre choix de méthode de modélisation, les sections suivantes passent en
revue les différents travaux en modélisation épidémiologique. Tel que nous les avons classifié
(cf. §4.4), les modèles peuvent être déterministes, tel que les équations différentielles ou
stochastiques tel que les modèles à base d’agents.
Figure 1.2 Publications relatives aux termes "Modelling, Infectious Diseases" dans Web Of
Science.
0
100
200
300
400
500
600
700
800
900
1964 1974 1984 1994 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Pu
blic
atio
ns
ann
ue
lles
Année
Chapitre 1 Modélisation épidémiologique
17
1.5.1 Modèle à base d’EDO (Equation Différentielle Ordinaire)
L’application des EDOs en épidémiologie a marqué l’histoire de la modélisation, où cette
dernière décennie a fait l’objet d’environs 100000 publications. Ces fonctions sont définies
principalement sur la notion de compartiments, où la résolution numérique des EDOs permet
à la population de transiter d’un compartiment à un autre. Les EDOs décrivent le taux de
changement continu des variables.
Travaux connexes à la modélisation épidémiologique par EDO
Depuis les travaux de Kermak et Mckendrik (1927), plusieurs variantes leur ont succédé
incluant toute forme d’hétérogénéité. Anderson et May (1991) ont étudié un large éventail
d’épidémie tel que : rougeole, oreillons, rubéole, sida, etc. Les auteurs ont montré l’impact de
la variabilité de la couverture vaccinale sur la population et la dynamique de l’épidémie.
Anderson et al. (1992) ont également étudié le modèle dans lequel la structure relative aux
différents groupes d’âge a été explicitement représentée. Gay (1998) a analysé l’impact de la
rougeole sur la population de la Grande-Bretagne, où différents groupes d’âge ainsi que
différents protocoles de vaccination ont été considérés. L‘auteur a argumenté que même avec
une couverture vaccinale assez élevée, la maladie continue de persister. Ce modèle aura servi
à l’organisme de la santé publique de repenser les protocoles de vaccination bien avant même
que l’épidémie ne soit identifiée. Ozcaglar et al. (2012) ont présenté un modèle de la
tuberculose, où ils soulignent l’exploration de différents paramètres tels que l’âge, le type de
contact entre individus et les paramètres démographiques. Grenfell et al. (2001) ont introduit
dans leur modèle la notion d’espace qui jusqu’alors été négligé. Les auteurs ont démontré que
la rougeole se propage dans différents endroits partant d’un même foyer d’infection considéré
comme centre endémique. Les auteurs ont également démontré que la taille des zones
étudiées a un grand impact sur la propagation de l’épidémie. Weber et al. (2001) ont étudié
l’épidémie causée par le virus respiratoire syncytial, en prenant en compte la saisonnalité, la
période de latence, l’environnement spatial et les conditions météorologiques. Roberts et
Tobias (2000) ont rejoint la conclusion de Gay ( 1998). En réalisant un modèle de rougeole
pour la Nouvelle-Zélande, les auteurs ont conclu qu’il est impossible d’éradiquer la rougeole
si le protocole de vaccination n’est pas enrichi par une 2ème
dose de vaccin. Whitaker et
Ferrington (2004) ont prouvé l’utilité des enquêtes sérologiques pour la réalisation d’un bon
modèle épidémiologique. Toutefois, celui-ci reste dépendant de certaines hypothèses reliées
au type de la maladie, telles que les oreillons ou la rubéole. Chen et.al (2007) ont reproduit la
maladie de la rougeole en Taiwan en un modèle SEIR à environnement hétérogène (zone
rurale, zone urbaine), où différents groupes d’âge ont été considérés. Les auteurs ont établi
que le type de zone a une grande influence sur la densité de contact entre individus et ont
conclu qu’il est important d’adopter différentes couvertures vaccinales pour les différentes
zones ainsi que les différents groupes d’âge. Wearing et Rohani (2009) ont présenté une autre
facette de l’utilité des modèles épidémiologiques à base d’EDO, où la maladie de la
coqueluche a été leur exemple d’application. Les auteurs ont combiné dans leur modèle SEIR,
deux types d’immunité, celle acquise naturellement et celle acquise suivant un processus de
vaccination. Leur modèle a pu montrer qu’au risque de perdre l’immunité après une certaine
durée, l’individu immunisé naturellement a plus de chances d’être à faible risque à l’infection.
Chapitre 1 Modélisation épidémiologique
18
Discussion
Il est bien clair que la modélisation par les EDOs a largement contribué dans le monde
épidémiologique. Cependant, il a été montré par Vynnycky et White (2010) que quand la
taille de la population étudiée est assez petite (e.g nombre de susceptible < 10) les modèles
déterministes prédisent un nombre d’infectés assez réduit par jour <1. Ce résultat est
considéré irréaliste dans le sens où c’est une fraction des infectés. Aussi en réalité, une
épidémie n’a pas toujours le même comportement au cours du temps et ce même si la
population concernée est face aux mêmes conditions or il est bien connu que les modèles
déterministes aboutissent aux mêmes résultats sous des conditions similaires. Une autre
constatation est que si la population des susceptibles est assez petite ceci implique qu’un
individu susceptible peut être en contact avec plus d’un infectieux or en réalité il ne sera
contaminé que par un et un seul infecté, les modèles déterministes ne prennent pas en compte
cette possibilité. Aussi, les EDOs ne permettent pas de représenter le contact à un niveau
individuel (White et al, 2007). Enfin, il est considéré laborieux d’amplifier le nombre de
paramètres à utiliser dans un modèle à base d’EDOs ou même les modifier. En effet, la
complexité d’un tel modèle nous conduit à un ensemble d’équation assez large et complexe à
manipuler ce qui fait d’elles des méthodes peu modulaires et peu incrémentales (Pavé, 1994).
L’étude établie par Blower et al. (1995, 1996) pour la modélisation de la tuberculose montre
bien ce critère de complexité. En effet, les auteurs ont modélisé au départ une simple
reproduction de la maladie en se basant sur un modèle SEIR, pour cela ils ont du développer
cinq équations différentielles. Puis, voulant intégrer le critère de résistance au traitement, les
auteurs ont étendu leur modèle en huit équations. Weber et al (2001) ont eux aussi
expérimenté la croissance du nombre d’équations et paramètres en proposant une extension de
leur modèle initial SIR à quatre équations en un modèle MSEIRS (où M dénote l’immunité
maternelle) à 21 équations.
1.5.2 Modélisation par automates cellulaires
Les automates cellulaires (AC) sont des modèles dynamiques discrets. Représentés sous
forme de grille constituée d’un ensemble fini de cellules, les automates cellulaires sont
configurés de telle sorte qu’à chaque pas de temps les états des cellules sont mis à jour selon
des règles prédéfinies. La particularité des AC est que l’état futur de chaque cellule est
dépendant de son état courant et celui de ses voisins.
Travaux connexes à la modélisation épidémiologique par AC
Keeling et Gilligan (2000) ont étudié l’impact de la peste sur la population en interaction
continue avec des rats infectés. Afin de comprendre la dynamique de l’épidémie entre les
humains et les animaux, les auteurs ont analysé les mouvements spatiaux des rats à l’aide
d’un automate cellulaire et ont conclu que le comportement dynamique de la population est
une propriété émergente du comportement individuel au lieu des caractéristiques propres de la
maladie. Rehkoph et al. (2015) ont démontré, en utilisant les automates cellulaires, que la
tuberculose est fortement dépendante du contexte social et les facteurs environnementaux. Les
auteurs ont pu reproduire différentes échelles de la densité de la population, où chaque cellule
Chapitre 1 Modélisation épidémiologique
19
de l’automate décrivait un automate muni d’une population à densité particulière. Cette
structuration a permis aux auteurs de conclure que le fait d’appliquer un traitement haut
niveau à une population à haute densité est moins efficace que le traitement à niveau moyen
de toute la population. Dans le but de contrôler la propagation des maladies infectieuses tout
en minimisant les frais de vaccination, Schimit et Monteiro (2011) ont proposé un modèle à
base d’automates cellulaires, en démontrant que le fait de vacciner uniquement la population
dite à risque, l’épidémie est temporairement contrôlée mais impossible à éradiquer. Sirakoulis
et al. (2000) ont analysé l’effet du mouvement d’une population sur la propagation des
épidémies. Le mouvement de la population a été décrit par le nombre des individus qui se
déplacent ainsi que les distances de leurs déplacements. Sirakoulis et al. (2000) ont réussi par
leur modèle à reproduire un schéma similaire à une épidémie face à un protocole de
vaccination. Slimi et al. (2009) ont démontré dans leur étude que l’immigration du pathogène
est la cause majeure de la transmission de l’épidémie. Les auteurs ont appliqué leur modèle à
base d’automates cellulaires sur la maladie de la Chagas, où ils ont suggéré, dans le cas de
l’absence d’un traitement/vaccination, que le moyen le plus efficace de limiter la propagation
est de contrôler la dynamique de l’agent pathogène. Sun et al. (2011) ont reproduit le schéma
d’une épidémie ré-émergente où des cas guéris se sont réinfectés. Les auteurs ont pu
démontrer par leur modèle qu’une vaccination après guérison est nécessaire pour une
meilleure prévention. Les travaux de Rhodes et Anderson (1997) ont montré comment les
automates cellulaires sont exploités pour reproduire la structure spatiale et la dynamique de
l’épidémie. Les auteurs se sont concentrés sur les maladies infantiles (Rougeole, coqueluche
et les oreillons) et leur distribution dans une population isolée et à taille réduite. Les auteurs
ont démontré que la modélisation de la rougeole et la coqueluche ont nécessité un automate
cellulaire à trois dimensions, contrairement aux oreillons qui ont nécessité un automate à cinq
dimensions. Ceci se traduit par le fait que la modélisation de la maladie des oreillons est plus
complexe et a besoin d’intégrer plus de paramètres que la rougeole ou la coqueluche.
Discussion
Même si la modélisation par automates cellulaires a su s’imposer dans le monde de la
modélisation où elle a permis de pallier les limites des EDO et de prendre en considération
l’interaction entre individus et son environnement/espace, toutefois cette technique souffre de
quelques limites :
- les automates cellulaires n’offrent aucune aide dans la représentation des comportements
hétérogènes de l’individu (Amouroux et al., 2008). Un exemple clé est le cas d’une maladie à
transmission par vecteur qui se propage sur de longues distances et pas uniquement au niveau
des voisins les plus proches.
- la synchronisation temporelle des cellules ne permet pas de reproduire le comportement
naturel des individus au cours d’une épidémie.
1.5.3 Modèle à base d’agents/centré individu
Il permet de suivre l’état de chaque individu au cours du temps (stochastique/déterministe).
C’est un modèle qui considère une collection d’entités autonomes, nommées agents. Ces
Chapitre 1 Modélisation épidémiologique
20
agents individuellement, perçoivent l’environnement et prennent des décisions en se basant
sur un ensemble de règles. Contrairement aux automates cellulaires, un modèle à base
d’agents peut exhiber un comportement variable et complexe. Cela dépendra de la structure
de son environnement, l’interaction entre les différents agents et leur comportement vis-à-vis
de leur voisinage qui peuvent être en collaboration ou compétition. En effet, la dynamique du
système est fortement liée à la dynamique de chaque agent dans le système.
Travaux connexes à la modélisation épidémiologique à base d’agents
Huynh et al. (2015) ont développé un modèle computationnel à base d’individus pour la
transmission de la tuberculose en Chine. Différentes stratégies ont été adoptées, telles que
différents taux de couverture vaccinale, différentes périodes de traitement ainsi que
l’introduction d’une thérapie préventive durant la période d’incubation. Les résultats générés
ont démontré que maintenir un bas niveau d’infection chez les jeunes enfants et traiter les plus
âgés avant qu’ils ne soient déclarés infectieux permettrait de réduire fortement l’incidence et
la mortalité. Ajelli et al. (2010) ont exploré la propagation spatiotemporelle de la grippe en
utilisant les modèles à base d’agents. Les auteurs ont pu reproduire le schéma de l’épidémie
tout en explicitant les interactions entre chaque individu de la population dans différentes
zones géographiques au cours du temps. Le même type d’épidémie a été repris par Laskowski
et al. (2015) où les auteurs ont développé un modèle évaluant l’impact de différentes
stratégies de vaccination. Les paramètres location et âge ont été partie intégrante du modèle.
Perez et Dragicevic (2009) ont reproduit la rougeole au Canada, où les facteurs temps et
espace ont été explicités. Motivés par la représentation des interactions au niveau des
individus, les auteurs ont pu relever l’épicentre de l’épidémie au niveau des écoles et des
universités.
Discussion
Quoique ces modèles aient pu relever les défis des modèles déterministes ou encore les
inconvénients des automates cellulaires, ils souffrent de quelques limites telles que :
- un haut niveau de descriptions et détails implique un haut niveau de complexité induisant à
un coût de calcul assez élevé.
- la compréhension du modèle est limitée à un publique particulièrement familier aux
langages de programmation.
- les détails dont fait appel un modèle à base d’agents ne sont pas toujours précis et
identifiables, où une simple variation des estimations pourrait avoir un large impact sur les
résultats induisant ainsi à une agrégation imprécise du modèle.
- standardisation et évaluation souvent complexe voire impossible à entreprendre (Jordan et
al, 2011).
- Les détails du modèle restreignent ce dernier à un exemple particulier qu’il est impossible
de généraliser.
Chapitre 1 Modélisation épidémiologique
21
1.5.4 Modélisation par les algèbres des processus
Les algèbres des processus (AP) sont une famille de langages formels pour la modélisation
des systèmes concurrents. Ils consistent en un ensemble de processus et leur interaction.
Développé depuis 1970, Les AP sont principalement basés sur des concepts mathématiques,
tels que les opérateurs arithmétiques et les axiomes pour l’étude du comportement des
systèmes parallèles et distribués. Depuis, ils ont été exploité pour les systèmes biologiques, où
Tofts (1994) les a utilisé pour décrire le comportement social des insectes puis ils ont été
adaptés pour les systèmes épidémiologiques.
Travaux connexes à la modélisation épidémiologique par AP
La récente émergence des AP dans le monde de la Bio-science a donné naissance à plusieurs
travaux épidémiologiques. Initialement, le modèle développé par Tofts (1994) sous la
nomination WSCCS (Weighted Synchronous Calculus of Communicating Systems) a été
repris en 2003 par Norman et Shankland (2003) pour modéliser un simple mécanisme de
transmission épidémique. Leurs travaux ont été étendus par la suite, par McCaig et al. (2009).
Les auteurs ont étudié l’utilité des modèles WSCCS en développant une variante nommée
CCS. Ils ont analysé la performance de leur modèle en exploitant les maladies du SIDA et
SRAS, ce qui leur a permis de bien cerner la dynamique de la maladie en relevant les agents
super-propagateurs de la maladie. En 2009, Ciocchetta et Hillston (2009a, 2009b) ont
développé un nouveau formalisme à base des AP mais selon une structuration réduite et
moins complexe, baptisé Bio-PEPA pour Biochemical-Performance Evaluation of Process
Algebras (plus de détails de la syntaxe de Bio-PEPA est présentée dans la section suivante).
Les auteurs ont exploré leur modèle pour la maladie de la grippe aviaire.
Benkirane et al. (2009) ont réutilisé le modèle PEPA (Performance Evaluation of Process
Algebras) initialement conçu en 1996 par Jane Hillston pour évaluer les performances des
ordinateurs et des réseaux. Afin de reproduire le comportement individuel lors d’une
propagation d’une épidémie et d’émerger vers une dynamique populationnelle, les auteurs ont
exploité comme exemple la maladie de la rougeole et la malaria dans un objectif de prouver
que les modèles PEPA répondent parfaitement à la modélisation épidémiologique. En 2012,
Benkirane et al. (2012) ont analysé les modèles conçus par Ciocchette et al. (2009a, 2009b).
Les auteurs ont argumenté que les facteurs saisonnalité et immigration sont un point essentiel
dans l’étude. Ils ont ainsi, repris leur modèle de la rougeole et enrichi par le facteur de la
saisonnalité. Les résultats ont montré que PEPA est un prédicateur optimal. Toutefois la
syntaxe adoptée ne reflète pas réellement la modélisation de quelques paramètres tels que
naissance et mortalité. Hamami et Atmani (2012, 2013) pour des fins comparatives ont
reproduit le modèle de la varicelle (Bonmarin et al., 2008) ainsi que celui de la tuberculose
(De-Espindola et al., 2011) par Bio-PEPA. Les auteurs ont mis en évidence la simplicité de
leur modèle à reproduire parfaitement les exemples étudiés. McCaig et al. (2013) ont analysé
l’interaction entre les parasites et le système immunitaire par les algèbres des processus. Les
auteurs ont soulevé l’importance de reproduire à la fois l’interaction à un niveau individuel et
dériver vers une analyse du système à un niveau populationnel. Les auteurs ont découvert que
Chapitre 1 Modélisation épidémiologique
22
la dynamique du système ne dépondait pas uniquement de la densité, des cellules
immunitaires ou encore les parasites mais de leur ratio1.
Discussion
Les algèbres des processus se trouvent être le candidat idéal pour la modélisation
épidémiologique. En effet, les limites dont souffrent les autres techniques précédemment
notées semblent toutes être résolues par les algèbres des processus. Notant que pour une
modélisation épidémiologique quatre points majeurs doivent être pris en considération : i) la
représentation à un niveau micro (par individu) émergeant vers un niveau macro (par
population) ; ii) la représentation stochastique et déterministe à la fois iii) la représentation
spatiotemporelle et iv) un degré de complexité assez réduit pour d’éventuelles optimisations.
La modélisation par les algèbres des processus jouie d’un ensemble d’avantages :
- le modèle est assez simple et intuitif.
- le modèle est modulaire et incrémental.
- le modèle peut représenter un système complexe en partant d’un ensemble assez réduit
de paramètre.
- le modèle permet le calibrage entre la complexité interne du système et son
environnement.
- la nature formelle de ce type de modèles permet de déduire le comportement au niveau
populationnel et avoir la confidence qu’il résulte du comportement au niveau individuel décrit
dans le modèle.
- le modèle regroupe aisément entre le caractère stochastique et déterministe d’une
épidémie.
- enfin l’un des plus importants avantages des algèbres des processus est les différentes
techniques d’analyse qui sont offertes par certains formalismes en outre Bio-PEPA, où ce
dernier permet : une analyse par différents algorithmes de simulation, interprétation
automatique du modèle en un ensemble d’équation différentielles ordinaires menant ainsi à un
modèle déterministe (si besoin), l'inférence des invariants du modèle, calcul de la fonction de
répartition d'une variable donnée, vérification du modèle par PRISM (PRobabilistic Symbolic
Model checker ; Kwiatkowska et al., 2002), et traduction du modèle vers le langage SBML
(System biology Markup Language ; Hucka et al., 2007) pour des fins de vérification et
validation.
Cependant, les algèbres des processus nécessitent un haut niveau d’hypothèses concernant la
dynamique de la population. Malgré cette limite qui reste commune aux autres techniques, les
nombreux avantages, nous conduisent à opter dans ce travail de recherche de modélisation
épidémiologique, pour les algèbres des processus, en particulier le formalisme Bio-PEPA, qui
sera décrit dans la section suivante.
1 Rapport entre deux grandeurs significatives.
Chapitre 1 Modélisation épidémiologique
23
1.6 Modélisation par Bio-PEPA (Biochemical Performance Evaluation Process Algebra)
Bio-PEPA est une variante des algèbres des processus dérivée particulièrement de PEPA, où
l’objectif majeur est de reproduire les systèmes biochimiques en général et épidémiologiques
en particulier tout en corrigeant les limites de PEPA. En effet, les caractéristiques telles que
l’espace ou les notions démographiques (naissance et mortalité) sont complexes et coûteuses à
décrire dans PEPA.
1.6.1 Définition
Bio-PEPA a la particularité de considérer les processus comme étant des espèces (différents
types d’individus). Leur interaction décrit la dynamique de ces espèces. Les principaux
composants de Bio-PEPA sont (Galpin et Hillston, 2011, Marco et al., 2012a,b):
- composants séquentiels : décrivent le comportement de chaque espèce (individu).
- composant modèle : décrivent les interactions entre les espèces.
- contexte : afin de décrire au mieux ces deux composants, Bio-PEPA permet de définir des
taux fonctionnels (actions), des compartiments et des paramètres, où chaque espèce est vue
comme un sous-groupe de population partageant les mêmes caractéristiques, et chacune a
le choix d’exécuter une action différente. La synchronisation, coopération et concurrence
de ces espèces au cours du temps sont gérées par le composant modèle. La syntaxe du
formalisme Bio-PEPA relative aux définitions ci-dessus est décrite comme suit :
S :: = (,) op S | S+S | C
Op = | | (+) | (-) | (.)
P :: = P P | S(x)
où le terme (,) op S défini l’action , le coefficient stœchiométrique , et l’impact de cette
action sur l’espèce S selon l’opérateur op. L’opérateur op peut prendre différentes formes :
- (), l’espèce est réactive ce qui décroit son niveau (densité) ;
- (), l’espèce est productive ce qui accroit son niveau ;
- (+), le choix entre différentes actions ;
- (-), l’espèce est inhibitrice ;
- (+), l’espèce est activatrice ;
- (.), l’espèce est un modificateur générique. Elle participe à une action sans que ceci ait
effet sur son niveau de concentration.
- la constante C est en général définie par une équation S et peut faire référence à un
autre composant dont le comportement de S est dépendant.
Chapitre 1 Modélisation épidémiologique
24
La syntaxe relative au composant modèle P :: P P | S(x) dénote la synchronisation entre
deux composants (espèces), où l’ensemble L dénote les actions candidates à la
synchronisation. Le paramètre x défini dans S(x) correspond au niveau initial de l’espèce S.
1.6.2 Définition formelle
Etant un formalisme, Bio-PEPA peut être défini par un 6-uplet {, N, , F, Comp, P} (Galpin
et Hillston, 2011 ; Ciocchetta et Hillston, 2009), où :
- , ensemble de compartiments,
- N, ensemble de quantité associée à chaque espèce,
- , ensemble de paramètres (coefficients stœchiométriques), utilisés pour quantifier la
relation entre producteur et réactant,
- F, ensemble d’actions (taux fonctionnels),
- Comp, ensemble d’espèces,
- P, le composant modèle.
1.6.3 Sémantique structurelle de Bio-PEPA
La figure 1.3 (Galpin et Hillston, 2011; Ciocchetta et Hillston, 2009a) illustre les définitions
relatives à Bio-PEPA (cf. §6.1, §6.2). Cette description schématisée sous forme de règle,
permet de suivre l’évolution de l’espèce pour chaque type d’action invoquée. Par exemple, la
règle « PrefixReac » indique que si une espèce S exécute l’action () alors son niveau de
concentration (densité) initial L décroît selon une substance , tel que L reste compris entre le
niveau minimal de concentration et son niveau maximal. D’une manière générale, les trois
premières règles définissent le comportement de l’espèce : réactive (resp. productive ou
modificatrice), où le niveau de l’espèce accroît (resp. décroît ou reste inchangé). La
dynamique du niveau de concentration est conditionnée par . Tandis que les trois règles
suivantes (Coop1, Coop2 et Coop3) désignent la coopération et synchronisation entre les deux
espèces P1 et P2. Les règles Coop1 et Coop2 prédisent un comportement affectant
uniquement une des deux espèces, car l’action candidate n’appartient pas au groupe des
actions communes. La règle Coop3 décrit le cas où les deux composants (espèces) se
synchronise selon l’action .
La dernière règle (Final) permet d’expliciter le comportement global du système où partant
d’un état initial P et exécutant certaines actions , le système évolue à l’état P`. Pour plus de
clarté, nous avons présenté dans cette section les notions de base de la sémantique de Bio-
PEPA. Pour plus de détails nous invitons le lecteur à se référer à Galpin et Hillston (2009,
2011) et Galpin et al. (2011).
Chapitre 1 Modélisation épidémiologique
25
Figure 1.3 Sémantique structurelle de Bio-PEPA(Galpin et Hillston, 2011 ; Ciocchetta et Hillston, 2009)
crw = 6.015; ir = 0.133; rr = 0.154;
kineticLawOf contact : (crw ∗ S ∗ I) /(S +E +I +R);
kineticLawOf incubation : (ir ∗ E);
kineticLawOf recover : (rr ∗ I);
S = contact << S;
E = contact >> E + incubation << E;
I = contact(.)I + incubation >> I + recover << I ;
R = recover >> R;
I [5] < ∗ > S[508000] < ∗ > E[0] < ∗ > R[0]
Figure 1.4 Modèle SEIR en Bio-PEPA
Prefixreac
Prefixprod
Prefixmod
Choice 1
Choice 2
Constant
Coop 1
Coop 2
Coop 3
Final
Chapitre 1 Modélisation épidémiologique
26
1.6.4 Exemple
La figure 1.4 illustre la syntaxe de Bio-PEPA à travers un exemple générique d’une épidémie
(Marco et al. 2012b) pour un modèle à compartiments SEIR (Susceptible - Exposed - Infected
- Recovered). Ce modèle peut être appliqué à plusieurs comportements épidémiques selon des
paramètres appropriés.
Tel que nous l’avons spécifié auparavant, le modèle Bio-PEPA est défini par un ensemble de
paramètres (crw, ir et rr), des taux fonctionnels (introduits dans la fonction KineticLawOf) et
un ensemble d’espèces (S, E, I et R). Les actions exécutées par les espèces sont : contact,
incubation et recover. L’action contact décroit (resp. accroit) le niveau de concentration de
l’espèce S (resp. E), en utilisant l’opérateur << (resp. >>)2. L’action incubation décroît (resp.
accroît) le niveau de l’espèce E (resp. I). La dernière action recover décroît (resp. accroît) le
niveau de l’espèce I (resp. R). L’opérateur (.), utilisé dans l’espèce I, indique que I participe
dans l’action contact sans pour autant que ceci affect son niveau de concentration. L’opérateur
+, permet le choix entre les différentes actions (contact, incubation et recover) selon le
paramètre invoqué. La dernière ligne du code Bio-PEPA correspond au composant modèle
qui décrit l’interaction entre les espèces et leur niveau initial (* signifie que toutes les actions
sont commune).
1.6.5 Analyse du modèle épidémique par Bio-PEPA
La spécification formelle de Bio-PEPA permet d’accomplir différents types d’analyses :
chaînes markoviennes à temps continu (CTMC), les équations différentielles ordinaires
(EDOs), simulation stochastique (Gillespie) et les modèles de validation PRISM et SBML.
Plus de details dans Galpin et Hillston (2011).
L’utilité d’une telle analyse réside dans la possibilité d’effectuer une étude comparative entre
les différentes analyses pour une profonde validation. Ainsi, le développeur n’a plus à se
soucier de la nature de l’épidémie pour l’adapter à la méthode de modélisation, Bio-PEPA lui
permet amplement de vaciller entre un modèle stochastique et déterministe sans pour autant
changer d’outil ou de formalisme.
1.7 Synthèse des méthodes de modélisation
La modélisation par Bio-PEPA semble être le candidat idéal pour la modélisation
épidémiologique. Déterminer quelle approche est la plus adéquate pour un tel ou tel problème
dépond fortement de l’objectif à atteindre et de l’analyse à effectuer. Pour résumer, tel que
nous l’avons spécifié, les avantages qui dissocient les algèbres des processus en général et
Bio-PEPA en particulier des autres méthodes de modélisation sont :
- leur particularité d’automatiser différentes sortes d’analyse.
- leur aptitude à osciller entre le niveau macroscopique et microscopique ; ou stochastique
et déterministe sans modifier le code.
2 Le symbole « » (resp. « ») défini dans le formalisme Bio-PEPA (cf. § 1.6.1) est représenté par « << » (resp.
« >> » dans le langage de modélisation Bio-PEPA.
Chapitre 1 Modélisation épidémiologique
27
Cependant, une des difficultés majeures face à laquelle se heurtent toutes les méthodes de
modélisation quelque soit leur nature, est le problème d’identification des paramètres les plus
optimaux, leur valeurs ou encore la structure du modèle adopté. Par exemple, pour la
modélisation de la rougeole, Bjørnstad et al. (2002) ont utilisé un taux d’incubation de 7.5
jours et une période d’infection de 6.5 jours. Par contre, Bolker et al. (1995) ont proposé une
période d’incubation de 10 jours et une période d’infection de 3.7 jours. Généralement ces
paramètres sont définis dans un large éventail qu’il est impossible aux experts d’évaluer avec
précision. Nous avons aussi constaté durant la recherche bibliographique que nous avons
entrepris (cf. section 1.5) que chaque auteur a sélectionné un certain nombre de facteurs
(paramètres/descripteurs) pour son modèle épidémique. Les principales questions qui se
posent à nous est : est-ce le bon descripteur (paramètre) de l’épidémie? Y a-t-il d’autres
facteurs de risques ? Est-ce que les informations acquises de l’expert sont-elles exhaustives ?
Quel est le degré d’objectivité de la structure du modèle adaptée ?
Selon Wearing et al. (2005), vu l’importance de l’impact des épidémies sur la population, il
est très important qu’un modèle épidémiologique fournît une prédiction la plus optimale
possible. Ceci est fortement lié à un paramétrage qui doit être finement précis. Les auteurs ont
également argumenté qu’il y a un grand risque de surestimations/sous-estimations dans les
prises de décisions sanitaires si des erreurs sont commises lors du paramétrage et de
formulation du modèle prédictif. Afin de pallier cette incertitude de spécification, nous
proposons dans les chapitres suivants deux solutions selon deux angles différents pour une
optimisation optimale des modèles conçus. Le premier angle remet en cause la validité des
connaissances acquises de l’expert d’où la proposition d’un modèle de vérification et
d’interaction entre expert et développeur. Le deuxième angle se concentre sur la variabilité et
dynamique de la nature des épidémies qui va au-delà des connaissances de l’expert d’où la
proposition d’une assistance du processus de modélisation par d’autres techniques tel que la
fouille de données.
1.8 Conclusion
Les différentes méthodes de modélisation pour les systèmes épidémiologiques ainsi que leurs
avantages et inconvénients sont présentées dans ce chapitre. Cette recherche bibliographique,
en outre les limites des méthodes de modélisation discutées dans la section 1.5, nous a permis
de motiver notre choix à utiliser la modélisation par les algèbres des processus Bio-PEPA.
Nous avons aussi, mis en avant les limites dont peut souffrir un modèle prédictif. Dans le
chapitre suivant, nous allons présenter les travaux en relation avec ces limites et tenter de
cerner le problème et proposer des solutions.
Chapitre 2
Optimisation des modèles épidémiologiques
Sommaire
2.1 Introduction
2.2 Vérification des modèles épidémiologiques
2.2.1 Définition
2.2.2 Techniques de vérification des modèles
2.3 Optimisation des modèles épidémiologiques
2.3.1 Définition
2.3.2 Méthodes d’optimisation
2.4 Optimisation des modèles épidémiologiques : Etat de l’art
2.4.1 Optimisation paramétrique
2.4.2 Optimisation structurelle
2.5 Discussion et conclusion
Chapitre 2 Optimisation des modèles épidémiologiques
29
2.1 Introduction
Quelle que soit la méthode de modélisation utilisée, les questions soulevées au chapitre
précédent nous conduisent à se focaliser principalement sur l’une des étapes du processus de
modélisation qui est : la vérification et la validation des modèles. En effet, la partie la plus
critique pour le développeur et l’expert est la vérification et la validation relatives à l’étape de
simulation.
La validation du modèle est définie comme étant le processus déterminant le degré de
similarité entre le modèle conçu et la réalité ainsi que sa capacité d’expliquer les phénomènes
du monde réel. Plus la technique de modélisation offre une souplesse de gestion lors de cette
étape, plus il devient facile d’améliorer les résultats (données simulés) et ainsi valider le
modèle.
La validation basique pour un développeur est de comparer les données observées aux
données simulées. Si ces derniers ne sont pas en parfaite corrélation, le développeur pourra
toujours enrichir le modèle par d’autres informations. Cependant, inclure plus de paramètres
dans le modèle implique une plus grande complexité à gérer, comprendre ou analyser le
comportement simulé. Actuellement, le moyen universel et commun à toutes les méthodes de
modélisation est l’étape de vérification. La vérification des composants du modèle (entrées,
sorties, règles, ect) doit se faire au niveau supérieur (antérieur), c’est-à-dire au niveau du
modèle conceptuel. Le développeur doit ainsi revoir son modèle et interagir davantage avec
l’expert. Toutefois, cette étape reste la plus critique car le développeur n’est pas un
épidémiologiste qui à son tour n’est pas un adepte des méthodes et langages de modélisation.
Identifier la structure et les paramètres du modèle les plus optimaux en utilisant des méthodes
qui adressent à la fois l’incertitude structurelle et paramétrique, sont un problème crucial pour
une tâche de modélisation épidémiologique. En effet, dans plusieurs travaux récents, il a été
constaté un engouement assez important pour l’identification des paramètres. Par contre,
l’optimisation de la structure du modèle n’est référencée que par peu de travaux voir même
une présence marginale.
Dans ce chapitre, nous allons présenter les travaux liés à l’optimisation des modèles
épidémiologiques. Mais avant toute chose, un point essentiel doit être établi, car avant de
tenter d’optimiser un modèle épidémiologique le développeur et l’expert doivent s’assurer
qu’aucune initiative d’erreur humaine n’a été commise. Autrement dit, lors de l’interaction
entre expert et développeur, plus précisément lors des étapes de réalisation du modèle
conceptuel, les informations émanantes de l’expert peuvent être mal assimilées et interprétées
par le développeur sans que cela ne puisse être détecté lors de la simulation et génération des
résultats. Ce qui dérive vers une conception incertaine où l’expert est sûr d’avoir fourni le
nécessaire pour l’étude et le développeur d’avoir correctement conçu son modèle. Afin de
démarrer un processus d’optimisation sur des bases solides, nous proposons dans cette
première partie de ce chapitre de revoir les techniques en relation avec l’étape de vérification
des modèles. Puis la deuxième partie sera consacrée aux travaux d’optimisation.
Chapitre 2 Optimisation des modèles épidémiologiques
30
2.2 Vérification des modèles épidémiologiques
2.2.1 Définition
Tel que nous l’avons spécifié précédemment, il y a deux étapes pour juger qu’un modèle est
optimal ou non : la vérification et la validation. La validation est un processus permettant de
comparer les résultats de simulation aux données observées. Toutefois, quand la validation est
négative une vérification s’impose (Railsback et Grimm, 2011).
La vérification d’un modèle se base sur la révision des hypothèses, entrées, sorties et règles
prédéfinies. Ainsi, la vérification est un processus itératif qui s’effectue principalement au
niveau de la description et la spécification du modèle afin de vérifier que les exigences
spécifiées lors de la conception sont satisfaites (Lewis, 1992). Selon Cook et Skinner (2005)
lors de l’étape de vérification, la question qui se pose est : est-ce que nous avons correctement
conçu le modèle ? Alors que dans l’étape de validation : est-ce que nous avons conçu le bon
modèle ?
Il est important de noter que cette phase est très importante car les modèles épidémiologiques
en question, se trouvent être des modèles normatifs jouant un rôle de description, de
prédiction et de prise de décisions. Ainsi, ni le développeur ni l’expert n’ont droit à l’erreur.
Nous précisons également, que le terme vérification employé ici exclu la notion de
vérification lexical et syntaxique du code développé en outre la vérification du code, car
l’outil Bio-PEPA prend en charge ce type de vérification. Ainsi, nous nous focalisons
uniquement sur la vérification des connaissances acquises ou exploités dans le modèle.
2.2.2 Techniques de vérification des modèles
Plusieurs techniques de vérification ont été instaurées (Balci, 1998 ; Hillston, 2003, Petty,
2010), les plus communément utilisées sont :
1. Analyse structurée étape par étape : cette technique consiste à expliquer le modèle à
d’autres personnes afin que le développeur puisse revenir vers les détails de son modèle et
découvrir d’éventuels problèmes. Même si les auditeurs ne comprennent pas les détails du
modèle, ou du système, le développeur peut déceler les défaillances simplement en présentant
avec soin son modèle (Knepell and Arangno, 1993; Scheller et al., 2010).
2. Modèles simplifiés : cette technique propose de réduire le modèle à son comportement
minimal possible. Elle est généralement complémentaire à la précédente, puisque cette
dernière est considérée comme un processus qui peut être couteux en temps de calcul.
Cependant, un modèle qui fonctionne pour des cas simples n'est pas garanti pour des cas plus
complexes. D'autre part, Hillston (2003) confirme qu’un modèle qui ne fonctionne pas pour
des cas simples ne fonctionnera certainement pas pour les plus complexes.
3. Simulations déterministes : utiliser des valeurs déterministes comme paramètres de
simulation à l’inverse des variables aléatoires peut aider le modélisateur à voir si le modèle se
Chapitre 2 Optimisation des modèles épidémiologiques
31
comporte correctement. Ce n'est que lorsqu’il est convaincu que la représentation
comportementale des entités est effectivement correcte qu’il introduira des variables
aléatoires pour représenter les temps inter-événements en utilisant des distributions à temps
continu. Toutefois, cette technique ne convient pas à quelques modèles tel que les modèles
markoviens qui eux ne peuvent être résolus que par des distributions exponentielles (Kleijnen,
1995 ; Balci, 1998).
4. Animation : l'animation fournit des informations sur le comportement interne du
modèle sous une forme graphique pendant l'exécution du modèle. Dans certains systèmes,
l'affichage représentera des informations de haut niveau sur la valeur actuelle des mesures de
performance. L'animation peut prendre la forme d'une analyse automatisée en une étape, telle
que les outils stochastiques graphiques de réseaux de Petri et de file d'attente dans laquelle des
jetons ou des clients peuvent être vus lors de leur déplacement dans le réseau. Cependant, la
manipulation de l'affichage ainsi que l'évolution du modèle ralentit considérablement la
simulation (Sargent, 2005).
5. Variation des valeurs des paramètres : Pour un paramètre quelconque, une légère
perturbation d'entrée ne devrait généralement produire qu'une légère modification de la
production. Toute modification soudaine de la sortie est considérée comme une indication
d'une erreur possible qui doit être étudiée à moins que ce soit un comportement connu du
système (Sargent, 2005 ; Balci, 1998).
6. Comparaison du modèle exécutable au modèle conceptuel : Cette technique permet de
vérifier si les données et les opérations définies dans le modèle conceptuel sont identiques au
modèle simulable (computationnel). Elle se base sur le principe du raisonnement inductif
(Petty, 2010).
7. Vérification par l’expert du domaine : généralement cette technique est partagée entre
l’étape de validation et l’étape de vérification. Elle est référencée par la technique de l’analyse
étape par étape citée ci-dessus. Elle se base principalement sur l’intuition de l’expert à
détecter les erreurs et les incohérences commises lors de la conception (Petty, 2010).
En revoyant cette série de techniques, il est bien clair qu’elles se distinguent selon deux
types : i) les techniques en relation avec la simulation (technique 3, 4 et 5); ii) les techniques
en relation avec la conception (technique 1, 2, 6 et 7). A ce stade, notre but étant de détecter
les anomalies qu’un développeur a pu commettre suite à une mauvaise interaction avec
l’expert ou une faible assimilation des connaissances acquises, le deuxième type semble être
le plus approprié. Toutefois, la technique N°2, bien qu’elle soit en relation avec la conception,
n’est pas adéquate à notre objectif car nous jugeons que le niveau de complexité initial est en
fonction des besoins prioritaires et fondamentaux de l’épidémie à reproduire. Ainsi, nous nous
focaliserons sur les techniques 1, 6 et 7.
Le choix entre ces trois techniques reste très sensible du fait de leur inter-corrélation. Nous
proposons dans le chapitre 4 une approche qui nous permet une ouverture dans les choix et
ainsi de combiner entre les trois techniques. Nous l’avons baptisé « du modèle formel au
modèle narratif » (cf. Chapitre 4).
Chapitre 2 Optimisation des modèles épidémiologiques
32
2.3 Optimisation des modèles computationnels
2.3.1 Définition
L’optimisation est une approche permettant de trouver la meilleure solution au du moins la
plus optimale entre plusieurs demandes conflictuelles soumises à des contraintes prédéfinies.
L’optimisation se base principalement sur trois concepts : ensemble de solution admissibles,
la fonction objectif et les contraintes. Un problème d’optimisation consiste selon des
contraintes prédéfinies à sélectionner une solution permettant d’optimiser (maximiser ou
minimiser) la valeur de la fonction objectif (Oremland, 2011).
L’optimisation n’est certainement pas un nouveau concept en modélisation computationnelle
et encore moins dans le domaine épidémiologique, où le concept d’optimisation a été
principalement exploité dans un objectif d’identification des entrées et des paramètres du
système permettant d’aboutir à un comportement souhaité. Toutefois, peu de travaux
d’optimisation sont à référencer en modélisation par les algèbres des processus. Avant de
passer en revue les travaux existant (cf. section 4), nous présentons au préalable les
différentes approches les plus communément utilisées en modélisation épidémiologique.
2.3.2 Méthodes d’optimisation
Les méthodes d’optimisation peuvent être déterministes ou stochastiques. Les algorithmes
déterministes aboutissent à une solution identique si les même conditions d’entrées sont
utilisées tandis que les algorithmes stochastiques peuvent proposer une solution différente à
chaque exécution et ce quelque soient les données d’entrées (Koziel et Yang, 2011).
Toutefois, due à la nature variable et dynamique des modèles épidémiologiques auxquels nous
nous référons dans se travail de thèses, il est plus judicieux de se focaliser sur les méthodes
stochastiques.
2.3.2.1 Méthodes évolutionnaires
Sont des méthodes dites approchées, elles consistent à manipuler une ou plusieurs
solutions, à la recherche de l’optimum, la meilleure solution au problème. Ceci en minimisant
ou maximisant une fonction objectif qui décrit la qualité d’une solution au problème. Le
concept de ces méthodes est de générer un groupe initial de solutions aléatoires, bien que
certaines connaissances antérieures puissent être introduites dans la première génération. Ces
solutions sont évaluées par rapport à un comportement souhaité; Les individus (solutions
candidates) à scores élevés sont plus susceptibles de transmettre leurs attributs à des solutions
futures alors que les individus les plus pauvres disparaissent. Les algorithmes les plus
communément utilisés sont : les algorithmes génétiques, les colonies de fourmis et les essaims
particulaires. Ces algorithmes inspirés du vivant se focalisent principalement sur les individus
et leurs interactions dans la population à la quelle ils appartiennent.
Optimisation par les algorithmes génétiques. Reproduit une population initiale (ensemble
de solutions admissibles codées en une chaine de caractères) qui par la suite sera sujet à des
opérations telles que la mutation, le croisement et la sélection. Ces opérations permettront de
Chapitre 2 Optimisation des modèles épidémiologiques
33
reproduire de nouvelle génération jusqu’à ce que la solution la plus optimale soit atteinte
(Patel et al., 2005; Castiglione et al., 2007 ; Pappalardo et al., 2010).
Optimisation par colonies de fourmis. Résout le problème d’optimisation par la
modélisation des fourmis et le traçage de leurs phéromones (Dorigo et al., 1996; Karpenko et
al., 2005 ; Brailsford et al., 2007 ; Blum, 2005). Dans leur nature, les fourmis marquent le
chemin entre leur nid et la nourriture trouvée, par leurs phéromones. Les chemins les plus
empruntés seront intensifiés par la quantité de phéromones tandis que les phéromones des
chemins les moins utilisés disparaitront avec le temps.
Optimisation par essaims particulaires. Reproduit le comportement d’un groupe
d’oiseaux (ou de poissons) et leur collaboration. Ainsi, grâce à des règles de déplacement très
simples (dans l'espace des solutions), les particules (les individus) peuvent converger
progressivement vers un minimum local (Wu et al., 2012 ; González-Parra et al., 2015).
2.3.2.2 Optimisation par analyse de sensibilité
Permet d’analyser un modèle en étudiant l’impact de la variabilité des facteurs d’entrées
du modèle sur sa variable de sortie. En utilisant des indices de sensibilité, l’analyse de
sensibilité permet de restreindre les variables d’entrées à celles ayant un impact sur la sortie
du modèle. Ainsi, les valeurs des variables restantes seront fixes.
Nous pouvons distinguer deux types de méthodes d’analyse de sensibilité : Locale et
globales (Dhingra et al., 2013).
Optimisation par analyse locale. Evalue quantitativement l’impact de la variation d’une
seule variable d’entrée sur la sortie du modèle à optimiser.
Optimisation par analyse globale. Analyse la variabilité de la sortie du modèle par la
variation de l’intégralité de ses entrées. Ainsi, l’analyse pourra définir la répercussion de telle
entrée ou tel ensemble d’entrées sur la sortie du modèle.
2.4 Optimisation des modèles épidémiologiques : Etat de l’art
Nous rappelons que l’ensemble des méthodes citées dans la section précédente sont le résultat
de l’ensemble de travaux ayant fait l’objet d’optimisation des modèles computationnelle.
Toutefois, nous préférons donner un autre angle de vue en classifiant l’optimisation des
modèles épidémiologiques entre autre ceux à base des algèbres des processus selon l’objectif
à atteindre. Cette classification se spécifient par deux types d’optimisation : 1) paramétrique;
2) structurelle.
2.4.1 Optimisation paramétrique
Les développeurs ont estimé que le paramétrage (estimation des valeurs des paramètres) est
l’un des plus grand challenge de la modélisation. Sumner (2010) argumente que les
paramètres sont souvent estimés dans un large intervalle ou associés à un haut niveau
d’incertitude.
Chapitre 2 Optimisation des modèles épidémiologiques
34
Travaux connexes à l’optimisation paramétrique
La recherche effectuée dans le domaine de l’optimisation paramétrique n’est pas récente où la
plus part des travaux se sont focalisés sur l’analyse de sensibilité et les méthodes
évolutionnaires. Blower et Dowlatabadi (1994) ont développé un modèle mathématique
déterministe afin de décrire l’épidémie du SIDA. Les auteurs ont souligné la complexité du
modèle accentuée par un haut niveau d’incertitude dans l’estimation des valeurs de ses
paramètres. Les auteurs ont proposé d’appliquer une analyse d’incertitude afin d’évaluer
l’impact des paramètres d’entrées sur les résultats du modèle. L’étude a été soutenue par une
analyse de sensibilité où les paramètres qui contribuent le plus à une prédiction incertaine ont
été identifiés. L’analyse d’incertitude adoptée a été basée sur l’hypothèse que les paramètres
d’entrées sont principalement indépendants. Sous cette hypothèse, les auteurs ont souligné
que les résultats établis sont étroitement liés à la structure du modèle et que toute autre
proposition structurelle influencerait grandement les résultats de l’analyse de sensibilité et
d’incertitude. Ainsi, les auteurs ont défini 20 paramètres dans leur modèle du SIDA où ils ont
pu identifier trois paramètres critiques à une prédiction optimale : la transmission par injection
d’aiguille, la transmission sexuelle et la période d’incubation.
Porco et Blower (1998) ont analysé le modèle de la tuberculose en absence du traitement
selon 11 paramètres. En utilisant l’analyse de sensibilité, les auteurs ont évalué la variabilité
de résultats épidémiologiques du modèle au cours de la progression d'une épidémie de
tuberculose. Les valeurs calculées à partir de l'analyse d'incertitude pour l'incidence de la
maladie, la prévalence de la maladie et les taux de mortalité étaient approximativement
conformes aux données historiques. L'analyse de sensibilité a révélé que seuls quelques
paramètres d'entrée du modèle influaient de façon significative sur la sévérité de l’épidémie
de tuberculose. Ces paramètres étaient le taux de réactivation de la maladie, la fraction
d'individus infectés qui développent la tuberculose peu de temps après l'infection, le nombre
d'individus infectés par an, le taux de mortalité par maladie et le taux de naissance. Au-delà de
cette découverte, les auteurs ont démontré que l’incertitude dans le taux de contact entre
individus est la cause majeure de l’incertitude dans la prévalence de la maladie. Ainsi, Proco
et Blower (1998) ont déclaré qu'il est possible d'améliorer la compréhension du comportement
des épidémies de tuberculose en appliquant l'analyse de sensibilité au modèle de transmission.
En 2008, Legrand et al. (2008), ont proposé un modèle mathématique pour simuler la
dynamique de l’épidémie de la tuberculose (TB) en prison et évaluer l'impact de plusieurs
stratégies d’intervention sur sa prévalence. Pour quantifier l'impact de la variation de chaque
paramètre sur la sortie du modèle, les coefficients de corrélation de rang partiel (PRCC) entre
chaque paramètre et la prévalence moyenne prédite de TB active pour chaque stratégie ont été
calculés. L’analyse de sensibilité et d’incertitude du modèle ont montré qu’en ajoutant un
examen annuel de dépistage par radiographie des détenus la prévalence de la tuberculose
active a été réduite en dessous de 1%. En outre, selon ce modèle, après avoir appliqué cette
stratégie pendant deux ans (trois dépistages annuels), la charge de tuberculose serait réduite et
la prévalence de la TB active pourrait être maintenue à un faible niveau en associant le
dépistage des rayons X au traitement contre la tuberculose. Legrand et al. (2008) ont
également constaté que le taux de transmission, l’immunité acquise d’une infection ultérieure
Chapitre 2 Optimisation des modèles épidémiologiques
35
et le taux de mortalité des tuberculeux non-traités sont les paramètres clés ayant un impact
décisif sur l’évolution de la maladie où le reste des paramètres (14 paramètres) n’avait pas une
grande influence.
Andrews et Basu (2011) ont conçu un modèle mathématique de transmission du choléra basé
sur des modèles existants et l’ont adapté aux données d'incidence signalées en Haïti. Plusieurs
simulations ont été réalisées selon des stratégies variables afin d’estimer l'effet de l'eau
potable, la vaccination et l'amélioration des programmes de distribution d'antibiotiques. Les
prédictions du modèle ont prévu : qu’une réduction de 1% par semaine de la consommation
de l'eau contaminée éviterait 105 000 cas et 1 500 décès ; que la vaccination de 10% de la
population éviterait 63 000 cas et 900 morts et que l'extension proposée de l'utilisation
d'antibiotiques à tous les patients atteints de déshydratation sévère et la moitié des patients
avec une déshydratation modérée devrait prévenir 9000 cas et 1300 décès. Les auteurs ont pu
identifier par une étude de sensibilité que parmi les 19 paramètres définis dans le modèle de
choléra, la taille du réservoir n’affecte pas substantiellement la prédiction de la maladie.
L’étude réalisée par Oaken (2014) diffère de celles présentées ci-dessus dans le sens où son
but n’est pas uniquement de sélectionner les paramètres les plus pertinents mais plutôt
d’optimiser les valeurs des paramètres de leurs modèles à base d’algèbre des processus, pour
le faire correspondre le plus possible aux données observées. Oaken (2014) a utilisé les
algorithmes génétiques afin d’optimiser son modèle de SIDA développé en PEPA. L’auteur
s’est focalisé sur le taux d’infection et d’immigration où il a pu identifier les valeurs les plus
optimales pour son modèle. Prandi (2010) a utilisé les essaims particulaires afin d’optimiser
les paramètres d’un modèle à base d’algèbre des processus associé à la nourriture écologique
ayant un comportement oscillatoire. L’auteur a pu reproduire un modèle conforme au système
original. En 2013, un outil spécifique à l’optimisation des paramètres pour les modèles à base
de Bio-PEPA a été développé « SBSI » par le groupe SynthSys de l’université d’Edinburgh
(UK) (Adams et al., 2013). En utilisant les algorithmes génétiques, l’outil SBSI permet
d’ajuster les valeurs des paramètres selon les sorties du modèles les plus optimales. Karpenko
et al. (2005) ont appliqué l’optimisation par colonies de fourmis pour l'identification d'un
alignement multiple d'un ensemble de séquences de protéines courtes (peptides) utile au
développement de vaccins. Les alignements les plus favorables ont pu être sélectionnés.
2.4.2 Optimisation structurelle
Ce type d’optimisation consiste à sélectionner la structure la plus appropriée répondant au
mieux à la dynamique d’une épidémie et permettant de dériver vers des prédictions optimales
(comparables à la réalité).
Travaux connexes à l’optimisation structurelle
A l’inverse de l’optimisation paramétrique, peu de travaux se sont focalisés sur l’optimisation
structurelle d’un modèle. Toni at al. (2009) ont développé l’outil ABC-SysBio à base de
formalisme SBML couplé au modèle de sélection bayésien. Les auteurs ont proposé de
corriger l'incertitude structurelle en permettant à l'utilisateur d'énumérer explicitement les
Chapitre 2 Optimisation des modèles épidémiologiques
36
structures alternatives du modèle qui sont par la suite testées et comparées. Les auteurs ont
donc défini un modèle épidémique de la grippe inspiré des travaux d’Anderson et May (1991)
où ils ont proposé 4 différentes structures (SIR, SIR avec délai, SEIR et SEIRS) auxquels ils
ont joint les paramètres correspondants. Leur modèle SEIR a été sélectionné comme étant le
plus optimal. Cependant, les auteurs soulèvent une anomalie par rapport à la taille initiale de
la population susceptible qui est assez basse comparé à la population totale, et suggère que
leur exemple d’application pourrait ne pas bien répondre à une structure générale et à
population homogène. Les auteurs argumentent qu’au-delà de cette limite, leur outil a pu
sélectionner le modèle et les résultats les plus plausibles selon une estimation réaliste des
paramètres.
Tanevski et al. (2016) argumentent que l'identification d'une structure de modèle appropriée,
en utilisant des méthodes qui traitent à la fois de l'incertitude structurelle et des paramètres,
est un problème crucial dans l'approche systémique de la biologie. Les auteurs déclarent que
malgré l’existence de nombreuses approches intégrant les méthodes de simulation et
d'estimation de paramètres d'un seul modèle pour résoudre l'incertitude des paramètres, seules
quelques-unes répondent à l'incertitude structurelle en même temps (Toni et al, 2009;
Džeroski et Todorovski, 2008). Cependant, les auteurs soulignent d’une part le fait que ces
méthodes de gestion de l'incertitude de structure simplifient souvent le problème en
permettant au modélisateur humain d'énumérer explicitement un nombre relativement petit de
structures de modèles alternatives. D'autre part, les méthodes de modélisation par processus
fournissent des formalismes modulaires flexibles pour spécifier de grandes classes de
structures de modèles plausibles, mais leur portée est limitée aux modèles déterministes. Dans
leur perspective d’optimiser les modèles stochastiques à partir des connaissances et des
données, les auteurs ont combiné la souplesse de la modélisation basée sur les processus pour
aborder l'incertitude structurelle avec les avantages de la modélisation stochastique. La
méthode proposée combine la recherche à travers l'espace de structures de modèles plausibles,
le principe de parcimonie et l'estimation de paramètres pour identifier un modèle à structure et
paramètres optimaux. Les auteurs ont principalement ciblé la limite du travail accompli par
Toni et al (2009) où les propositions des structures sont énumérées ce qui peut être couteux en
temps et espace mémoire et ont de ce fait, proposé de l’améliorer en définissant chaque point
supplémentaire (différenciant une structure d’une autre) comme étant un composant du
modèle disjoint. Ainsi, pour modéliser l’épidémie de la peste (resp. épidémie de la grippe), les
auteurs ont défini tous les compartiments possibles - S : susceptible, L : latent, I : infected, Q :
quarantine et R : recovered (resp. S, L, I et R), puis l’approche entame une cross-corrélation
entre les différents compartiments et évalue la structure qui est la plus optimale en les classant
par ordre de pertinence. Ainsi, le contrôle est défini dans un champ plus large que celui
d’énumérer manuellement les différentes structures. Les auteurs ont pu conclure que les
structures telles qu’ordonnées : SIR et SLIR (resp. SLIR et SIR) sont les plus optimales pour
l’épidémie de la peste (resp. épidémie de la grippe).
Oaken3 (2014) déclare que la définition des modèles requit une expertise à la fois du
développeur et de l’expert du domaine. L’auteur argument que même si un modèle est
3 D. Oaken est aussi connu sous le nom de D. Marco
Chapitre 2 Optimisation des modèles épidémiologiques
37
correctement conçu, ajuster les valeurs des paramétrer des entrées pour une meilleure
correspondance entre les sorties et les données observées est souvent une tâche fastidieuse.
This is the well-known parameter fitting problem. Oaken et al. (2012) proposent d’utiliser les
algorithmes évolutionnaires, ces derniers permettent de trouver des solutions aux problèmes
d'optimisation avec de grands espaces de recherche et sont bien adaptés à l'étude des
problèmes d'ajustement de paramètres. Les auteurs présentent une approche combinant la
computation évolutionnaire à la modélisation par les algèbres des processus, baptisée « EPA :
Evolving Process Algebra. En autre, la structure de leur modèle à base de Bio-PEPA a été
optimisée et les paramètres ajustés. Pour Oaken, optimiser la structure n’est pas de proposer
différents compartiments tel qu’il a été le cas pour Toni et Tanevski, mais plutôt d’optimiser
et raffiner les interactions entre compartiments. Ainsi, son approche définit les actions telles
que des composants disjoints et test le degré de pertinence d’affectation de chaque action à
chaque compartiment (espèce). Leur modèle appliqué à l’épidémie de la rougeole développé
par Benkirane et al. (2012), leur a permis de confirmer la validité de la structure définie par un
modèle SEIR.
2.5 Discussion et conclusion
Bien que ces techniques d’optimisation paramétrique et structurelle ont permis de raffiner
l’espace des valeurs des paramètres et les différentes structures existantes, toutefois, elles ne
se basent que sur un existant hypothétique. Autrement dit, d’une part les valeurs soumises à
l’optimisation ne sont extraites que d’un intervalle initialement défini et souvent présumé par
l’expert ou bien elles sont résumées de l’ensemble des travaux existants. En d’autre part, les
structures sélectionnées par les modélisateurs sont soient proposées par les experts ou bien
extraites des expériences épidémiologiques ultérieures. En conclusion, ces approches et
techniques d’optimisation ne permettent pas d’ajouter un élément nouveau ou de rappeler aux
développeurs et épidémiologistes le cas d’une omission ou ignorance. Afin de pallier ce point
important qui jusque-là est ignoré par le monde de la modélisation, nous proposons dans le
chapitre suivant d’exploiter d’autres horizons, en outre la fouille de données, ce qui permet
d’élargir le champ des connaissances utiles à une modélisation épidémiologique optimale.
Optimiser les modèles épidémiologiques en exploitant des connaissances acquises d’un
processus tel que la fouille de données permet non seulement de réaliser ce qui est impossible
par une simple analyse humaine et donc elle simplifie et contribue l’extraction de nouvelles
connaissances parmi des bases de données massives et complexes, mais aussi elle permet de
décroitre et corriger les erreurs humaines potentielles. De par cette approche proposée, les
modèles computationnel existants et qui pour des raisons d’incertitude ont été critiqués,
réfutés et ignorés, pourront resurgir et remis à ce nouveau processus d’optimisation.
Chapitre 3
La fouille de données pour l’épidémiologie humaine
Sommaire
3.6 Introduction
3.7 Processus d’extraction des connaissances
3.7.1 Prétraitement des données
3.7.1.1 Nettoyage
3.7.1.2 Transformation
3.7.1.3 Sélection des attributs
3.7.2 Fouille de données
3.7.2.1 Prédiction
3.7.2.1.1 Classification
3.7.2.1.2 Régression
3.7.2.2 Description
3.7.2.2.1 Segmentation
3.7.2.2.2 Règles d’association
3.2.3 Evaluation et interprétation
3.2.3.1 Matrice de confusion
3.2.3.2 Confiance
3.2.3.3 ROC (Receiver operator characteristic test)
3.3 Synthèse de l’application de la fouille de données en épidémiologie
3.3.1 La classification
3.3.2 La régression
3.3.3 La segmentation
3.3.4 Les règles d’association
3.4 Fouille de données pour la modélisation épidémiologique
3.4.1 Travaux connexes
3.4.2 Optimisation des modèles computationnels par la fouille de données
3.5 Conclusion
Chapitre 3 La fouille de données pour l’épidémiologie humaine
39
3.1 Introduction
Bien que les techniques d’optimisation paramétrique et structurelle discutées au chapitre 2 ont
permis de raffiner l’espace des valeurs des paramètres et les différentes structures existantes,
toutefois, elles ne se basent que sur un existant hypothétique. En effet, ces approches et
techniques d’optimisation ne permettent pas d’ajouter un élément nouveau ou de rappeler aux
développeurs et épidémiologistes le cas d’une omission ou ignorance. Afin de pallier ce point
important, nous proposons dans ce chapitre d’assister l’étape de l’interaction entre l’expert et
le développeur par le processus de fouille de données. Ce dernier permet non seulement de
réaliser ce qui est impossible par une simple analyse humaine et donc il simplifie l’extraction
de nouvelles connaissances parmi des bases de données massives et complexes, mais aussi il
permet de décroitre et corriger les erreurs humaines potentielles. Ainsi, ce chapitre se focalise
sur les notions de base de la fouille de données et son application au domaine
épidémiologique.
3.2 Processus d’extraction des connaissances
L’extraction des connaissances est un processus qui se déroule selon tois étapes (1)
prétraitement des données, (2) fouille de données et (4) évaluation et interprétation (Fayyad,
1996a ; Gibert et al., 2008).
Note : les méthodes et techniques citées dans cette section sont exploitées autant que boite
noire. Pour une description détaillée de ces techniques, nous invitons le lecteur à consulter les
références correspondantes.
3.2.1 Prétraitement des données
Prétraitement de données consomme généralement la majeure partie de l'effort investi dans le
processus d'extraction des connaissances. Cabena et al. (1998) ont estimé que le prétraitement
des données compte environ 60% de l’effort investi dans les applications de fouille de donnée.
En effet, bien des travaux (Brahami, 2014 ; Garcia et al. 2015 ; Inbarani et al., 2014) ont
montré que les données collectées requirent souvent un filtrage. Quand la qualité des données,
d’un point de vu : forme, importance et utilisation est moindre, l’utilisateur doit
impérativement y remédier. Ainsi, pour un processus d’extraction de données optimal, les
principales caractéristiques devant être prises en considération sont (Gorunescu, 2011): la
précision, la fiabilité, la validité, l'exhaustivité et la pertinence. Ceux-ci peuvent être réalisés
par les opérations de nettoyage, de transformation et de sélection des attributs.
3.2.1.1 Nettoyage
Cette opération sur les données implique la gestion des principaux problèmes suivants (Rao et
Makkithaya, 2016 ; Chandola et al., 2009) :
Le bruit et les valeurs aberrantes. Le bruit se réfère à la distorsion des valeurs d'origine,
en raison de différentes interférences qui se produisent principalement dans le processus de
collecte de données. Fondamentalement, une valeur aberrante est un objet qui est, d'une
certaine manière, éloignée du reste des données. En d'autres termes, il représente un objet
Chapitre 3 La fouille de données pour l’épidémiologie humaine
40
«étranger» dans le jeu de données, avec des caractéristiques très différentes de la plupart des
autres objets dans l'ensemble de données. Les valeurs aberrantes peuvent avoir une influence
considérable sur les résultats, tel qu’il a été argumenté par Van Hulse et al. (2007), une
mauvaise qualité des données peut dissimuler les patterns qui peuvent exister. Selon
Khoshgoftaar et Rebours (2007), Zhu et Wu (2004), la présence d’erreurs dans les données
pour un problème de classification diminue la précision de prédiction. Souvent générés par
des erreurs de mesure, les valeurs aberrantes sont éliminées de l'ensemble de données. Selon
Garcia et al. (2015), le bruit et les valeurs aberrantes sont principalement nuisibles pour
l’apprentissage supervisé, où la relation entre les attributs et la classe est altérée. Plusieurs
approches ont été étudiées dans la littérature pour traiter les données bruitées, parmi les plus
utilisées (Khoshgoftaar et Rebours, 2007; Fukunaga, K, 2013 ; Verbaeten et Van Assche,
2003 ; Zhu et Wu, 2006 ; Bonissone et al. 2010) : Robust learners, Data polishing methods et
Noise filters.
Valeurs manquantes. Dans les cas où il n'y a pas de valeur disponible pour certains
attributs des objets dans la base de données, nous parlons de valeurs manquantes.
Fréquemment, les valeurs sont manquantes essentiellement quand une opération maladroite a
été effectuée, telle que l’enregistrement ou la suppression de données par erreur, ou encore le
retrait des données de l'étude parce que l'attribut a répondu de façon inappropriée à l'étude
(Gibert, 2008). Cependant, dans le secteur médical et épidémiologique, la situation la plus
fréquente est liée au fait que les données ne peuvent être collectées.
Afin de pallier ce problème qui est un phénomène courant dans de nombreuses situations de la
vie réelle, des méthodes spécifiques ont été développés. Unnebrink et Windeler (2001) ont
étudiés l’impact des valeurs manquantes lors de l’analyse de la maladie de l'ostéoporose. Afin
d’optimiser leur analyse, les auteurs ont appliqués différentes techniques de traitement des
valeurs manquantes telles que : Last observation carried forward, mean and regression based
methods, rank based methods et dichotomization based methods, pour de plus amples
descriptions de ces techniques voir (Garcia et al, 2015). Toutefois, Gorinescu (2011) a
généralisé ces techniques en deux principales procédures:
• Les attributs dont les cellules vides (blanc) dans la base de données se référant comme
«valeur manquante» sont ignorés;
• substitution des valeurs manquantes par la valeur moyenne/médiane correspondante à
l’attribut concerné. Si les valeurs sont nominales, la valeur manquante est remplacée par
la valeur la plus courante. Si les valeurs sont numériques, la valeur manquante est
substituée par leur moyenne.
Duplication des données. Les bases de données peuvent inclure des objets de données qui
sont des doublons, à savoir, des objets identiques se produisent de façon répétée dans
l'ensemble de données, tels qu’un patient qui se répète dans la base. La simple solution à ce
problème est l'élimination des doublons (Rao et Makkithaya, 2016).
Chapitre 3 La fouille de données pour l’épidémiologie humaine
41
La procédure de nettoyage de données est extrêmement laborieuse et coûteuse en temps,
mais qui est absolument nécessaire pour une exploration de données réussie (Garcia et al.,
2015 ; Witten et al., 2011).
3.2.1.2 Transformation
Une extraction des connaissances réussie implique beaucoup plus qu’une opération de
nettoyage. FitzHenry et al (2015) et Witten et al (2011) démontre l’importance d’un
formatage et d’une structuration appropriés des données lors du processus de fouille de
données (data mining). Les auteurs citent différentes techniques dont les principalement
utilisées sont:
Discrétisation. Bien des algorithmes de la fouille de données ne peuvent faire face aux
valeurs continues d’un attribut (Inbarani et al. 2014), tels que les règles d’association, ces
dernières imposent l’utilisation d’attributs nominaux au lieu des numériques, d’où la nécessité
de les discrétiser. Toutefois, Witten et al. (2011) argumentent que même si les algorithmes
d’apprentissage peuvent gérer les attributs numériques, tel que les arbres de décision, les
résultats associés à ces derniers sont moins performants que ceux des attributs nominaux.
D’une manière générale, la discrétisation consiste à transformer les données quantitatives en
données qualitatives (attributs numériques en attributs nominaux) en triant les instances de la
valeur de l'attribut et en affectant la valeur dans des plages aux points que la valeur de la
classe change, au respect du nombre minimal d'instances dans la classe majoritaire doit se
trouver dans chacune des plages (Brahami et al., 2013). Ceci signifie que toute plage de
données peut comprendre un mélange de valeurs de classe. Il est à noter que cette définition
est uniquement associée au cas où la classe est prédéfinie (apprentissage supervisé). Dans le
cas contraire, le principe de la discrétisation est de diviser les données en un nombre
prédéterminé d'intervalles égaux: un critère fixe de données indépendantes. Cela se fait
fréquemment au moment où les données sont recueillies. Mais, cette méthode de
discrétisation fait courir le risque de définir des plages trop larges ou un choix de bornes
inadéquates.
Transformation d’un attribut numérique à nominal et inversement. La discrétisation est
souvent pratique quand un grand champ de valeurs d’un attribut est disponible. Toutefois, ceci
devient inadéquat pour un champ de valeur très petit. La solution est de transformer
directement ces valeurs numériques en valeurs nominales sans pour autant les discrétiser
(Gibert, 2008).
Transformation d’une classe multiple en une classe binaire. Quelques algorithmes de la
fouille de données tel que l’algorithme « machine à vecteurs de support » (SVM) ne peuvent
gérer les classes multiple, d’où la nécessité de transformer ces dernières en classes binaires.
Le principe de cette technique est de générer pour chaque valeur de la classe multiple une
classe binaire. Pour chaque classe binaire un ensemble de données est généré contenant une
copie de chaque instance des données d'origine, mais avec une valeur de classe modifiée. Si
l'instance a la classe associée à l'ensemble de données correspondant, elle est étiquetée oui;
sinon, non (Sullivan, 2012).
Chapitre 3 La fouille de données pour l’épidémiologie humaine
42
3.2.1.3 Sélection des attributs
Dans de nombreuses situations pratiques lors de la collecte des données, il y a beaucoup trop
d'attributs à manipuler, et certains d'entre eux sont manifestement non pertinents ou
redondants. Selon Garcia et al (2015), avoir un nombre important d’attributs accroit
exponentiellement l’espace de recherche et décroit les chances d’obtenir un modèle valide.
Par conséquent, un sous-ensemble d’attributs doit être sélectionné avant la phase de la fouille
de données. Bien sûr, de nombreux algorithmes de la fouille de données, tels que les arbres de
décision eux-mêmes sont conçus pour sélectionner les attributs les plus pertinents de manière
appropriée et ignorer ceux qui ne le sont pas ou sont redondants, mais en pratique, leur
performance peut souvent être améliorée par la présélection. La phase de sélection permet la
réduction de la dimensionnalité des données en supprimant les attributs les moins performants
(Mokaddem et al., 2013). Plus important encore, la réduction de la dimensionnalité donne une
représentation plus compacte, plus facilement interprétable du concept cible, en ne focalisant
l'attention de l'utilisateur que sur les variables les plus pertinentes. Il existe deux approches
fondamentalement différentes pour la phase de sélection (Inbarani et al. 2014 ; Dash et Liu,
1997 ; Rokach et Maimon, 2005 ; Karegowda et al., 2010). La première consiste à procéder à
une évaluation indépendante basée sur les caractéristiques générales des données; la deuxième
consiste à évaluer le sous-ensemble en utilisant l'algorithme d'apprentissage qui sera
finalement utilisé pour l'apprentissage. La première est appelée la méthode « filter », en se
basant sur des mesures d’évaluation des attributs à filtrer telles que l’information, la distance,
la dépendance ou encore la consistance, l'ensemble des attributs est filtré pour produire le
sous-ensemble le plus prometteur avant que l'apprentissage ne commence. Parmi les
algorithmes « filter » les plus utilisés, Correlation-based feature selection (Hall et al., 2009 ;
Karegowda et al. 2010), Filtered subset evaluator (Macas et al., 2012) et Consistency-based
filter (Dash and Liu, 2003). La deuxième méthode est appelée la méthode « wrapper » où
l'algorithme d'apprentissage est enveloppé dans la procédure de sélection. Ainsi l’algorithme
utilise une méthode d’apprentissage comme première étape ; à ce niveau l’évaluation des
attributs se base sur le critère de performance de l’apprentissage (accuracy). Les attributs
sélectionnés seront ainsi soumis aux techniques de la fouille de données. Parmi les méthodes
« wrapper » les plus répondues, Best first search (Dechter et Pearl, 1985), Sequential forward
search (Schaffernicht et al., 2007) et Wrapper subset evaluator (Witten and Frank, 2005 ;
Macas et al, 2012).
Au-delà de cette catégorisation des techniques de sélection des attributs, nous pouvons
distinguer deux autres catégories de techniques selon les résultats obtenus : 1) la première
catégorie consiste à ordonnancer les attributs selon un critère d’évaluation (précision,
dépendance, etc). Ainsi, tous les attributs sont sélectionnés mais un rang d’ordonnancement
leur est affecté. Selon cet ordre les attributs sont filtrés. 2) la deuxième catégorie consiste à
choisir l’ensemble minimum d’attributs satisfaisant le critère d’évaluation. Ainsi, uniquement
les attributs filtrés sont affichés. D’une manière plus concise, les techniques de sélection des
attributs peuvent être classifiées selon trois importants composants :
Chapitre 3 La fouille de données pour l’épidémiologie humaine
43
- Le sens de la recherché: en amont, en avale ou bidirectionnel;
- La stratégie de recherché: recherche complète, heuristique ou non-déterministe ;
- La mesure d’évaluation : information, distance, dépendance, consistance ou précision.
Nous rappelons ici qu’à ce niveau, le but de notre thèse n’est pas d’apporter une amélioration
à toutes ces méthodes de prétraitement et sélection mais simplement de les exploiter comme
boite noire pour une fouille de données plus optimale.
3.2.2 Fouille de données
La phase de prétraitement définie ci-dessus permet de préparer les données pour la phase de la
fouille de données. La fouille de données est une étape du processus d’extraction des
connaissances à partir d’un large volume de données (Fayyad et al., 1996b). Son objectif
majeur est d’identifier de nouveaux modèles de connaissances, valides, compréhensibles et
potentiellement utiles. Souvent le terme de fouille de données (data mining) est confondu par
un sens étroit avec le processus d’extraction des connaissances (knowledge dicovery in
database : KDD). Selon Fayyad et al. (1996b) et Friedman (1998), le KDD est le processus
d’identification de nouvelles données où la fouille de données est une étape incluse dans le
KDD spécifié par un ensemble d’algorithmes permettant l’extraction des connaissances
nouvelles à partir de données massives. L’une des forces de la fouille de données est qu’il
n’est pas nécessaire de savoir exactement ce que l’on cherche. En utilisant des outils et des
algorithmes d’analyse, nous pouvons explorer une montagne de données et extraire des
informations utiles et pertinentes qui étaient jusque là cachées, ignorées ou inconnues. Tel que
défini par Hand (1998): « Data Mining consists in the discovery of interesting, unexpected, or
valuable structures in large data sets ». Saporta (2004) le défini comme étant un outil
spécifique pour extraire des pépites à partir d’un gisement de données. Ainsi, la fouille de
données étant une phase clé du KDD, elle se base sur l’une des techniques suivantes :
classification, régression, règles d’association ou segmentation. Le choix de ces techniques
dépond fortement de la tâche à accomplir et du but de son exploitation. Witten et al (2011) ont
réparti les tâches de la fouille de données en deux catégories, prédictive et descriptive, où les
auteurs décrivent la classification et la régression comme des tâches prédictives, et les règles
d’association et la segmentation comme des tâches descriptive. Pour Garcia et al. (2015) les
tâches prédictives se référent généralement à l’apprentissage supervisé à l’inverse des tâches
descriptives qui se référent à l’apprentissage non-supervisé. Nous reviendrons avec plus de
détails dans les sections suivantes (cf. § 3.3).
Ainsi, selon l’objectif à atteindre et les données à manipuler, la fouille de données peut être
classifié selon deux catégories : prédiction et description (Hamami et al, 2017 ; Wang et al.,
2012, Sullivan, 2012).
3.2.2.1 Prédiction
Dans la communauté de la fouille de données les méthodes de prédiction sont souvent
référencées par les méthodes supervisées. En effet, l’apprentissage supervisé permet de
découvrir la relation entre la classe à prédire et les attributs, ainsi, le processus
d’apprentissage définit un modèle décrivant et expliquant les expériences et patterns cachés
dans les données collectées. Leur but est de découvrir la relation entre un ensemble d’attributs
Chapitre 3 La fouille de données pour l’épidémiologie humaine
44
d’entrées (descripteurs) et un attribut cible (classe). Cette relation formulée sous une certaine
structure permettra de prédire la classe tout en se basant sur les valeurs prédéfinies des
descripteurs. Les deux techniques fondamentales et classiques qui appartiennent à la catégorie
des modèles de prédiction sont : la classification et la régression (Garcia et al., 2015; Witten
et al., 2011).
3.2.2.1.1 Classification
Garcia et al. (2015) définissent la classification comme étant un problème d’apprentissage
supervisé, généralement référencée à un domaine d’attributs fini et nominal. Autrement dit, il
existe un nombre fini de classes ou de catégories pour prédire un échantillon et ils sont connus
par l'algorithme d'apprentissage. Un classificateur doit assigner une classe à un nouvel
exemple lorsque les descripteurs de ce dernier correspondent au modèle utilisé.
La fonction de la classification est de discriminer les exemples des autres, en obtenant comme
application principale une prédiction fiable: une fois que nous avons un modèle qui
correspond aux données passées, si le futur est semblable au passé, alors nous pouvons faire
des prédictions correctes pour de nouvelles instances. L’une des techniques les plus utilisées
en classification sont : les arbres de décision, les machine à vecteur de support, les réseaux
neuronaux ou encore les méthodes bayésiennes (Tomar et Agarwal, 2013; Mokaddem et al.,
2013).
3.2.2.1.2 Régression
Quand les classes à prédire se basent sur des valeurs infinies, tel que prédire un nombre réel
compris dans un certain intervalle, nous nous référons à des problèmes de régression. De toute
évidence, due au domaine dans lequel sont définis les attributs, le problème de régression
présente plus de difficultés que le problème de classification où les ressources de calcul
requises et la complexité du modèle sont plus élevés. Les méthodes de régression les plus
utilisées sont : la régression linéaire et la régression logistique (Tomar et Agarwal, 2013;
Witten et al., 2011).
3.2.2.2 Description
Caractérisé par les propriétés générales des données, le but de la description, souvent
référencée par les méthodes non supervisées, est de comprendre le système analysé en
découvrant les relations existantes entre les propriétés des données sans pour autant avoir
connaissance d’un attribut cible (Han & Kamber, 2006). Ainsi, l’objectif est de trouver des
régularités, des irrégularités, des relations, des similarités et des associations entre les
différents attributs sans spécifier une cible particulière, ce qui élargit le champ de recherche.
En effet, le modèle de l’apprentissage conçu n’est pas contraint des relations entre la classe à
prédire et les attributs. La segmentation (clustering) et les règles d’association sont deux
principales tâches se référant à l’apprentissage non-supervisé (tâches descriptives).
Chapitre 3 La fouille de données pour l’épidémiologie humaine
45
3.2.2.2.1 Segmentation
La segmentation est le processus de partage des instances en groupes (clusters) qui sont
similaires ou ont des propriétés communes. Le partitionnement se base sur des mesures de
similarité entre les différentes instances de la base. Ainsi, les instances appartenant aux
mêmes segments sont définies par des caractéristiques semblables, alors que celles
appartenant aux autres groupes sont différentes ou du moins avec un degré de similarité
moindre. A l’inverse de l’approche supervisée, la segmentation ne requit pas une grande
connaissance du domaine à analyser, du fait qu’aucune classe cible n’est prédéfinie. La
segmentation peut être entreprise par différentes techniques : K-means, segmentation
hiérarchique, DBSCAN et OPTICS (Joshi et Kaur, 2013 ; Tomar et Agarwal, 2013 ; Witten et
al., 2011). Telle que présenté par Joshi et Kaur (2013), les techniques de segmentation se
classifient en 4 groupes:
- Exclusif : chaque instance appartient à un et un seul groupe.
- Chevauché : une instance peut appartenir à plusieurs groupes.
- Probabiliste : une instance appartient à chaque groupe selon une certaine probabilité.
- Hiérarchique : une instance est affectée à un groupe selon une structure hiérarchique,
où la racine regroupe toutes les instances. Les groupes sont raffinés dans les niveaux
inférieurs.
3.2.2.2.2 Règles d’association
Les règles d’association comme leur nom l’indique sont l’expression des associations
existantes entre les attributs décrivant les instances. Les règles d’association sont considérées
comme l’une des approches clés du processus de fouille de données, elles sont utilisées pour
découvrir les modèles les plus fréquents et les corrélations les plus pertinentes entre les
données. En effet, identifier l’association entre différentes maladies ou la relation entre un
symptôme et une maladie est un point très important pour le suivi épidémiologique. Parmi les
techniques les plus exploitées : l’algorithme Apriori, Predictive Apriori et Tertius (Hamami et
Atmani, 2016 ; Tomar et Agarwal, 2013; Mutter et al, 2004).
Bien que les règles d’association soient classifiées autant que technique descriptives, Witten
(Witten et al., 2011) les décrit comme étant une alternative des règles de classification, dans le
sens de prédiction. Toutefois, leur capacité à prédire n’importe quel attribut en fonction des
autres attributs les différencie des règles de classification qui elles comme il est constaté avec
les arbres de décision, prédisent uniquement la classe. En effet, les règles déduites d’un arbre
de décision dérivent toutes d’un et un seul nœud de départ, ce qui les caractérise comme un
ensemble. Contrairement aux règles d’association, où chaque règle prédit différemment, ce
qui la dissocie d’une autre règle. Ceci engendre une multitude de règles qui peuvent être
généralement distinguées par leur association au nombre le plus important d’instances. Une
règle de la forme X Y, où X est la condition et Y la conclusion, est évaluée selon deux
métriques: support et confiance (Nahar et al., 2013).
Le support d’une règle X Y, noté Supp, est défini par la proportion des transactions
(instances) contenant X et Y à la fois, par rapport au nombre de transactions total.
Chapitre 3 La fouille de données pour l’épidémiologie humaine
46
La confiance d’une règle X Y, noté Conf est la proportion du nombre de
transactions contenant X et Y par rapport aux transactions contenant uniquement X.
3.2.3 Evaluation et interprétation
La variété et multitude d’algorithmes offerts pour la fouille de données impliques une
nécessité d’effectuer une étude comparative afin de sélectionner le meilleur modèle de
prédiction ou description. Ainsi, avant de ne pouvoir exploiter les connaissances acquises de
la fouille de données, il est primordial de les valider. Ceci implique une évaluation et une
interprétation appropriée. Dans ce contexte, un ensemble de mesures, telles que la matrice de
confusion, la précision (accuracy) et la courbe ROC (Sudheep et Sumam, 2012), sont utilisées
et adoptées pour chaque type de tâche (classification, régression, règles d’association ou
segmentation). En effet, par exemple, pour un problème de classification, il est naturel de
mesurer la performance d'un classificateur en termes de taux d'erreur sur les données (test
data) qui n’ont pas participées dans la construction du classificateur. Toutefois, pour une
estimation optimale du taux d’erreur, deux principes s’ajoutent au processus de fouille de
données : les données pour l’apprentissage (training set) et les données pour le test (test set).
Ce qui implique à partager la base de données en deux groupes. Cependant, il est difficile et
peu judicieux de partager les données quand ces dernières sont peu nombreuses. La première
solution est d’utiliser l’ensemble des données à la fois pour l’apprentissage et le test. Ceci
n’est pas très valorisant, car l’évaluation va s’effectuer sur des données qui ont été utilisées
pour la construction du modèle. Pour évaluer la performance d'un modèle, nous avons besoin
d'évaluer son taux d'erreur sur un ensemble de données qui n'a joué aucun rôle dans sa
construction. Cet ensemble de données indépendant est appelé l'ensemble de test, où il est
supposé que les données d'apprentissage et les données test sont des échantillons
représentatifs du problème sous-jacent. Les questions qui se posent dans ce cas sont : quel
pourcentage utiliser pour partager les données ? Est-ce que les données contenues dans un des
deux groupes sont représentatives ? Afin d’éviter ce type d’obstacles, une autre solution est
proposée et que nous allons adopter pour nos expérimentations (cf. Chapitre 5 et 6), il s’agit
de la validation croisée « cross-validation » (Omran et al., 2015; Gorunescu, 2011 ; Garcia et
al., 2015).
Le principe de la validation croisée est de répartir l’ensemble de données en k partitions, où
(k-1) partitions sont exploitées pour la phase d’apprentissage et une partition pour la phase du
test. Ce procédé est répété k fois sur les k partitions, où à chaque tour la partition spécifiée
pour la phase test est modifiée, ce qui génère k taux d’erreur. Les k estimations d’erreur sont
moyennées pour obtenir une estimation globale. Selon Witten (Witten et al., 2011), en général
le paramètre K est égale à 10, mais ceci bien sure dépond du choix de l’utilisateur et de ses
données. Pour plus de performance, cette opération de validation croisée est répétée N fois.
Ce qui implique un total d’exécution de (K*N). Le taux d’erreur est la moyenne de (K*N)
taux d’erreur.
Les mesures les plus communément utilisées pour évaluer les modèles générés de l’étape de
fouille de données sont : la matrice de confusion, la précision (accuracy) et la courbe ROC
(Sudheep et Sumam, 2012).
Chapitre 3 La fouille de données pour l’épidémiologie humaine
47
3.2.3.1 Matrice de confusion
Typiquement utilisée pour les méthodes prédictives, la matrice est définie par des lignes et des
colonnes où les lignes correspondent au nombre d’instances actuelles dans une classe et les
colonnes au nombre d’instances prédites dans cette même classe (Delen et al. 2005 ;
Mokaddem et al., 2013).
Le tableau 3.1 illustre la structure générale d’une matrice de confusion. Dans un contexte de
fouille de données les éléments de la matrice sont décrits comme suit (Witten et al., 2011) :
• a est le nombre des prédictions correctes qu’une instance est négative.
• b est le nombre des prédictions incorrectes qu’une instance est positive.
• c est le nombre des prédictions incorrectes qu’une instance est négative.
• d est le nombre des prédictions correctes qu’une instance est positive.
A partir de cette matrice, différentes mesures peuvent être calculées (Kim et al., 2016):
- Accuracy (AC) : est la proportion du nombre total des prédictions correctes.
Eq. 3.1
- True positive rate (TP) ou recall : est la proportion des cas positifs qui ont été
correctement identifiés.
Eq. 3.2
- False postive rate (FP) ou sensitivity : est la proportion des cas qui ont été
incorrectement classifiés autant que positifs.
Eq. 3.3
- True negative rate (TN) ou specificity: est la proportion des cas négatifs qui ont été
classifiés correctement.
Eq. 3.4
- False negative (FN): est la proportion des cas positifs qui ont été incorrectement
classifiés autant que négatifs.
Eq. 3.5
Tableau 3.1 Matrice de confusion
Matrice de confusion Instances prédites
Négative Positive
Instances actuelles Négative a B
Positive C D
Chapitre 3 La fouille de données pour l’épidémiologie humaine
48
3.2.3.2 Confiance
C’est une mesure probabiliste, associée aux règles d’association. La confiance mesure la force
de la règle. Elle détermine la fréquence de l’élément B dans les transactions contenant
l’élément A (Sharma et al., 2012).
Confiance = Conf = P(A|B) = P(A∩B)/P(A) Eq. 3.6
3.2.3.3 ROC (Receiver operator characteristic test)
ROC est une représentation graphique du taux des positifs vrais versus le taux des faux
positifs. Une courbe ROC permet de (Yoshimura et al., 2016):
1. Expliciter les compromis entre sensibilité et spécificité (toute augmentation de la
sensibilité sera accompagnée d'une diminution de la spécificité).
2. Plus la courbe est proche de la bordure gauche et de la limite supérieure de l'espace
ROC, plus le test est précis.
3. Plus la courbe se rapproche de la diagonale de 45 degrés de l'espace ROC, moins le
test est précis.
3.3 Synthèse de l’application de la fouille de données en épidémiologie
Dans le domaine épidémiologique, il y a un besoin urgent d’exploiter des méthodes
analytiques efficaces afin de détecter des informations pertinentes et inconnues. En effet, la
taille massive et importante des données collectées par les services médicaux et
épidémiologiques rend l’analyse et la prise de décision une tâche quasi-impossible. Ces
données consistent généralement en des détails personnels sur les malades, les structures
médicales ou sur la maladie et sa dynamique, etc. En épidémiologie, la fouille de données a
montré son utilité dans bien d’exemples, tels que : la détection des causes des maladies et
l’identification des méthodes de traitements les plus perspicaces, amélioration des
performances de gestion des malades, identification des facteurs communs entre les malades
ou même la définition d’un diagnostic médical, etc. La fouille de données a permis aussi, aux
chercheurs et aux experts de prendre des décisions, proposer des médicaments et développer
des profiles individuels des malades concernés. Le succès de cette technologie en
épidémiologie, a permis en général de détecter les causes socio-économiques, culturelles ou
même environnementales. Toutefois, nous tenons à préciser de par la recherche
bibliographique que nous avons entrepris, que le choix et la sélection des algorithmes à
appliquer dans le domaine épidémiologique ne sont pas identiques pour toutes les maladies.
En effet, la méthode à appliquer dépond fortement du jeu de données collecté et non pas de la
maladie en elle-même, par exemple, pour la maladie de la tuberculose Venkatesan et Yamuna
(2013) ont utilisé la régression, Osman et al. (2012) ont utilisé la segmentation par contre
Asha et al (2012) ont appliqué les règles d’association. Ainsi, nous pouvons nous retrouver
dans le cas où une même maladie est analysée avec des techniques différentes due à la
variabilité des données qui la décrivent. Ce tours d’horizon vers les différents travaux incitant
à l’utilisation de la fouille de données a révélé l’importance et la précision dont peut
Chapitre 3 La fouille de données pour l’épidémiologie humaine
49
bénéficier les experts et les développeurs pour la compréhension des structure épidémiques
souvent complexes. Ce qui fait de l’utilisation des méthodes de la fouille de données en
épidémiologie une discipline en croissance continue, où la plupart des publications portent sur
la recherche de facteurs de risque et la découverte de règles inattendues et efficaces. Nous
présentons dans ce qui suit et pour chaque type de méthode, les travaux en relation au
domaine épidémiologique.
3.3.1 La classification
Azar et al. (2013) ont utilisé les arbres de décision afin d’extraire les attributs les plus
pertinents à la description du cancer lymphatique, ceci dans le but d’améliorer le diagnostic.
Parmi 18 attributs, six seulement ont été jugés utiles à la description des différents états de la
maladie. Delen et al. (2005) ont utilisé l’algorithme à base d’arbre de décision C5, et les
réseaux neuronaux afin d’identifier les caractéristiques les plus important à la détection des
individus qui ont survécu au cancer du sein où les arbres de décision ont montré une meilleure
performance. Krizmaric et al. (2009) ont utilisé les algorithmes de classification: les arbres de
decision, k-nearest neighbors, Naïve Bayes, réseaux de neurones, Machine à vecteur de
support et Random forests. Le but des auteurs est de prédire la survie des patients sujets de
crise cardiaque. Les résultats ont montré que les paramètres tels que le temps d’arrivée à
l’hôpital, le fait d’avoir eu les premiers secours (massage cardiaque) et le taux de CO2 sont
révélateurs à la survie ou non du patient, contrairement aux paramètres âge et sexe qui n’ont
eu aucune influence. Les auteurs ont pu aussi conclure que les arbres de décision sont de loin
les classificateurs les plus performants. Smitha et Sandaram (2012) ont analysé un groupe
d’habitants dans une zone de bidonvilles et les infections auxquelles ils sont sujets. En
appliquant les arbres de décision, les auteurs ont montré que les paramètres climatiques sont
la première principale cause du déclanchement des infections pour ce type d’habitants,
viennent en suite, les paramètres secondaires tels que l’immunité, les activités journalières ou
encore la densité de la population. Rulaningtyas et al. (2011) ont analysé les frottis
d’expectoration d’un ensemble de patients suspectés tuberculeux par les réseaux de neurones.
En définissant un réseau à 20 couches, les auteurs ont pu identifier les patients atteints de la
tuberculose.
La recherche bibliographique ci-dessus a révélé que les arbres de décision sont de loin les plus
performants dans le domaine épidémiologique (Brahami, et al. 2013). Le fait est que, les
arbres de décision sont décrits par une structure d’arbre où chaque nœud feuille représente les
classes (distribution des classes), et chaque sommet (nœud interne) intermédiaire est associé à
un test sur un attribut d’une des classes (Atmani et Beldjilali, 2007). Chaque arc correspond à
une réponse possible d’un test (Quinlan, 1993). Cette structure permet une interprétation
simple et une transformation sous forme de règles qui est généralement favorable à la
compréhension. Ainsi, un arbre peut être traduit sous forme de : If Condition Then
Conclusion, où la Condition dénote la disjonction/conjonction des attributs, et Conclusion est
la classe dérivée de la condition (Atmani and Beldjilali, 2007), c’est-à-dire chaque chemin
partant de la racine de l’arbre et parcourant les tests (en faisant des conjonctions) jusqu’à la
feuille qui est l’étiquette de la classe.
Chapitre 3 La fouille de données pour l’épidémiologie humaine
50
Plus d’avantages de l’utilisation des arbres de décision sont reportés dans la littérature:
Lavanya and Rani (2013) argumente que les algorithmes des arbres de décision sont les plus
communément utilisés parce que les paramètres du domaine de connaissances ne sont pas
requises lors de la construction de l’arbre. Dans un état de l’art sur les techniques de
classification, Phyu (2009) montre que la classification par les arbres de décision est plus
performante quand il s’agit d’attributs discrets/nominaux. Gorunescu (2011) reporte que l’un
des plus grands avantages des arbres de décision sont leur flexibilité, compréhension et
efficacité pour la prédiction.
3.3.2 La régression
Piarroux et al. (2011) ont appliqué la régression où ils ont pu détecter différents niveaux de
l’épidémie du choléra dans différentes régions. Venkatesan et Yamuna (2013) ont appliqué la
régression sur un exemple de la tuberculose défini par un ensemble d’attributs continus.
Toutefois, les auteurs ont constaté une meilleure performance par l’application des arbres de
décision sur leurs données discrétisées. Les auteurs ont réussi à extraire un ensemble
d’attributs décisifs au diagnostique de la tuberculose, tels que : les tests bactériologiques, les
cultures ou les niveaux de traitement des patients. Afin d’identifier l’impact de la
sensibilisation contre la tuberculose au sein des écoles, Wei et al. (2011) ont appliqué la
régression linéaire. Les auteurs ont montré que le sexe, l'âge, le niveau d'éducation des
parents, et le revenu familial ont été associés de façon significative au degré de sensibilisation
contre la tuberculose.
3.3.3 La segmentation
Almeida et al. (2014) ont appliqué la segmentation (K-means et Expectation – Maximization)
sur des patients sujets à des maladies cardiovasculaires. Le résultat de la segmentation a
identifié cinq segments qui ont permis de conclure que quand le taux des attributs tels que :
cholestérol, triglycéride et pression artérielle sont élevés alors les pulsations cardiaques sont
au ralenti. Osman et al. (2012) et Rulaningtyas et al. (2015) ont appliqué l’algorithme de
segmentation K-means sur une image de crachat relative à la détection de la tuberculose. Les
résultats de la segmentation ont clairement identifiés les régions tuberculines ce qui a permis
de confirmer le diagnostique des cliniciens.
3.3.4 Les règles d’association
Asha et al. (2012) ont utilisé l’algorithme apriori afin de découvrir les associations entre les
différents attributs décrivant la maladie de la tuberculose. Les différentes règles extraites ont
montré qu’une toux chronique et une fièvre intermittente peuvent être des indicateurs
essentiels au diagnostique de la tuberculose. Lakshmi et Kumar (2014) ont voulu d’une part
identifier la relation entre certains symptômes et les maladies telles que le diabète et
l’hypertension. Et d’une autre part, la relation entre les deux maladies. Pour cela les auteurs
ont utilisé les règles d’association : l’algorithme Apriori et FG-Growth, où ils ont détecté que
les nausées, la perte d’appétit et l’obésité sont des facteurs révélateurs de diabète et que les
paramètres nausées et douleurs de poitrine associés sont plutôt révélateurs de risques
cardiaques. Nahar et al. (2013) ont analysé un ensemble d’individus afin d’estimer le risque
Chapitre 3 La fouille de données pour l’épidémiologie humaine
51
d’être sujet à des maladies cardiaques. En utilisant les algorithmes : Apriori, Predictive apriori
et Tertius, les auteurs ont identifié que les femmes ont moins de chance d’avoir une attaque
cardiaque que les hommes. Il a été également constaté que, les facteurs tels que les douleurs
thoraciques ou l’apparition d’une angine suite à un exercice indiquent une déficience au
niveau du cœur ou encore les résultats d’un ECG à eux seuls ne sont pas suffisants pour
diagnostiquer les femmes.
3.4 Fouille de données pour la modélisation épidémiologique
3.4.1 Travaux connexes
Bien que la fouille de données contribue largement dans la prise de décision et l’aide au
diagnostique, toutefois à ce jour aucun travail en relation avec le domaine de la modélisation
par les algèbres des processus est à référencer. D’un point de vue plus général et tel que nous
l’avons décrit dans les chapitres 1 et 3, les domaines de la modélisation et de la fouille de
données sont indépendamment bien connus et exploités. Toutefois, les recherches visant à
combiner ces deux disciplines sont rarissimes, où la majorité des travaux existants à ce jour
explorent le processus de segmentation pour l’analyse des séries temporelles de données.
Nous pouvons lier ce type de données aux résultats issus de la simulation des modèles
computationnels exprimés en série de données tels que ceux issus de la simulation par Bio-
PEPA.
Dans ce contexte de segmentation des séries de données, une large recherche bibliographique
a été réalisée par Liao (2005). L’auteur présente une variété d’approches afin de regrouper des
séries de données ou d’identifier des séquences pertinentes à l’intérieur des séries de données.
Pour l'analyse des données de séries temporelles d'images biomédicales, Wismüller et al.
(2002) ont montré que la segmentation de réseaux de neurones par recuit déterministe a pu
identifier les régions cancéreuses dans l’être humain, en comparant différents signaux et
détectant les dissemblances. Ainsi de par leur étude, les auteurs ont pu analyser: des données
d'IRM fonctionnelle pour la cartographie du cerveau humain, l'IRM de perfusion dynamique
renforcée par contraste pour le diagnostic de maladie cérébrovasculaire et la mammographie
par résonance magnétique pour l'analyse de lésions suspectes chez des patients avec le cancer
du sein. L’étude a montré que le recuit déterministe basé sur une segmentation hiérarchique
est une stratégie utile pour l'analyse non supervisée des données de séries temporelles de
l'image médicale. En particulier, les auteurs ont pu : identifier les régions activées du cerveau
dans les études IRM fonctionnelles ; analyser des données dynamiques de mammographie
IRM pour l'identification et la sous-classification régionale des lésions pathologiques du tissu
mammaire ; et dévoiler des anomalies régionales de la perfusion cérébrale caractérisées par
des différences d'amplitude et de dynamique du signal dans l'IRM par perfusion cérébrale à
contraste amélioré où les vaisseaux ont été segmentés selon leur taille ce qui a permis
d’identifier les régions de déficit de perfusion chez les patients atteints d'AVC.
Hirano et Tsumoto (2005) ont appliqué la segmentation hiérarchique sur les séries de données
de l’hépatite. En comparant les différentes séquences relatives à chaque patient, les auteurs
ont pu extraire trois groupes dont les séquences temporelles diffèrent, où les patients sont dans
un état aigue et chronique, non traités ou guéris.
Chapitre 3 La fouille de données pour l’épidémiologie humaine
52
Xiong et Yeung (2004) et Kalpakis et al. (2001) ont utilisé respectivement la segmentation par
l’algorithme EM et K-médoïdes sur une base de données médicale décrivant trois groupes de
séries de données d’électrocardiogrammes (ECG) afin de diagnostiquer les infarctus. Le
premier groupe contient 22 séries de données représentant l’enregistrement de l’ECG durant
deux secondes des personnes souffrantes d'arythmie ventriculaire maligne. Le second groupe
contient 13 séries de données représentant l’enregistrement de l’ECG durant deux secondes
des personnes en bonne santé. Enfin, le groupe 3 comprenait 35 séries chronologiques
représentant les enregistrements de l’ECG des personnes ayant une arythmie
supraventriculaire. Les résultats de segmentations ont permis de spécifier les caractéristiques
induisant à un infarctus et intensifier sa prévention, ainsi que de discriminer les différents
patients selon la gravité de leur état. Deux principales expérimentations ont été réalisées : la
première expérimentation regroupe le premier et le deuxième groupe de séries de données et
la deuxième expérimentation regroupe le deuxième et le troisième groupe de séries
temporelles de données. Les résultats de segmentation de la première expérimentation ont
montré que quelques séquences du premier groupe ont été affectées au deuxième groupe. Les
auteurs expliquent cette segmentation par le fait que les personnes concernées sont dans la
phase initiale de l’arythmie ventriculaire maligne et ainsi leur ECG est particulièrement
similaire à celui des personnes saines. Par contre, la deuxième expérimentation a parfaitement
réussie à dissocier les deux groupes où chacun a té assigné à son propre segment.
3.4.2 Optimisation des modèles computationnels par la fouille de données
Tel que nous l’avons décrit au cours des sections précédentes, l’utilisation de la fouille
comme outil d’extraction de données pertinentes a déjà largement prouvé ses capacités dans le
domaine médical ou autre. Quand un domaine particulier est référencé par une large base de
données, qu’il est impossible à l’être humain d’exploiter à l’œil nu, la fouille de données est la
solution imminente pour l’assister. Ce critère est l’idée pionnière qui a motivé le choix de
notre méthodologie à exploiter la fouille de données pour l’optimisation des modèles
computationnels. En effet, pour des fins d’optimisation, il n’existe à ce jour aucun travail
combinant fouille de données et modélisation computationnelle par Bio-PEPA.
De manière plus concise, le principe est à partir de données complexes, sur lesquelles aucune
hypothèse ou règle n’a été appliquée, d’extraire des connaissances pertinentes, permettant
ainsi à l’expert/développeur de mieux analyser, comprendre, et raffiner le modèle prédictif
visé.
Afin de mieux positionner notre contribution dans le processus d’optimisation, nous rappelons
qu’au cours du chapitre 2, nous avons arboré que l’étape de vérification est principalement
liée à la phase « interaction expert/développeur », ceci implique une nécessité à optimiser les
informations utiles à la modélisation (entrées, règles et hypothèses). Bien que l’optimisation
des modèles computationnels ait fait l’objet de nombreux travaux de recherche, tel que décrit
dans le chapitre 2- section 3 (Keizel et Yang, 2011 ; Dorigo et al., 1996 ; Blower et
Dowlatabadi, 1994), ces derniers se basent uniquement à optimiser en utilisant l’existant et ne
permettent donc pas d’assister l’expert/développeur dans la recherche de nouvelles
informations.
Chapitre 3 La fouille de données pour l’épidémiologie humaine
53
Dans ce contexte d’optimisation en se basant sur des connaissances nouvelles et pertinentes,
nous proposons dans les chapitres suivant d’exploiter les algorithmes prédictifs et descriptifs
de la fouille de données pour l’optimisation des modèles Bio-PEPA.
Ainsi, les différentes étapes constituant le processus d’optimisation telles que configurées
dans notre approche sont :
1. Prétraitement des données épidémiologiques ;
2. Sélection des attributs ;
3. Application des algorithmes de fouille de données;
4. Evaluation et interprétation des connaissances extraites ;
5. Optimisation du modèle Bio-PEPA initial ;
6. Simulation et analyse.
3.5 Conclusion
Dans un souci d’optimisation des modèles computationnels et leur suivi à temps réel tel que
spécifié au chapitre 2, nous avons au cours de ce chapitre exploré le domaine de la fouille de
données qui au milieu d’informations massives, dynamiques et complexes, il est possible
d’extraire des connaissances fertiles à l’enrichissement des modèles à base d’algèbre des
processus. De par les notions acquises de ce chapitre, nous proposons ainsi, d’étendre l’utilité
de ce dernier en l’exploitant dans le monde de la modélisation computationnelle pour aboutir
à des modèles prédictifs les plus optimaux. Dans les chapitres suivants nous présentons
l’approche que nous proposons pour le suivi épidémiologique ainsi que son application au
travers de différents exemples réels (tuberculose, Oreillons), valorisant ainsi, l’apport de notre
recherche qui est au centre des trois contributions : 1) la modélisation épidémiologique
computationnelle par Bio-PEPA ; 2) Vérification du modèle computationnel par langage
narratif; 3) Optimisation du modèle computationnel par la fouille de données.
Chapitre 4
Modélisation et simulation par les algèbres des processus : Bio-PEPA
Sommaire
4.1 Introduction
4.2 Modélisation par Bio-PEPA
4.2.1 Interaction expert\modélisateur
4.2.2 Conception du modèle formel
4.2.3 Simulation et analyse
4.3 Optimisation du modèle
4.4 Vérification par langage narratif
4.4.1 Langage narratif
4.4.2 System Biological Markup Language (SBML)
4.4.3 Du modèle Bio-PEPA au modèle narratif
4.5 Modélisation de la tuberculose
4.5.1 La tuberculose
4.5.2 Modèle de la tuberculose
4.5.3 Le modèle Bio-PEPA
4.5.4 Simulation par Bio-PEPA et résultats
4.6 Validation du modèle Bio-PEPA par langage narratif
4.7 Conclusion
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
55
4.1 Introduction
Dans le chapitre 1, nous avons passé en revue les différentes méthodes de modélisation
épidémiologique. Ce tour d’horizon nous a permis d’expliciter les avantages et limites des
techniques de modélisation utilisées et de justifier le choix du formalisme Bio-PEPA. Au
cours de ce chapitre, nous commençons par considérer la première phase de notre approche
qui contribue à l’élaboration d’un modèle computationnel de prédiction de base. Nous
présentons les éléments essentiels du formalisme Bio-PEPA qui ont un rôle majeur dans la
représentation des notions épidémiologiques. Ensuite, dans un contexte de vérification et de
validation du modèle conçu, nous proposons de le traduire en un langage narratif. Enfin, afin
de montrer l’avantage de la modélisation par Bio-PEPA, nous reprenons un exemple de la
tuberculose réalisé par les systèmes à base d’agents (DeEspíndola et al., 2011) et nous le
reproduisons en Bio-PEPA.
Ce chapitre fait l’objet de deux publications et deux communications :
D.Hamami, B.Atmani « From Simulated Model By Bio-PEPA to Narrative Language
Through SBML», International Journal of Control Theory and Computer Modeling: IJCTCM,
Vol.4, No.1/2, April 2014, pp 27-43. http://airccse.org/journal/ijctcm/current2014.html
Hamami, D., & Atmani, B. (2013). Tuberculosis Modelling Using Bio-PEPA
Approach. World Academy of Science, Engineering and Technology, International Journal of
Medical, Health, Biomedical, Bioengineering and Pharmaceutical Engineering, 7(4), 183-
190. http://www.waset.org/Publications/?path=Publications&p=76
D.Hamami, B.Atmani « Optimisation des outils d'aide à la décision par SBML », ASD’2013
conférence maghrébine sur les avancées des systèmes décisionnels, Merrakech, Maroc, 2013.
ISBN 978-9-98-113000-1. http://www.asd-conf.net/les-papiers-acceptes
D.Hamami, B.Atmani, « Modeling the effect of vaccination on varicella using Bio-
PEPA», Proceeding of the 23rd IASTED International Conference on Modeling and
Simulation (MS2012). July 3 - 5, 2012, Banff, Canada. ISBN 978-0-88986-938-7.
http://www.actapress.com/Abstract.aspx?paperId=454582
4.2 Modélisation par Bio-PEPA
Afin de concevoir un modèle épidémiologique optimal et compte tenu du contexte de ce
travail de recherche, nous nous sommes focalisés sur les caractéristiques relatives à l’étude
épidémiologique suivantes :
- Comprendre la dynamique de l’épidémie
- Analyser l’incidence de l’épidémie.
- Spécifier les facteurs de risque.
- Evaluer les mesures de prévention adoptées.
- Proposer un outil d’alerte à la propagation de l’épidémie.
- Proposer de nouvelles mesures de prévention et stratégies de contrôle.
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
56
Figure 4.1 Optimisation des modèles épidémiologiques : Structure Générale
Toutefois, il est important aussi, lors de la conception d’un modèle computationnel,
d’identifier les paramètres et caractéristiques clés de l’épidémiologie de l’infection, telles
que :
- Quelle est la période d’infectiosité ou d’incubation ?
- Quel est l’élément qui favorise la propagation de l’infection ?
- Quel est le mode de transmission ?, etc.
Cependant, afin d’aboutir à un modèle optimal, Keeling et Rohani (2008) suggèrent de
respecter deux points importants :
- Le modèle doit être adapté à son objectif. Le modèle est désigné à expliquer le
comportement et la dynamique de la maladie infectieuse. Ceci au respect de se
concentrer sur les caractéristiques les plus pertinentes, tout en simplifiant ou ignorant
le reste.
- Le modèle doit être paramétrique. Tout paramètre utilisé doit être paramétré par une
valeur connue ou calculable.
Toutefois, ce qui constitue un modèle optimal dépond fortement du contexte dans lequel
l’épidémie est définie.
Connaissances acquises de l’expert
6: Simulation et analyse
1: Définition du problème
2: Conception de l’étude
3: Conception du modèle
4: Définition du processus: entrées, sorties, règles et hypothèses
5: Implémentation du modèle par Bio-PEPA– Contribution 1
Op
tim
isati
on
b
asi
qu
e-
Ver
ific
ati
on
et
vali
dati
on
La
nga
ge
Na
rra
tif
– C
on
trib
uti
on
2
Ph
ase
d’O
pti
mis
ati
on
Phase de modélisation et de simulation
Données épidémiologique
s
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
57
Nous rappelons que le processus de modélisation se résume en six principales étapes (cf.
Chapitre 1)(Lamm et Unger, 2011):
- Définition du problème.
- Conception de l’étude.
- Spécification du modèle.
- Définition du processus.
- Implémentation du modèle.
- Simulation, analyse et validation.
Afin de bien schématiser l’apport de notre première contribution (modélisation par Bio-
PEPA) dans un contexte épidémiologique, nous avons restructuré les étapes précédentes en
deux phases (cf. Figure 4.1) : 1) la phase de modélisation et de simulation et 2) la phase
d’optimisation. Où la première phase est associée aux étapes : i) interaction entre experts
(épidémiologistes) et modélisateurs (développeurs), ii) conception du modèle formel, et iii)
simulation. La deuxième phase qui constitue notre deuxième contribution relative à la
vérification et la validation est générée de l’étape de la simulation et de l’analyse.
4.2.1 Interaction expert/modélisateur
Les étapes de 1 à 4 citées ultérieurement correspondent à la phase d’interaction, où un
échange extensif entre l’expert et le modélisateur est réalisé pour l’acquisition des
connaissances utiles. Cette étape est considérée comme étant la plus laborieuse du processus.
En effet, sans une bonne maîtrise du domaine ou une bonne connaissance de la dynamique de
la maladie, il devient difficile d’établir les hypothèses utiles ou de définir les règles
perspicaces. A la fin de cette phase, le modélisateur aura en possession les éléments du
modèle suivants : les entrées, les sorties, les règles et les hypothèses.
4.2.2 Conception du modèle formel (Bio-PEPA)
Une fois les connaissances nécessaires à la modélisation sont collectées (entrées, sorties,
hypothèses et règles), le modélisateur peut passer à l’étape suivante N°5 correspondante à
l’implémentation du modèle qui devra être conçu au respect du formalisme adopté. Tel qu’il a
été justifié au chapitre 1, le formalisme Bio-PEPA est utilisé.
La modélisation épidémiologique par Bio-PEPA consiste à relier les éléments collectés ci-
dessus aux composants définis au chapitre 1, comme suit :
Les entrées :
- Paramètres : en Bio-PEPA les paramètres sont relatifs à la dynamique de la population
d’étude et à la maladie, tels que le taux de naissance, le taux de décès, le taux
d’infection, etc. Ces paramètres sont nécessaires à l’évolution du système.
- Espèces : représente les états du système épidémique. Tels que présentés au chapitre 1
à un instant donné, les individus de la population peuvent être dans un état susceptible,
infecté, guéri, etc.
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
58
Les sorties :
- Espèces : Bio-PEPA permet d’analyser toutes les espèces définies dans le modèle.
Ainsi, les sorties et les objectifs désirés tiennent compte des espèces prédéfinies. Par
exemple, si l’objectif d’un épidémiologiste est de comprendre la relation entre la
susceptibilité de la population et le taux d’incidence, il doit sélectionner les espèces,
susceptible et infecté comme sorties du modèle à analyser. Ou encore si l’objectif est
de spécifier le taux des guéris après dix années d’études, l’espèce « guéri » doit être
sélectionnée.
Les règles :
- Actions : telle que spécifiée au chapitre 1, la dynamique des espèces est en fonction
des actions (taux fonctionnels) définies dans le modèle. Celles-ci correspondent aux
règles de transition entre les états, définis par l’expert.
- Le modèle composant : décrit la coopération et la synchronisation entre les espèces
lors de l’exécution des actions. Cette partie du modèle est en premier lieu dépendante
des règles préétablies par l’expert et en second lieu par le modélisateur autant que
connaisseur de la faisabilité du formalisme Bio-PEPA.
Les hypothèses :
A la différence des autres éléments, les hypothèses peuvent être liées à tous les composants de
Bio-PEPA. Par exemple, l’épidémiologiste peut faire des hypothèses sur :
- les paramètres du modèle, tel que le taux de naissance est égale au taux de mortalité ce
qui implique une population constante.
- les états du modèle (espèces), où il peut considérer que l’espèce « exposé » n’est pas
très utile à l’étude et donc décide de l’exclure du modèle, ou encore, il peut supposer
un éventuel protocole de vaccination et inclure dans le modèle l’état « vacciné ».
- la dynamique des espèces, et ainsi considérer certaines actions. Par exemple,
considérer à la fois qu’un individu susceptible peut transiter vers un état infecté
directement au contact d’un infecté, ou après une période d’incubation transitant
d’abord vers un état latent.
- La densité initiale des espèces (définie dans le modèle composant de Bio-PEPA) ou le
type de coopération entre espèces. Par exemple, considérer qu’au début de simulation
aucun guéri n’est présent dans la population ou considérer que toutes les espèces sont
en évolution synchrone.
4.2.3 Simulation et analyse (vérification et validation)
Etant L’étape finale du processus de modélisation, la simulation et l’analyse permettent la
vérification et la validation du modèle conçu. Tel que spécifié dans le chapitre 1, Bio-PEPA
offre une multitude de techniques d’analyse : ODEs, simulation stochastique (Gillespie,
2001), chaines markoviennes continues (Ciocchetta et al., 2009) et le modèle PRISM
(Kwiatkowska et al., 2009). Souvent, les méthodes d’analyse sont imposées par l’objectif et le
type d’épidémie étudiée.
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
59
La simulation étant en grande partie une étape d’évaluation et de validation, elle consiste à
générer des résultats relatifs aux sorties prédéfinies précédemment et à les comparer aux
données réelles existantes ou encore aux résultats d’un modèle déjà validé. Si l’évaluation est
positive, le modèle est accepté et exploité. Dans le cas contraire, une vérification du modèle
conçu doit être réalisée où un retour élicite aux étapes précédentes s’impose. Ce retour est
généralement défini dans le processus de modélisation et simulation par l’optimisation. Ce qui
nous amène vers nos deuxième et troisième contributions (cf. section 4.3 et chapitre 5 et 6).
4.3 Optimisation du modèle
Une évaluation négative des résultats de simulation implique une vérification du modèle
conçu. Cette révision est pilotée par l’ensemble des entrées, des règles et des hypothèses
posées. Ceci implique un retour vers l’étape « définition du processus ». Nous rappelons que
cette étape explicite les notions d’entrées, règles et hypothèses et que toute donnée non
conforme à l’étude doit être revue par l’expert/épidémiologiste. Il est à noter que pour un
premier prototype du modèle conçu, le modélisateur veille à concevoir un modèle simple et
représentatif pour ne pas tomber dans le piège des modèles complexes où la détection des
déficiences n’est pas évidente. A partir de ce contexte, deux types de vérification se
distinguent :
1- Vérification que le modèle réalisé par le développeur répond parfaitement au modèle
conceptuel défini à la phase « interaction expert/développeur ». Autrement dit, le
modèle conceptuel n’est pas remis en question.
2- Vérification que les informations « entrées, règles et hypothèses » reflètent
correctement les connaissances de l’expert et la dynamique de la maladie. Autrement
dit, le modèle conceptuel est remis en question.
Le premier type de vérification est une étape critique à l’expert/développeur. En effet, d’une
part l’expert n’a pas les compétences requises pour comprendre le modèle conçu en Bio-
PEPA afin de pouvoir s’assurer qu’il correspond parfaitement au modèle conceptuel prédéfini
à l’étape « interaction expert/développeur ». Et d’une autre part, le développeur doit s’assurer
qu’il a parfaitement assimilé le langage de l’expert pour reproduire le modèle en Bio-PEPA.
Ceci implique une communication/échange complexe et critique entre l’expert et le
développeur. A ce niveau d’optimisation, le moyen le plus optimal de simplifier cette
interaction est de proposer à l’expert de devenir plus familier avec le langage de modélisation,
et au développeur de suivre des formations sur le domaine en question afin d’approfondir ses
connaissances. Le but ainsi, est de garantir que les idées partagées entre l’expert et le
développeur sont effectivement bien acquises et que le modèle reflète correctement les
intentions des deux parties démunies de tout conflit. Dans ce contexte de simplification
d’interaction entre expert et développeur, notre deuxième contribution fait l’objet de traduire
le modèle ainsi conçu en un langage narratif, pour plus de détails voir la section 4.4 –
Chapitre 4.
Cependant, dans le cas de la présence d’une erreur dans le modèle conçu, traduire un langage
formel en un langage narratif est avantageux, si et seulement si, l’expert arrive à comprendre
l’anomalie détectée. Dans le cas contraire où le modèle a été conçu selon les directives de
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
60
l’expert mais qu’il présente des incohérences avec les données observées, l’expert doit
approfondir ses recherches et élargir son domaine de connaissances, ce qui nous amène vers le
deuxième type de vérification.
Le deuxième type de vérification est aussi critique, mais concerne en grande partie l’expert.
Celui-ci étant le principal axe sur lequel repose le développeur pour acquérir toutes les
connaissances utiles à la modélisation. Cela dit, une simple erreur humaine de la part de
l’expert ou une connaissance limitée du domaine à étudier compromettra largement la phase
« interaction expert/développeur ». Il est très important à ce niveau que l’expert sache
expliciter correctement les besoins de l’étude.
Une fois la vérification terminée, en adoptant l’un des deux types de vérification ou bien
même les deux, trois issues s’offrent à nous :
1. Soit un nouvel élément a été défini. Le modèle sera ainsi optimisé en intégrant cette
nouvelle information et les étapes suivantes du processus de modélisation et
simulation seront réitérées. Dans cette situation, l’élément additionnel a été utile et
l’évaluation est positive. L’expert est ainsi satisfait et le modèle est exploité.
2. Même issue que celle ci-dessus mais l’évaluation est négative et le processus
d’optimisation rentre dans une boucle infinie. Dans cette situation, l’expert a le choix
de rejeter le modèle, si un grand écart entre les résultats de simulation et les données
réelles est observé. Ou bien, l’expert se contente des optimisations réalisées et restreint
son champ d’intérêt.
3. Soit l’erreur n’a pu être détectée. Cette situation sera un conflit d’intérêts entre
l’expert et le développeur, car d’une part l’expert n’est pas satisfait des résultats du
modèle conçu, et d’une autre part le développeur n’ayant pas de nouvelles
informations, ne peut donc en aucun cas optimiser son modèle. Ce qui peut se
conclure par un échec de contrat.
Afin de s’assurer de ne pas tomber dans le piège de la boucle infini (cas 2) ou même dans le
cas extrême où le contrat est résilié (cas 3) causant une perte en temps et argent considérable
aux deux parties, nous proposons d’assister l’expert et le développeur à mieux cerner la
dynamique de l’épidémie et les éléments qui la composent. Dans ce contexte notre troisième
contribution fait l’objet d’une optimisation par fouille de données, pour plus de détails voir le
Chapitre 5 et 6.
4.4 Vérification par langage narratif
Telle que spécifiée dans la section précédente, cette contribution est une solution à la
vérification du modèle formel conçu. L’idée principale est de traduire automatiquement le
modèle Bio-PEPA conçu en un modèle narratif. Ce dernier devrait être spécifié autant qu’un
langage naturel, où un simple individu (non-développeur) entre autres un épidémiologiste
pourrait facilement l’interpréter. Aussi, le modèle traduit devrait être intuitif, reflétant les
différents composants du modèle formel. Ainsi, le rôle de l’expert sera de comparer le modèle
narratif au modèle conceptuel réalisé lors de son interaction avec le développeur. A partir de
ce contexte, nous avons analysé en premier lieu les différents composants du langage Bio-
PEPA puis comparé à la structure d’un langage narratif par lequel s’exprime un expert. Avant
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
61
de décrire le passage d’un modèle épidémique Bio-PEPA en un langage narratif, nous allons
dans ce qui suit définir la structure du langage narratif adopté.
4.4.1 Langage narratif
Le langage narratif est un langage formel, permettant à l’expert en général et à
l’épidémiologiste en particulier de décrire un système épidémique et sa dynamique en
utilisant généralement des termes qui leur sont communs et bien connus. Il est à rappeler que
les définitions ci-dessous sont inspirées du travail présenté par Guerriro et al (2007).
Ainsi, un modèle dans un langage narratif est décrit par quatre principaux composants:
- La description des compartiments dans lesquels les individus (entités) peuvent
héberger durant l’évolution de l’épidémie ;
- La description des entités (individus) composant le système épidémique ;
- La description des actions qui peuvent se produire ;
- La liste des interactions invoquant les éléments décrits ci-dessus.
Compartiment défini par un nombre, un nom et une taille, il représente généralement un lieu
dans lequel se situ un individu ou une population d’individus. Un compartiment peut
référencer aussi un lieu abstrait qui peut représenter un groupe spécifique d’individus. Par
exemple, les individus dont l’âge est supérieur à 20 ans.
Entité (composant) identifié par un nombre et un nom, elle représente l’état d’un individu à
un instant donné. Il lui est aussi attribué un nombre pour définir sa quantité/densité dans la
population.
Action défini par un nombre, un nom et les paramètres qui lui sont associés ainsi que leur
valeur.
Liste des interactions (évènement) décrivant l’évolution du système, cette liste permet de
définir la relation entre entités, compartiments et actions. Généralement les interactions sont
décrites par une règle de la forme: Si condition alors conclusion, où la condition est exprimée
par une association entre entités et actions et la conclusion exprime le nouvel état de l’entité.
Exemple :
Le tableau 4.1 illustre les éléments ci-dessus par un exemple, où nous définissons deux types
d’espèces (individus : Susceptible, Infecté) situés dans deux compartiments (villes) différents
(Alger, Oran) subissant deux actions (Contact, Voyage). Ces individus peuvent subir deux
actions différentes :
- Contact : permet à un individu infecté de contaminer ses contacts, et à un individu
susceptible d’être contaminé par un infecté.
- Voyage : permet à un individu de se déplacer d’une ville à une autre.
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
62
Tableau 4.1 Liste des interactions dans un langage narratif
Compartiment Entité Action Evènement
Nombre: 2
Oran (100)
Alger (200)
Nombre: 2
Susceptible
Infecté
Nombre : 2
Contact ()
Voyage (β)
Si Infecté (Alger) et Voyage alors Infecté (Oran)
Si Susceptible (Oran) et Contact alors Infecté (Oran)
Tableau 4.2 Composants Bio-PEPA vs langage narratif vs SBML
Composants Bio-PEPA Composants langage narratif Composants SBML
Compartiment Compartiment Compartiment
Espèce Entité (composant) Espèces
Taux fonctionnels et paramètres
Actions Actions et paramètres
Composant modèle Evènement Règles, Evènements et contraintes
En se basant sur cette description, nous pouvons voir que les différents éléments d’un langage
narratif reflètent bien les composants d’un modèle Bio-PEPA. Le tableau 4.2 résume cette
similitude. En effet, chaque composant du modèle Bio-PEPA lui est associé un élément dans
le langage narratif, cette analogie nous permet de mapper facilement entre les deux langages
et de permettre à l’expert de valider le modèle conçu.
Toutefois, même si Bio-PEPA est un langage structuré, sa souplesse de codification rend le
processus de traduction compliqué. En effet, la seule condition sur l’ordre de ses composants
est que le composant modèle doit être la dernière ligne du code. Notre but étant de rendre le
processus de traduction automatique, nous avions besoin d’un langage intermédiaire
permettant d’une part de réordonner les composants de Bio-PEPA et d’une autre part de les
extraire automatiquement. Dans ce contexte, nous avons exploré les différentes dérivées
offertes par l’outil Bio-PEPA plugin. Ceci nous a conduit au langage SBML (System Biology
Markup Language) (Hucka et al., 2007). En effet, SBML décrit intuitivement les composants
et interactions d’un système biologique. Qu’ils soient discrets ou continus, un système peut
être représenté dans SBML par un ensemble d’espèces, compartiments, paramètres et
fonctions d’interactions telles que : actions productives et réactives. Nous n’allons pas trop
nous attarder sur le processus de passage d’un modèle Bio-PEPA à un modèle SBML, cette
fonctionnalité étant déjà intégrée dans le plugin Bio-PEPA, ne fait pas l’objet de notre étude.
Le tableau 4.2 résume les points communs entre ces deux modèles. Toutefois, plus de détails
à propos du langage SBML sont nécessaires, car c’est le point de départ pour aboutir au
langage narratif.
4.4.2 SBML (Systems Biology Markup Language)
SBML (The Systems Biology Markup Language) (Hucka et al., 2007) est un langage à balises
basé sur le langage XML (eXtensible Markup Language). Il a été conçu spécifiquement pour
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
63
les systèmes biologiques mais peut parfaitement être adapté aux systèmes épidémiques. Par
essence, un document XML est défini par une structure hiérarchique dont les composants sont
délimités par des balises. Ainsi, SBML est un langage défini par un arbre syntaxique dont les
éléments sont structurés selon un document XML. La figure 4.2 illustre les composants de
base d’un modèle SBML (Beurton-aimar, 2007).
Le schéma général d’un modèle SBML relatif à la figure 4 .2 est présenté ci-dessous où
chaque composant est décrit en détails.
Figure 4.2 Composants d’un modèle SBML
<model id="My_Model" >
<listOfFunctionDefinitions> ... </listOfFunctionDefinitions>
<listOfUnitDefinitions> ... </listOfUnitDefinitions>
<listOfCompartments> ... </listOfCompartments>
<listOfSpecies> … </listOfSpecies>
<listOfParameters> ... </listOfParameters>
<listOfRules> ... </listOfRules>
<listOfReactions> ...
<listOfReactants> ... </listOfReactants>
<listOfProducts> ... </listOfProducts>
<listOfModifiers> ... </listOfModifiers>
<listOfLocalParameters> ... </listOfLocalParameters>
</listOfReactions>
<listOfEvents> ... </listOfEvents>
</model>
ListOfCompartments
Model
ListOfParameters
ListOfReactions
ListOfSpecies
ListOfInitialAssignements
ListOfConstraints
ListOfRules
ListOfEvents
ListOfCompartmentTypes
ListOfSpeciesTypes
ListOfFunctionDefinitions
ListOfUnitDefinitions
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
64
- Function definition. Permet de définir toutes les expressions mathématiques utilisées
dans le modèle, ses attributs sont : le nom de la fonction et son expression.
- Unit definition. Sont les unités de mesures associées aux paramètres, espèces, etc.
- Compartment. Les espèces définies dans le modèle sont généralement affectées à un
compartiment particulier qui les dissocie des autres espèces. Si les espèces sont toutes
hébergées dans une même location alors un seul compartiment devrait être défini. Ses
attributs sont: nom du compartiment, type et taille.
- Species. sont des entités définissant l’état des individus, tel que susceptible, infecté,
etc. Elles sont définies par : nom, compartiment, nombre initial.
- Reaction. Les espèces interagissent entre elles sous l’effet d’une certaine action. Pour
chaque action, SBML définit : les espèces impliquées, le coefficient stoichiometric, les
paramètres (vitesse de réaction) et la fonction d’interaction. SBML permet aussi de
spécifier le mode d’interaction : producteur, consommateur et simple modificateur où
les espèces y sont affectées selon leur rôle dans l’action.
- Parameter. Les paramètres dans SBML peuvent être déclarés autant que variable
locale propre à chaque fonction ou globale invoquée par l’ensemble du modèle.
- Rule. Permet de définir les interactions qui ne peuvent pas être exprimées dans la
section des actions. Autrement dit, cette section décrit le comportement dynamique
propre aux variables. Ses attributs sont: nom de la variable et son expression.
- Event. Les évènements qui peuvent surgir au cours du temps selon un déclencheur
particulier (condition) sont définis dans cette section. Ses attributs sont: nom,
condition, délais de déclenchement et actions.
4.4.3 Du modèle Bio-PEPA au modèle narratif
L’objectif de cette section est de traduire un modèle Bio-PEPA en un modèle narratif
(Hamami et Atmani, 2014). Nous avons spécifié dans la section précédente qu’un passage par
un modèle intermédiaire est nécessaire. Dans ce but, nous avons opté pour l’utilisation d’un
modèle SBML. La fonctionnalité de transformer un modèle Bio-PEPA en un modèle SBML
est déjà implémentée dans le plugin Bio-PEPA. Ainsi, dans cette section nous allons
directement transformer un modèle SBML en un modèle narratif. Rappelons que le but de
cette transformation est de permettre à l’expert et le développeur de vérifier et valider le
modèle Bio-PEPA conçu et dans le cas échéant de détecter les erreurs et les anomalies.
Au cours de cette section nous allons parcourir chaque élément du modèle SBML et décrire sa
traduction en langage narratif.
Compartments
SBML décrit une section ListOfCompartments. Chaque compartiment dans cette liste est
directement associé à un compartiment dans le modèle narratif, où ils ont la même
signification. Nom et taille dans le modèle SBML correspondent à nom et taille dans le
modèle narratif. Dans le cas où dans le modèle Bio-PEPA, différents compartiments sont
définis, SBML leur associe un attribut « Type », celui-ci est également traduit dans le modèle
narratif par Type.
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
65
Species
SBML décrit la section ListOfSpecies. Chaque espèce dans cette liste correspond à une entité
dans le modèle narratif. Dans SBML les balises décrivant les espèces définissent leur nom,
concentration initiale (taille) et compartiment auquel elles sont associées. Nous rapportons les
mêmes informations dans le modèle narratif.
Parameters
SBML utilise ListOfParameters afin de définir les paramètres du modèle Bio-PEPA. En
langage narrative chaque paramètre sera défini par un nom et une valeur qui lui est assignée
dans le modèle Bio-PEPA.
Taux fonctionnels (Actions)
SBML définit une liste d’actions ListOfReactions exécutées par les espèces. A chaque action
lui est associé un numéro, un nom et une formule (expression mathématique) indiquant les
espèces et les paramètres invoqués. Cette formule est plus connue sous la nomination de
KineticLaw, elle représente le taux d’évolution de la dynamique des espèces.
En langage narratif, ces actions sont traduites sous forme de liste définissant quatre éléments :
- le numéro et le nom de l’action sélectionnée, ce numéro est identique à celui décrit
dans SBML,
- les espèces « product », sur lesquelles la règle est appliquée,
- les espèces « reactant », celles qui font appel à cette action sélectionnée,
- l’expression mathématique, dénommée « loi », qui permet de calculer le taux
d’évolution des espèces invoquées.
Dans le modèle SBML (Bio-PEPA), nous avons défini l’action « modificateur générique». La
description de cette action en langage narratif est identique aux autres actions, néanmoins,
nous verrons apparaitre les mêmes espèces dans la liste des « product » et « reactant ».
Species Components
En fonction des éléments décrits ci-dessus, nous définissons en langage narratif une règle
permettant à l’expert de valider la dynamique de l’épidémie adoptée dans le modèle Bio-
PEPA. Pour chaque action définie, il lui est associé une règle de la forme : Si condition Alors
conclusion, où « Condition » représente l’espèce « reactant » et « Conclusion » représente
l’espèce « product ». Ainsi, si une espèce apparaît dans la partie condition, elle invoque
l’action. Si elle apparait dans la partie conclusion, elle subit l’action. Si elle apparaît dans les
deux, elle participe à l’action sans être modifiée.
4.5 Modélisation de la tuberculose
Dans cette section nous présentons les différentes étapes de la modélisation et d’analyse de la
dynamique de l’épidémie de la tuberculose et sa validation par langage narratif. Nous
utilisons pour cela le processus de modélisation par Bio-PEPA et le modèle narratif (cf.
section 4.4). Afin de valider l’apport de la modélisation par Bio-PEPA, nous nous basons sur
les travaux de DeEspindola et al. (2011). Les auteurs ont modélisé la tuberculose afin
d’analyser sa dynamique et l'émergence de la résistance aux médicaments en utilisant les
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
66
systèmes à base d’agents. Etant donné que nous nous sommes inspirés du modèle
DeEspindola, nous n’avons pas eu besoin d’exécuter l’étape « Interaction
expert/modélisateur » définie à la section 4.2.1. Nous avons conçu le modèle Bio-PEPA de la
tuberculose en se basant sur leur modèle conceptuel (cf. figure 4.3), les paramètres du modèle,
tel qu’illustrés dans le tableau 4.3, ont tous été repris des travaux de DeEspindola et al.
(2011). La reproduction de ce modèle en Bio-PEPA offre la possibilité d’expliciter
l’hétérogénéité de la population sans pour autant s’alourdir de la représentation par un niveau
individuel complexe.
Figure 4.3 Modèle à compartiments de la tuberculose
Tableau 4.3 Paramètres du modèle (extraits de DeEspindola (2011))
Paramètre Description
Taux de mortalité naturelle
T Taux de mortalité due à la tuberculose
Þ Probabilité de développement de la tuberculose active de l’état X
υ Probabilité de progression de la maladie dans un individu latent
Σ Probabilité que le traitement du latent est effectif
φ Probabilité que le traitement de l’infectieux est effectif
r Probabilité de développement d’une résistance au traitement
δ Efficacité relative du traitement
ɳL Proportion des latents qui reçoivent le traitement
ɳT Proportion des infectieux qui reçoivent le traitement
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
67
4.5.1 La tuberculose
La tuberculose (TB) est une maladie infectieuse à transmission directe, due à la bactérie
Mycobacterium tuberculosis. Elle touche essentiellement les poumons (pour la tuberculose
pulmonaire), mais l’infection du système nerveux, du système circulatoire, du système
urinaire, des os, ou la peau peuvent être aussi des cas qui peuvent se produire.
Souvent, la tuberculose est transmise par la toux et les éternuements. Toutefois, l’utilisation
des ustensiles des personnes infectées ou le contact direct avec leur crachat peut provoquer
une contamination (OMS, Organisation Mondiale de la Santé).
Compte tenu de la complexité de cette maladie les seuls moyens de la contrôler sont d’isoler
les malades infectieux et de leur faire suivre un traitement approprié. Sous l’effet du
traitement un infectieux est considéré contaminant jusqu’à ce que ses examens
microscopiques prouvent le contraire. Cependant, la résurgence de cette maladie dans des cas
déjà guéris ou l’échec du traitement pousse les épidémiologistes, experts et scientifiques à
réfléchir davantage à des solutions plus optimales et consentir plus d’efforts, telles que
rechercher des facteurs de risque d’abandon du traitement ou relancer régulièrement la
motivation du patient et de son entourage au respect du régime thérapeutique. Ces solutions
nous incitent à travailler en collaboration avec les services sanitaires et proposer des systèmes
de prédiction et d’aide à la prise de décision, de telle sorte que, les efforts consentis dans la
lutte contre la tuberculose soient un moyen d’éradication plutôt que de diminution.
4.5.2 Modèle de la tuberculose
Tel que présenté par DeEspindola et al. (2011), le modèle de la tuberculose est défini par cinq
compartiments correspondant aux états des individus au cours de la maladie. La figure 4.3
illustre ce schéma épidémiologique. Les paramètres du modèle sont résumés dans le
tableau 4.3.
Un individu I appartenant à une population de taille N peut à un instant donné être dans un et
un seul état: X, LS, LR, TS, TR. Si I X, c’est un individu susceptible, non encore exposé à la
maladie. Si I Lk (k = S, R), c’est un individu en état de latence, c’est-à-dire, il est contaminé
par la bactérie mais qui n’est pas encore infectieux. Si I Ls alors, le pathogène est sensible.
Sinon, L Lr, le pathogène est résistant. Si I Tk ( k = S, R), c’est un individu infectieux
avec une tuberculose dite active qui peut contaminer ses contacts.
DeEspindola et al. (2011) ont traduit le schéma de la figure 4.3 en un modèle à base d’agents
où les agents transitent d’un état à un autre selon des fonctions probabilistes. Le modèle
assume que les individus guéris ou décédés sont remplacés par des individus susceptibles,
ainsi la population est constante et en perpétuelle dynamique. Le modèle de la figure 4.3 se
résume comme suit :
- Un individu dans un état X peut être infecté par un individu dont l’état est TS (resp.
TR) selon une probabilité Ps (resp. Pr). Une fois l’individu est contaminé, les auteurs
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
68
lui définissent deux situations : soit l’individu transite vers un état latent Ls (resp. LR),
soit il est directement infectieux Ts (resp. TR).
- Les individus dont l’état est latent sont seulement porteur du pathogène et non encore
infectieux. Si la bactérie est détectée à ce stade alors l’individu est directement mis
sous traitement. Ainsi, l’individu peut: i) guérir suite au traitement reçu et retourner à
l’état X, ii) ne pas guérir et rester dans l’état Ls (Lr), iii) ne pas recevoir de traitement
et transiter vers l’état Ts (TR).
- Un individu infectieux est considéré dans un état de tuberculose active et peut ainsi
transmettre la bactérie. Toutefois, la bactérie peut être sensible aux antibiotiques
comme elle peut être résistante, ce qui classifie l’individu infectieux soit dans un état
Ts ou TR.
- Les individus infectieux (Ts) soumis au traitement peuvent : i) guérir de l’infection et
retourner vers un état X, ii) développer une résistance au traitement et transiter vers un
état Tr, ou iii) terminer le traitement sans guérir ni développer une forme de résistance
et rester dans l’état Ts.
4.5.3 Le modèle Bio-PEPA
Rappelons que le but de cette modélisation est double, d’une part nous voulons prouver les
performances du formalisme Bio-PEPA en établissant une étude comparative avec un modèle
existant (Hamami et Atmani, 2013). D’une autre part nous voulons apporter une contribution
à l’étape de vérification et validation du modèle en le traduisant en un langage narratif
(Hamami et Atmani, 2014). Dans ce contexte, nous avons développé le modèle de la
tuberculose selon le formalisme Bio-PEPA. Les notions de base de ce formalisme ont été
introduites dans le chapitre 1. En outre, pour un modèle Bio-PEPA, nous définissons les
paramètres du modèle, les espèces, les taux fonctionnels, les compartiments et les
composants du modèle.
Paramètres : Les paramètres décrivant les flux de transition, tels que schématisés sur la
figure 4.3, sont présentés dans le tableau 4.3. Ces paramètres ont été rapportés par
DeEspindola et al. (2011). Au total, 10 paramètres sont nécessaires pour concevoir ce modèle
de la tuberculose. Chaque arc schématisé sur la figure 4.3 est relatif à un paramètre.
Dans la modélisation par Bio-PEPA, nous distinguons deux types de paramètres, implicites et
explicites.
Les paramètres explicites sont ceux figurant dans le modèle à compartiments. Les paramètres
implicites, sont quand à eux relatifs à la modélisation temporelle ou imposés par le
formalisme Bio-PEPA. Dans notre modèle, nous définissons le paramètre « population size »
comme étant un paramètre implicite car il ne figure pas dans le modèle à compartiments.
Aussi, nous définissons un paramètre temps, pour le déclenchement du traitement.
Espèces : Dans Bio-PEPA, les espèces représentent les compartiments4 (états) (cf. la
figure 4.3). Chaque espèce se rapporte à un type d’individu (compartiment). Par analogie au
modèle de la figure 4.3, nous définissons cinq espèces (susceptible X, latent sensible Ls,
4 A ne pas confondre avec le terme compartiments de Bio-PEPA, qui est un composant du formalisme
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
69
latent résistant LR, infectieux sensible Ts, infectieux résistant LR). La variation
(croissance/décroissance) de la densité (quantité) des espèces est en fonction des opérateurs et
actions auxquelles elles sont associées. Par exemple, pour l’espèce X, si l’action
« susceptible_exposedTs » est exécutée, l’opérateur « ↓ » est invoqué et ainsi la densité de
l’espèce X décroit, car les susceptibles sont infectés et donc transférés à l’état latent sensible.
Par analogie, l’action «susceptible_exposedTs » invoquant l’opérateur « ↑ » accroit le
niveau des latents Ls. le code suivant représente la description des espèces en langage Bio-
PEPA.
Taux fonctionnels (action): tels qu’illustrés dans le code Bio-PEPA ci-dessous, les
taux fonctionnels ainsi définis permettent de spécifier le degré d’évolution des espèces.
Ainsi, chaque action spécifiée dans la partie « espèces », est définie dans la partie « taux
fonctionnels ». Par exemple, le taux fonctionnel « susceptible_exposedTs » est défini par le
contact entre susceptible X et infecté Ts selon un taux d’infection « Beta * (1-p) ». le code ci-
dessous représente un extrait des taux fonctionnels de Bio-PEPA.
kineticLawOf susceptible_infectedTs : p * Beta * X@Local * Ts@Local; kineticLawOf susceptible_infectedTr : G* p * X@Local * Tr@Local; kineticLawOf susceptible_exposedTs : (1-p)*Beta * X@Local * Ts@Local; kineticLawOf susceptible_exposedTr : G* Beta * X@Local * Tr@Local; kineticLawOf exposed_infected : v * Ls@Local; kineticLawOf infected_diedTs : MuT * Ts@Local; kineticLawOf died_X : Mu * X@Local;
X =(susceptible_infectedTr,1)<< X
+ (susceptible_exposedTr,1)<< X
+ (susceptible_infectedTs,1) << X
+ (susceptible_exposedTs,1) << X +(infected_diedTs,1) >> X
+ (died_Ls,1) >> X +(died_Ts,1) >> X + (died_X,1) (.) X
+ (succ_Tr,1) >> X+ (died_inf_Tr,1) >> X
+(trait_Ts,1) >> X+ (died_Lr,1) >> X +(died_Tr,1) >> X
Ls = (susceptible_exposedTs,1) >> Ls +(died_Ls,1) << Ls
+(trait_Ls,1) << Ls + (exposed_infected,1) << Ls;
Lr = (susceptible_exposedTr,1) >> Lr+ (inf_Lr,1) << Lr
+ (died_Lr,1) << Lr;
Tr = (susceptible_infectedTr,1) >> Tr
+ (succ_Tr,1) << Tr + (died_inf_Tr,1) << Tr
+ (inf_Lr,1) >> Tr + (resi_Ts,1) >> Tr
Ts = (died_Ts,1) << Ts+(infected_diedTs,1) << Ts
+(trait_Ts,1) << Ts+(susceptible_infectedTs,1) >> Ts
+ (exposed_infected,1) >> Ts + (resi_Ts,1) << Ts
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
70
Compartiments : Bio-PEPA permet d’attribuer une location particulière à un type
d’individu particulier. Dans ce modèle de tuberculose, une seule location « Local » est
commune à tous les individus. Le code ci-dessous décrit la déclaration des compartiments
dans Bio-PEPA. Il est à noter que le terme compartiment utilisé dans le modèle à
compartiments dans la figure 4.3, correspond aux espèces dans le modèle Bio-PEPA.
Le composant modèle : définit la densité initiale des espèces et leurs interactions
(synchronisation). Il est à noter que toutes les espèces définies dans le modèle sont initialisées
dans cette partie. Dans le code Bio-PEPA ci-dessous, les caractères : x, ls, ts, lst, lrt, tr, tst
correspondent au nombre initial de chaque espèce, où L est la (les) action(s) (taux
fonctionnels) par laquelle les espèces sont synchronisées (coopèrent).
X[x] Ls[ls] Ts[ts] Lst[lst] Lr[lr] Tr[tr] Tst[tst].
4.5.4 Simulation par Bio-PEPA et résultats
Initialement, l’objectif de cette simulation est de comparer les résultats de notre modèle aux
travaux réalisés par DeEspindola et al (2011). Nous avons exploité les deux types de
simulations offertes par Bio-PEPA plugin, déterministe et stochastique. La comparaison de
ces deux dernières nous a conduit à constater qu’elles aboutissent à des résultats similaires.
Les résultats illustrés ci-dessous correspondent à la moyenne de 100 simulations par
l’algorithme stochastique de Gillespie durant une période de simulation variant entre 100 et
300 ans. Afin de mener à bien notre analyse, nous avons suivi les mêmes scénarios que ceux
entrepris par DeEspindola : i) propagation de la tuberculose sans traitement ; ii) injection du
traitement en phase de latence et infection. Pour chaque scénario, nous avons adopté les
mêmes paramètres et réalisé nos simulations avec le plugin Bio-PEPA, puis nous avons
comparé les résultats à ceux présentés par DeEspindola et al (2011).
i) Propagation de la tuberculose sans traitement
Les figures 4.4 (a) et (b) présentent l’évolution de la tuberculose dans la population de taille N
= 100000 où initialement (à l’instant t = 0) uniquement les susceptibles et infectés de type
sensible sont présents dans la population. Pour ce type de simulation, DeEspindola et al.
(2011) proposent de considérer différentes valeurs du nombre initial des infectés sensibles, où
ts = {1%, 5%, 10%, 20%, 50%, 100%} du nombre total de la population de 100000 individus.
Nous pouvons clairement observer que les résultats de simulation de notre modèle Bio-PEPA
(figure 4.4.b) présentent la même évolution de l’épidémie en l’absence de traitement que le
modèle d’Espindola (cf. figure 4.4.a). Il est clair que quelque soit le nombre initial des
infectés sensibles, en l’absence d’un traitement, la population dérive vers un état endémique.
Cependant, la valeur initiale de Ts a un impact important sur la durée de stabilité de la courbe.
location world : size =100000, type = compartment
location Local in world : size = sizeLocal, type = compartment
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
71
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
0 50 100 150 200 250 300 350 400
"Ts = 1%"
"Ts = 5%"
"Ts = 10%"
"Ts = 20%"
"Ts = 50%"
"Ts = 100%"
(a)
(b)
Figure 4.4 Evolution de la tuberculose sans traitement. a) Modèle à base d’agents (2011) ;
b) Modèle Bio-PEPA
i) injection du traitement en phase de latence et infection
L’étape suivante de ce processus de simulation est d’introduire le traitement contre la
tuberculose après 200 ans du démarrage de la simulation. Ainsi nous pouvons suivre le
comportement de l’épidémie lors de l’introduction du traitement.
Les figures 4.5 (a) et (b) montrent un comportement similaire de l’épidémie avant et après
traitement. Nous pouvons observer que dès l’introduction du traitement (après 200 ans du
démarrage de la simulation), l’état Ts décroît subitement et tend vers 0 et l’état Tr accroît.
0
5000
10000
15000
20000
0 20 40 60 80 100
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
72
(a)
(b)
Figure 4.5 Evolution de la tuberculose sous application du traitement après 200 ans.
Ceci s’explique par le fait que le traitement d’une certaines proportion de la population Ts est
suivi par un échec, ce qui implique leur passage à un état résistant Tr. Toutefois, l’état Tr
décroît aussitôt que l’état Ts atteint son plus bas niveau. Cette simulation montre clairement
que Tr dépond fortement de l’échec de traitement des cas Ts. Le pic de Tr est clairement et
similairement illustré sur les figures 4.5 (a) et (b). Ainsi le modèle Bio-PEPA que nous avons
proposé pour l’épidémie de la tuberculose et l’émergence des cas résistant due à l’échec de
traitement, présente des résultats qui ne sont pas significativement différents du modèle de
DeEspindola. Toutefois, notre modèle présente l’avantage d’une structuration formelle des
interactions entre les composants plus simple et facile à concevoir qu’un système multi-agent,
aussi le critère de coopération et de synchronisation adopté par le formalisme Bio-PEPA
0
2000
4000
6000
8000
10000
180 200 200 220 240
"Tr" "Ts"
0
100
200
300
400
500
180 200 200 200 200 200 200 200
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
73
permet de reproduire le schéma réel de l’épidémie sans passer par des opérations probabiliste,
tel que « Random » utilisé par DeEspindola. Enfin, Bio-PEPA offre une gamme de techniques
d’analyse pour assister le développeur dans la compréhension de l’épidémie.
Nous rappelons que notre but ici, n’est pas d’améliorer les travaux de DeEspindola, mais de
prouver que la modélisation par Bio-PEPA est plus simple et efficace que tout autre modèle.
Ainsi notre modèle a permis de reproduire le modèle de DeEspindola avec plus de souplesse
et de précision. Nous avons également prouvé les performances de la modélisation par Bio-
PEPA en reproduisant un modèle de la varicelle extrait des travaux de Bonmarin et al. (2008).
Pour plus de détails, le lecteur pourra se référer à (Hamami et Atmani, 2012).
Tel que nous l’avons spécifié au début de ce chapitre (section 4.1), le deuxième but de cette
partie de notre travail est de valider le modèle Bio-PEPA conçu. Toutefois, nous rappelons
que nous avons déjà validé le modèle de la tuberculose, en le comparant aux résultats fournis
par DeEspindola et al. (2011). Afin de s’approfondir dans l’étape de validation, il s’agit,
comme nous l’avons détaillé dans la section 4.4, de traduire le modèle conçu en un langage
narratif. Pour cela, nous avons conçu un outil, baptisée « Analyseur Bio-PEPA », permettant
le passage automatique du modèle Bio-PEPA au modèle narratif.
4.6 Validation du modèle Bio-PEPA par langage narratif
Afin de mener à bien cette étape de validation nous allons volontairement modifier le modèle
de la tuberculose conçu, en supprimant un élément du modèle sans que cela puisse avoir un
impact sur sa structure syntaxique.
La figure 4.6.a présente les différents composants de l’outil « Analyseur Bio-PEPA »
permettant le chargement du modèle (onglet chargement fichier Bio-PEPA), son analyse
(onglet Analyse) et le visionnement des règles extraites (onglet Rapport et détails).
La figure 4.6.a montre le chargement du fichier SBML du modèle de la tuberculose. La partie
en dessous du code SBML est générée en utilisant l’onglet Analyse, elle résume le nombre
des différents composants du modèle, tels que : le nombre de paramètres utilisés, le nombre
d’espèce, etc. La section à droite permet de parcourir chaque composant. La figure 4.6.b
montre un exemple du composant taux fonctionnel « resi_Ts », où « N°10 » est le numéro
attribué à l’action sélectionnée, « liste des reactants » est la liste de toutes les espèces
participant à l’action et dont leur densité décroit, « liste des produits » liste de toutes les
espèce participant à l’action et dont leur densité accroit. La dernière ligne résume la formule
mathématique correspondante à l’action. L’action « resi_Ts » visible sur la figure 4.6.b
présente l’espèce Ts qui est invoquée dans la formule mathématique autant que réactant avec
un taux « G * r * teta » et l’espèce X autant que producteur. Ainsi, Les différents composants
que nous avons utilisé dans notre modèle peuvent être visionnés et analysés par un simple
click sur le composant et son numéro. Enfin, l’onglet « Rapport et détails » permet de
visionner toutes les règles du modèle sous forme : Si Condition Alors Conclusion.
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
74
(a)
(b)
(c)
Figure 4.6 Analyseur Bio-PEPA. a) Chargement du modèle SBML de Bio-PEPA.
b) analyse des composants. C) Rapport des composants sélectionnés.
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
75
Figure 4.7 Résultats de simulation du modèle Bio-PEPA avec omission
La figure 4.6.c illustre un extrait des résultats de visionnement. En analysant l’ensemble des
informations exprimées sous forme d’un langage plus familier à un épidémiologiste, ce
dernier pourra facilement l’interpréter, le vérifier et le valider.
Afin de tester l’utilité d’une telle interprétation, nous avons délibérément omis le taux
fonctionnel relatif à l’échec de traitement des infectés sensibles (la transition de l’état Ts vers
l’état Tr) et soumis le nouveau modèle à la traduction. Toutefois, pour confirmer l’impact de
l’omission, nous avons simulé le nouveau modèle avec le plugin Bio-PEPA et comparé les
résultats avec le modèle initial (cf. figure 4.5).
La figure 4.7 illustre les résultats de simulation du nouveau modèle. Il est clair qu’à l’instant
t = 200, le nouveau modèle ne fait apparaitre aucun pic relatif à l’état Tr tel qu’il a été
clairement illustré dans la figure 4.5.b. Afin de détecter l’anomalie, nous allons traduire le
modèle en un langage narratif et analyser sa conception.
La figure 4.8 illustre le nombre de chaque composant où il apparait clairement dans la
dernière ligne que le nombre a diminué (16 actions) comparé à la figure 4.6.a (17 actions). A
ce stade l’expert peut détecter cette anomalie en revoyant les actions prédéfinies dans le
modèle conceptuel (phase interaction expert/développeur). Par la suite, l’expert peut
approfondir son analyse en explorant les autres onglets de notre application. L’action N°10
visualisée précédemment dans la figure 4.6.b ne fait plus référence à l’action « resi_Ts». Un
simple parcours permettra à l’expert de détecter que l’action « resi_Ts » n’a pas été
modélisée.
L’utilisation de l’analyseur Bio-PEPA à l’avantage d’exprimer le modèle formel conçu en un
modèle narratif dont l’expert peut aisément interpréter, vérifier et valider.
L’étude expérimentale précédemment réalisée sur l’exemple de la tuberculose a permis de
confirmer l’utilité d’une telle approche dans l’étape d’optimisation en général, et de
vérification/validation en particulier. Cependant, nous tenons à soulever le point du fait que
cette analyse est essentiellement basée sur les connaissances de l’expert.
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
150 200 250 300 350 400 450 500
An
nu
al d
ise
ase
inci
de
nce
Years
"Tr@Local"
"Ts@Local"
0
500
1000
180 200 220 240
Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA
76
Figure 4.8 Résultats d’analyse du modèle Bio-PEPA avec omission Se retrouver dans le cas d’une anomalie où l’expert ne peut davantage enrichir ou corriger le
modèle, est une limite dont peut souffrir cette approche.
Afin de pallier cet inconvénient, nous proposons dans le chapitre suivant d’intégrer à l’étape
d’optimisation les techniques de fouille de données.
4.7 Conclusion
Dans ce chapitre, nous avons présenté la modélisation par Bio-PEPA qui a montré son utilité
et efficacité dans la reproduction optimale des modèles épidémiques. Ses outils offerts pour
une analyse ciblée ont permis de tester les résultats générés et de valider les solutions
proposées.
Nous avons aussi présenté un outil complémentaire à Bio-PEPA permettant d’approfondir
l’étape de vérification et de validation : Analyseur Bio-PEPA. Ce dernier est défini comme
étant une passerelle reliant l’expert et le modèle conçu, en traduisant ce dernier en un langage
narratif facilement interprétable par l’expert épidémiologique. Toutefois, bien que l’ensemble
(Bio-PEPA et l’analyseur) soit un outil prometteur pour des prédictions optimales et des
prises de décisions objectives, la conception du modèle reste dépendante des connaissances de
l’expert (épidémiologiste) qui est l’axe majeur sur lequel repose le modélisateur dans toute
étape de modélisation et simulation. Face à cette contrainte, nous proposons dans le chapitre
suivant d’enrichir les modèles épidémiologiques par les connaissances acquises d’un autre
processus qui va au-delà du savoir humain en outre la fouille de données.
Chapitre 5
Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
Sommaire
5.1 Introduction
5.2 Optimisation par fouille de données
5.3 Modélisation de la tuberculose : Cas de l’Algérie
5.3.1 Situation épidémique en Algérie
5.3.2 Modélisation de la tuberculose par Bio-PEPA
5.3.3 Processus d’optimisation par classification
5.3.3.1 Prétraitement des données
5.3.3.2 Sélection des attributs
5.3.3.3 Classification
5.3.3.4 Evaluation et interprétation
5.3.3.5 Optimisation du modèle
5.3.3.6 Simulation et analyse
5.3.4 Généralisation de l’approche par des données additionnelles
5.3.4.1 Prétraitement
5.3.4.2 Sélection des attributs
5.3.4.3 Classification par arbre de décision
5.3.4.4 Evaluation et interprétation
5.3.4.5 Optimisation du modèle
5.3.4.6 Simulation et analyse
5.3.5 Optimisation par règles d’association
5.3.5.1 Génération de règles
5.3.5.2 Evaluation et interprétation des règles générées
5.3.5.3 Optimisation du modèle
5.4 Conclusion
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
78
5.1 Introduction
Dans le chapitre précédent, nous avons proposé un modèle épidémiologique Bio-PEPA ainsi
qu’un outil complémentaire de vérification et de validation. Nous avons démontré que les
informations récoltées lors de la conception du modèle ont un impact majeur sur la cohérence
du modèle et les résultats de simulation. En effet, bien que l’approche telle que présentée a
prouvé ses performances dans la reproduction du schéma d’une épidémie, nous avons
démontré qu’une simple omission ou ignorance lors de l’interaction entre l’expert et le
développeur pourrait engendrer des erreurs de prédiction et accroitre le degré d’incertitude du
modèle. Ainsi, fournir des connaissances valorisantes pour une conception d’un modèle
épidémiologique optimal est un défi pour l’expert (épidémiologiste) qui aujourd’hui, fait face
à une panoplie d’informations et des données médicales massives. Afin d’optimiser les
modèles épidémiologiques en intégrant l’essentiel et ignorant le superflus, nous proposons
dans ce chapitre de combiner notre approche de modélisation, de vérification et de validation
à un processus d’extraction automatique des connaissances sans pour autant alourdir la phase
d’interaction entre l’expert et le développeur. Ce processus est mieux connu sous la
dénomination de fouille de données. A la lumière de cette nouvelle approche, il s’agit dans ce
chapitre d’évaluer ses performances au travers d’un exemple réel : la tuberculose en Algérie.
5.2 Optimisation par fouille de données
Dans une optique de modélisation et d’optimisation, ce chapitre est consacré à la conception
du modèle de la tuberculose en Algérie, où l’optimisation par fouille de données est proposée
comme troisième contribution et solution aux limites discutées au chapitre 4.
Le choix de cet exemple s’est automatiquement défini dans notre recherche et ceci pour deux
raisons élémentaires. La première raison est liée à l’impact de l’épidémie et l’urgence dont
font face les secteurs sanitaires. En effet, le choix de la tuberculose a été imposé par la cellule
épidémiologique de la commune Ain Tedles de Mostaganem (Algérie). Le centre
épidémiologique a souligné la gravité de cette épidémie qui continue de se propager et ce
malgré les traitements et prévention préétablis. La deuxième raison est davantage
méthodologique, en exploitant des épidémies qui touchent une grande partie de la population
dont les données sont récoltées, notre approche permet de démontrer jusqu’où la fouille de
données pourrait être envisagée comme étant une solution d’optimisation à la modélisation.
En d’autres termes, aux travers de cet exemple nous démontrons quelles sont les conditions
nécessaires pour une bonne exploitation des connaissances acquises de la fouille de données
au profit de la modélisation computationnelle.
La figure 5.1 présente l’ensemble des composants de notre approche, où les trois principaux
modules sont illustrés : modélisation et simulation, fouille de données et optimisation. Nous
commençons par considérer la première phase de notre approche qui contribue à l’élaboration
d’un modèle computationnel de prédiction de base, puis selon les résultats obtenus et selon le
rapport de l’expert le modèle sera optimisé.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
79
Figure 5.1 Optimisation des modèles épidémiologiques : Structure Générale5
Cette partie fait l’objet de trois publications :
Hamami, D., Atmani, B., & Shankland, C. (2017). Decision Support Based on Bio-PEPA
Modeling and Decision Tree Induction: A New Approach, Applied to a Tuberculosis Case Study
(Forthcoming). International Journal of Information Systems in the Service Sector, 9(2).
D.hamami, B.Atmani, R.Cameron, K.G.Pollock, C.Shankland. Improving process algebra model
structure and parameters in infectious disease epidemiology through data mining. En cours de
révision, Journal of Intelligent Information Systems (JIIS).
Hamami, D., & Atmani, B. (2016, October). Obtaining Optimal Bio-PEPA Model Using
Association Rules: Approach Applied to Tuberculosis Case Study. In International Conference on
Information Systems for Crisis Response and Management in Mediterranean Countries (pp. 62-
75). Springer International Publishing. http://dei.inf.uc3m.es/iscrammed2016/
5 Les étapes inclues dans la phase « data mining » telle qu’illustrée sur la Figure 5.1, se réfèrent à toutes les
étapes du processus d’extraction de données (ECD) et ne se limite pas uniquement à l’étape de la fouille de
données. Le choix du titre de la phase utilisé est pour des raisons de convenances.
Connaissances acquises de l’expert
6: Simulation et analyse
1: Définition du problème
2: Conception de l’étude
3: Conception du modèle
4: Définition du processus: entrées, sorties, règles et
hypothèses
5: Implémentation du modèle Bio-PEPA – Contribution
1
4: Ensemble de règles et d’attributs pertinents
3: - Arbres de décision -Règles d’association
2: Sélection des attributs
1: Nettoyage des données et transformation
Op
tim
isati
on
basi
qu
e
La
nga
ge
na
rra
tif
– C
on
trib
uti
on
2
Ph
ase
d’O
pti
mis
ati
on
Phase de fouille de données Phase de modélisation et de simulation
Données épidémiologi
ques
Ex
tra
cti
on
des
co
nn
ais
san
ces
– C
on
trib
uti
on
3
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
80
Ainsi, les différentes étapes constituant notre troisième contribution appliquée à l’épidémie de
la tuberculose sont :
1. Prétraitement des données épidémiologiques de la tuberculose;
2. Sélection des attributs ;
3. Application des arbres de décision et des règles d’association ;
4. Evaluation et interprétation des règles extraites et des attributs sélectionnés comme
meilleurs descripteurs;
5. Optimisation du modèle Bio-PEPA initial ;
6. Simulation et analyse.
Avant de décrire les différentes étapes, nous rappelons à ce niveau que notre principale
contribution réside dans le fait d’enrichir/raffiner le modèle computationnel initialement
conçu par les nouvelles connaissances acquises durant la phase de la fouille de données. De ce
fait, ces connaissances doivent être intégrées dans l’une des phases de modélisation décrite
dans le Chapitre 1. Ainsi, le processus d’optimisation est présenté comme suit :
Les étapes de 1 à 3 : sont identique au processus de l’ECD. Nous rappelons que ce dernier est
réalisé au fil de quatre étapes : (1) prétraitement des données, (2) sélection des attributs, (3)
fouille de données et (4) évaluation et interprétation (cf. Chapitre 3). Il est important de noter
que les méthodes et techniques citées dans le chapitre 3 associées aux processus de l’ECD
sont exploitées dans notre approche proposée, autant que boite noire. Pour une description
détaillée de ces techniques, nous invitons le lecteur à consulter les références correspondantes.
Toutefois, nous guidons le lecteur tout au long de ce chapitre sur le choix de l’utilisation de
certaines méthodes et algorithmes.
Dans la lumière des différentes descriptions et définitions présentées au cours du chapitre 3,
nous avons montré que le choix des algorithmes de fouille de données se base principalement
sur l’objectif de l’étude. Notre but dans ce chapitre étant de concevoir un modèle de la
tuberculose pour une prédiction optimale et pour une meilleure description et compréhension
de la dynamique de l’épidémie, se focaliser sur la tâche de classification ou sur les règles
d’association serait le moyen le plus approprié pour aboutir à nos fins. La motivation
d’utiliser la classification entre autre les arbres de décisions (méthode prédictive) est liée à
son aptitude à examiner les caractéristiques d’un objet et lui attribuer une classe. Cet objet
étant défini par un ensemble d’attributs, nous permettra de mieux cerner ceux qui sont les plus
pertinents à la conception de notre modèle en corrélation avec les classes qui leur sont
attribuées. Quand à notre motivation à utiliser les règles d’association (méthode descriptive)
est due à leur aptitude à déterminer les valeurs qui sont associées sans pour autant se focaliser
sur une classe particulière. Le choix d’exclure la segmentation (clustering) est justifié par le
fait que cette dernière consiste à former des groupes homogènes en faisant intervenir
l’ensemble des attributs. Ceci contredit notre objectif qui est celui de n’extraire que les
attributs pertinents. Quand à la régression, nous l’avons exclu pour des raisons liées au type
de données exploitées dans notre thèse.
- L’étape 4 : les nouvelles connaissances sont analysées par l’expert/développeur afin de
les classifier autant qu’entrée, sorties ou règle de la dynamique de la maladie et seront
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
81
intégrées à l’étape « définition du processus » décrites à la section 1.2.3 – Chapitre 1 et la
section 4.2.1 – Chapitre 4. Cette étape est la plus critique de notre approche car elle consiste à
sélectionner les éléments les plus pertinents pour enrichir/optimiser le modèle initial. Il est à
noter que d’une part l’expert doit intervenir pour affirmer l’utilité de cette nouvelle
connaissance qui lui a été inconnue (ou oubliée) jusqu’à présent. D’autre part, le développeur
doit affirmer le degré de complexité (faisabilité) du formalisme à pouvoir inclure
l’information sélectionnée.
- L’étape 5 : Suivant le processus de modélisation, nous rappelons que lors de l’étape
d’optimisation se basant sur les connaissances de l’expert, le processus retourne à l’étape
« définition du processus » afin de pouvoir revérifier les entrées, sorties et règles prédéfinies.
Il est à noter qu’ici, l’étape d’optimisation est similaire à celle définie dans la section 4.3
(chapitre 4), la seule différence est que les nouvelles connaissances sont acquises du
processus de la fouille de données au lieu de l’expert lui-même. L’intégration d’un nouvel
élément dans le modèle Bio-PEPA consiste à revisiter le(s) composent(s) qui lui correspond
en outre: les paramètres, les taux fonctionnels, les espèces, et les composants du modèle. Par
exemple, si l’attribut genre a été défini comme nouvelle connaissance, les individus (espèces)
seront redéfinis selon deux compartiments disjoints (mâle/femelle), où l’ensemble des
paramètres ainsi que les taux fonctionnels seront redéfinis pour chaque espèce. Par contre, si
une nouvelle règle a été détectée, les espèces resteront inchangées où uniquement les
paramètres et taux fonctionnels seront mis à jour. Il est important de noter qu’à ce niveau de
notre approche, pour ne pas tomber dans le piège d’une complexité croissante lors de
l’optimisation du modèle Bio-PEPA, il est utile de filtrer les connaissances pertinentes
extraites de la fouille de données et de n’inclure que celles qui se trouvent être les plus
appropriées et prioritaires vis-à-vis de l’expert et du développeur.
Afin d’optimiser au mieux le facteur temps et effort lors de l’intégration de nouvelles
connaissances, nous suggérons de prendre en considération les recommandations suivantes :
Commencer par intégrer les attributs qui existent déjà dans le modèle initial pour
lesquelles la fouille de données propose d’autres plages de valeurs correspondantes
que celle utilisé dans le modèle initial.
Sinon, ne considérer que les attributs qui ne sont pas utilisés dans le modèle initial
(s’ils existent) en ignorant le reste.
Ne considérer que les attributs qui semblent les plus probables à l’expert.
Sinon, refaire la phase de la fouille de données pour extraire de nouveaux patterns.
- L’étape 6 : la simulation du modèle optimisé permet d’évaluer les performances de
l’étape précédente et de valider le modèle épidémiologique conçu.
La particularité de notre approche est que les trois principales phases, en outre : modélisation
et simulation, fouille de données et optimisation, sont toutes itératives et interactives.
- Itérative : l’utilisateur pourra répéter chaque phase autant qu’il veut pour un modèle
optimal.
- Interactive : la répétition des étapes des phases n’est pas conditionnelle dans le sens où
l’utilisateur pourra retourner à n’importe quelle étape des phases.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
82
L’avantage de cette flexibilité est d’une part offrir à l’utilisateur le pouvoir de revenir sur
l’une des étapes du processus à tout moment afin d’optimiser au mieux les données les plus
pertinentes. D’une autre part, vu le caractère dynamique des épidémies, les données qui leur
sont associées le sont aussi. Ainsi, l’optimisation a besoin d’être mise à jour avec ces
nouvelles informations. Supposons par exemple, que le modèle computationnel a été validé,
mais la résurgence de l’épidémie a généré de nouveaux patterns, ceci implique une remise en
question du modèle préétabli et ainsi une optimisation du modèle conçu s’impose.
Toutefois, pour un processus de modélisation moins laborieux, il est judicieux de respecter
l’ordre des phases et étapes tel qu’il a été présenté.
5.3 Modélisation de la tuberculose : Cas de l’Algérie
5.3.1 Situation épidémique en Algérie
L’histoire de la lutte contre la tuberculose en Algérie remonte à 1964, où une unité centrale a
été mise en place par le ministère de la santé. Cette unité consistait à proposer de nouvelles
techniques pour le suivi et le traitement de la tuberculose.
Vers le début des années 70, l’unité conclue vers un engagement gouvernemental rendant
ainsi la vaccination contre la tuberculose gratuite, aussi le diagnostic, le traitement et la
surveillance ont été déclarés obligatoires pour les maladies infectieuses (INSP, 2006). Pour
cet effet, un Service d'Epidémiologie et Médecine Préventive (SEMEP) a été crée en 1985 au
sein de chaque secteur sanitaire du territoire Algérien. Le SEMEP est un service de collecte,
d'analyse et d'interprétation des données sanitaires pour la description et le suivi continue des
épidémies. Aussi, le service SEMEP prend en charge tous les protocoles de vaccination qu’ils
soient préventifs ou curatifs (pour adulte, enfant et nouveau né), ceci en collaboration avec
différents points sanitaires tels que le centre de protection maternelle et infantile (PMI).
Suite à cet engagement et structuration, la santé publique a constaté une croissance
considérable du nombre de demandeurs de soins, favorisant le dépistage de la tuberculose et
ainsi une meilleure stratégie de prévention a été adoptée. Cependant, dès le début des années
90, le pays s’est retrouvé face à une instabilité politique, qui par conséquent a influencé le
secteur médical. La majorité des équipes sanitaires en général et celle en charge du suivi de la
tuberculose en particulier, se sont retrouvés isolés et démunis de supports techniques, de
diagnostiques appliqués et de rupture de stock de médicaments. Ceux-ci ont favorisé la
réémergence des cas tuberculeux.
Dix ans après, à la demande de la région d’Afrique de l’OMS (Organisation Mondiale de la
Santé), le programme de lutte contre la tuberculose a été relancé. Cependant, en dépit des
avancées significatives en médecine et bien qu'aujourd’hui le programme de vaccination est
bien élargi, la tuberculose continue d'affecter les populations humaines dans beaucoup de
régions du monde. En 2014, l’OMS a estimé 9,6 millions de nouveaux cas de tuberculose
répartis dans le monde, où l’Inde, l’Indonesie et la China comptent pour 43% du nombre total
déclaré (cf. figure 5.2). Pour certains pays la tuberculose demeure une maladie mortelle
notamment en Inde, l’Indonésie et le Niger, où le nombre de décédés par la tuberculose a
atteint 40 morts par 100000 habitants (cf. figure 5.3) (WHO, 2015). En Algérie, en 2014 plus
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
83
de 22000 cas tuberculeux ont été signalés dont 39% pulmonaires contagieux. L’incidence de
l'infection de la tuberculose en Algérie est illustrée sur le tableau 5.1. Malgré l’amélioration
globale de la situation en Algérie, les résultats demeurent insuffisants face à la contagiosité de
la maladie (WHO, 2015).
Pour réduire le fardeau global de la tuberculose et maitriser sa propagation, il faut combler les
lacunes en matière de détection et de traitement et mettre au point de nouveaux outils de
diagnostique. Ceux-ci induisent à prendre en compte certains facteurs déterminants de la santé
qui ont une incidence sur le bien être: niveau de revenu et situation sociale, réseaux de soutien
social, niveau d'instruction, emploi et conditions de travail, environnements sociaux, contexte
géographique, environnements physiques, développement sain dans l'enfance, culture, etc. Le
développement actuel de la tuberculose fait que ces variables font partie des éléments étudiés
par les épidémiologistes pour l’expliquer, et prendre des mesures radicales pour l’éradiquer.
Ces actions correctives nécessitent des indicateurs et des méthodes de diagnostic et
d’évaluation des risques incluant des variables pertinentes, facilement calculables et
interprétables. D’où notre contribution de proposer un système d’aide à la décision et au
diagnostic.
Figure 5.2 Incidence de la tuberculose dans le monde (OMS, 2016)
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
84
Figure 5.3 Mortalité due à la tuberculose dans le monde (OMS, 2016)
Tableau 5.1 Incidence de la tuberculose en Algérie (taux pour 100000)
Année
Incidences
TPM+1 TEP
2 TB
3
2001 26.2 26.9 60.1
2002 26.9 28.1 60.9
2003 27.3 28.7 62.8
2004 26.0 29.7 63.2
2005 26.6 31.3 65.5
2006 26.2 31.4 65.2
2007 25.8 31.4 63.3
2008 25.2 28.2 58.6
2009 24.5 32.4 63.3
2010 23.1 32.7 60.7
2011 21.7 33.3 59.9
2012 19.4 32.7 56.7
2013 18.6 31.1 53.5
2014 17.2 35.4 57.2
1TPM+: tuberculose pulmonaire à microscopie positive.
2TEP: tuberculose extra-Pulmonaire
3TB: tuberculose toutes formes confondue
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
85
5.3.2 Modélisation de la tuberculose par Bio-PEPA
La tuberculose est une maladie infectieuse. Elle est considérée fortement contagieuse et
dangereuse quand l’individu hôte n’est pas sous surveillance ou sous traitement, étant latente
à très longue période (au plus 5 ans), l’individu porteur de la tuberculose pulmonaire peut être
considéré un danger permanent qui peut contaminer la population en tout instant. Les données
fournies par le service épidémiologique de la Daira de Ain Tedles (Mostaganem) montrent
que durant la période de 2008 au début 2013, sur 999 cas tuberculeux, 60% sont diagnostiqués
à tuberculose pulmonaire. Plus encore, 60% des nouveaux cas sont classifiés tuberculeux
pulmonaires.
a. Interaction expert/modélisateur
Nous proposons dans cette section de modéliser la dynamique de la tuberculose au sein de la
population de Mostaganem, commune Ain Tedles (Algérie). Pour cela le modèle à
compartiments schématisé sur la figure 5.4, a été adopté. Nous rappelons que la première
étape du processus de modélisation décrite dans le chapitre 4 est l’interaction
expert/modélisateur. Ainsi, cette structure est basée en premier lieu sur les connaissances
acquises de l’expert et que pour ce modèle de base aucun outil d’acquisition de connaissances
n’a été à lors utilisé.
Le modèle ainsi présenté, est structuré selon huit compartiments :
Susceptible : un individu est considéré susceptible s’il est à risque de contracter la
maladie
Diagnostiqué infecté : un susceptible ayant été en contact avec un tuberculeux et
présentant les signes de la maladie est considéré infecté.
Guérit : un individu est considéré guéri, si à la fin de son traitement les tests
bactériologiques sont déclarés négatifs.
Décédé : si au cours de son traitement, l’individu infecté décède.
Traitement terminé : si l’individu infecté a terminé son traitement mais n’a pas
effectué les tests bacilloscopiques de la dernière phase.
Perdu de vue : l’individu a été diagnostiqué infecté mais n’a suivi aucun traitement ou
traitement inachevé.
Echec : si l’individu a suivi tout le processus de son traitement mais les tests de la
dernière phase se sont révélés positifs.
Transféré : si l’individu est déclaré résistant à la tuberculose.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
86
Figure 5.4 Modèle à compartiments de la tuberculose
Tel qu’illustré sur la figure 5.4, une fois l’individu susceptible diagnostiqué, il est transféré
vers le compartiment des infectés. A son tour l’individu infecté et traité est transféré vers l’un
des six états (guéri, décédé, traitement terminé, perdu de vue, échec, transféré). Il est à noter
que :
Parce que le traitement ne permet pas une immunité à vie, un individu guéri revient
automatiquement vers l’état susceptible.
Due à l’échec de l’individu au traitement, ce dernier reste infecté et revient
automatiquement vers l’état infecté.
Les individus perdus de vue sont considérés comme étant toujours infectés et donc
sont renvoyés automatiquement vers l’état infecté.
b. Conception du modèle formel par Bio-PEPA
Selon le processus de modélisation, l’étape suivante est la conception formelle du modèle par
Bio-PEPA. Tel que décrit dans le chapitre 4, cette étape consiste à exploiter les informations
collectées lors de l’étape précédente (les entrées, les sorties, les règles et hypothèses) et de
concevoir le modèle épidémique.
Dans ce contexte, nous avons développé le modèle de la tuberculose selon le formalisme Bio-
PEPA. Les notions de base de ce formalisme ont été rappelées dans le chapitre 1. En outre,
pour un modèle Bio-PEPA, nous définissons les paramètres du modèle, les espèces, les taux
fonctionnels, les compartiments et les composants du modèle.
Paramètres : Les paramètres décrivant les flux des transitions, tels que schématisées
sur la figure 5.4, sont présentés dans la figure 5.5 (cf. de la ligne 1 à 8) et résumés sur le
tableau 5.2. Ces paramètres ont été calculés à partir des données fournies par le service
épidémiologique de la Daira de Ain Tedles (Mostaganem) ou des travaux de tuberculose
existants (DeEspindola et al., 2011 ; Aparicio et Castillo-chavez, 2009). Au total, huit
paramètres sont nécessaires pour concevoir ce modèle de la tuberculose. Chaque arc
schématisé sur la figure 5.4 est relatif à un paramètre. Cependant, pour notre modèle, les trois
arcs représentés par ( ) ne sont pas paramétrés car il s’agisse de retour instantané des
individus aux états concernés. Au-delà de ces paramètres explicites, nous définissons dans
notre modèle le paramètre « population size ». Nous considérons dans notre modèle une
t
6
Recovered Transferred Trt_comp Died
Diagnosed infected TP
1 2 5 4
1
Failed Lost
3
Susceptible
Diagnosed
infected TP
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
87
population constante. Le fait que la population reste constante pendant toute la période d'étude
n'a pas un impact important sur le comportement de la maladie. En effet, le temps de
simulation est court par rapport à la durée de vie d'un individu, et chaque individu déjà infecté
est automatiquement transféré vers l’un des compartiments définis dans le modèle qui
permettent soit de garder l’individu ou de le transférer vers un autre compartiment, et ainsi de
suite. La tuberculose est définie par une période de latence. Cependant, cette dernière peut
varier de deux mois à plusieurs années (environ 5 ans). Due à cette variabilité et à l’objectif
de suivre l’évolution des individus infectés en cours de traitement, nous avons opté d’ignorer
cette période de latence dans notre schéma en l’intégrant directement dans la période
d’infectiosité. Ainsi, en cas de contamination et selon le nombre d’infectés enregistrés, les
individus susceptibles transitent directement vers l’état infecté. Le taux de transmission p
(infection) est calculé en fonction de la probabilité d’infection, du nombre de contact entre
individus et de la période d’infectiosité.
Figure 5.5 Modèle de la tuberculose en BIO-PEPA
1 P= 0.000000075;
2 θ1 =0.00034;
3 θ2 =0.0032;
4 θ3 =0.00014;
5 θ4 =0.0011;
6 θ5 =0.00007;
7 θ6 =0.00069;
8 size-Population = 137990;
9 Location City : size = size-Population, type = compartment;
10 kineticLawOf susceptible_infected : P* Susceptible@City* Infected@City;
11 kineticLawOf Failure : θ1 * Infected@City;
12 kineticLawOf Recovery : θ2 * Infected@City;
13 kineticLawOf Transfer : θ3 * Infected@City;
14 kineticLawOf End_Treatment : θ4 * Infected@City;
15 kineticLawOf Death : θ5 * Infected@City;
16 kineticLawOf Loss : θ6 * Infected@City;
17 Susceptible = (susceptible_infected,1) << Susceptible ;
18 Infected = (susceptible_infected,1) >> + (Recovery,1) << + (Failure,1)
<< + (Transfer,1) << + (End_Treatment,1) << + (Death,1) << + (Loss,1)
<< ;
19 Failed = (Failure,1) >> Failed ;
20 Recovered= (Recovery,1) >> Recovered ;
21 Transfere=(Transfer,1) >> Transfere ;
22 Trt_comp=(End_Treatment,1) >> Trt_comp ;
23 Died = ( Death,1) >> Died;
24 Lost = (Loss,1) >> Lost ;
25 Susceptible@City[137990]<*> Infected@City[15]<*> Recovered@City[0]
<*> Transfere@City[0]<*>Trt_comp@City[0]<*> Died@City[0]
<*> Lost@City[0] <*>Failed@City[0]
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
88
Le nombre de contacts, tel que défini par Aparicio et Castillo-Chavez et al. (2009), est le
nombre total des infections secondaires causées par un infecté dans une population de
susceptible. Le nombre de contact est estimé en moyenne entre 7 et 30 et la période
d’infectiosité entre six mois et deux ans (Aparicio et Castillo-Chávez et al., 2009). L’étude
épidémiologique sur la tuberculose de Lincoln (1965) a identifié des individus infectieux
capables de transmettre la maladie à plus de 200 personnes en quelques mois. Les paramètres
i (i=1..6) sont définis en fonction de la période d’infectiosité et de la probabilité
« x_probability », où x {Transfer, Failure, Lost, Treatment, Death, Recovery}. Les
probabiltés sont calculées des données fournies par le service épidémiologique.
Espèces : Dans Bio-PEPA, les espèces représentent les compartiments6 (états) définis
dans la figure 5.4. Chaque espèce se rapporte à un type d’individu. Dans notre modèle, nous
définissons huit espèces, de la ligne 17 à 24 (susceptible, infecté, guérit, décédé, perdu de vue,
traitement terminé, échec et transféré). La variation (croissance/décroissance) de la densité
(quantité) des espèces est suivant les opérateurs et actions auxquelles elles sont reliées. Par
exemple, quand l’action « susceptible_infected » est exécutée, l’opérateur « >> » est invoqué
et ainsi la densité de l’espèce infecté accroît, car les susceptibles sont infectés et donc
6 A ne pas confondre avec le terme compartiments de Bio-PEPA, qui est un composant du formalisme
Tableau 5.2 Paramètres du modèle
Paramètre Description Valeur Formule
p Taux d’infection à partir
de l’état susceptible 5.4 e
-8 (Contact _ Number / Infection_Period )*
Infection_Probability 1 (Keeling and Rohani,
2008).
θ 1 Taux de transfert 0.1 e-3
(1/ Infection_Period) * Transfer
_Probability1 (Keeling and Rohani, 2008).
θ 2 Taux d’échec 3.7 e-4
(1/ Infection_Period) * Failure_Probability
θ 3 Taux de perdue de vue 8.5 e-3
(1/ Infection_Period)* Lost _Probability1
θ 4 Taux de traitement
terminé 7.8 e
-4 (1/ Infection_Period)*
Treatment_completed_Probability
θ 5 Taux de mortalité 1.9 e-4
(1/ Infection_Period)* Death_Probability1
θ 6 Taux de guérison 4 e-4
(1/ Infection_Period)* Recovery_Probability1
t Taux des guéris transitant
à l’état susceptible 1
Tous les guéris reviennent à l’état susceptible
ɳ1 Taux des échecs
retournant à l’état infecté 1 Tous les échecs reviennent à l’état infecté
ɳ Taux des résistants
retournant à l’état infecté 1 Tous les perdus de vue reviennent à l’état
infecté
Contact
Number
Nombre de contacts avec
un infecté 27 Compris dans l’intervalle [7,30]
(Aparicio et Castillo-chavez, 2009)
Infection
Period
(month)
Période de l’infection 6 Compris dans l’intervalle [6,24]
(Aparicio et Castillo-chavez, 2009)
1Les probabilités sont calculées des données observées.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
89
transférés à l’état infecté. Par analogie, l’action « recovery » invoquant l’opérateur « << »
décroît le niveau des infectés qui sont guéris et transitent vers l’état guérit.
Taux fonctionnels : telles qu’illustrées sur la figure 5.5, de la ligne 10 à 16, les taux
fonctionnels ainsi définis permettent de spécifier le degré d’évolution des espèces. Ainsi,
chaque action spécifiée dans la partie « espèces », est définie dans la partie « taux
fonctionnels ». Par exemple, le taux fonctionnel « susceptible_infected » est défini par le
contact entre susceptible et infecté selon un taux d’infection « p ».
Compartiments : Bio-PEPA permet d’attribuer une location particulière à un type
d’individu particulier. Dans notre modèle, les individus sont homogènes et donc appartiennent
à la même zone d’étude (cf. figure 5.5, ligne 9). Ainsi dans ce modèle, nous définissons une
seule zone « City ».
Le composant modèle : définit la densité initiale des espèces et leurs interactions. Il est
à noter que toutes les espèces définies dans le modèle sont initialisées dans cette partie (cf.
figure 5.5, ligne 25).
c. Simulation et analyse par Bio-PEPA
Tel que décrit dans le chapitre 1, Bio-PEPA permet de simuler le modèle conçu et de
l’analyser selon différentes techniques d’analyse. Pour cela, deux types de simulation ont été
réalisées : simulation stochastique et simulation déterministe. Du fait que la simulation
déterministe génère les mêmes résultats que la moyenne de 100 simulations stochastiques,
nous allons illustrer dans les résultats uniquement une seule série de résultats de simulation.
Ces derniers seront nommés « données simulées ». Les résultats sont comparés aux données
observées. Nous rappelons que les données collectées et fournies par le service
épidémiologique de Ain Tedles (Mostaganem) s’étalent de l’année 2008 à 2012. Etant donné
que certains paramètres sont calculés à partir des données observées, le tableau 5.3 schématise
la période utilisée selon l’année de prédiction. Par exemple, afin de prédire l’année 2009, les
paramètres du modèle sont calculés en utilisant les données de l’année 2008, et pour prédire
l’année 2010, la moyenne des données des années 2008 et 2009 est utilisée, et ainsi de suite.
La figure 5.6 illustre l’évolution de la population tuberculeuse après traitement en moyenne
de 100 simulations selon le modèle à compartiments (SEIR) tel que présenté dans la
figure 5.4. En utilisant une analyse statistique par ANOVA (two way) suivi par Tukey
(comparaison multiple), il a été démontré qu’au-delà de 100 simulations les résultats ne sont
pas statistiquement différents, d’où la limitation d’une moyenne de 100 simulations par
expérimentation. Les histogrammes ainsi illustrés correspondent au comportement de la
maladie durant une année d’épidémie où la simulation démarre à l’instant t=0 et s’arrête à
l’instant t=364. Initialement (à l’instant t=0), le système n’est défini que par les individus
susceptibles et infectés. Pour une meilleure précision du modèle, nous avons opté de valider le
modèle correspondant aux années 2009, 2010, 2011 et 2012. L’année 2008 a été exploitée
comme année de référence afin de paramétrer le modèle. Les histogrammes ainsi illustrés (cf.
figure 5.6), montrent l’évolution des états des individus : guéris, perdus de vue, décédés,
transférés, échoués et traitement terminé. Ces derniers sont comparés aux histogrammes des
données observées.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
90
Simulation pour l’année 2009
Les histogrammes (cf. figure 5.6) montrent clairement une parfaite similarité entre les deux
modèles (observé, simulé). Ceci implique que les paramètres utilisés et la structure établie
selon le modèle conceptuel élaboré par l’expert et le développeur représente correctement le
processus réel de l’épidémie de la tuberculose pour l’année 2009. Selon le processus de
traitement suivi par les individus tuberculeux détectés, les histogrammes tels qu’illustrés
correspondent aux états des individus après 180 jours de traitement. Afin de renforcer la
validité des résultats pour l’année 2009, le test d’ajustement Khi2 (2) a été appliqué à 5% de
niveau de confiance, où le fait que les données simulées suivent la même distribution que les
données observées a été adopté autant qu’hypothèse nulle (H0), tandis que l’hypothèse
alternative (H1) correspond au cas où les données simulées suivent une toute autre distribution
différente de celle des données observées. Les résultats dérivants de cette analyse montrent
clairement que : 2 = 0.381, degrés de liberté = 3, valeur-p = 0.944, d’où la conclusion qu’il y
a une évidence insuffisante à un niveau de 5% de rejeter l’hypothèse H0 en faveur de
l’hypothèse H1. De ce fait, la déclaration que les données observées ne sont pas différentes
des données prédites est confirmée. A ce niveau et selon cette conclusion, l’optimisation du
modèle n’est pas requise et le modèle ainsi conçu est considéré comme valide.
Figure 5.6 Modèle de la tuberculose pour l’année 2009
2 3
5 4
47 48
11 9
2 3
14 13
0
5
10
15
20
25
30
35
40
45
50
Données simulées Données observées
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Tableau 5.3 Année de prédiction vs ensemble de données
Année de prédiction 2009 2010 2011 2012
Ensemble d’années utilisé 2008 2008-2009 de 2008 à 2010 de 2008 à 2011
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
91
Figure 5.8 Extrait de règles du modèle Bio-PEPA 2010 de « Analyseur Bio-PEPA »
Simulation pour l’année 2010
Le modèle ainsi validé dans la section précédente est exploité pour simuler l’année suivante
(2010) où les mêmes paramètres sont reportés.
La figure 5.7 illustre les états des individus infectés en 2010 et qui ont été enregistrés pour le
protocole de traitement de 180 jours. Même si les résultats montrent une parfaite similarité de
l’état guérit entre les données simulées et observées (44 individus infectés traités ont été
guéris), il ressort de cette simulation une instabilité des résultats correspondants aux autres
états, en particulier les états des perdus de vue et traitement terminé, où l’écart est estimé à 9
individus pour les « perdus de vue » et 9 individus pour les « traitement terminé ». Cependant,
il apparait clairement que l’état des perdus de vue est plus alarmant du fait que les résultats de
simulation lui correspondant sous-estime le niveau réel d’infection contrairement à l’état
Figure 5.7 Modèle de la tuberculose pour l’année 2010
2 4 4
7
44 44
9
18
2 1
14
5
0
5
10
15
20
25
30
35
40
45
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
92
traitement terminé qui est surestimé. De plus, les individus perdus de vue sont le groupe le
plus important en nombre après les guéris, où ils représentent 23% des individus infectés, or
nous observons uniquement 12% pour les données simulées. Cet écart est d’autant plus
important, car les individus perdus de vue, de par leur caractéristique, sont des individus qui
ont été détectés et enregistrés pour un traitement mais pour des raisons inconnues ne l’ont pas
démarré et ne sont jamais revenus pour un suivi médical. En conclusion, les individus perdus
de vue demeurent infectés et un risque ambulant pour la population. Ne pas identifier et
prédire correctement ce type d’individus, pourrait causer une invasion de l’épidémie pour les
années futures, d’où la nécessité urgente d’y remédier. Le modèle que nous avons conçu est
inapproprié pour prédire l’année 2010, ainsi, une optimisation s’impose. Selon les étapes du
processus de modélisation et simulation définis au chapitre 4, l’étape d’optimisation consiste à
revenir vers l’étape « modèle conceptuel » et vérifier les concepts « entrées, sorties, règles et
hypothèses ».
Afin de simplifier se processus, nous avons appliqué notre méthode de validation
(contribution 2) décrite au chapitre 4. Nous rappelons que cette méthode consiste à traduire le
langage formel Bio-PEPA en un langage narratif, ainsi les énoncés de l’expert seront
facilement vérifiés et validés.
La figure 5.8 présente un extrait de règles traduites du code Bio-PEPA. Cet ensemble
d’informations a été présenté à l’expert qui a validé son contenu. L’expert a donc affirmé que
les informations reportées dans le modèle correspondent aux principes du processus de la
tuberculose définis dans le modèle conceptuel. Toutefois, l’expert a suggéré que les valeurs
des paramètres utilisés pour prédire l’année 2009 peuvent être inappropriées pour prédire
l’année 2010. L’expert a argumenté que la tuberculose est une maladie très instable. Ceci est
dû en particulier à :
- La variabilité des états des individus d’une part,
- La possibilité qu’un infecté guéri puisse rechuter d’autre part.
Cependant, l’expert n’était pas en mesure de nous guider davantage vers un paramétrage
permettant de raffiner notre modèle.
Comme solution, nous avons opté de varier les valeurs des paramètres selon les plages
proposées dans la littérature : contact_ number and infection_period (cf. tableau 5.2). Une
série d’expérimentations montre que les résultats sont insensibles aux nouvelles valeurs et que
les données simulées sont différentes des données observées. Les résultats convergent vers les
mêmes histogrammes que ceux de la figure 5.8. Cet exemple prouve bien l’incapacité de
l’expert à nous enrichir avec plus de connaissances même si le modèle conçu lui a été
présenté dans un langage qui lui est bien familier et qu’il a validé. Par conséquent, les
questions suivantes se posent : Que s’est-il passé en 2010 que l’expert ignore ? Quelle
information est omise de notre modèle ? Quel attribut/paramètre peut expliquer cet écart entre
données simulées et observées ? Face à cet obstacle et à l’invalidité de l’expert à enrichir
notre modèle par d’autres connaissances, nous proposons d’utiliser la contribution majeure de
notre travail de thèse qui concerne l’optimisation du modèle par des connaissances extraites
de la fouille de données.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
93
Nous rappelons qu’une optimisation du modèle computationnel par fouille de données
nécessite le passage vers une autre phase que celle de la modélisation et simulation, c’est la
phase de fouille de données (data mining). Dans ce qui suit, nous allons appliquer les
différentes techniques de la fouille de données : classification et règles d’association.
Cependant, pour chaque technique nous allons la faire suivre par une phase d’optimisation.
Autrement dit, nous allons procéder comme suit :
- Appliquer la classification ;
- Extraire les attributs pertinents ;
- Appliquer l’optimisation du modèle Bio-PEPA ;
- Simulation et analyse des résultats ;
- Appliquer les règles d’association ;
- Extraire les attributs pertinents ;
- Appliquer l’optimisation du modèle Bio-PEPA ;
- Simulation et analyse des résultats ;
- Effectuer une étude comparative.
5.3.3 Processus d’optimisation par classification
Cette phase consiste à appliquer les étapes du : 1) Processus d’extraction des connaissances
(ECD : prétraitement et sélection des données, fouille de données et validation) ; 2)
Optimisation ; 3) Simulation et analyse.
Pour la phase de l’ECD, nous pouvons utiliser l’un des logiciels de fouille de données
(Orange, Weka, Tanagra, etc.). Dans notre cas, une large recherche bibliographique nous a
mené à opter pour Weka (Sharma et Jain, 2013 ; Hall et al., 2009 ; Sharma et al., 2012.
Gibert, et al., 2008). Tel que reporté par Hall et al. (2009) : « WEKA est reconnu comme un
système de point de repère dans l'extraction de données et de l'apprentissage machine. Etant
un outil de recherche et d’exploration de grandes bases de données, Weka a obtenu une large
acceptation au sein du milieu académique, des sociétés et des entreprises ».
La plateforme Weka (Waikato Environment for Knowledge Analysis) est une collection
d’algorithmes d’apprentissage automatique. Développé en Java par l’université de Waikato
(Nouvelle Zlande), Weka permet d’explorer une multitude de techniques prédictives et
descriptives au moyen d’outils de visualisation et d’algorithmes tels que la classification et les
règles d’association.
Ainsi, notre choix d’utiliser cette plateforme se base sur deux principales motivations. La
première est liée à son vaste panel d’algorithmes offerts et son environnement de
visualisation, ce qui ouvre l’initiative d’effectuer une large étude comparative. La deuxième
est due à son langage de développement. Etant donné que Bio-PEPA est également développé
en Java, nous avons trouvé judicieux et plus facile d’utiliser Weka pour une initiative
d’intégration. Le fait que Weka prend en charge différent formats de données tels que ARFF
et CSV, représente un point complémentaire dans notre projet, car le plugin Bio-PEPA offre
également la sortie des résultats en format CSV.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
94
Les étapes de l’ECD nécessitent au préalable le chargement des données, fournies par le
service épidémiologique de Ain Tedles, dans la plateforme Weka. Les données sont
initialement sous format Excel. Une simple modification sous format CSV nous permet de
visualiser et d’exploiter les données via Weka. Le tableau 5.4 décrit les différents attributs de
la base de données de la tuberculose.
5.3.3.1 Prétraitement des données
L’étape de prétraitement consiste à traiter les bruits, les valeurs aberrantes, les valeurs
manquantes, la duplication ainsi que d’effectuer une transformation des données si nécessaire.
Selon le processus défini au chapitre 3, cette étape se résume en deux points : nettoyage et
transformation.
Tableau 5.4 Les attributs de la base de données de la tuberculose
Attributs Description
Age Age de l’individu
Sexe Homme/Femme
Mois Mois de détection
Trim Trimestre de détection
Annee Année de détection
Location Tuberculose à BK positif ou négatif (BK+, BK-)
Com Commune
Daira Daira
Adress Rue, code postal, etc.
Date_Debut_TRT Date de démarrage du traitement
Typmal Nouveau/Repris/Echec/Autre
Bacil1, Bacil2, Bacil3
Bacilloscopie1, Bacilloscopie 2, Bacilloscopie 3 sont les résultats du test
bactériologique (MM: negative, MP: positive, NF : non fait)
AretTRT
Etat du patient à la fin du traitement:
Lost: individu diagnostiqué infecté mais non traité, c’est un perdu de vue,
Failed: traité mais non guérie,
Echec : traité mais sans succès,
Trt_comp: traitement terminé mais sans aucune preuve de guérison des
résultats bactériologiques,
Died : Décédé,
Transferred: résistant à la tuberculose,
Recovered : Guéri.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
95
a. Nettoyage
Afin d’entamer une étape de nettoyage nous avons exploré les possibilités offertes par Weka.
Lors de la phase de prétraitement, Weka met à la disposition de l’utilisateur une panoplie
d’algorithmes répondants au mieux aux besoins de l’utilisateur. Ces derniers ont été
parcourus soigneusement et nous avons retenu : Remove, Removeuseless,
Removemissingvalue (Witten et al., 2011).
Remove : Consiste à supprimer des attributs et des instances n’ayant pas de rapport avec notre
étude. En effet, notre base de données étant constituée de tout type de tuberculeux
(pulmonaire et extra-pulmonaire) nous devions filtrer ceux tuberculeux pulmonaires des
extra-pulmonaires. La tuberculose extra-pulmonaire est une maladie non contagieuse, ce qui
l’exclu de notre étude. L’élimination des attributs en relation avec ce type de maladie
implique une suppression de toutes les instances et attributs qui s’y réfèrent. Les attributs :
Preuve, Location Siège, Régime, ont été supprimés.
Removemissingvalue : Avant d’appliquer cette fonction, nous avons préféré évaluer le nombre
de valeurs manquantes dans notre base. Afin de détecter les valeurs manquantes, Weka
permet de visualiser les données en histogrammes. Cette opération nous a permis de discerner
trois valeurs dont l’attribut est Address et une valeur dont l’attribut est Date_debut_Trt.
N’étant pas nombreuses, nous avions le choix entre remplacer le vide par des valeurs
adéquates ou supprimer toute l’instance. Pour cela, Weka offre deux fonctions
Replacemissingvalue et Removemissingvalue.
Replacemissingvalue : est une fonction qui permet de remplacer le vide par la moyenne (resp.
médiane) des valeurs numériques (resp. des valeurs nominales). Dans notre cas, cette
fonction n’est pas adéquate car l’attribut Address étant en forte corrélation avec les attributs
Com et Daira, il est impossible de simplement le remplacer par la moyenne/médiane.
Removemissingvalue : est une fonction qui permet de supprimer les instances
correspondantes. N’étant pas nombreuses, nous avons opté de consulter l’avis de l’expert. Ce
dernier connaissant les individus en question a pu nous fournir leurs adresses.
Après avoir analysé l’attribut Date_debut_Trt, il a été constaté que les valeurs
correspondantes représentent le mois de la détection de la maladie chez le patient, or l’attribut
Mois existe déjà. Ainsi, l’attribut Date_debut_trt est une redondance, ceci implique la
suppression de cet attribut.
Removeuseless : cette fonction permet de supprimer les attributs de type nominal pour
lesquels les valeurs sont trop ou peu variables. Effectivement avoir trop de distinction dans
notre base risque de faire dériver le processus de classification, par exemple, vers un arbre
trop volumineux. Pour cela, nous avons spécifié le nombre de valeurs distinctes par rapport
au nombre total des instances à 90%, n’ayant rien donné, nous l’avons fait varier jusqu’à
60%, où les attributs : Address et Trim ont été supprimés.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
96
Supprimer les attributs Address et Trim n’a pas d’impact sur l’étude, car la location des
patients est désignée par d’autre attributs que l’attribut Address, tels que la commune (Com)
et la daira (Daira). L’attribut Trim peut être référencé par l’attribut Mois.
L’opération de nettoyage a permis de réduire le nombre des attributs de 18 à 11 attributs.
b. Transformation
Parmi 12 attributs restants, neuf sont nominaux et trois sont numériques (âge, mois, année).
Nous rappelons que l’âge des patients est inclus dans l’intervalle [3,94]. Exploiter ce type de
données conduirait à un nombre important de règles ou à une taille massive des arbres de
décision. Tel que cité par Witten (Witten et al., 2011), quelques algorithmes de la fouille de
données fonctionnent plus lentement avec des attributs numériques, parce qu’ils ont besoin
constamment de trier les valeurs des attributs. Ces raisons nous conduisent à appliquer la
discrétisation, plus particulièrement la discrétisation des âges.
L’application de la fonction Discretize de Weka conduit à l’affectation des instances à l’un
des neuf groupes [0,4], [5, 14], [15, 24], [25, 34], [35, 44], [45, 54], [55, 64], [65, 74], [75,94]
que nous avons renommé de A0 à A8.
Certains algorithmes de fouille de données, tels que les règles d’association, ne peuvent
fonctionner avec des attributs numériques, d’où l’obligation de transformer tout attribut
numérique en attribut nominal. Ainsi la fonction Numercitonominal a été appliquée afin de
transformer les valeurs de l’attribut Année en valeurs nominales. Il est à noter que même si les
fonctions Numercitonominal et Discretize œuvrent pour transformer un attribut numérique en
nominal, ceci est effectué de manière tout à fait disjointe, quand la première fonction
transforme chaque valeur numérique en valeur nominal, la deuxième fonction divise
l’ensemble des valeurs en groupes où les instances y sont affectées.
5.3.3.2 Sélection des attributs
Tel que nous l’avons spécifié dans le chapitre 3, la sélection des attributs est une étape
importante dans le processus de l’ECD, dans le sens où les attributs les plus appropriés sont
sélectionnés. Ainsi, réduire l’espace des attributs mène à réduire le temps d’apprentissage,
réduire le temps d’exploitation des algorithmes de fouille de données et améliorer la qualité
des connaissances extraites. Afin d’achever au mieux cette étape de sélection, Weka met à la
disposition de l’utilisateur un ensemble d’algorithmes d’évaluation des attributs qui se
réfèrent aux approches citées dans le chapitre 3 (cf. § 2.1.3). Le tableau 5.5 résume ces
différents algorithmes. Les algorithmes d’évaluation à eux seuls ne peuvent accomplir
proprement l’opération de sélection, une recherche des groupes d’attributs est nécessaire.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
97
Tableau 5.5 Algorithmes de sélection des attributs (Witten et al., 2011)
Algorithme Nom
Attribute Subset Evaluator
CfsSubsetEval
ClassifierSubsetEval
ConsistencySubsetEval
CostSensitiveSubsetEval
FilteredSubsetEval
WrapperSubsetEval
Single-AttributeEvaluator ChiSquaredAttributeEval
CostSensitiveAttributeEval
FilteredAttributeEval
GainRatioAttributeEval
InfoGainAttributeEval
LatentSemanticAnalysis
OneRAttributeEval
PrincipalComponents
ReliefFAttributeEval
SymmetricalUncertAttributeEval
Tableau 5.6 Méthodes de recherché pour la sélection des attributs (Witten et al., 2011)
Algorithme Nom
Search Method BestFirst
ExhaustiveSearch
GeneticSearch Search
GreedyStepwise
LinearForwardSelection
RaceSearch
RandomSearch
RankSearch
ScatterSearchV1
SubsetSizeForwardSelection
Ranking Method Ranker
Ainsi, Weka propose un ensemble d’algorithmes de recherche, tels que résumés sur le
tableau 5.6. Le processus de sélection consiste à appliquer en premier les algorithmes de
recherche, ceux-ci génèrent un ensemble d’attributs qui sont par la suite évalués par les
algorithmes d’évaluation. Pour une sélection plus optimale, nous avons opté d’appliquer
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
98
toutes les combinaisons possibles entre algorithmes de recherche et algorithmes d’évaluation.
Au total, 176 (16*11) expérimentation sont nécessaires pour l’étape de sélection des attributs.
Cependant, tel que justifié par Saeys et al. (2007), les algorithmes d’évaluation de type
« subset evaluators » sont généralement utilisés pour améliorer les performances de prédiction
en considérant les dépendances et corrélations entre attributs. Par contre, les algorithmes de
type « single attribute » considèrent chaque attribut séparément pour améliorer la détection
des segments existants (Inbarani et al, 2014). Notre but étant d’extraire les connaissances
explicitant la relation entre les différents attributs, le premier type est jugé plus adéquat, ce qui
réduit le nombre d’expérimentations à 60 (6*10). Le tableau A.1 (cf. Annexe 1) schématise
l’ensemble des attributs sélectionnés pour chaque algorithme (recherche et évaluation). Il est à
noter que les attributs Age, Bacil2 et Bacil3 ont été retenus par la plupart des algorithmes,
suivis par Bacil1, Com et Daira puis le reste. L’algorithme Filtered Subset Evaluator a la
meilleure capacité de réduire l’espace des attributs de 11 attributs à 4 attributs (classe exclue),
où uniquement Daira, Bacil 1-3 ont été sélectionnés ce qui représente une réduction jusqu’à
70%, suivi par CSF Subest Evaluator, où 5 attributs ont été sélectionnés. Dans ce dernier
selon la méthode de recherche, telle que schématisée sur le tableau A.1, deux groupes (1 et 2)
distincts d’attributs ont été observés : (Age, Com, Bacil 1-3) et (Age, Daira, Bacil 1-3). Au
total, cette étape a permis de générer huit différents groupes d’attributs qui ont été évalués
pertinents selon leur corrélation. Toutefois, cette étape ne permet pas de mesurer l’importance
ou même d’ordonner ces groupes selon leur priorité. Cette tâche revient à l’étape de fouille de
données.
5.3.3.3 Classification
Rappelons que notre objectif dans ce travail de recherche est d’extraire des connaissances qui
peuvent être utiles à l’optimisation du modèle computationnel conçu. Ces connaissances
peuvent être de différentes formes : simples attributs, arbres ou règles. Nous pouvions nous
contenter de ces sous-ensembles d’attributs sélectionnés, mais ceci ne distingue pas lequel est
le plus utile. Optimiser le modèle computationnel en exploitant tous ces sous ensemble serait
un travail laborieux. Ainsi, la valorisation de ces groupes par la classification est primordiale.
L’application de la classification à notre base de données permet de discriminer les exemples
les uns des autres selon la classe à prédire, qui est dans notre cas l’état du patient tuberculeux
à la fin du traitement.
Les expérimentations ont été effectuées sur Weka, où un ensemble d’algorithmes sont fournis
à l’utilisateur. Comme nous pouvons le voir sur le tableau 5.7, les algorithmes illustrés sont à
base d’arbre de décision. Bien que, la classification va au-delà des algorithmes à base d’arbre
de décision, nous nous sommes restreint à ce type de classification. Les raisons de cette
restriction sont dument argumentées au Chapitre 3. Le lecteur est invité également à revoir les
travaux de Gorunescu (2011), Lavanya et Rani (2013) Mitchell (1997), Phyu (2009) et Carr et
al. (2013), qui ont souligné l’importance et l’utilité d’appliquer les arbres de décision pour la
classification des données médicales.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
99
Pour résumer, notre motivation d’adopter les arbres de décision dans notre étude est due à :
Le modèle résultant de la classification est sous forme d’arbre (ensemble de règles)
simplement interprétable par un non-expert et peut facilement être intégré aux
composants du langage Bio-PEPA.
Les algorithmes des arbres de décision s’apprêtent bien aux types d’attributs de
notre base de données (discrets et nominaux).
Les algorithmes des arbres de décision identifient les variables pertinentes, qui sont
notre principal but pour le développement d’un modèle formel et réaliste. En effet,
dans un contexte épidémiologique, les arbres de décision permettent d’expliciter la
relation causale entre les différents attributs, ce qui facilite grandement la
compréhension de l’épidémie.
Une fois le choix des algorithmes établi, nous pouvons entamer l’étape de fouille de données.
Nous rappelons que l’étape précédente (sélection des attributs) a permis de générer huit sous
ensemble d’attributs. Nous allons dans ce qui suit, exécuter chacun des 14 algorithmes sur
chacun des huit groupes, ce qui revient à exécuter 112 expérimentations.
Tableau 5.7 Les algorithmes de classification (arbres de décision) (Witten et al., 2011) Algorithme Fonction
ADTree
BFTree
DecisionStump
FT
Id3
J48
J48graft
LADTree
LMT
NBTree
RandomForest
RandomTree
REPTree
SimpleCart
Construit un arbre de décision alternatif
Construit un arbre de décision en utilisant l’algorithme de
recherche best-first
Construit un arbre de décision à un niveau
Établit un arbre fonctionnel avec divisions obliques et des
fonctions linéaires au niveau des feuilles
Arbre de decision basic divisé-et-conquérir
Construit l’arbre selon l’algorithme C4.5
C4.5 with grafting
Construit un arbre de decision alternative multiclasse en utilisant
LogitBoost
Construit un arbre de decision logistique
Construit l’arbre selon un classificateur Naïve Bayes
Construit random forests
Construit un arbre qui considère un nombre aléatoire des attrbuts
à chaque noeud
Construit l’arbre en se basant sur la réduction des erreurs de
l’élagage
Construit l’arbre en utilisant l’algorithme CART avec un coût
minimum de l’élagage
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
100
Pour mieux appréhender les connaissances à extraire, nous allons dérouler notre exemple de
la tuberculose. Après prétraitement et sélection des attributs, la base de données est composée
de 393 instances et 11 attributs (classe incluse), il s’agit d’expliquer l’état des individus
(patient) après traitement par rapport à leur âge, sexe, location, date de détection, type de
patient et les trois tests bactériologiques (Bacil 1,2, 3) à partir des informations collectées par
les experts du service épidémiologique SEMEP au niveau de la Daira de Ain Tedles, Wilaya
de Mostaganem. Vu la confidentialité des informations, il n’est illustré qu’un échantillon dans
le tableau A.2 (cf. Annexe 1).
Avant de lancer le processus de classification, nous devions fixer certains paramètres qui
peuvent être communs à tous les algorithmes ou propres à chacun d’eux. Les paramètres
propres à chaque algorithme ne seront pas explicités ici. Après plusieurs tests, nous avons
constaté que les valeurs par défaut préétablis par Weka sont les plus appropriées. Les seuls
paramètres communs sont en relation avec la procédure de validation croisée (cf. Section 4,
Chapitre 3), où les paramètres K (nombre de partitions) et N (nombre de répétition de
l’algorithme) sont initialisés.
Etant donné que nous voulons optimiser le modèle computationnel pour prédire correctement
l’année 2010, pour nos expérimentations nous nous sommes limités aux données
correspondantes aux années 2008, 2009 et 2010. Il est à noter que Weka intègre la procédure
de validation croisée. En variant la valeur de K, tel que K = 5, 10, 20, 25. Nous avons constaté
que la valeur 25 est la plus appropriée. La valeur de N a été fixée à 10. Le tableau A.3 (cf.
Annexe 1) illustre les résultats des expérimentations correspondantes aux paramètres ci-
dessus.
5.3.3.4 Evaluation et interprétation
Nous commençons d’abord à discuter les résultats des expérimentations puis nous allons
effectuer une étude comparative entre les différents algorithmes. La matrice de confusion, les
mesures FP rate, TP rate et précision sont évaluées (cf. Section 2.3 - Chapitre 3) pour valider
le modèle de classification le plus performant. Ce qui signifie que la classification d’un
individu doit s’effectuer avec le minimum d’erreur possible. Weka calcule automatiquement
ces mesures et les fournit en sortie avec le modèle de classification.
Dans le tableau A.3 (cf. Annexe 1), les taux moyens des instances correctement classifiées
(Accuracy) et les écarts type (Standard deviation value :Std) ainsi que les attributs
sélectionnés après classification sont présentés. Nous constatons que quel que soit
l’algorithme de classification, l’algorithme de sélection des attributs Filtered Subset
Evaluator a abouti vers le meilleur taux de précision. Par exemple pour l’algorithme J48, le
taux de précision varie entre 66,42% et 73,33%, où Filtered Subset Evaluator présente le
meilleur taux. En revanche, il est important de rappeler que ce taux est relativement bas en
terme de fouille de données, ceci est principalement dû à la fois à la variabilité de la nature de
notre base de données et au nombre de ses instances qui a été réduit lors des étapes de
nettoyage et transformation. En terme du meilleur classificateur, l’algorithme J48 et J48Graft
ont été les plus performants, avec un taux de 73,33% (Std = ±8.73), suivi par l’algorithme
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
101
Ladtree avec un taux de 72.76% (Std = ±9.40) quand l’algorithme BFTree présente le plus bas
taux de 69.84% (Std = ±9.37), sachant que les taux tels que présentés, varient de 59.60% à
73.33%.
Ainsi, les algorithmes J48 et J48Graft ont été sélectionnés et leurs arbres analysés pour une
éventuelle extraction de connaissances. Il est à noter que ces deux algorithmes ont présenté les
mêmes résultats en termes de mesures de performance et de structure d’arbre.
La figure 5.9, illustre l’arbre de décision, le tableau 5.8 sa matrice de confusion
correspondante et la figure 5.10 sa traduction en un ensemble de règles.
Figure 5.9 Arbre de décision J48/J48Graft
Bacil3
Bacil2
Bacil1
Daira
Recovered Failed
Recovered
Recovered
Failed
Lost
Transferred
Lost Failed
=MM
= M P
= M P+
= MM
=MP+
=NF
= M P
= MM
=kHEIREDDINE
=AIN TEDLES
=NF
=NF
Tableau 5.8 Matrice de confusion et exactitude des classes référentielles de l’algorithme
J48/J48Graft
Classes prédites
Classe
Died Failed Recovered Lost Transferred Trt_comp
Died 0 0 2 11 1 2
Failed 0 7 0 13 1 7
Recovered 0 0 288 0 0 3
Lost 0 3 3 72 0 17
Transferred 0 2 0 7 2 1
Trt_comp 0 2 17 47 1 49
True positive rate 0
0.25 0.99 0.758 0.167 0.422
False Positive Rate 0 0.013 0.082 0.168 0.005 0.068
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
102
La matrice de confusion représente les six classes (Recovered, Lost, Trt_comp, Failed,
Transferred et Died), où les colonnes dénotent les instances prédites de la classe et les lignes
dénotent les instances réelles de la même classe. Les deux dernières lignes du tableau 5.8,
représentent le taux des individu de la classe i (i {Recovered, Lost, Trt_comp, Failed,
Transferred, Died }) bien classés (TP) et le taux des individus assignés par erreur à la classe i.
Nous observons que la classe “Recovered” est déterminée par la plus grande exactitude
(0.99), suivie par la classe « Lost » (0.758).
L’arbre J48 (cf. figure 5.9) est représenté par des nœuds de décision (rond) et des nœuds de
prédiction (réctangle), où le nœud de décision se réfère à la condition et le nœud de prédiction
se réfère à la conclusion. Comme nous l’avons décrit précédemment, les résultats
expérimentaux sont focalisés sur trois principales notes :
- Extraire les attributs que l’arbre de décision a jugé plus pertinents.
- Se concentrer sur les branches dérivant vers l’état perdu de vue « Lost ».
- Vérifier que les attributs sélectionnés ne sont pas déjà représenté dans le modèle
computationnel initial ou bien la règle dans laquelle ils sont exprimés n’est pas une
fonction du modèle computationnel.
Nous observons dans les règles déduites de l’arbre de décision (cf. figure 5.10) que les
conditions aboutissant à l’état « Lost » sont décrites par les attributs Bacil 1-3. Toutefois, ces
attributs ne sont pas en mesure d’apporter plus d’information que celles déjà fourni par
l’expert. En effet, quand un individu a été détecté comme tuberculeux, il est automatiquement
assigné à un traitement dont la date de détection a été enregistrée. Selon cette date
l’épidémiologiste surveille son suivi de traitement qui est limité en moyenne à six mois.
Chaque deux mois l’épidémiologiste reporte les résultats des tests bactériologiques qui
peuvent être positifs (MP), négatifs (MM) ou dans le cas d’un perdu de vue non faits (NF). A
la fin de la période de traitement, l’épidémiologiste récolte 3 résultats. Les résultats se référant
à l’état « Lost » se définissent par au moins deux « NF ». Par conséquent, nous observons
dans la figure 5.10, deux règles permettant d’accéder à l’état « Lost » (règles encadrées). Il est
clair à partir de ces règles que les seuls attributs composants la règle sont Bacil 1-3. Ainsi,
aucune nouvelle information n’a été extraite de ce modèle d’apprentissage, et ce même si
If (BACIL3 = NF)
| If (BACIL2 = NF)
| | If (BACIL1 = NF) Then Lost
| | If (BACIL1 = MM)
| | | If (DAIRA = AIN TEDLES) Then Recovered
| | | If (DAIRA = KHEIR EDDINE) Then Trt_comp
| | If (BACIL1 = MP) Then Failed
| | If (BACIL1 = MP+) Then Lost
| If (BACIL2 = MM) Then Recovered
| If (BACIL2 = MP)Then Transferred
If (BACIL3 = MM) Then Recovered
If (BACIL3 = MP) Then Failed
Figure 5.10 Règles déduites de l’arbre J48
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
103
l’attribut « Daira » est présent dans l’arbre, ce dernier est affecté à des branches dérivant vers
les états « Recovered » et « Trt_comp ».
Afin de s’approfondir dans cette étude de fouille de données, nous proposons d’analyser les
autres arbres du tableau A.3. Le processus est tel que nous devons ordonner les modèles
résultants selon leur taux d’exactitude de classification. Cette procédure nous amène
automatiquement vers les résultats correspondant à l’algorithme Ladtree, qui a le taux le plus
élevé (taux = 72.76, Std = 9.40) après les arbres J48 et J48Graft. La figure 5.11 illustre les
règles déduites de l’arbre de décision de l’algorithme Ladtree. Nous pouvons observer que les
règles résultantes, telles que schématisées ci-dessous, produisent des classes multiples avec
leurs valeurs prédictives dans la partie conclusion de la règle, à la différence des algorithmes
J48 et J48Graft, pour lesquels la conclusion est une classe unique. Ainsi tel que nous pouvons
le voir, la conclusion est exprimée par un vecteur de valeurs prédictives correspondantes à
chaque classe. Dans notre exemple, les valeurs prédictives se réfèrent respectivement à: Lost,
Recovered, Failed, Died, Trt_comp, Transferred.
If (Bacil3= MM) Then(-1.16,4.217,-1.159,-1.158,0.415,-1.155)
If (Bacil3 ≠ MM) Then (0.643,0.376,-0.197,-0.632,0.49,-0.68)
If (Bacil2 = MM) Then (-0.769,2.585,-0.696,-0.66,0.192,-0.652)
If (Bacil2 ≠ MM) Then (0.343,-0.628,0.297,-0.008,0.141,-0.144)
If (Daira = Ain Tedles) Then(-0.59,0.64,-0.008,0.777,-0.237,-0.581)
If (Daira = Kheireddine) Then(0.526,-0.647,0.199,-0.794,0.116,0.6)
Figure 5.11 Règles déduites de l’algorithme LadTree
Nous rappelons que notre objectif est de filtrer les branches dont la conclusion est référencée
par l’état « Lost ». Dans les règles de Ladtree, nous parcourons tous les chemins aboutissant à
l’état « Lost », tel que tous les nœuds de décision sont « vrai ». Ici, le terme « vrai »
correspond à une valeur positive exprimée entre parenthèses. Ainsi, le principe consiste à
maximiser la somme de toutes les valeurs correspondantes à chaque branche, le meilleur
classificateur est alors sélectionné. Dans notre exemple, la règle performante (celle menant à
l’état “Lost” est extraite en maximisant l’ensemble (0.643, 0.643+0.343, 0.643+0.343+0.526).
par conséquent, cette évaluation permet d’aboutir à la règle ci-dessous (extraite de la
figure 5.11).
If (Bacil3 ≠ MM) Then
If (Bacil2 ≠ MM) Then
If (Daira=Kheireddine) Then (0.526,-0.647,0.199,-0.794,0.116,0.6)
Le but d’analyser cette règle n’est pas de prédire la tuberculose, mais de détecter et
comprendre ce qui est en commun entre les individus tuberculeux, en particulier, ceux perdus
de vue.
Le tableau 5.9 présente les résultats de l’algorithme Ladtree exprimés sous forme de matrice
de confusion pour les six classes. La classe « Recovered » est déterminée par le taux le plus
élevé d’exactitude (0.978), suivi par la classe « Lost » (0.811). Il est clair que les
performances de ce classificateur d’un point de vue de la classe « Lost » sont meilleures que
l’algorithme J48/J84Graft.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
104
L’analyse de la règle extraite implique que les individus infectés par la tuberculose, pour
lesquels les tests bactériologiques 2 et 3 sont soit positifs ou non faits, ont plus de chance
d’être localisés à la Daira de Kheireddine qu’à la Daira de Ain Tedles. Ce qui suggère que,
l’attribut “Daira” est une information additive, qui permet de spécifier la location des
individus qui sont en grande partie concernés par l’état des perdus de vue.
En conséquence, une optimisation de notre modèle computationnel en se basant sur une
structuration par location correspondante à l’attribut « Daira », pourrait être plus consistante
et cohérente avec les données observées. Il est à noter que cette information ne fait pas partie
de la structure du modèle computationnel initial, ce qui fait d’elle un candidat potentiel.
La section suivante décrit en détail les étapes d’intégration de l’attribut « Daira » dans le
modèle Bio-PEPA.
5.3.3.5 Optimisation du modèle
Avant de mettre à jour le modèle Bio-PEPA, une étape est requise: restructuration de la base
de données selon la règle sélectionnée. En effet, tel que nous l’avons spécifié, mettre à jour un
modèle Bio-PEPA consiste à mettre à jour les paramètres, compartiments, taux fonctionnels et
les espèces. Etant donné que les paramètres sont en partie calculés des données observées,
ceci implique un ré-ordonnancement de la base selon la règle candidate, et donc une division
en deux parties. Une première partie correspondante aux individus dont la location est
Kheireddine. Une deuxième partie, ceux dont la location est Ain Tedles. Le modèle à
compartiment de la figure 5.4 a été optimisé, où la même structure a été respectée. Sauf que,
les compartiments et arcs ont été dupliqués en deux. Nous définissons plus en détails les
nouveaux paramètres, les espèces, les taux fonctionnels, les compartiments et les composants
du modèle dans ce qui suit :
- Paramètres et compartiments: Théoriquement, Bio-PEPA permet aux espèces de
même nature d’être regroupées dans un même compartiment. Pour simplifier cette étape, nous
considérons les individus appartenant à la même location comme des espèces de nature
similaire.
Tableau 5.9 Matrice de confusion et exactitude des classes référentielles de l’algorithme
Ladtree
Classes prédites
Classes
Died Failed Recovered Lost Transferred Trt_comp
Died 0 0 1 7 0 0
Failed 0 0 2 10 0 4
Recovered 1 0 136 0 0 2
Lost 0 1 1 30 0 5
Transferred 0 0 1 3 2 0
Trt_comp 0 1 12 15 1 5
True positive rate 0
0 0.978 0.811 0.333 0.147
False Positive Rate 0.004 0.009 0.168 0.172 0.004 0.053
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
105
Rappelons que dans notre modèle initial, nous avons défini un seul compartiment où tous les
individus se regroupaient dus à leur homogénéité. Nous l’avons nommé « City ». Ici, nous
divisons “City” en deux sous compartiments correspondants à l’attribut « Daira ». Ce dernier,
est défini par uniquement deux locations : Kheireddine et Ain Tedles. Le code ci-dessous
illustre les deux locations :
Les nouveaux paramètres du modèle illustrés ci-dessous, décrivent les paramètres (taux)
relatifs à chaque groupe d’individus, où ceux figurant à gauche (resp. à droite) indicés avec le
nombre 1 (resp. 2) sont associés à la location Kheireddine (resp. la location Ain Tedles).
Il est à noter que le principe des taux est identique à la définition qui leur a été attribuée dans
le modèle initial, à la différence qu’ils sont exploités uniquement par les espèces affectées à la
location correspondante. Il est clair que les deux compartiments nous permettent de suivre
séparément et indépendamment chaque groupe lors de la simulation.
Le taux de transmission p (infection) a été remplacé par deux nouveaux taux associés à
chaque location p1 et p2. Ces derniers sont calculés en utilisant la même formule décrite dans
le tableau 5.2, où le nombre de contact et la probabilité d’infection ont été mises à jour selon
la location. Cependant, la période d’infectiosité reste inchangée, car c’est un paramètre relatif
à la maladie, non à la population.
- Taux fonctionnels : tels qu’illustrés sur le code ci-dessous, les taux fonctionnels ainsi
définis permettent de distinguer entre les deux locations, où chaque paramètre correspondant
est rapporté pour le compartiment approprié. Toutefois, nous pouvons observer que les
mêmes fonctions sont définies pour Kheireddine et Ain Tedles.
Taux fonctionnels de la location Ain Tedles
kineticLawOf susceptible_infected1: Infection_Rate1*Susceptible@ Ain Tedles * Infected@Ain Tedles;
kineticLawOf Infected_Failed1 : Failure_Rate1 * Infected @ Ain Tedles;
kineticLawOf Infected_Recovered1 : Recovered_Rate1 * Infected @ Ain Tedles;
kineticLawOf Infected_Transfered1 : Transfered_Rate1 * Infected @ Ain Tedles;
kineticLawOf Infected_Treat_comp1:Treatment_completed_Rate1*Infected @ Ain Tedles;
kineticLawOf Infected_Died1 : Death_Rate1 * Infected @ Ain Tedles;
kineticLawOf Infected_Lost1 : Lost_Rate * Infected @ Ain Tedles;
Failure_Rate1 =0.00039; Failure_Rat2 =0.00025;
Recovered_Rate1 =0.003; Recovered_Rate2 =0.003;
Transfered_Rate1 =0.00003; Transfered_Rate2 =0.00006;
Treatment_completed_Rate1 =0.001; Treatment_completed_Rate2 =0.0008;
Death_Rate1 =0; Death_Rate2 =0.0003;
Lost_Rate1 =0.00078; Lost_Rate2 =0.00055;
Size_Population = 137990;
location City : size = Size_Population, type = compartment;
location Kheireddine in City : size = Size_Population, type = compartment;
location Ain_Tedles in City : size = Size_Population, type = compartment;
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
106
Taux fonctionnels de la location Kheireddine
- Espèces : Dans le nouveau modèle Bio-PEPA, le nombre d’espèces reste inchangé. En
effet, puisque chaque espèce se rapporte à un type d’individu, dans notre modèle optimisé les
types d’individus ne changent pas (susceptible, infecté, …etc.). Cependant, étant donné que
nous avons spécifié deux locations, Bio-PEPA permet de distinguer entre les individus des
deux locations en modifiant la description des espèces. Ceci, en utilisant le symbole @
associé à chaque location dans chaque terme prédéfini. Le code ci-dessous illustre cette
description :
- Le composant modèle : définit la densité initiale des espèces et leurs interactions. Il est
à noter que toutes les espèces définies dans le modèle sont initialisées dans cette partie. Pour
ce qui est du nombre des susceptibles associés à la location Kheireddine (resp. Ain Tedles), ce
dernier a été initialisé selon la taille de la population de Kheireddine (resp. Ain Tedles).
Susceptible = (susceptible_infected1,1) << Susceptible@AinTedles
+ (susceptible_infected2,1) << Susceptible@Kheireddine;
Infected =usceptible_infected1,1) >> Infected@AinTedles +(Infected_Recovered1,1) << Infected
+( Infected_Failed1,1) << Infected@AinTedles
+ (Infected_Transfered1,1) << Infected@AinTedles
+(Treatment_completed_Rate1,1) << Infected@AinTedles
+( Infected_Died1,1) << Infected@AinTedles
+( Infected_Lost1,1) << Infected@AinTedles
+(susceptible_infected,1) >> Infected@Kheireddine
+(Infected_Recovered2,1) << Infected@Kheireddine
+( Infected_Failed,1) << Infected@Kheireddine
+ (Infected_Transfered2,1) << Infected@Kheireddine
+(Treatment_completed_Rate2,1) << Infected@Kheireddine
+( Infected_Died2,1) << Infected@Kheireddine
+( Infected_Lost2,1) << Infected@Kheireddine;
Failed = (Infected_Failed1,1) >> Failed@AinTedles
+ (Infected_Failed2,1) >> Failed@Kheireddine;
Recovered= (Infected_Recovered1,1) >> Recovered@AinTedles
+ (Infected_Recovered2,1) >> Recovered@Kheireddine;
Transfered=(Infected_Transfered,1) >> Transferred@AinTedles
+(Infected_Transfered2,1) >> Transfered@Kheireddine;
Treat_comp=(Treatment_completed_Rate1,1) >> Treat_comp@AinTedles
+(Treatment_completed_Rate2,1) >> Treat_comp@Kheireddine;
Died = (Infected_Died1,1) >> Died@AinTedles + (Infected_Died2,1) >> Died@Kheireddine;
Lost = (Infected_Lost1,1) >> Lost@AinTedles + (Infected_Lost2,1) >> Lost@Kheireddine;
kineticLawOf susceptible_infected2: Infection_Rate2*Susceptible@Kheireddine
* Infected@ Kheireddine;
kineticLawOf Infected_Failed2 : Failure_Rate2 * Infected @ Kheireddine;
kineticLawOf Infected_Recovered2 : Recovered_Rate2 * Infected @ Kheireddine;
kineticLawOf Infected_Transfered2 : Transfered_Rate2 * Infected @ Kheireddine;
kineticLawOf Infected_Treat_comp2:Treatment_completed_Rate2*Infected @ Kheireddine;
kineticLawOf Infected_Died2 : Death_Rate2 * Infected @ Kheireddine;
kineticLawOf Infected_Lost2 : Lost_Rate2 * Infected @ Kheireddine;
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
107
Aussi, il est à noter que même si nous avons spécifié des compartiments différents pour
chaque groupe de population (Kheireddine et Ain Tedles), ces derniers interagissent tous
ensemble d’où la définition d’un seul composant du modèle.
Le modèle ainsi optimisé peut être analysé et simulé, en outre il sera comparé à nouveau aux
données observées de l’année 2010.
5.3.3.6 Simulation et analyse
Pour cette phase de simulation, nous avons appliqué les mêmes principes que ceux utilisés
lors de la simulation du modèle initial (simulation stochastique, moyenne de 100 simulations
et une période d’une année).
Les histogrammes sur la figure 5.12 (resp. figure 5.13) illustrent la comparaison entre les
données simulées et observées des individus situés à Ain Tedles (resp. Kheireddine), en 2010.
Tel que nous pouvons l’observer, l’écart entre données observées et simulées est plus
important pour les individus perdus de vue « Lost » situés à Kheireddine que ceux situés à
Ain Tedles.
Figure 5.13 Modèle de la tuberculose pour la Daira Kheireddine 2010
0 0
3
4
18
16
5
15
2 1
6
4
0
2
4
6
8
10
12
14
16
18
20
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Figure 5.12 Modèle de la tuberculose pour la Daira Ain Tedles 2010
3 4
2 3
27 28
5
3
1 0
7
1
0
5
10
15
20
25
30
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
108
En effet, en comparant les proportions du groupe d’individus par rapport au nombre total
d’infectés, il est clair que pour ceux situés à Ain Tedles l’écart est de 2% avec un nombre de
simulés perdus de vue estimé à 5 par rapport à trois individus observés, alors que l’écart est de
30% pour ceux situés à Kheireddine, où le nombre de simulés est à 5 comparé à 15 individus
observés. Les figures 5.12 et 5.13 montrent clairement que le nombre d’individus simulés
dans le reste des classes (états) correspond au nombre observés. Afin de renforcer cette
observation, une analyse statistique a été réalisée avec Minitab, en se basant sur le test
d’ajustement Khi2 (
2) (cf. § 5.5.2.c – Chapitre 5). Cette analyse nous a permis de conclure
qu’à 5% du degré de signification les données observées ne sont pas statistiquement différents
des données simulées, où 2
= 0.862, degree of freedom=2 and P-value = 0.650 pour Ain
Tedles et 2
=5.742, degree of freedom = 2, P-value = 0.057 pour Kheireddine.
Davantage, cette simulation explique que le groupe d’individus de Kheireddine est la
principale cause de l’écart constaté lors de la simulation du modèle initial pour l’année 2010
(cf. figure 5.7). En effet, même si l’écart est toujours présent lors de la simulation du modèle
optimisé, ceci nous a permis de distinguer quel groupe d’individus exactement est mal prédit.
En écartant les individus situé à Ain Tedles, nous a permis de nous prononcer sur quelle partie
du modèle nécessite une meilleure et profonde optimisation future. Par conséquent, les
paramètres du modèle initial tels qu’utilisés ne sont pas tous inadéquats, mais uniquement
ceux relatifs au groupe de Kheireddine. Ceci implique que plus d’informations sont requises
pour prédire correctement l’état épidémique. En général dans notre approche, la phase de
fouille de données peut être répétée afin d’extraire davantage d’informations. Plus
particulièrement, nous pouvons exploiter uniquement le sous-ensemble de la base de données,
c’est-à-dire, le sous-ensemble de ceux situés à Kheireddine. Néanmoins, pour notre base de
données de tuberculose, ce sous-ensemble est limité. Lors de la restructuration de la base,
nous avons constaté un total de 40 instances pour la location de kheireddine. En appliquant les
algorithmes de fouille de données sur cet ensemble, aucune nouvelle information n’a été
détectée, où seuls les attributs Bacil 1-3 ont été constatés. Ces derniers ne nous sont pas utiles.
En utilisant l’induction symbolique par arbre de décision, nous avons pu optimiser notre
modèle Bio-PEPA initial. Plus spécifiquement, nous avons pu identifier la zone (location)
pertinente qui a permis à l’expert et épidémiologiste d’entreprendre de nouvelles directives. A
ce stade d’étude, l’expert pourra collecter d’autres informations permettant d’affiner notre
modèle prédictif ou réaliser plus d’investigations dans cette partie de population afin de
comprendre les raisons de cette distinction. En révélant cette corrélation entre location et
individus perdus de vue, l’expert peut se focaliser sur la Daira de Kheireddine et prendre de
meilleures décisions la concernant.
En identifiant cette caractéristique particulière, il est tout à fait clair que l’optimisation que
nous avons tenté de réaliser dans la section 5.3.2.c, ne pourra pas nous mener vers une
prédiction correcte. La population dans le modèle global était homogène, avec un seul taux de
transmission (infection). En ré-estimant ce taux dans le modèle initial pour une population
homogène, il était impossible de trouver implicitement le juste milieu entre la population de
Kheireddine et celle de Ain Tedles. Par contre, en définissant un taux d’infection distinct et
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
109
relatif à chaque groupe de population a permis de cibler le point nécessitant une ré-estimation.
N’oublions pas que notre objectif est de concevoir un modèle prédictif optimal, ainsi détecter
l’erreur n’est pas suffisant, notre modèle a besoin d’être amélioré mais en se focalisant
uniquement sur la partie concernée par la location Kheireddine.
Discussion
Rappelons que lors de l’optimisation des paramètres, nous avons réévalué les taux permettant
de transiter du compartiment infecté aux différentes classes ainsi que le taux de transmission
en prenant en considération uniquement le facteur probabilité (probabilité d’infection,
probabilité de transition vers les différentes classes). Ceci est dû principalement au fait que la
probabilité dépond des données restructurées. Nous avons démontré que même si cette
optimisation a permis une bonne prédication pour la location Ain Tedles, tel n’est pas le cas
pour la location Kheireddine. Ainsi, en revisitant les paramètres du modèle optimisé, nous
avons constaté qu’un autre principal paramètre permet de distinguer la partie en question, le
taux d’infection connexe à la location de Kheireddine. Réévaluer ce paramètre sans pour
autant modifier celui de Ain Tedles. Selon l’expert et la formule définie dans le tableau 5.2, le
paramètre clé permettant de ré-estimer ces taux est le nombre de contact entre les individus de
Kheireddine. En effet, le taux de transmission est défini par trois termes, la période
d’infectiosité, la probabilité d’infection et le nombre de contact, où le premier terme est fixe,
le deuxième terme est calculé des données restructurées, reste le troisième terme qui n’a pas
été recalculé.
Selon l’avis de l’expert, compte tenu du nombre des perdus de vue constatés en 2010 (18
infectés) par rapport à 2009 (9 infectés), il est jugé raisonnable d’augmenter légèrement le
nombre de contact. En se basant sur les données collectées de la littérature, où le nombre de
contact est compris entre 7 et 30, nous avons varié ce dernier de 27 à 29 pour l’année 2010.
Les résultats de simulation du modèle mis à jour pour l’année 2010 sont illustrés sur la
figure 5.14. En comparant les résultats des données observées aux simulées, les histogrammes
montrent que ces derniers sont similaires. Ceci prouve bien que le paramètre taux d’infection
en général et le nombre de contact en particulier, étaient sous-estimés.
Pour conclure cette analyse, nous avons fusionné les résultats précédant à ceux correspondant
aux simulations de la location Ain tedles (cf. figure 5.12) et nous les avons comparé aux
données globales (cf. histogrammes à droite de la figure 5.7).
La figure 5.15 illustre les histogrammes résultant de la fusion. La figure montre clairement
l’impact positif de l’optimisation du modèle Bio-PEPA en se basant sur les connaissances
extraites du processus de classification. Mais n’oublions pas qu’exploiter les connaissances de
la fouille données implique une réévaluation constante des valeurs des paramètres pour
obtenir des résultats de modélisation robustes et optimaux.
Afin d’explorer d’autres horizons de la fouille de données, en outre par les règles
d’association, nous allons d’abord dans ce qui suit présenter une extension des
expérimentations par classification en opérant sur d’autres années (2011 et 2012) des données
de la tuberculose utilisés.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
110
Figure 5.17 Modèle de la tuberculose pour l’année 2012
3 2 4
1
44 42
11
27
1 1
10 10
0 5
10 15 20 25 30 35 40 45
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Figure 5.16 Modèle de la tuberculose pour l’année 2011
2 3 4 2
47 47
10 9
1 0
9 9
0
5
10
15
20
25
30
35
40
45
50
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Figure 5.15 Modèle final de la tuberculose pour l’année 2010
2 4 4
7
45 44
20 18
2 1
10
5
0
5
10
15
20
25
30
35
40
45
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Figure 5.14 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2010
0 0
3
4
16 16 15 15
2 1
6 4
0
2
4
6
8
10
12
14
16
18
20
Simulated data Observed data Contact Number = 29
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
111
5.3.4 Généralisation de l’approche par des données additionnelles
Afin de démontrer la capacité de notre approche à être généralisée, le processus de
modélisation par Bio-PEPA, de simulations et d’optimisation appliqué pour l’année 2010,
sont considérés pour les années 2011 et 2012. Ces données seront exploitées pour valider que
le modèle optimisé peut convenir à d’autres années, pas uniquement l’année 2010.
Simulation pour les années 2011 et 2012
Pour prédire l’année 2011 (resp. 2012), le modèle initial de Bio-PEPA, utilisé pour prédire
l’année 2009 et 2010, est exploité. Evidemment, les paramètres du modèle sont adaptés
(recalculés) selon la moyenne des données de 2008 à 2010 (resp. de 2008 à 2011). Rappelons
que pour prédire 2009, nous avons utilisé les données de l’année 2008 et pour prédire 2010,
nous avons utilisé les données des années 2008 à 2009.
Comme illustrés sur les histogrammes de la figure 5.16, les résultats de simulation pour la
prédiction de 2011 correspondent bien aux données observées. Les résultats statistiques
renforce notre constatation, où à un degré de signification de 5%, 2
= 1.550, degree of
freedom = 3, p-value = 0.671.
Pareil que pour 2009, la simulation prédit correctement l’évolution de l’épidémie pour l’année
2011. Ce qui soutient l’idée que notre modèle Bio-PEPA prédit conformément aux données
observées quand les connaissances épidémiologiques sont correctement déclarées.
Contrairement pour l’année 2012, il est clairement montré dans la figure 5.17, que l’état
« Lost » est sous prédit, où un large écart sépare les données observées des simulées. A ce
stade du processus, une optimisation s’impose. Afin d’achever ce processus les étapes
appliquées précédemment pour le modèle de l’année 2010 sont réitérées. Ce qui se résume à
appliquer la fouille de données afin d’extraire les connaissances nouvelles et pertinentes.
Toutefois, nous étalons l’ensemble de données jusqu’à l’année 2012.
5.3.4.1 Prétraitement des données
Pour la phase de prétraitement (nettoyage et transformation), nous avons adopté les mêmes
procédures que précédemment, car les données jointes (2011 et 2012) sont similaires aux
précédentes (2008, 2009 et 2010) d’un point de vue attribut et type. Toutefois, il est important
de noter qu’aucune valeur manquante n’a été observée pour les données jointes.
5.3.4.2 Sélection des attributs
Pour la phase de sélection des attributs, nous avons appliqué les mêmes algorithmes que dans
la section 5.3.3.2. L’ensemble des attributs sélectionnés lors de cette phase sont schématisés
sur le tableau A.4 (Annexe 1). Les résultats examinés montrent que les attributs Age, Daira,
Bacil 1-3 sont retenus par la plupart des algorithmes, suivis par l’attribut Sexe puis le reste. A
la différence des résultats du tableau A.1 (Annexe 1), où l’algorithme Filtered Subset
Evaluator a été classifié le meilleur réducteur d’espace. Ici, les algorithmes CLASSIFIER Subset
Evaluator et WRAPPER SUBSETEVAL ont montré une meilleure performance de réduction, où le
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
112
nombre d’attributs initial (11 attributs) a été réduit en un seul attribut, ce qui représente une
réduction de 92%, suivi par Filtered Subset Evaluator, où 4 attributs ont été sélectionnés. Il est
à noter que ce dernier algorithme a sélectionné le même sous-ensemble d’attributs que dans la
sélection de la base de données de 2010. Toutefois, le fait que cette étape a permis de réduire
l’ensemble à un attribut, seule l’étape de classification jugera de l’importance de ce dernier
par rapport aux autres groupes sélectionnés.
Au total, cette étape a permis de générer sept différents groupes d’attributs qui ont été évalués
pertinents selon leur corrélation.
5.3.4.3 Classification par arbre de décision
Lors de cette phase, nous faisons appel aux mêmes algorithmes discutés et utilisés dans la
section 5.3.3.3. En plus des algorithmes de classification, nous avons aussi adopté la
procédure de la validation croisée, où le paramètre K a été varié, tel que K = 10, 15, 20, 25.
Les expérimentations ont montré que la valeur de K la plus performante en termes de taux
d’exactitude est de 20.
5.3.4.4 Evaluation et interprétation
Le tableau A.5 illustre les taux moyens des instances correctement classifiées (Accuracy) et
les écarts type (Standard deviation value :Std) ainsi que les attributs sélectionnés après
classification. Nous constatons que quel que soit l’algorithme de classification, l’algorithme
de sélection des attributs Filtered Subset Evaluator a abouti vers le meilleur taux de précision.
Par exemple pour l’algorithme J48, le taux de précision varie entre 58.04% et 76,41%, où
Filtered Subset Evaluator présente le meilleur taux. En terme du meilleur classificateur en
combinaison avec le sélecteur Filtered Subset Evaluator, l’algorithme J48 a été le plus
performant, avec un taux de 76,41% (Std = ±4.83), suivi par l’algorithme J48Graft avec un
taux de 76.15% (Std = ±4.64) quand l’algorithme NBTree présente le plus bas taux de 75.11
% (Std = ±4.74). Ainsi, l’algorithme J48 est sélectionné et les règles déduites de son arbre
(telles qu’illustrées ci-dessous) correspondant sont analysées.
Règles déduites de l’arbre J48 :
If (BACIL3 = NF)
| If (BACIL2 = NF)
| | If (BACIL1 = NF) Then Lost
| | If (BACIL1 = MM) Then Recovered
| | If (BACIL1 = MP)
| | | If (DAIRA = AIN TEDLES) Then Failed
| | | If (DAIRA = KHEIR EDDINE) Then Lost
| | If (BACIL1 = MP+) Then Lost
| If (BACIL2 = MM) Then Recovered
| If (BACIL2 = MP+)Then Transferred
If (BACIL3 = MM) Then Recovered
If (BACIL3 = MP) Then Failed
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
113
Le tableau 5.10 présente la matrice de confusion correspondante. Nous observons dans la
matrice de confusion que la classe “Recovered” est déterminée par la plus grande exactitude
de 99.6%, suivie par la classe « Lost » avec un taux de 90.4%.
Nous rappelons qu’à ce niveau d’étude notre principale objectif est de comprendre l’écart
entre données simulées est observées, relatif aux individus « Lost ». Pour cela, nous nous
focalisons sur les chemins menant à la classe « Lost » dans l’ensemble des règles observées.
Ceci, nous conduit à extraire trois règles, telles que schématisées ci-dessous :
1. If (BACIL3 = NF)
| If (BACIL2 = NF)
| | If (BACIL1 = NF) Then Lost
2. If (BACIL3 = NF)
| If (BACIL2 = NF)
| | If (BACIL1 = MP+) Then Lost
3. If (BACIL3 = NF)
| If (BACIL2 = NF)
| | If (BACIL1 = MP)
| | | If (DAIRA = KHEIR EDDINE) Then Lost
- La première règle exprime le fait que les individus perdus de vue sont rattachés au cas où
aucun examen bactériologique n’a été accompli (NF).
- La deuxième règle classifie un individu dont le 1er
test bactériologique est positif
(MP+) mais le 2ème
et 3ème
sont non faits (NF), autant qu’individu perdu de vue.
- La troisième règle est relativement similaire à la deuxième, à la différence de l’attribut
« Daira » qui permet de distinguer quel groupe des positifs (MP) est le plus concerné
par le cas des perdus de vue.
Tableau 5.10 Matrice de confusion et exactitude des classes référentielles de
l’algorithme J48
Classes prédites
Classes
Died Failed Recovered Lost Transferred Trt_comp
Died 0 0 1 11 1 0
Failed 0 5 4 10 0 0
Recovered 0 0 227 0 1 0
Lost 0 1 6 66 0 0
Transferred 0 1 1 2 3 0
Trt_comp 0 0 19 33 1 0
TP Rate
0
0.005 0.996 0.904 0.429 0
FP Rate 0 0.263 0.188 0.175 0.008 0
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
114
Nous observons que les 1ères et 2èmes règles se basent uniquement sur les examens
bactériologiques. Ceux-ci ne nous apportent aucune information nouvelle que l’expert ne
sache déjà. Contrairement à la règle 3, où l’attribut « Daira » est considéré comme une
nouvelle connaissance, pouvant être exploitée pour notre phase d’optimisation. Rappelons
que l’attribut « Daira » avait aussi été identifié lors la fouille de données pour l’année 2010.
Ce qui permet de consolider le principe que l’attribut « Daira » est un descripteur performant
pour spécifier les individus perdus de vue.
5.3.4.5 Optimisation du modèle
Pour cette phase d’optimisation utilisant l’attribut « Daira », nous avons procédé d’abord à
une restructuration de la base de données selon la règle sélectionnée, recalculé les paramètres
du modèle puis nous avons mis à jour le modèle Bio-PEPA. Rappelons que les modalités
décrivant l’attribut « Daira » sont similaires à la définition précédente, ce qui implique une
restructuration selon deux groupes. Le premier groupe correspond aux individus dont la
location est Kheireddine. Le deuxième groupe correspond à ceux dont la location est Ain
Tedles. Ce qui implique aussi une optimisation du modèle Bio-PEPA identique au modèle de
l’année 2010. Ainsi, nous nous sommes focalisés uniquement sur l’optimisation des valeurs
des paramètres. Notons que les espèces, les taux fonctionnels, les compartiments et les
composants du modèle restent inchangés. Les paramètres du modèle et leurs nouvelles valeurs
sont illustrés ci-dessous :
Le modèle ainsi optimisé avec les nouvelles valeurs est simulé et comparé aux données
observées pour l’année 2012.
5.3.4.6 Simulation et analyse
Les résultats du modèle optimisé sont illustrés sur la figure 5.18 correspondante à la location
Ain tedles (resp. figure 5.19 correspondante à la location Kheireddine). En comparant les
histogrammes de simulation à ceux des données observées, un écart considérable est distingué
pour la classe des perdus de vue « Lost » localisé à la Daira de Kheireddine. En évaluant le
nombre des individus perdus de vue par rapport au nombre total des infectés, il apparait une
différence de 6% pour la Daira de Ain Tedles (cinq individus sont prédits au lieu de 10
individus), et une différence de 14% pour la Daira de Kheireddine (quatre prédits au lieu de
17 individus).
Le modèle optimisé, enrichi par l’information Daira, permet d’identifier plus spécifiquement
la zone engendrant l’écart initialement observé pour l’année 2012 (cf. Figure 5.17).
Failure_Rate1 =0.00035; Failure_Rat2 =0.0003;
Recovered_Rate1 =0.003; Recovered_Rate2 =0.0037;
Transfered_Rate1 =0.0002; Transfered_Rate2 =0.000033;
Treatment_completed_Rate1 =0.001; Treatment_completed_Rate2 =0.0006;
Death_Rate1 =0.00004; Death_Rate2 =0.00033;
Lost_Rate1 =0.00337; Lost_Rate2 =0.00054;
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
115
Autrement dit, il est clair que l’attribut « Daira » demeure l’information la plus pertinente
extraite des données observées de la tuberculose.
Basé sur les suggestions faites par l’expert pour l’année 2010, concernant l’impact de l’état
« Lost » et de la location Kheireddine sur le nombre de contact, ce dernier a été étendu à 30,
où le nombre utilisé pour le modèle de la figure 5.19 est 27. Les résultats correspondant à
cette réévaluation sont illustrés sur la figure 5.20.
En analysant les histogrammes de la figure 5.20, il apparait clairement l’utilité et l’efficacité
de la réévaluation du nombre de contact qui selon ces résultats était sous-estimé.
Afin de valider la performance de notre modèle ainsi optimisé, la figure 5.21 présente une
fusion des résultats de simulation de la figure 5.20 (modèle mis à jour pour la location
Kheireddine) et de la figure 5.18 (modèle pour la location Ain tedles). Ceci, nous permet
d’effectuer une comparaison entre les histogrammes de fusion et les données globales
observées présentées dans la figure 5.17. La figure finale montre effectivement, un meilleur
ajustement entre données observées et simulées. Ces résultats consolident nos suppositions
que l’élément dont avait besoin notre modèle initial pour une bonne prédiction des années
2010 et 2012 était au-delà des connaissances de l’expert. Il est clair que ceci est en relation
avec un évènement qui s’est produit à la Daira de Kheireddine et qui semble être inconnu par
les services épidémiologiques concernés.
Figure 5.18 Modèle de la tuberculose pour la Daira Ain Tedles 2012
2 1
2 1
29 28
5
10
0 0
4 4
0
5
10
15
20
25
30
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
116
Figure 5.21 Modèle final de la tuberculose pour l’année 2012
2 2 3 1
44 42
22
27
1 1
9 10
0
5
10
15
20
25
30
35
40
45
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Figure 5.20 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2012
0 1
1
0
15
14
17 17
1 1
5 6
0
2
4
6
8
10
12
14
16
18
20
Simulated data Observed data Contact Number = 30
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Figure 5.19 Modèle de la tuberculose pour la Daira Kheireddine 2012
0 1 1
0
13 14
4
17
1 1
5 6
0
5
10
15
20
25
30
Simulated data Observed data
Died
Failed
Recovered
Lost
Transfered
Treat_Comp
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
117
Discussion
Le tableau 5.11 récapitule les valeurs des différents paramètres définis dans le modèle Bio-
PEPA pour la prédiction de l’année 2010 et 2012. En comparant les valeurs des différents
paramètres pour les deux années de prédiction, nous observons clairement que le taux des
perdus de vue est nettement plus élevé pour l’année 2012 que pour l’année 2010 dans la Daira
de Kheireddine, quand les autres taux sont pratiquement similaires. Rappelons que ces taux
sont estimés à partir des données observées, à la différence du nombre de contact qui a été
conclu de différents travaux de recherche (Aparicio and Catillo-chavez, 2009; Keeling and
Rohani, 2008).
Exploiter les connaissances extraites par classification, nous a conduit à accomplir une
optimisation spécifique pour un groupe de population particulier, au lieu de l’accomplir pour
la population entière. Même si nous avons réussi à concevoir un modèle prédictif optimal,
l’épidémiologiste et l’expert doivent mener de plus profonde recherche et enquêter sur cette
partie de la population. L’une des explications des experts jugée subjective, est que ce groupe
de population de par sa nature sociale et sa location qui est généralement loin des centres
épidémiologiques auxquels ils sont affectés, les empêche de se déplacer.
Tableau 5.11 Récapitulatif des paramètres du modèle de la tuberculose optimisé (2010 et 2012)
Paramètre Kheireddine
2010
Kheireddine
2012
Ain Tedles
2010
Ain Tedles
2012
Failure_Rate 0.00039 0.00035 0.00025 0.0003
Recovered_Rate 0.003 0.003 0.003 0.0037
Transfered_Rate 0.0003 0.0002 0.00006 0.000033
Treatment_completed_Rate 0.001 0.001 0.0008 0.0006
Death_Rate 0 0.00004 0.0003 0.00033
Lost_Rate 0.00078 0.00337 0.00055 0.00054
Nombre contact 29 30 26 26
Tableau 5.12 Les algorithmes de règles d’association (Witten et al., 2011) Algorithme Description
Apriori
FilteredAssociator
GeneralizedSequentialPatterns
PredictiveApriori
Tertius
Sélectionne les règles en utilisant l’algorithme Apriori
Exécute un associateur dans les données filtrées
Trouve de larges ensembles d’items dans les données
séquentielles
Sélectionne les règles triées par un taux d’exactitude prédictive
(Predictive accuracy)
Confirmation-guided discovery of association or classification
rules
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
118
5.3.5 Optimisation par règles d’association
Afin de renforcer l’optimalité de notre approche, nous allons dans cette section appliquer les
algorithmes de règles d’association. Rappelons que notre objectif spécifique à ce niveau est de
prédire correctement les années (2010 et 2012) dont notre modèle Bio-PEPA a montré un
écart en relation avec le nombre d’individus déclarés perdus de vue.
Dans cette optique d’optimisation par les règles d’association, nous allons explorer les
algorithmes offerts par l’outil Weka.
5.3.5.1 Génération de règles
Tel qu’illustré sur le tableau 5.12, Weka dispose de cinq algorithmes de règles d’association.
Cependant, pour nos expérimentations, nous nous sommes limités à : Apriori,
PredictiveApriori et Tertius. En effet l’algorithme FilteredAssociator a été exclu du fait que
nous allons indirectement l’appliquer. Rappelons qu’à la phase de prétraitement, nous avons
procédé à un filtrage sur l’ensemble des données de la tuberculose. Dans cette section, nous
appliquons les algorithmes de règles d’association sur cet ensemble filtré, ce qui résume le
principe de l’algorithme FilteredAssociator.
Le choix de l’exclusion de l’algorithme GeneralizedSequentialPatterns se justifie par la
définition de ce dernier. Selon Witten (Witten et al., 2011), l’algorithme
GeneralizedSequentialPatterns consiste à suivre le comportement des individus au cours du
temps, où le principe de la temporalité est pris en compte. Autrement dit, il consiste à extraire,
selon un certain ordre d’enchaînement, des ensembles d’items associés sur une période de
temps bien spécifique. Ceci se défini généralement par le fait de mettre en évidence des
associations inter-transactions, ce qui implique une contradiction avec le contenu de notre
base de données de la tuberculose ainsi que notre principe d’extraction des combinaisons
intra-transactions.
Nous rappelons que lors de la simulation du modèle Bio-PEPA initial pour les années 2010 et
2012, nous avons noté que les résultats ne correspondaient pas aux données observées,
particulièrement pour la classe des perdus de vue « Lost ». Dans cette optique
d’expérimentation par les règles d’association, nous allons nous focaliser sur les règles
exprimant l’état « Lost ». Ceci engendre deux séries d’expérimentations : la 1ère
série
concerne l’ensemble de données de 2008 à 2010 et la 2ème
série concerne l’ensemble de 2008
à 2012.
Le tableau 5.13 (resp. tableau 5.14) illustre les meilleures règles extraites lors de
l’expérimentation de la 1ère série en utilisant les trois algorithmes cités ci-dessus (resp. lors
de la 2ème
série d’expérimentations). Notons qu’uniquement les règles exprimant l’état
« Lost » ont été rapportées dans le tableau, le reste des règles a été ignoré.
Les algorithmes définis dans Weka, leur est associé un ensemble de paramètres que
l’utilisateur doit spécifier au préalable. Dans ce qui suit et pour chacun des trois algorithmes,
nous allons initialiser ces paramètres et justifier notre choix.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
119
- Algorithme Apriori : afin d’extraire les règles pertinentes, Apriori se base sur les deux
indicateurs, support et confiance (cf. chapitre 3). Ainsi, dans Weka un support minimum
(seuil) doit être fourni afin de pouvoir calculer la fréquence d’apparition des itemsets dans la
base de données, cette fréquence doit être supérieure ou égale au seuil. Afin d’optimiser au
mieux les règles à extraire, l’utilisateur a le libre choix de spécifier un support et une
confiance minimale. Pour plus de souplesse, Weka permet de limiter le nombre de règles à
visualiser. Il permet également de ne se focaliser que sur des règles dont la conclusion est un
attribut particulier. Quoique ce dernier paramètre soit une bonne initiative pour notre
recherche car nous visons la classe des perdus de vue, il est plus avantageux d’analyser toutes
les règles contenant la classe « Lost » quelle que soit sa position (condition ou conclusion), le
fait est que, ce qui nous importe c’est de détecter les attributs en forte corrélation. Toutefois,
la priorité est assignée aux règles dont la conclusion est la classe « Lost ». pour nos
expérimentations, nous avons initialisé le seuil minimal pour l’indicateur support à 0.3.
Cependant, en se basant sur le fait que, plus le support d’une règle est élevé, plus la règle est
fréquente, néanmoins due à la taille réduite de notre base de données et sa variabilité, nous
avons préféré utiliser un seuil Supp assez bas pour ne pas perdre de l’information pertinente.
nous avons convenu de varier la confiance en fonction des règles obtenues dans un intervalle
[0.5, 1]. Les différents tests ont montré que nous ne pouvons pas aller au-delà de la limite 0.5,
car les perdus de vue représentent 20% de toute la base ce qui implique un nombre très faible
des transactions qui peuvent être sélectionnées. Notons que le nombre de règles à extraire
dépond du type de règles et de la confiance, la raison pour laquelle nous avons préféré étendre
la visualisation des règles jusqu’à 100 règles.
- Algorithme PredictiveApriori : pour cet algorithme les indicateurs support et confiance
sont combinés et remplacés par une seule mesure « exactitude prédictive ». Egalement, pour
cet algorithme, Weka permet à l’utilisateur de définir le nombre limite des règles à extraire.
Nous avons initialisé ce paramètre à 100 règles. Pour cet algorithme, pas besoin de définir un
seuil support car ce dernier est automatiquement incrémenté pour en extraire de meilleures
règles.
Algorithme Tertius : Tertius sélectionne les règles selon une mesure de confirmation. Sa
particularité est qu’il recherche des règles avec de multiples conditions dans la partie
conclusion, où ces dernières sont reliées par une conjonction (ou) à la différence de
l’algorithme Apriori qui utilise des disjonctions (et). Ses règles peuvent être configurées de
sorte que la partie conclusion ne fasse référence qu’à un seul attribut ou même un attribut
prédéterminé tel que la classe. Weka permet de spécifier le nombre de règles à extraire, le
degré minimum de confirmation, proportion maximale des contre-exemples, et le nombre
maximal d’attributs dans la règle. Weka permet aussi de définir d’autres paramètres tels que
ceux en relation avec les valeurs manquantes, paramètres pour affiner l’indice de confirmation
ou encore pour l’affichage de mesures statistiques. Une analyse sensible sur les différents
paramètres de cet algorithme, nous a permis de conclure que les valeurs à utiliser sont celles
définies par défaut dans Weka. Vu le nombre important de règles que cet algorithme peut
générer nous avons préféré limiter les règles à celles ayant un seul attribut en conclusion, qui
est la classe « ArretTrt ». Les paramètres ainsi initialisés, nous pouvons à présent
expérimenter les différents algorithmes sur notre base de données de la tuberculose.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
120
Tableau 5.13 Expérimentations Série 1- Règles extraites de : Apriori, Predictive Apriori and Tertius
Algorithme Règle Mesure
Apriori 1. if (DAIRA=KHEIREDDINE, BACIL1=NF, BACIL2=NF,
BACIL3=NF) ==> ARETTRT=Lost
2. if (DAIRA=KHEIREDDINE, BACIL1=NF, BACIL2=NF)
==> ARETTRT=Lost
3. If (DAIRA=KHEIREDDINE, BACIL1=NF, BACIL3=NF)
==> ARETTRT=Lost
4. If (DAIRA=KHEIREDDINE, BACIL2=NF, BACIL3=NF)
==> ARETTRT=Lost
5. If (DAIRA=KHEIREDDINE, BACIL1=NF)
==> ARETTRT=Lost
6. If (DAIRA=KHEIREDDINE, BACIL2=NF)
==> ARETTRT=Lost
7. If (SEXE=M, BACIL1=NF, BACIL2=NF, BACIL3=NF)
==> ARETTRT=Lost
8. If (COM=SAYADA, BACIL2=NF, BACIL3=NF)
==> ARETTRT=Lost
conf:(0.84)
conf:(0.81)
conf:(0.75)
conf:(0.74)
conf:(0.72)
conf:(0.71)
conf:(0.65)
conf:(0.52)
Predictive
Apriori
1. If (AGE=A3, SEXE=F) ==> ARETTRT=Lost
2. If (AGE=A3, COM=SAYADA, DAIRA=KHEIREDDINE)
==> ARETTRT=Lost
3. If (AGE=A3, COM=SAYADA, BACIL1=NF, BACIL2=NF)
==> ARETTRT=Lost
4. If (SEXE=F, COM=SAYADA, DAIRA=KHEIREDDINE,
BACIL2=NF, BACIL3=NF) ==> ARETTRT= Lost
5. If (AGE=A3, DAIRA=KHEIREDDINE, BACIL1=NF)
==> ARETTRT=Lost
6. If (AGE=A3, SEXE=F, COM=SAYADA,
DAIRA=KHEIREDDINE, BACIL1=NF, BACIL2=NF,
BACIL3=NF) ==> ARETTRT=Lost
acc:(0.96)
acc:(0.96)
acc:(0.93)
acc:(0.93)
acc:(0.93)
acc:(0.93)
Tertius 1. If DAIRA = KHEIREDDINE
==> COM = SAYADA or BACIL1 = NF or ARETTRT = Lost
2. If (DAIRA = KHEIREDDINE and BACIL1 = NF)
==> COM = SAYADA or ARETTRT = Lost
3. If DAIRA = KHEIREDDINE
==> COM = SAYADA or ARETTRT = Lost
4. If (DAIRA = KHEIREDDINE and SEXE = M)
==> COM = SAYADA or ARETTRT = Lost
5. If (DAIRA = KHEIREDDINE and BACIL1 = NF and BACIL2
= NF) ==> ARETTRT = Lost
Confi:(0,53)
Confi:(0,50)
Confi:(0,50)
Conf:(0,42)
Confi:(0,41)
5.3.5.2 Evaluation et interprétation des règles générées
Le tableau 5.13, illustre l’ensemble de règles extraites des algorithmes (Apriori,
PredictiveApriori et Tertius) pour l’ensemble de la 1ère
série de données. Pour les règles 1-6
générées par l’algorithme Apriori, les attributs Bacil 1-3 et Daira sont relevés autant que
meilleurs descripteurs pour les individus perdus de vue avec une confiance maximale de 84%.
Tel que nous l’avions spécifié lors de l’étape de classification, la relation entre les attributs
Bacil1-3 et l’individu « Lost » est bien connue par l’épidémiologiste.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
121
Cette relation se résume par le principe que si les tests bactériologiques ne sont pas
disponibles alors l’individu déclaré tuberculeux est considéré automatiquement perdu de vue.
Par conséquent, les attributs bacil 1-3 même si pertinents ne sont pas considérés comme
information nouvelle pour notre modèle Bio-PEPA, et l’attribut « Daira » est retenu comme
seul attribut pertinent.
Dans le même contexte de raisonnement, les règles 7 et 8 explicitent la pertinence des
attributs Sex et Com mais avec une confiance inférieure aux règles précédentes.
Les règles 1 et 2 générées par l’algorithme PredictiveApriori montrent que les attributs Sex,
Com et Daira sont tous des attributs pertinents à 96% d’exactitude. Il est à noter que ces
mêmes attributs ont été inférés de l’algorithme Apriori, ceci confirme leur importance autant
que descripteurs des individus perdus de vue. Aussi, il est important de noter que la modalité
(Sayada) correspondante à l’attribut Com exprimée dans les règles 3, 4 et 6 est parfaitement
associée à la modalité de l’attribut Daira dont la modalité est Kheireddine. En effet, selon la
structuration des communes de la Daira de Kheireddine, la commune Sayada en fait partie, ce
qui donne plus de précision sur les individus perdus de vue. De plus, les règles 1, 2, 3, 5 et 6
définissent l’attribut Age comme pertinent. Etant donné la modalité exprimée pour cet attribut
(A3), il n’est pas surprenant que cette catégorie d’individus dont l’âge est compris entre 25 et
34 ans, soit la plus exposée.
Similairement, l’algorithme Tertius montre relativement les mêmes résultats, où les attributs
Daira, Com et Sex ont été déduits comme descripteurs pertinents pour les individus perdus de
vue pour un degré de confirmation de 40 à 53%. Même si le degré de confirmation apparait
assez bas comparant aux autres indicateurs des autres algorithmes, les règles correspondantes
sont hautement confirmées et satisfaites, car le degré de confirmation est associé à une
proportion de contre-exemple assez basse (Flach et Lachiche, 2001). Tel est les cas par
exemple pour la règle 2 où le degré de confirmation est à 50% et le pourcentage de contre-
exemple est à 1%.
Il est clairement montré que les trois algorithmes ont généré pratiquement un même ensemble
de règles décrites par un même ensemble d’attributs. Cette constatation permet de confirmer
que les individus perdus de vue ne sont pas uniquement décrits par le cas où les trois tests
bactériologiques (Bacil 1-3) sont indisponibles, mais que leur état est aussi fortement
dépendant de leur location (Daira et Com), de leur genre (Sex) et de leur age (Age).
Avant d’optimiser notre modèle Bio-PEPA par ces nouvelles informations, nous allons dans
ce qui suit présenter les règles extraites pour l’ensemble de la 2ème
série de données, relative à
l’année 2012. Le tableau 5.14, illustre les résultats pour les algorithmes Apriori,
PredictiveApriori et Tertius.
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
122
Tableau 5.14 Expérimentations Série 2 - Règles extraites de: Apriori, Predictive Apriori and Tertius
Algorithme Règle Mesure
Apriori 1. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF)
==> ARETTRT= Lost
2. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF,
BACIL2=NF) ==> ARETTRT= Lost
3. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF,
BACIL3=NF) ==> ARETTRT= Lost
4. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF,
BACIL2=NF, BACIL3=NF) ==> ARETTRT= Lost
conf:(1)
conf:(1)
conf:(1)
conf:(1)
Predictive
Apriori
1. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF)
==> ARETTRT= Lost
2. If (AGE=A5, SEXE=M) ==> ARETTRT= Lost
3. If (AGE=A1, BACIL1=NF) ==> ARETTRT= Lost
4. If (DAIRA=KHEIREDDINE, TYPMAL=N)
==> ARETTRT= Lost
5. If (DAIRA=KHEIREDDINE, BACIL1=NF)
==> ARETTRT= Lost
6. If AGE=A0 ==> ARETTRT=Lost
acc:(0.99)
acc:(0.98)
acc:(0.97)
acc:(0.92)
acc:(0.92)
acc:(0.91)
Tertius 1. TYPMAL = N and BACIL1 = NF and BACIL3 = NF
==> ARETTRT = Lost
2. TYPMAL = N and BACIL1 = NF and BACIL2 = NF
==> ARETTRT = Lost
3. TYPMAL = N and BACIL1 = NF ==> ARETTRT = Lost
4. DAIRA = KHEIR EDDINE and TYPMAL = N and
BACIL1 = NF ==> ARETTRT = Lost
5. DAIRA = KHEIR EDDINE and BACIL1 = NF and BACIL2
= NF ==> ARETTRT = Lost
6. DAIRA = KHEIR EDDINE and TYPMAL = N and
BACIL2 = NF ==> ARETTRT = Lost
7. TYPMAL = N and BACIL2 = NF ==> ARETTRT = Lost
8. SEXE = M and TYPMAL = N and BACIL1 = NF
==> ARETTRT = Lost
Confi: 0,31
Confi: 0,31
Confi: 0,29
Confi: 0,25
Confi: 0,24
Confi: 0,21
Confi: 0,21
Confi: 0,21
Tableau 5.15 Attributs pertinents.
L’algorithme Apriori montre une plus grande performance par rapport aux autres algorithmes,
où l’indice de confiance est à 100%. Cependant, les attributs en relation avec l’état « Lost »
sont relativement différents que ceux extraits dans l’ensemble de données de la 1ère
série (cf.
Tableau 5.13). Les règles exprimées dans le tableau 5.14 montrent que les attributs TYPMAL
et Daira sont hautement associés à la classe « Lost », où les attributs Sex et Com déduits de
l’algorithme Apriori pour la 1ère
série n’ont aucun impact sur les individus perdus de vue.
Experimentation Algorithme Attributs sélectionnées
Series 1 Apriori Daira, Sex, Com
Predictive Apriori Daira, Sex, Com, Age
Titrius Daira, Sex, Com
Series 2 Apriori Daira, TYPMAL
Predictive Apriori Daira, Age, TYPMAL
Titrius Daira, TYPMAL, Sex
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
123
L’algorithme Predictive Apriori a également indiqué que les attributs Daira et, TYPMAL sont
des descripteurs pertinent à 99% de taux d’exactitude. Cependant, les autres règles montrent
que l’attribut AGE a aussi une influence sur l’état « Lost », où différentes catégories d’âges
(A0, A1 et A5 correspondantes respectivement à [0-4], [5-14] et [45-54]) ont été déduites. Les
attributs Sex et Com n’ont pas été retenus.
Semblablement à l’algorithme Apriori, l’algorithme Tertius a montré que les attributs Daira et
TYPMAL sont pertinents. A l’exception de l’attribut SEX qui a aussi été reconnu comme
descripteur de l’état « Lost » mais avec un degré de confirmation moindre.
Il est important de rappeler que le but de cette analyse est d’enrichir l’expert/épidémiologiste
avec de nouvelles connaissances afin d’optimiser le modèle prédictif de Bio-PEPA. Dans
cette optique, nous avons préféré de ne rapporter dans les tableaux 5.13 et 5.14 que les règles
qui ont été jugées les plus pertinentes, dans le sens où les règles restantes sont arborées de
connaissances déjà connues par l’expert.
Pour résumer, le tableau 5.15 illustre l’ensemble des attributs sélectionnés comme pertinent.
Ces derniers seront les paramètres clés de la phase d’optimisation du modèle Bio-PEPA.
Nous pouvons voir sur le tableau 5.15 que l’attribut Daira est sollicité lors des deux
expérimentations (1ère
et 2ème
séries) quels que soient les algorithmes appliqués. Bien que les
attributs Sex et Com ont fait l’unanimité lors de la 1ère
série d’expérimentations, ils n’ont pas
été déduits lors de la deuxième série d’expérimentations où nous pouvons observer
l’apparition d’un nouvel élément qui est l’attribut TYPMAL. Par conséquent, nous retenons
l’attribut Daira pour les deux séries d’expérimentations, les attributs Sex et Com pour la 1ère
série et TYPMAL pour la 2èmle série.
5.3.5.3 Optimisation du modèle
Tel que nous avons procédé ultérieurement, les attributs sélectionnés feront l’objet d’une
optimisation du modèle Bio-PEPA initial, où les composants : paramètres, espèces et taux
fonctionnels, seront mis à jour en fonction de ces attributs.
Tableau 5.16 Attributs et modalités sélectionnés
Expérimentation Attributs sélectionnés Modalities sélectionnées
Series 1 Daira Kheireddine (KH), Ain Tedles (AT)
Sex Male (M), Female (F)
Com Sayada, Other
Series 2 Daira Kheireddine (KH), Ain Tedles (AT)
TYPMAL New, Other
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
124
Le nombre important de modalités par lesquelles quelques attributs sélectionnés sont
exprimés, par exemple l’attribut Com correspond à sept modalités, implique une mise à jour
assez complexe et couteuse en temps et effort. En effet, optimiser selon sept modalités revient
à restructurer le modèle selon sept compartiments, où pour chaque compartiment, les taux
fonctionnels doivent être redéfinis et les paramètres recalculés. Par conséquent, nous
suggérons que lors de la mise à jour du modèle, nous ne prenons pas en considération tous les
attributs à la fois. Ainsi, il est préférable d’analyser l’impact de chaque attribut
indépendamment des autres attributs. Ceci permettra de réduire la complexité de l’étape
d’optimisation et de voir l’influence de chaque attribut sur le modèle séparément. Mieux
encore, nous proposons de restructurer le modèle selon les modalités exprimées dans les
règles correspondantes. Par exemple, dans les règles des expérimentations de la 1ère série (cf.
tableau 5.13), l’attribut Com est décrit par la valeur « Sayada », ce qui implique la
restructuration du modèle Bio-PEPA selon deux compartiments, où le 1er
correspond à la
commune de Sayada et le 2ème
regroupe toutes les autres communes. Le tableau 5.16 résume
les modalités correspondantes à chaque attribut sélectionné pour chaque série
d’expérimentations. Rappelons que l’optimisation par l’attribut Daira a déjà été réalisée dans
la section 2.4. Dans ce qui suit nous allons nous focaliser sur les attributs restant. Une analyse
globale sera reportée à la fin de cette section.
La figure 5.22 illustre le nombre de cas simulés et observés associés à chaque classe pour
l’attribut « Sex ». Nous observons que la majorité des individus sont de sexe masculin
(histogrammes à gauche de la figure), où le plus grand nombre est associé à la classe des
guéris suivi par celle des perdus de vue. L’analyse des histogrammes pour l’attribut « Sex =
mal » montre que la classe des perdus de vue a été largement sous-estimée où l’écart observé
entre données simulées et observées est estimé à 46%. Malgré cette distinction, l’analyse
statistique, où 2 = 4,1, degrés de liberté = 3, valeur-p = 0.242, montre clairement que les
données observées et simulées ne sont pas statistiquement différents. Cependant, structurer le
Figure 5.22 Histogrammes pour la tuberculose par Sexe (Série 1- 2010)
2 2 1
2 4
5
1 2
26 27
17 17
7
13
2
5
2 1 1
0
9
4 3
1
0
5
10
15
20
25
30
Simulated Data - Male Observed Data - Male Simulated Data - Female Observed Data - Female
Nu
mb
er o
f ca
ses
Died
FAIL
RECOVERED
LOST
TRANSFERED
TRTCOMP
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
125
modèle par sexe ne permet pas de distinguer le groupe en cause de l’écart constaté dans le
modèle Bio-PEPA initial. En effet, en normalisant le nombre des infectés mâles et femelles, il
apparait que l’écart est pratiquement similaire pour les deux groupes, où il est estimé à 60%
pour les hommes et 56% pour les femmes. Ceci nous induit à conclure que la restructuration
du modèle Bio-PEPA par sexe ne permet pas de distinguer correctement la cause de l’écart
détecté.
Conjointement à l’étude ci-dessus, nous avons analysé l’impact de l’attribut « Com » (cf.
figure 5.23). Même si le nombre des infectés dans la commune de Sayada est inférieur au
nombre total des autres communes, une normalisation des résultats de notre modèle a montré
un grand écart (90%) entre données observées et simulées pour l’état « Lost » situé à Sayada
(histogrammes à gauche), où une prédiction optimal est constatée pour les autres communes
(histogrammes à droite).
La figure 5.24 correspondante aux expérimentations relatives à la 2ème
série de données pour
l’attribut TYPMAL montre que la grande majorité des infectés sont de type nouveau malade
où 7% sur un nombre total des infectés sont déclarés autre type que nouveau (repris ou échec).
Notre modèle prédictif suit ce raisonnement et réussit à prédire correctement toutes les classes
sauf pour l’état « Lost » où un écart de 17% est constaté par rapport aux données observées.
Cependant, le nombre limité des autres types ne nous permet pas de nous prononcer sur la
capacité de notre modèle à les prédire correctement.
Figure 5.23 Histogrammes pour la tuberculose par Com (Série 1- 2010)
0 0 2
4 1 1
3 6 6 6
42
38
1
9 9 9
1 1 0 0 3
0
10
5
0
5
10
15
20
25
30
35
40
45
Simulated data-Sayada
Observed data-Sayada
Simulated data-Other
Observed data-Other
Died
Fail
Recovered
Lost
Transferred
Trtcomp
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
126
Figure 5.26 Histogrammes pour la tuberculosis par : Daira et TYPMAL. (Série 2- 2012)
4 5 11
0
17 10
24
3 0
5
10
15
20
25
30
35
40
Daira=KH Daira=AT TYPMAL=New TYPMAL=Other
Nu
mb
er
of
Lost
Simulated Data Observed Data
Figure 5.24 Histogrammes pour la tuberculose par TYPMAL (Série 2- 2012)
Figure 5.25 Histogrammes pour la tuberculose par : Daira, Sex et COM. (Série 1- 2010)
2 2 0 0
4
0 0 1
38 40
1 2
11
24
0 3
1 1 0 0
9 10
0 0 0
5
10
15
20
25
30
35
40
45
Simulated data-New
Observed data-New
Simulated data-Other
Observed data-Other
Died
Fail
Recovered
Lost
Transferred
Trtcomp
Daira=KH Daira=AT SEX=M SEX=F COM=Sayada COM=Other
15
3
13
5 9
9
0
5
10
15
20
25
Nu
mb
er o
f L
ost
Simulated Data Observed Data
Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :
Application à la tuberculose
127
Discussion
La figure 5.25 (resp. figure 5.26) résume les résultats de simulation pour les expérimentations
de la 1ère
série de données (resp. 2ème
série de données) où nous rapportant uniquement la
classe des perdus de vue. Il est clairement montré que les attributs extraits par les règles
d’association ont permis à notre modèle prédictif de distinguer la partie de la population qui
est la cause de l’écart constaté lors des simulations du modèle initial (figure 5.7 resp.
figure 5.17). Effectivement de par cette analyse, jusqu’à l’année 2010, la population des
tuberculeux est définie en général par une majorité d’individus localisés à la Daira de
Kheireddine et plus spécifiquement à la commune de Sayada. Quand à l’analyse étendue
jusqu’à l’année 2012, a montré que la population des tuberculeux a été plus reconnu par
l’apparition de cas nouveaux dans la Daira de Kheireddine sans spécifier une commune
particulière. Il est évident de cette étude que la Daira de Kheireddine demeure la localité la
plus affectée que nous devrions prendre plus en considération lors de l’étape de définition des
paramètres du modèle Bio-PEPA. Cependant, nous avons constaté que même si les attributs
« Sex » et « TYPMAL » recensés par les règles d’association ont permis de visualiser l’écart
signalé pour l’état « lost », ils ne sont pas réellement de bon descripteurs pour l’optimisation
de notre modèle car l’effectif de certaines modalités, telles que « Sex = Female » ou
« TYPMAL = Other », est très limité. Ainsi, nous ne pouvons pas affirmer que les résultats de
simulations fournis par notre modèle et relatifs à ces modalités sont valides. Ainsi, même si
les règles d’association ont permis de définir un éventail plus large de descripteur pour l’état
des perdus de vue que les arbres de décision, nous avons constaté que les arbres de décision
visent plus étroitement le descripteur qui est le plus pertinent pour un processus
d’optimisation de modèles formel.
5.4 Conclusion
Dans ce chapitre, nous avons validé notre approche qui est d’exploiter les algorithmes de
fouille de données en phase d’optimisation. De par les expérimentations, nous avons prouvé
que les connaissances acquises du processus de fouille de données par classification et règles
d’association ont bien été utiles pour guider l’expert dans son raisonnement et sa prise de
décision et ainsi optimiser et raffiner au mieux le modèle prédictif. Afin d’approfondir le
concept de l’intégration du principe de fouille de données dans l’étape d’optimisation, nous
allons dans le chapitre suivant, étendre l’application de notre approche proposée à l’exemple
des oreillons en Grande Bretagne.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
Chapitre 6
Fouille de données pour l’optimisation des modèles épidémiologiques:
Application aux Oreillons
Sommaire
6.1 Introduction
6.2 Optimisation par fouille de données
6.3 Modélisation des oreillons en Grande Bretagne (Ecosse)
6.3.1 Situation épidémique en Ecosse
6.3.2 Modélisation de l’épidémie des oreillons
6.3.3 Analyse de sensibilité
6.3.4 Processus d’optimisation par fouille de données
6.3.4.1 Prétraitement des données
6.3.4.2 Sélection des attributs
6.3.4.3 Optimisation par règles d’association
6.3.4.4 Evaluation et interprétation des règles extraites
6.3.4.5 Optimisation par segmentation
6.3.4.6 Evaluation et interprétation des segments
6.4 Conclusion
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
129
6.1 Introduction
Nous avons évalué dans le chapitre 5, les performances de notre approche proposée par son
application à l’épidémie de la tuberculose. Notre intérêt qui porte sur l’optimisation des
modèles épidémiologiques Bio-PEPA a été principalement motivé par l’intégration du
processus de classification et des règles d’association dans la phase d’optimisation du
processus de modélisation formelle.
A la lumière de l’approche proposée au chapitre 5 et notre conviction qu’elle peut être
étendue à d’autres exemples épidémique, il est dans ce chapitre de l’appliquer à l’épidémie
des oreillons au Royaume-unis.
Ce chapitre fait l’objet de deux publications (en cours de révision):
D.Hamami, R. Cameron, K.G.Pollock, C.Shankland. Understanding the epidemiology
of mumps immunization in Scotland: A computational modelling study. En cours de
révision, Journal Frontiers in Physiology, section Computational Physiology and
Medicine.
D.Hamami, B.Atmani, R.Cameron, K.G.Pollock, C.Shankland. Improving process
algebra model structure and parameters in infectious disease epidemiology through
data mining. En cours de révision, Journal of Intelligent Information Systems (JIIS).
6.2 Optimisation par fouille de données
Il s’agit dans ce chapitre de reproduire le processus d’optimisation tel que défini dans le
Chapitre 3 (cf. Section 3.4.2) pour l’épidémie des oreillons. Ainsi, nous reprenons les étapes
comme suit :
1. Prétraitement des données épidémiologiques des oreillons;
2. Sélection des attributs ;
3. Application des règles d’association et de la segmentation ;
4. Evaluation et interprétation des règles extraites et des attributs sélectionnés comme
meilleurs descripteurs et analyse des segments résultants;
5. Optimisation du modèle Bio-PEPA initial ;
6. Simulation et analyse.
Cependant, tel que nous avons procédé dans le chapitre 5 pour l’exemple de la tuberculose et
selon la figure 6.1, nous allons au préalable concevoir un modèle Bio-PEPA initial pour
l’épidémie des oreillons.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique : Application aux Oreillons
Figure 6.1 Optimisation des modèles épidémiologiques : Structure Générale
Connaissances acquises de l’expert
6: Simulation et analyse
1: Définition du problème
2: Conception de l’étude
3: Conception du modèle
4: Définition du processus: etrées, sorties, règles et hypothèses
5: Implémentation du modèle Bio-PEPA model – Contribution 1
4: Ensemble de règles et d’attributs pertinents
3 : Règles d’association
2: Sélection des attributs
1: Nettoyage des données et transformation
Op
tim
isati
on
basi
qu
e
La
nga
ge
na
rra
tif
– C
on
trib
uti
on
2
Seg
men
tati
on
des
res
ult
an
ts d
e
sim
ula
tio
ns
– C
on
trib
uti
on
3
Ph
ase
d’o
pti
mis
ati
on
Phase de fouille de données Phase de modélisation et de simulation
Données épidémiologiq
ues
Extr
acti
on
des
co
nn
ais
san
ces–
Co
ntr
ibu
tio
n 3
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
6.3 Modélisation des oreillons en Grande Bretagne (Ecosse)
6.3.1 Situation épidémique en Ecosse
Les oreillons sont dus au virus « paramyxovirus ». Touchant uniquement l’espèce humaine, la
maladie des oreillons est déclarée souvent bénigne, mais qui peut dans certains cas, causer
des complications nécessitant une hospitalisation voire même laissant des séquelles à long
terme.
Durant la période 1988-2015, le centre national de surveillance de l’Ecosse (GB), HPS
(Health Protection Scotland), a reporté 10943 cas d’oreillons, où 10486 cas ont été signalés
entre 2004 et 2015. Le processus de vaccination contre les oreillons a été introduit en 1988, et
une seconde dose a été introduite en 1996. La figure 6.2 illustre l’évolution de l’épidémie des
oreillons en Ecosse et son protocole de vaccination pour les deux doses ROR1 et ROR2. Nous
observons le succès de la vaccination dès son introduction en 1988 jusqu’à 2003. Cependant
dès l’année 2004, une flambée de cas a été constatée et ce malgré la continuité du protocole
de vaccination.
Nous constatons aussi une fluctuation variable de l’épidémie tout au long de la période 2004-
2015, où quatre pics ont été observés (2005, 2009, 2012 et 2015). Il a été reporté que
l’invasion des oreillons produite en 2004-2005 est partiellement due à l’abaissement de la
couverture vaccinale (cf. figure 6.2). La figure 6.3 illustre la distribution de l’épidémie par
groupe d’âges, où il est clairement montré qu’en 2004 et 2005, la majorité des infectés (94%)
sont nés avant 1990 (agés plus de 15 ans). Une minorité de ces derniers (environ 1%) a due
recevoir uniquement le vaccin ROR1. Les mêmes conclusions ont été reportées pour les
épidémies de 2009 et 2012. Cependant, l’épidémie survenue en 2015, montre une toute autre
observation, car la plus grande incidence (63%) a été rattachée au groupe né en 1991-2000
(agé entre 15-24 ans). Cameron et Smith-Palmer (2015) reportent que l’épidémie de 2015 a
été le premier cas où la majorité des infectés ont été doublement vaccinés (ROR1 et ROR2).
Figure 6.2 Cas confirmés des oreillons, Ecosse 1988-2015 et la couverture vaccinale ROR.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
132
Figure 6.4 Modèle à compartiments des oreillons
Les principales préoccupations des épidémiologistes sont : malgré l’existence d’une double
vaccination, quel est le principal facteur permettant à l’épidémie de ressurgir et de persister ?
Que sera le schéma futur de l’épidémie ?
Par conséquent, au cours de cette section nous allons tenter de répondre aux préoccupations
des experts en se focalisant principalement sur la modélisation des épidémies de 2004 à 2015.
6.3.2 Modélisation de l’épidémie des oreillons
a. Interaction expert/modélisateur
Nous considérons pour ce modèle des oreillons une structure à compartiments basée sur un
modèle SEIR étendu, où nous définissons sept compartiments : individus naturellement
susceptibles (S1), individus vaccinés avec ROR1 seulement (V1), individus vaccinés avec
ROR1 et ROR2 (V2), individus susceptible due à la perte de vaccination (S2), individus
Figure 6.3 Cas confirmés des oreillons, Ecosse 2004 – 2015, Distribution par âge.
0
200
400
600
800
1000
1200
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Nu
mb
er
of
case
s
Years
[0-4] [5-9] [10-14] [15-19] [20-24]
[25-29] [30-34] [35-39] [40- ..]
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
133
latents (E), individus infectés (I) et individus guéris et qui ont acquis une immunité à vie (R)
(Anderson et May, 1991 ; Greenhalgh et Sfikas, 2003). Nous considérons pour ce modèle une
population homogène, soumise au protocole de vaccination et qui peut subir une
contamination d’une population immigrante. La figure 6.4 montre l’interaction entre les
différents compartiments cités ci-dessus. Le tableau 6.1 résume les paramètres du modèle.
Nous rappelons que les données fournies par le service HPS de l’Ecosse pour la période de
2004 à 2015 (HPS, 2015) sont utilisées pour calculer les paramètres du modèle. Aussi pour un
complément de paramètres, nous nous sommes inspirés de la littérature (Anderson et May,
1991 ; Keeling et Rohani, 2008). Les sections suivantes apportent plus de détails sur
l’estimation des paramètres.
Estimation démographique. Le taux de naissance et de mortalité sont calculés à partir des
données démographiques de l’Ecosse (HPS, 2015).
Estimation du taux d’immigration. Afin d’assurer la persistance de l’infection, nous avons dû
intégrer le principe d’immigration dans notre modèle. Le taux d’immigration est calculé selon
la formule décrite dans le tableau 6.1 (Finkenstadt et al., 1998 ; Benkirane et al.,2012).
Estimation du taux de vaccination (μ2, μ3). Conformément aux données de vaccination de
1988 à 2015 (Childhood Immunisation Statistics, 2015), nous supposons en moyenne : une
couverture vaccinale du ROR1 à 94% pour les enfants âgés entre 0 et 2 ans. Une couverture
vaccinale du ROR2 à 90% pour les enfants âgés entre 3 et 5 ans.
Estimation du nombre initial de susceptibles. En se basant sur l’historique vaccinal (Moragan-
Capner et al., 1988 ; England PH, 2013), nous supposons que la proportion de la population
susceptible et non vaccinée est à 20%, où parmi ces derniers 11% sont âgés de 10 ans et plus.
Estimation de la perte d’immunité (, ). Selon les explications des épidémiologistes, nous
considérons que les vaccinés avec ROR1 et ROR2 (resp. uniquement ROR1) sont
temporairement protégés et peuvent revenir vers un état susceptible selon un taux (resp. ).
Lebaron et al . (2009) rapportent qu’après 4-9 ans de la vaccination avec ROR1 les individus
vaccinés atteignent leur bas niveau d’anticorps et après 7-12 ans de la vaccination avec
ROR2.
Taux de latence et guérison . Les études empiriques (Anderson et May, 1991 ; Anderson et
al., 1987). ont estimé une période de latence de 12 à 25 jours et une période de transmission
de 7 à 9 jours.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
134
Tableau 6.1 Paramètres du modèle des oreillons
Parameter Description Value
(day)
Formula
B Taux de naissance 3 10-5
Nomber de naissances /
Population totale
Taux de décé 3.7 10-5
Nomber de décés / Population
totale
1 Taux non-vacciné 2.1 10-6
Taux de naissance -(μ2+μ3)
μ2 Taux de vaccination (ROR1) 2.8 10-6
Taux de naissance * VC1
μ3 Taux de vaccination (ROR2) 2.5 10-5
Taux de naissance * VC2
Taux de perte d’immunité du
vaccin (ROR1)
3.4 10-4
1/ Durée de l’immunité du vaccin
ROR1
Taux de perte d’immunité du
vaccin (ROR2)
/2 1/ Durée de l’immunité du vaccin
ROR 2
1
2
3
Taux de transmission :
- Haute saison et susceptible
naturel
- Haute saison et susceptible
modifié
- Basse saison
0.7
0.9
0.4
= R0 *
T7 Période inter-épidémique [2-5]
T = 2 *
(Moragan-
Capner et al., 1988)
Où A: Age moyen de l’infection
1/ Période d’incubation [12-25] 1/taux d’inféction
1/ Période d’infection [7-9] 1/taux de guérison
Taux d’immigration 0.07 Immigration ∗
Estimation du taux de transmission (1, 2, 3). Dans notre modèle, le taux de transmission
dépond de deux paramètres : la saisonnalité (haute, basse) et le type de susceptible (naturel,
modifié). Ainsi, il l’en dérive quatre paramètres de transmissions : 1 (haute saison et
susceptible naturel), 2 (haute saison et susceptible modifié), 3 (basse saison et susceptible
naturel) et 4 (basse saison et susceptible modifié). Pour la saisonnalité, les données reportent
7 Inter-epidemic period related to a pre-vaccine era
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
135
un grand nombre des infectés entre le mois d’Octobre à Mai, et qui diminue entre Juin et
Septembre (HPS, 2015). Etant donné que l’épidémie touche le plus souvent les individus âgés
entre 17 et 24 ans, les observations concernant la saisonnalité sont confirmées par le fait que
la répartition des mois correspond parfaitement à la répartition temporelle scolaire. En effet,
pour cette population estudiantine (âgés de 17 à 24 ans), les mois de Juin à Septembre
correspondent à leurs vacances scolaires ce qui implique moins de contact pour une probable
infection. Pour le degré de transmission des individus naturellement infectés et infectés due à
la perte de la protection vaccinale, Cameron (Cameron, 2016) argumente que parmi 205 cas
confirmés, 137 (67%) sont doublement vaccinés, en conjonction avec les formules présentées
dans les travaux de Scherer et McLean (2002) il en dérive que 2 > 1. Afin d’estimer les
taux de transmission, nous nous sommes basés sur le nombre de reproduction de base R0 (cf.
Tableau 6.1), où un intervalle de valeurs est proposé [4-11] (Anderson et May, 1991 ; Van
Boven et al., 2013 ; Anderson et al., 1987).
b. Conception du modèle formel par Bio-PEPA
Afin de reproduire correctement le schéma de l’épidémie des oreillons dans la population
écossaise, nous avons adopté quatre scénarios :
- Scénario 1. Pas de vaccination. Ceci se rapporte à l’ère pré-vaccinale, où la vaccination
n’avait pas été à lors introduite.
- Scénario 2. L’immunité acquise de la vaccination est permanente. Les taux et sont
nuls.
- Scénario 3. L’immunité acquise de la vaccination est temporaire.
- Scénario 4. Une intervention médicale supplémentaire permet de prolonger la période
d’immunité.
Tel que souligné par notre approche, nous avons formulé le modèle de la figure 6.4 en Bio-
PEPA. Modéliser l’épidémie des oreillons en Bio-PEPA (voir ci-dessous), requis une
description détaillée des composants: paramètres, espèces, taux fonctionnels, compartiments
et composants du modèle.
Paramètres. Tous les paramètres décrits dans le tableau 6.1 sont reportés dans le code Bio-
PEPA (cf. ligne 1 à 12). Le paramètre relatif à la saisonnalité (cf. ligne 19 à 22) est formulé
par la fonction Heaviside (H). Tel que noté par Marco et al. (2012b), la fonction H est utilisée
pour activer/désactiver des taux fonctionnels, ceci en attribuant une valeur booléenne au
paramètre temps. Ainsi le système balance instantanément entre les hautes saisons (du mois
d’Octobre à Mai) et basses saisons (du mois de Juin à Septembre).
Espèces et taux fonctionnels. Selon le modèle à compartiment de la figure 6.4, sept espèces
sont définies : S1, S2, V1, V2, E, I, R. Les espèces exécutent des actions (taux fonctionnels)
permettant de croitre/décroitre leur densité (cf. de la ligne 24 à 40). Les actions se produisent
selon les valeurs des paramètres qui leur sont attribuées. Ainsi, la dynamique du système
évolue, telle qu’à chaque interaction entre espèces une action est invoquée conduisant à une
variation de la densité des espèces concernées. Par exemple, l’action décrite à la ligne 34 du
code Bio-PEPA, correspondante à l’action de latence fait intervenir les deux espèces « E » et
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
136
« I », ce qui implique une diminution du nombre d’individus latents (cf. ligne 43) en utilisant
l’opérateur « << », et augmentation de nombre d’individus infectés par l’opérateur « >> ».
Rappelons qu’à chaque pas de temps de la simulation, Bio-PEPA permet de choisir d’exécuter
différentes actions, ceci est réalisable grâce à l’opérateur « + ».
Compartiments. Les compartiments dans Bio-PEPA sont définis par le terme « Location ».
Dans notre modèle, la population est considérée homogène. Ainsi, tous les individus
interagissent dans le même espace (cf. de la ligne 13 à 18).
Composant modèle. La dernière ligne du modèle (cf. ligne 48) décrit les interactions entre les
espèces et leur densité initiale.
Paramètres
1 D_R = 0.000037;
2 Beta1 =0.7;
3 Beta2 =0.9;
4 Beta = 0.4;
5 Mu2= 0.0000028;
6 Mu3= 0.000025;
7 Mu1 = 0.0000021;
8 Alpha = 0.05;
9 Gama = 0.143;
10 imrate1 =0.07;
11 Tau= 0.00034;
12 Delta=Tau/2;
13 sizeOutside = 110000;
14 sizeLocal = 5300000;
15 location world : size =5200000 , type = compartment;
16 location Local in world: size = sizeLocal, type = compartment;
17 location Local in world: size = sizeLocal, type = compartment;
18 location Outside in world : size = sizeOutside, type = compartment;
19 thigh = 4;
20 tlow = 9;
21 month = floor(time/30);
22 season_time = 1-H( ((month - 12*floor(month/12)) - tlow)*
(thigh-(month - 12*floor(month/12))) );
23 N = (S1@Local +E@Local + I@Local + R@Local +S2@Local
+ MMR1@Local + MMR2@Local);
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
137
c. Simulation et analyse
Nous rappelons que le plugin Bio-PEPA permet d’analyser le modèle selon différents types
d’analyse et que le choix du type dépondait fortement de la nature de l’épidémie et de
l’objectif à atteindre. Nous rappelons que lors de notre interaction avec les épidémiologistes,
ces derniers se sont fortement focalisés sur la durée des cycles épidémiques, tel que celui
définissant les épidémies entre 2005 et 2015. Dans ce contexte, nous avons en premier lieu
effectué une analyse stochastique de notre modèle, ceci ne nous a pas permis d’identifier
correctement les tendances cycliques à long terme. Le comportement étant trop variable, nous
Kinetic Laws
24 kineticLawOf BIRTH1: Mu1 * N;
25 kineticLawOf BIRTH2: Mu2 * N;
26 kineticLawOf BIRTH3: Mu3 * N;
27 kineticLawOf MMR1_S2: MMR1@Local *Tau;
28 kineticLawOf MMR2_S2: MMR2@Local *Delta;
29 kineticLawOf Death_MMR1 : D_R * MMR1@Local;
30 kineticLawOf Death_MMR2 : D_R * MMR2@Local;
31 kineticLawOf immigration : imrate1/10000;
32 kineticLawOf S1_E: (Beta1 * S1@Local * I@Local)/N * (season_time)
+ (1-season_time)*(Beta * S1@Local * I@Local)/N ;
33 kineticLawOf S2_E: (Beta2 * S2@Local * I@Local)/N * (season_time)
+ (1-season_time)* (Beta * S2@Local * I@Local)/N;
34 kineticLawOf E_I: Alpha * E@Local;
35 kineticLawOf I_R: Gama * I@Local;
36 kineticLawOf Death_S1: D_R * S1@Local;
37 kineticLawOf Death_I: D_R * I@Local ;
38 kineticLawOf Death_E: D_R * E@Local;
39 kineticLawOf Death_S2: D_R * S2@Local;
40 kineticLawOf Death_R: D_R * R@Local;
Species
41 S1 = (BIRTH1,1) >> S1@Local + (S1_E,1) << S1@Local + Death_S1 << S1@Local;
42 S2 = (S2_E,1) << S2@Local + Death_S2 << S2@Local + (MMR2_S2,1) >> S2@Local
+ (MMR1_S2,1) >> S2@Local;
43 E = (S1_E,1) >> E@Local + (S2_E,1) >> E@Local + (E_I,1) << E@Local
+ Death_E << E@Local;
44 I = (E_I,1) >> I@Local + (I_R,1) << I@Local + Death_I << I@Local
+ immigration[Outside -> Local](.)I + (S1_E,1) (.) I + (S2_E,1) (.) I;
45 R = (I_R,1) >> R@Local + Death_R << R@Local ;
46 MMR1 = (BIRTH2,1) >> MMR1@Local + (MMR1_S2,1) << MMR1@Local
+ Death_MMR1 << ;
47 MMR2 = (BIRTH3,1)>> MMR2@Local + (MMR2_S2,1) << MMR2@Local
+ Death_MMR2 << ;
Model component
48 S1@Local[1100000] <*> S2@Local[0] <*> E@Local[0]
<*> I@Local[20] <*> R@Local[3218600] <*> MMR1@Local[273541]
<*> MMR2@Local[250000] <*> I@Outside[10000]
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
138
avons tenté de répliquer les simulations jusqu’à 1000 réplications. Chaque série de
simulations présentait une courbe différente. Due à cette variabilité, nous avons convenu avec
les épidémiologistes d’adopter une analyse déterministe.
En se basant sur les figures 6.2 et 6.4 et en conjonction avec les données observées de
l’épidémie des oreillons en Angleterre et Pays de Galles8 (cf. figure 6.5 (a) et (b), Galbraith et
al., 1984 ; Euro Surveil, 2004), trois différentes périodes épidémiques sont constatées :
période pré-vaccinale, période post-vaccinale réussie et période post-vaccinale échouée (perte
d’immunité), où nous pouvons observer un décalage dans les âges des infectés ainsi que dans
l’incidence de l’épidémie.
La figure 6.6 illustre le résultat de simulation des scénarios 1-3. Il est clair que l’épidémie des
oreillons persiste et se produit chaque année.
Figure 6.5 Les oreillons en Angleterre et Pays de Gales 8 Due à l’indisponibilité des données en période pré-vaccinale pour l’Ecosse, nous nous sommes inspirés des
données de l’Angleterre et pays de Galles
50
54
58
62
66
70
74
78
82
86
90
94
98
0
500
1000
1500
2000
2500
3000
3500
4000
4500
va
ccin
e co
ver
ag
e (%
)
lab
ora
tory
co
nfi
rmed
ca
ses
(a) données de 1967 à 2014 excluant (1982-1995)
MUMPS CASES MMR1 MMR2
MMR vaccine introduced, 1988
2nd dose MMR introduced, 1996
(b) données de 1984 à 2004
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
139
Figure 6.6 Prédiction de l’incidence des oreillons: (a) Scenario 1- Sans de vaccination,
(b) Scenario 2- Vaccination sans perte d’immunité, (c) Scenario 3- Vaccination avec perte
d’immunité
0
1000
2000
3000
4000
5000
6000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 (a) Years
Infected
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
(b) Years
without waning immunity
0
100
200
300
400
500
600
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 (c) Years
Obs
Exp1
Exp2
Exp3
Exp4
Exp5
Exp6
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
140
Figure 6.7 Période inter-épidémique versus taux reproductive de base R0, ère pré-vaccinale
Scénario 1 :
Nous commençons par analyser les performances de notre modèle pour la période pré-
vaccinale. En utilisant une période de latence de 13 jours, une période d’infection de sept
jours et un âge moyen d’infection de cinq ans, la figure 6.6 (a) montre des cycles inter-
épidémiques de trois ans avec des motifs oscillatoires internes. Ces résultats sont
conformément comparables aux données de l’Angleterre et pays de Galles ((Galbraith et al.,
1984 ; Euro Surveil, 2004)) et aux observations reportées dans la littérature, où les cycles
épidémiques varient entre 2 et 5 ans (Anderson et al., 1987 ; Edmunds et al., 2000 ; Galazka
et al. 1999). Afin de démontrer les performances du modèle pour la période pré-vaccinale,
nous avons varié R0 dans l’intervalle [7 – 14]. La figure 6.7 montre que la période du cycle
épidémique décroît de 5 à 3 cycles avec l’accroissement de R0.
Scénario 2 :
Tenant compte du succès de notre modèle à reproduire la période pré-vaccinale, nous avons
par la suite modélisé l’ère où la vaccination a été introduite (dès 1988) et où une forte
décroissance de l’incidence épidémique a été constatée (1988 – 2003). Ce qui implique pour
cette période d’assumer une immunité permanente. La figure 6.6 (b) montre l’impact de la
vaccination sur la dynamique oscillatoire de l’épidémie et son amplitude. Il est clair qu’en
présence d’une protection vaccinale, le nombre de susceptible décroit menant ainsi à une
décroissance du nombre des infectés. A ce stade, les enfants ayant été les principaux hôtes
pour lesquels le virus trouvait réservoir, les contrôler a permis de cerner la propagation de
l’épidémie.
Scénario 3 :
Suivant le schéma des scénarios proposés dans la section 6.3.2.b, nous avons introduit dans le
modèle précédent le principe de perte de l’immunité (période 2004 – 2015). Tel qu’il est
montré sur la figure 6.6 (c), le schéma réel de l’épidémie est très instable où nous pouvons
observer que les fluctuations varient d’année en année. Les valeurs des paramètres que nous
avons utilisé n’ont pas permis de reproduire le schéma exacte de l’épidémie et les valeurs des
0
1
2
3
4
5
6
7 8 9 10 11 12 13 14
Pe
rio
d c
ycle
s
Basic reproductive rate of infection R0
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
141
plages proposées sont trop larges. Tel qu’il est illustré sur la figure 6.6 (c), une multitude de
graphes peuvent être générés en variant les paramètres du modèle, où chacun des graphes
présente des comportements épidémiques particulier pouvant présenter des similarités
partielles avec les données observées. Afin de pallier ce problème, en outre, identifier les
valeurs des paramètres permettant de se rapprocher des données observées, nous avons,
comme étape d’optimisation classique, due réaliser une analyse sensitive (cf. Tableau 6.2).
Nous tenons à rappeler que nous avons d’abord utilisé l’approche du langage narratif où
l’expert a validé la structure de notre modèle. Toutefois, il a suggéré de revoir les valeurs des
paramètres utilisées, ce qui nous a conduit à l’analyse de sensibilité.
6.3.3 Analyse de sensibilité
Le tableau 6.2 présente l’impact de la variation des valeurs des paramètres : taux de
transmission, période d’infection, période de latence, durée de l’immunité et couverture
vaccinale, sur l’amplitude de l’épidémie et la période des cycles épidémiques. Nous avons
pour cela, utilisé la méthode d’analyse par ANOVA intégrée dans l’outil Minitab (Minitab,
2010).
Tableau 6.2 Analyse sensitive
Période d’incubation
Valeurs 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Amplitude 2357 2316 2229 2123 2020 2309 2280 2153 2149 2132 2020 1968 1909 1927 Période du
Cycle 8 9 9 9 9 9 10 10 10 10 11 10 11 11
Période d’infectiosité
Valeurs 6 7 8 9
Amplitude 1808 2132 2276 2739 Période du
Cycle 10 10 11 10
Nombre basique de reproduction
Valeurs 4 5 6 7 8 9 10 11
Amplitude 1690 1708 2132 2134 2256 2320 2289 2407
Période du Cycle 14 12 10 9 9 8 7 6
Durée de l’immunité
Valeurs 10 20 30 40 50 60 70 80
Amplitude 1873 1245 909 668 555 440 371 306
Période du Cycle 10 8 7 7 6 5 5 4.5
Couverture vaccinale
Valeurs 75 80 85 90 95
Amplitude 1694 1660 1552 1536 1413
Période du Cycle 9 10 10 10 10
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
142
Analyse 1 : variation de la période de latence.
Nous avons entrepris 14 expérimentations, où la période de latence a été variée de 12 à 25
jours par pas de 1 jour. Les résultats indiquent qu’à une confiance de 95% (p = 0.968), il n’y
a pas de différence significative entre les différentes expérimentations. Les tests de Tukey
montrent que la variation de la période de latence n’a aucun impact sur le nombre des
infectés. Cependant, en utilisant la simulation par Bio-PEPA, nous pouvons observer que
durant une période de 100 ans de simulations la période des cycles épidémiques varie de 8 à
11 cycles.
Analyse 2: variation de la période d’infectiosité.
La variation de la période de transmission de 6 à 9 jours par pas de 1 jour indique qu’il n’y a
pas de différence statistique entre les expérimentations (P= 0.114). Cependant, les tests de
Tukey sont en contradiction avec ceux de Hsu MCB. Quand le test de Tukey ne montre
aucune différence statistique, les tests de Hsu MCB montrent une large différence entre
l’expérimentation N°1 (période de transmission 1/ = 6 jours) et l’expérimentation N°4 (1/ =
9 jours). En effet, l’analyse montre que la moyenne de l’expérimentation N°4 (2739) est plus
importante que les autres (1808, 2113, 2276), où le nombre des infectés varie de 1808 à 2739
infectés. Cependant, il est à noter que la période des cycles est pratiquement stable, où la
majorité des expérimentations exprime 10 ans entre deux grands pics épidémiques.
Analyse 3: variation des taux de transmission.
La variation des taux de transmission est basée sur la variation de R0 de 4 à 11. L’analyse par
ANOVA montre que les expérimentations ne sont pas statistiquement différentes (p = 0.36).
Cependant, les résultats de 100 ans de simulations montrent que l’accroissement de R0
implique une diminution de la périodicité. Comme R0 varie de 4 à 11, la périodicité des cycles
varie de 14 à 6 et ainsi le nombre des cycles varie de 7 à 16 cycles. Durant la simulation il a
été observé que le premier pic épidémique tend à se produire plus rapidement avec une
amplitude croissante lorsque R0 augmente.
Analyse 4: variation de la durée de l’immunité.
L’analyse par ANOVA montre que la variation de la durée de l’immunité de 10 à 80 ans
implique une différence statistique entre les expérimentations. En particulier, cette analyse
extrait quatre différents groupes. Le 1er
groupe inclus la 1ère
expérimentation (durée de
l’immunité = 10 ans). Le 2ème
groupe inclus la 2ème
et 3ème
expérimentation (20 et 30 ans). Le
3ème
groupe inclus trois expérimentations (30, 40 et 50 ans). Le 4ème
groupe inclus cinq
expérimentations (40, 50, 60, 70 et 80 ans). Nous pouvons observer clairement que les
groupes 2, 3 et 4, se chevauchent entre eux, ce qui implique que le 1er
groupe est
significativement différent des autres groupes. Ceci s’explique par le fait qu’une courte durée
d’immunité permet une hausse rapide du réservoir des susceptibles et ainsi à l’épidémie de
survenir rapidement avec un large nombre d’infectés. L’analyse de la périodicité montre
également que la durée de l’immunité a un impact important sur la dynamique de l’épidémie,
où la périodicité varie entre 4.5 à 10 ans.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
143
Analyse 5 : variation de la couverture vaccinale
La variation de la couverture vaccinale de 75% à 95% par pas de 5%, indique qu’à 95% de
confiance, aucune différence statistique significative n’a été constatée (p=0 .648). Les
résultats validés par le test de Tukey sont similaires à ceux de Hsu MC, ce qui implique que la
variation de la couverture vaccinale n’a aucun effet majeur sur le nombre des infectés. Ce fait
est confirmé par les résultats de simulations, où nous pouvons observer que la périodicité
n’évolue pratiquement pas. De 80% à 95% de couverture vaccinale, les simulations détectent
10 ans de périodicité quand à la couverture vaccinale de 75% la périodicité est définie à 9 ans.
Ces résultats en relation avec le fait que la couverture vaccinale qui n’a pas d’impact sur
l’épidémie, confirment les conclusions apportées par DeStefano et al (2013) et Donaghy et al
(2006).
De cette série d’expérimentations et des variations des valeurs des paramètres, il est clair que
les paramètres : période d’infectiosité et la durée de l’immunité ont un impact majeur sur
l’amplitude de l’épidémie, et les paramètres : période d’incubation et R0 ont un impact sur la
périodicité. Bien que, la durée de l’immunité ait également présenté un impact sur la
périodicité, toutefois ceci est ignoré du fait de l’incohérence par rapport aux données
observées. Nous avons exclu la variation de la couverture vaccinale du fait des constatations
exprimées ci-dessus. Vu le nombre important des valeurs des paramètres qui jouent un rôle
dans la dynamique de l’épidémie, à ce stade des expérimentations, il nous a été très laborieux
d’opter pour une combinaison de valeurs permettant d’optimiser correctement notre modèle
afin d’aboutir à un résultat comparable aux données observées. Le choix entre les différents
résultats n’est pas une évidence absolue, car nous avons constaté que chaque expérimentation
permet de représenter partiellement les données observées. Face à cet handicap, nous
proposons d’appliquer la suite de notre approche qui est l’optimisation par fouille de données
(data mining).
6.3.4 Processus d’optimisation par fouille de données
Rappelons que les définitions présentées au chapitre 3 et l’analyse décrite au chapitre 5, à
propos de l’apprentissage supervisé et non supervisé, nous ont permis de déduire que le type
d’apprentissage à appliquer dépond fortement de l’étude à accomplir et des données à
exploiter. Nous rappelons que l’objectif de cette étude est double. D’une part nous voulons
comprendre la relation entre l’immunité acquise suite à un protocole vaccinal et la
transmission de la maladie des oreillons. D’une autre part, présenter aux épidémiologistes des
modèles prédictifs futurs, afin qu’ils puissent agir, contrôler et prendre des décisions
efficaces. Les résultats tels que nous les présentons ci-dessus, ont permis de réaliser notre 1er
objectif. Cependant, le 2ème
objectif n’a été atteint que partiellement. Tel que nous l’avons
expliqué, notre modèle présente une instabilité à produire un schéma conforme à la réalité, où
chaque série de valeurs des paramètres (cf. tableau 6.2) conduit à un résultat partiellement
correcte. Nous avons montré qu’il nous est impossible, ni à l’œil nu ni en utilisant des
méthodes d’analyse de sensibilité, d’opter pour une telle ou telle solution qui soit la plus
proche des données observées. Dans ce contexte, nous allons appliquer les algorithmes de
fouille de données afin d’extraire d’éventuelles connaissances pouvant enrichir notre modèle
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
144
et ainsi aboutir à des résultats qui convergent étroitement vers les données observées. Mais
tout d’abord, dans un souci de sélection de méthodes de fouille de données pour notre
exemple, nous devons au préalable analyser, indépendamment du processus d’optimisation, la
nature des données.
Dans la lumière des objectifs cités ci-dessus et des définitions du chapitre 3, il est plus
approprié de se focaliser sur une tâche de classification, sur les règles d’association ou sur la
segmentation. Toutefois, les caractéristiques des données telles qu’illustrées sur le tableau 6.3,
montrent clairement qu’aucune classe ne peut être prédéfinie pour accomplir une tâche de
classification d’où leur rejection immédiate de notre approche. Par contre, dû à leur définition,
les règles d’association n’exigent aucune classe à prédire car leur but est avant tout la
description, ce qui fait d’elles le parfait candidat. Quand à notre motivation à utiliser la
segmentation, elle va au-delà du concept pour lequel les règles d’association ont été
proposées. Rappelons que notre premier but est de trouver les descripteurs les plus pertinents
relatifs aux individus infectés, toutefois, tel que nous l’avons spécifié dans la section 5.3 –
Chapitre 5, la segmentation consiste à former des groupes homogènes en faisant intervenir
tout les attributs. Ceci contredit notre objectif. Notre deuxième but est de sélectionner le
meilleur résultat parmi l’ensemble des simulations. Par « meilleur », nous décrivant le résultat
de simulation le plus significativement similaire aux données observées, la segmentation se
trouve être en parfaite harmonie avec cette définition. En effet, en proposant les différents
résultats de simulation aux algorithmes de segmentation, ces derniers permettront de choisir
objectivement l’une des solutions (résultat de simulation) qui sera par la suite décisive pour
les prédictions futures.
Tel que nous l’avons spécifié dans le chapitre 5, nous devons au préalable analyser les
algorithmes de fouille de données les plus optimaux pour notre approche d’optimisation des
modèles computationnels. Le fait d’opter pour les deux tâches présentées ci-dessus répond
parfaitement à nos motivations et notre double contribution : d’une part, explorer les modèles
de segmentation conçus pour sélectionner les résultats les plus optimaux. Cependant, il est
important de rappeler à ce niveau que ces modèles contribuent à l’optimisation des paramètres
du modèle épidémique et non pas l’optimisation de sa structure. D’une autre part, se
concentrer sur les règles d’association qui nous permettent de mieux comprendre la
dynamique de l’épidémie et les attributs qui sont en forte corrélation afin de les intégrer dans
notre modèle computationnel.
Pour résumer, il s’agit dans ce chapitre d’appliquer en premier les règles d’association sur les
données de l’épidémie des oreillons pour l’optimisation de la structure et des paramètres du
modèle conçu précédemment. Ensuite, il s’agit d’appliquer la segmentation sur les résultats de
simulations pour l’optimisation des paramètres.
Les données sujettes au processus de fouille de données sont fournies par le centre médical
HPS (Health Protection Scotland ; HPS, 2016) de l’année 2004 à 2016, où les attributs : Age,
Sex, NHSBoard, Year, Week, Report Date, Disease, sont rapportés.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
145
6.3.4.1 Prétraitement des données
Pour accomplir cette phase, nous avons exploré les algorithmes offerts par Weka tels que
décrits dans la section 5.3.3.1. L’opération de nettoyage a permis de réduire le nombre initial
des attributs de 7 à 4 attributs et d’ajouter un nouvel attribut. Au total, nos données sont
référencées par cinq attributs (cf. Tableau 6.3).
a. Nettoyage
Remove : l’attribut « Report Date » représente le jour où l’individu a été détecté infecté. En
analysant les données nous avons constaté que durant la période de 2004 à 2016, chaque six
jour au moins un individu est infecté, ce qui consiste en un nombre massif de valeur pour cet
attribut. Etant donné que l’attribut « Week » permet de suivre l’évolution temporelle de
l’épidémie, l’épidémiologiste nous a conseillé d’ignorer l’attribut « Report Date ».
Etant donné que notre objectif est d’extraire les caractéristiques communes à tous les
individus infectés quel que soit l’année de l’infection, nous avons ignoré l’attribut Year.
Removeuseless : en analysant les données, l’attribut « Disease » est défini par une et une seuls
modalité : « Mumps », qui est rapportée pour tous les individus (instances). Ainsi, il est
automatiquement supprimé.
Replacemissingvalue : nous avons détecté deux attributs dont les valeurs sont manquantes:
Age et Sex. Le nombre d’instance pour lesquels la valeur de l’attribut Age (resp. Sex) est
manquante est de 278 (resp. 27) qui correspond à 3% (resp. 0.3%) du nombre total des
individus déclarés. Du fait de leur nombre assez réduit, en utilisant cet algorithme nous
pouvons remplacer les valeurs numériques par une moyenne (pour l’attribut Age) et les
valeurs nominales par une médiane (pour l’attribut Sex).
Add : cette fonction permet d’ajouter un nouvel attribut aux données existantes. En analysant
le statut vaccinal global des individus infecté dans une région sanitaire particulière en une
année, il a été révélé que le statut vaccinal pourrait être une caractéristique importante. Bien
que nous n'ayons pas pu obtenir ce type d’information pour chaque individu, nous avons été
en mesure de construire un ensemble de données simulées combinant manuellement les cas
observés avec le statut de vaccination projeté sur la base de cette épidémie, où il nous a été
communiqué par les épidémiologistes (Pollock et Cameron, 2016) que 50% des patients ont
Tableau 6.3 les attributs de la base de données des oreillons
Attributs Description
Age Age de l’individu
Sex Homme/Femme
Week Semaine de détection
Year Année de détection
MMR status Statut vaccinal relative aux vaccins contre la Rougeole, les Oreillons et la Rubéole
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
146
été partiellement vaccinés (une dose du vaccin ROR) , 12,6% n'ont pas été vaccinés et 18,5%
ont été complètement vaccinés (deux doses du vaccin ROR). Ainsi, un nouvel attribut « MMR
status » est ajouté aux données (pour plus de description voir le tableau 6.3).
b. Transformation
Parmi cinq attributs restants, deux attributs sont numériques (Age, Week). Il est important de
rappeler que les règles d’association ne supportent pas les attributs numériques d’où
l’obligation de les transformer en attributs nominaux. Toutefois, il est à noter que l’attribut
« Age » est défini dans l’intervalle [0,97] et l’attribut « Week » est défini par 53 valeurs
distinctes. Exploiter ces données par les algorithmes de règles d’association induirait à un
nombre important de règles générées, d’où la nécessité de les discrétiser.
Weka propose la fonction Discretize qui permet de distribuer les individus selon : 10 groupes
pour l’attribut « Age » et dix groupes pour l’attribut « Week ».
6.3.4.2 Sélection des attributs
En général cette étape est appliquée afin de réduire le nombre des attributs. Toutefois, nous
constatons qu’après exécution des algorithmes de sélection un nombre assez réduit de groupes
d’attributs a été généré: Groupe 1 (Age), Groupe 2 (Week), Groupe 3 (Sex, Week), Groupe 4
(Age, Week), Groupe 5 (Age, Sex, Week), où les attributs NHSBoard et MMR status n’ont
été rapporté par aucune sélection. Etant donné qu’après exécution de l’étape de prétraitement,
notre base de données n’est constituée que de 5 attributs (Age, Sex, Week, NHSBoard, MMR
status), pour une plus large analyse, nous avons délibérément ignoré cette étape de sélection et
préféré continuer le processus de l’ECD en considérant les cinq attributs.
6.3.4.3 Optimisation par règles d’association
Pour cette étape nous reprenons les mêmes algorithmes utilisés dans la section 5.3.5.1:
Apriori, PredictiveApriori et Tertius, ainsi que les valeurs de leurs paramètres. Toutefois,
nous avons dû réduire le paramètre support à 0.1 car au-delà de cette valeur aucune règle n’a
pu être extraite. Le paramètre confiance a été réinitialisé à sa valeur la plus optimale 0.8 par
rapport aux règles générées.
Le tableau 6.4 illustre l’ensemble des règles extraites. Au total, 38 règles sont générées : neuf
règles par l’algorithme Apriori, 18 règles par l’algorithme PredictiveApriori et 11 règles
résultent de l’algorithme Tertius. Noter le haut niveau de confiance de l’ensemble de ces
règles, où le critère d’évaluation : Confiance est compris entre 82 et 100% pour l’algorithme
Apriori, le taux d’exactitude est compris entre 90 et 96% et la confirmation est comprise entre
26 et 28%. Aussi, le tableau 6.4 démontre une fréquence d’association des attributs MMR
status, Week et Age de 82% (31/38 règles).
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
147
Tableau 6.4 Règles extraites des algorithmes: Apriori, Predictive Apriori and Tertius
Algorithme Règles Measure
Apriori 1. Week='(41.8-46.9]' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'
2. Week='(46.9-inf)' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'
3. Week='(6.1-11.2]' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'
4. Week='(41.8-46.9]' ==> Age='(16.8-25.2]'
5. Sex=F MMR STATUS=MMR2 ==> Age='(16.8-25.2]'5
6. MMR STATUS=MMR2 ==> Age (years)='(16.8-25.2]'
7. Week='(-inf-6.1]' ==> Age (years)='(16.8-25.2]'
8. Week='(46.9-inf)' ==> Age (years)='(16.8-25.2]'
9. Sex=M MMR STATUS=MMR2 ==> Age (years)='(16.8-25.2]'
conf:(1)
conf:(0.97)
conf:(0.97)
conf:(0.96)
conf:(0.95)
conf:(0.88)
conf:(0.84)
conf:(0.83)
conf:(0.82)
Predictive
Apriori
1. Week='(41.8-46.9]' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'
2. Sex=F Week='(41.8-46.9]' ==> Age='(16.8-25.2]'
3. Sex=F Week='(46.9-inf)' MMR STATUS=MMR2 ==> Age='(16.8-
25.2]'
4. Age='(8.4-16.8]' ==> MMR STATUS=MMR2
5. Week='(46.9-inf)' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'
6. Sex=M Week='(6.1-11.2]' MMR STATUS=MMR2 ==>
Age='(16.8-25.2]'
7. Week='(6.1-11.2]' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'
8. Week='(41.8-46.9]' ==> Age='(16.8-25.2]'
9. Sex=F Week='(-inf-6.1]' MMR STATUS=MMR2 ==> Age='(16.8-
25.2]'
10. Sex=F Week='(-inf-6.1]' ==> Age='(16.8-25.2]'
11. Week='(46.9-inf)' MMR STATUS=MMR ==> Age='(16.8-25.2]'
12. Age='(8.4-16.8]' Week='(21.4-26.5]' ==> Sex=M MMR
STATUS=MMR2
13. Age='(42-50.4]' ==> MMR STATUS=NONE
14. Week='(36.7-41.8]' ==> Age='(16.8-25.2]'
15. Sex=F MMR STATUS=MMR2 ==> Age='(16.8-25.2]'
16. Week='(16.3-21.4]' MMR STATUS=MMR2 ==> Age='(16.8-
25.2]'
17. Sex=F Week='(16.3-21.4]' MMR STATUS=MMR1 ==>
Age='(16.8-25.2]'
18. Week='(-inf-6.1]' MMR STATUS=MMR1 ==> Age='(16.8-25.2]'
acc:(0.995)
acc:(0.994)
acc:(0.994)
acc:(0.993)
acc:(0.992)
acc:(0.992)
acc:(0.992)
acc:(0.987)
acc:(0.982)
acc:(0.981)
acc:(0.968)
acc:(0.956)
acc:(0.956)
acc:(0.943)
acc:(0.908)
acc:(0.908)
acc:(0.907)
acc:(0.907)
Tertius 1. MMR STATUS = MMR2 ==> Week = '(6.1-11.2]' or Age (years) = '(16.8-25.2]'
2. Age (years) = '(16.8-25.2]' ==> Week = '(41.8-46.9]' or MMR STATUS = MMR2
3. MMR STATUS = MMR2 ==> Age (years) = '(16.8-25.2]'
4. MMR STATUS = MMR2 ==> Week = '(46.9-inf)' or Age (years) = '(16.8-25.2]'
5. MMR STATUS = MMR2 ==> Week = '(-inf-6.1]' or Age (years) = '(16.8-25.2]'
6. Sex = F and MMR STATUS = MMR2 ==> Week = '(11.2-16.3]' or Age (years) = '(16.8-25.2]'
7. Age (years) = '(16.8-25.2]' ==> Week = '(-inf-6.1]' or MMR STATUS = MMR2
8. Age (years) = '(16.8-25.2]' ==> Week = '(36.7-41.8]' or MMR STATUS = MMR2
9. Age (years) = '(16.8-25.2]' ==> Week = '(26.5-31.6]' or MMR STATUS = MMR2
10. Sex = F and MMR STATUS = MMR2 ==> Age (years) = '(16.8-25.2]'
11. Age (years) = '(16.8-25.2]' ==> MMR STATUS = MMR2
Confi:(0.28)
Confi:(0.27)
Confi:(0.27)
Confi:(0.27)
Confi:(0.27)
Confi:(0.26)
Confi:(0.26)
Confi:(0.26)
Confi:(0.26)
Confi:(0.26)
Confi:(0.26)
6.3.4.4 Evaluation et interprétation des règles générées
Pour une plus forte consistance des connaissances à exploiter pour l’optimisation du modèle
Bio-PEPA, il s’agit pour cette analyse de donner la priorité aux règles communes aux trois
algorithmes. Les règles 1-3 générées par l’algorithme Apriori montrent que les descripteurs
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
148
Week, MMR status et Age sont en forte corrélation avec une confiance supérieure à 97%.
Cette même série de règles est évaluée à 99% par l’algorithme PredictiveApriori. Les
modalités définies pour ces trois attributs spécifient que les individus dont l’âge est compris
entre 16 et 25, ayant reçu deux doses de vaccin (ROR 1 et 2) ont été sujets à l’infection durant
la période du mois de février à mars et du mois d’octobre à décembre. Quand à la règle 5,
aucune précision temporelle n’est soulignée, mais le critère sexe est spécifié.
Les règles 1, 2, 3 et 5 de l’algorithme Apriori sont identiques aux règles 1, 6, 7 et 15 de
l’algorithme PredictiveApriori et aux règles 1, 2, 4 et 10 de l’algorithme Tertius. Ceci
confirme la pertinence de ces règles et celle des attributs Age, Week, MMR status et Sex.
Nous constatons également, qu’une seule modalité est rapportée pour l’attribut Age et
l’attribut MMR status, et ce quelque soit l’algorithme générateur.
Pour résumer, parmi 5 attributs quatre ont été identifiés pertinents par les règles
d’association : Week, Age, MMR status et Sex. Ainsi l’ensemble des règles sélectionnées
montre clairement la relation entre le fait d’être infecté à une période particulière et le fait
d’être vacciné et être âgé entre 16 et 25 ans.
Nous omettons les règles concernant l’attribut « Sex », car elles sont réparties entre les cas et
ainsi se complètent mutuellement, par exemple : la règle 5 et 9 de l’algorithme Apriori.
Rappelons que quelques soient les connaissances extraites du processus de fouille de données,
les experts demeurent les principaux maîtres pour valider et inclure toute donnée dans le
modèle Bio-PEPA. Ainsi, selon les déclarations des épidémiologistes, l’attribut « Sex » n’est
pas un facteur de résurgence et de persistance de la maladie car cette dernière suit un
comportement similaire chez les femmes aussi bien que chez les hommes. Aussi, notons que
l’attribut « NHSBoard » n’a été identifié par aucun algorithme.
Les règles dont l’attribut « week » est explicité, permettent de conclure que la maladie des
oreillons ne se produit qu’à des plages saisonnières particulières durant l’année, en outre au
premier et au dernier trimestre de l’année. Ceci confirme les déclarations des épidémiologistes
lors de la conception initiale du modèle Bio-PEPA où le critère de saisonnalité a été intégré.
Les règles dont l’attribut « MMR status » est spécifié, permettent de conclure que le critère de
statut de vaccination est hautement recommandé. Ceci confirme les descriptions des
épidémiologistes incluses dans le modèle initialement conçu.
De même, L’attribut « Age » est aussi considéré comme un descripteur pertinent. Toutefois,
étant en forte corrélation avec l’attribut « MMR status » (l’âge auquel un vaccin est
administré est défini par le protocole de vaccination), cet attribut peut être implicitement
considéré dans la structure vaccinale du modèle initial. Notons ici que, cette considération a
déjà été étudiée est incluse dans le modèle initial.
Pour conclure, les trois attributs sélectionnés, ont tous été préalablement considérés dans le
modèle initial. Ainsi, aucune nouvelle connaissance ne vient enrichir le modèle initial Bio-
PEPA et donc aucune information n’est à inclure pour la phase d’optimisation. Toutefois, il
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
149
est important de noter que les règles extraites permettent de confirmer et valider la structure
du modèle Bio-PEPA initiale.
6.3.4.5 Optimisation par segmentation
Dans le contexte d’une optimisation structurelle, les méthodes de règles d’association que
nous avons employé n’ont pas été significatives. Dans un souci d’optimisation pour aboutir à
des résultats similaires aux schémas réels, nous proposons de se focaliser sur l’optimisation
des paramètres. En revoyant l’ensemble des techniques proposées par la communauté de
fouille de données, la segmentation (clustering) semble être le meilleur candidat. En effet, de
par sa définition et les travaux en relation (cf. Chapitre 3), cette tâche se prête bien au but que
nous nous sommes fixés. Autrement dit, en première étape, nous allons créer une nouvelle
base de données. Chaque solution présentée par notre simulateur Bio-PEPA sera une instance
de la base. Notant que les résultats de simulation sont des séries de données temporelles, où à
chaque pas de temps, le nombre des infectés est donné. Ainsi, chaque pas de temps représente
un descripteur de la nouvelle base. En suite, afin de pouvoir choisir au mieux la série de
résultats qui est la plus conforme aux données observées, nous allons introduire la série des
données observées dans la base de données comme étant une instance parmi les autres. Enfin,
en appliquant les techniques de segmentation, nous pouvons observer qu’elles sont les
solutions qui se sont regroupées avec la série des données observées. Ces dernières seront
considérées comme étant des résultats les plus probables. L’algorithme suivant résume ce
processus :
Algorithme 1: Optimisation des paramètres du modèle Bio-PEPA
Definitions:
1. Select Bio-PEPA model parameters to be investigated and range of values. N = number of
parameters * number of values;
2. Define target number of clusters K [2,N-1];
3. Set the group Gi to the ith
series of parameter values used to run the ith
Bio-PEPA experiment, where
i [1,N];
4. Set the experiment Expi [t] to the simulation results relating to the group Gi, and let T be the time of
simulation end, where t [0,T];
5. Let ExpN+1 [t] be the time series of the observed data;
6. Let B[j,t] = [Expj,t] be the constructed database, where j: jth
experiment and j [1,N+1];
Algorithm
7. Initialise K =2;
8. Apply the clustering algorithms using B as an input. The output is a set {Ck|k[1,K]} of clusters.
Identify Cm as the cluster containing ExpN+1 ;
If |Cm| > 2 then increment K and repeat from step 8 until |Cm| <= 2, or no more clustering occurs.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
150
Tableau 6.5 Algorithmes de segmentation (Witten et al., 2011)
Algorithme Description
EM Se base sur l’évaluation de l'espérance de la vraisemblance puis vient
l’estimation du maximum de vraisemblance des paramètres en maximisant
la vraisemblance trouvée à l'étape précédente.
FarthestFirst Se base sur le principe du plus loin voisins qui à partir des quels les
clusters sont formés
HierarchicalClusterer Se base sur l’approche agglomérative.
sIB Cluster La mesure de la distance se base sur la divergence de Kullback-Leibler.
Simple KMeans Se base sur le partitionnement des instances en K groupes puis d’assigner
chaque observation à la partition la plus proche
XMeans Une extension de Kmeans, se basant sur le critère d’information bayésien
pour la définition du K.
En appliquant ce processus, nous pourrons à la fin conclure quelle série de valeurs des
paramètres du modèle sera utilisée pour les prédictions futures. Cependant, avant d’exécuter
cet algorithme, il nous reste un point à éclaircir : quel algorithme de segmentation est le plus
optimal pour ce type d’étude ?
Tel que présenté dans le chapitre 3, les techniques de segmentation se classifient en 4
groupes: Exclusif, chevauché, probabiliste et hiérarchique. Notre but étant d’arriver à
regrouper avec la série des données observées un minimum de série des données simulées,
nous nous focalisons sur les types de segmentation où l’intersection entre groupe est un
ensemble vide. Ainsi, les types de segmentation les plus adéquats pour notre étude sont
« exclusif » et « hiérarchique ». Le 1er
type nous permet de ne se focaliser que sur le groupe
dont la série des données observées est incluse et ainsi répéter le processus de segmentation
de façon à optimiser le cluster cible. Le 2ème
type nous permet de parcourir l’arbre
hiérarchique et de détecter le niveau auquel la série des données observées est affectée et ainsi
sélectionner les séries appartenant au même groupe. Le tableau 6.5 présente les algorithmes
de segmentation offerts par Weka.
Nous construisons notre nouvelle base selon les expérimentations présentées dans le tableau
6.2. Rappelons que lors de l’analyse sensible, les paramètres : période d’incubation (),
période d’infectiosité () et le nombre basique de reproduction (R0) sont identifiés comme les
plus pertinents et sont variés selon des plages de valeurs spécifiques. Ce qui correspond à 24
valeurs pour le paramètre , 4 valeurs pour le paramètre et 8 valeurs pour le paramètre R0.
Au total nous allons dans ce processus d’optimisation à base de segmentation considérer 768
expérimentations (24*4*8). Cependant, nous notons que pour ces expérimentations, la
construction de la nouvelle base selon l’algorithme 1 est couteuse en temps. Ainsi, nous
devons au préalable, filtrer le groupe d’expérimentations. En analysant les différents
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
151
paramètres, il apparait que l’intervalle des valeurs pour la période d’incubation est le plus
large, ainsi nous avons opté pour une première distribution, qui sera par la suite plus affinée si
nécessaire. De ce fait, les valeurs sélectionnées pour le paramètre période d’incubation sont :
12, 15, 18, 21, 25.
Le tableau 6.6 (colonne 3) présente l’ensemble de valeurs à utiliser pour chaque paramètre.
Ceci implique 160 (5*4*8) expérimentations. Au total, 699040 (160*4321) cellule composent
la table d’entrées du processus de segmentation, où le nombre d’instances est 160 (nombre
d’expérimentations) et le nombre d’attributs est 4321 (les jours cumulés de l’année 2004 à
2015). Le tableau 6.7 résume les résultats de segmentation pour chaque algorithme défini
dans le tableau 6.5.
6.3.4.6 Evaluation et interprétation des segments
Le tableau 6.7 résume les résultats de segmentation par les différents algorithmes. Il est
montré que tous les algorithmes, à l’exception de sIB, ont pu exprimer un cluster à deux
instances uniquement dont l’une est celle correspondante aux données observées. Davantage,
les mêmes expérimentations ont été observées dans le cluster ciblé pour chaque algorithme
dont les valeurs optimales sont illustrées dans le tableau 6.6. Notons que le « cluster ciblé »
correspond au cluster contenant les données observées ainsi que d’autres éventuelles
expérimentations.
En initialisant le nombre de clusters pour le processus de segmentation à 2 (K=2),
l’algorithme Hierarchical (resp. FartherFirst) aboutit au cluster cible aux bout de 4 itérations
(resp. 6 itérations). Quand à l’algorithme K-means exige plus de temps, où 35 itérations ont
été nécessaires pour arriver au cluster cible. Contrairement à ces algorithmes, l’algorithme sIB
consomme significativement plus de temps ( ≈ 9 minutes) sachant qu’après 14 itérations le
cluster cible compte 4 instances.
Nous rappelons que tous les algorithmes se basent sur la même mesure de similarité « la
distance euclidienne» à l’exception de l’algorithme sIB qui se base sur la divergence de
Kullback-Leibler. Notons qu’à l’unanimité, l’instance qui a été regroupée avec les données
observées correspond aux paramètres : = 21, = 7 et R0 = 6.
Tableau 6.6 Valeurs expérimentales des paramètres
Paramètre Intervalle initial Intervalle sélectionné Valeur optimale
12-25 12, 15, 18, 21, 25 21
6-9 6-9 7
R0 4-11 4-11 6
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
152
Tableau 6.7 Résultats de segmentation
Tableau 6.8 Échantillon des résultats de segmentation par K-means
K-MEANS CLUSTERING
No Cluster N
o object in cluster Cycle
Parameter values
R0
1 2 9,10 7 21,25 9
2 5 11-13 4 12-21 6, 7, 9
5 8 8-10 6,7 12-21 7-9
6 3 9-10 7-8 25 7-9
10 7 9-10 5-7 12-25 6-7
17 2 10 6 21 7
23 3 9-11 5 12-15 8-9
26 3 10-11 6 21-25 8-9
32 1 15 4 25 6
En considérant les clusters ne contenant pas les données observées, nous avons constaté une
différence significative dans le nombre de cycles par rapport aux valeurs de R0. En effet, la
période entre deux pics épidémiques varie inversement avec le paramètre R0. Le tableau 6.8
présente quelques exemples de clusters pour l’algorithme K-means. Il est clairement montré
que pour R0 variant de 4 à 8, la période du cycle varie entre 15 et 9. Nous constatons
également, que pour une plus grande valeur du paramètre associé aux valeurs de R0, la
période du cycle accroit. Cependant, le paramètre semble n’avoir aucun effet majeur.
Nous rappelons que l’intervalle des valeurs définies pour le paramètre a été distribué selon
5 valeurs. Pour ce paramètre, nous répétons le processus de segmentation avec plus de
granularité. La figure 6.8, illustre les résultats de simulation pour [19,24]. Le processus de
segmentation confirme que la valeur 21 est la plus optimale. La colonne 4 du tableau 6.6
présente les valeurs les plus optimales définies par le processus de segmentation pour chaque
paramètre. Intuitivement, une longue période d’incubation semble plus appropriée, car au
cours du temps les individus dans le compartiment des exposés (cf. figure 6.4) sont accumulés
ce qui conduit à un large réservoir des futurs infectés.
Algorithme de
segmentation
Nombre de
clusters (K)
Nombre d’objets
(cluster cible)
Temps d’exécution
(seconds)
K-means 36 2 4.06
Hierarchical
clustering
5 2 2.03
FarthestFirst 7 2 0.22
EM clustering 15 2 45.91
X-means 15 2 11.28
sIB 10-15 4 540
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
153
Pour une plus profonde analyse, nous examinons les clusters (résultant des algorithmes K-
means et sIB) contenant plus de deux instances y compris les données observées. Les figures
6. 9 et 6. 10 arborent que les résultats de simulation tels que présentés ne peuvent être
discriminés à l’œil nu. Bien que la période du cycle soit similaire aux données observées (dix
ans), l’amplitude des pics épidémiques est légèrement variable.
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique : Application aux Oreillons
Figure 6.8 Graphes de simulation pour [19, 24]
0
500
1000
1500
2000
2500
3000
3500
4000
1
98
19
5
29
2
38
9
48
6
58
3
68
0
77
7
87
4
97
1
10
68
11
65
12
62
13
59
14
56
15
53
16
50
17
47
18
44
19
41
20
38
21
35
22
32
23
29
24
26
25
23
26
20
27
17
28
14
29
11
30
08
31
05
32
02
32
99
33
96
34
93
35
90
36
87
37
84
38
81
39
78
40
75
41
72
42
69
Nu
mb
er o
f ca
ses
Days
R0-6_ALPHA-19_GAMMA-7 R0-6_ALPHA-20_GAMMA-7 R0-6_ALPHA-21_GAMMA-7
R0-6_ALPHA-22_GAMMA-7 R0-6_ALPHA-23_GAMMA-7 R0-6_ALPHA-24_GAMMA-7
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique : Application aux Oreillons
155
Figure 6.9 Graphes des résultats de simulations relatives aux résultats de segmentation par l’algorithme sIB
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
1
10
4
20
7
31
0
41
3
51
6
61
9
72
2
82
5
92
8
10
31
1
13
4
12
37
1
34
0
14
43
1
54
6
16
49
1
75
2
18
55
1
95
8
20
61
2
16
4
22
67
2
37
0
24
73
2
57
6
26
79
2
78
2
28
85
2
98
8
30
91
3
19
4
32
97
3
40
0
35
03
3
60
6
37
09
3
81
2
39
15
4
01
8
41
21
4
22
4
Nu
mb
er o
f ca
ses
Days
R0-5_ALPHA-12_GAMMA-6 R0-4_ALPHA-12_GAMMA-7 R0-6_ALPHA-21_GAMMA-7
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique : Application aux Oreillons
156
Figure 6.10 Graphes des résultats de simulation relatives aux résultats de segmentation par l’algorithme K-means
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
1
10
0
19
9
29
8
39
7
49
6
59
5
69
4
79
3
89
2
99
1
10
90
11
89
12
88
13
87
14
86
15
85
16
84
17
83
18
82
19
81
20
80
21
79
22
78
23
77
24
76
25
75
26
74
27
73
28
72
29
71
30
70
31
69
32
68
33
67
34
66
35
65
36
64
37
63
38
62
39
61
40
60
41
59
42
58
Nu
mb
er o
f ca
ses
Days
R0-4_ALPHA-12_GAMMA-6 R0-4_ALPHA-21_GAMMA-6 R0-6_ALPHA-21_GAMMA-7
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique : Application aux Oreillons
Figure 6.11 Prédiction de l’incidence des oreillons en Ecosse de l’année 2004 à 2015,
( graphe de simulation par Bio-PEPA relatif aux paramètres : = 21, = 7 et R0 = 6 )
0
100
200
300
400
500
600
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Nu
mb
er o
f ca
ses
Years
Observed Data Simulated Data
Figure 6.12 Extension des Prédictions de l’incidence des oreillons en Ecosse à 2016
(Graphe de simulation par Bio-PEPA relatif aux paramètres : = 21, = 7 et R0 = 6)
La figure 6. 11 illustre les données observées et les résultats de simulation correspondant à
l’ensemble des valeurs optimales sélectionnées par les algorithmes de segmentation (R0 :6,
:7, : 21). Notre but étant de reproduire le schéma réel de l’épidémie, nous observons que
les résultats semblent satisfaisants mis à part pour les années 2009 et 2010. Les
épidémiologistes en relation avec cette étude ont affirmé que leur souci prioritaire actuel est
de comprendre et de prédire le prochain pic le plus culminant tel que celui de 2005 ou de
2015. Ainsi, il est plus important à l’heure actuelle de se focaliser sur les grands cycles
épidémiques et que les incohérences telles que celles constatées pour 2009 et 2010 peuvent
être ignorées pour ce type d’étude. La segmentation, se basant sur ses mesures statistiques, a
automatiquement souligné majoritairement la période de 10 ans pour le grand cycle
épidémique. Ceci suggère plus de confidence pour les prédictions futures de l’épidémie des
oreillons. De par cette approche nous avons pu optimiser les valeurs des paramètres clés de la
modélisation des oreillons. Nous tenons à préciser que les valeurs sélectionnées ont été
discutées avec les épidémiologistes, ces derniers ont hautement encouragé nos résultats
comme solution pour leurs futures analyses et prises de décision.
En utilisant la série des valeurs des paramètres sélectionnées, nous avons simulé notre modèle
pour l’année 2016. Les résultats tels que présentés sur la figure 6.12 confirment la validité des
prédictions par apport aux données observées de 2016.
6.4 Conclusion
Dans ce chapitre, nous avons présenté des résultats pour l’épidémie des oreillons démontrant
l’utilité de combiner les algorithmes de fouille de données à la modélisation par Bio-PEPA.
En utilisant la segmentation, nous avons démontré que l’optimisation des modèles
computationnels peut aussi présenter de grande performance dans la sélection des résultats de
simulations les plus probables ce qui simplifie amplement le choix des valeurs des paramètres
à appliquer. Bien que les règles d’association n’aient pas pu apporter d’éléments
0
100
200
300
400
500
600
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
Nu
mb
er o
f ca
ses
(c) Years
total_inf Simulated Data
Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique :
Application aux Oreillons
159
supplémentaires dans un but d’optimisation, toutefois les règles extraites ont été utiles pour
confirmer ce qui a été annoncé par les experts et ce qui a été intégré par le modélisateur.
Ainsi, de par l’exploration des règles extraites, nous avons démontré que la fouille de données
ne se résume pas uniquement à l’objectif d’optimisation pour lequel nous l’avons adopté,
mais qui peut être aussi exploré autant qu’outil de validation.
Conclusion Générale et Perspectives
Conclusion générale
Le sujet de cette thèse traite trois disciplines différentes et complémentaires: la modélisation
et la simulation, la vérification et la validation des modèles et l’optimisation par fouille de
données.
La modélisation et la simulation épidémiologique étant l’axe primaire autours duquel se
focalise notre thèse, nous avons d’abord rappelé les notions de base de cette discipline, puis
un tour d’horizons des différentes techniques de modélisation nous a conduit à opter pour la
modélisation par les algèbres des processus (cf. Chapitre 1). Plus particulièrement à explorer
le potentiel de Bio-PEPA comme outil de modélisation, de simulation et d’analyse.
L’approche adoptée dans ce contexte était d’étudier deux exemples, la tuberculose en Algérie
et l’épidémie des oreillons en Grande Bretagne.
En phase primaire de ce travail, il nous fallait valider les performances d’une modélisation par
Bio-PEPA (cf. Chapitre 4). Nous nous sommes tout d’abord intéressés à la modélisation et la
simulation de la tuberculose et son protocole de traitement où nous avons repris un modèle
existant à base de système multi agents qui a déjà été validé et nous l’avons reproduis en
formalisme Bio-PEPA. Nous avons montré par une analyse stochastique et déterministe
établit par Bio-PEPA que le modèle répondait parfaitement au modèle initial tout en
soulignant sa simplicité, sa souplesse et la disponibilité de différentes méthodes d’analyse.
Par la suite, dans un souci de vérification et de validation d’un nouveau modèle pour lequel il
est impossible d’effectuer une étude comparative, nous avons analysé les différentes étapes du
processus de modélisation et simulation, où nous avons identifié que dans le cas d’une
incohérence des résultats par rapport au système réel, un retour illicite à la phase d’interaction
entre l’expert et le développeur s’impose (cf. Chapitre 2). Cependant, nous avons constaté que
cette phase n’est pas aussi simple qu’elle ne le semble. Car d’une part le développeur peut
omettre des informations fournies par l’expert. D’une autre part, l’expert ne peut comprendre
le langage formel du modèle pour le valider. Afin de pallier à ce problème, nous avons
proposé une approche à base de langage narratif (cf. Chapitre 4). L’objectif fixé consistait à
simplifier l’interaction entre l’expert et le développeur. Pour cela, nous avons proposé de
traduire le modèle Bio-PEPA en un langage narratif structuré qui est facilement interprétable
par l’expert et l’épidémiologiste. Afin de valider cette approche, nous avons repris le premier
modèle de la tuberculose où nous avons délibérément omis quelques informations. La
simulation du modèle par Bio-PEPA a montré que les résultats sont incohérents et qu’ils ne
correspondaient plus au modèle à base d’agents. Une fois le modèle traduit et soumis à
l’expert, ce dernier, en parcourant les différents éléments du modèle en une structure qui lui
est bien familière, il a pu détecter les anomalies et ainsi identifier les composants que nous
avions omis. La performance de cette approche s’est exprimée par la simplification de la tâche
d’interaction entre l’expert et le développeur, ainsi que la réduction du degré d’échange
d’information entre eux.
Conclusion Générale
161
Par la suite, nous avons développé un deuxième modèle Bio-PEPA de la tuberculose en
Algérie (cf. Chapitre 5). A l’inverse du premier modèle de la tuberculose, la conception de
celui-ci s’est basée sur les connaissances d’un épidémiologiste. Nous avons suivi les mêmes
étapes que précédemment, en outre la modélisation et la simulation par Bio-PEPA et la
traduction en langage narratif. Les simulations ont été réalisées pour les années d’étude de
2009 à 2012.
Les résultats ont démontré un comportement variable du modèle pour chaque année
expérimentée, où les résultats pour les années 2009 et 2011 ont confirmées la validité du
modèle conçu. Contrairement aux résultats relatifs aux années 2010 et 2012 où une
incohérence a été identifiée par rapport aux données observées par les épidémiologistes. Ce
qui nous a amené à suivre le cours de notre approche et ainsi traduire le modèle en un langage
narratif afin de détecter les anomalies. En soumettant le modèle ainsi traduit à l’expert, celui-
ci a confirmé la validité des informations définissant le modèle et n’a donc pu apporter aucune
nouvelle connaissance pour une éventuelle optimisation.
En ce qui concerne ces dernières expériences menées au cours de cette recherche, il est apparu
que ni les méthodes d’analyse offertes par Bio-PEPA, ni l’exploration du langage narratif du
modèle, ne suffiraient pour capturer avec précision tous les comportements cibles dans une
définition d'algèbre de processus pour un but d’optimisation.
Ainsi, dans une dernière partie nous nous sommes intéressés à d’autres disciplines venant
enrichir cette phase d’optimisation que nous avons fortement lié à l’étape de l’interaction
entre l’expert et le développeur (cf. chapitre 5). Dans ce contexte, nous avons proposé de
combiner les performances de la fouille de données à la modélisation par Bio-PEPA. Dans
cette approche nous avons analysé l’influence des techniques de prédiction telles que la
classification, et de description telles que la segmentation et les règles d’association sur les
connaissances dont à besoin le modélisateur pour concevoir ou raffiner son modèle
computationnel.
L’analyse et l’étude comparative faite des méthodes et approches pour la fouille de données
épidémiologiques a mis en évidence la dominance des méthodes basées sur les arbres de
décisions, la segmentation des séries de données chronologiques de simulation et les règles
d’association (cf. Chapitre 3).
Afin de valider les performances de notre dernière contribution, nous avons appliqué le
processus d’optimisation par fouille de données sur les données de la tuberculose en Algérie
(cf. Chapitre 5) et de l’épidémie des oreillons en Grande Bretagne (cf. Chapitre 6). Avec cette
approche proposée, deux angles ont été parcourus. D’abord un ensemble d’attributs pertinents
à l’étude de la tuberculose, jusque-là inconnu par l’expert médical, ont été extraits par arbres
de décision et règles d’association et validés par la modélisation et simulation par Bio-PEPA.
Ensuite, en exploitant par la segmentation d’un ensemble de résultats de simulation, pour
l’étude de l’épidémie des oreillons, les résultats les plus optimaux ont été sélectionnés et
validés. Nous avons également exploré les données de l’épidémie des oreillons par règles
d’association. Les connaissances extraites des règles générées ont montré une totale similitude
avec les informations fournies par l’épidémiologiste.
Conclusion Générale
162
Il est bien clair que les techniques de fouille de données utilisées dépendent de la nature des
données observées ainsi que de l’objectif visé. En effet, le caractère nominal ainsi que
l’identification d’un attribut dépendant des autres dans les données de la tuberculose en
Algérie a permis l’application des arbres de décision et des règles d’association. Ceux-ci, à
l’unanimité ont identifié l’attribut en relation avec la location des individus infectés « Daira »
comme étant le plus pertinent. Par l’intégration de cette nouvelle connaissance au modèle
Bio-PEPA, les résultats de simulations ont pu distinguer les zones des incohérences de celles
correctement prédites. Toutefois, nous avons constaté que les règles d’association ont détecté
d’autres attributs comme descripteurs pertinents. Aucune confirmation n’a pu être identifié
par les résultats de simulation, vu le nombre réduit des instances en relation. Ainsi, même si
les règles d’association ont permis de définir un éventail plus large de descripteurs que les
arbres de décision, nous avons constaté que les arbres de décision ciblent plus étroitement le
descripteur qui est le plus pertinent pour un processus d’optimisation des modèles formels.
Pour approfondir le concept de l’intégration du processus de fouille de données dans les
étapes de modélisation et simulation et mieux guider le parcours de notre contribution, nous
avons expérimenté notre approche sur l’épidémie des oreillons. La nature de ses données ont
guidé le choix des techniques de fouille de données et ont montré qu’il est impossible
d’appliquer les arbres de décision, car aucune classe à prédire ne pouvait être identifiée.
Quand aux règles d’association, aucune connaissance nouvelle n’a pu être extraite.
Cependant, les informations proposées par l’épidémiologiste et intégrées dans le modèle
initial ont pu être confirmées et validées.
Vu la variabilité du comportement de la maladie des oreillons et le nombre important des
paramètres guidant sa prédiction, nous étions devant le fait que plusieurs solutions (résultats
de simulations), reproduisant le schéma de l’épidémie et partiellement comparables, ont été
proposées à l’expert. Il nous fallait donc, faire un choix objectif et sélectionner la solution la
plus optimale. Dans cette optique, le tour d’horizon de la littérature entreprise (cf. Chapitre 3)
nous a conduit à l’utilisation de la segmentation des données de séries chronologiques. Dans
ce contexte, afin de joindre l’étape de l’optimisation à la segmentation, la simulation par Bio-
PEPA a joué un grand rôle. En effet, cette dernière permet de produire des résultats de
simulations sous forme de séries de données chronologiques, ce qui a amplement simplifié
cette tâche. Ainsi, les résultats de segmentation ont non seulement permis de sélectionner la
solution la plus optimale, mais aussi d’identifier les valeurs des paramètres les plus adéquats à
ce type de maladie dans le pays en question.
De par cet ensemble d’expérimentations, nous avons mis en avant l’importance de cette
approche qui réside dans la découverte automatique de nouvelles connaissances pertinentes et
utiles à l’optimisation des modèles computationnels. Ces nouvelles informations sont un
complément au savoir de l’expert qui reste le seul juge de nos résultats. L’avantage majeur de
notre approche est d’une part alléger le fardeau que puisse subir l’expert lors de la résurgence
d’une épidémie : de par la compréhension de sa dynamique, son suivi et son contrôle. D’une
autre part simplifier le travail de modélisation du développeur, qui n’est plus obliger de subir
les interminables interactions avec l’expert.
Conclusion Générale
163
Toutefois, il est important de souligner que lors du processus de fouille de données, il faut
impérativement tenir compte de la dynamique de l’épidémie, de la nature de ses données ainsi
que des objectifs ciblés.
Dans cette thèse nous avons présenté notre approche qui se résume en trois principales
phases : modélisation et simulation, fouille de données et optimisation. Nous avons arboré en
détails les différentes étapes constituant ces phases. La phase de modélisation et de simulation
constitue la principale phase durant laquelle le modèle épidémiologique est conçu. La phase
de fouille de données est dédiée à l’analyse des données épidémiologiques dont l’objectif est
d’extraire les connaissances les plus pertinentes. La dernière phase d’optimisation est le
tunnel reliant les deux premières phases permettant ainsi d’acheminer les connaissances
extraites vers le modèle initialement conçu. L’utilisation de la fouille de données pour
l’extraction des données pertinentes nous a permis d’enrichir les connaissances de l’expert et
d’optimiser le modèle computationnel pour une meilleure prédiction et une prise de décision
optimale. Au cours de ce thèse, nous avons aussi défini la phase d’optimisation comme étant
une passerelle reliant l’expert et le modèle conçu, en traduisant ce dernier en un langage
narratif facilement interprétable par l’expert épidémiologique.
Ainsi, nos principales contributions dans ce travail de thèse se résument comme suit :
- L’élargissement du champ d’application du formalisme Bio-PEPA pour le suivi
épidémiologique.
- Proposition d’un outil de vérification et validation par langage narratif.
- Intégration du processus d’extraction de connaissances en général et du processus de fouille de
données en particulier dans l’étape de conception des modèles computationnels Bio-PEPA.
Perspectives
Le travail accompli lors de cette recherche a permis de faire valoir l’importance des données
observées et collectées lors d’un suivi épidémiologique pour la modélisation et la simulation
des maladies infectieuses humaines, la prédiction et la prise de décision. Ce travail offre une
vue optimiste de l’intégration du concept de fouille de données dans le processus de
modélisation computationnelle. Sur cette aligné, nous proposons pour des travaux futurs
d’étendre ce champ d’application à d’autres types d’épidémies, en outre celles en relation à la
race animale. Nous proposons également de rediriger la recherche dans le sens opposé de
notre approche et ainsi d’arborer les performances de la modélisation pour la fouille de
données, en outre nous proposons de calibrer le type de données collectées en fonction des
résultats de simulation voulus.
Au-delà du concept du data ming, récemment le terme Big data a monopolisé l’enthousiaste
des chercheurs et des développeurs. Dans cette optique, nous nous projetons au futur
d’exploiter les techniques et méthodes développées pour enrichir l’aspect cognitif de l’expert
et du développeur pour un processus de modélisation et de simulation optimal. Ainsi, nos
travaux futurs se focalisent sur l’intensification de nos contributions, où il s’agit de créer une
synergie entre le big data, la modélisation et la simulation.
Annexe A
164
Tableau A.1 Descripteurs sélectionnés pour la base de données de la tuberculose
Algorithmes
d’évaluation Groupe Algorithmes de recherche
Attributs
AG
E
SEXE
MO
IS
AN
NEE
CO
M
DA
IRA
LOC
ATIO
N
TYP
MA
L
BA
CIL1
BA
CIL2
BA
CIL3
CFS Subset Evaluator
1 BESTFIRST EXHAUSTIVE SEARCH
GENETIC SEARCH GREEDY STEPWISE LINEAR FORWARD
SELECTION RANKER SEARCH SCATTER SEARCH
SUBSET SIZE FORWARD SELECTION
X x
x x X
2 RANDOM SEARCH X X X X X
CHISQUARE EVAL 3 RANKER
X X X X x X x x X
Classifier Su
bset
Evaluato
r
Wrap
per
Sub
sete
valu
tor
4 RANDOM SEARCH
X x x X x X
CONSISTENCY SUBSET EVAL
5 BEST FIRST EXHAUSTIVE SEARCH GREEDY STEPWISE LINEAR FORWARD SELECTION RANDOM SEARCH SUBSET SIZE FORW
X X x x x x x X
Annexe A
165
Genetic search
6 RANKER SEARCH
X X x x x x x X
7 SCATTER SEARCH
X X x x X x X
FILTERE SUBSET EVAL
8 RANDOM SEARCH X x x X
Annexe A
166
Tableau A.2 Echantillon de la base de données de la tuberculose après prétraitement et sélection
AGE SEXE MOIS ANNEE COM DAIRA LOCATION TYPMAL BACIL1 BACIL2 BACIL3 ARETTRT
A4 M 1 2008 SAYADA KHEIR EDDINE TP BK+ N MP MP NF TRANSF
A3 M 1 2008 AIN
TEDLES
AIN TEDLES TP BK- N NF MM NF G
A2 M 1 2008 SAYADA KHEIR EDDINE TP BK+ N NF NF MM G
A4 M 1 2008 SAYADA KHEIR EDDINE TP BK+ N NF NF NF ECHEK
A2 M 1 2008 KHEIR
EDDINE
KHEIR EDDINE TP BK+ N NF MM NF TRT TERMIN
A2 M 1 2008 OUED EL
KHEIR
AIN TEDLES TP BK- N NF NF NF PV
A5 M 1 2008 OUED EL
KHEIR
AIN TEDLES TP BK+ N MM NF MM G
A5 M 2 2008 AIN
TEDLES
AIN TEDLES TP BK+ N MM MM MM TRT TERMIN
A3 M 2 2008 AIN
BOUDINA
R
KHEIR EDDINE TP BK+ N NF MM NF TRT TERMIN
A8 F 2 2008 SOUR AIN TEDLES TP BK- N NF NF NF PV
A2 F 3 2008 OUED EL
KHEIR
AIN TEDLES TP BK+ N MM NF MM G
Annexe A
167
Tableau A.3 Résultats des expérimentations par arbres de décision
ALGORITHMES D’ARBRES DE DECISION
BFTREE J48 J48
Graft
Ladtree NB Tree RANDOM
TREE
REPTREE SIMPLE
CART
CFS Subset Evaluator :
BEST FIRST/EXHAUSTIVE
SEARCH/ GENETIC
SERACH/GREEDY
STEPWISE/LINEAR FORWARD
SELECTION/ SCATTER
SEARCH /SUBSET SIZE
FORWARD SELECTION
/RANKER SEARCH, AGE,
COM, BACIL1, BACIL2,
BACIL3
Attributs
résultants
BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3
BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2
BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1
AGE AGE AGE COM AGE COM COM
COM COM COM AGE COM AGE
Accuracy 67.88(10.10) 67.51(9.40) 67.51(9.40) 70.30(11.46) 68.97(11.02) 64.52(12.61) 66.66(11.06) 69.73(8.45)
CFS Subset Evaluator/ RANDOM SEARCH:
age, daira, bacil1, bacil2, bacil3
Attributs
résultants
BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3
BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2
BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1
AGE DAIRA AGE AGE DAIRA AGE DAIRA
DAIRA DAIRA DAIRA AGE DAIRA
Accuracy 69.56(10.06) 72.87(8.71) 72.87(8.71) 69.51(11.27) 69.08(9.86) 63.84(11.00) 67.93(10.06) 70.76(8.88)
Annexe A
168
CHISQUARE EVAL/RANKER:
AGE, SEXE, COM, DAIRA,
LOCATION, TYPMAL, BACIL1,
BACIL2, BACIL3 Attributs
résultants
BACIL3
BACIL2
BACIL1
BACIL3
BACIL2
BACIL1
COM
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
BACIL3
BACIL2
BACIL1
AGE
COM
DAIRA
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
DAIRA
LOCATION
TYPMAL
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
DAIRA
LOCATION
TYPMAL
BACIL3
BACIL2
BACIL3
BACIL2
Accuracy 68.37(9.90) 71.45(8.33) 71.49(8.30) 69.69(11.86) 68.74(10.11) 61.76(13.54) 66.46(11.34) 69.31(8.76)
Classifier subset eval/RANDOM
SEARCH , WRAPPER SUBSET
EVAL:
RONDOM SEARCH SEXE,
MOIS, TRIM, DAIRA, BACIL2,
BACIL3
Attributs
résultants
BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3
BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2 BACIL2
SEXE DAIRA SEXE MOIS MOIS SEXE SEXE
MOIS DAIRA DAIRA DAIRA MOIS
DAIRA MOIS DAIRA DAIRA
MOIS SEXE MOIS
Accuracy 67.73(10.07) 66.42(10.57) 66.42(10.57) 66.46(11.34) 66.44(10.25) 62.31(11.96) 68.71(10.21) 67.86(9.49)
CONSISTENCY SUBSET
EVAL:BEST FIRST/
EXHAUSTIVE
SEARCH/GENETIC SEARCH/
GREEDY STEPWISE /linear
forward selection/RANDOM
SEARCH/SUBSET SIZE FORW:
AGE, SEXE, COM, DATE
DEBUT TRT, LOCATION,
TYPMAL, BACIL1, BACIL2,
BACIL3
Attributs
résultants
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
BACIL3
BACIL2
BACIL1
SEXE
COM
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
BACIL3
BACIL1
BACIL2
COM
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
LOCATION
TYPMAL
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
LOCATION
TYPMAL
BACIL3
BACIL2
BACIL3
BACIL2
BACIL1
Accuracy 67.97(10.57) 69.03(9.32) 69.03(9.32) 71.52(11.83) 66.57(10.76) 61.49(13.20) 66.25(11.53) 68.69(9.81)
Annexe A
169
CONSISTENCY SUBSET EVAL
/RANKER Search AGE, SEXE,
COM, DAIRA, DATE DEBUT
TRT, LOCATION, TYPMAL,
BACIL1, BACIL2, BACIL3
Attributs
résultants
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
BACIL3
BACIL2
BACIL1
SEXE
COM
DAIRA
BACIL3
BACIL2
BACIL1
AGE
COM
SEXE
BACIL3 BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
DAIRA
LOCATION
TYPMAL
BACIL3
BACIL2
BACIL1
AGE
SEXE
COM
DAIRA
LOCATION
TYPMAL
BACIL3 BACIL3
BACIL2 BACIL2 BACIL2
BACIL1 BACIL1
DAIRA
TYPMAL
Accuracy 68.01(10.40) 70.31(9.95) 70.31(9.95) 70.40(11.34) 68.22(11.26) 59.60(13.39) 66.25(11.53) 68.74(9.76)
CONSISTENCY SUBSET EVAL
/SCATTER SEARCH: AGE,
COM, DATE DEBUT,
LOCATION, TYPMAL, BACIL1,
BACIL2, BACIL3
Attributs
résultants
BACIL3
BACIL2
BACIL1
AGE
COM
BACIL3
BACIL2
BACIL1
COM
BACIL3
BACIL2
BACIL1
AGE
COM
BACIL3
BACIL2
BACIL1
COM
BACIL3
BACIL2
BACIL1
AGE
COM
LOCATION
TYPMAL
BACIL3
BACIL2
BACIL1
AGE
COM
LOCATION
TYPMAL
BACIL3
BACIL2
BACIL3
BACIL2
BACIL1
Accuracy 68.52(10.35) 70.33(8.51) 70.33(8.51) 71.48(11.91) 69.03(11.20) 60.57(13.38) 66.45(11.23) 68.89(9.50)
FILTERED SUBSET EVAL /
RANDOM SEARCH: DAIRA,
BACIL1, BACIL2, BACIL3
Attributs
résultants
BACIL3
BACIL2
BACIL1
DAIRA
BACIL3
BACIL2
BACIL1
DAIRA
BACIL3
BACIL2
BACIL1
DAIRA
BACIL3
BACIL2
BACIL1
DAIRA
BACIL1,
BACIL2,
BACIL3
DAIRA
BACIL3
BACIL2
BACIL1
DAIRA
BACIL3
BACIL2
BACIL1
DAIRA
BACIL3
BACIL2
BACIL1
DAIRA
Accuracy 69.84(9.37) 73.33(8.73) 73.33(8.73) 72.76(9.40) 71.55(9.33) 70.77(9.88) 71.40(8.84) 71.30(8.54)
Annexe A
170
Tableau A.4 Descripteurs sélectionnés pour la base de données de la tuberculose
Att
rib
uts
ALGOTITHMES DE SELECTION DES ATTRIBUTS
CFS Subset Evaluator
CHISQUARE EVAL
CLASSIFIER Subset Evaluator
CONSISTENCY SUBSET EVAL FILTERE SUBSET EVAL
WRAPPER SUBSETEVAL
BESTFIRST EXHAUSTIVE SEARCH GENETIC SEARCH GREEDY STEPWISE LINEAR FORWARD SELECTION RANDOM SEARCH RANKER SEARCH SCATTER SEARCH SUBSET SIZE FORWARD SELECTION
RANKER GENETIC SERACH
RANDOM SEARCH
Ran
ker search
BEST FIRST
EXHAUSTIVE SEARCH GREEDY STEPWISE LINEAR FORWARD SELECTION RANDOM SEARCH SCATTER SEARCH SUBSET SIZE FORW
Genetic search /RANKER SEARCH
RA
ND
OM
SEAR
CH
AGE X X X X x
SEXE X x X x
MOIS x
ANNEE x
COM X X x
Annexe A
171
DAIRA x X x x X
LOCATION X X x
TYPMAL X X x
BACIL1 x X X x X
BACIL2 x X x X x X
BACIL3 x X x x X X X
Annexe A
172
Tableau A.5 Résultats des expérimentations par arbres de décision
BFTREE J48 J48 Graft
Ladtree NB Tree RANDOM TREE
REPTREE SIMPLE CART
CFS Subset Evaluator : BEST FIRST/EXHAUSTIVE SEARCH/ GENETIC SERACH/GREEDY STEPWISE/LINEAR FORWARD SELECTION/ SCATTER SEARCH /SUBSET SIZE FORWARD SELECTION /RANKER SEARCH, AGE, DAIRA, BACIL1, BACIL2, BACIL3
Attributs résultants
BACIL3 BACIL2 BACIL1
BACIL3 BACIL2 BACIL1
BACIL3 BACIL2 BACIL1 AGE
BACIL3 BACIL2 BACIL1 DAIRA AGE
BACIL3 BACIL2 BACIL1 DAIRA AGE
BACIL3 BACIL2 BACIL1 DAIRA AGE
BACIL3 BACIL2 BACIL1
BACIL3 BACIL2 BACIL1
Instances correctement
classifiées 74.57(4.75) 76.41(4.83) 76.15(4.64) 74.41(5.29) 74.95(4.65) 69.34(7.08) 75.96(5.10) 75.43(4.81)
CHISQUARE EVAL: age, sexe, com, daira, location, typmal, bacil1, bacil2, bacil3
Attributs resultants
BACIL3 BACIL2 BACIL1
BACIL3 BACIL2 BACIL1 COM
BACIL3 BACIL2 BACIL1 AGE SEXE COM
BACIL3 BACIL2 BACIL1 DAIRA AGE LOCATION
BACIL3 BACIL2 BACIL1 DAIRA AGE SXE COM LOCATION TYPMAL
BACIL3 BACIL2 BACIL1 DAIRA AGE SXE COM LOCATION TYPMAL
BACIL3 BACIL2 BACIL1 AGE SEXE COM
BACIL3 BACIL2 BACIL1
Annexe A
173
Instances correctement
73.80(5.12) 76.41(4.83) 75.95(4.66) 74.26(6.72) 73.35(6.34) 65.55(8.67) 75.58(5.58) 74.31(4.44)
CLASSIFIER Subset Evaluator , WRAPPER SUBSET EVAL:GENETIC SEARCHAGE.
Attributs résultants
AGE // // AGE AGE AGE // AGE
Instances correctement
classifiées 58.65(4.09) 58.04(2.74) 58.04(2.74) 58.67(3.92) 58.97(3.94) 59.25(4.18) 58.47(3.71) 58.17(3.77)
Classifier subset eval/RANDOM SEARCH , WRAPPER SUBSET EVAL:RONDOM SEARCH SEXE, MOIS, TRIM, DAIRA, BACIL2, BACIL3
Attributs résultants
BACIL3 BACIL2
BACIL3 BACIL2 SEXE DAIRA MOIS
BACIL3 BACIL2 SEXE DAIRA MOIS
BACIL3 BACIL2 MOIS DAIRA
BACIL3 BACIL2 SEXE MOIS DAIRA
BACIL3 BACIL2 SEXE DAIRA MOIS
BACIL3 BACIL2 MOIS DIARA
BACIL3 BACIL2
Instances correctement
classifiées 68.54(6.60) 68.83(7.01) 68.58(6.90) 67.96(7.08) 69.75(6.84) 65.04(7.21) 69.37(7.22) 68.42(6.55)
Annexe A
174
CONSISTENCY SUBSET EVAL:BEST FIRST/ EXHAUSTIVE SEARCH/GENETIC SEARCH/ GREEDY STEPWISE /linear forward selection/RANDOM A97SEARCH/SUBSET SIZE FORW/SCATTER SEARCH, AGE, SEXE, COM, DATE DEBUT TRT, LOCATION, TYPMAL, BACIL1, BACIL2, BACIL3
Attributs résultants
BACIL3 BACIL2 BACIL1
BACIL3 BACIL2 BACIL1 COM
BACIL3 BACIL2 BACIL1 AGE SEXE COM
BACIL3 BACIL1 BACIL2 AGE COM
BACIL3 BACIL2 BACIL1 AGE COM SEXE LOCATION TYPMAL
BACIL3 BACIL2 BACIL1 COM SEXE LOCATION TYPMAL AGE
BACIL3 BACIL2 BACIL1 COM AGE
BACIL3 BACIL2 BACIL1
Instances correctement classifiées
74.06(4.76) 76.31(4.97) 75.85(4.78) 71.98(6.23) 73.14(5.69) 64.31(8.95) 75.37(5.61) 74.67(4.10)
CONSISTENCY SUBSET EVAL /RANKER Search AGE, SEXE, COM, DAIRA, DATE DEBUT TRT, LOCATION, TYPMAL, BACIL1, BACIL2, BACIL3
Attributs résultants
BACIL3 BACIL2 BACIL1
BACIL3 BACIL2 BACIL1 COM
BACIL3 BACIL2 BACIL1 COM SEXE AGE
BACIL3 BACIL2 BACIL1 AGE DAIRA LOCATION
BACIL3 BACIL2 BACIL1 AGE SEXE COM DAIRA LOCATION TYPMAL
BACIL3 BACIL2 BACIL1 AGE SEXE COM DAIRA LOCATION TYPMAL
BACIL3 BACIL2 BACIL1 AGE COM
BACIL3 BACIL2 BACIL1
Instances correctement classifiées
74.04(4.80) 76.13(5.11) 75.67(4.92) 73.14(6.72) 73.58(6.63) 64.77(8.65) 75.39(5.62) 74.69(4.11)
Annexe A
175
FILTERED SUBSET EVAL /Random search DAIRA,
BACIL1, BACIL2, BACIL3
Attributs résultants
BACIL3 BACIL2 BACIL1 DAIRA
BACIL3 BACIL2 BACIL1 DAIRA
BACIL3 BACIL2 BACIL1 DAIRA
BACIL3 BACIL2 BACIL1 DAIRA
BACIL1, BACIL2, BACIL3 DAIRA
BACIL3 BACIL2 BACIL1 DAIRA
BACIL3 BACIL2 BACIL1
BACIL3 BACIL2 BACIL1 DAIRA
Instances correctement classifiées
75.96(4.87) 76.41(4.83) 76.15(4.64) 75.55(5.15) 75.11(4.74) 75.96(4.55) 76.29(4.81) 75.94(4.96)
Références
176
Adams, R., Clark, A., Yamaguchi, A., Hanlon, N., Tsorman, N., Ali, S., ... & Troein, C. (2013). SBSI: an
extensible distributed software infrastructure for parameter estimation in systems
biology. Bioinformatics, 29(5), 664-665. http://www.sbsi.ed.ac.uk/.
Ajelli, M., Gonçalves, B., Balcan, D., Colizza, V., Hu, H., Ramasco, J. J., ... & Vespignani, A. (2010).
Comparing large-scale computational approaches to epidemic modeling: agent-based versus structured
metapopulation models. BMC infectious diseases, 10(1), 190.
Almeida, V. G., Borba, J., Pereira, H. C., Pereira, T., Correia, C., Pêgo, M., & Cardoso, J. (2014).
Cardiovascular risk analysis by means of pulse morphology and clustering methodologies. Computer
methods and programs in biomedicine, 117(2), 257-266.
Amouroux, E., Desvaux, S., & Drogoul, A. (2008, December). Towards virtual epidemiology: an agent-based
approach to the modeling of H5N1 propagation and persistence in North-Vietnam. In Pacific Rim
International Conference on Multi-Agents (pp. 26-33). Springer Berlin Heidelberg.
Anderson, RM., May, RM., (1991) ‘Infectious diseases of humans: dynamics and control’, Oxford University
Press, Oxford.
Anderson, R. M., May, R. M., Ng, T. W., & Rowley, J. T. (1992). Age-dependent choice of sexual partners and
the transmission dynamics of HIV in Sub-Saharan Africa. Philosophical Transactions of the Royal Society
of London B: Biological Sciences, 336(1277), 135-155.
Anderson, R. M., Crombie, J. A., & Grenfell, B. T. (1987). The epidemiology of mumps in the UK: a
preliminary study of virus transmission, herd immunity and the potential impact of
immunization. Epidemiology and infection, 99(01), 65-84.
Andrews, J. R., & Basu, S. (2011). Transmission dynamics and control of cholera in Haiti: an epidemic
model. The Lancet, 377(9773), 1248-1255.
Aparicio, J. P., & Castillo-Chavez, C. (2009). Mathematical modelling of tuberculosis epidemics. Math Biosci
Eng, 6(2), 209-237.
Asha, T., Murthy, K. N. B., & Natarajan, S. (2012). Data mining techniques in the diagnosis of tuberculosis.
INTECH Open Access Publisher.
Atmani, B., & Beldjilali, B. (2007). Knowledge discovery in database: Induction graph and cellular
automaton. Computing and Informatics, 26(2), 171-197.
Azar, A. T., Elshazly, H. I., Hassanien, A. E., Elkorany, A. M., (2013) ‘A random forest classifier for lymph
diseases’, Computer Methods and Programs in Biomedicine, 113(2), 465–473.
doi:10.1016/j.cmpb.2013.11.004.
Balci, O. (1998, December). Verification, validation, and accreditation. In Proceedings of the 30th conference on
Winter simulation (pp. 41-4). IEEE Computer Society Press.
Bouyer, J. (2009). Epidémiologie: principes et méthodes quantitatives. Lavoisier.
Benkirane, S., Norman, R., Scott, E., & Shankland, C. (2012, August). Measles epidemics and PEPA: an
exploration of historic disease dynamics using process algebra. In International Symposium on Formal
Methods (pp. 101-115). Springer Berlin Heidelberg.
Benkirane, S., Hillston, J., McCaig, C., Norman, R., & Shankland, C. (2009). Improved continuous
approximation of PEPA models through epidemiological examples. Electronic Notes in Theoretical
Computer Science, 229(1), 59-74.
Références
177
Beurton-aimar.M (2007). Langage de modélisation des réseaux biochimiques, 1–16, ECRIN-Biologie syst,
Chap. 07, Page 7
Bjørnstad, O. N., Finkenstädt, B. F., & Grenfell, B. T. (2002). Dynamics of measles epidemics: estimating
scaling of transmission rates using a time series SIR model. Ecological Monographs, 72(2), 169-184.
Blower, S. M., & Dowlatabadi, H. (1994). Sensitivity and uncertainty analysis of complex models of disease
transmission: an HIV model, as an example. International Statistical Review/Revue Internationale de
Statistique, 229-243.
Blower, S. M., Mclean, A. R., Porco, T. C., Small, P. M., Hopewell, P. C., Sanchez, M. A., & Moss, A. R.
(1995). The intrinsic transmission dynamics of tuberculosis epidemics. Nature medicine, 1(8), 815-821.
Blower, S. M., Small, P. M., & Hopewell, P. C. (1996). Control strategies for tuberculosis epidemics: new
models for old problems. Science, 273(5274), 497.
Blum, C. (2005). Ant colony optimization: Introduction and recent trends. Physics of Life reviews, 2(4), 353-373.
Bolker, B., & Grenfell, B. (1995). Space, persistence and dynamics of measles epidemics. Philosophical
Transactions of the Royal Society of London B: Biological Sciences, 348(1325), 309-320.
Bonissone, P., Cadenas, J. M., Garrido, M. C., & Díaz-Valladares, R. A. (2010). A fuzzy random
forest. International Journal of Approximate Reasoning, 51(7), 729-747.
Bonmarin, I., Santa-Olalla, P., & Lévy-Bruhl, D. (2008). Modélisation de l’impact de la vaccination sur
l’épidémiologie de la varicelle et du zona. Revue d'epidemiologie et de sante publique, 56(5), 323-331.
Brahami, M., Atmani, B., & Matta, N. (2013). Dynamic knowledge mapping guided by data mining: application
on healthcare. Journal of Information Processing Systems, 9(1), 1-30.
Brahami, M. M. (2014). Conception et Expérimentation d’une nouvelle méthode booléenne de cartographie des
connaissances guidée par data mining (Doctoral dissertation, Université de Technologie de Troyes).
Brailsford, S. C., Gutjahr, W. J., Rauner, M. S., & Zeppelzauer, W. (2007). Combined discrete-event simulation
and ant colony optimisation approach for selecting optimal screening policies for diabetic
retinopathy. Computational Management Science, 4(1), 59-83.
Cabena, P., Hadjinian, P., Stadler, R., Verhees, J., & Zanasi, A. (1998). Discovering data mining: From concept
to implementation. Upper Saddle River, NJ: Prentice-Hall.
Cameron, L.R, and A. Smith-Palmer, (2015). Measles, mumps, rubella and whooping cough illness, routine
childhood vaccine uptake. Immunisation Team, HPS weekly report, 49: 251-259.
Cameron, L.R., (Jan, 2016).Health Protection Scotland, immunization team. Personal communication..
Carr, M., Ravi, V., Reddy, G. S., & Veranna, D. (2013). Machine Learning Techniques Applied to Profile
Mobile Banking Users in India. International Journal of Information Systems in the Service Sector
(IJISSS), 5(1), 82-92.
Castiglione, F., Pappalardo, F., Bernaschi, M. & Motta, S. (2007). Optimization of HAART with genetic
algorithms and agent-based models of HIV infection. Bioinformatics 23(24), 3350–
3355. [doi:10.1093/bioinformatics/btm408]
Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys
(CSUR), 41(3), 15.
Références
178
Chen, S. C., Chang, C. F., Jou, L. J., & Liao, C. M. (2007). Modelling vaccination programmes against measles
in Taiwan. Epidemiology and infection, 135(05), 775-786.
Childhood Immunisation Statistics, Infromation Service Division. http://www.isdscotland.org/Health-
Topics/Child-Health/Immunisation/
Ciocchetta, F. and Hillston, J., (2009a) ‘Bio-PEPA for epidemiological models’, ENTCS, 261, 43-69.
Ciocchetta, F., & Hillston, J. (2009b). Bio-PEPA: A framework for the modelling and analysis of biological
systems. Theoretical Computer Science,410(33), 3065-3084.
Ciocchetta, F., Degasperi, A., Hillston, J., & Calder, M. (2009). Some investigations concerning the CTMC and
the ODE model derived from Bio-PEPA. Electronic Notes in Theoretical Computer Science, 229(1), 145-
163.
Cook, A. D., & Skinner, M. J. (2005). How to perform credible verification, validation, and accreditation for
modeling and simulation. The Journal of Defense Software Engineering, May.
Dash, M., & Liu, H. (1997). Feature selection for classification. Intelligent data analysis, 1(1-4), 131-156.
Dash, M., & Liu, H. (2003). Consistency-based search in feature selection. Artificial intelligence, 151(1-2), 155-
176.
Dechter, R., & Pearl, J. (1985). Generalized best-first search strategies and the optimality of A. Journal of the
ACM (JACM), 32(3), 505-536.
Delen, D., Walker, G., Kadam, A., (2005) ‘Predicting breast cancer survivability: a comparison of three data
mining methods’, Artificial intelligence in medicine, Elsevier, 34(2), 113–27.
De Espíndola, A. L., Bauch, C. T., Cabella, B. C. T., & Martinez, A. S. (2011). An agent-based computational
model of the spread of tuberculosis. Journal of Statistical Mechanics: Theory and Experiment, 2011(05),
P05003.
DeStefano, F., Price, C. S., & Weintraub, E. S. (2013). Increasing exposure to antibody-stimulating proteins and
polysaccharides in vaccines is not associated with risk of autism. The Journal of pediatrics, 163(2), 561-
567.
Donaghy, M., Cameron, J. C., & Friederichs, V. (2006). Increasing incidence of mumps in Scotland: options for
reducing transmission. Journal of clinical virology, 35(2), 121-129.
Dorigo, M., Maniezzo, V., & Colorni, A. (1996). Ant system: optimization by a colony of cooperating
agents. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 26(1), 29-41.
Džeroski, S., & Todorovski, L. (2008). Equation discovery for systems biology: finding the structure and
dynamics of biological networks from time course data. Current opinion in biotechnology, 19(4), 360-368.
Edmunds, W. J., Gay, N. J., Kretzschmar, M., Pebody, R. G., & Wachmann, H. (2000). The pre-vaccination
epidemiology of measles, mumps and rubella in Europe: implications for modelling studies. Epidemiology
and infection, 125(03), 635-650.
England PH, (2013). Mumps: the green book, chapter 23. Mumps immunisation information for public health
professionals. In: Immunisation against infectious disease Mumps: guidance, data and analysis.
Euro Surveill. Increase in mumps cases in England and Wales, 2004. 2004;8(48):pii=2591. Available online:
http://www.eurosurveillance.org/ViewArticle.aspx?ArticleId=2591
Références
179
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996a). The KDD process for extracting useful knowledge from
volumes of data. Communications of the ACM, 39(11), 27-34.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996b). From data mining to knowledge discovery in
databases. AI magazine, 17(3), 37.
Ferguson, N.M., Donnelly, C.A., Anderson, R.M., (2001). The foot-and-mouth epidemic in Great Britain:
pattern of spread and impact of interventions. Science 292, 1155–1160.
Finkenstädt, B., Keeling, M., & Grenfell, B. (1998). Patterns of density dependence in measles
dynamics. Proceedings of the Royal Society of London B: Biological Sciences, 265(1398), 753-762.
FitzHenry, F., Resnic, F. S., Robbins, S. L., Denton, J., Nookala, L., Meeker, D., ... & Matheny, M. E. (2015).
Creating a common data model for comparative effectiveness with the observational medical outcomes
partnership. Applied clinical informatics, 6(3), 536-547.
Flach, P. A., & Lachiche, N. (2001). Confirmation-guided discovery of first-order rules with Tertius. Machine
learning, 42(1-2), 61-95.
Friedman, J. H. (1998). Data mining and statistics: What's the connection?. Computing Science and
Statistics, 29(1), 3-9.
Friis, R. H. (2010). Epidemiology 101. Jones & Bartlett Learning.
Fukunaga, K. (2013). Introduction to statistical pattern recognition. Academic press.
Galazka, A. M., Robertson, S. E., & Kraigher, A. (1999). Mumps and mumps vaccine: a global review. Bulletin
of the World Health Organization, 77(1), 3.
Galbraith, N. S., Pusey, J., Young, S. J., Crombie, D. L., & Sparks, J. P. (1984). Mumps surveillance in England
and Wales 1962-81. The Lancet, 323(8368), 91-94.
Galpin, V., & Hillston, J. (2009, August). Equivalence and discretisation in Bio-PEPA. In International
Conference on Computational Methods in Systems Biology (pp. 189-204). Springer Berlin Heidelberg.
Galpin, V., & Hillston, J. (2011). A semantic equivalence for Bio-PEPA based on discretisation of continuous
values. Theoretical Computer Science, 412(21), 2142-2161.
Galpin, V., Hillston, J., & Ciocchetta, F. (2011). A semi-quantitative equivalence for abstracting from fast
reactions. arXiv preprint arXiv:1109.1365.
García, S., Luengo, J., & Herrera, F. (2015). Data preprocessing in data mining. New York: Springer.
Garrido, J. (2011). Introduction to elementary computational modeling: essential concepts, principles, and
problem solving. CRC Press.
Gay, N. J. (1998). Modeling measles, mumps, and rubella: implications for the design of vaccination
programs. Infection Control & Hospital Epidemiology, 19(08), 570-573.
Gibert, K., Izquierdo, J., Holmes, G., Athanasiadis, I., Comas, J., & Sànchez-Marrè, M. (2008). On the role of
pre and post-processing in environmental data mining.
Gillespie, D. T. (2001). Approximate accelerated stochastic simulation of chemically reacting systems. The
Journal of Chemical Physics, 115(4), 1716-1733.
Gorunescu, F. (2011). Data Mining: Concepts, models and techniques (Vol. 12). Springer Science & Business
Media.
Références
180
González-Parra, G., Villanueva, R. J., Ruiz-Baragaño, J., & Moraño, J. A. (2015). Modelling influenza A
(H1N1) 2009 epidemics using a random network in a distributed computing environment. Acta tropica, 143,
29-35.
Grassly, N. C., & Fraser, C. (2006). Seasonal infectious disease epidemiology. Proceedings of the Royal Society
of London B: Biological Sciences, 273(1600), 2541-2550.
Greenhalgh, D., & Sfikas, N. (2003). Vaccination programs against mumps in the United Kingdom. Journal of
Medical Informatics & Technologies, 5.
Grenfell, B. T., Bjørnstad, O. N., & Kappey, J. (2001). Travelling waves and spatial hierarchies in measles
epidemics. Nature, 414(6865), 716-723.
Guerriero, M. L., J. K. Heath and C. Priami, (2007). An Automated Translation from a Narrative Language for
Biological Modelling into Process Algebra, in: Proceedings of Computational Methods in Systems Biology
(CMSB’07), LNCS 4695, pp. 136–151. URL http://www.springerlink.com/content/vt23126.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA data mining
software: an update. ACM SIGKDD explorations newsletter, 11(1), 10-18.
Hamami, D., Atmani, B., & Shankland, C. (2017). Decision Support Based on Bio-PEPA Modeling and
Decision Tree Induction: A New Approach, Applied to a Tuberculosis Case Study
(Forthcoming). International Journal of Information Systems in the Service Sector, 9(2).
Hamami, D., Cameron, R., Pollock, K.G., Shankland, C., (In review process). Understanding the epidemiology
of mumps immunization in Scotland: A computational modelling study. Journal Frontiers in Physiology,
section Computational Physiology and Medicine.
Hamami, D., Atmani, B., Cameron, R., Pollock, K.G., Shankland, C., (In review process). Improving process
algebra model structure and parameters in infectious disease epidemiology through data mining. En cours de
révision, Journal of Intelligent Information Systems (JIIS).
Hamami, D., & Atmani, B. (2016, October). Obtaining Optimal Bio-PEPA Model Using Association Rules:
Approach Applied to Tuberculosis Case Study. In International Conference on Information Systems for
Crisis Response and Management in Mediterranean Countries (pp. 62-75). Springer International
Publishing. http://dei.inf.uc3m.es/iscrammed2016/
Hamami. D, Atmani. B. (2013). Optimisation des outils d'aide à la décision par SBML, ASD’2013 conférence
maghrébine sur les avancées des systèmes décisionnels, Merrakech, Maroc. ISBN 978-9-98-113000-1
http://www.asd-conf.net/les-papiers-acceptes
Hamami, D., Atmani, B., (2012). Modeling the Effect of Vaccination on Varicella using Bio-PEPA. The 23rd
IASTED International Conference on Modelling and Simulation (MS 2012). July 3 - 5, 2012, Banff,
Canada. ISBN 978-0-88986-938-7.
Hamami, D., Atmani, B., (2014, April). From Simulated Model By Bio-PEPA to Narrative Language Through
SBML», International Journal of Control Theory and Computer Modeling: IJCTCM, Vol.4, No.1/2, pp 27-
43. http://airccse.org/journal/ijctcm/current2014.html
Hamami, D., & Atmani, B. (2013). Tuberculosis Modelling Using Bio-PEPA Approach. World Academy of
Science, Engineering and Technology, International Journal of Medical, Health, Biomedical,
Bioengineering and Pharmaceutical Engineering, 7(4), 183-190.
http://www.waset.org/Publications/?path=Publications&p=76
Han, J., Kamber, M., (2006). Data Mining: Concepts and Techniques. 2nd edn. Morgan Kaufmann Publishers,
San Francisco.
Hand, D. J. (1998). Data mining: Statistics and more?. The American Statistician, 52(2), 112-118.
Références
181
Hethcote, H. W. (2000). The mathematics of infectious diseases. SIAM review, 42(4), 599-653.
Hillston J., (2003). Model validation and verification. Edinburgh: University of Edinburgh.
Hillston, J. (2005). A compositional approach to performance modelling (Vol. 12). Cambridge University Press.
Hirano, S., & Tsumoto, S. (2005). Empirical comparison of clustering methods for long time-series databases.
In Active Mining (pp. 268-286). Springer Berlin Heidelberg.
HPS, 2015: Department of Health Protection Scotland, National surveillance center.
Hucka.M, Finney.A, S. Hoops, S. Keating and N. L. Novere (2007). Systems Biology Markup Language
(SBML) Level 2: Structures and Facilities for Model Definitions. Systems Biology Markup Language,
Release 2.
Huynh, G. H., Klein, D. J., Chin, D. P., Wagner, B. G., Eckhoff, P. A., Liu, R., & Wang, L. (2015). Tuberculosis
control strategies to reach the 2035 global targets in China: the role of changing demographics and
reactivation disease. BMC medicine, 13(1), 88.
Inbarani, H. H., Azar, A. T., & Jothi, G. (2014). Supervised hybrid feature selection based on PSO and rough
sets for medical diagnosis. Computer methods and programs in biomedicine, 113(1), 175-185.
INSP, 2006. l’Institut national de santé publique.
Jordán, F., Scotti, M., & Priami, C. (2011). Process algebra-based computational tools in ecological
modelling. Ecological Complexity, 8(4), 357-363.
Joshi, A., & Kaur, R. (2013). A review: Comparative study of various clustering techniques in data
mining. International Journal of Advanced Research in Computer Science and Software Engineering, 3(3).
Kalpakis, K., Gada, D., & Puttagunta, V. (2001). Distance measures for effective clustering of ARIMA time-
series. In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on (pp. 273-280).
IEEE.
Karegowda, A. G., Manjunath, A. S., & Jayaram, M. A. (2010). Comparative study of attribute selection using
gain ratio and correlation based feature selection. International Journal of Information Technology and
Knowledge Management, 2(2), 271-277.
Karpenko, O., Shi, J., & Dai, Y. (2005). Prediction of MHC class II binders using the ant colony search
strategy. Artificial Intelligence in Medicine, 35(1), 147-156.
Keeling, M. J., & Gilligan, C. A. (2000). Metapopulation dynamics of bubonic plague. Nature, 407(6806), 903-
906.
Keeling, M. J., & Ross, J. V. (2015). Optimal prophylactic vaccination in segregated populations: When can we
improve on the equalising strategy?. Epidemics, 11, 7-13.
Keeling, M. (2005). The implications of network structure for epidemic dynamics. Theoretical population
biology, 67(1), 1-8.
Keeling, M. J., & Rohani, P. (2008). Modeling infectious diseases in humans and animals. Princeton University
Press.
Kermack, W. O., & McKendrick, A. G. (1927, August). A contribution to the mathematical theory of epidemics.
In Proceedings of the Royal Society of London A: mathematical, physical and engineering sciences (Vol.
115, No. 772, pp. 700-721). The Royal Society.
Références
182
Khoshgoftaar, T. M., & Rebours, P. (2007). Improving software quality prediction by noise filtering
techniques. Journal of Computer Science and Technology, 22(3), 387-396.
Kim, H., Ishag, M. I. M., Piao, M., Kwon, T., & Ryu, K. H. (2016). A Data Mining Approach for Cardiovascular
Disease Diagnosis Using Heart Rate Variability and Images of Carotid Arteries. Symmetry, 8(6), 47.
Kleijnen, J. P. (1995). Verification and validation of simulation models. European journal of operational
research, 82(1), 145-162.
Knepell, P. L., & Arangno, D. C. (1993). Simulation validation: a confidence assessment methodology (Vol. 15).
John Wiley & Sons.
Koziel, S., & Yang, X. S. (Eds.). (2011). Computational optimization, methods and algorithms (Vol. 356).
Springer.
Krizmaric, M., Verlic, M., Stiglic, G., Grmec S., Kokol, P., (2009) ‘Intelligent analysis in predicting outcome of
out-of-hospital cardiac arrest’, Computer Methods and Programs in Biomedicine, 22–32.
doi:10.1016/j.cmpb.2009.02.013.
Kwiatkowska, M., Norman, G., & Parker, D. (2002, April). PRISM: Probabilistic symbolic model checker.
In International Conference on Modelling Techniques and Tools for Computer Performance Evaluation (pp.
200-204). Springer Berlin Heidelberg.
Kwiatkowska, M., Norman, G., & Parker, D. (2009). PRISM: probabilistic model checking for performance and
reliability analysis. ACM SIGMETRICS Performance Evaluation Review, 36(4), 40-45.
Lamm, E., & Unger, R. (2011). Biological computation. CRC Press by Chapman and Hall/CRC, Textbook - 343
Pages - 50 B/W Illustrations ISBN 9781420087956 - CAT# C7959
Series: Chapman & Hall/CRC Mathematical and Computational Biology,
Lakshmi, K. S., & Kumar, G. S. (2014, February). Association rule extraction from medical transcripts of
diabetic patients. In Applications of Digital Information and Web Technologies (ICADIWT), 2014 Fifth
International Conference on the (pp. 201-206). IEEE.
Laskowski, M., dubey, P., alexander, M. E., collinson, S., & moghadas, S. M. (2015, June). What is the optimal
level of information dissemination during an epidemic?. In BIOMAT 2014: Proceedings of the International
Symposium on Mathematical and Computational Biology (p. 206). World Scientific.
Lavanya, D., & Rani, K. U. (2013). A Hybrid Approach to Improve Classification with Cascading of Data
Mining Tasks. International Journal of Application or Innovation in Engineering Management (IJAIEM), 2,
345-350.
LeBaron, C. W., Forghani, B., Beck, C., Brown, C., Bi, D., Cossen, C., & Sullivan, B. J. (2009). Persistence of
mumps antibodies after 2 doses of measles-mumps-rubella vaccine. Journal of Infectious Diseases, 199(4),
552-560.
Legrand, J., Sanchez, A., Le Pont, F., Camacho, L., & Larouze, B. (2008). Modeling the impact of tuberculosis
control strategies in highly endemic overcrowded prisons. PLoS One, 3(5), e2100.
Lewis, R. O. (1992). Independent verification and validation: A life cycle engineering process for quality
software (Vol. 11). John Wiley & Sons.
Liao, T. W. (2005). Clustering of time series data—a survey. Pattern recognition, 38(11), 1857-1874.
Lincoln, E. M. (1967). Epidemics of tuberculosis. Archives of Environmental Health: An International
Journal, 14(3), 473-476.
Références
183
Ma, Z., & Li, J. (2009). Basic Knowledge and Modeling on Epidemic Dynamics. In Dynamical Modeling And
Analysis Of Epidemics (pp. 1-82).
Macaš, M., Lhotská, L., Bakstein, E., Novák, D., Wild, J., Sieger, T., ... & Jech, R. (2012). Wrapper feature
selection for small sample size data driven by complete error estimates. Computer methods and programs in
biomedicine, 108(1), 138-150.
Marco, D., Scott, E., Cairns, D., Graham, A., Allen, J., Mahajan, S., & Shankland, C. (2012). Investigating co-
infection dynamics through evolution of Bio-PEPA model parameters: a combined process algebra and
evolutionary computing approach. In Computational Methods in Systems Biology (pp. 227-246). Springer
Berlin Heidelberg.
Marco, D., Shankland, C., & Cairns, D. (2012, July). Evolving Bio-PEPA process algebra models using genetic
programming. In Proceedings of the 14th annual conference on Genetic and evolutionary computation (pp.
177-184). ACM.
May, R. M. (2004). Uses and abuses of mathematics in biology. Science, 303(5659), 790-793.
McCaig, C., Fenton, A., Graham, A., Shankland, C., & Norman, R. (2013). Using process algebra to develop
predator–prey models of within-host parasite dynamics. Journal of theoretical biology, 329, 74-81.
McCaig, C., Norman, R., & Shankland, C. (2009). From individuals to populations: A symbolic process algebra
approach to epidemiology. Mathematics in Computer Science, 2(3), 535-556.
McCaig, C., (2008). From individuals to populations: changing scale in process algebra models of biological
systems. PhD thesis, University of Stirling, 2008. Available from www.cs.stir.ac.uk/~cmc/thesis.ps.
Minitab 17 Statistical Software (2010). [Computer software]. State College, PA: Minitab, Inc.
(www.minitab.com).
Mitchell, T., (1997). Decision tree learning (Chapter 3). Machine Learning. The McGraw-Hill Companies, Inc.,
414, 52–78.
Mokeddem, S., Atmani, B., & Mokaddem, M. (2013). Supervised feature selection for diagnosis of coronary
artery disease based on genetic algorithm. arXiv preprint arXiv:1305.6046.
Morgan-Capner, P., Wright, J., Miller, C. L., & Miller, E. (1988). Surveillance of antibody to measles, mumps,
and rubella by age. BMJ, 297(6651), 770-772.
Murray, J. D. Mathematical Biology. 1989. C271.
Mutter, S., Hall, M., & Frank, E. (2004, December). Using classification to evaluate the output of confidence-
based association rule mining. In Australasian Joint Conference on Artificial Intelligence (pp. 538-549).
Springer Berlin Heidelberg.
Nahar, J., Imam, T., Tickle, K. S., & Chen, Y. P. P. (2013). Association rule mining to detect factors which
contribute to heart disease in males and females. Expert Systems with Applications, 40(4), 1086-1093.
Norman, R., & Shankland, C. (2003, February). Developing the use of process algebra in the derivation and
analysis of mathematical models of infectious disease. In International Conference on Computer Aided
Systems Theory (pp. 404-414). Springer Berlin Heidelberg.
Oaken, D. R. (2014). Optimisation of Definition Structures & Parameter Values in Process Algebra Models
Using Evolutionary Computation.
Références
184
Omran, D. A. E. H., Awad, A. H., El, M. A., Mabrouk, R., Soliman, A. F., & Aziz, A. O. A. (2015). Application
of Data Mining Techniques to Explore Predictors of HCC in Egyptian Patients with HCV-related Chronic
Liver. Asian Pacific Journal of Cancer Prevention, 16(1), 381-385.
OMS, http://gamapserver.who.int/gho/interactive_charts/tb/cases/atlas.html.
Oremland, M. (2011). Optimization and Optimal Control of Agent-Based Models (Doctoral dissertation, Virginia
Polytechnic Institute and State University).
Osman, M. K., Mashor, M. Y., & Jaafar, H. (2012, May). Performance comparison of clustering and
thresholding algorithms for tuberculosis bacilli segmentation. In Computer, Information and
Telecommunication Systems (CITS), 2012 International Conference on (pp. 1-5). IEEE.
Ozcaglar, C., Shabbeer, A., Vandenberg, S. L., Yener, B., & Bennett, K. P. (2012). Epidemiological models of
Mycobacterium tuberculosis complex infections. Mathematical Biosciences, 236(2), 77-96.
Pappalardo, F., Pennisi, M., Castiglione, F., & Motta, S. (2010). Vaccine protocols optimization: in silico
experiences. Biotechnology advances, 28(1), 82-93.
Patel, R., Longini, I. M., & Halloran, M. E. (2005). Finding optimal vaccination strategies for pandemic
influenza using genetic algorithms. Journal of theoretical biology, 234(2), 201-212.
Pavé, A. (1994). Modélisation en biologie et en écologie. Aléas.
Perez L, Dragicevic S (2009) An agent-based approach for modeling dynamics of contagious disease spread. Int
J Health Geogr 8.
Petty, M. D. (2010). Verification, validation, and accreditation. Modeling and simulation fundamentals:
Theoretical underpinnings and practical domains, 325-372.
Piarroux, R., Barrais, R., Faucher, B., Haus, R., Piarroux, M., Gaudart, J., et al., (2011) ‘Understanding the
cholera epidemic, Haiti’, Emerging Infectious Disease. http://dx.doi.org/10.3201/eid1707.110059.
Pollock,K., Cameron, R., (Nov, 2016). Protection de la santé Écosse, communication privée.
Porco, T. C., & Blower, S. M. (1998). Quantifying the intrinsic transmission dynamics of
tuberculosis. Theoretical population biology, 54(2), 117-132.
Prandi, D. (2010). Particle swarm optimization for stochastic process calculi. In Proceedings of the 9th
Workshop on Process Algebra and Stochastically Timed Activities, Department of Computing (pp. 77-82).
Phyu, T. N. (2009, March). Survey of classification techniques in data mining. In Proceedings of the
International MultiConference of Engineers and Computer Scientists (Vol. 1, pp. 18-20).
Quinlan, J., (1993). C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann.
Railsback, S. F., & Grimm, V. (2011). Agent-based and individual-based modeling: a practical introduction.
Princeton university press.
Rao, R. R., & Makkithaya, K. (2016). Identifying risk patterns in Public Health data through Association
Rules. Journal of Biomedical Engineering Society of India, 30.
Rehkopf, D., Furumoto-Dawson, A., Kiszewski, A., & Awerbuch-Friedlander, T. (2015). Spatial spread of
tuberculosis through neighborhoods segregated by socioeconomic position: a stochastic automata
model. Discrete Dynamics in Nature and Society, 2015.
Renshaw, E. (1993). Modelling biological populations in space and time (Vol. 11). Cambridge University Press.
Références
185
Rhodes, C. J., & Anderson, R. M. (1997). Epidemic thresholds and vaccination in a lattice model of disease
spread. Theoretical Population Biology, 52(2), 101-118.
Ribassin-Majed, L., Lounes, R., & Clemençon, S. (2013). Deterministic modelling for transmission of Human
Papillomavirus 6/11: impact of vaccination. Mathematical Medicine and Biology, dqt001.
Roberts, M. G., & Tobias, M. I. (2000). Predicting and preventing measles epidemics in New Zealand:
application of a mathematical model. Epidemiology and Infection, 124(02), 279-287.
Rokach, L., & Maimon, O. (2005). Decision trees. In Data mining and knowledge discovery handbook (pp. 165-
192). Springer US.
Rulaningtyas, R., Suksmono, A. B., & Mengko, T. L. (2011, July). Automatic classification of tuberculosis
bacteria using neural network. In Electrical Engineering and Informatics (ICEEI), 2011 International
Conference on (pp. 1-4). IEEE.
Rulaningtyas, R., Suksmono, A. B., Mengko, T., & Saptawati, P. (2015, November). Multi patch approach in K-
means clustering method for color image segmentation in pulmonary tuberculosis identification.
In Instrumentation, Communications, Information Technology, and Biomedical Engineering (ICICI-BME),
2015 4th International Conference on (pp. 75-78). IEEE.
Saeys, Y., Inza, I., & Larrañaga, P. (2007). A review of feature selection techniques in
bioinformatics. bioinformatics, 23(19), 2507-2517.
Saporta, G. (2004). «DATA MINING» ou FOUILLE DE DONNÉES. RST «Epidémiologie» Data Mining.
Sargent, R. G. (2005, December). Verification and validation of simulation models. In Proceedings of the 37th
conference on Winter simulation (pp. 130-143). winter simulation conference.
Schaffernicht, E., Stephan, V., & Groß, H. M. (2007, September). An efficient search strategy for feature
selection using chow-liu trees. In International Conference on Artificial Neural Networks (pp. 190-199).
Springer Berlin Heidelberg.
Scheller, R. M., Sturtevant, B. R., Gustafson, E. J., Ward, B. C., & Mladenoff, D. J. (2010). Increasing the
reliability of ecological models using modern software engineering techniques. Frontiers in Ecology and the
Environment, 8(5), 253-260.
Scherer, A., & McLean, A. (2002). Mathematical models of vaccination. British Medical Bulletin, 62(1), 187-
199.
Schimit, P. H. T., & Monteiro, L. H. A. (2011). A vaccination game based on public health actions and personal
decisions. Ecological Modelling, 222(9), 1651-1655.
Sharma, M., Choudhary, J., & Sharma, G. (2012, August). Evaluating the performance of apriori and predictive
apriori algorithm to find new association rules based on the statistical measures of datasets. In International
Journal of Engineering Research and Technology (Vol. 1, No. 6 (August-2012)). ESRSA Publications.
Sharma, T. C., & Jain, M. (2013). WEKA approach for comparative study of classification
algorithm. International Journal of Advanced Research in Computer and Communication Engineering, 2(4),
1925-1931.
Sharma, N., Bajpai, A., & Litoriya, M. R. (2012). Comparison the various clustering algorithms of weka
tools. facilities, 4(7).
Sirakoulis, G. C., Karafyllidis, I., & Thanailakis, A. (2000). A cellular automaton model for the effects of
population movement and vaccination on epidemic propagation. Ecological Modelling, 133(3), 209-223.
Références
186
Slimi, R., El Yacoubi, S., Dumonteil, E., & Gourbiere, S. (2009). A cellular automata model for Chagas
disease. Applied mathematical modelling, 33(2), 1072-1085.
Smitha, T., Sundaram, V., (2012) ‘Classification Rules by Decision Tree for Disease Prediction’, International
Journal of Computer Applications, Vol. 43(8), pp. 6–12.
Sudheep, E. M., & Sumam Mary, I. (2012). Design and Development of data mining models for the predictions
of manpower placement in the technical Domain (Doctoral dissertation, Cochin University of Science and
Technology).
Sullivan, R. (2012). Introduction to data mining for the life sciences. Springer Science & Business Media.
Sumner, T. (2010). Sensitivity analysis in systems biology modelling and its application to a multi-scale model of
blood glucose homeostasis (Doctoral dissertation, UCL (University College London)).
Sun, G. Q., Jin, Z., Song, L. P., Chakraborty, A., & Li, B. L. (2011). Phase transition in spatial epidemics using
cellular automata with noise. Ecological research, 26(2), 333-340.
Tanevski, J., Todorovski, L., & Džeroski, S. (2016). Learning stochastic process-based models of dynamical
systems from knowledge and data. BMC systems biology, 10(1), 30.
Tofts, C. (1994). Processes with probabilities, priority and time. Formal Aspects of Computing, 6(5), 536-564.
Tomar, D., & Agarwal, S. (2013). A survey on Data Mining approaches for Healthcare. International Journal of
Bio-Science and Bio-Technology, 5(5), 241-266.
Toni, T., Welch, D., Strelkowa, N., Ipsen, A., & Stumpf, M. P. (2009). Approximate Bayesian computation
scheme for parameter inference and model selection in dynamical systems. Journal of the Royal Society
Interface, 6(31), 187-202.
Unnebrink, K., & Windeler, J. (2001). Intention‐to‐treat: methods for dealing with missing values in clinical
trials of progressively deteriorating diseases. Statistics in medicine, 20(24), 3931-3946.
Van Boven, M., de Melker, H. E., Schellekens, J. F., & Kretzschmar, M. (2000). Waning immunity and sub-
clinical infection in an epidemic model: implications for pertussis in The Netherlands. Mathematical
biosciences, 164(2), 161-182.
Van Boven, M., Ruijs, W. L., Wallinga, J., O'Neill, P. D., & Hahne, S. (2013). Estimation of vaccine efficacy
and critical vaccination coverage in partially observed outbreaks. PLoS Comput Biol, 9(5), e1003061.
Van Hulse, J. D., Khoshgoftaar, T. M., & Huang, H. (2007). The pairwise attribute noise detection
algorithm. Knowledge and Information Systems, 11(2), 171-190.
Venkatesan, P., & Yamuna, N. R. (2013). Treatment response classification in randomized clinical trials: a
decision tree approach. Indian Journal of Science and Technology, 6(1), 3912-3917.
Verbaeten, S., & Van Assche, A. (2003, June). Ensemble methods for noise elimination in classification
problems. In International Workshop on Multiple Classifier Systems (pp. 317-325). Springer Berlin
Heidelberg.
Vynnycky, E., & White, R. (2010). An introduction to infectious disease modelling. Oxford University Press.
Wang, Z., Yan, R., Chen, Q., & Xing, R. (2012). Data mining in nonprofit organizations, government agencies,
and other institutions. Advancing the Service Sector with Evolving Technologies: Techniques and
Principles: Techniques and Principles, 208.
Références
187
Wearing, H. J., & Rohani, P. (2009). Estimating the duration of pertussis immunity using epidemiological
signatures. PLoS Pathog, 5(10), e1000647.
Wearing, H. J., Rohani, P., & Keeling, M. J. (2005). Appropriate models for the management of infectious
diseases. PLoS Med, 2(7), e174.
Weber, A., Weber, M., & Milligan, P. (2001). Modeling epidemics caused by respiratory syncytial virus
(RSV). Mathematical biosciences, 172(2), 95-113.
Wei, P., Cong, X., Tang, W., Cao, S., Luo, P. F., Li, W., & Luo, D. (2011, June). Study on effects of different
methods of health education on tuberculosis among the primary and middle school students in rural areas of
northern Jiangsu Province. In Remote Sensing, Environment and Transportation Engineering (RSETE),
2011 International Conference on (pp. 8533-8537). IEEE.
Whitaker, H. J., & Farrington, C. P. (2004). Infections with varying contact rates: application to
varicella. Biometrics, 60(3), 615-623.
White, S. H., Del Rey, A. M., & Sánchez, G. R. (2007). Modeling epidemics using cellular automata. Applied
Mathematics and Computation, 186(1), 193-202.
Wilkinson, D. J. (2011). Stochastic modelling for systems biology. CRC press.
Witten, I. H., & Frank, E. (2005). Data Mining: Practical machine learning tools and techniques", Morgan
Kaufmann, San Francisco, USA.
Witten IH, Frank E, Hall MA. (2011). Data mining: practical machine learning tools and techniques. Third
edition, Morgan Kaufmann. San Francisco, CA.
Wismüller, A., Lange, O., Dersch, D. R., Leinsinger, G. L., Hahn, K., Pütz, B., & Auer, D. (2002). Cluster
analysis of biomedical image time-series. International Journal of Computer Vision, 46(2), 103-128.
World Health Organization. (2013). WHO report. Global tuberculosis control 2011. Geneva, Switzerland:
WHO (2013).
Wu, T. F., You, J. B., Yan, M. J., & Sun, H. J. (2012, November). Applied Research of PSO in Parameter
Estimation of Richards Model. In Web Information Systems and Applications Conference (WISA), 2012
Ninth (pp. 87-90). IEEE.
Wu, J., Dhingra, R., Gambhir, M., & Remais, J. V. (2013). Sensitivity analysis of infectious disease models:
methods, advances and their application. Journal of The Royal Society Interface, 10(86), 20121018.
Xiong, Y., & Yeung, D. Y. (2004). Time series clustering with ARMA mixtures. Pattern Recognition, 37(8),
1675-1689.
Yoshimura, K., Okanoue, T., Ebise, H., Iwasaki, T., Mizuno, M., Shima, T., ... & Yamazaki, K. (2016).
Identification of novel noninvasive markers for diagnosing nonalcoholic steatohepatitis and related fibrosis
by data mining. Hepatology, 63(2), 462-473.
Zhu, X., & Wu, X. (2006). Class noise handling for effective cost-sensitive learning by cost-guided iterative
classification filtering. IEEE Transactions on Knowledge and Data Engineering, 18(10), 1435-1440.
Zhu, X., & Wu, X. (2004). Class noise vs. attribute noise: A quantitative study. Artificial Intelligence Review, 22(3), 177-210.
DOI: 10.4018/IJISSS.2017040104
Copyright © 2017, IGI Global. Copying or distributing in print or electronic forms without written permission of IGI Global is prohibited.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
Decision Support based on Bio-PEPA Modeling and Decision Tree Induction:A New Approach, Applied to a Tuberculosis Case StudyDalila Hamami, Laboratoire d’informatique d’Oran (LIO), University of Oran 1 Ahmed Benbella, Oran, Algeria
Atmani Baghdad, Laboratoire d’informatique d’Oran (LIO), University of Oran 1 Ahmed Benbella, Oran, Algeria
Carron Shankland, Department of Computing Science and Mathematics, University of Stirling, Stirling, UK
ABSTRACT
The problem of selecting determinant features generating appropriate model structure is a challenge in epidemiological modelling. Disease spread is highly complex, and experts develop their understanding of its dynamic over years. There is an increasing variety and volume of epidemiological data which adds to the potential confusion. The authors propose here to make use of that data to better understand disease systems. Decision tree techniques have been extensively used to extract pertinent information and improve decision making. In this paper, the authors propose an innovative structured approach combining decision tree induction with Bio-PEPA computational modelling, and illustrate the approach through application to tuberculosis. By using decision tree induction, the enhanced Bio-PEPA model shows considerable improvement over the initial model with regard to the simulated results matching observed data. The key finding is that the developer expresses a realistic predictive model using relevant features, thus considering this approach as decision support, empowers the epidemiologist in his policy decision making.
KEywoRDSBio-PEPA Modelling, Data Mining, Decision Support, Decision Tree Induction, Epidemiology, Modelling and Simulation, Optimisation, Refinement, Tuberculosis
1. INTRoDUCTIoN
The epidemiological field has been greatly enhanced by the use of computational and mathematical models, e.g. the studies of Anderson and May (1991), Weber et al, 1997; Keeling and Rohani (2008), Amouroux et al. (2010) and Hamami and Atmani (2013). Such models are considered indispensable both to understand the pathophysiology of human disease and to follow the spread of disease. The latter in particular allows public health policies to be developed by using predictive models to explore suitable disease control strategies.
For any modelling, the main goal is to provide accurate disease representation and realistic long term prediction; at least, as far as possible given that “the real world is undeniably replete with many complications; economic and social as well as biological” (Anderson and May, 1991). Capturing the complex, dynamic and variable nature of disease spread depends on strong partnership working between epidemiologists and modellers, to achieve careful refinement, elaboration and optimisation of models. Even so, the developed models (Anderson and May, 1991; Frost, 1995; Oaken et al., 2014)
71
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
72
rely heavily on the experience of the experts and developers, and a degree of speculation and inspiration regarding identification of pertinent model features or accurate parameter estimation. Keeling and Rohani (2008) confirm this point of view: “The feasibility of model complexity is compromised by computational power, the mechanistic understanding of disease natural history, and the availability of necessary parameters. Consequently, the accuracy of any model is always limited”. However, relying on expert knowledge and assumptions is not enough to ensure model accuracy when this depends on knowledge or features unknown to the expert/developer team.
In this context, many works (vynnycky and Fine, 1997; Debanne, 2000; Geisweiller, 2006; Prandi, 2010; DeEspíndola et al. 2011; Oaken REF, Goeyvaerts, 2015) focus on optimisation, as it becomes as a natural step in the modelling process. Optimisation has grown in recent years from considering simply parameter values, to refining model structure. Of great help in this process is the availability of massively complex datasets on epidemics, containing quantitative, qualitative, textual, Boolean, etc., information (Maumus et al., 2005). Our conclusion is that to decrease uncertainty in epidemic modelling, providing rigorous model descriptions containing the most important system features so parameters can then be correctly estimated, it is urgent to devise a solution to assisting experts/developers in acquiring only the most pertinent information from a dataset, and allow them to review their reasoning about the underlying epidemic system (Moundalexis and Nag, 2013).
To resolve this enigma and overcome the problems of selecting the determinant model features, in particular for tuberculosis (TB), we propose here, that a good epidemiological understanding and control requires a knowledge extraction process from data derived from cohort studies (Mancini, 2014; Poulymenopoulou et al., 2013). This process can involve symbolic methods of data mining (Maumus et al., 2005; Azar et al., 2013).
In epidemiology and public health, the use of data mining methods in general and decision tree induction in particular is growing briskly (Azar et al., 2013; Kotu and Deshpande, 2015; Breiman et al., 1984; Krizmaric et al., 2009; Smitha and Sundaram, 2012). Often these works mention the discovery of unexpected but effective information. As in other areas, it is the availability of wide-ranging historical databases that encourages such developments. By using data mining, patterns are discovered which can lead to better performance in computational modelling, long term prediction and decision-making (Lavanya and Rani, 2013). In our work, this process is automated by using WEKA tool (Hall et al., 2009), this offers a range of algorithms to build decision tree models.
The purpose of this article is:
• To show how the results from data mining can be complementary to the expert knowledge and help to achieve, update or validate an epidemic Bio-PEPA model,
• To present a framework in which data mining and Bio-PEPA modelling can be used together to better understand the mechanisms of detection and spread of epidemics, and
• To demonstrate the application of the framework to TB disease to identify influencing factors and their force.
This paper is structured as follows: section 2 provides background on Bio-PEPA modelling and data mining concepts more extensively on decision tree induction. Section 3 is dedicated to the proposed approach, which describes the different steps undertaken to combine Bio-PEPA with data mining. Details of the case study (tuberculosis), experimental approach and results of applying the Bio-PEPA framework using decision tree induction results are described in Section 4. Finally, in section 5, we conclude by summarizing and highlighting our key findings and contribution, together with perspectives on future work.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
73
2. BACKGRoUND
This section reviews the two main areas in our work, Bio-PEPA modelling and simulation and data mining.
2.1. Bio-PEPA Modelling and SimulationBio-PEPA (Bio-Performance Evaluation Process Algebra) is a formal language belonging to the Process algebra (PA) family. Developed in the 1970s, PA was mainly based on algebraic concepts (operators and axioms) to study the behaviour of parallel and distributed systems. It has since been used in biology: e.g. in 1993 Tofts (1993) used it to describe the behaviour of social insects, and in 2003 Norman and Shankland (2003) used it for epidemiology. Ciocchetta and Hillston (2009a, 2009b) developed a new, less-complex formalism, Bio-PEPA, to describe biological systems more succinctly. A general view of Bio-PEPA model components is given in Figure 1 (Appendix, all figures and tables are shown in Appendix).
Bio-PEPA is a formalism based on a set of rules and events (Ciocchetta and Hillston, 2009a) describing an interaction between a set of species (agents) belonging to one or a set of compartments and performing different reactions evolving under specific parameters. More formally and conveniently those concepts are described by the syntax below:
S:: = (α, κ) op S | S + S | Cop = << | >> | (+) |(-) |(.)P:: = P <L> P | S(x)
Where ‘S’: species or well known as individual entities. The dynamic of S is described by the reaction defined by ‘α’: action to undertake and ‘κ’: stoichiometry coefficient of the entity in that reaction. During the process ‘P’, S evolves under a specific operation ‘op’ as indicated above, where ‘<<’: reactant, ‘>>’: product, ‘(+)’: activator, ‘(-)’: inhibitor, ‘(.)’: generic modifier. Bio-PEPA syntax offers the choice between different behaviours by using ‘+’ (the full syntax details are presented by Ciocchetta and Hillston, 2009a, 2009b).
By applying Bio-PEPA to avian influenza Ciocchetta and Hilston (2009a) draw out the advantages of using Bio-PEPA for epidemiology modelling such as, its ability to deal with population level dynamics, the heterogeneity of individual attributes, stochasticity, spatial structure and discrete/external event. Further, Bio-PEPA offers a series of analyses not previously available to epidemiology through a single description such as stochastic simulation, model checking, ODE derivation and for those who are less familiar, Bio-PEPA allows translating an existing model to SBML (The Systems Biology Markup Language based on XML) (Hamami and Atmani, 2014).
The Ciocchetta and Hillston (2009a, 2009b) epidemiological studies led many authors to extend the use of Bio-PEPA to different infectious diseases. Benkirane et al. (2012) pinpointed the key features of Bio-PEPA by developing a measles model. They put forward seasonal effects and immigration on spreading disease. Hamami and Atmani (2012, 2013) have reviewed a Bonmarin mathematical model of chickenpox (Bonmarin et al., 2008) as well as De-Espindola tuberculosis model (DeEspíndola et al. 2011). Ramanathan et al. (2012) and Oaken et al. (2014) worked on SIR/SEIR models using the Bio-PEPA framework for deeper analysis. Despite the success of Bio-PEPA in epidemiological modelling, developers and experts still must avoid including irrelevant details and features and excluding pertinent ones in the model description.
2.2. Data Mining and Features FilteringData mining techniques are powerful tools to identify pertinent patterns and events within a large database. Data mining involves different techniques depending on the objective of the task and data to explore (Wang et al., 2012). They are summarised as predictive or descriptive methods (Kotu and
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
74
Deshpande, 2015). That is, predictive methods, such as classification and regression, use known outputs and the relationship between existing features to predict the future. Regression defines models using continuous output, as applied by Piarroux et al. (2011) to detect different levels of Cholera infection by region. Classification uses categorical output as done by Azar et al. (2013) to classify patients infected with Lymph disease. Descriptive methods, such as clustering and association rules, disclose concealed patterns that sum up the relationship between variables without predicting target values. Clustering regroups a set of objects with a similar specificity, as used by Almeida et al. (2014) in cardiovascular risk assessment where the resulting five clusters showed the intrinsic relation between features. Association rules identify a degree of association between features and their frequency, as achieved by Ou-yang et al. (2013) where the impact of prescribed drugs on Stevens–Johnson syndrome was detected. Thus, before applying data mining techniques, it is important to know which kind of method is more appropriate for our dataset study. Recall that the aim of this work is to use data mining techniques to enrich computational modelling by finding the relevant variables that explain the data. This means that the output of the data mining model is known. In addition, according to the categorical nature of our data, this description led us to focus on classification.
Classification is a data mining technique based on supervised learning (Kotu and Deshpande, 2015; López-Vallverdú et al., 2012): the learning is based on using known output values to build a model, useful to predict the class of objects whose class label is unknown. Various techniques such as: Decision Trees, Bayesian networks, Neural Networks, Rule induction, K-nearest neighbour, are used in classification. Many works highlight the decision tree as the classification method popularly used for classifying medical data (Lavanya and Rani, 2013; Mitchell, 1997; Phyu, 2009; Gorunescu, 2011; Carr et al., 2013). The decision tree is described by a tree structure where each non-leaf node denotes an attribute, each branch represents an attribute value and leaf nodes represent classes or class distributions. This structure makes models easy to interpret into rules: If Condition Then Conclusion, where Condition denotes a disjunction/conjunction of attributes, and Conclusion is the class reached by the condition (Atmani and Beldjilali, 2007). More advantages are reported in literature: Lavanya and Rani (2013) argued that decision tree algorithms are most commonly used because the parameter setting of domain knowledge is not required to construct the tree. Phyu (2009), by undertaking a survey of classification techniques, concluded that decision tree algorithms tend to perform better when dealing with discrete/categorical features. Gorunescu (2011) noted that the greatest benefit of decision tree approaches is flexibility, understandability and usefulness in prediction. Delen et al. (2005) used a series of decision tree algorithms (ID3, C4.5, C5 (Quinlan, 1993), and CART (Aguiar et al, 2012)) to identify variables and corresponding thresholds which separate observations in branches containing a set of leaves. Delen et al. (2005) outlined that the objective of decision tree algorithms is to minimise the number of homogeneous groups, and went on to apply the C5 algorithm to breast cancer data, extracting the most important features for the breast cancer prognosis. Azar et al. (2013) applied decision tree algorithm following classification to prove an increase in diagnostic confidence, by selecting six relevant features rather than the defined eighteen as data input. Krizmaric et al. (2009) focused on survival prediction of patient subject to cardiac arrest where features such as arrival time and cardiopulmonary resuscitation were detected as more pertinent for this study. Smitha and Sandaram (2012) applied a decision tree algorithm to predict the inhabitants infected by disease in a slum area. The resulting tree explains clearly that the infection is related first to climatic parameters and second to other parameters such as spread of deadly diseases, population immunity and control activities, vector abundance and family history.
These wide-ranging examples reveal that the decision tree is by far the most adequate classifier for our study, because:
• The resulting model is expressed by a tree (set of rules), easily interpreted by non-expert and well matched to Bio-PEPA model components.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
75
• Decision tree algorithms perform better when dealing with the nature of features defined in our dataset (discrete, categorical),
• Decision tree algorithms identify variables relevant to the example, which is our principal aim in developing more realistic formal models. In the epidemiological setting, this draws out the causal relationships between predictors of the disease using a decision tree classifier, allowing relevant information to be extracted to understand and monitor epidemics.
To summarize, to improve and simplify the interaction between expert and developer, this section has identified two complementary techniques: decision tree induction and Bio-PEPA modelling. The former identifies the relevant features. The latter is used by the modeler to explore the usefulness of those features in optimising and refining a realistic and accurate model aiming to predict and improve the decision making of the epidemiologist. The next section explains how these techniques can be combined.
3. METHoDoLoGy
Our aim is to use decision tree induction to extract useful information from the database to inform, refine and optimise our formal modelling.
To prove the usefulness of our approach, we begin by considering the typical manual modelling process and show how this can be enhanced with data mining. Figure 2 shows the structure of the methodology. Typical steps of our approach include:
1. Interaction expert/developer: Consecutive exchange knowledge between epidemiologist and developer is performed as follows:a. Problem Definition: identify critical areas in the process to be modelled.b. Design the Study: collect data (and possibly expert knowledge of the problem).c. Design the Conceptual Model: describe all dependencies between system components.d. Process Definition: determine the predictability and accuracy of the model, where inputs,
outputs, assumptions and rules are specified separately.2. Bio-PEPA modelling: Based on Bio-PEPA structure, the formal model is constructed using all
the information gained in the previous step, inputs, outputs and rules.3. Simulation and analysis: Once the formal model is constructed, it can be analysed. For this
work we use stochastic simulation of the Bio-PEPA model. The resulting outputs are used to validate model accuracy by comparing with observed data.
4. Optimisation: The implementation of the model can be an accurate/inaccurate representation of the real system depending on the assumptions made by either the developer or the epidemiologist/domain expert. In either case, more information is required to refine/optimise the model.a. Manual Optimisation (dashed line in Figure 2 ): By returning to the process definition
step defined earlier (Interaction expert/developer step), the expert enhances this step with new information. The optimisation based on expert/developer interaction is repeated until the results match well with observed data. This process is extremely reliant on expert/developer capability and knowledge, when basing only on inspiration and assumptions could derive to time consuming and increasing in complexity. To overcome these problems, we propose to use data mining at optimisation step.
b. Optimisation Using Data Mining: Rather exploring the expert/developer interaction at optimization step, decision tree induction is used as factor retrieval on the disease dataset. This optimization begins with the data mining process (data cleaning, data transformation, feature selection, classification and validation) and ends in Bio-PEPA model refinement. The steps lie as follow:
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
76
▪ Data Cleaning and Data transformation: As disease dataset is collected from different sources, noise and errors can be expressed. Data cleaning attempts to correct inconsistencies, remove errors, noise and missing values in the data (Han and Kamber, 2006; Gibert et al, 2008), when data transformation (Inbarani et al, 2013) converts the data into appropriate forms for mining that makes data operationally efficient and understandable. To achieve this goal, a series of algorithms are available in literature (Inbarani et al, 2013; Witten, 2011), such as discretisation and removing missing values. The choice of those algorithms remains strongly dependent on dataset used.
▪ Feature Selection Algorithms: Not all features recorded in the dataset are useful in decision making. Feature selection is a preliminary step to classification, it reduces the attribute space with the aim of finding a minimal attribute set to describe the data (Guyon and Elisseeff, 2003). Those attributes are the classifier input deriving the optimal tree (optimal tree size and number of leaves) with highest accuracy. In data mining a range of feature selection algorithms are defined. According to Witten (2011), Saeys et al. (2007) and Karegowda et al. (2010), methods used for feature selection are classified into two types: Attribute subset evaluator and Single attribute evaluator. The choice of algorithm depends on the aim of feature selection. As argued by Saeys et al. (2007), attribute subset evaluators are used to improve prediction performance by considering feature dependencies whereas single attribute evaluators consider each feature separately to improve cluster detection (Inbarani et al., 2013). The aim of this study is to detect pertinent information expressed by the relation between different attributes to improve modelling prediction, therefore the Attribute Subset Evaluator algorithms are more suitable for this field. Many of them are defined in the literature. For example, Karegowda et al. (2010) applied a Correlation-based Feature Selection algorithm (CFS algorithm) combined with a neuronal network classifier to diabetic data to identify highest classifier accuracy through a highest correlation between features, while Macaš et al (2012) used Wrapper Subset Evaluator and Filtered Subset Evaluator combined with a series of classifiers. The choice of algorithm remains dependent on the nature of data to be mined.
▪ Classification: Once the feature selection step is achieved, the selected attributes can be used as an input to the classifier.As argued in section 2.2, decision tree algorithms are used in this study. A range of algorithms can be used to create the classifier, the most commonly reported in literature (Ou-yang et al., 2013; Shi, 2008; Zhao and Zhang, 2008; Gibert et al, 2010) are: Best First Decision Tree (BFTree), J48, J48Graft, Naive Bayesian Tree (NBTree), Alternating decision Tree using the LogitBoost strategy (LadTree), REPTree, RandomTree and Cart /Simple Cart.
▪ Validation: Once the models resulting from the classifiers listed above are achieved and trained, their performance is evaluated and significance is interpreted. To this end, a series of measures are undertaken such as: accuracy rate, confusion matrix, positive rate and negative rate. According to Witten (2011), confusion matrix is very useful measure for better understandability. The matrix is defined by predicted classes (matrix columns) and actual classes (matrix rows), where all correct predictions are expressed by its diagonal, see for example Table 5. Once the performance evaluated using the above measures, a comparison is done between all classifiers resulting in a ranked set.
▪ Optimisation of Bio-PEPA Model: The best ranked model resulting from the validation step is analysed to distinguish which parameters influence the classification results. To simplify this step, the selected model structured as a tree, where the first node is a root and terminal nodes reflect decision outcomes is converted into sets of rules described by a relation (arc) between a set of attributes (nodes) and then defined as: X and Y then Z, where X, Y are called antecedent (condition) and Z the consequent (conclusion) of the
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
77
rule. At this step, the selected attributes could be further validated by the epidemiologist as being primary reasons disrupting the analysis of disease spread which were unknown/missed by epidemiologist at the start of the study.
Having extended these rules, this information from data mining is incorporated into the Bio-PEPA model as follows:
1. Extract from mined rules, pertinent attributes not currently included in the Bio-PEPA model.2. Refine the existing Bio-PEPA model by integrating relevant features.3. Recalculate parameters useful to developing the Bio-PEPA model by restructuring the initial
database.4. Analyse the new simulated results.5. Come back to step 1 here or to the data mining/dataset interaction phase to regenerate new rules
if the aim is not achieved (i.e. the model is improved, but there is still a significant gap between observed data and model simulation).
To illustrate this methodology, the next section describes its application to a tuberculosis data set.
4. RESULTS
The Tuberculosis has been a major killer disease for several years which makes it a disease of interest for number of studies either in modelling and simulation field such as: Blower et al. (1998), Aparicio and Catillo-chavez (2009), DeEspíndola et al. (2011), Ozcaglar et al. (2012) and Hamami and Atmani (2013), or in data mining field such as: Sebban et al. (2002), Aguiar et al. (2012) and Venkatesan and Yamuna (2013).
According to the last report of the World Health Organization (WHO), the international standard for tuberculosis control, TB remains the leading infectious deadly disease today (WHO, 2012). WHO applies a strategy to reduce the transmission of the infection through prompt diagnosis and effective treatment of symptomatic TB patients who present at health care facilities, where strict supervision is based on recording individual patient data and their medicines taken during treatment period.
In 1985, the medical authority of Algeria, created the Service of Epidemiology and Preventive Medicine (SEMEP: Service d’Epidémiologie et MEdecine Préventive). The role of SEMEP is to co-ordinate and monitor health and prevention activities. SEMEP services work closely with the Department of Health and Population (DSP: Direction de la Santé et de la Population) for the collection of health information and its analysis. This is useful for statistical analysis of data, epidemiological interpretation, dissemination and exploitation of results. Although the SEMEP provides a great support to epidemiological monitoring, the large number and complexity of recorded data increase the difficulty to follow the spread of TB.
To demonstrate the value of our approach, we used data set obtained from the SEMEP of Mostaganem (Algeria). This data set consists of a set of locations situated in Mostaganem (Algeria). It records the details of individuals infected by tuberculosis from January, 2008 up to December, 2012: a total number of 998 cases. This data is an Excel spreadsheet with 23 attributes to describe each record described in Table 1, where nine attributes were ignored following data mining steps (more details are given in the section 4.4).
The process as described in section 3 is divided into three steps:
1. Realize TB Bio-PEPA model based on expert knowledge.2. Analyse TB data using data mining techniques if the simulated output does not match observed
data.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
78
3. Rebuild existing model taking into consideration the extracted pertinent information from the second step.
4.1. Interaction Expert/DeveloperFigure 3 formulates a global schema of the TB model that incorporates treatment and reinfection based on expert knowledge. The host population is divided into the following epidemiological classes or subgroups: susceptible moves through to infected by pulmonary TB (TP) when he is diagnosed. The TP moves to one of the different states (recovered, died, Trt_comp, lost, failed and transferred). It is noted in Figure 3 that:
• Because the TB treatment just allows recovery and does not give immunity, the recovered individual comes back to the susceptible class.
• Because of treatment failure, the individual in the Failure state comes back to the infected TP state.• Because lost individuals are no longer part of the treated population, they will return into the
infected class.
The main parameters that drive these transitions are shown in Table 2 with their values, and formula used to calculate the values from TB data.
4.2. Bio-PEPA ModellingThe aim here is to express the TB model, illustrated in Figure 3, in Bio-PEPA and to analyse the results.
As shown in Figure 4, the Bio-PEPA model is composed in a modular way through the interactions between the processes by defining:
Parameters/rates (P, θ1, …, θ6): numeric rates (Figure 4 from line 1 to 8), calculated using the observed data or collected from the literature (Aparicio and Catillo-chavez, 2009; Keeling and Rohani, 2008), see Table 2.
Location (space): Bio-PEPA defines a “Location” parameter which describes the place where the population is situated. For our initial model, we consider our population as homogeneous within a unique space (location) “City” (see Figure 4 line 9).
Species and Functional rates (KineticLawOf). The species correspond to the compartments defined in Figure 3 (Susceptible, Infected, transferred, Failed, Lost, Trt_comp and recovered). Each species carries out activities to change their own levels or those of others they may interact with (see Figure 4 from line 17 to 24). The rate of change is defined by the functional rate (see Figure 4 from line 10 to 16). For example, the action Recovery (line 12) leads to an increase in Recovered species (line 20) using the “>>” operator, while it leads to a decrease in Infected species (line 18) using the “<<” operator. By using the operator ‘+’, the Infected species (line 18) has a choice between different actions at each time step.
The last line of the model (line 25) is the model component, defining the initial sizes and the interaction between species.
4.3. Simulation and AnalysisOnce the model is achieved, a series of simulations are carried out in the Bio-PEPA plug-in (Duguid et al., 2009) (100 simulations are performed: Two Way ANOVA followed by Tukey Multiple Comparisons showed that the mean responses were not statistically different when more simulations were performed). The simulation is of one year, starting at t=0, where only the susceptible individuals and infected by pulmonary TB individuals are present, and ending at t=364.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
79
Complete data series of five years are available, from 2008 to 2012. As some of Bio-PEPA parameters are calculated from observed data, Table 3 illustrates the period used according to the year of prediction. For example, to predict 2011, the average value of the set (2008-2009-2010) is considered to calculate parameters reported in Table 2.
To validate the model, the first simulation for observed data of 2008 is carried out and predicted data for 2009. A comparison is done between simulated (rounded mean) and observed data illustrated in histograms of Figure 5, for each class (died, failed, recovered, lost, transferred and Trt_comp).
As shown in Figure 5, the simulated model corresponds well to observed data. The histograms illustrate the state of individuals after 180 days of treatment. In order to strengthen the validity of these results, a χ2 goodness of fit test was performed at 5% significance level. The null hypothesis (H0) is that the observed data follows the same distribution as the simulated data while the alternative hypothesis (H1) is that the observed data follows some other unspecified distribution. The results of this analysis was χ2 = 0.381, degree of freedom = 3, p-value = 0.944. Thus, there is insufficient evidence at the 5% level to reject H0 in favour of H1, which confirms that observed data is not different to the predicted. In the rest of the paper we summarize this argument by writing that the simulated data is not statistically different from the observed data (χ2=x, degree of freedom=y, p-value=z). As there is no large variability between simulated and observed data, the optimization step is not required and the model is considered as an accurate one.
Moving on to 2010, further simulations (100 simulations) are carried out in the Bio-PEPA plug-in. Figure 7 shows histograms of the state of individuals, who were detected as infected in 2010, after 180 days of treatment. The same Bio-PEPA model was used to carry out this simulation as for 2009, keeping the same rates. It is clearly shown that a large difference separates simulated data and observed data, particularly the Lost class (resp. Trt_comp class) where the gap is estimated at 9 individual (resp. 9 individual). Nevertheless, the Lost state draws more attention than the Trt_comp state as it was under-predicted. It is noted that the Lost state is significant in both 2009 and 2010. As shown in Figure 5 and 7, the lost state is the largest group after recovered. Additionally, in 2010 our Bio-PEPA model predicts that the lost state characterizes 12% of infected when in the observed data it characterizes 23% of infected. This difference may mislead decisions by the epidemiologist. This state means that the patients are still infected and could cause potential infection in the population in the following years.
Thus, the Bio-PEPA model is inaccurate for 2010. At this step, as discussed in section 3, the principle of modelling and simulation is to apply the optimisation step.
4.4. optimizationDeliberately, we apply manual optimisation first to better state its limitations and enhance the model with available information from either expert or literature. In this case, our expert observed the larger number of Lost in the observed data and proposed that the parameters may be adjusted. A series of experiments ranging over the flexible parameters: contact_ number and infection_period (see Table 2) show us that the results are insensitive to the balanced values of rates and converge to the same histograms in Figure 6. Therefore, what happened in 2010 that expert does not know? Which information is omitted from the simulated model? Which specific features could explain this large difference?
To refine the model and enrich the information given by the expert, data mining techniques are used. This process will not itself give a closer match to data, but it will explain what part of the population tends towards this lost state and helps us understand the underlying system. The model can then be revised accordingly.
WEKA (Waikato Environment for Knowledge Analysis, Hall et al., 2009) is a collection of machine learning algorithms for data mining tasks. WEKA contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes (Ou-yang et al., 2013).
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
80
In this study WEKA is used to carry out experiments. Table 4 summarises the range of data set used for each data mining experiment. For example, if we are predicting the year 2010 in Bio-PEPA then the range of data set used in WEKA is from 2008 to 2010. According to the steps depicted in the section 3, the corresponding results are discussed below:
4.4.1. Data Cleaning and Data TransformationBy using either manual process or WEKA algorithms, some of irrelevant variables were removed and some others were transformed. In sum nine of them were removed and one transformed:
• “ID, First name, Last name, RecStatus” are not relevant to our analysis, and then removed manually.
• “DiagnoTEP and Preuve” do not help in diagnosis, as they concern extra-pulmonary tuberculosis, where in our study we focus on disease which spreads. Therefore, only pulmonary tuberculosis is considered.
• As the last action leads to remove all extra-pulmonary tuberculosis records, the “Loc” attribute as well “DiagnoTP” are referring to the only pulmonary tuberculosis, where their values do not vary at all, hence there were considered useless by WEKA filter and then removed.
• “MalAsso” for which 99% of records are not reported, and then considered as useless by WEKA filter.
• As “Age” is defined by a large number of possible values ranging from 3 to 94, discretisation was applied to reduce this number, where ages were transformed to nine groups using WEKA filter.
That leaves 14 attributes which could be significant. These were input to the feature selection and classification algorithms as described in Section 3.
4.4.2. Feature Selection and ClassificationAs argued in section 3.2, the Attribute Subset Evaluator is more suitable for this field. To analyse the performance of our approach, we compared five attribute Subset Evaluators combined with eight classifier algorithms, where the feature set resulting from each feature selection algorithm is assigned as an input to each classifier. In addition, the classification process is based on separated training and test data, as our data are limited due to the cleaning step undertaken above, a k-fold cross-validation (k =5, 10, 20, 25) algorithm is pre-applied (Saeys et al., 2007; Witten, 2011). This splits training and test data in different ways, to ensure we are not overfitting to training data.
In total, WEKA (Hall et al., 2009) runs 160 (5*8*4) experiments. Although this number of experiments seems staggering, WEKA automates the process and much more, WEKA repeats the process N times to give mean accuracy and standard deviation value. Data mining relies on additional parameters of the algorithms. We carried out a series of preliminary experiments: our recommendation is that the default values for WEKA parameters are used. These depend on our data (e.g. minimum number of objects: 2, confidence factor: 0.25, pruning: true). Results showed that the best accuracy was performed by running 10 times k-fold cross-validation, with k = 25. Indeed, splitting our dataset on 25 folds enables the fine grained heterogeneity of our data to be explored.
4.4.3. ValidationAs identified in section 4.3, the lost state is the inaccurate part of our modelling; therefore, looking across our 160 experiments, we select classifiers reaching the highest class-wise accuracies particularly for the Lost state. In terms of feature selection algorithms, Filtered subset evaluator always provides the highest classification (for our data). In terms of classification algorithms, J48, J48Graft and LadTree algorithms reached the highest accuracy.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
81
The rules resulting from J48 and J48Graft are described below, where the condition expresses the pertinent attributes and the conclusion expresses the state of individual.
As can be observed, the features Bacil 1-3 and Daira are those pertinent features inducing the state of individual during treatment. Recall that the Lost state is the inaccurate part of our modelling, the conditions leading to the Lost state are the point of interest (see dashed rectangle in the rules above). Although this indicates Bacil 1-3 as a classifier, in fact Bacil 1-3 are used as the definition of Lost: if we fail to have all of these tests, then the subject is defined as lost. Therefore, these add no additional information either to the expert knowledge or how the higher number of Lost cases arise.
We conclude the model arising from J48 and J48Graft does not give useful information, and we consider the LadTree model, which has the next highest accuracy after J48 and J48Graft. The rules resulting from Ladtree algorithm, as seen below, produce a multi class in the conclusion of the rule with their predictive values rather one class as in J48 tree.
If (Bacil3= MM) Then(-1.16,4.217,-1.159,-1.158,0.415,-1.155)If (Bacil3 ≠ MM) Then(0.643,0.376,-0.197,-0.632,0.49,-0.68)| If (Bacil2 = MM) Then(-0.769,2.585,-0.696,-0.66,0.192,-0.652)| If (Bacil2 ≠ MM) Then(0.343,-0.628,0.297,-0.008,0.141,-0.144)| | If (Daira = Ain Tedles) Then(-0.59,0.64,-0.008,0.777,-0.237,-0.581)| | If (Daira = Kheireddine) Then(0.526,-0.647,0.199,-0.794,0.116,0.6)
The Ladtree is based on decision nodes and prediction nodes, where a decision node refers to conditions in the rules above, and a prediction node refer to conclusions. As the LadTree algorithm is well known as a multiclass decision tree, the conclusion is expressed by a vector of predictive values corresponding to each class. In our example the predictive values refer respectively to: Lost, Recovered, Failed, Died, Trt_comp, Transferred.
Recall that our aim is to filter the branch reaching to the Lost state. In LadTree, we follow all paths leading to the Lost state for which all decision nodes are true (the “true” refers to the positive values expressed between brackets in the above rules). By maximising the sums of all predictive values corresponding to each branch, the best classifier is then selected. In our example the strongest classifier leading to the Lost state was from maximising the values (0.643, 0.643+0.343, 0.643+0.343+0.526). This result leads us to conclude that the attribute “Daira” is the main factor arising to this classifier.
The aim of analysing these conditions is not to predict TB, but to detect, extract and understand what is common in general to all TB individuals described in the database and in particular those that are lost.
Table 5 shows the Ladtree algorithm results depicting the class-wise accuracy and confusion matrix for six classes, where columns denote the instances in a predicted class and rows denote the instances in an actual class. The Recovered class yields highest accuracy (0.978) followed by the Lost class (0.811). It is clear that LadTree algorithm successfully classified and identified patients who are lost after the end of treatment.
As the aim of this research is to find out the determining factors for being lost, Table 5 and described rules strengthen the usefulness of “Daira” attribute.
In fact, the rules described above mean that the lost individual, infected by pulmonary TB, for whom the smear test 2 and 3 are either positive or unavailable, has more chance to be located in Daira of Kheireddine than in Daira of AinTedles. This suggests that a more refined model structured
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
82
on Daira could be more consistent with observed data, by integrating the selecting rules to the initial Bio-PEPA model. The next section describes this step in detail.
4.4.4. Optimisation of Bio-PEPA ModelTwo stages are required prior to further simulation: restructuring the TB database according to the condition described in the last section, and updating Bio-PEPA model.
• Restructuring tuberculosis database: To make the TB database heterogeneous, it should be divided into two parts, those situated in Kheireddine and those situated in Ain Tedles.
• Updating Bio-PEPA model: As the main concepts of Bio-PEPA are: parameters, compartments, functional rate and species, updating the initial model requires us to update each one of these concepts.
Conveniently, Bio-PEPA allows species to be grouped in compartments. In the first model the compartment was based on one location “City”. Here, we split the “City” compartment into two sub-compartments corresponding to the Daira of interest which contains only two sub-locations: Kheireddine and Ain Tedles. The set of rates is essentially as before, but specialized to use only individuals and rules in the specified location from which the new values were calculated. These two distinguished compartments help us to follow each group separately in simulation. The full Bio-PEPA model is available online (Hamami, 2015).
The revised model can now be analysed using simulations (100 simulations, time period as before) and comparing to 2010 data to answer the questions: which part of the population makes the simulated model illustrated in Figure 6 different than the observed data? Further, which attribute is pertinent to conduct this analysis and detect the missing information?
Histograms in Figure 7 (resp. 8), illustrate comparison between simulated and observed data of individuals located at Ain Tedles (resp. Kheireddine), in 2010. As can be seen from Figure 7 (resp. Figure 8), the gap between simulated and observed data is more important for Lost individuals located in Kheireddine, than those located in Ain Tedles. By comparing them to the observed number of infected in each location, the gap for those located in Ain Tedles is 2% (with number of lost in simulated data 5 compared to 3 in observed data), and the gap for those located in Kheireddine is 30% (with number of lost in simulated data 5 compared to 15 in observed data). Figure 7 and 8 show clearly that the rest of classes matched well between observed and simulated data with insignificant differences. The observed data is statistically analysed at 5% significance level (with χ2 = 0.862, degree of freedom=2 and p-value = 0.650 for Ain Tedles and χ2=5.742, degree of freedom = 2, p-value = 0.057 for Kheireddine).
Further, this simulation explains that group located in Kheireddine is the cause of the discrepancy between simulated and observed data which involves that more information is required to correctly predict an epidemic state. In general, in our approach, data mining can be repeated to extract further information from the restructured dataset. For the TB example the data is limited - just 40 instances for Kheireddine location. No new information was issued except Bacil 1-3; and these are not useful. By using symbolic decision tree induction, we have refined the initial model and more tightly identified the problem area which helps the expert to undertake the next step, to further investigate this particular portion of population and collect additional useful knowledge. Revealing this direct relationship between location and the lost state will lead the expert to investigate the district of Kheireddine more closely, and make a better decision.
By identifying the specific problem area, it is clearer now why the manual optimisation undertaken in section 4.4 did not lead to a more accurate result. The population in the global model was homogeneous and well mixed, with only one global rate of infection. By re-estimating this rate, it is impossible for the initial model to estimate accurately those lost in Kheirddine without leading to an imperfection for those lost located in Ain Tedles, and vice-versa. By defining the rate of infection
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
83
for each location, the revaluation using the range values defined in Table 2 is more accurate for that location. Indeed, the optimisation considers rates (rate of infection and rate of lost) related to the lost state in Kheireddine Location without changing those at Ain Tedles location. It is worth noting that the major concern in those rates is actually increasing the contact rate within population of Kheireddine. The choice was argued both by the formula defining the rate of infection illustrated in Table 2 and the capability to re-evaluate formula parameters. As infection probability is estimated from our data, this leads to re-evaluate the contact rate, which was increased from 27 to 29 for 2010. Results for updated model of the year 2010 are illustrated in Figure 9. Our histograms show better results when comparing simulated data to observed data, as a consequence of increasing the related rates which were under-estimated. Furthermore, to assess the global perspective of the last results corresponding to Kheireddine location (Figure 9), they were merged to those corresponding to Ain Tedles location (Figure 7) and compared to the global observed data (histograms in the right side of Figure 6). The final histograms in Figure 10 show clearly the positive impact of optimisation on our Bio-PEPA results. Recall that simply changing the parameter values (without changing the structure of the model) is not sufficient. Our study highlights the utility of decision tree induction in uncovering relevant features in the data, but also the requirement to couple this with constant reassessment of parameter values to achieve robust modelling results. The key element is that both of these are strongly tied to the nature of the disease, and the data collected.
In order to emphasize the generalized capability of our approach, the same process and simulations, as done for 2010, are carried out in the Bio-PEPA plug-in, for both years 2011 and 2012 by considering them as blind data, to show the refined model fits other years.
To predict 2011 (resp. 2012), the same initial Bio-PEPA model was used to carry out this simulation as for 2009 and 2010 keeping the same species and functions and varying rates depending on information extracted from 2008, 2009 and 2010 (resp. From 2008 to 2011). As shown in Figure 11 the simulated model corresponds well to observed data. The histograms illustrate the state of individuals, who were detected as infected in 2011, after 180 days of treatment. The statistical analysis (χ2=1.550, degree of freedom = 3, p-value = 0.671) shows that the observed data is statistically similar to the simulated data at 5% significance level.
If (BACIL3 = NF)| If (BACIL2 = NF)| | If (BACIL1 = NF) Then Lost| | If (BACIL1 = MM) Then Recovered| | If (BACIL1 = MP)| | | If (DAIRA = AIN TEDLES) Then Failed| | | If (DAIRA = KHEIR EDDINE) Then Lost| | If (BACIL1 = MP+) Then Lost| If (BACIL2 = MM) Then Recovered| If (BACIL2 = MP+)Then TransferredIf (BACIL3 = MM) Then RecoveredIf (BACIL3 = MP) Then Failed
As for 2009, this simulation predicts well what happened in 2011, which leads us to strengthen our opinion that the Bio-PEPA model works well when epidemic knowledge is correctly stated. Contrariwise, for 2012 it is clearly shown in Figure 12 that only for the Lost state a large difference separates simulated data and observed data, as it is under-predicted. The same steps were undertaken, as it was done for 2010, to extract pertinent information from decision tree induction, thus the initial model is refined by integrating Daira attribute extracted from the resulting rules as shown above.
Results for the updated model are illustrated in Figure 13 (resp. 14). Histograms show comparison between simulated and observed data of individuals located at Ain Tedles (resp. Kheireddine), in 2012.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
84
As can be seen from these Figures, the gap between simulated and observed data is more important for Lost individuals located in Kheireddine than those located in Ain Tedles. By comparing them to the observed number of infected in each location, the gap for those located in Ain Tedles is 6% (with 5 lost in simulated data rather than 10 in observed data), and for those located in Kheireddine is 14% (with 4 lost in simulated data rather than 17 in observed data) (see Figure 14).
The refined model, enriched by Daira attribute, identified more specifically the area of difference with the data of 2012. That is, we have used the information of 2010 to create a model which corresponds for other years not considered in our data mining step. Independently, we applied decision tree induction for 2012 to confirm the use of the Daira attribute.
Results achieved by using the same set of feature selection algorithms combined with classification methods, define J48 algorithm as the most accurate by using 20-fold cross-validation. According to Table 6 depicting the class-wise accuracy and confusion matrix for six classes, the Recovered class yields higher (0.996) followed by Lost class (0.904). It is clear that J48 algorithm successfully classified and identified patients who are lost after the end of treatment. It is clear that J48 algorithm outperformed for the 2012 data comparing to the 2010 data.
As the aim of this research is to find out the determining factors for being lost, the rules defined above reveal the pertinent attributes resulting from use of the Filtered Subset Evaluator and J48 classifier.
It is clear that Daira attribute remains the most pertinent information extracted from tuberculosis dataset.
Further, based on assumptions made by the expert for 2010 concerning strong influence that the Lost state and Kheireddine location have on contact rate, the latter was increased from 27 to 30. The corresponding results are illustrated in Figure 15.
The analysed histograms validate the usefulness of increasing the related rates which were under-estimated.
We also performed the merging process between the last histograms depicting simulated data for Kheireddine location (Figure 15) and those for Ain tedles Location (Figure 13), with the aim of comparing the merged histograms to the global observed data (histograms in the right side of Figure 12).
The final histograms in Figure 16 show better fitting between simulated and observed data compared to the first model results.
These results strengthen our assumptions that the expert missed important information that could enrich our Bio-PEPA prediction for both years 2010 and 2012. It is clear that something happened in Kheireddine location during 2010 and 2012, leading to perform a specific optimisation for a specific part of population rather than refining parameters of the whole population. Even if, we succeed to achieve an accurate model comparing to the observed data, the expert should investigate more research to understand really what happened at Kheireddine location which leads to this group of lost. At that time, our model can be subject for further future predictions.
5. CoNCLUSIoN
In this paper we have presented results demonstrating the usefulness of combining data mining with Bio-PEPA modelling in the epidemiological field. We have done this by creating a framework in which data mining and Bio-PEPA modelling can be used together to better understand the mechanisms of detection and spread of epidemics, and by demonstrating its application to TB disease to identify influencing factors and their force. Thus we have met the objective set out at the beginning.
More specifically, we carried out a series of simulations to predict outbreaks in 2009, 2010, 2011 and 2012. The results showed that there is clearly variation between those different years. For 2009 and 2011, the initial prediction corresponded well to observed data, which means that all information used was sufficient to reproduce an accurate model. Conversely, for 2010 and 2012 the results showed
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
85
that the Bio-PEPA model ought to be enriched by new information (unknown by the expert). This is to be expected: variation within the system and unexpected future circumstances mean that the past is not always a good predictor of the future. However, using decision tree induction at this point helped to uncover which portion of the population should be subject to more investigation. This process was achieved by experimenting with eight decision tree classifiers combined with five feature selection algorithms, where the accuracy of classification reached to 76.41%. This rate is relatively low in data mining terms: this is due to our rather small, highly variable dataset. We therefore used accuracy enhanced by the true positive rate as a way of qualitatively identifying pertinent features to incorporate in our Bio-PEPA model. It is important to state that by analysing all dataset from 2008 to 2012 the accuracy was increased by 3%. In terms of feature selection algorithms and classifiers, the filtered subset evaluator yielded the highest accuracy for all classifiers where the best classifiers were Ladtree classifier for 2010 and J48 classifier for 2012. The results show that the most appropriate feature extracted is “Location”. This pertinent attribute leads to divide the Bio-PEPA model into two parts: “Kheireddine” location and “Ain tedles” location. It is clear that the Kheireddine location is the principal part of the model where the developer should parameterize parameters differently to the rest of the model. In addition, it suggests to the expert subareas and subsets he should explore to make the right decision.
The last step in this experiment, based on expert hypothesis, was to prove the influence of the Location attribute on the infection rate by inferring the number of contacts through experiments.
By comparing our analysis to other modelling and simulation works, as done by Aparicio and Castello-chavez (2009), when the simulated model does not fit with observed data, it is better to use pertinent parameters extracted from data mining than to select by inspiration. Aparicio and Castello-chavez (2009) argued in their last work, the importance of modelling age and its influence on the number of contacts. The parameters used for these attributes are drawn from a literature review. The question is: are those parameter values ranges the right ones? And are there other features more important than this one? For example, if the ranges of age groups resulting from expert analysis are not clustered correctly then significant and pertinent information will be hidden from the expert. As argued by Anderson and May (1991): “even if using a roughly flat age distribution in the host population had large impact on the force of infection for a specific period, this could be an unreasonable assumption for another period”. Further, in our study the age was among features defining TB data, but at no point was it depicted as the pertinent one by data mining. Through the use of decision tree induction, medical experts can detect relevant paths and even anomalies better than just human observation of datasets. By using Bio-PEPA modelling and simulation tools, we were able not only to validate the usefulness of extracting rules for the epidemiological study, but also to design the patterns which help to identify which, among a series of parameters, is the cause of an epidemic. By doing this, Bio-PEPA with symbolic induction decision tree aids the decision making of the epidemiologist.
In this study we proved the performance of using data mining at optimisation step in the existing computational model gaining on time and complexity.
This work is the first step in showing that data mining techniques generally can be used to support formal modelling. In future work we plan to optimise a selection of parameters affecting classifier performance and to carry out a large comparative study of all the data mining techniques, including association rules and clustering algorithms, as well as combining a set of classifiers, and their combination with our modelling approach. This will expand the range of measures used to select new content for our formal models. That is, rather than simply using accuracy rate (as here) as the principal measure to choose the best classifier, we can use information about clusters and associations to enhance the model.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
86
REFERENCES
Aguiar, F. S., Almeida, L. L., Ruffino-Netto, A., Kritski, A. L., Mello, F. C., & Werneck, G. L. (2012). Classification and regression tree (CART) model to predict pulmonary tuberculosis in hospitalized patients. BMC Pulmonary Medicine, 12(1), 40. doi:10.1186/1471-2466-12-40 PMID:22871182
Almeida, V. G., Borba, J., Pereira, H. C., Pereira, T., Correia, C., Pêgo, M., & Cardoso, J. (2014). Cardiovascular risk analysis by means of pulse morphology and clustering methodologies. Computer Methods and Programs in Biomedicine, 117(2), 257–266. doi:10.1016/j.cmpb.2014.06.010 PMID:25023535
Amouroux, e., taillandier, p., & drogoul, a. (2012). Complex environment representation out epidemiology abm: application on h5n1 propagatio. Tạp chí Khoa học và Công nghệ, 48(4).
Anderson, R. M., May, R. M., & Anderson, B. (1992). Infectious diseases of humans: dynamics and control (Vol. 28). Oxford: Oxford university press.
Aparicio, J. P., & Castillo-Chavez, C. (2009). Mathematical modelling of tuberculosis epidemics. Mathematical Biosciences and Engineering, 6(2), 209–237. doi:10.3934/mbe.2009.6.209 PMID:19364150
Atmani, B., & Beldjilali, B. (2012). Knowledge discovery in database: Induction graph and cellular automaton. Computing and Informatics, 26(2), 171–197.
Azar, A. T., Elshazly, H. I., Hassanien, A. E., & Elkorany, A. M. (2014). A random forest classifier for lymph diseases. Computer Methods and Programs in Biomedicine, 113(2), 465–473. doi:10.1016/j.cmpb.2013.11.004 PMID:24290902
Benkirane, S., Norman, R., Scott, E., & Shankland, C. (2012). Measles epidemics and PEPA: an exploration of historic disease dynamics using process algebra. In FM 2012: Formal Methods (pp. 101-115). Springer Berlin Heidelberg. doi:10.1007/978-3-642-32759-9_11
Blower, S. M., & Gerberding, J. L. (1998). Understanding, predicting and controlling the emergence of drug-resistant tuberculosis: A theoretical framework. Journal of Molecular Medicine, 76(9), 624–636. doi:10.1007/s001090050260 PMID:9725765
Bonmarin, I., Santa-Olalla, P., & Lévy-Bruhl, D. (2008). Modélisation de limpact de la vaccination sur lépidémiologie de la varicelle et du zona. Revue dEpidemiologie et de Sante Publique, 56(5), 323–331. doi:10.1016/j.respe.2008.07.087
Brieman, L., Friedman, J., Olshen, R., & Stone, C. (1984). Classification and regression trees. Monterrey, CA: Wadsworth & Brooks.
Carr, M., Ravi, V., Reddy, G. S., & Veranna, D. (2013). Machine Learning Techniques Applied to Profile Mobile Banking Users in India. International Journal of Information Systems in the Service Sector, 5(1), 82–92. doi:10.4018/jisss.2013010105
Ciocchetta, F., & Hillston, J. (2009). Bio-PEPA: A framework for the modelling and analysis of biological systems. Theoretical Computer Science, 410(33), 3065–3084. doi:10.1016/j.tcs.2009.02.037
Ciocchetta, F., & Hillston, J. (2009a). Bio-PEPA for epidemiological models. ENTCS, 261, 43–69.
de Espíndola, A. L., Bauch, C. T., Cabella, B. C. T., & Martinez, A. S. (2011). An agent-based computational model of the spread of tuberculosis. Journal of Statistical Mechanics, (05): P05003.
Debanne, S. M., Bielefeld, R. A., Cauthen, G. M., Daniel, T. M., & Rowland, D. Y. (2000). Multivariate Markovian modeling of tuberculosis: Forecast for the United States. Emerging Infectious Diseases, 6(2), 148–157. doi:10.3201/eid0602.000207 PMID:10756148
Delen, D., Walker, G., & Kadam, A. (2005). Predicting breast cancer survivability: A comparison of three data mining methods. Artificial Intelligence in Medicine, 34(2), 113–127. doi:10.1016/j.artmed.2004.07.002 PMID:15894176
Duguid, A., Gilmore, S., Guerriero, M. L., Hillston, J., & Loewe, L. (2009, December). Design and development of software tools for Bio-PEPA. Proceedings of theWinter Simulation Conference (pp. 956-967). Winter Simulation Conference. doi:10.1109/WSC.2009.5429725
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
87
Frost, W. H. (1995). The age selection of mortality from tuberculosis in successive decades. American Journal of Epidemiology, 141(1), 4–9. PMID:7801964
Geisweiller, N. (2006). EM-PEPA, A Software to Find the Most Likely Rates Inside a PEPA Model. Retrieved from http://empepa.sourceforge.net/
Gibert, K., Sanchez-Marre, M., & Codina, V. (2010). Choosing the right data mining technique: classification of methods and intelligent recommendation (Doctoral dissertation). International Environmental Modelling and Software Society.
Gibert, K., Spate, J., Sànchez-Marrè, M., Athanasiadis, I. N., & Comas, J. (2008). Chapter twelve data mining for environmental systems. Developments in Integrated Environmental Assessment, 3, 205–228. doi:10.1016/S1574-101X(08)00612-1
Goeyvaerts, N., Willem, L., Van Kerckhove, K., Vandendijck, Y., Hanquet, G., Beutels, P., & Hens, N. (2015). Estimating dynamic transmission model parameters for seasonal influenza by fitting to age and season-specific influenza-like illness incidence. Epidemics, 13, 1–9. doi:10.1016/j.epidem.2015.04.002 PMID:26616037
Gorunescu, F. (2011). Data Mining: Concepts, models and techniques (Vol. 12). Springer Science & Business Media. doi:10.1007/978-3-642-19721-5
Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157–1182.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, 11(1), 10-18.
Hall, M., Witten, I., & Frank, E. (2011). Data mining: Practical machine learning tools and techniques. Burlington: Kaufmann.
Hamami, D. (2015). URL Bio-PEPA code. Retrieved from http://www.cs.stir.ac.uk/~dha/
Hamami, D., & Atmani, B. (2012). Modeling the effect of vaccination on varicella using Bio-PEPA.Proc. of IASTED (pp. 783-077). doi:10.2316/P.2012.783-077
Hamami, D., & Atmani, B. (2013, April). Tuberculosis Modelling Using Bio-PEPA Approach. In Proceedings of World Academy of Science, Engineering and Technology (No. 76, p. 871). World Academy of Science, Engineering and Technology (WASET).
Hamami, D., & Atmani, B. (2014). From Simulated Model By Bio-PEPA to Narrative Language Through SBML. International Journal of Control Theory and Computer Modeling, 4(1/2), 27–43. doi:10.5121/ijctcm.2014.4203
Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques (2nd ed.). San Francisco: Morgan Kaufmann Publishers.
Holmes, G., Pfahringer, B., Kirkby, R., Frank, E., & Hall, M. (2002). Multiclass alternating decision trees. Proceedings of the Machine learning ECML ‘02 (pp. 161-172). Springer Berlin Heidelberg. doi:10.1007/3-540-36755-1_14
Inbarani, H. H., Azar, A. T., & Jothi, G. (2014). Supervised hybrid feature selection based on PSO and rough sets for medical diagnosis. Computer Methods and Programs in Biomedicine, 113(1), 175–185. doi:10.1016/j.cmpb.2013.10.007 PMID:24210167
Karegowda, A. G., Manjunath, A. S., & Jayaram, M. A. (2010). Comparative study of attribute selection using gain ratio and correlation based feature selection. International Journal of Information Technology and Knowledge Management, 2(2), 271–277.
Keeling, M. J., & Rohani, P. (2008). Modeling infectious diseases in humans and animals. Princeton University Press.
Kotu, V., & Deshpande, B. (2015). Data Mining Process Predictive Analytics and Data Mining. Morgan Kaufmann.
Krizmaric, M., Verlic, M., Stiglic, G., Grmec, S., & Kokol, P. (2009). Intelligent analysis in predicting outcome of out-of-hospital cardiac arrest. Computer Methods and Programs in Biomedicine, 95(2), S22–S32. doi:10.1016/j.cmpb.2009.02.013 PMID:19342117
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
88
Lanzas, C., & Chen, S. (2015). Complex system modelling for veterinary epidemiology. Preventive Veterinary Medicine, 118(2), 207–214. doi:10.1016/j.prevetmed.2014.09.012 PMID:25449734
Lavanya, D., & Rani, K. U. (2013). A Hybrid Approach to Improve Classification with Cascading of Data Mining Tasks. International Journal of Application or Innovation in Engineering Management, 2, 345–350.
López-Vallverdú, J. A., Riañ, O. D., & Bohada, J. A. (2012). Improving medical decision trees by combining relevant health-care criteria. Expert Systems with Applications, 39(14), 11782–11791. doi:10.1016/j.eswa.2012.04.073
Macaš, M., Lhotská, L., Bakstein, E., Novák, D., Wild, J., Sieger, T., & Jech, R. et al. (2012). Wrapper feature selection for small sample size data driven by complete error estimates. Computer Methods and Programs in Biomedicine, 108(1), 138–150. doi:10.1016/j.cmpb.2012.02.006 PMID:22472029
Mancini, M. (2014). Exploiting big data for improving healthcare services. Journal of e-Learning and Knowledge Society, 10(2).
Mantas, J. (2014). Machine learning for knowledge extraction from phr big data. Integrating Information Technology and Management for Quality of Care, 202, 36. PMID:25000009
Marco, D., Shankland, C., & Cairns, D. (2012, July). Evolving Bio-PEPA process algebra models using genetic programming.Proceedings of the 14th annual conference on Genetic and evolutionary computation (pp. 177-184). ACM. doi:10.1145/2330163.2330189
Maumus, S., Napoli, A., Szathmary, L., & Visvikis-Siest, S. (2005). Fouille de données biomédicales complexes: extraction de règles et de profils génétiques dans le cadre de l’étude du syndrome métabolique. In Journées Ouvertes Biologie Informatique Mathématiques JOBIM ‘05 (pp. 169-173).
Mitchell, T. (1997). Decision tree learning. In Machine Learning (Vol. 414, Ch. 3, pp. 52–78). The McGraw-Hill Companies, Inc.
Moualeu-Ngangue, D. P., Röblitz, S., Ehrig, R., & Deuflhard, P. (2015). Parameter Identification in a Tuberculosis Model for Cameroon. PLoS ONE, 10(4), e0120607. doi:10.1371/journal.pone.0120607 PMID:25874885
Moundalexis, M. L., & Nag, B. N. (2013). Decision making, dashboard displays, and human performance in service systems. International Journal of Information Systems in the Service Sector, 5(4), 32–46. doi:10.4018/ijisss.2013100103
Norman, R., & Shankland, C. (2003). Developing the use of process algebra in the derivation and analysis of mathematical models of infectious disease. In Computer Aided Systems Theory-EUROCAST 2003 (pp. 404–414). Springer Berlin Heidelberg. doi:10.1007/978-3-540-45210-2_37
Oaken, D. R. (2014). Optimisation of Definition Structures & Parameter Values in Process Algebra Models Using Evolutionary Computation.
Ou-Yang, C., Agustianty, S., & Wang, H. C. (2013). Developing a data mining approach to investigate association between physician prescription and patient outcome–A study on re-hospitalization in Stevens–Johnson Syndrome. Computer Methods and Programs in Biomedicine, 112(1), 84–91. doi:10.1016/j.cmpb.2013.07.004 PMID:23910224
Ozcaglar, C., Shabbeer, A., Vandenberg, S. L., Yener, B., & Bennett, K. P. (2012). Epidemiological models of Mycobacterium tuberculosis complex infections. Mathematical Biosciences, 236(2), 77–96. doi:10.1016/j.mbs.2012.02.003 PMID:22387570
Phyu, T. N. (2009, March). Survey of classification techniques in data mining. Proceedings of the International MultiConference of Engineers and Computer Scientists, 1, 18–20.
Piarroux, R., Barrais, R., Faucher, B., Haus, R., Piarroux, M., Gaudart, J., & Raoult, D. et al. (2011). Understanding the cholera epidemic, Haiti. Emerging Infectious Diseases, 17(7), 1161–1168. doi:10.3201/eid1707.110059 PMID:21762567
Prandi, D. (2010). Particle swarm optimization for stochastic process calculi.Proceedings of the 9th Workshop on Process Algebra and Stochastically Timed Activities (pp. 77-82).
Quinlan, J. (1993). C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann.
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
89
Saeys, Y., Inza, I., & Larrañaga, P. (2007). A review of feature selection techniques in bioinformatics. bioinformatics, 23(19), 2507-2517.
Sebban, M., Mokrousov, I., Rastogi, N., & Sola, C. (2002). A data-mining approach to spacer oligonucleotide typing of Mycobacterium tuberculosis. Bioinformatics (Oxford, England), 18(2), 235–243. doi:10.1093/bioinformatics/18.2.235 PMID:11847071
Shi, H. (2008). Best-first decision tree learning (Thesis). Citeseer, Hamilton.
Smitha, T., & Sundaram, V. (2012). Classification rules by decision tree for disease prediction. International Journal of Computers and Applications, 43, 35–37.
Tofts, C. (1993). Using process algebra to describe social insect behaviour. Transactions of the Society for Computer Simulation, 9(4), 227–283.
Venkatesan, P., & Yamuna, N. R. (2013). Treatment response classification in randomized clinical trials: A decision tree approach. Indian Journal of Science and Technology, 6(1), 3912–3917.
Vynnycky, E., & Fine, P. E. M. (1997). The natural history of tuberculosis: The implications of age-dependent risks of disease and the role of reinfection. Epidemiology and Infection, 119(02), 183–201. doi:10.1017/S0950268897007917 PMID:9363017
Wang, Z., Yan, R., Chen, Q., & Xing, R. (2012). Data mining in nonprofit organizations, government agencies, and other institutions. Advancing the Service Sector with Evolving Technologies: Techniques and Principles: Techniques and Principles, 208.
Weber, A., Weber, M., & Milligan, P. (2001). Modeling epidemics caused by respiratory syncytial virus (RSV). Mathematical Biosciences, 172(2), 95–113. doi:10.1016/S0025-5564(01)00066-9 PMID:11520501
Wolkewitz, M., & Schumacher, M. (2011). Simulating and analysing infectious disease data in a heterogeneous population with migration. Computer Methods and Programs in Biomedicine, 104(2), 29–36. doi:10.1016/j.cmpb.2010.05.007 PMID:20633950
World Health Organization (WHO). (2009). Tuberculosis. Retrieved from http://www.who.int/topics/tuberculosis/en/
Zhao, Y., & Zhang, Y. (2008). Comparison of decision tree methods for finding active objects. Advances in Space Research, 41(12), 1955–1959. doi:10.1016/j.asr.2007.07.020
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
90
APPENDIX
Figure 1. Bio-PEPA model component
Figure 2. Modelling and simulation process
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
91
Figure 3. Simplified tuberculosis model
Figure 4. Tuberculosis Bio-PEPA Model
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
92
Figure 5. Histograms for tuberculosis model for 2009
Figure 6. Histograms for tuberculosis model for 2010
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
93
Figure 7. Histograms for tuberculosis model for Ain Tedles 2010
Figure 8. Histograms for tuberculosis model for Kheireddine 2010
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
94
Figure 9. Updated tuberculosis model for Kheireddine Location 2010
Figure 10. Final Histograms for tuberculosis model for 2010
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
95
Figure 11. Histograms for tuberculosis model for 2011
Figure 12. Histograms for tuberculosis model for 2012
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
96
Figure 13. Histograms for tuberculosis model for Ain Tedles Location 2012
Figure 14. Histograms for tuberculosis model for Kheireddine Location 2012
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
97
Figure 15. Updated tuberculosis model for Kheireddine Location 2012
Figure 16. Final Histograms for tuberculosis model for 2012
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
98
Table 1. Attributes and description
Attributes Description
Attributes used in the study
Age Age of individual
Sexe Male / Female
Mois month of detection
Trim season of detection
Annee year of detecting disease
Com City
Daira municipality
adress Flat nimber, Zip code, etc.
Date_Debut_TRT Date of starting treatment
Typmal New/Relapse/Failure/Other
Bacil1, Bacil2, Bacil3
Baciloscopy1, Baciloscopy 2, Baciloscopy 3. MM: negative, MP: positive, known as microscopy for Bacilli, test performed during six months of treatment by using a microscope to detect bacteria of tuberculosis in sputum samples. This test is used to manage mycrobacterial infections of tuberculosis.
AretTRT State of patient at the end of treatment period: Lost: individual diagnosed but not treated, failed: treated but not recovered, Trt_comp: completed treatment without proving recovery, died, transferred: resistant TB, recovered.
Attributes not used in the study
ID, First name, Last name RecStatus Loc DiagnoTP DiagnoTEP Preuve MalAsso
Identifier, first name of patient, last name of patient national identity number pulmonary or Extra pulmonary tuberculosis Patient diagnosed as a pulmonary tuberculosis Patient diagnosed as extra-pulmonary tuberculosis Examination of Extra pulmonary tuberculosis Other disease related to the record
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
99
Table 2. Model Parameters
Parameter Description Value Formula
p Rate of developing active pulmonary tuberculosis from susceptible state
5.4 e-8 (Contact _ Number / Infection_Period)* Infection_Probability 1 (Keeling and Rohani, 2008).
θ 1 Transfer rate 0.1 e-3 (1/ Infection_Period) * Transfer _Probability1 (Keeling and Rohani, 2008).
θ 2 Failure rate 3.7 e-4 (1/ Infection_Period) * Failure_Probability
θ 3 Lost rate 8.5 e-3 (1/ Infection_Period)* Lost _Probability1
θ 4 Complete treatment rate 7.8 e-4 (1/ Infection_Period)* Treatment_completed_Probability
θ 5 Death rate 1.9 e-4 (1/ Infection_Period)* Death_Probability1
θ 6 Recovery rate 4 e-4 (1/ Infection_Period)* Recovery_Probability1
ηt Rate of recovered individual moving to susceptible state 1 All recovered move to Susceptible state.
ɳ1 Rate of failure state transiting to infected TP state 1 All failed move to Infected state
ɳ Rate of lost transferred to Infected state 1 All lost move to Infected state
Contact Number Contact with one infected case 27 Range over the interval [7,30]: possible freedom to vary these to fit observed data (Aparicio and Castillo-chavez, 2009)
Infection Period (month)
The period during which the virus can be transmitted 6 Range over the interval [6,24]: possible freedom to vary these to fit
observed data (Aparicio and Castillo-chavez, 2009)
1the probabilities are calculated from observed data.
Table 3. Description the uses of data by year in Bio-PEPA process
Year of prediction 2009 2010 2011 2012
Set of years used 2008 2008-2009 from 2008 to 2010 from 2008 to 2011
Table 4. Description the uses of data by year in data mining process
Year of prediction 2010 2012
Set of years used From 2008 to 2010 from 2008 to 2012
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
100
Table 5. Confusion matrix and class wise accuracy of Ladtree algorithm
Predicted classes
Class label Died Failed Recovered Lost Transferred Trt_comp
Died 0 0 1 7 0 0
Failed 0 0 2 10 0 4
Recovered 1 0 136 0 0 2
Lost 0 1 1 30 0 5
Transferred 0 0 1 3 2 0
Trt_comp 0 1 12 15 1 5
True positive rate 0 0 0.978 0.811 0.333 0.147
False Positive Rate 0.004 0.009 0.168 0.172 0.004 0.053
Table 6. Confusion matrix and class wise accuracy of j48 algorithm
Predicted classes
Class label Died Failed Recovered Lost Transferred Trt_comp
Died 0 0 1 11 1 0
Failed 0 5 4 10 0 0
Recovered 0 0 227 0 1 0
Lost 0 1 6 66 0 0
Transferred 0 1 1 2 3 0
Trt_comp 0 0 19 33 1 0
TP rate 0 0.005 0.996 0.904 0.429 0
FP Rate 0 0.263 0.188 0.175 0.008 0
International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017
101
Dalila Hamami is a PhD student at Computing Science Department, Oran University (Algeria) in collaboration with School of Natural Science, Stirling University (Stirling). She completed her Master’s in Computing science in 2007. Her research interests include modelling, simulation, data mining and optimization and decision support systems. She is currently assistant lecturer at Computing science and mathematics department, University of Abdelhamid Ibn Badis, Mostaganem, Algeria.
Baghdad Atmani is a professor of Computing Science at the University of Oran. His field of interests are Data Mining and Machine Learning Tools. His research is based on Knowledge Representation, Knowledge-based Systems and CBR, Data and Information Integration and Modelling, Data Mining Algorithms, Expert Systems and Decision Support Systems. His research is guided and evaluated through various applications in the field of control systems, scheduling, production, maintenance, information retrieval, simulation, data integration and spatial data mining.
Carron Shankland is a professor of Computing Science at the University of Stirling, and deputy head of the school of Natural Sciences. Her research lies in the intersection of computer science, mathematics and biology: understanding the behaviour of biological systems through mathematical and computational models. Her models (in process algebra) can describe systems at a high level of abstraction as networks of communicating individuals, scaling up to the emergent population dynamics. Her group has worked across a range of biological systems (disease dynamics, immunological systems, collective dynamics of cells, cell signaling response to cancer therapies) as well as in computer networks and protocols. In addition, her group is developing an exciting technique combining genetic programming with modelling to produce models directly from experimental data. Prof Shankland leads activities in the modelling and abstraction theme in the Scottish Computing community, and nationally co-leads the POEMS network linking modelling to healthcare technology.