DEPARTEMENT D'INFORMATIQUE THESE · sagesse pour laccomplissement de cette thèse. Je les remercie pour leurs encouragements et sacrifices. Un merci sans frontière à mes très chers

DEPARTEMENT D'INFORMATIQUE

THESE

Présentée par

HAM AMI Dal i la

Pour obtenir

LE DIPLOME DE DOCTORAT EN SCIENCES

Filière: Informatique

Spécialité: Informatique

Soutenue le : / /2017

Devant les membres du jury :

Directeur de thèse : Mr B. ATMANI Professeur à l’Université d’Oran 1, Ahmed Ben Bella

Président : Mr B. BELDJILALI Professeur à l’Université d’Oran 1, Ahmed Ben Bella

Examinateur : Mr H. HAFFAF Professeur à l’Université d’Oran 1, Ahmed Ben Bella

Examinateur : Mr A. RAHMOUN Professeur à l’Université de Sidi Bellabas

Examinateur : Mme H. FIZAZI Professeur à l’Université des Sciences et de la Technologie d'Oran

Examinatrice : Mr M. BENYETTOU Professeur à l’Université des Sciences et de la Technologie d'Oran

PERFORMANCE DU TRAITEMENT DES EPIDEMIOLOGIES PAR

EFFETS DE SIMULATION ET DATA MINING

Thèse effectuée au sein du Laboratoire d’Informatique d’Oran

Équipe de recherche « Apprentissage automatique, Intelligence artificielle et Raisonnement :

AIR»

De l’Université Ahmed Ben Bella Oran 1

Oran

Algérie

Résumé

La modélisation et simulation ont émergé comme outils de base pour le suivi

épidémiologique, la prévention et la prise de décision. Cependant, concevoir un modèle

prédictif optimal est une tâche des plus complexes. En effet, les systèmes épidémiologiques

ont la particularité d’être décrits par un ensemble massif de composants en interaction

continue et dont le comportement est dynamique et complexe. Ce qui engendre une quantité

de données et de connaissances qu’il est impossible à l’être humain d’en extraire les éléments

clés. Ainsi, identifier les structures appropriées et les paramètres déterminants reste à ce jour,

un facteur majeur de confusion pour les épidémiologistes et les modélisateurs.

Dans ce contexte de données épidémiologiques larges et souvent bruitées, la fouille de

données se trouvent être des techniques effectives pour l’extraction de connaissances

pertinentes.

Nous présentons dans cette thèse une approche de conception des modèles prédictifs

optimaux en utilisant conjointement : les outils de modélisation et simulation et les

techniques de fouille de données. Notre travail est principalement guidé par : la modélisation

et la simulation par les algèbres des processus, Bio-PEPA ; la fouille de données par les arbres

de décisions, les règles d’association et la segmentation. Notre approche s’applique à deux

exemples épidémiques réels : la tuberculose en Algérie et les oreillons en Grande Bretagne.

Mots clés : Modélisation et Simulation, Fouille de Données, Optimisation, Epidémiologie

Humaine

Abstract

Modeling and simulation emerged as major tools for epidemiological monitoring, prevention

and making decision. However, achieving an optimal model is a tedious and complex task.

Indeed, epidemiological systems are described by a massive set of components in continuous

interaction for which the behavior is dynamic and complex. Thus, leading to data and

knowledge for which human cannot deal. Thereby, identifying an appropriate model

structures and determinants parameters remain as confusion factor for epidemiologists and

developers.

In this context of large and noisy epidemiological data, data mining provides effective

methods for finding pertinent knowledge.

In this thesis, we propose an approach for optimal epidemiological modelsby using jointly:

modeling and simulation tools and data mining methods. Our work is mainly guided by:

process algebra modeling and simulation, Bio-PEPA; Decision tree, association rules and

clustering mining. The approach is demonstrated using two real epidemiological examples:

Tuberculosis in Algeria and mumps in United Kingdom.

Keywords: Modeling and Simulation, Data Mining, Optimizing, Human Epidemiology.

REMERCIEMENTS

Cette thèse de doctorat a été réalisée au Laboratoire d’Informatique Oran (LIO), rattaché à

l’université Ahmed Benbella Oran1, en collaboration avec le laboratoire de Modélisation et

Analyse des Systèmes Complexes (MACS : Modelling and Analysis of Complex Systems) de

l’université de Stirling, Scotland.

Je voudrais remercier ici toutes les personnes qui ont contribuées, de près ou de loin, à

l’accomplissement de se travail de recherche.

En premier lieu, mes remerciements vont au Professeur Baghdad Atmani qui a accepté de

diriger ce travail . Tout au long de ces années, il a su me guider et m’enrichir avec ses

connaissances constructives et hautement qualifiées. Son soutien et ses encouragements

m’ont apporté énormément. Le Professeur Atmani a suscité mes intérêts pour mener des

recherches innovatrices et m'a mis au défi de faire de mon mieux.

Je remercie également Professeur Carron Shankland de l’université de Stirling pour ses

conseils continus, son inspiration, ses commentaires perspicaces et son soutien ainsi que sa

patience tout au long de cette recherche. Je lui suis profondément reconnaissante.

C’est avec beaucoup de reconnaissance que je remercie les membres du Jury : Mme H. Fizazi

et Messieurs B. Beldjilali, H. Haffaf, A. Rahmoun et M. Benyettou, pour avoir pris le temps

de lire avec attention ma thèse et pour leurs remarques pertinentes et constructives.

A un niveau personnel, je remercie mes deux raisons de vivre, mon adorable petit garçon

Zakaria ainsi que mon cher et tendre époux Khalid, qui se sont armés de patience et de

sagesse pour l’accomplissement de cette thèse. Je les remercie pour leurs encouragements et

sacrifices.

Un merci sans frontière à mes très chers parents pour leur soutien, aide et encouragement,

qu’ils trouvent ici l’expression de ma gratitude.

Merci à tous les membres de ma famille, frères, beaux frères, belles sœurs et beaux parents.

J'aimerais également exprimer mes sincères remerciements à Mr Said Assous pour la lecture

de cette thèse dans un délai très court et pour tous ses conseils.

Je remercie mes collègues, de l’université de Mostaganem, qui ont de près ou de loin, permis

l’avancement de mes travaux.

Et pour finir merci à mes amies, Asma Assous et Lynn Reilly. A tous ceux et celles que je

n’ai pas cité et qui ont apporté un plus à cette thèse.

Table des matières

Introduction générale ........................................................................................................................ 1

Contexte et problématique de la thèse ........................................................................................ 1

Contributions ................................................................................................................................. 3

Structure de la thèse ...................................................................................................................... 5

Chapitre 1 : Modélisation épidémiologique ..................................................................................7

1.1 Introduction .............................................................................................................................8

1.2 Modélisation et simulation ....................................................................................................8

1.2.1 Modèle computationnel ............................................................................................9

1.2.2 Caractéristiques d’un modèle ...................................................................................9

1.2.3 Processus de modélisation ....................................................................................... 9

1.3 Epidémiologie humaine ...................................................................................................... 10

1.3.1 Définition ................................................................................................................. 10

1.3.2 Facteurs épidémiologiques .................................................................................... 10

1.3.3 Mode de transmission ............................................................................................ 10

1.4 Modèles épidémiques ......................................................................................................... 11

1.4.1 Terminologies ......................................................................................................... 11

1.4.2 Objectifs d’un modèle épidémique ...................................................................... 12

1.4.3 Structure du modèle épidémiologique ................................................................. 13

1.4.4 Classification des modèles .................................................................................... 14

1.4.5 Modèle à compartiments ....................................................................................... 14

1.4.5.1 Le modèle SIR....................................................................................... 14

1.4.5.2 Variantes du modèle SIR ...................................................................... 15

1.5 Etat de l’art des travaux de modélisation épidémiologique ........................................... 15

1.5.1 Modèle à base d’EDO (Equation Différentielle Ordinaire) ............................. 17

1.5.2 Modélisation par automates cellulaires ............................................................... 18

1.5.3 Modèle à base d’agents/centré individu .............................................................. 19

1.5.4 Modélisation par les algèbres des processus ....................................................... 21

1.6 La modélisation par Bio-PEPA ......................................................................................... 23

1.6.1 Définition ................................................................................................................. 23

1.6.2 Définition formelle ................................................................................................. 24

1.6.3 Sémantique structurelle de Bio-PEPA ................................................................. 24

1.6.4 Exemple ................................................................................................................... 26

1.6.5 Analyse du modèle épidémique par Bio-PEPA .................................................. 26

1.7 Synthèse des méthodes de modélisation .......................................................................... 26

1.8 Conclusion .............................................................................................................................. 27

Chapitre 2 : Optimisation des modèles épidémiologiques

2.1 Introduction ................................................................................................................. 29

2.2 Vérification des modèles épidémiologiques ................................................................ 30

2.2.1 Définition ......................................................................................................... 30

2.2.2 Techniques de vérification des modèles ........................................................... 30

2.3 Optimisation des modèles computationnels ................................................................ 32

2.3.1 Définition ........................................................................................................ 32

2.3.2 Méthodes d’optimisation .................................................................................. 32

2.4 Optimisation des modèles épidémiologiques : Etat de l’art ......................................... 33

2.4.1 Optimisation paramétrique ............................................................................... 33

2.4.2 Optimisation structurelle .................................................................................. 35

2.5 Discussion et conclusion .............................................................................................. 37

Chapitre 3 : La fouille de données pour l’épidémiologie humaine

3.1 Introduction ................................................................................................................. 39

3.2 Processus d’extraction des connaissances ................................................................... 39

3.2.1 Prétraitement des données ................................................................................ 39

3.2.2 Fouille de données ........................................................................................... 43

3.2.3 Evaluation et interprétation .............................................................................. 46

3.3 Synthèse de l’application de la fouille de données en épidémiologie .......................... 48

3.3.1 Classification ............................................................................................................. 49

3.3.2 Régression ........................................................................................................ 50

3.3.3 Segmentation ............................................................................................................. 50

3.3.4 Règles d’association ......................................................................................... 50

3.4 Fouille de données pour la modélisation épidémiologique .......................................... 51

3.4.1 Travaux connexes ................................................................................................ 51

3.4.2 Optimisation des modèles computationnels par la fouille de données ................ 52

3.5 Conclusion .................................................................................................................... 53

Chapitre 4 : Modélisation et simulation par les algèbres des processus : Bio-PEPA

4.1 Introduction ............................................................................................................ 55

4.2 Modélisation par Bio-PEPA ................................................................................... 55 4.2.1 Interaction expert\modélisateur ............................................................ 57 4.2.2 Conception du modèle formel .............................................................. 57

4.2.3 Simulation et analyse ........................................................................... 58 4.3 Optimisation du modèle ......................................................................................... 59 4.4 Vérification par langage narratif ............................................................................ 60

4.4.1 Langage narratif ................................................................................... 61

4.4.2 System Biological Markup Language (SBML) .................................. 62 4.4.3 Du modèle Bio-PEPA au modèle narratif ............................................ 64

4.5 Modélisation de la tuberculose ............................................................................... 65 4.5.1 La tuberculose ...................................................................................... 67

4.5.2 Modèle de la tuberculose ...................................................................... 67

4.5.3 Le modèle Bio-PEPA ........................................................................... 68

4.5.4 Simulation par Bio-PEPA et résultats .................................................. 70 4.6 Validation du modèle Bio-PEPA par langage narratif ........................................... 73 4.7 Conclusion .............................................................................................................. 76

Chapitre 5 : Fouille de données pour l’optimisation des modèles épidémiologique :

Application à la tuberculose

5.1 Introduction ........................................................................................................... 78

5.2 Optimisation par fouille de données ..................................................................... 78

5.3 Modélisation de la tuberculose : Cas de l’Algérie................................................. 82

5.3.1 Situation épidémique en Algérie ........................................................... 82

5.3.2 Modélisation de la tuberculose par Bio-PEPA ..................................... 85

5.3.3 Processus d’optimisation par classification .......................................... 93

5.3.3.1 Prétraitement des données ........................................................ 94

5.3.3.2 Sélection des attributs ............................................................... 96

5.3.3.3 Classification ............................................................................ 98

5.3.3.4 Evaluation et interprétation .................................................... 100

5.3.3.5 Optimisation du modèle .......................................................... 104

5.3.3.6 Simulation et analyse .............................................................. 107

5.3.4 Généralisation de l’approche par des données additionnelles ........... 111

5.3.4.1 Prétraitement ........................................................................... 111

5.3.4.2 Sélection des attributs ............................................................. 111

5.3.4.3 Classification par arbre de décision ........................................ 112

5.3.4.4 Evaluation et interprétation .................................................... 112


5.3.4.6 Simulation et analyse .............................................................. 114

5.3.5 Optimisation par règles d’association ................................................. 118

5.3.5.1 Génération de règles ................................................................ 118

5.3.5.2 Evaluation et interprétation des règles générées ..................... 120


5.4 Conclusion ........................................................................................................... 127

Chapitre 6 : Fouille de données pour l’optimisation des modèles épidémiologique :

Application aux Oreillons

6.1 Introduction ......................................................................................................... 129

6.2 Optimisation par fouille de données .................................................................... 129

6.3 Modélisation des oreillons en Grande Bretagne (Ecosse) .................................. 131

6.3.1 Situation épidémique en Ecosse ......................................................... 131

6.3.2 Modélisation de l’épidémie des oreillons ........................................... 132

6.3.3 Analyse de sensibilité ......................................................................... 141

6.3.4 Processus d’optimisation par fouille de données ................................ 143

6.3.4.1 Prétraitement des données ....................................................... 145

6.3.4.2 Sélection des attributs ............................................................. 146

6.3.4.3 Optimisation par règles d’association ..................................... 146

6.3.4.4 Evaluation et interprétation des règles extraites ..................... 147

6.3.4.5 Optimisation par segmentation ............................................... 149

6.3.4.6 Evaluation et interprétation des segments ............................... 151

6.4 Conclusion ................................................................................................ 158

Conclusion générale et perspectives ................................................................................... 160

Annexes A ............................................................................................................................. 164

Liste des Figures Figure 1.1 Modèles à compartiments .................................................................................................................. 144

Figure 1.2 Publications relatives aux termes "Modelling, Infectious Diseases" dans Web Of Science. ............. 166

Figure 1.3 Sémantique structurelle de Bio-PEPA ............................................................................................... 255

Figure 1.4 Modèle SEIR en Bio-PEPA ........................................................................... Erreur ! Signet non défini.

Figure 4.1 Optimisation des modèles épidémiologiques : Structure Générale ...................................................... 56

Figure 4.2 Composants d’un modèle SBML ......................................................................................................... 63

Figure 4.3 Modèle à compartiments de la tuberculose .......................................................................................... 66

Figure 4.4 Evolution de la tuberculose sans traitement. a) Modèle à base d’agents (2011) ; b) Modèle Bio-PEPA

...................................................................................................................................................................... 71

Figure 4.5 Evolution de la tuberculose sous application du traitement après 200 ans. ......................................... 72

Figure 4.6 Analyseur Bio-PEPA. a) Chargement du modèle SBML de Bio-PEPA. b) analyse des composants.

C) Rapport des composants sélectionnés. ..................................................................................................... 74

Figure 4.7 Résultats de simulation du modèle Bio-PEPA avec omission ............................................................. 75

Figure 4.8 Résultats d’analyse du modèle Bio-PEPA avec omission ................................................................... 76

Figure 5.1 Optimisation des modèles épidémiologiques : Structure Générale ...................................................... 79

Figure 5.2 Incidence de la tuberculose dans le monde (OMS, 2016) .................................................................... 83

Figure 5.3 Mortalité due à la tuberculose dans le monde (OMS, 2016) ................................................................ 84

Figure 5.4 Modèle à compartiments de la tuberculose .......................................................................................... 86

Figure 5.5 Modèle de la tuberculose en BIO-PEPA.............................................................................................. 87

Figure 5.6 Modèle de la tuberculose pour l’année 2009 ....................................................................................... 90

Figure 5.7 Modèle de la tuberculose pour l’année 2010 ...................................................................................... 91

Figure 5.8 Extrait de règles du modèle Bio-PEPA 2010 de « Analyseur Bio-PEPA ».............................................. 91

Figure 5.9 Arbre de décision J48/J48Graft ......................................................................................................... 101

Figure 5.10 Règles déduites de l’arbre J48 ......................................................................................................... 102

Figure 5.11 Règles déduites de l’algorithme LadTree ........................................................................................ 103

Figure 5.12 Modèle de la tuberculose pour la Daira Ain Tedles 2010 ................................................................ 107

Figure 5.13 Modèle de la tuberculose pour la Daira Kheireddine 2010 .............................................................. 107

Figure 5.14 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2010 ................................................ 110

Figure 5.15 Modèle final de la tuberculose pour l’année 2010 ........................................................................... 110

Figure 5.16 Modèle de la tuberculose pour l’année 2011 ................................................................................... 110

Figure 5.17 Modèle de la tuberculose pour l’année 2012 ................................................................................... 110

Figure 5.18 Modèle de la tuberculose pour la Daira Ain Tedles 2012 ................................................................ 115

Figure 5.19 Modèle de la tuberculose pour la Daira Kheireddine 2012 .............................................................. 116

Figure 5.20 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2012 ................................................ 116

Figure 5.21 Modèle final de la tuberculose pour l’année 2012 ........................................................................... 116

Figure 5.22 Histogrammes pour la tuberculose par Sexe (Série 1- 2010) ........................................................... 124

Figure 5.23 Histogrammes pour la tuberculose par Com (Série 1- 2010) ........................................................... 125

Figure 5.24 Histogrammes pour la tuberculose par TYPMAL (Série 2- 2012) .................................................. 126

Figure 5.25 Histogrammes pour la tuberculose par : Daira, Sex et COM. (Série 1- 2010) ................................. 126

Figure 5.26 Histogrammes pour la tuberculosis par : Daira et TYPMAL. (Série 2- 2012) ................................. 126

Figure 6.1 Optimisation des modèles épidémiologiques : Structure Générale .................................................... 130

Figure 6.2 Cas confirmés des oreillons, Ecosse 1988-2015 et la couverture vaccinale ROR. ............................ 131

Figure 6.3 Cas confirmés des oreillons, Ecosse 2004 – 2015, Distribution par âge. ........................................... 132

Figure 6.4 Modèle à compartiments des oreillons ............................................................................................. 132

Figure 6.5 Les oreillons en Angleterre et Pays de Gales ..................................................................................... 138

Figure 6.6 Prédiction de l’incidence des oreillons 139

Figure 6.7 Période inter-épidémique versus taux reproductive de base R0, ère pré-vaccinale ........................... 140

Figure 6.8 Graphes de simulation pour [19, 24] ......................................................................................... 154

Figure 6.9 Graphes des résultats de simulations relatives aux résultats de segmentation par l’algorithme sIB .. 155

Figure 6.10 Graphes des résultats de simulation relatives aux résultats de segmentation par l’algorithme K-means

.................................................................................................................................................................... 156

Figure 6.11 Prédiction de l’incidence des oreillons en Ecosse de l’année 2004 à 2015...................................... 157

Figure 6.12 Extension des Prédictions de l’incidence des oreillons en Ecosse à 2016 ....................................... 158

Liste des Tableaux Tableau 3.1 Matrice de confusion ......................................................................................................................... 47

Tableau 4.1 Liste des interactions dans un langage narratif .................................................................................. 62

Tableau 4.2 Composants Bio-PEPA vs langage narratif vs SBML ...................................................................... 62

Tableau 4.3 Paramètres du modèle (extraits de DeEspindola (2011)) .................................................................. 66

Tableau 5.1 Incidence de la tuberculose en Algérie (taux pour 100000) .............................................................. 84

Tableau 5.2 Paramètres du modèle ....................................................................................................................... 88

Tableau 5.3 Année de prédiction vs ensemble de données ................................................................................... 90

Tableau 5.4 Les attributs de la base de données de la tuberculose ........................................................................ 94

Tableau 5.5 Algorithmes de sélection des attributs (Witten et al., 2011) .............................................................. 97

Tableau 5.6 Méthodes de recherché pour la sélection des attributs (Witten et al., 2011) ..................................... 97

Tableau 5.7 Les algorithmes de classification (arbres de décision) (Witten et al., 2011) ..................................... 99

Tableau 5.8 Matrice de confusion et exactitude des classes référentielles de l’algorithme J48/J48Graft ........... 101

Tableau 5.9 Matrice de confusion et exactitude des classes référentielles de l’algorithme Ladtree ................... 104

Tableau 5.10 Matrice de confusion et exactitude des classes référentielles de l’algorithme J48 ........................ 113

Tableau 5.11 Récapitulatif des paramètres du modèle de la tuberculose optimisé (2010 et 2012) ..................... 117

Tableau 5.12 Les algorithmes de règles d’association (Witten et al., 2011) ....................................................... 117

Tableau 5.13 Expérimentations Série 1- Règles extraites de : Apriori, Predictive Apriori and Tertius .............. 120

Tableau 5.14 Expérimentations Série 2 - Règles extraites de: Apriori, Predictive Apriori and Tertius .............. 122

Tableau 5.15 Attributs pertinents. ....................................................................................................................... 122

Tableau 5.16 Attributs et modalités sélectionnés ................................................................................................ 123

Tableau 6.1 Paramètres du modèle des oreillons ................................................................................................ 134

Tableau 6.2 Analyse sensitive ............................................................................................................................. 141

Tableau 6.3 les attributs de la base de données des oreillons .............................................................................. 145

Tableau 6.4 Règles extraites des algorithmes: Apriori, Predictive Apriori and Tertius ...................................... 147

Tableau 6.5 Algorithmes de segmentation (Witten et al., 2011) ......................................................................... 150

Tableau 6.6 Valeurs expérimentales des paramètres ........................................................................................... 151

Tableau 6.7 Résultats de segmentation ............................................................................................................... 152

Tableau 6.8 Échantillon des résultats de segmentation par K-means .................................................................. 152

Tableau A.1 Descripteurs sélectionnés pour la base de données de la tuberculose .............................................. 164

Tableau A.2 Echantillon de la base de données de la tuberculose après prétraitement et sélection ..................... 166

Tableau A.3 Résultats des expérimentations par arbres de décision .................................................................... 167

Tableau A.4 Descripteurs sélectionnés pour la base de données de la tuberculose .............................................. 170

Tableau A.5 Résultats des expérimentations par arbres de décision .................................................................... 172

Liste des Abréviation AC Automate Cellulaire

AP Algèbres des Processus

ARFF Attribute-Relation File Format

Bio-PEPA Biochemical Performance Evaluation Process Algebra

CCS Calculus of Communicating Systems

CSV Comma-separated values

CTMC Continu time Markovian Chain

ECD Extraction des Connaissances à partir de bases de Données

ECG ElectroCardioGraphie

EDO Equation différentielle Ordinaire

FN False Negative rate

FP False Positive rate

HPS Health Protection Scotland

INSP Institut National de la Santé Publique

KDD Knowledge Discovery in Data bases

OMS Organisation Mondiale de la Santé

PEPA Performance Evaluation Process Algebra

PMI Protection Maternelle et Infantile

PRISM PRobabilistic Symbolic Model checker

ROC Receiver Operator Characteristic test

ROR Rougeole Oreillons Rubéole

SBML System biology Markup Language

SBSI Systems Biology Software Infrastructure

SRAS Syndrome Respiratoire Aigu Sévère

SVM Support Vector Machine

TN True Negative rate

TP True Positive rate

WEKA Waikato Environment for Knowledge Analysis

WHO World Health Organization

WSCCS Weighted Synchronous Calculus of Communicating Systems

XML Extensible Markup Language

Introduction Générale

Dans la présente introduction, nous exposons le contexte de ce travail de thèse en mettant

l’accent sur l’impact d’un modèle computationnel sur le suivi épidémiologique. Dans ce

contexte, nous détaillons la problématique abordée ainsi que les contributions liées aux choix

des techniques utilisées et des approches abordées dans ce présent travail de recherche.

Notre thèse a été développé dans le cadre d'une collaboration entre l’équipe de recherche AIR

« Apprentissage automatique, Intelligence artificielle et Raisonnement » du laboratoire LIO «

Laboratoire d’Informatique d’Oran » et l'équipe du laboratoire de Modélisation et Analyse

des Systèmes Complexes (MACS : Modelling and Analysis of Complex Systems) de

l’université de Stirling, Scotland.

Nous avons développé la problématique de notre travail autour d’un projet de recherche

CNEPRU B*01820120086 où il était question de mettre en place une Approche Spatiale pour

une Surveillance Epidémiologique Centrée Ontologie Médicale (Biosif II). Notre contribution

se focalise, essentiellement sur la modélisation, la simulation et l’optimisation

épidémiologique par fouille de données.

Contexte et problématique

La modélisation et la simulation ont largement contribués dans l’évolution et la

compréhension des systèmes épidémiques, ils s’avèrent être d’une aide très précieuse, dans le

sens où ils permettent de converger vers des modèles reproductifs de la réalité et envisager à

faible coût des schémas nouveaux et ainsi compléter les manques d’observation et d’analyse.

En effet, bien que les maladies infectieuses ne cessent d’exister, elles sont confrontées aux

modèles simulables qui eux ne cessent d’évoluer. Dans cet optique, plusieurs études ont été

conduites, Anderson and May (1991), Weber et al. (2001), Keeling and Rohani (2008),

Amouroux et al. (2008), Hamami et Atmani (2013) et Hamami et al (2017). De tels modèles

sont indispensables à la compréhension de la physiopathologie des épidémies et de leur

propagation, permettant ainsi aux secteurs sanitaires d’entreprendre des stratégies de contrôle

et de prévention.

Pour n’importe quel modèle simulable, le principal objectif est de produire une représentation

fidèle à la réalité et une prédiction optimale des épidémies. Toutefois, saisir la nature variable,

dynamique et complexe de la propagation de la maladie, tel que noté par Anderson et May

(1991): “the real world is undeniably replete with many complications; economic and social

as well as biological”, dépends fortement du processus de modélisation et d’optimisation régit

par l’échange interactif entre experts et développeurs.

Il est vrai qu’actuellement le processus de modélisation est étroitement lié à l’expérience de

l’expert et du développeur, où le degré d’inspiration et de suppositions de ces derniers

influencent grandement la structure du modèle à réaliser, ses paramètres et leur estimation. En

effet le degré de certitude du modèle conçu est étroitement lié au degré de connaissances

perçues par l’expert et le développeur. Ce point de vue, aussi confirmé par Keeling et Rohani

(2008): “The feasibility of model complexity is compromised by computational power, the

mechanistic understanding of disease natural history, and the availability of necessary

parameters. Consequently, the accuracy of any model is always limited”, nous amène à


2

argumenter que le fait de concevoir un modèle épidémiologique fondé uniquement sur des

hypothèses et des suppositions de l’expert et le développeur, décroit sa fiabilité et sa validité.

Ces modèles sont généralement décrits comme modèles incertains. Tel est le cas

principalement, quand le modèle conçu est dépendant des connaissances inconnues ou

impossibles à acquérir par une simple analyse humaine telle que l’expert. Ou encore quand

l’étude de la distribution de la maladie et l’identification de ses déterminants se rapportent à

l’identification des causes, qui restent à ce jour la caractéristique la plus dominante et la plus

difficile à cerner des plus célèbres épisodes de l’épidémiologie. En effet, à ce jour

l’épidémiologiste se base sur des études observationnelles et une série d’expérimentations,

afin d’établir la relation cause-à-effet, processus qui peut être couteux, difficile, voire

impossible à réaliser.

Dans ce contexte de conception de modèles cohérents avec la réalité, de réels sujets de

préoccupation concernent aujourd’hui la mise en œuvre d’outils et de techniques pour mieux

appréhender les modèles épidémiologiques incertains et se prémunir autant que possible

contre d’éventuelles connaissances rapportées ou omises par les épidémiologistes. Afin de

répondre au mieux à ces besoins, plusieurs travaux ont adopté des méthodes d’analyse, leur

permettant d’évaluer le degré de certitude et de validité de leur modèle ainsi que d’évaluer le

degré d’influence des paramètres ou des variables d’entrées du modèle sur ses sorties. Ce

processus baptisé : Optimisation des modèles simulables, est considéré aujourd’hui comme

étant une étape incluse dans le processus de modélisation.

L’optimisation a largement évolué ces dernières décennies, allant de la simple réévaluation

des paramètres du modèle à l’optimisation de sa structure. Bien que ces techniques

d’optimisation paramétrique et structurelle ont permis de raffiner l’espace des valeurs des

paramètres et les différentes structures existantes, toutefois, elles ne se basent que sur

l’existant. Autrement dit, d’une part les valeurs soumises à l’optimisation ne sont extraites que

d’un intervalle initialement bien défini par l’expert ou bien résumées de l’ensemble des

travaux existants. D’une autre part, les structures sélectionnées par les modélisateurs sont

soient proposées par les experts ou bien extraites des expériences épidémiologiques

ultérieures. Ainsi, ces approches et techniques d’optimisation ne permettent pas de rappeler

aux développeurs et épidémiologistes le cas d’une omission ou d’une ignorance, ou encore

d’intégrer dans le modèle les nouveaux facteurs qu’une épidémie peut exprimer.

Dans cette optique d’étude vouée à l’optimisation des modèles simulables par les algèbres des

processus en outre Bio-PEPA (Biochemical Preformance Evaluation of Process Algebra), et

afin de décroitre l’incertitude des modèles épidémiques, tout en respectant une description

rigoureuse des systèmes réels, il est urgent d’adopter une solution d’appui à

l’expert/développeur leur permettant de n’acquérir que des connaissances pertinentes basées

sur un raisonnement plus réaliste des systèmes épidémiques.

Il est bien connu aujourd’hui, que le besoin ressentit par les experts et les épidémiologistes de

suivre minutieusement l’historique médical des patients qu’ils vont traiter, ou de connaitre

leur antécédents ou même le risque encouru à leur prescrire tel ou tel médicament, incite à

stocker et conserver des données médicales collectées par les professionnels de la santé.


3

Cependant, face à la multitude de maladies auxquelles un patient est confronté ou encore au

nombre important de malades qu’une épidémie peut rapidement affecter, la taille et

complexité des données collectées font qu’il est devenu quasi-impossible par une simple

analyse humaine de conclure un tel ou tel fait. A partir de ce point de vue, plusieurs travaux

nous ont conduits au processus de l’extraction des connaissances et en particulier l’étape de

fouille de données (data mining).

De par sa définition la fouille de données est représentée par un ensemble de techniques

(algorithmes) qui permettent de transformer les données collectées en connaissances

pertinentes. Partant de cette description, aussi simple qu’elle le soit, et de la problématique

posée concernant l’incertitude des modèles computationnels ainsi que la limite dont souffrent

les méthodes d’optimisation, se spécifie notre objectif : « Performance du traitement des

épidémiologies par effets de simulation et de Data Mining ».

Contribution

La problématique abordée dans ce travail de thèse se situe aux abords de trois disciplines : la

modélisation et simulation, l’optimisation et la fouille de données. Notre principal objectif est

de proposer une approche d’optimisation nouvelle, simple et consistante. Ainsi, à partir d’un

ensemble de données épidémiologiques, nous allons extraire des connaissances pertinentes à

l’aide des méthodes de fouille de données. En se basant sur ces nouvelles connaissances, le

modèle computationnel Bio-PEPA initialement conçu sera optimisé et raffiné. En effet, les

domaines de la modélisation et du data mining sont indépendamment bien connus et

exploités. Toutefois, les recherches visant à combiner ces deux disciplines pour des fins

d’optimisation en générale et de la structure du modèle Bio-PEPA en particulier, restent

inconnues. Tel que décrit ci-dessus, ces deux approches ont des forces complémentaires,

d’une part l’importance du suivi épidémiologique n’est plus à démontrer par conséquent une

modélisation s’impose, d’autres parts il n’est plus à démontrer l’utilité de la fouille de

données qui ne cesse de prouver ses performances dans bien des domaines en outre le

domaine médical.

De manière concise, la motivation ultime de ce travail de thèse est d’orienter le processus

d’optimisation sur une intégration de l’étape de fouille de données dans le processus de la

modélisation computationnelle Bio-PEPA. Nous nous intéressons au suivi de la tuberculose

en Algérie et de l’épidémie des oreillons en Grande Bretagne.

Ainsi notre contribution s’articule autours de trois axes. Le premier axe se focalise sur le

choix de la méthode de modélisation. En effet, il existe aujourd’hui une panoplie de méthodes

de modélisation et simulation, les méthodes mathématiques, les méthodes à base d’agents ou

encore les algèbres des processus. Le choix dépond fortement de l’épidémie à reproduire et de

l’objectif à atteindre. Pour notre travail de thèse, la modélisation et la simulation par les

algèbres des processus, en outre le formalisme Bio-PEPA : Biochemical Preformance

Evaluation of Process Algebra, semble être l’outil idéal pour la reproduction de l’épidémie de

la tuberculose et des oreillons. En effet, son avantage majeur est de reprendre les avantages

des autres techniques de modélisation et de pallier leurs limites. Ainsi dans cette première


4

contribution, le choix de la méthode de modélisation et simulation par Bio-PEPA est motivé

par les objectifs suivants :

- Tenter de reproduire le plus fidèlement possible l’épidémie de la tuberculose et des oreillons.

- Mettre à notre disposition différentes techniques d’analyses.

- Développer des modèles consistants et simples à optimiser.

En suite, le deuxième axe se concentre sur l’optimisation des modèles initialement conçus. Il

est bien connu dans le monde de la modélisation, que l’étape succédant la conception d’un

modèle computationnel est la simulation. En effet, la simulation est le processus qui permet

de donner vie au modèle conçu. En mettant en interaction les paramètres et la structure

définis, la simulation permettra de générer des sorties, qui elles, feront l’objet d’analyse et

d’étude comparative avec le système réel. Cependant, l’un des inconvénients majeur de la

simulation est qu’elle ne peut pas fournir des résultats précis quand les données d’entrées

(paramètres et structure) sont incertaines ou incorrectement formulées, semant le doute dans

les capacités du développeur à assimiler correctement les connaissances acquises lors de la

conception. Dans cette optique, nous proposons comme deuxième contribution une approche

support à la vérification des modèles conçus. Ainsi, en traduisant le modèle conçu en un

langage narratif (langage humain), les experts et les épidémiologistes pourront facilement

vérifier les informations intégrées dans le modèle et détecter toute anomalie ou formulation

erronée. A ce stade, l’approche suggérée permet d’exploiter l’une des fonctionnalités offertes

par Bio-PEPA, qui consiste en la traduction du modèle Bio-PEPA en langage SBML (System

Biological Markup Language). En effet, SBML étant à la base du langage XML, sa forme

structurée nous permet d’extraire et de traduire plus aisément le modèle en un langage naturel.

Notre motivation par cette deuxième contribution réside dans le fait qu’une telle approche

offre une amélioration dans la qualité des informations qui constituent le modèle et ainsi

offre:

- Un langage familier aux experts et épidémiologistes qui ne sont pas connaisseurs des langages

de modélisation.

- Une vérification aisée de la validité des données formulant le modèle.

- Une réduction des doutes et des suspicions sur les informations que le développeur a pu

intégrer dans son modèle.

- Un canal fluide entre expert et développeur.

Enfin, le troisième axe, quoiqu’il reste étroitement lié au monde de l’optimisation, il intègre le

domaine de la fouille de données. Notre troisième et principale contribution consiste à réaliser

une transition entre les techniques de modélisation: Bio-PEPA et celles de la fouille de

données: Arbres de décision, règles d’associations et segmentation. L’utilité d’une telle

approche est d’assister à la fois l’expert et le développeur. Ainsi le modèle simulable est

optimisé et raffiné par l’intégration des règles et des connaissances pertinentes extraites par la

fouille de données. Ainsi, pour nous guider vers une optimisation optimale des modèles

prédictifs, cette contribution combine à la fois les performances de la modélisation et de la

fouille de données, deux disciplines qui restent aujourd’hui les plus essentielles et pertinentes

pour un suivi épidémiologique. Par le biais de cette nouvelle approche, nous proposons

d’améliorer et raffiner les modèles computationnels prédictifs d’une manière interactive, par


5

l’amplification des connaissances des experts. A notre connaissance, à ce jour aucune étude

n’a exploré le domaine du data minig pour des fins d’optimisation computationnelle Bio-

PEPA. D’un côté, les travaux épidémiologiques en relation avec le data mining exploitent les

informations extraites pour une simple analyse qu’ils restreignent à leur champ de

connaissances. D’un autre côté, les développeurs se basent généralement sur les modèles

existants, le plus souvent, extraits de la littérature. Ainsi, combiner ces deux disciplines,

permettra d’une part, aux experts de valider les nouvelles connaissances extraites en les

intégrant dans le modèle prédictif Bio-PEPA. Et d’une autre part, au fur et à mesure que les

données épidémiologiques évolues, les développeurs pourront optimiser et raffiner à temps

réel les paramètres et structure de leurs modèles en exploitant au mieux les nouvelles

connaissances acquises et extraites de la fouille de données.

Pour résumer, les trois contributions définies dans ce travail de thèse ont pour objectif de :

- Réaliser un modèle épidémiologique optimal, selon une complexité moindre et une intégration

complète, en utilisant les algèbres des processus en outre Bio- PEPA.

- Proposer une solution de vérification de modèle par langage narratif.

- Réaliser un modèle dynamique et interactif, répondant à la dynamique et variabilité de la

nature des épidémies et de l’environnement qui les accompagne en utilisant les techniques de

fouille de données.

- Enrichir les connaissances des experts et développeurs par le biais d’outils sures et compétents

en outre la modélisation par Bio-PEPA et la fouille de données par les arbres de décision, les

règles d’association et la segmentation.

Structure de la thèse

Cette thèse est organisée en deux grandes parties. La première partie constituée de trois

chapitres qui mettent en avant le contexte du problème étudié dans cette thèse ainsi que les

principaux axes qui sont en relation ou apportent des solutions. La seconde partie structurée

en trois chapitres, explicite notre modeste contribution à l’optimisation de la modélisation

épidémiologique au travers de la fouille de données. Ainsi, nous articulons ce travail de

recherche en six chapitres.

Le premier chapitre intitulé, « « Modélisation épidémiologique » est réservé aux concepts

fondamentaux sur lesquels se base notre étude. Nous présentons les principales notions de la

modélisation et de la simulation ainsi que l’épidémiologie humaine. Un survol sur les

différentes méthodes de modélisation est présenté suivi d’un état de l’art des méthodes de

modélisation et de simulation en épidémiologie humaine. Enfin, la dernière section de ce

chapitre 1, justifie le choix de la modélisation par les algèbres des processus en outre Bio-

PEPA.

Afin de situer notre problématique, Le chapitre 2 intitulé, « Optimisation des modèles

épidémiologiques » présente les principales approches adoptées pour l’optimisation des

modèles épidémiologiques. Trois grandes sections se distinguent dans ce chapitre. La

première section revient sur l’étape de vérification et validation des modèles initiée au

chapitre 1, montre leur importance et donne un bref aperçu sur leurs limites et propose comme

solution d’inclure la notion des langages narratifs. La deuxième section présente le principe


6

de l’optimisation et les méthodes existantes. En fin, la troisième section présente un tour

d’horizon sur les différents travaux existants pour l’optimisation des modèles

épidémiologiques et explicite les défis majeurs.

Le chapitre 3 intitulé, « La fouille de données pour l’épidémiologie humaine » est structuré en

cinq sections. Les trois premières sections présentent les notions de base du processus

d’extraction de données et en particulier l’étape de fouille de données. La quatrième section

survole les travaux de fouille de données dans le monde de l’épidémiologie humaine. Enfin,

nous concluons ce chapitre par la cinquième section en nous positionnant sur l’intégration du

data mining dans les phases du processus de modélisation.

Le chapitre 4 intitulé, « modélisation et simulation par les algèbres des processus : Bio-

PEPA » expose notre modèle prédictif qui est schématisé selon nos deux contribution :

modélisation par Bio-PEPA et traduction du modèle Bio-PEPA en langage narratif. La

structure générale ainsi que la description de chacun de ses composants sont présentées. Les

deux contributions sont validées au travers d’un exemple d’application extrait de la littérature:

la tuberculose humaine.

Le chapitre 5 intitulé, « Fouille de données pour l’optimisation des modèles

épidémiologiques : application à la tuberculose en Algérie » présente notre troisième

contribution : optimisation du modèle Bio-PEPA par les connaissances extraites de la fouille

de données. Cette contribution est soutenue par le cas d’étude de la tuberculose en Algérie.

Les sections de ce chapitre permettent d’une part de valider notre choix dans l’utilisation du

formalisme Bio-PEPA, et d’une autre part de se positionner dans les choix des méthodes de

fouille de données : les arbres de décision et les règles d’association.

Le dernier chapitre intitulé, « Fouille de données pour l’optimisation des modèles

épidémiologiques : application aux Oreillons » reprend l’approche présentée aux chapitre 5

(troisième contribution) et expose son application à l’épidémie des oreillons en Grande

Bretagne, où les mêmes objectifs sont ciblés : valider le choix de l’utilisation du formalisme

Bio-PEPA, et se positionner dans les choix des méthodes de fouille de données : les règles

d’association et la segmentation.

Finalement, nous concluons ce manuscrit par une synthèse des différentes contributions où

nous discuterons les perspectives envisagées pour poursuivre cette recherche.

Chapitre 1

Modélisation épidémiologique

Sommaire

1.5 Introduction

1.6 Modélisation et simulation

1.6.1 Modèle computationnel

1.6.2 Caractéristiques d’un modèle

1.6.3 Processus de modélisation

1.7 Epidémiologie humaine

1.7.1 Définition

1.7.2 Facteurs épidémiologiques

1.7.3 Mode de transmission

1.8 Modèles épidémiques

1.8.1 Terminologies

1.8.2 Objectifs d’un modèle épidémique

1.8.3 Structure du modèle épidémiologique

1.5.4 Classification des modèles

1.5.4.1 Modèle à compartiments

1.5.4.2 Variantes du modèle SIR

1.6 Etat de l’art des travaux de modélisation épidémiologique

1.8.1 Modèle à base d’EDO (Equation Différentielle Ordinaire)

1.8.2 Modélisation par automates cellulaires

1.8.3 Modèle à base d’agents/centré individu

1.8.4 Modélisation par les algèbres des processus

1.9 La modélisation par Bio-PEPA

1.9.1 Définition

1.9.2 Définition formelle

1.9.3 Sémantique structurelle de Bio-PEPA

1.9.4 Exemple

1.9.5 Analyse du modèle épidémique par Bio-PEPA

1.10 Synthèse des méthodes de modélisation

1.8 Conclusion

Chapitre 1 Modélisation épidémiologique

8

1.1 Introduction

La modélisation computationnelle a largement contribué dans le domaine épidémiologique,

où plusieurs méthodes ont vu le jour, les méthodes mathématiques, les méthodes à base

d’agent, ou encore les automates cellulaires (Anderson et May, 1991 ; Keeling et Rohani,

2008), permettant ainsi à plusieurs maladies émergentes d’être analysées et contrôlées.

Toutefois, les techniques et solutions proposées dans la littérature sont souvent conditionnées

par la nature de l’épidémie et les connaissances disponibles. Par exemple, étudier une

épidémie que seules ses données à une échelle macroscopique sont connues ne permet pas de

les modéliser à une échelle microscopique et donc adopter une technique à base d’agent n’est

pas très favorable. Réciproquement, utiliser les équations différentielles (EDOs) pour une

épidémie qui a besoin d’être reproduite à un niveau individuel où les détails les plus fins ont

besoin d’être représentés, n’est pas une tâche facile à l’étude.

Il est clair que le fait d’être devant un large éventail de choix de méthodes de modélisation, ne

simplifie guère la tâche au développeur. En effet, la dépendance des techniques de

modélisation à la nature de l’épidémie pénalise largement leur manipulation. La raison pour

laquelle nous avons opté dans notre étude pour la modélisation par les algèbres des processus

en outre Bio-PEPA (Biochemical Performance Evaluation Process Algebra).

Bio-PEPA est un formalisme de modélisation adapté à l’épidémiologie computationnelle. Ce

processus est particulièrement efficace pour reproduire à la fois l’échelle individuelle que

populationnelle. Par exemple la description d’un système épidémique qui peut être vu comme

un large réseau d’éléments en interaction continue, tel que chaque élément a un comportement

individuel et stochastique. Aussi, Bio-PEPA a l’avantage d’offrir différentes techniques

d’analyse (Ciocchetta et Hillston, 2009a, 2009b ; Benkirane et al, 2009).

A partir de ce contexte, nous détaillions ce chapitre selon les sections suivantes : la première

section met en avant les concepts de base de la modélisation. La deuxième section survole les

principes de l’épidémiologie. La troisième section revient sur les concepts relatifs aux

modèles épidémiologiques. Un tour d’horizon des travaux connexes de l’application de la

modélisation en épidémiologie est présenté dans la quatrième section. Dans la section 5, nous

abordons le principe de la modélisation par les algèbres des processus en outre Bio-PEPA.

Nous concluons par résumer les avantages de l’application de la modélisation en

épidémiologie et les principales limites.

1.2 Modélisation et simulation

La modélisation et la simulation ont largement été utilisées dans bien différents domaines.

Ceci dont l’objectif majeur est de bénéficier de ce que les modèles peuvent offrir en matière

de prédiction, compréhension et analyse.

Un modèle est typiquement défini comme étant un outil conceptuel fournissant une

représentation partielle ou intégrale d’un système complexe. La simualtion et l’imitation du

comportement du système réel au cours du temps afin d’estimer les caractéristiques du

modèle conçu.


9

1.2.1 Modèle computationnel

C’est une implémentation numérique des systèmes réels souvent complexes, où l’analyse

intuitive est non déductible. L’aspect fondamental permettant aux modèles de gérer la

complexité des systèmes est l’abstraction. En effet ce processus a l’avantage d’explorer

uniquement les aspects pertinents à l’étude et d’encapsuler le reste dans ce qui est le plus

communément connu sous le terme de boîte noire.

1.2.2 Caractéristiques d’un modèle

Souvent la conception d’un modèle pour un problème particulier est un compromis entre trois

éléments importants et souvent contradictoires: précision, transparence et flexibilité (Keeling

et Rohani, 2008). La précision définie par la qualité des résultats du modèle simulé par

rapport au système réel généralement décroît au dépens de la complexité du modèle. La

transparence qui est plus reliée aux différents composants du modèle est évaluée en fonction

du degré d’interactions des composants et de leur influence sur la dynamique du système. Plus

le nombre de composants du modèle accroit, plus il devient compliqué d’évaluer le rôle de

chaque composant et son interaction avec les autres. Tel qu’il a été reporté par Keeling et

Rohani (2008): « la transparence est souvent en contradiction avec la précision ». Enfin, la

flexibilité mesure le degré d’adaptation du modèle à des situations autres que celle pour

laquelle il a été conçu.

Afin de soulever cette ambiguïté en réconciliant ces trois termes tout en aboutissant aux

objectifs préétablis, la modélisation se base sur plusieurs étapes successives et itératives

appelées processus de modélisation.

1.2.3 Processus de modélisation

Le processus de modélisation est constitué de plusieurs étapes, souvent itératives telles que

décrites ci-dessous (Garrido, 2011) :

- Définition du problème : identifie des éléments critiques, où le développeur se familiarise

avec le problème posé, l’objectif et les résultats attendus.

- Conception de l’étude : se réfère à la collecte des données nécessaires auxquelles est affilié

le problème.

- Spécification du modèle : décrit les composants du modèle et leurs interactions, ainsi que

le comportement dynamique du modèle.

- Définition du processus : où les entrées, sorties, hypothèses et règles du système sont

spécifiées.

- Implémentation du modèle : selon les techniques de modélisation utilisées et les

informations récoltées des étapes précédentes, le modèle est ainsi élaboré.

- Simulation, analyse et validation : une fois le modèle conçu, il est exécuté et les résultats

sont analysés en les comparant aux sorties du système réel. Une fois l’évaluation validée, le


10

modèle ainsi construit est prêt à l’exploit, sinon dans le cas d’une incohérence par rapport au

système réel, un retour éminent vers les étapes ultérieures est nécessaire.

1.3 Epidémiologie humaine

Dans cette ère de croissance des maladies transmissibles (infectieuses) et de nouvelles

infections peu connues, l’étude épidémiologique est devenue de plus en plus importante.

L’intérêt portait à ce type d’investigation est largement souligné par les médias et les secteurs

médico-sociaux.

1.3.1 Définition

L’épidémiologie est une science basée sur la détection des causes ou sources d’une maladie.

Cette science implique aussi la caractérisation et la distribution de la maladie ou autre

problème de santé concernant différents paramètres, tels que l’âge, le sexe, l’ethnicité, le

comportement, le facteur temps, l’environnement spatial, etc (Friis, 2010).

1.3.2 Facteurs épidémiologiques

Les études épidémiologiques mettent l’accent sur le fait qu’une multitude de circonstances

épidémiologiques permettent aux maladies infectieuses de se propager, tels que les agents

infectieux, les hôtes, l’environnement et le facteur temps. Ces facteurs ont un impact

substantiel dans la susceptibilité de l’infection (Friis, 2010 ; Keeing et Rohani, 2008).

- Agent infectieux : est la cause d’une maladie infectieuse. Les bactéries, les virus ou les

parasites sont des agents infectieux.

- Hôte : est un organisme (humain ou animal), où l’agent infectieux se réfugie. Le degré

d’immunité de l’hôte, sa structure génétique ou son état de santé peuvent déterminer l’impact

de l’agent infectieux.

- Environnement : est l’ensemble des conditions externes à l’hôte, telles que sociales,

culturelles ou biologiques, permettant la transmission et la propagation de la maladie.

- Facteur temps: est l’un des facteurs primordiaux pour un suivi épidémiologique. Le facteur

temps peut décrire la durée de vie d’un hôte ou du pathogène, la période d’incubation ou la

durée de la persistance de l’infection, etc.

1.3.3 Mode de transmission

L’agent infectieux a la possibilité de voyager d’un hôte à un autre selon différentes méthodes.

Toutefois, tel qu’il a été présenté par McCaig (2008) en étude épidémiologique, on distingue

deux modes de transmission :

- Transmission directe : définie par un transfert direct du pathogène d’un hôte à un autre, par

exemple, le contact physique.

- Transmission indirecte : définie par le transfert du pathogène au travers d’un vecteur

intermédiaire entre les différents hôtes, par exemple, l’eau et la nourriture.


11

1.4 Modèles épidémiques

La modélisation épidémiologique a connu un engouement considérable par la publication

d’une panoplie de travaux (Anderson et May, 1991; Grassly et Fraser, 2006 ; Keeling et

Rohani, 2008 ; Vynnycky et White, 2010). Ceci est dû d’une part à la détermination des

développeurs à vouloir offrir des modèles de plus en plus réalistes et perspicaces, et d’une

autre part à la crainte des épidémiologistes à ne plus pouvoir contrôler les épidémies par de

simples méthodes statistiques. En effet, la variété des maladies émergentes et la dynamique

culturelle et sociale des populations ne permettent plus aux études observationnelles ou

expérimentales d’établir la cause-à-effet de la maladie ou de reproduire les comportements

d’une épidémie à différentes échelles.

Avant de parcourir les différents travaux qui ont marqué l’histoire de la modélisation

épidémiologique, il est important de rappeler quelques terminologies communes à

l’épidémiologie et la modélisation ainsi que les notions de base dont fait référence une

modélisation épidémiologique.

1.4.1 Terminologies

- Force d’infection : est définie par le taux auquel un individu susceptible peut acquérir

l’infection. Ce taux est fortement dépendant du nombre de contact entre hôtes.

- Le nombre de reproduction de base R0 : c’est une métrique qui correspond au nombre

d’infection secondaire due à un individu infecté introduit dans une population totalement

susceptible. (Anderson et May, 1991).

- Transmission dépendante de la fréquence : reflète la situation où le nombre de contact

entre hôte est indépendant de la taille de la population qui est généralement définie par la

notion de contrainte sociale. Ce mécanisme s’applique par exemple dans le cas où un individu

résidant dans une population de deux million a la même probabilité de contaminer une

population de cinq million. Ceci se traduit par le fait que le nombre de contact est dépendant

des contraintes sociales.

- Transmission dépendante de la densité : en assumant que la croissance de la taille de la

population implique une croissance du nombre de contact entre hôtes. Ainsi, le nombre

d’infecté est directement corrélé à la densité de la population.

1.4.2 Objectifs d’un modèle épidémique

Un modèle épidémique a deux objectifs :

- Prédiction : la prédiction est généralement l’objectif le plus fréquent lors d’une étude

épidémiologique. Elle requit une précision de la description de la maladie et de ses

déterminants. Un modèle prédictif a pour principal but d’apporter une aide à la décision

quand plusieurs alternatives de contrôle de stratégies existent. L’exemple présenté par

Keeling (2005) démontre bien l’utilité d’un modèle prédictif. L’auteur met l’accent sur deux

questions importantes lors de l’étude de la fièvre aphteuse en Grand Bretagne : est-ce que


12

l’épidémie est sous contrôle? est-ce que l’abattage du bétail réduit l’invasion de l’épidémie?

L’étude s’est achevée par la conception de trois modèles, où chacun reflète une structure et

des paramètres particuliers. L’auteur explicite la robustesse de cette étude, du fait que les trois

modèles ont réussi à prédire une large propagation de l’épidémie où l’abattage permettrait de

la contrôler.

Toutefois, il est important de noter que même un échec de prédiction, lors de la reproduction

d’un comportement épidémique, peut agir comme un diagnostic soulignant que les paramètres

utilisés peuvent aboutir à un comportement hors normes qui peut être bénéfique à des états

particuliers. Par exemple, durant une campagne d’éradication, les zones qui ne répondent pas

conformément à la prédiction du modèle conçu peuvent être sujet à de plus profondes mesures

de contrôle.

- Compréhension : un modèle peut être exploité à des fins de compréhension et

d’explication, tel que : comment une épidémie peut se propager et comment les facteurs

environnant affectent sa dynamique ? Par essence, l’épidémiologiste exploite le modèle

comme étant un monde parfait où il peut explorer chaque comportement en isolant les autres,

et ainsi décider quel facteur influence le plus l’étude. Avec une telle approche il devient plus

aisé d’examiner une multitude d’issues, telle qu’analyser la transmission d’une épidémie au

sein d’un groupe d’enfants au cours d’un cycle scolaire. Même s’il peut paraître qu’une telle

approche est purement fondée sur des hypothèses de l’expert; la perspicacité acquise est

souvent robuste et peut être appliquée à une variété de problèmes. Plus loin encore, la

compréhension générée de tels modèles peut faire office à des décisions pertinentes à

l’utilisation ou l’ignorance de tel ou tel élément.

1.4.3 Structure du modèle épidémiologique

La structure d’un modèle doit refléter l’histoire naturelle d’une épidémie (Vynnycky et White,

2010), d’où la nécessité de décrire d’une part les aspects de l’épidémie et d’autre part les

aspects décrivant la population. Le choix de la structure dépond fortement des critères

suivants :

- Identification des facteurs pertinents de la maladie. Lors du développement d’un modèle, il

est important de commencer par l’identification des paramètres clés de l’épidémiologie de la

maladie, tels que : la période d’infectiosité, la période de latence et les caractéristiques des

individus infectés. Ainsi, le modèle conçu produira un cadre idéal et maniable dans lequel il

est facilement possible d’intégrer les informations relatives à la maladie, pour une meilleure

prédiction. Le manque d’information à ce niveau impliquera une réévaluation de la structure

adaptée (Ribassin-Majed et al., 2013).

- La structure du modèle doit refléter le processus naturel du développement de la maladie.

De ce fait, des critères tels que le type de transmission, le type de population, etc., doivent être

explicités. Toutefois, il se trouve que pour un même type d’épidémie, différentes structures

peuvent être adoptées, selon le degré de dépendance aux critères inclus (Van Boben et al.,

2000).


13

- La structure du modèle dépend aussi du degré de précision dont a besoin le modèle de

prédiction. Par exemple, estimer le nombre des infectés par jour dû à une épidémie de grippe

serra très sensible au choix de considérer une période de latence ou pas. En effet, pour cet

exemple le fait de ne pas inclure dans le modèle une période de latence permettra de prédire

une propagation plus rapide. Aussi, la reproduction de la transmission à long terme est

souvent en étroite corrélation avec la dynamique démographique de la population ou encore

les périodes saisonnières. Un exemple clé est l’impact de l’évolution de la démographie d’une

population (naissance et décès) sur le nombre des susceptibles. En effet, le nombre annuel des

susceptibles émanant des naissances évolue considérablement par rapport au nombre mensuel

(Bouyer, 2009).

- L’objectif à atteindre détermine fortement la structure du modèle. En effet, il existe un grand

écart entre vouloir comprendre la maladie, et tenter de l’éradiquer. Si l’objectif est le contrôle

dans ce cas-là, le modèle sera enrichi par exemple par une structuration du traitement,

vaccination ou une mise en quarantaine. Ceci nous conduit au principe de la complexité du

modèle. Selon la fameuse citation de Einstein : « Models should be as simple as possible and

no simpler », donc il est très important de savoir se limiter dans la conception du modèle sans

pour autant perdre l’objectif à atteindre. Par conséquent, répondre aux critères ci-dessus requit

plusieurs données et paramètres pas toujours disponibles et qui font de ce processus une

opération souvent difficile et coûteuse en temps (May, 2004).

- Choix de la méthode de modélisation. Les modèles peuvent être déterministes ou

stochastiques. Les modèles déterministes décrivent ce qui arrive en moyenne dans une

population. Les modèles stochastiques permettent une évolution probabiliste des individus

dans une population. Selon le but à atteindre ou les éléments disponibles, le modélisateur

pourra opter pour une telle ou telle méthode de modélisation (Vynnycky et White, 2010).

Nous reviendrons sur les méthodes de modélisation ultérieurement (cf. section 1.5).

1.4.4 Classification des modèles

Généralement les modèles sont classifiés selon leur état déterministe ou stochastique

(Renshaw, 1993). Cependant, cette classification reste assez simpliste du fait que certains

modèles déterministes intègrent quelques éléments stochastiques et vice-versa. Selon

Vynnycky et White (2010), les modèles stochastiques sont utilisés quand le modèle fait

référence à une transmission dans une population à taille réduite ou quand les évaluations

(prédictions) font référence à une plage particulière.

Modèle déterministe. C’est un modèle qui se base sur des lois (fonctions analytiques)

mathématiques afin de décrire en moyenne l’évolution d’une population, où les paramètres

d’entrée sont constants. Ce qui implique une prédiction constante et prédéterminée au cours

du temps. Par exemple, le modèle prédit que lors du 3ème

jour, le nombre des infectés est égal

à 20 (Anderson et May, 1991).

Modèle stochastique. En se basant sur les lois de probabilité, les modèles stochastiques

permettent une évolution aléatoire des états des individus dans une population (Wilkinson,


14

2011). Par exemple, le modèle prédit un nombre variable d’infectés entre 1 et 30 lors du 3ème

jour.

1.4.5 Modèle à compartiments

En prenant en considération la classification ci-dessus, les modèles à compartiments sont les

plus communément référencés. Un modèle épidémique à compartiments est généralement

structuré en classes, où une population est divisée en groupes appelés compartiments. Ces

derniers interagissent selon la dynamique de l’épidémie. Ce type de modèle peut être

déterministe ou stochastique.

Cette notion de classe a été initialisée par les pionniers de la modélisation: Kermack

et McKendrick (1927) puis largement adoptée et développée dans d’autres travaux (Anderson

et May, 1991 ; Murray, 1989 ; Ferguson et al, 2001 ; Keeling et Ross, 2015).

La figure 1.1 illustre des modèles à compartiments de base utilisés en modélisation

épidémiologique.

Figure 1.1 Modèles à compartiments

1.4.5.1 Le modèle SIR

Kermack et McKendrick ont représenté les états des individus ainsi que leur évolution dans

une population par trois classes distinctes, Susceptible (S), Infecté (I) et Rétabli (R).

- Susceptible : représente les individus n’ayant pas encore acquis la maladie mais qui

peuvent l’acquérir une fois exposés au virus.

- Infecté : représente les individus porteurs du virus et qui peuvent le transmettre

directement ou via un vecteur de transmission aux individus susceptibles.

- Rétabli : représente les individus qui ne sont plus porteurs du virus. par exemple les

individus sont guéris de l’infection suite à un traitement, vaccinés ou naturellement

immunisés. L’immunité peut être temporaire ou permanente.

β

S I R

β

E I R

S

S I R

β


15

Partant d’une simple représentation épidémique basée sur une série de suppositions et afin de

décrire le flux entre compartiments, un modèle SIR peut être formulé en un modèle

d’équations telles que schématisées ci-dessous (Ma et Li, 2009) :

Où β est le taux de transmission ; γ est le taux de guérison.

Le modèle de base SIR peut être adapté à chaque type d’épidémie, où des classes

supplémentaires peuvent être incluses. Un exemple typique est la classe des exposés.

- Exposé : une fois infecté, un individu n’est pas forcément infectieux. Un lapse de temps

(période de latence) est nécessaire pour le transiter vers un état infectieux (infecté mais pas

encore infectant). Cette période de latence peut être évaluée selon l’apparition des symptômes

chez le malade. Toutefois, il est important de noter que ce n’est pas toujours le cas où des

maladies peuvent être totalement asymptomatiques.

1.4.5.2 Variantes du modèle SIR

En cas générale, les classes S, E, I et R peuvent être combinées pour dériver des variantes,

telles que :

- Le modèle SEIR où le modèle considère une période de latence.

- Le modèle SIRS où les individus guéris peuvent perdre leur immunité et redevenir

susceptibles à l’infection.

- Le modèle SEIRS où les deux modèles décrit ci-dessus sont combinés.

Notons que n’importe quel état considéré comme descripteur de la population pourra être

inclus dans les modèles ci-dessus et considéré comme un nouveau compartiment.

1.5 Etat de l’art des travaux de modélisation épidémiologique

Cette section a pour objectif de présenter l’état de l’art des différentes méthodes adoptées

pour une modélisation épidémiologique où les avantages et les limites sont discutés afin de

justifier le choix de la méthode pour notre étude.

Depuis l’innovation des modèles à compartiments et leur application en épidémiologie,

plusieurs maladies ont été modélisées, prenant en considération différentes variables et

différentes structures sur des échelles de complexité variables, aboutissant ainsi à différentes


16

techniques de modélisation : mathématiques, à base d’agent, par automates cellulaires ou par

algèbre de processus.

L’histoire de la modélisation épidémiologique remonte au 18ème

siècle, où Bernoulli a fait le

lien entre le monde des mathématiques et celui de la modélisation. Mais ce n’est que début du

20ème

siècle que ce domaine a été témoin d’un développement massif conceptuel et technique.

Bien que ce développement soit intéressant et enrichissant, il ne fait pas l’objet de cette thèse.

Nous référons le lecteur aux œuvres d’Anderson et May (1991), Hethcote (2000) et Keeling et

Rohani (2008) pour plus de détails.

La modélisation épidémiologique a vu naitre plusieurs formalismes se basant sur les

différentes techniques existantes. Ceci est dû d’une part à la diversité des phénomènes

épidémiques et d’une autre part à la multidisciplinarité des groupes de recherche. Les

épidémiologistes sont plus familiers à leurs études statistiques et les modélisateurs sont plus

habitués à leurs formalismes computationnels. Cette différence de concept a permis, durant la

dernière décennie, de tripler le nombre de travaux correspondants. Tel qu’il est illustré sur la

figure 1.2, où en 2004, le nombre de publications correspondant au terme de recherche

« Modelling infectious disease » était de 274 articles et qui ont par la suite flambé à plus de

770 publications en 2014. Ceci s’explique d’une part par la nécessité urgente de faire face aux

drames des invasions épidémiques et d’autre part à la force et l’utilité dont fait preuve la

modélisation épidémiologique.

Afin d’expliquer notre choix de méthode de modélisation, les sections suivantes passent en

revue les différents travaux en modélisation épidémiologique. Tel que nous les avons classifié

(cf. §4.4), les modèles peuvent être déterministes, tel que les équations différentielles ou

stochastiques tel que les modèles à base d’agents.

Figure 1.2 Publications relatives aux termes "Modelling, Infectious Diseases" dans Web Of

Science.

0

100

200

300

400

500

600

700

800

900

1964 1974 1984 1994 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

Pu

blic

atio

ns

ann

ue

lles

Année


17

1.5.1 Modèle à base d’EDO (Equation Différentielle Ordinaire)

L’application des EDOs en épidémiologie a marqué l’histoire de la modélisation, où cette

dernière décennie a fait l’objet d’environs 100000 publications. Ces fonctions sont définies

principalement sur la notion de compartiments, où la résolution numérique des EDOs permet

à la population de transiter d’un compartiment à un autre. Les EDOs décrivent le taux de

changement continu des variables.

Travaux connexes à la modélisation épidémiologique par EDO

Depuis les travaux de Kermak et Mckendrik (1927), plusieurs variantes leur ont succédé

incluant toute forme d’hétérogénéité. Anderson et May (1991) ont étudié un large éventail

d’épidémie tel que : rougeole, oreillons, rubéole, sida, etc. Les auteurs ont montré l’impact de

la variabilité de la couverture vaccinale sur la population et la dynamique de l’épidémie.

Anderson et al. (1992) ont également étudié le modèle dans lequel la structure relative aux

différents groupes d’âge a été explicitement représentée. Gay (1998) a analysé l’impact de la

rougeole sur la population de la Grande-Bretagne, où différents groupes d’âge ainsi que

différents protocoles de vaccination ont été considérés. L‘auteur a argumenté que même avec

une couverture vaccinale assez élevée, la maladie continue de persister. Ce modèle aura servi

à l’organisme de la santé publique de repenser les protocoles de vaccination bien avant même

que l’épidémie ne soit identifiée. Ozcaglar et al. (2012) ont présenté un modèle de la

tuberculose, où ils soulignent l’exploration de différents paramètres tels que l’âge, le type de

contact entre individus et les paramètres démographiques. Grenfell et al. (2001) ont introduit

dans leur modèle la notion d’espace qui jusqu’alors été négligé. Les auteurs ont démontré que

la rougeole se propage dans différents endroits partant d’un même foyer d’infection considéré

comme centre endémique. Les auteurs ont également démontré que la taille des zones

étudiées a un grand impact sur la propagation de l’épidémie. Weber et al. (2001) ont étudié

l’épidémie causée par le virus respiratoire syncytial, en prenant en compte la saisonnalité, la

période de latence, l’environnement spatial et les conditions météorologiques. Roberts et

Tobias (2000) ont rejoint la conclusion de Gay ( 1998). En réalisant un modèle de rougeole

pour la Nouvelle-Zélande, les auteurs ont conclu qu’il est impossible d’éradiquer la rougeole

si le protocole de vaccination n’est pas enrichi par une 2ème

dose de vaccin. Whitaker et

Ferrington (2004) ont prouvé l’utilité des enquêtes sérologiques pour la réalisation d’un bon

modèle épidémiologique. Toutefois, celui-ci reste dépendant de certaines hypothèses reliées

au type de la maladie, telles que les oreillons ou la rubéole. Chen et.al (2007) ont reproduit la

maladie de la rougeole en Taiwan en un modèle SEIR à environnement hétérogène (zone

rurale, zone urbaine), où différents groupes d’âge ont été considérés. Les auteurs ont établi

que le type de zone a une grande influence sur la densité de contact entre individus et ont

conclu qu’il est important d’adopter différentes couvertures vaccinales pour les différentes

zones ainsi que les différents groupes d’âge. Wearing et Rohani (2009) ont présenté une autre

facette de l’utilité des modèles épidémiologiques à base d’EDO, où la maladie de la

coqueluche a été leur exemple d’application. Les auteurs ont combiné dans leur modèle SEIR,

deux types d’immunité, celle acquise naturellement et celle acquise suivant un processus de

vaccination. Leur modèle a pu montrer qu’au risque de perdre l’immunité après une certaine

durée, l’individu immunisé naturellement a plus de chances d’être à faible risque à l’infection.


18

Discussion

Il est bien clair que la modélisation par les EDOs a largement contribué dans le monde

épidémiologique. Cependant, il a été montré par Vynnycky et White (2010) que quand la

taille de la population étudiée est assez petite (e.g nombre de susceptible < 10) les modèles

déterministes prédisent un nombre d’infectés assez réduit par jour <1. Ce résultat est

considéré irréaliste dans le sens où c’est une fraction des infectés. Aussi en réalité, une

épidémie n’a pas toujours le même comportement au cours du temps et ce même si la

population concernée est face aux mêmes conditions or il est bien connu que les modèles

déterministes aboutissent aux mêmes résultats sous des conditions similaires. Une autre

constatation est que si la population des susceptibles est assez petite ceci implique qu’un

individu susceptible peut être en contact avec plus d’un infectieux or en réalité il ne sera

contaminé que par un et un seul infecté, les modèles déterministes ne prennent pas en compte

cette possibilité. Aussi, les EDOs ne permettent pas de représenter le contact à un niveau

individuel (White et al, 2007). Enfin, il est considéré laborieux d’amplifier le nombre de

paramètres à utiliser dans un modèle à base d’EDOs ou même les modifier. En effet, la

complexité d’un tel modèle nous conduit à un ensemble d’équation assez large et complexe à

manipuler ce qui fait d’elles des méthodes peu modulaires et peu incrémentales (Pavé, 1994).

L’étude établie par Blower et al. (1995, 1996) pour la modélisation de la tuberculose montre

bien ce critère de complexité. En effet, les auteurs ont modélisé au départ une simple

reproduction de la maladie en se basant sur un modèle SEIR, pour cela ils ont du développer

cinq équations différentielles. Puis, voulant intégrer le critère de résistance au traitement, les

auteurs ont étendu leur modèle en huit équations. Weber et al (2001) ont eux aussi

expérimenté la croissance du nombre d’équations et paramètres en proposant une extension de

leur modèle initial SIR à quatre équations en un modèle MSEIRS (où M dénote l’immunité

maternelle) à 21 équations.

1.5.2 Modélisation par automates cellulaires

Les automates cellulaires (AC) sont des modèles dynamiques discrets. Représentés sous

forme de grille constituée d’un ensemble fini de cellules, les automates cellulaires sont

configurés de telle sorte qu’à chaque pas de temps les états des cellules sont mis à jour selon

des règles prédéfinies. La particularité des AC est que l’état futur de chaque cellule est

dépendant de son état courant et celui de ses voisins.

Travaux connexes à la modélisation épidémiologique par AC

Keeling et Gilligan (2000) ont étudié l’impact de la peste sur la population en interaction

continue avec des rats infectés. Afin de comprendre la dynamique de l’épidémie entre les

humains et les animaux, les auteurs ont analysé les mouvements spatiaux des rats à l’aide

d’un automate cellulaire et ont conclu que le comportement dynamique de la population est

une propriété émergente du comportement individuel au lieu des caractéristiques propres de la

maladie. Rehkoph et al. (2015) ont démontré, en utilisant les automates cellulaires, que la

tuberculose est fortement dépendante du contexte social et les facteurs environnementaux. Les

auteurs ont pu reproduire différentes échelles de la densité de la population, où chaque cellule


19

de l’automate décrivait un automate muni d’une population à densité particulière. Cette

structuration a permis aux auteurs de conclure que le fait d’appliquer un traitement haut

niveau à une population à haute densité est moins efficace que le traitement à niveau moyen

de toute la population. Dans le but de contrôler la propagation des maladies infectieuses tout

en minimisant les frais de vaccination, Schimit et Monteiro (2011) ont proposé un modèle à

base d’automates cellulaires, en démontrant que le fait de vacciner uniquement la population

dite à risque, l’épidémie est temporairement contrôlée mais impossible à éradiquer. Sirakoulis

et al. (2000) ont analysé l’effet du mouvement d’une population sur la propagation des

épidémies. Le mouvement de la population a été décrit par le nombre des individus qui se

déplacent ainsi que les distances de leurs déplacements. Sirakoulis et al. (2000) ont réussi par

leur modèle à reproduire un schéma similaire à une épidémie face à un protocole de

vaccination. Slimi et al. (2009) ont démontré dans leur étude que l’immigration du pathogène

est la cause majeure de la transmission de l’épidémie. Les auteurs ont appliqué leur modèle à

base d’automates cellulaires sur la maladie de la Chagas, où ils ont suggéré, dans le cas de

l’absence d’un traitement/vaccination, que le moyen le plus efficace de limiter la propagation

est de contrôler la dynamique de l’agent pathogène. Sun et al. (2011) ont reproduit le schéma

d’une épidémie ré-émergente où des cas guéris se sont réinfectés. Les auteurs ont pu

démontrer par leur modèle qu’une vaccination après guérison est nécessaire pour une

meilleure prévention. Les travaux de Rhodes et Anderson (1997) ont montré comment les

automates cellulaires sont exploités pour reproduire la structure spatiale et la dynamique de

l’épidémie. Les auteurs se sont concentrés sur les maladies infantiles (Rougeole, coqueluche

et les oreillons) et leur distribution dans une population isolée et à taille réduite. Les auteurs

ont démontré que la modélisation de la rougeole et la coqueluche ont nécessité un automate

cellulaire à trois dimensions, contrairement aux oreillons qui ont nécessité un automate à cinq

dimensions. Ceci se traduit par le fait que la modélisation de la maladie des oreillons est plus

complexe et a besoin d’intégrer plus de paramètres que la rougeole ou la coqueluche.

Discussion

Même si la modélisation par automates cellulaires a su s’imposer dans le monde de la

modélisation où elle a permis de pallier les limites des EDO et de prendre en considération

l’interaction entre individus et son environnement/espace, toutefois cette technique souffre de

quelques limites :

- les automates cellulaires n’offrent aucune aide dans la représentation des comportements

hétérogènes de l’individu (Amouroux et al., 2008). Un exemple clé est le cas d’une maladie à

transmission par vecteur qui se propage sur de longues distances et pas uniquement au niveau

des voisins les plus proches.

- la synchronisation temporelle des cellules ne permet pas de reproduire le comportement

naturel des individus au cours d’une épidémie.

1.5.3 Modèle à base d’agents/centré individu

Il permet de suivre l’état de chaque individu au cours du temps (stochastique/déterministe).

C’est un modèle qui considère une collection d’entités autonomes, nommées agents. Ces


20

agents individuellement, perçoivent l’environnement et prennent des décisions en se basant

sur un ensemble de règles. Contrairement aux automates cellulaires, un modèle à base

d’agents peut exhiber un comportement variable et complexe. Cela dépendra de la structure

de son environnement, l’interaction entre les différents agents et leur comportement vis-à-vis

de leur voisinage qui peuvent être en collaboration ou compétition. En effet, la dynamique du

système est fortement liée à la dynamique de chaque agent dans le système.

Travaux connexes à la modélisation épidémiologique à base d’agents

Huynh et al. (2015) ont développé un modèle computationnel à base d’individus pour la

transmission de la tuberculose en Chine. Différentes stratégies ont été adoptées, telles que

différents taux de couverture vaccinale, différentes périodes de traitement ainsi que

l’introduction d’une thérapie préventive durant la période d’incubation. Les résultats générés

ont démontré que maintenir un bas niveau d’infection chez les jeunes enfants et traiter les plus

âgés avant qu’ils ne soient déclarés infectieux permettrait de réduire fortement l’incidence et

la mortalité. Ajelli et al. (2010) ont exploré la propagation spatiotemporelle de la grippe en

utilisant les modèles à base d’agents. Les auteurs ont pu reproduire le schéma de l’épidémie

tout en explicitant les interactions entre chaque individu de la population dans différentes

zones géographiques au cours du temps. Le même type d’épidémie a été repris par Laskowski

et al. (2015) où les auteurs ont développé un modèle évaluant l’impact de différentes

stratégies de vaccination. Les paramètres location et âge ont été partie intégrante du modèle.

Perez et Dragicevic (2009) ont reproduit la rougeole au Canada, où les facteurs temps et

espace ont été explicités. Motivés par la représentation des interactions au niveau des

individus, les auteurs ont pu relever l’épicentre de l’épidémie au niveau des écoles et des

universités.

Discussion

Quoique ces modèles aient pu relever les défis des modèles déterministes ou encore les

inconvénients des automates cellulaires, ils souffrent de quelques limites telles que :

- un haut niveau de descriptions et détails implique un haut niveau de complexité induisant à

un coût de calcul assez élevé.

- la compréhension du modèle est limitée à un publique particulièrement familier aux

langages de programmation.

- les détails dont fait appel un modèle à base d’agents ne sont pas toujours précis et

identifiables, où une simple variation des estimations pourrait avoir un large impact sur les

résultats induisant ainsi à une agrégation imprécise du modèle.

- standardisation et évaluation souvent complexe voire impossible à entreprendre (Jordan et

al, 2011).

- Les détails du modèle restreignent ce dernier à un exemple particulier qu’il est impossible

de généraliser.


21

1.5.4 Modélisation par les algèbres des processus

Les algèbres des processus (AP) sont une famille de langages formels pour la modélisation

des systèmes concurrents. Ils consistent en un ensemble de processus et leur interaction.

Développé depuis 1970, Les AP sont principalement basés sur des concepts mathématiques,

tels que les opérateurs arithmétiques et les axiomes pour l’étude du comportement des

systèmes parallèles et distribués. Depuis, ils ont été exploité pour les systèmes biologiques, où

Tofts (1994) les a utilisé pour décrire le comportement social des insectes puis ils ont été

adaptés pour les systèmes épidémiologiques.

Travaux connexes à la modélisation épidémiologique par AP

La récente émergence des AP dans le monde de la Bio-science a donné naissance à plusieurs

travaux épidémiologiques. Initialement, le modèle développé par Tofts (1994) sous la

nomination WSCCS (Weighted Synchronous Calculus of Communicating Systems) a été

repris en 2003 par Norman et Shankland (2003) pour modéliser un simple mécanisme de

transmission épidémique. Leurs travaux ont été étendus par la suite, par McCaig et al. (2009).

Les auteurs ont étudié l’utilité des modèles WSCCS en développant une variante nommée

CCS. Ils ont analysé la performance de leur modèle en exploitant les maladies du SIDA et

SRAS, ce qui leur a permis de bien cerner la dynamique de la maladie en relevant les agents

super-propagateurs de la maladie. En 2009, Ciocchetta et Hillston (2009a, 2009b) ont

développé un nouveau formalisme à base des AP mais selon une structuration réduite et

moins complexe, baptisé Bio-PEPA pour Biochemical-Performance Evaluation of Process

Algebras (plus de détails de la syntaxe de Bio-PEPA est présentée dans la section suivante).

Les auteurs ont exploré leur modèle pour la maladie de la grippe aviaire.

Benkirane et al. (2009) ont réutilisé le modèle PEPA (Performance Evaluation of Process

Algebras) initialement conçu en 1996 par Jane Hillston pour évaluer les performances des

ordinateurs et des réseaux. Afin de reproduire le comportement individuel lors d’une

propagation d’une épidémie et d’émerger vers une dynamique populationnelle, les auteurs ont

exploité comme exemple la maladie de la rougeole et la malaria dans un objectif de prouver

que les modèles PEPA répondent parfaitement à la modélisation épidémiologique. En 2012,

Benkirane et al. (2012) ont analysé les modèles conçus par Ciocchette et al. (2009a, 2009b).

Les auteurs ont argumenté que les facteurs saisonnalité et immigration sont un point essentiel

dans l’étude. Ils ont ainsi, repris leur modèle de la rougeole et enrichi par le facteur de la

saisonnalité. Les résultats ont montré que PEPA est un prédicateur optimal. Toutefois la

syntaxe adoptée ne reflète pas réellement la modélisation de quelques paramètres tels que

naissance et mortalité. Hamami et Atmani (2012, 2013) pour des fins comparatives ont

reproduit le modèle de la varicelle (Bonmarin et al., 2008) ainsi que celui de la tuberculose

(De-Espindola et al., 2011) par Bio-PEPA. Les auteurs ont mis en évidence la simplicité de

leur modèle à reproduire parfaitement les exemples étudiés. McCaig et al. (2013) ont analysé

l’interaction entre les parasites et le système immunitaire par les algèbres des processus. Les

auteurs ont soulevé l’importance de reproduire à la fois l’interaction à un niveau individuel et

dériver vers une analyse du système à un niveau populationnel. Les auteurs ont découvert que


22

la dynamique du système ne dépondait pas uniquement de la densité, des cellules

immunitaires ou encore les parasites mais de leur ratio1.

Discussion

Les algèbres des processus se trouvent être le candidat idéal pour la modélisation

épidémiologique. En effet, les limites dont souffrent les autres techniques précédemment

notées semblent toutes être résolues par les algèbres des processus. Notant que pour une

modélisation épidémiologique quatre points majeurs doivent être pris en considération : i) la

représentation à un niveau micro (par individu) émergeant vers un niveau macro (par

population) ; ii) la représentation stochastique et déterministe à la fois iii) la représentation

spatiotemporelle et iv) un degré de complexité assez réduit pour d’éventuelles optimisations.

La modélisation par les algèbres des processus jouie d’un ensemble d’avantages :

- le modèle est assez simple et intuitif.

- le modèle est modulaire et incrémental.

- le modèle peut représenter un système complexe en partant d’un ensemble assez réduit

de paramètre.

- le modèle permet le calibrage entre la complexité interne du système et son

environnement.

- la nature formelle de ce type de modèles permet de déduire le comportement au niveau

populationnel et avoir la confidence qu’il résulte du comportement au niveau individuel décrit

dans le modèle.

- le modèle regroupe aisément entre le caractère stochastique et déterministe d’une

épidémie.

- enfin l’un des plus importants avantages des algèbres des processus est les différentes

techniques d’analyse qui sont offertes par certains formalismes en outre Bio-PEPA, où ce

dernier permet : une analyse par différents algorithmes de simulation, interprétation

automatique du modèle en un ensemble d’équation différentielles ordinaires menant ainsi à un

modèle déterministe (si besoin), l'inférence des invariants du modèle, calcul de la fonction de

répartition d'une variable donnée, vérification du modèle par PRISM (PRobabilistic Symbolic

Model checker ; Kwiatkowska et al., 2002), et traduction du modèle vers le langage SBML

(System biology Markup Language ; Hucka et al., 2007) pour des fins de vérification et

validation.

Cependant, les algèbres des processus nécessitent un haut niveau d’hypothèses concernant la

dynamique de la population. Malgré cette limite qui reste commune aux autres techniques, les

nombreux avantages, nous conduisent à opter dans ce travail de recherche de modélisation

épidémiologique, pour les algèbres des processus, en particulier le formalisme Bio-PEPA, qui

sera décrit dans la section suivante.

1 Rapport entre deux grandeurs significatives.


23

1.6 Modélisation par Bio-PEPA (Biochemical Performance Evaluation Process Algebra)

Bio-PEPA est une variante des algèbres des processus dérivée particulièrement de PEPA, où

l’objectif majeur est de reproduire les systèmes biochimiques en général et épidémiologiques

en particulier tout en corrigeant les limites de PEPA. En effet, les caractéristiques telles que

l’espace ou les notions démographiques (naissance et mortalité) sont complexes et coûteuses à

décrire dans PEPA.

1.6.1 Définition

Bio-PEPA a la particularité de considérer les processus comme étant des espèces (différents

types d’individus). Leur interaction décrit la dynamique de ces espèces. Les principaux

composants de Bio-PEPA sont (Galpin et Hillston, 2011, Marco et al., 2012a,b):

- composants séquentiels : décrivent le comportement de chaque espèce (individu).

- composant modèle : décrivent les interactions entre les espèces.

- contexte : afin de décrire au mieux ces deux composants, Bio-PEPA permet de définir des

taux fonctionnels (actions), des compartiments et des paramètres, où chaque espèce est vue

comme un sous-groupe de population partageant les mêmes caractéristiques, et chacune a

le choix d’exécuter une action différente. La synchronisation, coopération et concurrence

de ces espèces au cours du temps sont gérées par le composant modèle. La syntaxe du

formalisme Bio-PEPA relative aux définitions ci-dessus est décrite comme suit :

S :: = (,) op S | S+S | C

Op = | | (+) | (-) | (.)

P :: = P P | S(x)

où le terme (,) op S défini l’action , le coefficient stœchiométrique , et l’impact de cette

action sur l’espèce S selon l’opérateur op. L’opérateur op peut prendre différentes formes :

- (), l’espèce est réactive ce qui décroit son niveau (densité) ;

- (), l’espèce est productive ce qui accroit son niveau ;

- (+), le choix entre différentes actions ;

- (-), l’espèce est inhibitrice ;

- (+), l’espèce est activatrice ;

- (.), l’espèce est un modificateur générique. Elle participe à une action sans que ceci ait

effet sur son niveau de concentration.

- la constante C est en général définie par une équation S et peut faire référence à un

autre composant dont le comportement de S est dépendant.


24

La syntaxe relative au composant modèle P :: P P | S(x) dénote la synchronisation entre

deux composants (espèces), où l’ensemble L dénote les actions candidates à la

synchronisation. Le paramètre x défini dans S(x) correspond au niveau initial de l’espèce S.

1.6.2 Définition formelle

Etant un formalisme, Bio-PEPA peut être défini par un 6-uplet {, N, , F, Comp, P} (Galpin

et Hillston, 2011 ; Ciocchetta et Hillston, 2009), où :

- , ensemble de compartiments,

- N, ensemble de quantité associée à chaque espèce,

- , ensemble de paramètres (coefficients stœchiométriques), utilisés pour quantifier la

relation entre producteur et réactant,

- F, ensemble d’actions (taux fonctionnels),

- Comp, ensemble d’espèces,

- P, le composant modèle.

1.6.3 Sémantique structurelle de Bio-PEPA

La figure 1.3 (Galpin et Hillston, 2011; Ciocchetta et Hillston, 2009a) illustre les définitions

relatives à Bio-PEPA (cf. §6.1, §6.2). Cette description schématisée sous forme de règle,

permet de suivre l’évolution de l’espèce pour chaque type d’action invoquée. Par exemple, la

règle « PrefixReac » indique que si une espèce S exécute l’action () alors son niveau de

concentration (densité) initial L décroît selon une substance , tel que L reste compris entre le

niveau minimal de concentration et son niveau maximal. D’une manière générale, les trois

premières règles définissent le comportement de l’espèce : réactive (resp. productive ou

modificatrice), où le niveau de l’espèce accroît (resp. décroît ou reste inchangé). La

dynamique du niveau de concentration est conditionnée par . Tandis que les trois règles

suivantes (Coop1, Coop2 et Coop3) désignent la coopération et synchronisation entre les deux

espèces P1 et P2. Les règles Coop1 et Coop2 prédisent un comportement affectant

uniquement une des deux espèces, car l’action candidate n’appartient pas au groupe des

actions communes. La règle Coop3 décrit le cas où les deux composants (espèces) se

synchronise selon l’action .

La dernière règle (Final) permet d’expliciter le comportement global du système où partant

d’un état initial P et exécutant certaines actions , le système évolue à l’état P`. Pour plus de

clarté, nous avons présenté dans cette section les notions de base de la sémantique de Bio-

PEPA. Pour plus de détails nous invitons le lecteur à se référer à Galpin et Hillston (2009,

2011) et Galpin et al. (2011).


25

Figure 1.3 Sémantique structurelle de Bio-PEPA(Galpin et Hillston, 2011 ; Ciocchetta et Hillston, 2009)

crw = 6.015; ir = 0.133; rr = 0.154;

kineticLawOf contact : (crw ∗ S ∗ I) /(S +E +I +R);

kineticLawOf incubation : (ir ∗ E);

kineticLawOf recover : (rr ∗ I);

S = contact << S;

E = contact >> E + incubation << E;

I = contact(.)I + incubation >> I + recover << I ;

R = recover >> R;

I [5] < ∗ > S[508000] < ∗ > E[0] < ∗ > R[0]

Figure 1.4 Modèle SEIR en Bio-PEPA

Prefixreac

Prefixprod

Prefixmod

Choice 1

Choice 2

Constant

Coop 1

Coop 2

Coop 3

Final


26

1.6.4 Exemple

La figure 1.4 illustre la syntaxe de Bio-PEPA à travers un exemple générique d’une épidémie

(Marco et al. 2012b) pour un modèle à compartiments SEIR (Susceptible - Exposed - Infected

- Recovered). Ce modèle peut être appliqué à plusieurs comportements épidémiques selon des

paramètres appropriés.

Tel que nous l’avons spécifié auparavant, le modèle Bio-PEPA est défini par un ensemble de

paramètres (crw, ir et rr), des taux fonctionnels (introduits dans la fonction KineticLawOf) et

un ensemble d’espèces (S, E, I et R). Les actions exécutées par les espèces sont : contact,

incubation et recover. L’action contact décroit (resp. accroit) le niveau de concentration de

l’espèce S (resp. E), en utilisant l’opérateur << (resp. >>)2. L’action incubation décroît (resp.

accroît) le niveau de l’espèce E (resp. I). La dernière action recover décroît (resp. accroît) le

niveau de l’espèce I (resp. R). L’opérateur (.), utilisé dans l’espèce I, indique que I participe

dans l’action contact sans pour autant que ceci affect son niveau de concentration. L’opérateur

+, permet le choix entre les différentes actions (contact, incubation et recover) selon le

paramètre invoqué. La dernière ligne du code Bio-PEPA correspond au composant modèle

qui décrit l’interaction entre les espèces et leur niveau initial (* signifie que toutes les actions

sont commune).

1.6.5 Analyse du modèle épidémique par Bio-PEPA

La spécification formelle de Bio-PEPA permet d’accomplir différents types d’analyses :

chaînes markoviennes à temps continu (CTMC), les équations différentielles ordinaires

(EDOs), simulation stochastique (Gillespie) et les modèles de validation PRISM et SBML.

Plus de details dans Galpin et Hillston (2011).

L’utilité d’une telle analyse réside dans la possibilité d’effectuer une étude comparative entre

les différentes analyses pour une profonde validation. Ainsi, le développeur n’a plus à se

soucier de la nature de l’épidémie pour l’adapter à la méthode de modélisation, Bio-PEPA lui

permet amplement de vaciller entre un modèle stochastique et déterministe sans pour autant

changer d’outil ou de formalisme.

1.7 Synthèse des méthodes de modélisation

La modélisation par Bio-PEPA semble être le candidat idéal pour la modélisation

épidémiologique. Déterminer quelle approche est la plus adéquate pour un tel ou tel problème

dépond fortement de l’objectif à atteindre et de l’analyse à effectuer. Pour résumer, tel que

nous l’avons spécifié, les avantages qui dissocient les algèbres des processus en général et

Bio-PEPA en particulier des autres méthodes de modélisation sont :

- leur particularité d’automatiser différentes sortes d’analyse.

- leur aptitude à osciller entre le niveau macroscopique et microscopique ; ou stochastique

et déterministe sans modifier le code.

2 Le symbole « » (resp. « ») défini dans le formalisme Bio-PEPA (cf. § 1.6.1) est représenté par « << » (resp.

« >> » dans le langage de modélisation Bio-PEPA.


27

Cependant, une des difficultés majeures face à laquelle se heurtent toutes les méthodes de

modélisation quelque soit leur nature, est le problème d’identification des paramètres les plus

optimaux, leur valeurs ou encore la structure du modèle adopté. Par exemple, pour la

modélisation de la rougeole, Bjørnstad et al. (2002) ont utilisé un taux d’incubation de 7.5

jours et une période d’infection de 6.5 jours. Par contre, Bolker et al. (1995) ont proposé une

période d’incubation de 10 jours et une période d’infection de 3.7 jours. Généralement ces

paramètres sont définis dans un large éventail qu’il est impossible aux experts d’évaluer avec

précision. Nous avons aussi constaté durant la recherche bibliographique que nous avons

entrepris (cf. section 1.5) que chaque auteur a sélectionné un certain nombre de facteurs

(paramètres/descripteurs) pour son modèle épidémique. Les principales questions qui se

posent à nous est : est-ce le bon descripteur (paramètre) de l’épidémie? Y a-t-il d’autres

facteurs de risques ? Est-ce que les informations acquises de l’expert sont-elles exhaustives ?

Quel est le degré d’objectivité de la structure du modèle adaptée ?

Selon Wearing et al. (2005), vu l’importance de l’impact des épidémies sur la population, il

est très important qu’un modèle épidémiologique fournît une prédiction la plus optimale

possible. Ceci est fortement lié à un paramétrage qui doit être finement précis. Les auteurs ont

également argumenté qu’il y a un grand risque de surestimations/sous-estimations dans les

prises de décisions sanitaires si des erreurs sont commises lors du paramétrage et de

formulation du modèle prédictif. Afin de pallier cette incertitude de spécification, nous

proposons dans les chapitres suivants deux solutions selon deux angles différents pour une

optimisation optimale des modèles conçus. Le premier angle remet en cause la validité des

connaissances acquises de l’expert d’où la proposition d’un modèle de vérification et

d’interaction entre expert et développeur. Le deuxième angle se concentre sur la variabilité et

dynamique de la nature des épidémies qui va au-delà des connaissances de l’expert d’où la

proposition d’une assistance du processus de modélisation par d’autres techniques tel que la

fouille de données.

1.8 Conclusion

Les différentes méthodes de modélisation pour les systèmes épidémiologiques ainsi que leurs

avantages et inconvénients sont présentées dans ce chapitre. Cette recherche bibliographique,

en outre les limites des méthodes de modélisation discutées dans la section 1.5, nous a permis

de motiver notre choix à utiliser la modélisation par les algèbres des processus Bio-PEPA.

Nous avons aussi, mis en avant les limites dont peut souffrir un modèle prédictif. Dans le

chapitre suivant, nous allons présenter les travaux en relation avec ces limites et tenter de

cerner le problème et proposer des solutions.

Chapitre 2

Optimisation des modèles épidémiologiques

Sommaire

2.1 Introduction

2.2 Vérification des modèles épidémiologiques

2.2.1 Définition

2.2.2 Techniques de vérification des modèles

2.3 Optimisation des modèles épidémiologiques

2.3.1 Définition

2.3.2 Méthodes d’optimisation

2.4 Optimisation des modèles épidémiologiques : Etat de l’art

2.4.1 Optimisation paramétrique

2.4.2 Optimisation structurelle

2.5 Discussion et conclusion

Chapitre 2 Optimisation des modèles épidémiologiques

29

2.1 Introduction

Quelle que soit la méthode de modélisation utilisée, les questions soulevées au chapitre

précédent nous conduisent à se focaliser principalement sur l’une des étapes du processus de

modélisation qui est : la vérification et la validation des modèles. En effet, la partie la plus

critique pour le développeur et l’expert est la vérification et la validation relatives à l’étape de

simulation.

La validation du modèle est définie comme étant le processus déterminant le degré de

similarité entre le modèle conçu et la réalité ainsi que sa capacité d’expliquer les phénomènes

du monde réel. Plus la technique de modélisation offre une souplesse de gestion lors de cette

étape, plus il devient facile d’améliorer les résultats (données simulés) et ainsi valider le

modèle.

La validation basique pour un développeur est de comparer les données observées aux

données simulées. Si ces derniers ne sont pas en parfaite corrélation, le développeur pourra

toujours enrichir le modèle par d’autres informations. Cependant, inclure plus de paramètres

dans le modèle implique une plus grande complexité à gérer, comprendre ou analyser le

comportement simulé. Actuellement, le moyen universel et commun à toutes les méthodes de

modélisation est l’étape de vérification. La vérification des composants du modèle (entrées,

sorties, règles, ect) doit se faire au niveau supérieur (antérieur), c’est-à-dire au niveau du

modèle conceptuel. Le développeur doit ainsi revoir son modèle et interagir davantage avec

l’expert. Toutefois, cette étape reste la plus critique car le développeur n’est pas un

épidémiologiste qui à son tour n’est pas un adepte des méthodes et langages de modélisation.

Identifier la structure et les paramètres du modèle les plus optimaux en utilisant des méthodes

qui adressent à la fois l’incertitude structurelle et paramétrique, sont un problème crucial pour

une tâche de modélisation épidémiologique. En effet, dans plusieurs travaux récents, il a été

constaté un engouement assez important pour l’identification des paramètres. Par contre,

l’optimisation de la structure du modèle n’est référencée que par peu de travaux voir même

une présence marginale.

Dans ce chapitre, nous allons présenter les travaux liés à l’optimisation des modèles

épidémiologiques. Mais avant toute chose, un point essentiel doit être établi, car avant de

tenter d’optimiser un modèle épidémiologique le développeur et l’expert doivent s’assurer

qu’aucune initiative d’erreur humaine n’a été commise. Autrement dit, lors de l’interaction

entre expert et développeur, plus précisément lors des étapes de réalisation du modèle

conceptuel, les informations émanantes de l’expert peuvent être mal assimilées et interprétées

par le développeur sans que cela ne puisse être détecté lors de la simulation et génération des

résultats. Ce qui dérive vers une conception incertaine où l’expert est sûr d’avoir fourni le

nécessaire pour l’étude et le développeur d’avoir correctement conçu son modèle. Afin de

démarrer un processus d’optimisation sur des bases solides, nous proposons dans cette

première partie de ce chapitre de revoir les techniques en relation avec l’étape de vérification

des modèles. Puis la deuxième partie sera consacrée aux travaux d’optimisation.


30

2.2 Vérification des modèles épidémiologiques

2.2.1 Définition

Tel que nous l’avons spécifié précédemment, il y a deux étapes pour juger qu’un modèle est

optimal ou non : la vérification et la validation. La validation est un processus permettant de

comparer les résultats de simulation aux données observées. Toutefois, quand la validation est

négative une vérification s’impose (Railsback et Grimm, 2011).

La vérification d’un modèle se base sur la révision des hypothèses, entrées, sorties et règles

prédéfinies. Ainsi, la vérification est un processus itératif qui s’effectue principalement au

niveau de la description et la spécification du modèle afin de vérifier que les exigences

spécifiées lors de la conception sont satisfaites (Lewis, 1992). Selon Cook et Skinner (2005)

lors de l’étape de vérification, la question qui se pose est : est-ce que nous avons correctement

conçu le modèle ? Alors que dans l’étape de validation : est-ce que nous avons conçu le bon

modèle ?

Il est important de noter que cette phase est très importante car les modèles épidémiologiques

en question, se trouvent être des modèles normatifs jouant un rôle de description, de

prédiction et de prise de décisions. Ainsi, ni le développeur ni l’expert n’ont droit à l’erreur.

Nous précisons également, que le terme vérification employé ici exclu la notion de

vérification lexical et syntaxique du code développé en outre la vérification du code, car

l’outil Bio-PEPA prend en charge ce type de vérification. Ainsi, nous nous focalisons

uniquement sur la vérification des connaissances acquises ou exploités dans le modèle.

2.2.2 Techniques de vérification des modèles

Plusieurs techniques de vérification ont été instaurées (Balci, 1998 ; Hillston, 2003, Petty,

2010), les plus communément utilisées sont :

1. Analyse structurée étape par étape : cette technique consiste à expliquer le modèle à

d’autres personnes afin que le développeur puisse revenir vers les détails de son modèle et

découvrir d’éventuels problèmes. Même si les auditeurs ne comprennent pas les détails du

modèle, ou du système, le développeur peut déceler les défaillances simplement en présentant

avec soin son modèle (Knepell and Arangno, 1993; Scheller et al., 2010).

2. Modèles simplifiés : cette technique propose de réduire le modèle à son comportement

minimal possible. Elle est généralement complémentaire à la précédente, puisque cette

dernière est considérée comme un processus qui peut être couteux en temps de calcul.

Cependant, un modèle qui fonctionne pour des cas simples n'est pas garanti pour des cas plus

complexes. D'autre part, Hillston (2003) confirme qu’un modèle qui ne fonctionne pas pour

des cas simples ne fonctionnera certainement pas pour les plus complexes.

3. Simulations déterministes : utiliser des valeurs déterministes comme paramètres de

simulation à l’inverse des variables aléatoires peut aider le modélisateur à voir si le modèle se


31

comporte correctement. Ce n'est que lorsqu’il est convaincu que la représentation

comportementale des entités est effectivement correcte qu’il introduira des variables

aléatoires pour représenter les temps inter-événements en utilisant des distributions à temps

continu. Toutefois, cette technique ne convient pas à quelques modèles tel que les modèles

markoviens qui eux ne peuvent être résolus que par des distributions exponentielles (Kleijnen,

1995 ; Balci, 1998).

4. Animation : l'animation fournit des informations sur le comportement interne du

modèle sous une forme graphique pendant l'exécution du modèle. Dans certains systèmes,

l'affichage représentera des informations de haut niveau sur la valeur actuelle des mesures de

performance. L'animation peut prendre la forme d'une analyse automatisée en une étape, telle

que les outils stochastiques graphiques de réseaux de Petri et de file d'attente dans laquelle des

jetons ou des clients peuvent être vus lors de leur déplacement dans le réseau. Cependant, la

manipulation de l'affichage ainsi que l'évolution du modèle ralentit considérablement la

simulation (Sargent, 2005).

5. Variation des valeurs des paramètres : Pour un paramètre quelconque, une légère

perturbation d'entrée ne devrait généralement produire qu'une légère modification de la

production. Toute modification soudaine de la sortie est considérée comme une indication

d'une erreur possible qui doit être étudiée à moins que ce soit un comportement connu du

système (Sargent, 2005 ; Balci, 1998).

6. Comparaison du modèle exécutable au modèle conceptuel : Cette technique permet de

vérifier si les données et les opérations définies dans le modèle conceptuel sont identiques au

modèle simulable (computationnel). Elle se base sur le principe du raisonnement inductif

(Petty, 2010).

7. Vérification par l’expert du domaine : généralement cette technique est partagée entre

l’étape de validation et l’étape de vérification. Elle est référencée par la technique de l’analyse

étape par étape citée ci-dessus. Elle se base principalement sur l’intuition de l’expert à

détecter les erreurs et les incohérences commises lors de la conception (Petty, 2010).

En revoyant cette série de techniques, il est bien clair qu’elles se distinguent selon deux

types : i) les techniques en relation avec la simulation (technique 3, 4 et 5); ii) les techniques

en relation avec la conception (technique 1, 2, 6 et 7). A ce stade, notre but étant de détecter

les anomalies qu’un développeur a pu commettre suite à une mauvaise interaction avec

l’expert ou une faible assimilation des connaissances acquises, le deuxième type semble être

le plus approprié. Toutefois, la technique N°2, bien qu’elle soit en relation avec la conception,

n’est pas adéquate à notre objectif car nous jugeons que le niveau de complexité initial est en

fonction des besoins prioritaires et fondamentaux de l’épidémie à reproduire. Ainsi, nous nous

focaliserons sur les techniques 1, 6 et 7.

Le choix entre ces trois techniques reste très sensible du fait de leur inter-corrélation. Nous

proposons dans le chapitre 4 une approche qui nous permet une ouverture dans les choix et

ainsi de combiner entre les trois techniques. Nous l’avons baptisé « du modèle formel au

modèle narratif » (cf. Chapitre 4).


32

2.3 Optimisation des modèles computationnels

2.3.1 Définition

L’optimisation est une approche permettant de trouver la meilleure solution au du moins la

plus optimale entre plusieurs demandes conflictuelles soumises à des contraintes prédéfinies.

L’optimisation se base principalement sur trois concepts : ensemble de solution admissibles,

la fonction objectif et les contraintes. Un problème d’optimisation consiste selon des

contraintes prédéfinies à sélectionner une solution permettant d’optimiser (maximiser ou

minimiser) la valeur de la fonction objectif (Oremland, 2011).

L’optimisation n’est certainement pas un nouveau concept en modélisation computationnelle

et encore moins dans le domaine épidémiologique, où le concept d’optimisation a été

principalement exploité dans un objectif d’identification des entrées et des paramètres du

système permettant d’aboutir à un comportement souhaité. Toutefois, peu de travaux

d’optimisation sont à référencer en modélisation par les algèbres des processus. Avant de

passer en revue les travaux existant (cf. section 4), nous présentons au préalable les

différentes approches les plus communément utilisées en modélisation épidémiologique.

2.3.2 Méthodes d’optimisation

Les méthodes d’optimisation peuvent être déterministes ou stochastiques. Les algorithmes

déterministes aboutissent à une solution identique si les même conditions d’entrées sont

utilisées tandis que les algorithmes stochastiques peuvent proposer une solution différente à

chaque exécution et ce quelque soient les données d’entrées (Koziel et Yang, 2011).

Toutefois, due à la nature variable et dynamique des modèles épidémiologiques auxquels nous

nous référons dans se travail de thèses, il est plus judicieux de se focaliser sur les méthodes

stochastiques.

2.3.2.1 Méthodes évolutionnaires

Sont des méthodes dites approchées, elles consistent à manipuler une ou plusieurs

solutions, à la recherche de l’optimum, la meilleure solution au problème. Ceci en minimisant

ou maximisant une fonction objectif qui décrit la qualité d’une solution au problème. Le

concept de ces méthodes est de générer un groupe initial de solutions aléatoires, bien que

certaines connaissances antérieures puissent être introduites dans la première génération. Ces

solutions sont évaluées par rapport à un comportement souhaité; Les individus (solutions

candidates) à scores élevés sont plus susceptibles de transmettre leurs attributs à des solutions

futures alors que les individus les plus pauvres disparaissent. Les algorithmes les plus

communément utilisés sont : les algorithmes génétiques, les colonies de fourmis et les essaims

particulaires. Ces algorithmes inspirés du vivant se focalisent principalement sur les individus

et leurs interactions dans la population à la quelle ils appartiennent.

Optimisation par les algorithmes génétiques. Reproduit une population initiale (ensemble

de solutions admissibles codées en une chaine de caractères) qui par la suite sera sujet à des

opérations telles que la mutation, le croisement et la sélection. Ces opérations permettront de


33

reproduire de nouvelle génération jusqu’à ce que la solution la plus optimale soit atteinte

(Patel et al., 2005; Castiglione et al., 2007 ; Pappalardo et al., 2010).

Optimisation par colonies de fourmis. Résout le problème d’optimisation par la

modélisation des fourmis et le traçage de leurs phéromones (Dorigo et al., 1996; Karpenko et

al., 2005 ; Brailsford et al., 2007 ; Blum, 2005). Dans leur nature, les fourmis marquent le

chemin entre leur nid et la nourriture trouvée, par leurs phéromones. Les chemins les plus

empruntés seront intensifiés par la quantité de phéromones tandis que les phéromones des

chemins les moins utilisés disparaitront avec le temps.

Optimisation par essaims particulaires. Reproduit le comportement d’un groupe

d’oiseaux (ou de poissons) et leur collaboration. Ainsi, grâce à des règles de déplacement très

simples (dans l'espace des solutions), les particules (les individus) peuvent converger

progressivement vers un minimum local (Wu et al., 2012 ; González-Parra et al., 2015).

2.3.2.2 Optimisation par analyse de sensibilité

Permet d’analyser un modèle en étudiant l’impact de la variabilité des facteurs d’entrées

du modèle sur sa variable de sortie. En utilisant des indices de sensibilité, l’analyse de

sensibilité permet de restreindre les variables d’entrées à celles ayant un impact sur la sortie

du modèle. Ainsi, les valeurs des variables restantes seront fixes.

Nous pouvons distinguer deux types de méthodes d’analyse de sensibilité : Locale et

globales (Dhingra et al., 2013).

Optimisation par analyse locale. Evalue quantitativement l’impact de la variation d’une

seule variable d’entrée sur la sortie du modèle à optimiser.

Optimisation par analyse globale. Analyse la variabilité de la sortie du modèle par la

variation de l’intégralité de ses entrées. Ainsi, l’analyse pourra définir la répercussion de telle

entrée ou tel ensemble d’entrées sur la sortie du modèle.

2.4 Optimisation des modèles épidémiologiques : Etat de l’art

Nous rappelons que l’ensemble des méthodes citées dans la section précédente sont le résultat

de l’ensemble de travaux ayant fait l’objet d’optimisation des modèles computationnelle.

Toutefois, nous préférons donner un autre angle de vue en classifiant l’optimisation des

modèles épidémiologiques entre autre ceux à base des algèbres des processus selon l’objectif

à atteindre. Cette classification se spécifient par deux types d’optimisation : 1) paramétrique;

2) structurelle.

2.4.1 Optimisation paramétrique

Les développeurs ont estimé que le paramétrage (estimation des valeurs des paramètres) est

l’un des plus grand challenge de la modélisation. Sumner (2010) argumente que les

paramètres sont souvent estimés dans un large intervalle ou associés à un haut niveau

d’incertitude.


34

Travaux connexes à l’optimisation paramétrique

La recherche effectuée dans le domaine de l’optimisation paramétrique n’est pas récente où la

plus part des travaux se sont focalisés sur l’analyse de sensibilité et les méthodes

évolutionnaires. Blower et Dowlatabadi (1994) ont développé un modèle mathématique

déterministe afin de décrire l’épidémie du SIDA. Les auteurs ont souligné la complexité du

modèle accentuée par un haut niveau d’incertitude dans l’estimation des valeurs de ses

paramètres. Les auteurs ont proposé d’appliquer une analyse d’incertitude afin d’évaluer

l’impact des paramètres d’entrées sur les résultats du modèle. L’étude a été soutenue par une

analyse de sensibilité où les paramètres qui contribuent le plus à une prédiction incertaine ont

été identifiés. L’analyse d’incertitude adoptée a été basée sur l’hypothèse que les paramètres

d’entrées sont principalement indépendants. Sous cette hypothèse, les auteurs ont souligné

que les résultats établis sont étroitement liés à la structure du modèle et que toute autre

proposition structurelle influencerait grandement les résultats de l’analyse de sensibilité et

d’incertitude. Ainsi, les auteurs ont défini 20 paramètres dans leur modèle du SIDA où ils ont

pu identifier trois paramètres critiques à une prédiction optimale : la transmission par injection

d’aiguille, la transmission sexuelle et la période d’incubation.

Porco et Blower (1998) ont analysé le modèle de la tuberculose en absence du traitement

selon 11 paramètres. En utilisant l’analyse de sensibilité, les auteurs ont évalué la variabilité

de résultats épidémiologiques du modèle au cours de la progression d'une épidémie de

tuberculose. Les valeurs calculées à partir de l'analyse d'incertitude pour l'incidence de la

maladie, la prévalence de la maladie et les taux de mortalité étaient approximativement

conformes aux données historiques. L'analyse de sensibilité a révélé que seuls quelques

paramètres d'entrée du modèle influaient de façon significative sur la sévérité de l’épidémie

de tuberculose. Ces paramètres étaient le taux de réactivation de la maladie, la fraction

d'individus infectés qui développent la tuberculose peu de temps après l'infection, le nombre

d'individus infectés par an, le taux de mortalité par maladie et le taux de naissance. Au-delà de

cette découverte, les auteurs ont démontré que l’incertitude dans le taux de contact entre

individus est la cause majeure de l’incertitude dans la prévalence de la maladie. Ainsi, Proco

et Blower (1998) ont déclaré qu'il est possible d'améliorer la compréhension du comportement

des épidémies de tuberculose en appliquant l'analyse de sensibilité au modèle de transmission.

En 2008, Legrand et al. (2008), ont proposé un modèle mathématique pour simuler la

dynamique de l’épidémie de la tuberculose (TB) en prison et évaluer l'impact de plusieurs

stratégies d’intervention sur sa prévalence. Pour quantifier l'impact de la variation de chaque

paramètre sur la sortie du modèle, les coefficients de corrélation de rang partiel (PRCC) entre

chaque paramètre et la prévalence moyenne prédite de TB active pour chaque stratégie ont été

calculés. L’analyse de sensibilité et d’incertitude du modèle ont montré qu’en ajoutant un

examen annuel de dépistage par radiographie des détenus la prévalence de la tuberculose

active a été réduite en dessous de 1%. En outre, selon ce modèle, après avoir appliqué cette

stratégie pendant deux ans (trois dépistages annuels), la charge de tuberculose serait réduite et

la prévalence de la TB active pourrait être maintenue à un faible niveau en associant le

dépistage des rayons X au traitement contre la tuberculose. Legrand et al. (2008) ont

également constaté que le taux de transmission, l’immunité acquise d’une infection ultérieure


35

et le taux de mortalité des tuberculeux non-traités sont les paramètres clés ayant un impact

décisif sur l’évolution de la maladie où le reste des paramètres (14 paramètres) n’avait pas une

grande influence.

Andrews et Basu (2011) ont conçu un modèle mathématique de transmission du choléra basé

sur des modèles existants et l’ont adapté aux données d'incidence signalées en Haïti. Plusieurs

simulations ont été réalisées selon des stratégies variables afin d’estimer l'effet de l'eau

potable, la vaccination et l'amélioration des programmes de distribution d'antibiotiques. Les

prédictions du modèle ont prévu : qu’une réduction de 1% par semaine de la consommation

de l'eau contaminée éviterait 105 000 cas et 1 500 décès ; que la vaccination de 10% de la

population éviterait 63 000 cas et 900 morts et que l'extension proposée de l'utilisation

d'antibiotiques à tous les patients atteints de déshydratation sévère et la moitié des patients

avec une déshydratation modérée devrait prévenir 9000 cas et 1300 décès. Les auteurs ont pu

identifier par une étude de sensibilité que parmi les 19 paramètres définis dans le modèle de

choléra, la taille du réservoir n’affecte pas substantiellement la prédiction de la maladie.

L’étude réalisée par Oaken (2014) diffère de celles présentées ci-dessus dans le sens où son

but n’est pas uniquement de sélectionner les paramètres les plus pertinents mais plutôt

d’optimiser les valeurs des paramètres de leurs modèles à base d’algèbre des processus, pour

le faire correspondre le plus possible aux données observées. Oaken (2014) a utilisé les

algorithmes génétiques afin d’optimiser son modèle de SIDA développé en PEPA. L’auteur

s’est focalisé sur le taux d’infection et d’immigration où il a pu identifier les valeurs les plus

optimales pour son modèle. Prandi (2010) a utilisé les essaims particulaires afin d’optimiser

les paramètres d’un modèle à base d’algèbre des processus associé à la nourriture écologique

ayant un comportement oscillatoire. L’auteur a pu reproduire un modèle conforme au système

original. En 2013, un outil spécifique à l’optimisation des paramètres pour les modèles à base

de Bio-PEPA a été développé « SBSI » par le groupe SynthSys de l’université d’Edinburgh

(UK) (Adams et al., 2013). En utilisant les algorithmes génétiques, l’outil SBSI permet

d’ajuster les valeurs des paramètres selon les sorties du modèles les plus optimales. Karpenko

et al. (2005) ont appliqué l’optimisation par colonies de fourmis pour l'identification d'un

alignement multiple d'un ensemble de séquences de protéines courtes (peptides) utile au

développement de vaccins. Les alignements les plus favorables ont pu être sélectionnés.

2.4.2 Optimisation structurelle

Ce type d’optimisation consiste à sélectionner la structure la plus appropriée répondant au

mieux à la dynamique d’une épidémie et permettant de dériver vers des prédictions optimales

(comparables à la réalité).

Travaux connexes à l’optimisation structurelle

A l’inverse de l’optimisation paramétrique, peu de travaux se sont focalisés sur l’optimisation

structurelle d’un modèle. Toni at al. (2009) ont développé l’outil ABC-SysBio à base de

formalisme SBML couplé au modèle de sélection bayésien. Les auteurs ont proposé de

corriger l'incertitude structurelle en permettant à l'utilisateur d'énumérer explicitement les


36

structures alternatives du modèle qui sont par la suite testées et comparées. Les auteurs ont

donc défini un modèle épidémique de la grippe inspiré des travaux d’Anderson et May (1991)

où ils ont proposé 4 différentes structures (SIR, SIR avec délai, SEIR et SEIRS) auxquels ils

ont joint les paramètres correspondants. Leur modèle SEIR a été sélectionné comme étant le

plus optimal. Cependant, les auteurs soulèvent une anomalie par rapport à la taille initiale de

la population susceptible qui est assez basse comparé à la population totale, et suggère que

leur exemple d’application pourrait ne pas bien répondre à une structure générale et à

population homogène. Les auteurs argumentent qu’au-delà de cette limite, leur outil a pu

sélectionner le modèle et les résultats les plus plausibles selon une estimation réaliste des

paramètres.

Tanevski et al. (2016) argumentent que l'identification d'une structure de modèle appropriée,

en utilisant des méthodes qui traitent à la fois de l'incertitude structurelle et des paramètres,

est un problème crucial dans l'approche systémique de la biologie. Les auteurs déclarent que

malgré l’existence de nombreuses approches intégrant les méthodes de simulation et

d'estimation de paramètres d'un seul modèle pour résoudre l'incertitude des paramètres, seules

quelques-unes répondent à l'incertitude structurelle en même temps (Toni et al, 2009;

Džeroski et Todorovski, 2008). Cependant, les auteurs soulignent d’une part le fait que ces

méthodes de gestion de l'incertitude de structure simplifient souvent le problème en

permettant au modélisateur humain d'énumérer explicitement un nombre relativement petit de

structures de modèles alternatives. D'autre part, les méthodes de modélisation par processus

fournissent des formalismes modulaires flexibles pour spécifier de grandes classes de

structures de modèles plausibles, mais leur portée est limitée aux modèles déterministes. Dans

leur perspective d’optimiser les modèles stochastiques à partir des connaissances et des

données, les auteurs ont combiné la souplesse de la modélisation basée sur les processus pour

aborder l'incertitude structurelle avec les avantages de la modélisation stochastique. La

méthode proposée combine la recherche à travers l'espace de structures de modèles plausibles,

le principe de parcimonie et l'estimation de paramètres pour identifier un modèle à structure et

paramètres optimaux. Les auteurs ont principalement ciblé la limite du travail accompli par

Toni et al (2009) où les propositions des structures sont énumérées ce qui peut être couteux en

temps et espace mémoire et ont de ce fait, proposé de l’améliorer en définissant chaque point

supplémentaire (différenciant une structure d’une autre) comme étant un composant du

modèle disjoint. Ainsi, pour modéliser l’épidémie de la peste (resp. épidémie de la grippe), les

auteurs ont défini tous les compartiments possibles - S : susceptible, L : latent, I : infected, Q :

quarantine et R : recovered (resp. S, L, I et R), puis l’approche entame une cross-corrélation

entre les différents compartiments et évalue la structure qui est la plus optimale en les classant

par ordre de pertinence. Ainsi, le contrôle est défini dans un champ plus large que celui

d’énumérer manuellement les différentes structures. Les auteurs ont pu conclure que les

structures telles qu’ordonnées : SIR et SLIR (resp. SLIR et SIR) sont les plus optimales pour

l’épidémie de la peste (resp. épidémie de la grippe).

Oaken3 (2014) déclare que la définition des modèles requit une expertise à la fois du

développeur et de l’expert du domaine. L’auteur argument que même si un modèle est

3 D. Oaken est aussi connu sous le nom de D. Marco


37

correctement conçu, ajuster les valeurs des paramétrer des entrées pour une meilleure

correspondance entre les sorties et les données observées est souvent une tâche fastidieuse.

This is the well-known parameter fitting problem. Oaken et al. (2012) proposent d’utiliser les

algorithmes évolutionnaires, ces derniers permettent de trouver des solutions aux problèmes

d'optimisation avec de grands espaces de recherche et sont bien adaptés à l'étude des

problèmes d'ajustement de paramètres. Les auteurs présentent une approche combinant la

computation évolutionnaire à la modélisation par les algèbres des processus, baptisée « EPA :

Evolving Process Algebra. En autre, la structure de leur modèle à base de Bio-PEPA a été

optimisée et les paramètres ajustés. Pour Oaken, optimiser la structure n’est pas de proposer

différents compartiments tel qu’il a été le cas pour Toni et Tanevski, mais plutôt d’optimiser

et raffiner les interactions entre compartiments. Ainsi, son approche définit les actions telles

que des composants disjoints et test le degré de pertinence d’affectation de chaque action à

chaque compartiment (espèce). Leur modèle appliqué à l’épidémie de la rougeole développé

par Benkirane et al. (2012), leur a permis de confirmer la validité de la structure définie par un

modèle SEIR.

2.5 Discussion et conclusion

Bien que ces techniques d’optimisation paramétrique et structurelle ont permis de raffiner

l’espace des valeurs des paramètres et les différentes structures existantes, toutefois, elles ne

se basent que sur un existant hypothétique. Autrement dit, d’une part les valeurs soumises à

l’optimisation ne sont extraites que d’un intervalle initialement défini et souvent présumé par

l’expert ou bien elles sont résumées de l’ensemble des travaux existants. En d’autre part, les

structures sélectionnées par les modélisateurs sont soient proposées par les experts ou bien

extraites des expériences épidémiologiques ultérieures. En conclusion, ces approches et

techniques d’optimisation ne permettent pas d’ajouter un élément nouveau ou de rappeler aux

développeurs et épidémiologistes le cas d’une omission ou ignorance. Afin de pallier ce point

important qui jusque-là est ignoré par le monde de la modélisation, nous proposons dans le

chapitre suivant d’exploiter d’autres horizons, en outre la fouille de données, ce qui permet

d’élargir le champ des connaissances utiles à une modélisation épidémiologique optimale.

Optimiser les modèles épidémiologiques en exploitant des connaissances acquises d’un

processus tel que la fouille de données permet non seulement de réaliser ce qui est impossible

par une simple analyse humaine et donc elle simplifie et contribue l’extraction de nouvelles

connaissances parmi des bases de données massives et complexes, mais aussi elle permet de

décroitre et corriger les erreurs humaines potentielles. De par cette approche proposée, les

modèles computationnel existants et qui pour des raisons d’incertitude ont été critiqués,

réfutés et ignorés, pourront resurgir et remis à ce nouveau processus d’optimisation.

Chapitre 3

La fouille de données pour l’épidémiologie humaine

Sommaire

3.6 Introduction

3.7 Processus d’extraction des connaissances

3.7.1 Prétraitement des données

3.7.1.1 Nettoyage

3.7.1.2 Transformation

3.7.1.3 Sélection des attributs

3.7.2 Fouille de données

3.7.2.1 Prédiction

3.7.2.1.1 Classification

3.7.2.1.2 Régression

3.7.2.2 Description

3.7.2.2.1 Segmentation

3.7.2.2.2 Règles d’association

3.2.3 Evaluation et interprétation

3.2.3.1 Matrice de confusion

3.2.3.2 Confiance

3.2.3.3 ROC (Receiver operator characteristic test)

3.3 Synthèse de l’application de la fouille de données en épidémiologie

3.3.1 La classification

3.3.2 La régression

3.3.3 La segmentation

3.3.4 Les règles d’association

3.4 Fouille de données pour la modélisation épidémiologique

3.4.1 Travaux connexes

3.4.2 Optimisation des modèles computationnels par la fouille de données

3.5 Conclusion

Chapitre 3 La fouille de données pour l’épidémiologie humaine

39

3.1 Introduction

Bien que les techniques d’optimisation paramétrique et structurelle discutées au chapitre 2 ont

permis de raffiner l’espace des valeurs des paramètres et les différentes structures existantes,

toutefois, elles ne se basent que sur un existant hypothétique. En effet, ces approches et

techniques d’optimisation ne permettent pas d’ajouter un élément nouveau ou de rappeler aux

développeurs et épidémiologistes le cas d’une omission ou ignorance. Afin de pallier ce point

important, nous proposons dans ce chapitre d’assister l’étape de l’interaction entre l’expert et

le développeur par le processus de fouille de données. Ce dernier permet non seulement de

réaliser ce qui est impossible par une simple analyse humaine et donc il simplifie l’extraction

de nouvelles connaissances parmi des bases de données massives et complexes, mais aussi il

permet de décroitre et corriger les erreurs humaines potentielles. Ainsi, ce chapitre se focalise

sur les notions de base de la fouille de données et son application au domaine

épidémiologique.

3.2 Processus d’extraction des connaissances

L’extraction des connaissances est un processus qui se déroule selon tois étapes (1)

prétraitement des données, (2) fouille de données et (4) évaluation et interprétation (Fayyad,

1996a ; Gibert et al., 2008).

Note : les méthodes et techniques citées dans cette section sont exploitées autant que boite

noire. Pour une description détaillée de ces techniques, nous invitons le lecteur à consulter les

références correspondantes.

3.2.1 Prétraitement des données

Prétraitement de données consomme généralement la majeure partie de l'effort investi dans le

processus d'extraction des connaissances. Cabena et al. (1998) ont estimé que le prétraitement

des données compte environ 60% de l’effort investi dans les applications de fouille de donnée.

En effet, bien des travaux (Brahami, 2014 ; Garcia et al. 2015 ; Inbarani et al., 2014) ont

montré que les données collectées requirent souvent un filtrage. Quand la qualité des données,

d’un point de vu : forme, importance et utilisation est moindre, l’utilisateur doit

impérativement y remédier. Ainsi, pour un processus d’extraction de données optimal, les

principales caractéristiques devant être prises en considération sont (Gorunescu, 2011): la

précision, la fiabilité, la validité, l'exhaustivité et la pertinence. Ceux-ci peuvent être réalisés

par les opérations de nettoyage, de transformation et de sélection des attributs.

3.2.1.1 Nettoyage

Cette opération sur les données implique la gestion des principaux problèmes suivants (Rao et

Makkithaya, 2016 ; Chandola et al., 2009) :

Le bruit et les valeurs aberrantes. Le bruit se réfère à la distorsion des valeurs d'origine,

en raison de différentes interférences qui se produisent principalement dans le processus de

collecte de données. Fondamentalement, une valeur aberrante est un objet qui est, d'une

certaine manière, éloignée du reste des données. En d'autres termes, il représente un objet


40

«étranger» dans le jeu de données, avec des caractéristiques très différentes de la plupart des

autres objets dans l'ensemble de données. Les valeurs aberrantes peuvent avoir une influence

considérable sur les résultats, tel qu’il a été argumenté par Van Hulse et al. (2007), une

mauvaise qualité des données peut dissimuler les patterns qui peuvent exister. Selon

Khoshgoftaar et Rebours (2007), Zhu et Wu (2004), la présence d’erreurs dans les données

pour un problème de classification diminue la précision de prédiction. Souvent générés par

des erreurs de mesure, les valeurs aberrantes sont éliminées de l'ensemble de données. Selon

Garcia et al. (2015), le bruit et les valeurs aberrantes sont principalement nuisibles pour

l’apprentissage supervisé, où la relation entre les attributs et la classe est altérée. Plusieurs

approches ont été étudiées dans la littérature pour traiter les données bruitées, parmi les plus

utilisées (Khoshgoftaar et Rebours, 2007; Fukunaga, K, 2013 ; Verbaeten et Van Assche,

2003 ; Zhu et Wu, 2006 ; Bonissone et al. 2010) : Robust learners, Data polishing methods et

Noise filters.

Valeurs manquantes. Dans les cas où il n'y a pas de valeur disponible pour certains

attributs des objets dans la base de données, nous parlons de valeurs manquantes.

Fréquemment, les valeurs sont manquantes essentiellement quand une opération maladroite a

été effectuée, telle que l’enregistrement ou la suppression de données par erreur, ou encore le

retrait des données de l'étude parce que l'attribut a répondu de façon inappropriée à l'étude

(Gibert, 2008). Cependant, dans le secteur médical et épidémiologique, la situation la plus

fréquente est liée au fait que les données ne peuvent être collectées.

Afin de pallier ce problème qui est un phénomène courant dans de nombreuses situations de la

vie réelle, des méthodes spécifiques ont été développés. Unnebrink et Windeler (2001) ont

étudiés l’impact des valeurs manquantes lors de l’analyse de la maladie de l'ostéoporose. Afin

d’optimiser leur analyse, les auteurs ont appliqués différentes techniques de traitement des

valeurs manquantes telles que : Last observation carried forward, mean and regression based

methods, rank based methods et dichotomization based methods, pour de plus amples

descriptions de ces techniques voir (Garcia et al, 2015). Toutefois, Gorinescu (2011) a

généralisé ces techniques en deux principales procédures:

• Les attributs dont les cellules vides (blanc) dans la base de données se référant comme

«valeur manquante» sont ignorés;

• substitution des valeurs manquantes par la valeur moyenne/médiane correspondante à

l’attribut concerné. Si les valeurs sont nominales, la valeur manquante est remplacée par

la valeur la plus courante. Si les valeurs sont numériques, la valeur manquante est

substituée par leur moyenne.

Duplication des données. Les bases de données peuvent inclure des objets de données qui

sont des doublons, à savoir, des objets identiques se produisent de façon répétée dans

l'ensemble de données, tels qu’un patient qui se répète dans la base. La simple solution à ce

problème est l'élimination des doublons (Rao et Makkithaya, 2016).


41

La procédure de nettoyage de données est extrêmement laborieuse et coûteuse en temps,

mais qui est absolument nécessaire pour une exploration de données réussie (Garcia et al.,

2015 ; Witten et al., 2011).

3.2.1.2 Transformation

Une extraction des connaissances réussie implique beaucoup plus qu’une opération de

nettoyage. FitzHenry et al (2015) et Witten et al (2011) démontre l’importance d’un

formatage et d’une structuration appropriés des données lors du processus de fouille de

données (data mining). Les auteurs citent différentes techniques dont les principalement

utilisées sont:

Discrétisation. Bien des algorithmes de la fouille de données ne peuvent faire face aux

valeurs continues d’un attribut (Inbarani et al. 2014), tels que les règles d’association, ces

dernières imposent l’utilisation d’attributs nominaux au lieu des numériques, d’où la nécessité

de les discrétiser. Toutefois, Witten et al. (2011) argumentent que même si les algorithmes

d’apprentissage peuvent gérer les attributs numériques, tel que les arbres de décision, les

résultats associés à ces derniers sont moins performants que ceux des attributs nominaux.

D’une manière générale, la discrétisation consiste à transformer les données quantitatives en

données qualitatives (attributs numériques en attributs nominaux) en triant les instances de la

valeur de l'attribut et en affectant la valeur dans des plages aux points que la valeur de la

classe change, au respect du nombre minimal d'instances dans la classe majoritaire doit se

trouver dans chacune des plages (Brahami et al., 2013). Ceci signifie que toute plage de

données peut comprendre un mélange de valeurs de classe. Il est à noter que cette définition

est uniquement associée au cas où la classe est prédéfinie (apprentissage supervisé). Dans le

cas contraire, le principe de la discrétisation est de diviser les données en un nombre

prédéterminé d'intervalles égaux: un critère fixe de données indépendantes. Cela se fait

fréquemment au moment où les données sont recueillies. Mais, cette méthode de

discrétisation fait courir le risque de définir des plages trop larges ou un choix de bornes

inadéquates.

Transformation d’un attribut numérique à nominal et inversement. La discrétisation est

souvent pratique quand un grand champ de valeurs d’un attribut est disponible. Toutefois, ceci

devient inadéquat pour un champ de valeur très petit. La solution est de transformer

directement ces valeurs numériques en valeurs nominales sans pour autant les discrétiser

(Gibert, 2008).

Transformation d’une classe multiple en une classe binaire. Quelques algorithmes de la

fouille de données tel que l’algorithme « machine à vecteurs de support » (SVM) ne peuvent

gérer les classes multiple, d’où la nécessité de transformer ces dernières en classes binaires.

Le principe de cette technique est de générer pour chaque valeur de la classe multiple une

classe binaire. Pour chaque classe binaire un ensemble de données est généré contenant une

copie de chaque instance des données d'origine, mais avec une valeur de classe modifiée. Si

l'instance a la classe associée à l'ensemble de données correspondant, elle est étiquetée oui;

sinon, non (Sullivan, 2012).


42


Dans de nombreuses situations pratiques lors de la collecte des données, il y a beaucoup trop

d'attributs à manipuler, et certains d'entre eux sont manifestement non pertinents ou

redondants. Selon Garcia et al (2015), avoir un nombre important d’attributs accroit

exponentiellement l’espace de recherche et décroit les chances d’obtenir un modèle valide.

Par conséquent, un sous-ensemble d’attributs doit être sélectionné avant la phase de la fouille

de données. Bien sûr, de nombreux algorithmes de la fouille de données, tels que les arbres de

décision eux-mêmes sont conçus pour sélectionner les attributs les plus pertinents de manière

appropriée et ignorer ceux qui ne le sont pas ou sont redondants, mais en pratique, leur

performance peut souvent être améliorée par la présélection. La phase de sélection permet la

réduction de la dimensionnalité des données en supprimant les attributs les moins performants

(Mokaddem et al., 2013). Plus important encore, la réduction de la dimensionnalité donne une

représentation plus compacte, plus facilement interprétable du concept cible, en ne focalisant

l'attention de l'utilisateur que sur les variables les plus pertinentes. Il existe deux approches

fondamentalement différentes pour la phase de sélection (Inbarani et al. 2014 ; Dash et Liu,

1997 ; Rokach et Maimon, 2005 ; Karegowda et al., 2010). La première consiste à procéder à

une évaluation indépendante basée sur les caractéristiques générales des données; la deuxième

consiste à évaluer le sous-ensemble en utilisant l'algorithme d'apprentissage qui sera

finalement utilisé pour l'apprentissage. La première est appelée la méthode « filter », en se

basant sur des mesures d’évaluation des attributs à filtrer telles que l’information, la distance,

la dépendance ou encore la consistance, l'ensemble des attributs est filtré pour produire le

sous-ensemble le plus prometteur avant que l'apprentissage ne commence. Parmi les

algorithmes « filter » les plus utilisés, Correlation-based feature selection (Hall et al., 2009 ;

Karegowda et al. 2010), Filtered subset evaluator (Macas et al., 2012) et Consistency-based

filter (Dash and Liu, 2003). La deuxième méthode est appelée la méthode « wrapper » où

l'algorithme d'apprentissage est enveloppé dans la procédure de sélection. Ainsi l’algorithme

utilise une méthode d’apprentissage comme première étape ; à ce niveau l’évaluation des

attributs se base sur le critère de performance de l’apprentissage (accuracy). Les attributs

sélectionnés seront ainsi soumis aux techniques de la fouille de données. Parmi les méthodes

« wrapper » les plus répondues, Best first search (Dechter et Pearl, 1985), Sequential forward

search (Schaffernicht et al., 2007) et Wrapper subset evaluator (Witten and Frank, 2005 ;

Macas et al, 2012).

Au-delà de cette catégorisation des techniques de sélection des attributs, nous pouvons

distinguer deux autres catégories de techniques selon les résultats obtenus : 1) la première

catégorie consiste à ordonnancer les attributs selon un critère d’évaluation (précision,

dépendance, etc). Ainsi, tous les attributs sont sélectionnés mais un rang d’ordonnancement

leur est affecté. Selon cet ordre les attributs sont filtrés. 2) la deuxième catégorie consiste à

choisir l’ensemble minimum d’attributs satisfaisant le critère d’évaluation. Ainsi, uniquement

les attributs filtrés sont affichés. D’une manière plus concise, les techniques de sélection des

attributs peuvent être classifiées selon trois importants composants :


43

- Le sens de la recherché: en amont, en avale ou bidirectionnel;

- La stratégie de recherché: recherche complète, heuristique ou non-déterministe ;

- La mesure d’évaluation : information, distance, dépendance, consistance ou précision.

Nous rappelons ici qu’à ce niveau, le but de notre thèse n’est pas d’apporter une amélioration

à toutes ces méthodes de prétraitement et sélection mais simplement de les exploiter comme

boite noire pour une fouille de données plus optimale.

3.2.2 Fouille de données

La phase de prétraitement définie ci-dessus permet de préparer les données pour la phase de la

fouille de données. La fouille de données est une étape du processus d’extraction des

connaissances à partir d’un large volume de données (Fayyad et al., 1996b). Son objectif

majeur est d’identifier de nouveaux modèles de connaissances, valides, compréhensibles et

potentiellement utiles. Souvent le terme de fouille de données (data mining) est confondu par

un sens étroit avec le processus d’extraction des connaissances (knowledge dicovery in

database : KDD). Selon Fayyad et al. (1996b) et Friedman (1998), le KDD est le processus

d’identification de nouvelles données où la fouille de données est une étape incluse dans le

KDD spécifié par un ensemble d’algorithmes permettant l’extraction des connaissances

nouvelles à partir de données massives. L’une des forces de la fouille de données est qu’il

n’est pas nécessaire de savoir exactement ce que l’on cherche. En utilisant des outils et des

algorithmes d’analyse, nous pouvons explorer une montagne de données et extraire des

informations utiles et pertinentes qui étaient jusque là cachées, ignorées ou inconnues. Tel que

défini par Hand (1998): « Data Mining consists in the discovery of interesting, unexpected, or

valuable structures in large data sets ». Saporta (2004) le défini comme étant un outil

spécifique pour extraire des pépites à partir d’un gisement de données. Ainsi, la fouille de

données étant une phase clé du KDD, elle se base sur l’une des techniques suivantes :

classification, régression, règles d’association ou segmentation. Le choix de ces techniques

dépond fortement de la tâche à accomplir et du but de son exploitation. Witten et al (2011) ont

réparti les tâches de la fouille de données en deux catégories, prédictive et descriptive, où les

auteurs décrivent la classification et la régression comme des tâches prédictives, et les règles

d’association et la segmentation comme des tâches descriptive. Pour Garcia et al. (2015) les

tâches prédictives se référent généralement à l’apprentissage supervisé à l’inverse des tâches

descriptives qui se référent à l’apprentissage non-supervisé. Nous reviendrons avec plus de

détails dans les sections suivantes (cf. § 3.3).

Ainsi, selon l’objectif à atteindre et les données à manipuler, la fouille de données peut être

classifié selon deux catégories : prédiction et description (Hamami et al, 2017 ; Wang et al.,

2012, Sullivan, 2012).

3.2.2.1 Prédiction

Dans la communauté de la fouille de données les méthodes de prédiction sont souvent

référencées par les méthodes supervisées. En effet, l’apprentissage supervisé permet de

découvrir la relation entre la classe à prédire et les attributs, ainsi, le processus

d’apprentissage définit un modèle décrivant et expliquant les expériences et patterns cachés

dans les données collectées. Leur but est de découvrir la relation entre un ensemble d’attributs


44

d’entrées (descripteurs) et un attribut cible (classe). Cette relation formulée sous une certaine

structure permettra de prédire la classe tout en se basant sur les valeurs prédéfinies des

descripteurs. Les deux techniques fondamentales et classiques qui appartiennent à la catégorie

des modèles de prédiction sont : la classification et la régression (Garcia et al., 2015; Witten

et al., 2011).

3.2.2.1.1 Classification

Garcia et al. (2015) définissent la classification comme étant un problème d’apprentissage

supervisé, généralement référencée à un domaine d’attributs fini et nominal. Autrement dit, il

existe un nombre fini de classes ou de catégories pour prédire un échantillon et ils sont connus

par l'algorithme d'apprentissage. Un classificateur doit assigner une classe à un nouvel

exemple lorsque les descripteurs de ce dernier correspondent au modèle utilisé.

La fonction de la classification est de discriminer les exemples des autres, en obtenant comme

application principale une prédiction fiable: une fois que nous avons un modèle qui

correspond aux données passées, si le futur est semblable au passé, alors nous pouvons faire

des prédictions correctes pour de nouvelles instances. L’une des techniques les plus utilisées

en classification sont : les arbres de décision, les machine à vecteur de support, les réseaux

neuronaux ou encore les méthodes bayésiennes (Tomar et Agarwal, 2013; Mokaddem et al.,

2013).

3.2.2.1.2 Régression

Quand les classes à prédire se basent sur des valeurs infinies, tel que prédire un nombre réel

compris dans un certain intervalle, nous nous référons à des problèmes de régression. De toute

évidence, due au domaine dans lequel sont définis les attributs, le problème de régression

présente plus de difficultés que le problème de classification où les ressources de calcul

requises et la complexité du modèle sont plus élevés. Les méthodes de régression les plus

utilisées sont : la régression linéaire et la régression logistique (Tomar et Agarwal, 2013;

Witten et al., 2011).

3.2.2.2 Description

Caractérisé par les propriétés générales des données, le but de la description, souvent

référencée par les méthodes non supervisées, est de comprendre le système analysé en

découvrant les relations existantes entre les propriétés des données sans pour autant avoir

connaissance d’un attribut cible (Han & Kamber, 2006). Ainsi, l’objectif est de trouver des

régularités, des irrégularités, des relations, des similarités et des associations entre les

différents attributs sans spécifier une cible particulière, ce qui élargit le champ de recherche.

En effet, le modèle de l’apprentissage conçu n’est pas contraint des relations entre la classe à

prédire et les attributs. La segmentation (clustering) et les règles d’association sont deux

principales tâches se référant à l’apprentissage non-supervisé (tâches descriptives).


45

3.2.2.2.1 Segmentation

La segmentation est le processus de partage des instances en groupes (clusters) qui sont

similaires ou ont des propriétés communes. Le partitionnement se base sur des mesures de

similarité entre les différentes instances de la base. Ainsi, les instances appartenant aux

mêmes segments sont définies par des caractéristiques semblables, alors que celles

appartenant aux autres groupes sont différentes ou du moins avec un degré de similarité

moindre. A l’inverse de l’approche supervisée, la segmentation ne requit pas une grande

connaissance du domaine à analyser, du fait qu’aucune classe cible n’est prédéfinie. La

segmentation peut être entreprise par différentes techniques : K-means, segmentation

hiérarchique, DBSCAN et OPTICS (Joshi et Kaur, 2013 ; Tomar et Agarwal, 2013 ; Witten et

al., 2011). Telle que présenté par Joshi et Kaur (2013), les techniques de segmentation se

classifient en 4 groupes:

- Exclusif : chaque instance appartient à un et un seul groupe.

- Chevauché : une instance peut appartenir à plusieurs groupes.

- Probabiliste : une instance appartient à chaque groupe selon une certaine probabilité.

- Hiérarchique : une instance est affectée à un groupe selon une structure hiérarchique,

où la racine regroupe toutes les instances. Les groupes sont raffinés dans les niveaux

inférieurs.

3.2.2.2.2 Règles d’association

Les règles d’association comme leur nom l’indique sont l’expression des associations

existantes entre les attributs décrivant les instances. Les règles d’association sont considérées

comme l’une des approches clés du processus de fouille de données, elles sont utilisées pour

découvrir les modèles les plus fréquents et les corrélations les plus pertinentes entre les

données. En effet, identifier l’association entre différentes maladies ou la relation entre un

symptôme et une maladie est un point très important pour le suivi épidémiologique. Parmi les

techniques les plus exploitées : l’algorithme Apriori, Predictive Apriori et Tertius (Hamami et

Atmani, 2016 ; Tomar et Agarwal, 2013; Mutter et al, 2004).

Bien que les règles d’association soient classifiées autant que technique descriptives, Witten

(Witten et al., 2011) les décrit comme étant une alternative des règles de classification, dans le

sens de prédiction. Toutefois, leur capacité à prédire n’importe quel attribut en fonction des

autres attributs les différencie des règles de classification qui elles comme il est constaté avec

les arbres de décision, prédisent uniquement la classe. En effet, les règles déduites d’un arbre

de décision dérivent toutes d’un et un seul nœud de départ, ce qui les caractérise comme un

ensemble. Contrairement aux règles d’association, où chaque règle prédit différemment, ce

qui la dissocie d’une autre règle. Ceci engendre une multitude de règles qui peuvent être

généralement distinguées par leur association au nombre le plus important d’instances. Une

règle de la forme X Y, où X est la condition et Y la conclusion, est évaluée selon deux

métriques: support et confiance (Nahar et al., 2013).

Le support d’une règle X Y, noté Supp, est défini par la proportion des transactions

(instances) contenant X et Y à la fois, par rapport au nombre de transactions total.


46

La confiance d’une règle X Y, noté Conf est la proportion du nombre de

transactions contenant X et Y par rapport aux transactions contenant uniquement X.

3.2.3 Evaluation et interprétation

La variété et multitude d’algorithmes offerts pour la fouille de données impliques une

nécessité d’effectuer une étude comparative afin de sélectionner le meilleur modèle de

prédiction ou description. Ainsi, avant de ne pouvoir exploiter les connaissances acquises de

la fouille de données, il est primordial de les valider. Ceci implique une évaluation et une

interprétation appropriée. Dans ce contexte, un ensemble de mesures, telles que la matrice de

confusion, la précision (accuracy) et la courbe ROC (Sudheep et Sumam, 2012), sont utilisées

et adoptées pour chaque type de tâche (classification, régression, règles d’association ou

segmentation). En effet, par exemple, pour un problème de classification, il est naturel de

mesurer la performance d'un classificateur en termes de taux d'erreur sur les données (test

data) qui n’ont pas participées dans la construction du classificateur. Toutefois, pour une

estimation optimale du taux d’erreur, deux principes s’ajoutent au processus de fouille de

données : les données pour l’apprentissage (training set) et les données pour le test (test set).

Ce qui implique à partager la base de données en deux groupes. Cependant, il est difficile et

peu judicieux de partager les données quand ces dernières sont peu nombreuses. La première

solution est d’utiliser l’ensemble des données à la fois pour l’apprentissage et le test. Ceci

n’est pas très valorisant, car l’évaluation va s’effectuer sur des données qui ont été utilisées

pour la construction du modèle. Pour évaluer la performance d'un modèle, nous avons besoin

d'évaluer son taux d'erreur sur un ensemble de données qui n'a joué aucun rôle dans sa

construction. Cet ensemble de données indépendant est appelé l'ensemble de test, où il est

supposé que les données d'apprentissage et les données test sont des échantillons

représentatifs du problème sous-jacent. Les questions qui se posent dans ce cas sont : quel

pourcentage utiliser pour partager les données ? Est-ce que les données contenues dans un des

deux groupes sont représentatives ? Afin d’éviter ce type d’obstacles, une autre solution est

proposée et que nous allons adopter pour nos expérimentations (cf. Chapitre 5 et 6), il s’agit

de la validation croisée « cross-validation » (Omran et al., 2015; Gorunescu, 2011 ; Garcia et

al., 2015).

Le principe de la validation croisée est de répartir l’ensemble de données en k partitions, où

(k-1) partitions sont exploitées pour la phase d’apprentissage et une partition pour la phase du

test. Ce procédé est répété k fois sur les k partitions, où à chaque tour la partition spécifiée

pour la phase test est modifiée, ce qui génère k taux d’erreur. Les k estimations d’erreur sont

moyennées pour obtenir une estimation globale. Selon Witten (Witten et al., 2011), en général

le paramètre K est égale à 10, mais ceci bien sure dépond du choix de l’utilisateur et de ses

données. Pour plus de performance, cette opération de validation croisée est répétée N fois.

Ce qui implique un total d’exécution de (K*N). Le taux d’erreur est la moyenne de (K*N)

taux d’erreur.

Les mesures les plus communément utilisées pour évaluer les modèles générés de l’étape de

fouille de données sont : la matrice de confusion, la précision (accuracy) et la courbe ROC

(Sudheep et Sumam, 2012).


47

3.2.3.1 Matrice de confusion

Typiquement utilisée pour les méthodes prédictives, la matrice est définie par des lignes et des

colonnes où les lignes correspondent au nombre d’instances actuelles dans une classe et les

colonnes au nombre d’instances prédites dans cette même classe (Delen et al. 2005 ;

Mokaddem et al., 2013).

Le tableau 3.1 illustre la structure générale d’une matrice de confusion. Dans un contexte de

fouille de données les éléments de la matrice sont décrits comme suit (Witten et al., 2011) :

• a est le nombre des prédictions correctes qu’une instance est négative.

• b est le nombre des prédictions incorrectes qu’une instance est positive.

• c est le nombre des prédictions incorrectes qu’une instance est négative.

• d est le nombre des prédictions correctes qu’une instance est positive.

A partir de cette matrice, différentes mesures peuvent être calculées (Kim et al., 2016):

- Accuracy (AC) : est la proportion du nombre total des prédictions correctes.

Eq. 3.1

- True positive rate (TP) ou recall : est la proportion des cas positifs qui ont été

correctement identifiés.

Eq. 3.2

- False postive rate (FP) ou sensitivity : est la proportion des cas qui ont été

incorrectement classifiés autant que positifs.

Eq. 3.3

- True negative rate (TN) ou specificity: est la proportion des cas négatifs qui ont été

classifiés correctement.

Eq. 3.4

- False negative (FN): est la proportion des cas positifs qui ont été incorrectement

classifiés autant que négatifs.

Eq. 3.5

Tableau 3.1 Matrice de confusion

Matrice de confusion Instances prédites

Négative Positive

Instances actuelles Négative a B

Positive C D


48

3.2.3.2 Confiance

C’est une mesure probabiliste, associée aux règles d’association. La confiance mesure la force

de la règle. Elle détermine la fréquence de l’élément B dans les transactions contenant

l’élément A (Sharma et al., 2012).

Confiance = Conf = P(A|B) = P(A∩B)/P(A) Eq. 3.6

3.2.3.3 ROC (Receiver operator characteristic test)

ROC est une représentation graphique du taux des positifs vrais versus le taux des faux

positifs. Une courbe ROC permet de (Yoshimura et al., 2016):

1. Expliciter les compromis entre sensibilité et spécificité (toute augmentation de la

sensibilité sera accompagnée d'une diminution de la spécificité).

2. Plus la courbe est proche de la bordure gauche et de la limite supérieure de l'espace

ROC, plus le test est précis.

3. Plus la courbe se rapproche de la diagonale de 45 degrés de l'espace ROC, moins le

test est précis.

3.3 Synthèse de l’application de la fouille de données en épidémiologie

Dans le domaine épidémiologique, il y a un besoin urgent d’exploiter des méthodes

analytiques efficaces afin de détecter des informations pertinentes et inconnues. En effet, la

taille massive et importante des données collectées par les services médicaux et

épidémiologiques rend l’analyse et la prise de décision une tâche quasi-impossible. Ces

données consistent généralement en des détails personnels sur les malades, les structures

médicales ou sur la maladie et sa dynamique, etc. En épidémiologie, la fouille de données a

montré son utilité dans bien d’exemples, tels que : la détection des causes des maladies et

l’identification des méthodes de traitements les plus perspicaces, amélioration des

performances de gestion des malades, identification des facteurs communs entre les malades

ou même la définition d’un diagnostic médical, etc. La fouille de données a permis aussi, aux

chercheurs et aux experts de prendre des décisions, proposer des médicaments et développer

des profiles individuels des malades concernés. Le succès de cette technologie en

épidémiologie, a permis en général de détecter les causes socio-économiques, culturelles ou

même environnementales. Toutefois, nous tenons à préciser de par la recherche

bibliographique que nous avons entrepris, que le choix et la sélection des algorithmes à

appliquer dans le domaine épidémiologique ne sont pas identiques pour toutes les maladies.

En effet, la méthode à appliquer dépond fortement du jeu de données collecté et non pas de la

maladie en elle-même, par exemple, pour la maladie de la tuberculose Venkatesan et Yamuna

(2013) ont utilisé la régression, Osman et al. (2012) ont utilisé la segmentation par contre

Asha et al (2012) ont appliqué les règles d’association. Ainsi, nous pouvons nous retrouver

dans le cas où une même maladie est analysée avec des techniques différentes due à la

variabilité des données qui la décrivent. Ce tours d’horizon vers les différents travaux incitant

à l’utilisation de la fouille de données a révélé l’importance et la précision dont peut


49

bénéficier les experts et les développeurs pour la compréhension des structure épidémiques

souvent complexes. Ce qui fait de l’utilisation des méthodes de la fouille de données en

épidémiologie une discipline en croissance continue, où la plupart des publications portent sur

la recherche de facteurs de risque et la découverte de règles inattendues et efficaces. Nous

présentons dans ce qui suit et pour chaque type de méthode, les travaux en relation au

domaine épidémiologique.

3.3.1 La classification

Azar et al. (2013) ont utilisé les arbres de décision afin d’extraire les attributs les plus

pertinents à la description du cancer lymphatique, ceci dans le but d’améliorer le diagnostic.

Parmi 18 attributs, six seulement ont été jugés utiles à la description des différents états de la

maladie. Delen et al. (2005) ont utilisé l’algorithme à base d’arbre de décision C5, et les

réseaux neuronaux afin d’identifier les caractéristiques les plus important à la détection des

individus qui ont survécu au cancer du sein où les arbres de décision ont montré une meilleure

performance. Krizmaric et al. (2009) ont utilisé les algorithmes de classification: les arbres de

decision, k-nearest neighbors, Naïve Bayes, réseaux de neurones, Machine à vecteur de

support et Random forests. Le but des auteurs est de prédire la survie des patients sujets de

crise cardiaque. Les résultats ont montré que les paramètres tels que le temps d’arrivée à

l’hôpital, le fait d’avoir eu les premiers secours (massage cardiaque) et le taux de CO2 sont

révélateurs à la survie ou non du patient, contrairement aux paramètres âge et sexe qui n’ont

eu aucune influence. Les auteurs ont pu aussi conclure que les arbres de décision sont de loin

les classificateurs les plus performants. Smitha et Sandaram (2012) ont analysé un groupe

d’habitants dans une zone de bidonvilles et les infections auxquelles ils sont sujets. En

appliquant les arbres de décision, les auteurs ont montré que les paramètres climatiques sont

la première principale cause du déclanchement des infections pour ce type d’habitants,

viennent en suite, les paramètres secondaires tels que l’immunité, les activités journalières ou

encore la densité de la population. Rulaningtyas et al. (2011) ont analysé les frottis

d’expectoration d’un ensemble de patients suspectés tuberculeux par les réseaux de neurones.

En définissant un réseau à 20 couches, les auteurs ont pu identifier les patients atteints de la

tuberculose.

La recherche bibliographique ci-dessus a révélé que les arbres de décision sont de loin les plus

performants dans le domaine épidémiologique (Brahami, et al. 2013). Le fait est que, les

arbres de décision sont décrits par une structure d’arbre où chaque nœud feuille représente les

classes (distribution des classes), et chaque sommet (nœud interne) intermédiaire est associé à

un test sur un attribut d’une des classes (Atmani et Beldjilali, 2007). Chaque arc correspond à

une réponse possible d’un test (Quinlan, 1993). Cette structure permet une interprétation

simple et une transformation sous forme de règles qui est généralement favorable à la

compréhension. Ainsi, un arbre peut être traduit sous forme de : If Condition Then

Conclusion, où la Condition dénote la disjonction/conjonction des attributs, et Conclusion est

la classe dérivée de la condition (Atmani and Beldjilali, 2007), c’est-à-dire chaque chemin

partant de la racine de l’arbre et parcourant les tests (en faisant des conjonctions) jusqu’à la

feuille qui est l’étiquette de la classe.


50

Plus d’avantages de l’utilisation des arbres de décision sont reportés dans la littérature:

Lavanya and Rani (2013) argumente que les algorithmes des arbres de décision sont les plus

communément utilisés parce que les paramètres du domaine de connaissances ne sont pas

requises lors de la construction de l’arbre. Dans un état de l’art sur les techniques de

classification, Phyu (2009) montre que la classification par les arbres de décision est plus

performante quand il s’agit d’attributs discrets/nominaux. Gorunescu (2011) reporte que l’un

des plus grands avantages des arbres de décision sont leur flexibilité, compréhension et

efficacité pour la prédiction.

3.3.2 La régression

Piarroux et al. (2011) ont appliqué la régression où ils ont pu détecter différents niveaux de

l’épidémie du choléra dans différentes régions. Venkatesan et Yamuna (2013) ont appliqué la

régression sur un exemple de la tuberculose défini par un ensemble d’attributs continus.

Toutefois, les auteurs ont constaté une meilleure performance par l’application des arbres de

décision sur leurs données discrétisées. Les auteurs ont réussi à extraire un ensemble

d’attributs décisifs au diagnostique de la tuberculose, tels que : les tests bactériologiques, les

cultures ou les niveaux de traitement des patients. Afin d’identifier l’impact de la

sensibilisation contre la tuberculose au sein des écoles, Wei et al. (2011) ont appliqué la

régression linéaire. Les auteurs ont montré que le sexe, l'âge, le niveau d'éducation des

parents, et le revenu familial ont été associés de façon significative au degré de sensibilisation

contre la tuberculose.

3.3.3 La segmentation

Almeida et al. (2014) ont appliqué la segmentation (K-means et Expectation – Maximization)

sur des patients sujets à des maladies cardiovasculaires. Le résultat de la segmentation a

identifié cinq segments qui ont permis de conclure que quand le taux des attributs tels que :

cholestérol, triglycéride et pression artérielle sont élevés alors les pulsations cardiaques sont

au ralenti. Osman et al. (2012) et Rulaningtyas et al. (2015) ont appliqué l’algorithme de

segmentation K-means sur une image de crachat relative à la détection de la tuberculose. Les

résultats de la segmentation ont clairement identifiés les régions tuberculines ce qui a permis

de confirmer le diagnostique des cliniciens.

3.3.4 Les règles d’association

Asha et al. (2012) ont utilisé l’algorithme apriori afin de découvrir les associations entre les

différents attributs décrivant la maladie de la tuberculose. Les différentes règles extraites ont

montré qu’une toux chronique et une fièvre intermittente peuvent être des indicateurs

essentiels au diagnostique de la tuberculose. Lakshmi et Kumar (2014) ont voulu d’une part

identifier la relation entre certains symptômes et les maladies telles que le diabète et

l’hypertension. Et d’une autre part, la relation entre les deux maladies. Pour cela les auteurs

ont utilisé les règles d’association : l’algorithme Apriori et FG-Growth, où ils ont détecté que

les nausées, la perte d’appétit et l’obésité sont des facteurs révélateurs de diabète et que les

paramètres nausées et douleurs de poitrine associés sont plutôt révélateurs de risques

cardiaques. Nahar et al. (2013) ont analysé un ensemble d’individus afin d’estimer le risque


51

d’être sujet à des maladies cardiaques. En utilisant les algorithmes : Apriori, Predictive apriori

et Tertius, les auteurs ont identifié que les femmes ont moins de chance d’avoir une attaque

cardiaque que les hommes. Il a été également constaté que, les facteurs tels que les douleurs

thoraciques ou l’apparition d’une angine suite à un exercice indiquent une déficience au

niveau du cœur ou encore les résultats d’un ECG à eux seuls ne sont pas suffisants pour

diagnostiquer les femmes.

3.4 Fouille de données pour la modélisation épidémiologique

3.4.1 Travaux connexes

Bien que la fouille de données contribue largement dans la prise de décision et l’aide au

diagnostique, toutefois à ce jour aucun travail en relation avec le domaine de la modélisation

par les algèbres des processus est à référencer. D’un point de vue plus général et tel que nous

l’avons décrit dans les chapitres 1 et 3, les domaines de la modélisation et de la fouille de

données sont indépendamment bien connus et exploités. Toutefois, les recherches visant à

combiner ces deux disciplines sont rarissimes, où la majorité des travaux existants à ce jour

explorent le processus de segmentation pour l’analyse des séries temporelles de données.

Nous pouvons lier ce type de données aux résultats issus de la simulation des modèles

computationnels exprimés en série de données tels que ceux issus de la simulation par Bio-

PEPA.

Dans ce contexte de segmentation des séries de données, une large recherche bibliographique

a été réalisée par Liao (2005). L’auteur présente une variété d’approches afin de regrouper des

séries de données ou d’identifier des séquences pertinentes à l’intérieur des séries de données.

Pour l'analyse des données de séries temporelles d'images biomédicales, Wismüller et al.

(2002) ont montré que la segmentation de réseaux de neurones par recuit déterministe a pu

identifier les régions cancéreuses dans l’être humain, en comparant différents signaux et

détectant les dissemblances. Ainsi de par leur étude, les auteurs ont pu analyser: des données

d'IRM fonctionnelle pour la cartographie du cerveau humain, l'IRM de perfusion dynamique

renforcée par contraste pour le diagnostic de maladie cérébrovasculaire et la mammographie

par résonance magnétique pour l'analyse de lésions suspectes chez des patients avec le cancer

du sein. L’étude a montré que le recuit déterministe basé sur une segmentation hiérarchique

est une stratégie utile pour l'analyse non supervisée des données de séries temporelles de

l'image médicale. En particulier, les auteurs ont pu : identifier les régions activées du cerveau

dans les études IRM fonctionnelles ; analyser des données dynamiques de mammographie

IRM pour l'identification et la sous-classification régionale des lésions pathologiques du tissu

mammaire ; et dévoiler des anomalies régionales de la perfusion cérébrale caractérisées par

des différences d'amplitude et de dynamique du signal dans l'IRM par perfusion cérébrale à

contraste amélioré où les vaisseaux ont été segmentés selon leur taille ce qui a permis

d’identifier les régions de déficit de perfusion chez les patients atteints d'AVC.

Hirano et Tsumoto (2005) ont appliqué la segmentation hiérarchique sur les séries de données

de l’hépatite. En comparant les différentes séquences relatives à chaque patient, les auteurs

ont pu extraire trois groupes dont les séquences temporelles diffèrent, où les patients sont dans

un état aigue et chronique, non traités ou guéris.


52

Xiong et Yeung (2004) et Kalpakis et al. (2001) ont utilisé respectivement la segmentation par

l’algorithme EM et K-médoïdes sur une base de données médicale décrivant trois groupes de

séries de données d’électrocardiogrammes (ECG) afin de diagnostiquer les infarctus. Le

premier groupe contient 22 séries de données représentant l’enregistrement de l’ECG durant

deux secondes des personnes souffrantes d'arythmie ventriculaire maligne. Le second groupe

contient 13 séries de données représentant l’enregistrement de l’ECG durant deux secondes

des personnes en bonne santé. Enfin, le groupe 3 comprenait 35 séries chronologiques

représentant les enregistrements de l’ECG des personnes ayant une arythmie

supraventriculaire. Les résultats de segmentations ont permis de spécifier les caractéristiques

induisant à un infarctus et intensifier sa prévention, ainsi que de discriminer les différents

patients selon la gravité de leur état. Deux principales expérimentations ont été réalisées : la

première expérimentation regroupe le premier et le deuxième groupe de séries de données et

la deuxième expérimentation regroupe le deuxième et le troisième groupe de séries

temporelles de données. Les résultats de segmentation de la première expérimentation ont

montré que quelques séquences du premier groupe ont été affectées au deuxième groupe. Les

auteurs expliquent cette segmentation par le fait que les personnes concernées sont dans la

phase initiale de l’arythmie ventriculaire maligne et ainsi leur ECG est particulièrement

similaire à celui des personnes saines. Par contre, la deuxième expérimentation a parfaitement

réussie à dissocier les deux groupes où chacun a té assigné à son propre segment.

3.4.2 Optimisation des modèles computationnels par la fouille de données

Tel que nous l’avons décrit au cours des sections précédentes, l’utilisation de la fouille

comme outil d’extraction de données pertinentes a déjà largement prouvé ses capacités dans le

domaine médical ou autre. Quand un domaine particulier est référencé par une large base de

données, qu’il est impossible à l’être humain d’exploiter à l’œil nu, la fouille de données est la

solution imminente pour l’assister. Ce critère est l’idée pionnière qui a motivé le choix de

notre méthodologie à exploiter la fouille de données pour l’optimisation des modèles

computationnels. En effet, pour des fins d’optimisation, il n’existe à ce jour aucun travail

combinant fouille de données et modélisation computationnelle par Bio-PEPA.

De manière plus concise, le principe est à partir de données complexes, sur lesquelles aucune

hypothèse ou règle n’a été appliquée, d’extraire des connaissances pertinentes, permettant

ainsi à l’expert/développeur de mieux analyser, comprendre, et raffiner le modèle prédictif

visé.

Afin de mieux positionner notre contribution dans le processus d’optimisation, nous rappelons

qu’au cours du chapitre 2, nous avons arboré que l’étape de vérification est principalement

liée à la phase « interaction expert/développeur », ceci implique une nécessité à optimiser les

informations utiles à la modélisation (entrées, règles et hypothèses). Bien que l’optimisation

des modèles computationnels ait fait l’objet de nombreux travaux de recherche, tel que décrit

dans le chapitre 2- section 3 (Keizel et Yang, 2011 ; Dorigo et al., 1996 ; Blower et

Dowlatabadi, 1994), ces derniers se basent uniquement à optimiser en utilisant l’existant et ne

permettent donc pas d’assister l’expert/développeur dans la recherche de nouvelles

informations.


53

Dans ce contexte d’optimisation en se basant sur des connaissances nouvelles et pertinentes,

nous proposons dans les chapitres suivant d’exploiter les algorithmes prédictifs et descriptifs

de la fouille de données pour l’optimisation des modèles Bio-PEPA.

Ainsi, les différentes étapes constituant le processus d’optimisation telles que configurées

dans notre approche sont :

1. Prétraitement des données épidémiologiques ;

2. Sélection des attributs ;

3. Application des algorithmes de fouille de données;

4. Evaluation et interprétation des connaissances extraites ;

5. Optimisation du modèle Bio-PEPA initial ;

6. Simulation et analyse.

3.5 Conclusion

Dans un souci d’optimisation des modèles computationnels et leur suivi à temps réel tel que

spécifié au chapitre 2, nous avons au cours de ce chapitre exploré le domaine de la fouille de

données qui au milieu d’informations massives, dynamiques et complexes, il est possible

d’extraire des connaissances fertiles à l’enrichissement des modèles à base d’algèbre des

processus. De par les notions acquises de ce chapitre, nous proposons ainsi, d’étendre l’utilité

de ce dernier en l’exploitant dans le monde de la modélisation computationnelle pour aboutir

à des modèles prédictifs les plus optimaux. Dans les chapitres suivants nous présentons

l’approche que nous proposons pour le suivi épidémiologique ainsi que son application au

travers de différents exemples réels (tuberculose, Oreillons), valorisant ainsi, l’apport de notre

recherche qui est au centre des trois contributions : 1) la modélisation épidémiologique

computationnelle par Bio-PEPA ; 2) Vérification du modèle computationnel par langage

narratif; 3) Optimisation du modèle computationnel par la fouille de données.

Chapitre 4

Modélisation et simulation par les algèbres des processus : Bio-PEPA

Sommaire

4.1 Introduction

4.2 Modélisation par Bio-PEPA

4.2.1 Interaction expert\modélisateur

4.2.2 Conception du modèle formel

4.2.3 Simulation et analyse

4.3 Optimisation du modèle

4.4 Vérification par langage narratif

4.4.1 Langage narratif

4.4.2 System Biological Markup Language (SBML)

4.4.3 Du modèle Bio-PEPA au modèle narratif

4.5 Modélisation de la tuberculose

4.5.1 La tuberculose

4.5.2 Modèle de la tuberculose

4.5.3 Le modèle Bio-PEPA

4.5.4 Simulation par Bio-PEPA et résultats

4.6 Validation du modèle Bio-PEPA par langage narratif

4.7 Conclusion

Chapitre 4 Modélisation et simulation par les algèbres des processus : Bio-PEPA

55

4.1 Introduction

Dans le chapitre 1, nous avons passé en revue les différentes méthodes de modélisation

épidémiologique. Ce tour d’horizon nous a permis d’expliciter les avantages et limites des

techniques de modélisation utilisées et de justifier le choix du formalisme Bio-PEPA. Au

cours de ce chapitre, nous commençons par considérer la première phase de notre approche

qui contribue à l’élaboration d’un modèle computationnel de prédiction de base. Nous

présentons les éléments essentiels du formalisme Bio-PEPA qui ont un rôle majeur dans la

représentation des notions épidémiologiques. Ensuite, dans un contexte de vérification et de

validation du modèle conçu, nous proposons de le traduire en un langage narratif. Enfin, afin

de montrer l’avantage de la modélisation par Bio-PEPA, nous reprenons un exemple de la

tuberculose réalisé par les systèmes à base d’agents (DeEspíndola et al., 2011) et nous le

reproduisons en Bio-PEPA.

Ce chapitre fait l’objet de deux publications et deux communications :

D.Hamami, B.Atmani « From Simulated Model By Bio-PEPA to Narrative Language

Through SBML», International Journal of Control Theory and Computer Modeling: IJCTCM,

Vol.4, No.1/2, April 2014, pp 27-43. http://airccse.org/journal/ijctcm/current2014.html

Hamami, D., & Atmani, B. (2013). Tuberculosis Modelling Using Bio-PEPA

Approach. World Academy of Science, Engineering and Technology, International Journal of

Medical, Health, Biomedical, Bioengineering and Pharmaceutical Engineering, 7(4), 183-

190. http://www.waset.org/Publications/?path=Publications&p=76

D.Hamami, B.Atmani « Optimisation des outils d'aide à la décision par SBML », ASD’2013

conférence maghrébine sur les avancées des systèmes décisionnels, Merrakech, Maroc, 2013.

ISBN 978-9-98-113000-1. http://www.asd-conf.net/les-papiers-acceptes

D.Hamami, B.Atmani, « Modeling the effect of vaccination on varicella using Bio-

PEPA», Proceeding of the 23rd IASTED International Conference on Modeling and

Simulation (MS2012). July 3 - 5, 2012, Banff, Canada. ISBN 978-0-88986-938-7.

http://www.actapress.com/Abstract.aspx?paperId=454582

4.2 Modélisation par Bio-PEPA

Afin de concevoir un modèle épidémiologique optimal et compte tenu du contexte de ce

travail de recherche, nous nous sommes focalisés sur les caractéristiques relatives à l’étude

épidémiologique suivantes :

- Comprendre la dynamique de l’épidémie

- Analyser l’incidence de l’épidémie.

- Spécifier les facteurs de risque.

- Evaluer les mesures de prévention adoptées.

- Proposer un outil d’alerte à la propagation de l’épidémie.

- Proposer de nouvelles mesures de prévention et stratégies de contrôle.

http://airccse.org/journal/ijctcm/current2014.html

http://www.waset.org/Publications/?path=Publications&p=76

http://www.asd-conf.net/les-papiers-acceptes

http://www.actapress.com/Abstract.aspx?paperId=454582


56

Figure 4.1 Optimisation des modèles épidémiologiques : Structure Générale

Toutefois, il est important aussi, lors de la conception d’un modèle computationnel,

d’identifier les paramètres et caractéristiques clés de l’épidémiologie de l’infection, telles

que :

- Quelle est la période d’infectiosité ou d’incubation ?

- Quel est l’élément qui favorise la propagation de l’infection ?

- Quel est le mode de transmission ?, etc.

Cependant, afin d’aboutir à un modèle optimal, Keeling et Rohani (2008) suggèrent de

respecter deux points importants :

- Le modèle doit être adapté à son objectif. Le modèle est désigné à expliquer le

comportement et la dynamique de la maladie infectieuse. Ceci au respect de se

concentrer sur les caractéristiques les plus pertinentes, tout en simplifiant ou ignorant

le reste.

- Le modèle doit être paramétrique. Tout paramètre utilisé doit être paramétré par une

valeur connue ou calculable.

Toutefois, ce qui constitue un modèle optimal dépond fortement du contexte dans lequel

l’épidémie est définie.

Connaissances acquises de l’expert

6: Simulation et analyse

1: Définition du problème

2: Conception de l’étude

3: Conception du modèle

4: Définition du processus: entrées, sorties, règles et hypothèses

5: Implémentation du modèle par Bio-PEPA– Contribution 1

Op

tim

isati

on

b

asi

qu

e-

Ver

ific

ati

on

et

vali

dati

on

La

nga

ge

Na

rra

tif

– C

on

trib

uti

on

2

Ph

ase

d’O

pti

mis

ati

on

Phase de modélisation et de simulation

Données épidémiologique

s


57

Nous rappelons que le processus de modélisation se résume en six principales étapes (cf.

Chapitre 1)(Lamm et Unger, 2011):

- Définition du problème.

- Conception de l’étude.

- Spécification du modèle.

- Définition du processus.

- Implémentation du modèle.

- Simulation, analyse et validation.

Afin de bien schématiser l’apport de notre première contribution (modélisation par Bio-

PEPA) dans un contexte épidémiologique, nous avons restructuré les étapes précédentes en

deux phases (cf. Figure 4.1) : 1) la phase de modélisation et de simulation et 2) la phase

d’optimisation. Où la première phase est associée aux étapes : i) interaction entre experts

(épidémiologistes) et modélisateurs (développeurs), ii) conception du modèle formel, et iii)

simulation. La deuxième phase qui constitue notre deuxième contribution relative à la

vérification et la validation est générée de l’étape de la simulation et de l’analyse.

4.2.1 Interaction expert/modélisateur

Les étapes de 1 à 4 citées ultérieurement correspondent à la phase d’interaction, où un

échange extensif entre l’expert et le modélisateur est réalisé pour l’acquisition des

connaissances utiles. Cette étape est considérée comme étant la plus laborieuse du processus.

En effet, sans une bonne maîtrise du domaine ou une bonne connaissance de la dynamique de

la maladie, il devient difficile d’établir les hypothèses utiles ou de définir les règles

perspicaces. A la fin de cette phase, le modélisateur aura en possession les éléments du

modèle suivants : les entrées, les sorties, les règles et les hypothèses.

4.2.2 Conception du modèle formel (Bio-PEPA)

Une fois les connaissances nécessaires à la modélisation sont collectées (entrées, sorties,

hypothèses et règles), le modélisateur peut passer à l’étape suivante N°5 correspondante à

l’implémentation du modèle qui devra être conçu au respect du formalisme adopté. Tel qu’il a

été justifié au chapitre 1, le formalisme Bio-PEPA est utilisé.

La modélisation épidémiologique par Bio-PEPA consiste à relier les éléments collectés ci-

dessus aux composants définis au chapitre 1, comme suit :

Les entrées :

- Paramètres : en Bio-PEPA les paramètres sont relatifs à la dynamique de la population

d’étude et à la maladie, tels que le taux de naissance, le taux de décès, le taux

d’infection, etc. Ces paramètres sont nécessaires à l’évolution du système.

- Espèces : représente les états du système épidémique. Tels que présentés au chapitre 1

à un instant donné, les individus de la population peuvent être dans un état susceptible,

infecté, guéri, etc.


58

Les sorties :

- Espèces : Bio-PEPA permet d’analyser toutes les espèces définies dans le modèle.

Ainsi, les sorties et les objectifs désirés tiennent compte des espèces prédéfinies. Par

exemple, si l’objectif d’un épidémiologiste est de comprendre la relation entre la

susceptibilité de la population et le taux d’incidence, il doit sélectionner les espèces,

susceptible et infecté comme sorties du modèle à analyser. Ou encore si l’objectif est

de spécifier le taux des guéris après dix années d’études, l’espèce « guéri » doit être

sélectionnée.

Les règles :

- Actions : telle que spécifiée au chapitre 1, la dynamique des espèces est en fonction

des actions (taux fonctionnels) définies dans le modèle. Celles-ci correspondent aux

règles de transition entre les états, définis par l’expert.

- Le modèle composant : décrit la coopération et la synchronisation entre les espèces

lors de l’exécution des actions. Cette partie du modèle est en premier lieu dépendante

des règles préétablies par l’expert et en second lieu par le modélisateur autant que

connaisseur de la faisabilité du formalisme Bio-PEPA.

Les hypothèses :

A la différence des autres éléments, les hypothèses peuvent être liées à tous les composants de

Bio-PEPA. Par exemple, l’épidémiologiste peut faire des hypothèses sur :

- les paramètres du modèle, tel que le taux de naissance est égale au taux de mortalité ce

qui implique une population constante.

- les états du modèle (espèces), où il peut considérer que l’espèce « exposé » n’est pas

très utile à l’étude et donc décide de l’exclure du modèle, ou encore, il peut supposer

un éventuel protocole de vaccination et inclure dans le modèle l’état « vacciné ».

- la dynamique des espèces, et ainsi considérer certaines actions. Par exemple,

considérer à la fois qu’un individu susceptible peut transiter vers un état infecté

directement au contact d’un infecté, ou après une période d’incubation transitant

d’abord vers un état latent.

- La densité initiale des espèces (définie dans le modèle composant de Bio-PEPA) ou le

type de coopération entre espèces. Par exemple, considérer qu’au début de simulation

aucun guéri n’est présent dans la population ou considérer que toutes les espèces sont

en évolution synchrone.

4.2.3 Simulation et analyse (vérification et validation)

Etant L’étape finale du processus de modélisation, la simulation et l’analyse permettent la

vérification et la validation du modèle conçu. Tel que spécifié dans le chapitre 1, Bio-PEPA

offre une multitude de techniques d’analyse : ODEs, simulation stochastique (Gillespie,

2001), chaines markoviennes continues (Ciocchetta et al., 2009) et le modèle PRISM

(Kwiatkowska et al., 2009). Souvent, les méthodes d’analyse sont imposées par l’objectif et le

type d’épidémie étudiée.


59

La simulation étant en grande partie une étape d’évaluation et de validation, elle consiste à

générer des résultats relatifs aux sorties prédéfinies précédemment et à les comparer aux

données réelles existantes ou encore aux résultats d’un modèle déjà validé. Si l’évaluation est

positive, le modèle est accepté et exploité. Dans le cas contraire, une vérification du modèle

conçu doit être réalisée où un retour élicite aux étapes précédentes s’impose. Ce retour est

généralement défini dans le processus de modélisation et simulation par l’optimisation. Ce qui

nous amène vers nos deuxième et troisième contributions (cf. section 4.3 et chapitre 5 et 6).

4.3 Optimisation du modèle

Une évaluation négative des résultats de simulation implique une vérification du modèle

conçu. Cette révision est pilotée par l’ensemble des entrées, des règles et des hypothèses

posées. Ceci implique un retour vers l’étape « définition du processus ». Nous rappelons que

cette étape explicite les notions d’entrées, règles et hypothèses et que toute donnée non

conforme à l’étude doit être revue par l’expert/épidémiologiste. Il est à noter que pour un

premier prototype du modèle conçu, le modélisateur veille à concevoir un modèle simple et

représentatif pour ne pas tomber dans le piège des modèles complexes où la détection des

déficiences n’est pas évidente. A partir de ce contexte, deux types de vérification se

distinguent :

1- Vérification que le modèle réalisé par le développeur répond parfaitement au modèle

conceptuel défini à la phase « interaction expert/développeur ». Autrement dit, le

modèle conceptuel n’est pas remis en question.

2- Vérification que les informations « entrées, règles et hypothèses » reflètent

correctement les connaissances de l’expert et la dynamique de la maladie. Autrement

dit, le modèle conceptuel est remis en question.

Le premier type de vérification est une étape critique à l’expert/développeur. En effet, d’une

part l’expert n’a pas les compétences requises pour comprendre le modèle conçu en Bio-

PEPA afin de pouvoir s’assurer qu’il correspond parfaitement au modèle conceptuel prédéfini

à l’étape « interaction expert/développeur ». Et d’une autre part, le développeur doit s’assurer

qu’il a parfaitement assimilé le langage de l’expert pour reproduire le modèle en Bio-PEPA.

Ceci implique une communication/échange complexe et critique entre l’expert et le

développeur. A ce niveau d’optimisation, le moyen le plus optimal de simplifier cette

interaction est de proposer à l’expert de devenir plus familier avec le langage de modélisation,

et au développeur de suivre des formations sur le domaine en question afin d’approfondir ses

connaissances. Le but ainsi, est de garantir que les idées partagées entre l’expert et le

développeur sont effectivement bien acquises et que le modèle reflète correctement les

intentions des deux parties démunies de tout conflit. Dans ce contexte de simplification

d’interaction entre expert et développeur, notre deuxième contribution fait l’objet de traduire

le modèle ainsi conçu en un langage narratif, pour plus de détails voir la section 4.4 –

Chapitre 4.

Cependant, dans le cas de la présence d’une erreur dans le modèle conçu, traduire un langage

formel en un langage narratif est avantageux, si et seulement si, l’expert arrive à comprendre

l’anomalie détectée. Dans le cas contraire où le modèle a été conçu selon les directives de


60

l’expert mais qu’il présente des incohérences avec les données observées, l’expert doit

approfondir ses recherches et élargir son domaine de connaissances, ce qui nous amène vers le

deuxième type de vérification.

Le deuxième type de vérification est aussi critique, mais concerne en grande partie l’expert.

Celui-ci étant le principal axe sur lequel repose le développeur pour acquérir toutes les

connaissances utiles à la modélisation. Cela dit, une simple erreur humaine de la part de

l’expert ou une connaissance limitée du domaine à étudier compromettra largement la phase

« interaction expert/développeur ». Il est très important à ce niveau que l’expert sache

expliciter correctement les besoins de l’étude.

Une fois la vérification terminée, en adoptant l’un des deux types de vérification ou bien

même les deux, trois issues s’offrent à nous :

1. Soit un nouvel élément a été défini. Le modèle sera ainsi optimisé en intégrant cette

nouvelle information et les étapes suivantes du processus de modélisation et

simulation seront réitérées. Dans cette situation, l’élément additionnel a été utile et

l’évaluation est positive. L’expert est ainsi satisfait et le modèle est exploité.

2. Même issue que celle ci-dessus mais l’évaluation est négative et le processus

d’optimisation rentre dans une boucle infinie. Dans cette situation, l’expert a le choix

de rejeter le modèle, si un grand écart entre les résultats de simulation et les données

réelles est observé. Ou bien, l’expert se contente des optimisations réalisées et restreint

son champ d’intérêt.

3. Soit l’erreur n’a pu être détectée. Cette situation sera un conflit d’intérêts entre

l’expert et le développeur, car d’une part l’expert n’est pas satisfait des résultats du

modèle conçu, et d’une autre part le développeur n’ayant pas de nouvelles

informations, ne peut donc en aucun cas optimiser son modèle. Ce qui peut se

conclure par un échec de contrat.

Afin de s’assurer de ne pas tomber dans le piège de la boucle infini (cas 2) ou même dans le

cas extrême où le contrat est résilié (cas 3) causant une perte en temps et argent considérable

aux deux parties, nous proposons d’assister l’expert et le développeur à mieux cerner la

dynamique de l’épidémie et les éléments qui la composent. Dans ce contexte notre troisième

contribution fait l’objet d’une optimisation par fouille de données, pour plus de détails voir le

Chapitre 5 et 6.

4.4 Vérification par langage narratif

Telle que spécifiée dans la section précédente, cette contribution est une solution à la

vérification du modèle formel conçu. L’idée principale est de traduire automatiquement le

modèle Bio-PEPA conçu en un modèle narratif. Ce dernier devrait être spécifié autant qu’un

langage naturel, où un simple individu (non-développeur) entre autres un épidémiologiste

pourrait facilement l’interpréter. Aussi, le modèle traduit devrait être intuitif, reflétant les

différents composants du modèle formel. Ainsi, le rôle de l’expert sera de comparer le modèle

narratif au modèle conceptuel réalisé lors de son interaction avec le développeur. A partir de

ce contexte, nous avons analysé en premier lieu les différents composants du langage Bio-

PEPA puis comparé à la structure d’un langage narratif par lequel s’exprime un expert. Avant


61

de décrire le passage d’un modèle épidémique Bio-PEPA en un langage narratif, nous allons

dans ce qui suit définir la structure du langage narratif adopté.

4.4.1 Langage narratif

Le langage narratif est un langage formel, permettant à l’expert en général et à

l’épidémiologiste en particulier de décrire un système épidémique et sa dynamique en

utilisant généralement des termes qui leur sont communs et bien connus. Il est à rappeler que

les définitions ci-dessous sont inspirées du travail présenté par Guerriro et al (2007).

Ainsi, un modèle dans un langage narratif est décrit par quatre principaux composants:

- La description des compartiments dans lesquels les individus (entités) peuvent

héberger durant l’évolution de l’épidémie ;

- La description des entités (individus) composant le système épidémique ;

- La description des actions qui peuvent se produire ;

- La liste des interactions invoquant les éléments décrits ci-dessus.

Compartiment défini par un nombre, un nom et une taille, il représente généralement un lieu

dans lequel se situ un individu ou une population d’individus. Un compartiment peut

référencer aussi un lieu abstrait qui peut représenter un groupe spécifique d’individus. Par

exemple, les individus dont l’âge est supérieur à 20 ans.

Entité (composant) identifié par un nombre et un nom, elle représente l’état d’un individu à

un instant donné. Il lui est aussi attribué un nombre pour définir sa quantité/densité dans la

population.

Action défini par un nombre, un nom et les paramètres qui lui sont associés ainsi que leur

valeur.

Liste des interactions (évènement) décrivant l’évolution du système, cette liste permet de

définir la relation entre entités, compartiments et actions. Généralement les interactions sont

décrites par une règle de la forme: Si condition alors conclusion, où la condition est exprimée

par une association entre entités et actions et la conclusion exprime le nouvel état de l’entité.

Exemple :

Le tableau 4.1 illustre les éléments ci-dessus par un exemple, où nous définissons deux types

d’espèces (individus : Susceptible, Infecté) situés dans deux compartiments (villes) différents

(Alger, Oran) subissant deux actions (Contact, Voyage). Ces individus peuvent subir deux

actions différentes :

- Contact : permet à un individu infecté de contaminer ses contacts, et à un individu

susceptible d’être contaminé par un infecté.

- Voyage : permet à un individu de se déplacer d’une ville à une autre.


62

Tableau 4.1 Liste des interactions dans un langage narratif

Compartiment Entité Action Evènement

Nombre: 2

Oran (100)

Alger (200)

Nombre: 2

Susceptible

Infecté

Nombre : 2

Contact ()

Voyage (β)

Si Infecté (Alger) et Voyage alors Infecté (Oran)

Si Susceptible (Oran) et Contact alors Infecté (Oran)

Tableau 4.2 Composants Bio-PEPA vs langage narratif vs SBML

Composants Bio-PEPA Composants langage narratif Composants SBML

Compartiment Compartiment Compartiment

Espèce Entité (composant) Espèces

Taux fonctionnels et paramètres

Actions Actions et paramètres

Composant modèle Evènement Règles, Evènements et contraintes

En se basant sur cette description, nous pouvons voir que les différents éléments d’un langage

narratif reflètent bien les composants d’un modèle Bio-PEPA. Le tableau 4.2 résume cette

similitude. En effet, chaque composant du modèle Bio-PEPA lui est associé un élément dans

le langage narratif, cette analogie nous permet de mapper facilement entre les deux langages

et de permettre à l’expert de valider le modèle conçu.

Toutefois, même si Bio-PEPA est un langage structuré, sa souplesse de codification rend le

processus de traduction compliqué. En effet, la seule condition sur l’ordre de ses composants

est que le composant modèle doit être la dernière ligne du code. Notre but étant de rendre le

processus de traduction automatique, nous avions besoin d’un langage intermédiaire

permettant d’une part de réordonner les composants de Bio-PEPA et d’une autre part de les

extraire automatiquement. Dans ce contexte, nous avons exploré les différentes dérivées

offertes par l’outil Bio-PEPA plugin. Ceci nous a conduit au langage SBML (System Biology

Markup Language) (Hucka et al., 2007). En effet, SBML décrit intuitivement les composants

et interactions d’un système biologique. Qu’ils soient discrets ou continus, un système peut

être représenté dans SBML par un ensemble d’espèces, compartiments, paramètres et

fonctions d’interactions telles que : actions productives et réactives. Nous n’allons pas trop

nous attarder sur le processus de passage d’un modèle Bio-PEPA à un modèle SBML, cette

fonctionnalité étant déjà intégrée dans le plugin Bio-PEPA, ne fait pas l’objet de notre étude.

Le tableau 4.2 résume les points communs entre ces deux modèles. Toutefois, plus de détails

à propos du langage SBML sont nécessaires, car c’est le point de départ pour aboutir au

langage narratif.

4.4.2 SBML (Systems Biology Markup Language)

SBML (The Systems Biology Markup Language) (Hucka et al., 2007) est un langage à balises

basé sur le langage XML (eXtensible Markup Language). Il a été conçu spécifiquement pour


63

les systèmes biologiques mais peut parfaitement être adapté aux systèmes épidémiques. Par

essence, un document XML est défini par une structure hiérarchique dont les composants sont

délimités par des balises. Ainsi, SBML est un langage défini par un arbre syntaxique dont les

éléments sont structurés selon un document XML. La figure 4.2 illustre les composants de

base d’un modèle SBML (Beurton-aimar, 2007).

Le schéma général d’un modèle SBML relatif à la figure 4 .2 est présenté ci-dessous où

chaque composant est décrit en détails.

Figure 4.2 Composants d’un modèle SBML

<model id="My_Model" >

<listOfFunctionDefinitions> ... </listOfFunctionDefinitions>

<listOfUnitDefinitions> ... </listOfUnitDefinitions>

<listOfCompartments> ... </listOfCompartments>

<listOfSpecies> … </listOfSpecies>

<listOfParameters> ... </listOfParameters>

<listOfRules> ... </listOfRules>

<listOfReactions> ...

<listOfReactants> ... </listOfReactants>

<listOfProducts> ... </listOfProducts>

<listOfModifiers> ... </listOfModifiers>

<listOfLocalParameters> ... </listOfLocalParameters>

</listOfReactions>

<listOfEvents> ... </listOfEvents>

</model>

ListOfCompartments

Model

ListOfParameters

ListOfReactions

ListOfSpecies

ListOfInitialAssignements

ListOfConstraints

ListOfRules

ListOfEvents

ListOfCompartmentTypes

ListOfSpeciesTypes

ListOfFunctionDefinitions

ListOfUnitDefinitions


64

- Function definition. Permet de définir toutes les expressions mathématiques utilisées

dans le modèle, ses attributs sont : le nom de la fonction et son expression.

- Unit definition. Sont les unités de mesures associées aux paramètres, espèces, etc.

- Compartment. Les espèces définies dans le modèle sont généralement affectées à un

compartiment particulier qui les dissocie des autres espèces. Si les espèces sont toutes

hébergées dans une même location alors un seul compartiment devrait être défini. Ses

attributs sont: nom du compartiment, type et taille.

- Species. sont des entités définissant l’état des individus, tel que susceptible, infecté,

etc. Elles sont définies par : nom, compartiment, nombre initial.

- Reaction. Les espèces interagissent entre elles sous l’effet d’une certaine action. Pour

chaque action, SBML définit : les espèces impliquées, le coefficient stoichiometric, les

paramètres (vitesse de réaction) et la fonction d’interaction. SBML permet aussi de

spécifier le mode d’interaction : producteur, consommateur et simple modificateur où

les espèces y sont affectées selon leur rôle dans l’action.

- Parameter. Les paramètres dans SBML peuvent être déclarés autant que variable

locale propre à chaque fonction ou globale invoquée par l’ensemble du modèle.

- Rule. Permet de définir les interactions qui ne peuvent pas être exprimées dans la

section des actions. Autrement dit, cette section décrit le comportement dynamique

propre aux variables. Ses attributs sont: nom de la variable et son expression.

- Event. Les évènements qui peuvent surgir au cours du temps selon un déclencheur

particulier (condition) sont définis dans cette section. Ses attributs sont: nom,

condition, délais de déclenchement et actions.

4.4.3 Du modèle Bio-PEPA au modèle narratif

L’objectif de cette section est de traduire un modèle Bio-PEPA en un modèle narratif

(Hamami et Atmani, 2014). Nous avons spécifié dans la section précédente qu’un passage par

un modèle intermédiaire est nécessaire. Dans ce but, nous avons opté pour l’utilisation d’un

modèle SBML. La fonctionnalité de transformer un modèle Bio-PEPA en un modèle SBML

est déjà implémentée dans le plugin Bio-PEPA. Ainsi, dans cette section nous allons

directement transformer un modèle SBML en un modèle narratif. Rappelons que le but de

cette transformation est de permettre à l’expert et le développeur de vérifier et valider le

modèle Bio-PEPA conçu et dans le cas échéant de détecter les erreurs et les anomalies.

Au cours de cette section nous allons parcourir chaque élément du modèle SBML et décrire sa

traduction en langage narratif.

Compartments

SBML décrit une section ListOfCompartments. Chaque compartiment dans cette liste est

directement associé à un compartiment dans le modèle narratif, où ils ont la même

signification. Nom et taille dans le modèle SBML correspondent à nom et taille dans le

modèle narratif. Dans le cas où dans le modèle Bio-PEPA, différents compartiments sont

définis, SBML leur associe un attribut « Type », celui-ci est également traduit dans le modèle

narratif par Type.


65

Species

SBML décrit la section ListOfSpecies. Chaque espèce dans cette liste correspond à une entité

dans le modèle narratif. Dans SBML les balises décrivant les espèces définissent leur nom,

concentration initiale (taille) et compartiment auquel elles sont associées. Nous rapportons les

mêmes informations dans le modèle narratif.

Parameters

SBML utilise ListOfParameters afin de définir les paramètres du modèle Bio-PEPA. En

langage narrative chaque paramètre sera défini par un nom et une valeur qui lui est assignée

dans le modèle Bio-PEPA.

Taux fonctionnels (Actions)

SBML définit une liste d’actions ListOfReactions exécutées par les espèces. A chaque action

lui est associé un numéro, un nom et une formule (expression mathématique) indiquant les

espèces et les paramètres invoqués. Cette formule est plus connue sous la nomination de

KineticLaw, elle représente le taux d’évolution de la dynamique des espèces.

En langage narratif, ces actions sont traduites sous forme de liste définissant quatre éléments :

- le numéro et le nom de l’action sélectionnée, ce numéro est identique à celui décrit

dans SBML,

- les espèces « product », sur lesquelles la règle est appliquée,

- les espèces « reactant », celles qui font appel à cette action sélectionnée,

- l’expression mathématique, dénommée « loi », qui permet de calculer le taux

d’évolution des espèces invoquées.

Dans le modèle SBML (Bio-PEPA), nous avons défini l’action « modificateur générique». La

description de cette action en langage narratif est identique aux autres actions, néanmoins,

nous verrons apparaitre les mêmes espèces dans la liste des « product » et « reactant ».

Species Components

En fonction des éléments décrits ci-dessus, nous définissons en langage narratif une règle

permettant à l’expert de valider la dynamique de l’épidémie adoptée dans le modèle Bio-

PEPA. Pour chaque action définie, il lui est associé une règle de la forme : Si condition Alors

conclusion, où « Condition » représente l’espèce « reactant » et « Conclusion » représente

l’espèce « product ». Ainsi, si une espèce apparaît dans la partie condition, elle invoque

l’action. Si elle apparait dans la partie conclusion, elle subit l’action. Si elle apparaît dans les

deux, elle participe à l’action sans être modifiée.

4.5 Modélisation de la tuberculose

Dans cette section nous présentons les différentes étapes de la modélisation et d’analyse de la

dynamique de l’épidémie de la tuberculose et sa validation par langage narratif. Nous

utilisons pour cela le processus de modélisation par Bio-PEPA et le modèle narratif (cf.

section 4.4). Afin de valider l’apport de la modélisation par Bio-PEPA, nous nous basons sur

les travaux de DeEspindola et al. (2011). Les auteurs ont modélisé la tuberculose afin

d’analyser sa dynamique et l'émergence de la résistance aux médicaments en utilisant les


66

systèmes à base d’agents. Etant donné que nous nous sommes inspirés du modèle

DeEspindola, nous n’avons pas eu besoin d’exécuter l’étape « Interaction

expert/modélisateur » définie à la section 4.2.1. Nous avons conçu le modèle Bio-PEPA de la

tuberculose en se basant sur leur modèle conceptuel (cf. figure 4.3), les paramètres du modèle,

tel qu’illustrés dans le tableau 4.3, ont tous été repris des travaux de DeEspindola et al.

(2011). La reproduction de ce modèle en Bio-PEPA offre la possibilité d’expliciter

l’hétérogénéité de la population sans pour autant s’alourdir de la représentation par un niveau

individuel complexe.

Figure 4.3 Modèle à compartiments de la tuberculose

Tableau 4.3 Paramètres du modèle (extraits de DeEspindola (2011))

Paramètre Description

Taux de mortalité naturelle

T Taux de mortalité due à la tuberculose

Þ Probabilité de développement de la tuberculose active de l’état X

υ Probabilité de progression de la maladie dans un individu latent

Σ Probabilité que le traitement du latent est effectif

φ Probabilité que le traitement de l’infectieux est effectif

r Probabilité de développement d’une résistance au traitement

δ Efficacité relative du traitement

ɳL Proportion des latents qui reçoivent le traitement

ɳT Proportion des infectieux qui reçoivent le traitement


67

4.5.1 La tuberculose

La tuberculose (TB) est une maladie infectieuse à transmission directe, due à la bactérie

Mycobacterium tuberculosis. Elle touche essentiellement les poumons (pour la tuberculose

pulmonaire), mais l’infection du système nerveux, du système circulatoire, du système

urinaire, des os, ou la peau peuvent être aussi des cas qui peuvent se produire.

Souvent, la tuberculose est transmise par la toux et les éternuements. Toutefois, l’utilisation

des ustensiles des personnes infectées ou le contact direct avec leur crachat peut provoquer

une contamination (OMS, Organisation Mondiale de la Santé).

Compte tenu de la complexité de cette maladie les seuls moyens de la contrôler sont d’isoler

les malades infectieux et de leur faire suivre un traitement approprié. Sous l’effet du

traitement un infectieux est considéré contaminant jusqu’à ce que ses examens

microscopiques prouvent le contraire. Cependant, la résurgence de cette maladie dans des cas

déjà guéris ou l’échec du traitement pousse les épidémiologistes, experts et scientifiques à

réfléchir davantage à des solutions plus optimales et consentir plus d’efforts, telles que

rechercher des facteurs de risque d’abandon du traitement ou relancer régulièrement la

motivation du patient et de son entourage au respect du régime thérapeutique. Ces solutions

nous incitent à travailler en collaboration avec les services sanitaires et proposer des systèmes

de prédiction et d’aide à la prise de décision, de telle sorte que, les efforts consentis dans la

lutte contre la tuberculose soient un moyen d’éradication plutôt que de diminution.

4.5.2 Modèle de la tuberculose

Tel que présenté par DeEspindola et al. (2011), le modèle de la tuberculose est défini par cinq

compartiments correspondant aux états des individus au cours de la maladie. La figure 4.3

illustre ce schéma épidémiologique. Les paramètres du modèle sont résumés dans le

tableau 4.3.

Un individu I appartenant à une population de taille N peut à un instant donné être dans un et

un seul état: X, LS, LR, TS, TR. Si I X, c’est un individu susceptible, non encore exposé à la

maladie. Si I Lk (k = S, R), c’est un individu en état de latence, c’est-à-dire, il est contaminé

par la bactérie mais qui n’est pas encore infectieux. Si I Ls alors, le pathogène est sensible.

Sinon, L Lr, le pathogène est résistant. Si I Tk ( k = S, R), c’est un individu infectieux

avec une tuberculose dite active qui peut contaminer ses contacts.

DeEspindola et al. (2011) ont traduit le schéma de la figure 4.3 en un modèle à base d’agents

où les agents transitent d’un état à un autre selon des fonctions probabilistes. Le modèle

assume que les individus guéris ou décédés sont remplacés par des individus susceptibles,

ainsi la population est constante et en perpétuelle dynamique. Le modèle de la figure 4.3 se

résume comme suit :

- Un individu dans un état X peut être infecté par un individu dont l’état est TS (resp.

TR) selon une probabilité Ps (resp. Pr). Une fois l’individu est contaminé, les auteurs


68

lui définissent deux situations : soit l’individu transite vers un état latent Ls (resp. LR),

soit il est directement infectieux Ts (resp. TR).

- Les individus dont l’état est latent sont seulement porteur du pathogène et non encore

infectieux. Si la bactérie est détectée à ce stade alors l’individu est directement mis

sous traitement. Ainsi, l’individu peut: i) guérir suite au traitement reçu et retourner à

l’état X, ii) ne pas guérir et rester dans l’état Ls (Lr), iii) ne pas recevoir de traitement

et transiter vers l’état Ts (TR).

- Un individu infectieux est considéré dans un état de tuberculose active et peut ainsi

transmettre la bactérie. Toutefois, la bactérie peut être sensible aux antibiotiques

comme elle peut être résistante, ce qui classifie l’individu infectieux soit dans un état

Ts ou TR.

- Les individus infectieux (Ts) soumis au traitement peuvent : i) guérir de l’infection et

retourner vers un état X, ii) développer une résistance au traitement et transiter vers un

état Tr, ou iii) terminer le traitement sans guérir ni développer une forme de résistance

et rester dans l’état Ts.

4.5.3 Le modèle Bio-PEPA

Rappelons que le but de cette modélisation est double, d’une part nous voulons prouver les

performances du formalisme Bio-PEPA en établissant une étude comparative avec un modèle

existant (Hamami et Atmani, 2013). D’une autre part nous voulons apporter une contribution

à l’étape de vérification et validation du modèle en le traduisant en un langage narratif

(Hamami et Atmani, 2014). Dans ce contexte, nous avons développé le modèle de la

tuberculose selon le formalisme Bio-PEPA. Les notions de base de ce formalisme ont été

introduites dans le chapitre 1. En outre, pour un modèle Bio-PEPA, nous définissons les

paramètres du modèle, les espèces, les taux fonctionnels, les compartiments et les

composants du modèle.

Paramètres : Les paramètres décrivant les flux de transition, tels que schématisés sur la

figure 4.3, sont présentés dans le tableau 4.3. Ces paramètres ont été rapportés par

DeEspindola et al. (2011). Au total, 10 paramètres sont nécessaires pour concevoir ce modèle

de la tuberculose. Chaque arc schématisé sur la figure 4.3 est relatif à un paramètre.

Dans la modélisation par Bio-PEPA, nous distinguons deux types de paramètres, implicites et

explicites.

Les paramètres explicites sont ceux figurant dans le modèle à compartiments. Les paramètres

implicites, sont quand à eux relatifs à la modélisation temporelle ou imposés par le

formalisme Bio-PEPA. Dans notre modèle, nous définissons le paramètre « population size »

comme étant un paramètre implicite car il ne figure pas dans le modèle à compartiments.

Aussi, nous définissons un paramètre temps, pour le déclenchement du traitement.

Espèces : Dans Bio-PEPA, les espèces représentent les compartiments4 (états) (cf. la

figure 4.3). Chaque espèce se rapporte à un type d’individu (compartiment). Par analogie au

modèle de la figure 4.3, nous définissons cinq espèces (susceptible X, latent sensible Ls,

4 A ne pas confondre avec le terme compartiments de Bio-PEPA, qui est un composant du formalisme


69

latent résistant LR, infectieux sensible Ts, infectieux résistant LR). La variation

(croissance/décroissance) de la densité (quantité) des espèces est en fonction des opérateurs et

actions auxquelles elles sont associées. Par exemple, pour l’espèce X, si l’action

« susceptible_exposedTs » est exécutée, l’opérateur « ↓ » est invoqué et ainsi la densité de

l’espèce X décroit, car les susceptibles sont infectés et donc transférés à l’état latent sensible.

Par analogie, l’action «susceptible_exposedTs » invoquant l’opérateur « ↑ » accroit le

niveau des latents Ls. le code suivant représente la description des espèces en langage Bio-

PEPA.

Taux fonctionnels (action): tels qu’illustrés dans le code Bio-PEPA ci-dessous, les

taux fonctionnels ainsi définis permettent de spécifier le degré d’évolution des espèces.

Ainsi, chaque action spécifiée dans la partie « espèces », est définie dans la partie « taux

fonctionnels ». Par exemple, le taux fonctionnel « susceptible_exposedTs » est défini par le

contact entre susceptible X et infecté Ts selon un taux d’infection « Beta * (1-p) ». le code ci-

dessous représente un extrait des taux fonctionnels de Bio-PEPA.

kineticLawOf susceptible_infectedTs : p * Beta * X@Local * Ts@Local; kineticLawOf susceptible_infectedTr : G* p * X@Local * Tr@Local; kineticLawOf susceptible_exposedTs : (1-p)*Beta * X@Local * Ts@Local; kineticLawOf susceptible_exposedTr : G* Beta * X@Local * Tr@Local; kineticLawOf exposed_infected : v * Ls@Local; kineticLawOf infected_diedTs : MuT * Ts@Local; kineticLawOf died_X : Mu * X@Local;

X =(susceptible_infectedTr,1)<< X

+ (susceptible_exposedTr,1)<< X

+ (susceptible_infectedTs,1) << X

+ (susceptible_exposedTs,1) << X +(infected_diedTs,1) >> X

+ (died_Ls,1) >> X +(died_Ts,1) >> X + (died_X,1) (.) X

+ (succ_Tr,1) >> X+ (died_inf_Tr,1) >> X

+(trait_Ts,1) >> X+ (died_Lr,1) >> X +(died_Tr,1) >> X

Ls = (susceptible_exposedTs,1) >> Ls +(died_Ls,1) << Ls

+(trait_Ls,1) << Ls + (exposed_infected,1) << Ls;

Lr = (susceptible_exposedTr,1) >> Lr+ (inf_Lr,1) << Lr

+ (died_Lr,1) << Lr;

Tr = (susceptible_infectedTr,1) >> Tr

+ (succ_Tr,1) << Tr + (died_inf_Tr,1) << Tr

+ (inf_Lr,1) >> Tr + (resi_Ts,1) >> Tr

Ts = (died_Ts,1) << Ts+(infected_diedTs,1) << Ts

+(trait_Ts,1) << Ts+(susceptible_infectedTs,1) >> Ts

+ (exposed_infected,1) >> Ts + (resi_Ts,1) << Ts


70

Compartiments : Bio-PEPA permet d’attribuer une location particulière à un type

d’individu particulier. Dans ce modèle de tuberculose, une seule location « Local » est

commune à tous les individus. Le code ci-dessous décrit la déclaration des compartiments

dans Bio-PEPA. Il est à noter que le terme compartiment utilisé dans le modèle à

compartiments dans la figure 4.3, correspond aux espèces dans le modèle Bio-PEPA.

Le composant modèle : définit la densité initiale des espèces et leurs interactions

(synchronisation). Il est à noter que toutes les espèces définies dans le modèle sont initialisées

dans cette partie. Dans le code Bio-PEPA ci-dessous, les caractères : x, ls, ts, lst, lrt, tr, tst

correspondent au nombre initial de chaque espèce, où L est la (les) action(s) (taux

fonctionnels) par laquelle les espèces sont synchronisées (coopèrent).

X[x] Ls[ls] Ts[ts] Lst[lst] Lr[lr] Tr[tr] Tst[tst].

4.5.4 Simulation par Bio-PEPA et résultats

Initialement, l’objectif de cette simulation est de comparer les résultats de notre modèle aux

travaux réalisés par DeEspindola et al (2011). Nous avons exploité les deux types de

simulations offertes par Bio-PEPA plugin, déterministe et stochastique. La comparaison de

ces deux dernières nous a conduit à constater qu’elles aboutissent à des résultats similaires.

Les résultats illustrés ci-dessous correspondent à la moyenne de 100 simulations par

l’algorithme stochastique de Gillespie durant une période de simulation variant entre 100 et

300 ans. Afin de mener à bien notre analyse, nous avons suivi les mêmes scénarios que ceux

entrepris par DeEspindola : i) propagation de la tuberculose sans traitement ; ii) injection du

traitement en phase de latence et infection. Pour chaque scénario, nous avons adopté les

mêmes paramètres et réalisé nos simulations avec le plugin Bio-PEPA, puis nous avons

comparé les résultats à ceux présentés par DeEspindola et al (2011).

i) Propagation de la tuberculose sans traitement

Les figures 4.4 (a) et (b) présentent l’évolution de la tuberculose dans la population de taille N

= 100000 où initialement (à l’instant t = 0) uniquement les susceptibles et infectés de type

sensible sont présents dans la population. Pour ce type de simulation, DeEspindola et al.

(2011) proposent de considérer différentes valeurs du nombre initial des infectés sensibles, où

ts = {1%, 5%, 10%, 20%, 50%, 100%} du nombre total de la population de 100000 individus.

Nous pouvons clairement observer que les résultats de simulation de notre modèle Bio-PEPA

(figure 4.4.b) présentent la même évolution de l’épidémie en l’absence de traitement que le

modèle d’Espindola (cf. figure 4.4.a). Il est clair que quelque soit le nombre initial des

infectés sensibles, en l’absence d’un traitement, la population dérive vers un état endémique.

Cependant, la valeur initiale de Ts a un impact important sur la durée de stabilité de la courbe.

location world : size =100000, type = compartment

location Local in world : size = sizeLocal, type = compartment


71

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

100000

0 50 100 150 200 250 300 350 400

"Ts = 1%"

"Ts = 5%"

"Ts = 10%"

"Ts = 20%"

"Ts = 50%"

"Ts = 100%"

(a)

(b)

Figure 4.4 Evolution de la tuberculose sans traitement. a) Modèle à base d’agents (2011) ;

b) Modèle Bio-PEPA

i) injection du traitement en phase de latence et infection

L’étape suivante de ce processus de simulation est d’introduire le traitement contre la

tuberculose après 200 ans du démarrage de la simulation. Ainsi nous pouvons suivre le

comportement de l’épidémie lors de l’introduction du traitement.

Les figures 4.5 (a) et (b) montrent un comportement similaire de l’épidémie avant et après

traitement. Nous pouvons observer que dès l’introduction du traitement (après 200 ans du

démarrage de la simulation), l’état Ts décroît subitement et tend vers 0 et l’état Tr accroît.

0

5000

10000

15000

20000

0 20 40 60 80 100


72

(a)

(b)

Figure 4.5 Evolution de la tuberculose sous application du traitement après 200 ans.

Ceci s’explique par le fait que le traitement d’une certaines proportion de la population Ts est

suivi par un échec, ce qui implique leur passage à un état résistant Tr. Toutefois, l’état Tr

décroît aussitôt que l’état Ts atteint son plus bas niveau. Cette simulation montre clairement

que Tr dépond fortement de l’échec de traitement des cas Ts. Le pic de Tr est clairement et

similairement illustré sur les figures 4.5 (a) et (b). Ainsi le modèle Bio-PEPA que nous avons

proposé pour l’épidémie de la tuberculose et l’émergence des cas résistant due à l’échec de

traitement, présente des résultats qui ne sont pas significativement différents du modèle de

DeEspindola. Toutefois, notre modèle présente l’avantage d’une structuration formelle des

interactions entre les composants plus simple et facile à concevoir qu’un système multi-agent,

aussi le critère de coopération et de synchronisation adopté par le formalisme Bio-PEPA

0

2000

4000

6000

8000

10000

180 200 200 220 240

"Tr" "Ts"

0

100

200

300

400

500

180 200 200 200 200 200 200 200


73

permet de reproduire le schéma réel de l’épidémie sans passer par des opérations probabiliste,

tel que « Random » utilisé par DeEspindola. Enfin, Bio-PEPA offre une gamme de techniques

d’analyse pour assister le développeur dans la compréhension de l’épidémie.

Nous rappelons que notre but ici, n’est pas d’améliorer les travaux de DeEspindola, mais de

prouver que la modélisation par Bio-PEPA est plus simple et efficace que tout autre modèle.

Ainsi notre modèle a permis de reproduire le modèle de DeEspindola avec plus de souplesse

et de précision. Nous avons également prouvé les performances de la modélisation par Bio-

PEPA en reproduisant un modèle de la varicelle extrait des travaux de Bonmarin et al. (2008).

Pour plus de détails, le lecteur pourra se référer à (Hamami et Atmani, 2012).

Tel que nous l’avons spécifié au début de ce chapitre (section 4.1), le deuxième but de cette

partie de notre travail est de valider le modèle Bio-PEPA conçu. Toutefois, nous rappelons

que nous avons déjà validé le modèle de la tuberculose, en le comparant aux résultats fournis

par DeEspindola et al. (2011). Afin de s’approfondir dans l’étape de validation, il s’agit,

comme nous l’avons détaillé dans la section 4.4, de traduire le modèle conçu en un langage

narratif. Pour cela, nous avons conçu un outil, baptisée « Analyseur Bio-PEPA », permettant

le passage automatique du modèle Bio-PEPA au modèle narratif.

4.6 Validation du modèle Bio-PEPA par langage narratif

Afin de mener à bien cette étape de validation nous allons volontairement modifier le modèle

de la tuberculose conçu, en supprimant un élément du modèle sans que cela puisse avoir un

impact sur sa structure syntaxique.

La figure 4.6.a présente les différents composants de l’outil « Analyseur Bio-PEPA »

permettant le chargement du modèle (onglet chargement fichier Bio-PEPA), son analyse

(onglet Analyse) et le visionnement des règles extraites (onglet Rapport et détails).

La figure 4.6.a montre le chargement du fichier SBML du modèle de la tuberculose. La partie

en dessous du code SBML est générée en utilisant l’onglet Analyse, elle résume le nombre

des différents composants du modèle, tels que : le nombre de paramètres utilisés, le nombre

d’espèce, etc. La section à droite permet de parcourir chaque composant. La figure 4.6.b

montre un exemple du composant taux fonctionnel « resi_Ts », où « N°10 » est le numéro

attribué à l’action sélectionnée, « liste des reactants » est la liste de toutes les espèces

participant à l’action et dont leur densité décroit, « liste des produits » liste de toutes les

espèce participant à l’action et dont leur densité accroit. La dernière ligne résume la formule

mathématique correspondante à l’action. L’action « resi_Ts » visible sur la figure 4.6.b

présente l’espèce Ts qui est invoquée dans la formule mathématique autant que réactant avec

un taux « G * r * teta » et l’espèce X autant que producteur. Ainsi, Les différents composants

que nous avons utilisé dans notre modèle peuvent être visionnés et analysés par un simple

click sur le composant et son numéro. Enfin, l’onglet « Rapport et détails » permet de

visionner toutes les règles du modèle sous forme : Si Condition Alors Conclusion.


74

(a)

(b)

(c)

Figure 4.6 Analyseur Bio-PEPA. a) Chargement du modèle SBML de Bio-PEPA.

b) analyse des composants. C) Rapport des composants sélectionnés.


75

Figure 4.7 Résultats de simulation du modèle Bio-PEPA avec omission

La figure 4.6.c illustre un extrait des résultats de visionnement. En analysant l’ensemble des

informations exprimées sous forme d’un langage plus familier à un épidémiologiste, ce

dernier pourra facilement l’interpréter, le vérifier et le valider.

Afin de tester l’utilité d’une telle interprétation, nous avons délibérément omis le taux

fonctionnel relatif à l’échec de traitement des infectés sensibles (la transition de l’état Ts vers

l’état Tr) et soumis le nouveau modèle à la traduction. Toutefois, pour confirmer l’impact de

l’omission, nous avons simulé le nouveau modèle avec le plugin Bio-PEPA et comparé les

résultats avec le modèle initial (cf. figure 4.5).

La figure 4.7 illustre les résultats de simulation du nouveau modèle. Il est clair qu’à l’instant

t = 200, le nouveau modèle ne fait apparaitre aucun pic relatif à l’état Tr tel qu’il a été

clairement illustré dans la figure 4.5.b. Afin de détecter l’anomalie, nous allons traduire le

modèle en un langage narratif et analyser sa conception.

La figure 4.8 illustre le nombre de chaque composant où il apparait clairement dans la

dernière ligne que le nombre a diminué (16 actions) comparé à la figure 4.6.a (17 actions). A

ce stade l’expert peut détecter cette anomalie en revoyant les actions prédéfinies dans le

modèle conceptuel (phase interaction expert/développeur). Par la suite, l’expert peut

approfondir son analyse en explorant les autres onglets de notre application. L’action N°10

visualisée précédemment dans la figure 4.6.b ne fait plus référence à l’action « resi_Ts». Un

simple parcours permettra à l’expert de détecter que l’action « resi_Ts » n’a pas été

modélisée.

L’utilisation de l’analyseur Bio-PEPA à l’avantage d’exprimer le modèle formel conçu en un

modèle narratif dont l’expert peut aisément interpréter, vérifier et valider.

L’étude expérimentale précédemment réalisée sur l’exemple de la tuberculose a permis de

confirmer l’utilité d’une telle approche dans l’étape d’optimisation en général, et de

vérification/validation en particulier. Cependant, nous tenons à soulever le point du fait que

cette analyse est essentiellement basée sur les connaissances de l’expert.

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

150 200 250 300 350 400 450 500

An

nu

al d

ise

ase

inci

de

nce

Years

"Tr@Local"

"Ts@Local"

0

500

1000

180 200 220 240


76

Figure 4.8 Résultats d’analyse du modèle Bio-PEPA avec omission Se retrouver dans le cas d’une anomalie où l’expert ne peut davantage enrichir ou corriger le

modèle, est une limite dont peut souffrir cette approche.

Afin de pallier cet inconvénient, nous proposons dans le chapitre suivant d’intégrer à l’étape

d’optimisation les techniques de fouille de données.

4.7 Conclusion

Dans ce chapitre, nous avons présenté la modélisation par Bio-PEPA qui a montré son utilité

et efficacité dans la reproduction optimale des modèles épidémiques. Ses outils offerts pour

une analyse ciblée ont permis de tester les résultats générés et de valider les solutions

proposées.

Nous avons aussi présenté un outil complémentaire à Bio-PEPA permettant d’approfondir

l’étape de vérification et de validation : Analyseur Bio-PEPA. Ce dernier est défini comme

étant une passerelle reliant l’expert et le modèle conçu, en traduisant ce dernier en un langage

narratif facilement interprétable par l’expert épidémiologique. Toutefois, bien que l’ensemble

(Bio-PEPA et l’analyseur) soit un outil prometteur pour des prédictions optimales et des

prises de décisions objectives, la conception du modèle reste dépendante des connaissances de

l’expert (épidémiologiste) qui est l’axe majeur sur lequel repose le modélisateur dans toute

étape de modélisation et simulation. Face à cette contrainte, nous proposons dans le chapitre

suivant d’enrichir les modèles épidémiologiques par les connaissances acquises d’un autre

processus qui va au-delà du savoir humain en outre la fouille de données.

Chapitre 5

Fouille de données pour l’optimisation des modèles épidémiologique :


Sommaire

5.1 Introduction

5.2 Optimisation par fouille de données

5.3 Modélisation de la tuberculose : Cas de l’Algérie

5.3.1 Situation épidémique en Algérie

5.3.2 Modélisation de la tuberculose par Bio-PEPA

5.3.3 Processus d’optimisation par classification

5.3.3.1 Prétraitement des données


5.3.3.3 Classification

5.3.3.4 Evaluation et interprétation

5.3.3.5 Optimisation du modèle

5.3.3.6 Simulation et analyse

5.3.4 Généralisation de l’approche par des données additionnelles

5.3.4.1 Prétraitement


5.3.4.3 Classification par arbre de décision




5.3.5 Optimisation par règles d’association

5.3.5.1 Génération de règles

5.3.5.2 Evaluation et interprétation des règles générées


5.4 Conclusion

Chapitre 5 Fouille de données pour l’optimisation des modèles épidémiologique :


78

5.1 Introduction

Dans le chapitre précédent, nous avons proposé un modèle épidémiologique Bio-PEPA ainsi

qu’un outil complémentaire de vérification et de validation. Nous avons démontré que les

informations récoltées lors de la conception du modèle ont un impact majeur sur la cohérence

du modèle et les résultats de simulation. En effet, bien que l’approche telle que présentée a

prouvé ses performances dans la reproduction du schéma d’une épidémie, nous avons

démontré qu’une simple omission ou ignorance lors de l’interaction entre l’expert et le

développeur pourrait engendrer des erreurs de prédiction et accroitre le degré d’incertitude du

modèle. Ainsi, fournir des connaissances valorisantes pour une conception d’un modèle

épidémiologique optimal est un défi pour l’expert (épidémiologiste) qui aujourd’hui, fait face

à une panoplie d’informations et des données médicales massives. Afin d’optimiser les

modèles épidémiologiques en intégrant l’essentiel et ignorant le superflus, nous proposons

dans ce chapitre de combiner notre approche de modélisation, de vérification et de validation

à un processus d’extraction automatique des connaissances sans pour autant alourdir la phase

d’interaction entre l’expert et le développeur. Ce processus est mieux connu sous la

dénomination de fouille de données. A la lumière de cette nouvelle approche, il s’agit dans ce

chapitre d’évaluer ses performances au travers d’un exemple réel : la tuberculose en Algérie.


Dans une optique de modélisation et d’optimisation, ce chapitre est consacré à la conception

du modèle de la tuberculose en Algérie, où l’optimisation par fouille de données est proposée

comme troisième contribution et solution aux limites discutées au chapitre 4.

Le choix de cet exemple s’est automatiquement défini dans notre recherche et ceci pour deux

raisons élémentaires. La première raison est liée à l’impact de l’épidémie et l’urgence dont

font face les secteurs sanitaires. En effet, le choix de la tuberculose a été imposé par la cellule

épidémiologique de la commune Ain Tedles de Mostaganem (Algérie). Le centre

épidémiologique a souligné la gravité de cette épidémie qui continue de se propager et ce

malgré les traitements et prévention préétablis. La deuxième raison est davantage

méthodologique, en exploitant des épidémies qui touchent une grande partie de la population

dont les données sont récoltées, notre approche permet de démontrer jusqu’où la fouille de

données pourrait être envisagée comme étant une solution d’optimisation à la modélisation.

En d’autres termes, aux travers de cet exemple nous démontrons quelles sont les conditions

nécessaires pour une bonne exploitation des connaissances acquises de la fouille de données

au profit de la modélisation computationnelle.

La figure 5.1 présente l’ensemble des composants de notre approche, où les trois principaux

modules sont illustrés : modélisation et simulation, fouille de données et optimisation. Nous

commençons par considérer la première phase de notre approche qui contribue à l’élaboration

d’un modèle computationnel de prédiction de base, puis selon les résultats obtenus et selon le

rapport de l’expert le modèle sera optimisé.



79

Figure 5.1 Optimisation des modèles épidémiologiques : Structure Générale5

Cette partie fait l’objet de trois publications :

Hamami, D., Atmani, B., & Shankland, C. (2017). Decision Support Based on Bio-PEPA

Modeling and Decision Tree Induction: A New Approach, Applied to a Tuberculosis Case Study

(Forthcoming). International Journal of Information Systems in the Service Sector, 9(2).

D.hamami, B.Atmani, R.Cameron, K.G.Pollock, C.Shankland. Improving process algebra model

structure and parameters in infectious disease epidemiology through data mining. En cours de

révision, Journal of Intelligent Information Systems (JIIS).

Hamami, D., & Atmani, B. (2016, October). Obtaining Optimal Bio-PEPA Model Using

Association Rules: Approach Applied to Tuberculosis Case Study. In International Conference on

Information Systems for Crisis Response and Management in Mediterranean Countries (pp. 62-

75). Springer International Publishing. http://dei.inf.uc3m.es/iscrammed2016/

5 Les étapes inclues dans la phase « data mining » telle qu’illustrée sur la Figure 5.1, se réfèrent à toutes les

étapes du processus d’extraction de données (ECD) et ne se limite pas uniquement à l’étape de la fouille de

données. Le choix du titre de la phase utilisé est pour des raisons de convenances.






4: Définition du processus: entrées, sorties, règles et

hypothèses

5: Implémentation du modèle Bio-PEPA – Contribution

1

4: Ensemble de règles et d’attributs pertinents

3: - Arbres de décision -Règles d’association

2: Sélection des attributs

1: Nettoyage des données et transformation

Op

tim

isati

on

basi

qu

e

La

nga

ge

na

rra

tif

– C

on

trib

uti

on

2

Ph

ase

d’O

pti

mis

ati

on

Phase de fouille de données Phase de modélisation et de simulation

Données épidémiologi

ques

Ex

tra

cti

on

des

co

nn

ais

san

ces

– C

on

trib

uti

on

3



80

Ainsi, les différentes étapes constituant notre troisième contribution appliquée à l’épidémie de

la tuberculose sont :

1. Prétraitement des données épidémiologiques de la tuberculose;


3. Application des arbres de décision et des règles d’association ;

4. Evaluation et interprétation des règles extraites et des attributs sélectionnés comme

meilleurs descripteurs;



Avant de décrire les différentes étapes, nous rappelons à ce niveau que notre principale

contribution réside dans le fait d’enrichir/raffiner le modèle computationnel initialement

conçu par les nouvelles connaissances acquises durant la phase de la fouille de données. De ce

fait, ces connaissances doivent être intégrées dans l’une des phases de modélisation décrite

dans le Chapitre 1. Ainsi, le processus d’optimisation est présenté comme suit :

Les étapes de 1 à 3 : sont identique au processus de l’ECD. Nous rappelons que ce dernier est

réalisé au fil de quatre étapes : (1) prétraitement des données, (2) sélection des attributs, (3)

fouille de données et (4) évaluation et interprétation (cf. Chapitre 3). Il est important de noter

que les méthodes et techniques citées dans le chapitre 3 associées aux processus de l’ECD

sont exploitées dans notre approche proposée, autant que boite noire. Pour une description

détaillée de ces techniques, nous invitons le lecteur à consulter les références correspondantes.

Toutefois, nous guidons le lecteur tout au long de ce chapitre sur le choix de l’utilisation de

certaines méthodes et algorithmes.

Dans la lumière des différentes descriptions et définitions présentées au cours du chapitre 3,

nous avons montré que le choix des algorithmes de fouille de données se base principalement

sur l’objectif de l’étude. Notre but dans ce chapitre étant de concevoir un modèle de la

tuberculose pour une prédiction optimale et pour une meilleure description et compréhension

de la dynamique de l’épidémie, se focaliser sur la tâche de classification ou sur les règles

d’association serait le moyen le plus approprié pour aboutir à nos fins. La motivation

d’utiliser la classification entre autre les arbres de décisions (méthode prédictive) est liée à

son aptitude à examiner les caractéristiques d’un objet et lui attribuer une classe. Cet objet

étant défini par un ensemble d’attributs, nous permettra de mieux cerner ceux qui sont les plus

pertinents à la conception de notre modèle en corrélation avec les classes qui leur sont

attribuées. Quand à notre motivation à utiliser les règles d’association (méthode descriptive)

est due à leur aptitude à déterminer les valeurs qui sont associées sans pour autant se focaliser

sur une classe particulière. Le choix d’exclure la segmentation (clustering) est justifié par le

fait que cette dernière consiste à former des groupes homogènes en faisant intervenir

l’ensemble des attributs. Ceci contredit notre objectif qui est celui de n’extraire que les

attributs pertinents. Quand à la régression, nous l’avons exclu pour des raisons liées au type

de données exploitées dans notre thèse.

- L’étape 4 : les nouvelles connaissances sont analysées par l’expert/développeur afin de

les classifier autant qu’entrée, sorties ou règle de la dynamique de la maladie et seront



81

intégrées à l’étape « définition du processus » décrites à la section 1.2.3 – Chapitre 1 et la

section 4.2.1 – Chapitre 4. Cette étape est la plus critique de notre approche car elle consiste à

sélectionner les éléments les plus pertinents pour enrichir/optimiser le modèle initial. Il est à

noter que d’une part l’expert doit intervenir pour affirmer l’utilité de cette nouvelle

connaissance qui lui a été inconnue (ou oubliée) jusqu’à présent. D’autre part, le développeur

doit affirmer le degré de complexité (faisabilité) du formalisme à pouvoir inclure

l’information sélectionnée.

- L’étape 5 : Suivant le processus de modélisation, nous rappelons que lors de l’étape

d’optimisation se basant sur les connaissances de l’expert, le processus retourne à l’étape

« définition du processus » afin de pouvoir revérifier les entrées, sorties et règles prédéfinies.

Il est à noter qu’ici, l’étape d’optimisation est similaire à celle définie dans la section 4.3

(chapitre 4), la seule différence est que les nouvelles connaissances sont acquises du

processus de la fouille de données au lieu de l’expert lui-même. L’intégration d’un nouvel

élément dans le modèle Bio-PEPA consiste à revisiter le(s) composent(s) qui lui correspond

en outre: les paramètres, les taux fonctionnels, les espèces, et les composants du modèle. Par

exemple, si l’attribut genre a été défini comme nouvelle connaissance, les individus (espèces)

seront redéfinis selon deux compartiments disjoints (mâle/femelle), où l’ensemble des

paramètres ainsi que les taux fonctionnels seront redéfinis pour chaque espèce. Par contre, si

une nouvelle règle a été détectée, les espèces resteront inchangées où uniquement les

paramètres et taux fonctionnels seront mis à jour. Il est important de noter qu’à ce niveau de

notre approche, pour ne pas tomber dans le piège d’une complexité croissante lors de

l’optimisation du modèle Bio-PEPA, il est utile de filtrer les connaissances pertinentes

extraites de la fouille de données et de n’inclure que celles qui se trouvent être les plus

appropriées et prioritaires vis-à-vis de l’expert et du développeur.

Afin d’optimiser au mieux le facteur temps et effort lors de l’intégration de nouvelles

connaissances, nous suggérons de prendre en considération les recommandations suivantes :

Commencer par intégrer les attributs qui existent déjà dans le modèle initial pour

lesquelles la fouille de données propose d’autres plages de valeurs correspondantes

que celle utilisé dans le modèle initial.

Sinon, ne considérer que les attributs qui ne sont pas utilisés dans le modèle initial

(s’ils existent) en ignorant le reste.

Ne considérer que les attributs qui semblent les plus probables à l’expert.

Sinon, refaire la phase de la fouille de données pour extraire de nouveaux patterns.

- L’étape 6 : la simulation du modèle optimisé permet d’évaluer les performances de

l’étape précédente et de valider le modèle épidémiologique conçu.

La particularité de notre approche est que les trois principales phases, en outre : modélisation

et simulation, fouille de données et optimisation, sont toutes itératives et interactives.

- Itérative : l’utilisateur pourra répéter chaque phase autant qu’il veut pour un modèle

optimal.

- Interactive : la répétition des étapes des phases n’est pas conditionnelle dans le sens où

l’utilisateur pourra retourner à n’importe quelle étape des phases.



82

L’avantage de cette flexibilité est d’une part offrir à l’utilisateur le pouvoir de revenir sur

l’une des étapes du processus à tout moment afin d’optimiser au mieux les données les plus

pertinentes. D’une autre part, vu le caractère dynamique des épidémies, les données qui leur

sont associées le sont aussi. Ainsi, l’optimisation a besoin d’être mise à jour avec ces

nouvelles informations. Supposons par exemple, que le modèle computationnel a été validé,

mais la résurgence de l’épidémie a généré de nouveaux patterns, ceci implique une remise en

question du modèle préétabli et ainsi une optimisation du modèle conçu s’impose.

Toutefois, pour un processus de modélisation moins laborieux, il est judicieux de respecter

l’ordre des phases et étapes tel qu’il a été présenté.

5.3 Modélisation de la tuberculose : Cas de l’Algérie

5.3.1 Situation épidémique en Algérie

L’histoire de la lutte contre la tuberculose en Algérie remonte à 1964, où une unité centrale a

été mise en place par le ministère de la santé. Cette unité consistait à proposer de nouvelles

techniques pour le suivi et le traitement de la tuberculose.

Vers le début des années 70, l’unité conclue vers un engagement gouvernemental rendant

ainsi la vaccination contre la tuberculose gratuite, aussi le diagnostic, le traitement et la

surveillance ont été déclarés obligatoires pour les maladies infectieuses (INSP, 2006). Pour

cet effet, un Service d'Epidémiologie et Médecine Préventive (SEMEP) a été crée en 1985 au

sein de chaque secteur sanitaire du territoire Algérien. Le SEMEP est un service de collecte,

d'analyse et d'interprétation des données sanitaires pour la description et le suivi continue des

épidémies. Aussi, le service SEMEP prend en charge tous les protocoles de vaccination qu’ils

soient préventifs ou curatifs (pour adulte, enfant et nouveau né), ceci en collaboration avec

différents points sanitaires tels que le centre de protection maternelle et infantile (PMI).

Suite à cet engagement et structuration, la santé publique a constaté une croissance

considérable du nombre de demandeurs de soins, favorisant le dépistage de la tuberculose et

ainsi une meilleure stratégie de prévention a été adoptée. Cependant, dès le début des années

90, le pays s’est retrouvé face à une instabilité politique, qui par conséquent a influencé le

secteur médical. La majorité des équipes sanitaires en général et celle en charge du suivi de la

tuberculose en particulier, se sont retrouvés isolés et démunis de supports techniques, de

diagnostiques appliqués et de rupture de stock de médicaments. Ceux-ci ont favorisé la

réémergence des cas tuberculeux.

Dix ans après, à la demande de la région d’Afrique de l’OMS (Organisation Mondiale de la

Santé), le programme de lutte contre la tuberculose a été relancé. Cependant, en dépit des

avancées significatives en médecine et bien qu'aujourd’hui le programme de vaccination est

bien élargi, la tuberculose continue d'affecter les populations humaines dans beaucoup de

régions du monde. En 2014, l’OMS a estimé 9,6 millions de nouveaux cas de tuberculose

répartis dans le monde, où l’Inde, l’Indonesie et la China comptent pour 43% du nombre total

déclaré (cf. figure 5.2). Pour certains pays la tuberculose demeure une maladie mortelle

notamment en Inde, l’Indonésie et le Niger, où le nombre de décédés par la tuberculose a

atteint 40 morts par 100000 habitants (cf. figure 5.3) (WHO, 2015). En Algérie, en 2014 plus



83

de 22000 cas tuberculeux ont été signalés dont 39% pulmonaires contagieux. L’incidence de

l'infection de la tuberculose en Algérie est illustrée sur le tableau 5.1. Malgré l’amélioration

globale de la situation en Algérie, les résultats demeurent insuffisants face à la contagiosité de

la maladie (WHO, 2015).

Pour réduire le fardeau global de la tuberculose et maitriser sa propagation, il faut combler les

lacunes en matière de détection et de traitement et mettre au point de nouveaux outils de

diagnostique. Ceux-ci induisent à prendre en compte certains facteurs déterminants de la santé

qui ont une incidence sur le bien être: niveau de revenu et situation sociale, réseaux de soutien

social, niveau d'instruction, emploi et conditions de travail, environnements sociaux, contexte

géographique, environnements physiques, développement sain dans l'enfance, culture, etc. Le

développement actuel de la tuberculose fait que ces variables font partie des éléments étudiés

par les épidémiologistes pour l’expliquer, et prendre des mesures radicales pour l’éradiquer.

Ces actions correctives nécessitent des indicateurs et des méthodes de diagnostic et

d’évaluation des risques incluant des variables pertinentes, facilement calculables et

interprétables. D’où notre contribution de proposer un système d’aide à la décision et au

diagnostic.

Figure 5.2 Incidence de la tuberculose dans le monde (OMS, 2016)



84

Figure 5.3 Mortalité due à la tuberculose dans le monde (OMS, 2016)

Tableau 5.1 Incidence de la tuberculose en Algérie (taux pour 100000)

Année

Incidences

TPM+1 TEP

2 TB

3

2001 26.2 26.9 60.1

2002 26.9 28.1 60.9

2003 27.3 28.7 62.8

2004 26.0 29.7 63.2

2005 26.6 31.3 65.5

2006 26.2 31.4 65.2

2007 25.8 31.4 63.3

2008 25.2 28.2 58.6

2009 24.5 32.4 63.3

2010 23.1 32.7 60.7

2011 21.7 33.3 59.9

2012 19.4 32.7 56.7

2013 18.6 31.1 53.5

2014 17.2 35.4 57.2

1TPM+: tuberculose pulmonaire à microscopie positive.

2TEP: tuberculose extra-Pulmonaire

3TB: tuberculose toutes formes confondue



85

5.3.2 Modélisation de la tuberculose par Bio-PEPA

La tuberculose est une maladie infectieuse. Elle est considérée fortement contagieuse et

dangereuse quand l’individu hôte n’est pas sous surveillance ou sous traitement, étant latente

à très longue période (au plus 5 ans), l’individu porteur de la tuberculose pulmonaire peut être

considéré un danger permanent qui peut contaminer la population en tout instant. Les données

fournies par le service épidémiologique de la Daira de Ain Tedles (Mostaganem) montrent

que durant la période de 2008 au début 2013, sur 999 cas tuberculeux, 60% sont diagnostiqués

à tuberculose pulmonaire. Plus encore, 60% des nouveaux cas sont classifiés tuberculeux

pulmonaires.

a. Interaction expert/modélisateur

Nous proposons dans cette section de modéliser la dynamique de la tuberculose au sein de la

population de Mostaganem, commune Ain Tedles (Algérie). Pour cela le modèle à

compartiments schématisé sur la figure 5.4, a été adopté. Nous rappelons que la première

étape du processus de modélisation décrite dans le chapitre 4 est l’interaction

expert/modélisateur. Ainsi, cette structure est basée en premier lieu sur les connaissances

acquises de l’expert et que pour ce modèle de base aucun outil d’acquisition de connaissances

n’a été à lors utilisé.

Le modèle ainsi présenté, est structuré selon huit compartiments :

Susceptible : un individu est considéré susceptible s’il est à risque de contracter la

maladie

Diagnostiqué infecté : un susceptible ayant été en contact avec un tuberculeux et

présentant les signes de la maladie est considéré infecté.

Guérit : un individu est considéré guéri, si à la fin de son traitement les tests

bactériologiques sont déclarés négatifs.

Décédé : si au cours de son traitement, l’individu infecté décède.

Traitement terminé : si l’individu infecté a terminé son traitement mais n’a pas

effectué les tests bacilloscopiques de la dernière phase.

Perdu de vue : l’individu a été diagnostiqué infecté mais n’a suivi aucun traitement ou

traitement inachevé.

Echec : si l’individu a suivi tout le processus de son traitement mais les tests de la

dernière phase se sont révélés positifs.

Transféré : si l’individu est déclaré résistant à la tuberculose.



86

Figure 5.4 Modèle à compartiments de la tuberculose

Tel qu’illustré sur la figure 5.4, une fois l’individu susceptible diagnostiqué, il est transféré

vers le compartiment des infectés. A son tour l’individu infecté et traité est transféré vers l’un

des six états (guéri, décédé, traitement terminé, perdu de vue, échec, transféré). Il est à noter

que :

Parce que le traitement ne permet pas une immunité à vie, un individu guéri revient

automatiquement vers l’état susceptible.

Due à l’échec de l’individu au traitement, ce dernier reste infecté et revient

automatiquement vers l’état infecté.

Les individus perdus de vue sont considérés comme étant toujours infectés et donc

sont renvoyés automatiquement vers l’état infecté.

b. Conception du modèle formel par Bio-PEPA

Selon le processus de modélisation, l’étape suivante est la conception formelle du modèle par

Bio-PEPA. Tel que décrit dans le chapitre 4, cette étape consiste à exploiter les informations

collectées lors de l’étape précédente (les entrées, les sorties, les règles et hypothèses) et de

concevoir le modèle épidémique.

Dans ce contexte, nous avons développé le modèle de la tuberculose selon le formalisme Bio-

PEPA. Les notions de base de ce formalisme ont été rappelées dans le chapitre 1. En outre,

pour un modèle Bio-PEPA, nous définissons les paramètres du modèle, les espèces, les taux

fonctionnels, les compartiments et les composants du modèle.

Paramètres : Les paramètres décrivant les flux des transitions, tels que schématisées

sur la figure 5.4, sont présentés dans la figure 5.5 (cf. de la ligne 1 à 8) et résumés sur le

tableau 5.2. Ces paramètres ont été calculés à partir des données fournies par le service

épidémiologique de la Daira de Ain Tedles (Mostaganem) ou des travaux de tuberculose

existants (DeEspindola et al., 2011 ; Aparicio et Castillo-chavez, 2009). Au total, huit

paramètres sont nécessaires pour concevoir ce modèle de la tuberculose. Chaque arc

schématisé sur la figure 5.4 est relatif à un paramètre. Cependant, pour notre modèle, les trois

arcs représentés par ( ) ne sont pas paramétrés car il s’agisse de retour instantané des

individus aux états concernés. Au-delà de ces paramètres explicites, nous définissons dans

notre modèle le paramètre « population size ». Nous considérons dans notre modèle une

t

6

Recovered Transferred Trt_comp Died

Diagnosed infected TP

1 2 5 4

1

Failed Lost

3

Susceptible

Diagnosed

infected TP



87

population constante. Le fait que la population reste constante pendant toute la période d'étude

n'a pas un impact important sur le comportement de la maladie. En effet, le temps de

simulation est court par rapport à la durée de vie d'un individu, et chaque individu déjà infecté

est automatiquement transféré vers l’un des compartiments définis dans le modèle qui

permettent soit de garder l’individu ou de le transférer vers un autre compartiment, et ainsi de

suite. La tuberculose est définie par une période de latence. Cependant, cette dernière peut

varier de deux mois à plusieurs années (environ 5 ans). Due à cette variabilité et à l’objectif

de suivre l’évolution des individus infectés en cours de traitement, nous avons opté d’ignorer

cette période de latence dans notre schéma en l’intégrant directement dans la période

d’infectiosité. Ainsi, en cas de contamination et selon le nombre d’infectés enregistrés, les

individus susceptibles transitent directement vers l’état infecté. Le taux de transmission p

(infection) est calculé en fonction de la probabilité d’infection, du nombre de contact entre

individus et de la période d’infectiosité.

Figure 5.5 Modèle de la tuberculose en BIO-PEPA

1 P= 0.000000075;

2 θ1 =0.00034;

3 θ2 =0.0032;

4 θ3 =0.00014;

5 θ4 =0.0011;

6 θ5 =0.00007;

7 θ6 =0.00069;

8 size-Population = 137990;

9 Location City : size = size-Population, type = compartment;

10 kineticLawOf susceptible_infected : P* Susceptible@City* Infected@City;

11 kineticLawOf Failure : θ1 * Infected@City;

12 kineticLawOf Recovery : θ2 * Infected@City;

13 kineticLawOf Transfer : θ3 * Infected@City;

14 kineticLawOf End_Treatment : θ4 * Infected@City;

15 kineticLawOf Death : θ5 * Infected@City;

16 kineticLawOf Loss : θ6 * Infected@City;

17 Susceptible = (susceptible_infected,1) << Susceptible ;

18 Infected = (susceptible_infected,1) >> + (Recovery,1) << + (Failure,1)

<< + (Transfer,1) << + (End_Treatment,1) << + (Death,1) << + (Loss,1)

<< ;

19 Failed = (Failure,1) >> Failed ;

20 Recovered= (Recovery,1) >> Recovered ;

21 Transfere=(Transfer,1) >> Transfere ;

22 Trt_comp=(End_Treatment,1) >> Trt_comp ;

23 Died = ( Death,1) >> Died;

24 Lost = (Loss,1) >> Lost ;

25 Susceptible@City[137990]<*> Infected@City[15]<*> Recovered@City[0]

<*> Transfere@City[0]<*>Trt_comp@City[0]<*> Died@City[0]

<*> Lost@City[0] <*>Failed@City[0]



88

Le nombre de contacts, tel que défini par Aparicio et Castillo-Chavez et al. (2009), est le

nombre total des infections secondaires causées par un infecté dans une population de

susceptible. Le nombre de contact est estimé en moyenne entre 7 et 30 et la période

d’infectiosité entre six mois et deux ans (Aparicio et Castillo-Chávez et al., 2009). L’étude

épidémiologique sur la tuberculose de Lincoln (1965) a identifié des individus infectieux

capables de transmettre la maladie à plus de 200 personnes en quelques mois. Les paramètres

i (i=1..6) sont définis en fonction de la période d’infectiosité et de la probabilité

« x_probability », où x {Transfer, Failure, Lost, Treatment, Death, Recovery}. Les

probabiltés sont calculées des données fournies par le service épidémiologique.

Espèces : Dans Bio-PEPA, les espèces représentent les compartiments6 (états) définis

dans la figure 5.4. Chaque espèce se rapporte à un type d’individu. Dans notre modèle, nous

définissons huit espèces, de la ligne 17 à 24 (susceptible, infecté, guérit, décédé, perdu de vue,

traitement terminé, échec et transféré). La variation (croissance/décroissance) de la densité

(quantité) des espèces est suivant les opérateurs et actions auxquelles elles sont reliées. Par

exemple, quand l’action « susceptible_infected » est exécutée, l’opérateur « >> » est invoqué

et ainsi la densité de l’espèce infecté accroît, car les susceptibles sont infectés et donc

6 A ne pas confondre avec le terme compartiments de Bio-PEPA, qui est un composant du formalisme

Tableau 5.2 Paramètres du modèle

Paramètre Description Valeur Formule

p Taux d’infection à partir

de l’état susceptible 5.4 e

-8 (Contact _ Number / Infection_Period )*

Infection_Probability 1 (Keeling and Rohani,

2008).

θ 1 Taux de transfert 0.1 e-3

(1/ Infection_Period) * Transfer

_Probability1 (Keeling and Rohani, 2008).

θ 2 Taux d’échec 3.7 e-4

(1/ Infection_Period) * Failure_Probability

θ 3 Taux de perdue de vue 8.5 e-3

(1/ Infection_Period)* Lost _Probability1

θ 4 Taux de traitement

terminé 7.8 e

-4 (1/ Infection_Period)*

Treatment_completed_Probability

θ 5 Taux de mortalité 1.9 e-4

(1/ Infection_Period)* Death_Probability1

θ 6 Taux de guérison 4 e-4

(1/ Infection_Period)* Recovery_Probability1

t Taux des guéris transitant

à l’état susceptible 1

Tous les guéris reviennent à l’état susceptible

ɳ1 Taux des échecs

retournant à l’état infecté 1 Tous les échecs reviennent à l’état infecté

ɳ Taux des résistants

retournant à l’état infecté 1 Tous les perdus de vue reviennent à l’état

infecté

Contact

Number

Nombre de contacts avec

un infecté 27 Compris dans l’intervalle [7,30]

(Aparicio et Castillo-chavez, 2009)

Infection

Period

(month)

Période de l’infection 6 Compris dans l’intervalle [6,24]

(Aparicio et Castillo-chavez, 2009)

1Les probabilités sont calculées des données observées.



89

transférés à l’état infecté. Par analogie, l’action « recovery » invoquant l’opérateur « << »

décroît le niveau des infectés qui sont guéris et transitent vers l’état guérit.

Taux fonctionnels : telles qu’illustrées sur la figure 5.5, de la ligne 10 à 16, les taux

fonctionnels ainsi définis permettent de spécifier le degré d’évolution des espèces. Ainsi,

chaque action spécifiée dans la partie « espèces », est définie dans la partie « taux

fonctionnels ». Par exemple, le taux fonctionnel « susceptible_infected » est défini par le

contact entre susceptible et infecté selon un taux d’infection « p ».

Compartiments : Bio-PEPA permet d’attribuer une location particulière à un type

d’individu particulier. Dans notre modèle, les individus sont homogènes et donc appartiennent

à la même zone d’étude (cf. figure 5.5, ligne 9). Ainsi dans ce modèle, nous définissons une

seule zone « City ».

Le composant modèle : définit la densité initiale des espèces et leurs interactions. Il est

à noter que toutes les espèces définies dans le modèle sont initialisées dans cette partie (cf.

figure 5.5, ligne 25).

c. Simulation et analyse par Bio-PEPA

Tel que décrit dans le chapitre 1, Bio-PEPA permet de simuler le modèle conçu et de

l’analyser selon différentes techniques d’analyse. Pour cela, deux types de simulation ont été

réalisées : simulation stochastique et simulation déterministe. Du fait que la simulation

déterministe génère les mêmes résultats que la moyenne de 100 simulations stochastiques,

nous allons illustrer dans les résultats uniquement une seule série de résultats de simulation.

Ces derniers seront nommés « données simulées ». Les résultats sont comparés aux données

observées. Nous rappelons que les données collectées et fournies par le service

épidémiologique de Ain Tedles (Mostaganem) s’étalent de l’année 2008 à 2012. Etant donné

que certains paramètres sont calculés à partir des données observées, le tableau 5.3 schématise

la période utilisée selon l’année de prédiction. Par exemple, afin de prédire l’année 2009, les

paramètres du modèle sont calculés en utilisant les données de l’année 2008, et pour prédire

l’année 2010, la moyenne des données des années 2008 et 2009 est utilisée, et ainsi de suite.

La figure 5.6 illustre l’évolution de la population tuberculeuse après traitement en moyenne

de 100 simulations selon le modèle à compartiments (SEIR) tel que présenté dans la

figure 5.4. En utilisant une analyse statistique par ANOVA (two way) suivi par Tukey

(comparaison multiple), il a été démontré qu’au-delà de 100 simulations les résultats ne sont

pas statistiquement différents, d’où la limitation d’une moyenne de 100 simulations par

expérimentation. Les histogrammes ainsi illustrés correspondent au comportement de la

maladie durant une année d’épidémie où la simulation démarre à l’instant t=0 et s’arrête à

l’instant t=364. Initialement (à l’instant t=0), le système n’est défini que par les individus

susceptibles et infectés. Pour une meilleure précision du modèle, nous avons opté de valider le

modèle correspondant aux années 2009, 2010, 2011 et 2012. L’année 2008 a été exploitée

comme année de référence afin de paramétrer le modèle. Les histogrammes ainsi illustrés (cf.

figure 5.6), montrent l’évolution des états des individus : guéris, perdus de vue, décédés,

transférés, échoués et traitement terminé. Ces derniers sont comparés aux histogrammes des

données observées.



90

Simulation pour l’année 2009

Les histogrammes (cf. figure 5.6) montrent clairement une parfaite similarité entre les deux

modèles (observé, simulé). Ceci implique que les paramètres utilisés et la structure établie

selon le modèle conceptuel élaboré par l’expert et le développeur représente correctement le

processus réel de l’épidémie de la tuberculose pour l’année 2009. Selon le processus de

traitement suivi par les individus tuberculeux détectés, les histogrammes tels qu’illustrés

correspondent aux états des individus après 180 jours de traitement. Afin de renforcer la

validité des résultats pour l’année 2009, le test d’ajustement Khi2 (2) a été appliqué à 5% de

niveau de confiance, où le fait que les données simulées suivent la même distribution que les

données observées a été adopté autant qu’hypothèse nulle (H0), tandis que l’hypothèse

alternative (H1) correspond au cas où les données simulées suivent une toute autre distribution

différente de celle des données observées. Les résultats dérivants de cette analyse montrent

clairement que : 2 = 0.381, degrés de liberté = 3, valeur-p = 0.944, d’où la conclusion qu’il y

a une évidence insuffisante à un niveau de 5% de rejeter l’hypothèse H0 en faveur de

l’hypothèse H1. De ce fait, la déclaration que les données observées ne sont pas différentes

des données prédites est confirmée. A ce niveau et selon cette conclusion, l’optimisation du

modèle n’est pas requise et le modèle ainsi conçu est considéré comme valide.

Figure 5.6 Modèle de la tuberculose pour l’année 2009

2 3

5 4

47 48

11 9

2 3

14 13

0

5

10

15

20

25

30

35

40

45

50

Données simulées Données observées

Died

Failed

Recovered

Lost

Transfered

Treat_Comp

Tableau 5.3 Année de prédiction vs ensemble de données

Année de prédiction 2009 2010 2011 2012

Ensemble d’années utilisé 2008 2008-2009 de 2008 à 2010 de 2008 à 2011



91

Figure 5.8 Extrait de règles du modèle Bio-PEPA 2010 de « Analyseur Bio-PEPA »

Simulation pour l’année 2010

Le modèle ainsi validé dans la section précédente est exploité pour simuler l’année suivante

(2010) où les mêmes paramètres sont reportés.

La figure 5.7 illustre les états des individus infectés en 2010 et qui ont été enregistrés pour le

protocole de traitement de 180 jours. Même si les résultats montrent une parfaite similarité de

l’état guérit entre les données simulées et observées (44 individus infectés traités ont été

guéris), il ressort de cette simulation une instabilité des résultats correspondants aux autres

états, en particulier les états des perdus de vue et traitement terminé, où l’écart est estimé à 9

individus pour les « perdus de vue » et 9 individus pour les « traitement terminé ». Cependant,

il apparait clairement que l’état des perdus de vue est plus alarmant du fait que les résultats de

simulation lui correspondant sous-estime le niveau réel d’infection contrairement à l’état


2 4 4

7

44 44

9

18

2 1

14

5

0

5

10

15

20

25

30

35

40

45

Simulated data Observed data

Died

Failed

Recovered

Lost

Transfered

Treat_Comp



92

traitement terminé qui est surestimé. De plus, les individus perdus de vue sont le groupe le

plus important en nombre après les guéris, où ils représentent 23% des individus infectés, or

nous observons uniquement 12% pour les données simulées. Cet écart est d’autant plus

important, car les individus perdus de vue, de par leur caractéristique, sont des individus qui

ont été détectés et enregistrés pour un traitement mais pour des raisons inconnues ne l’ont pas

démarré et ne sont jamais revenus pour un suivi médical. En conclusion, les individus perdus

de vue demeurent infectés et un risque ambulant pour la population. Ne pas identifier et

prédire correctement ce type d’individus, pourrait causer une invasion de l’épidémie pour les

années futures, d’où la nécessité urgente d’y remédier. Le modèle que nous avons conçu est

inapproprié pour prédire l’année 2010, ainsi, une optimisation s’impose. Selon les étapes du

processus de modélisation et simulation définis au chapitre 4, l’étape d’optimisation consiste à

revenir vers l’étape « modèle conceptuel » et vérifier les concepts « entrées, sorties, règles et

hypothèses ».

Afin de simplifier se processus, nous avons appliqué notre méthode de validation

(contribution 2) décrite au chapitre 4. Nous rappelons que cette méthode consiste à traduire le

langage formel Bio-PEPA en un langage narratif, ainsi les énoncés de l’expert seront

facilement vérifiés et validés.

La figure 5.8 présente un extrait de règles traduites du code Bio-PEPA. Cet ensemble

d’informations a été présenté à l’expert qui a validé son contenu. L’expert a donc affirmé que

les informations reportées dans le modèle correspondent aux principes du processus de la

tuberculose définis dans le modèle conceptuel. Toutefois, l’expert a suggéré que les valeurs

des paramètres utilisés pour prédire l’année 2009 peuvent être inappropriées pour prédire

l’année 2010. L’expert a argumenté que la tuberculose est une maladie très instable. Ceci est

dû en particulier à :

- La variabilité des états des individus d’une part,

- La possibilité qu’un infecté guéri puisse rechuter d’autre part.

Cependant, l’expert n’était pas en mesure de nous guider davantage vers un paramétrage

permettant de raffiner notre modèle.

Comme solution, nous avons opté de varier les valeurs des paramètres selon les plages

proposées dans la littérature : contact_ number and infection_period (cf. tableau 5.2). Une

série d’expérimentations montre que les résultats sont insensibles aux nouvelles valeurs et que

les données simulées sont différentes des données observées. Les résultats convergent vers les

mêmes histogrammes que ceux de la figure 5.8. Cet exemple prouve bien l’incapacité de

l’expert à nous enrichir avec plus de connaissances même si le modèle conçu lui a été

présenté dans un langage qui lui est bien familier et qu’il a validé. Par conséquent, les

questions suivantes se posent : Que s’est-il passé en 2010 que l’expert ignore ? Quelle

information est omise de notre modèle ? Quel attribut/paramètre peut expliquer cet écart entre

données simulées et observées ? Face à cet obstacle et à l’invalidité de l’expert à enrichir

notre modèle par d’autres connaissances, nous proposons d’utiliser la contribution majeure de

notre travail de thèse qui concerne l’optimisation du modèle par des connaissances extraites

de la fouille de données.



93

Nous rappelons qu’une optimisation du modèle computationnel par fouille de données

nécessite le passage vers une autre phase que celle de la modélisation et simulation, c’est la

phase de fouille de données (data mining). Dans ce qui suit, nous allons appliquer les

différentes techniques de la fouille de données : classification et règles d’association.

Cependant, pour chaque technique nous allons la faire suivre par une phase d’optimisation.

Autrement dit, nous allons procéder comme suit :

- Appliquer la classification ;

- Extraire les attributs pertinents ;

- Appliquer l’optimisation du modèle Bio-PEPA ;

- Simulation et analyse des résultats ;

- Appliquer les règles d’association ;

- Extraire les attributs pertinents ;

- Appliquer l’optimisation du modèle Bio-PEPA ;

- Simulation et analyse des résultats ;

- Effectuer une étude comparative.

5.3.3 Processus d’optimisation par classification

Cette phase consiste à appliquer les étapes du : 1) Processus d’extraction des connaissances

(ECD : prétraitement et sélection des données, fouille de données et validation) ; 2)

Optimisation ; 3) Simulation et analyse.

Pour la phase de l’ECD, nous pouvons utiliser l’un des logiciels de fouille de données

(Orange, Weka, Tanagra, etc.). Dans notre cas, une large recherche bibliographique nous a

mené à opter pour Weka (Sharma et Jain, 2013 ; Hall et al., 2009 ; Sharma et al., 2012.

Gibert, et al., 2008). Tel que reporté par Hall et al. (2009) : « WEKA est reconnu comme un

système de point de repère dans l'extraction de données et de l'apprentissage machine. Etant

un outil de recherche et d’exploration de grandes bases de données, Weka a obtenu une large

acceptation au sein du milieu académique, des sociétés et des entreprises ».

La plateforme Weka (Waikato Environment for Knowledge Analysis) est une collection

d’algorithmes d’apprentissage automatique. Développé en Java par l’université de Waikato

(Nouvelle Zlande), Weka permet d’explorer une multitude de techniques prédictives et

descriptives au moyen d’outils de visualisation et d’algorithmes tels que la classification et les

règles d’association.

Ainsi, notre choix d’utiliser cette plateforme se base sur deux principales motivations. La

première est liée à son vaste panel d’algorithmes offerts et son environnement de

visualisation, ce qui ouvre l’initiative d’effectuer une large étude comparative. La deuxième

est due à son langage de développement. Etant donné que Bio-PEPA est également développé

en Java, nous avons trouvé judicieux et plus facile d’utiliser Weka pour une initiative

d’intégration. Le fait que Weka prend en charge différent formats de données tels que ARFF

et CSV, représente un point complémentaire dans notre projet, car le plugin Bio-PEPA offre

également la sortie des résultats en format CSV.



94

Les étapes de l’ECD nécessitent au préalable le chargement des données, fournies par le

service épidémiologique de Ain Tedles, dans la plateforme Weka. Les données sont

initialement sous format Excel. Une simple modification sous format CSV nous permet de

visualiser et d’exploiter les données via Weka. Le tableau 5.4 décrit les différents attributs de

la base de données de la tuberculose.


L’étape de prétraitement consiste à traiter les bruits, les valeurs aberrantes, les valeurs

manquantes, la duplication ainsi que d’effectuer une transformation des données si nécessaire.

Selon le processus défini au chapitre 3, cette étape se résume en deux points : nettoyage et

transformation.

Tableau 5.4 Les attributs de la base de données de la tuberculose

Attributs Description

Age Age de l’individu

Sexe Homme/Femme

Mois Mois de détection

Trim Trimestre de détection

Annee Année de détection

Location Tuberculose à BK positif ou négatif (BK+, BK-)

Com Commune

Daira Daira

Adress Rue, code postal, etc.

Date_Debut_TRT Date de démarrage du traitement

Typmal Nouveau/Repris/Echec/Autre

Bacil1, Bacil2, Bacil3

Bacilloscopie1, Bacilloscopie 2, Bacilloscopie 3 sont les résultats du test

bactériologique (MM: negative, MP: positive, NF : non fait)

AretTRT

Etat du patient à la fin du traitement:

Lost: individu diagnostiqué infecté mais non traité, c’est un perdu de vue,

Failed: traité mais non guérie,

Echec : traité mais sans succès,

Trt_comp: traitement terminé mais sans aucune preuve de guérison des

résultats bactériologiques,

Died : Décédé,

Transferred: résistant à la tuberculose,

Recovered : Guéri.



95

a. Nettoyage

Afin d’entamer une étape de nettoyage nous avons exploré les possibilités offertes par Weka.

Lors de la phase de prétraitement, Weka met à la disposition de l’utilisateur une panoplie

d’algorithmes répondants au mieux aux besoins de l’utilisateur. Ces derniers ont été

parcourus soigneusement et nous avons retenu : Remove, Removeuseless,

Removemissingvalue (Witten et al., 2011).

Remove : Consiste à supprimer des attributs et des instances n’ayant pas de rapport avec notre

étude. En effet, notre base de données étant constituée de tout type de tuberculeux

(pulmonaire et extra-pulmonaire) nous devions filtrer ceux tuberculeux pulmonaires des

extra-pulmonaires. La tuberculose extra-pulmonaire est une maladie non contagieuse, ce qui

l’exclu de notre étude. L’élimination des attributs en relation avec ce type de maladie

implique une suppression de toutes les instances et attributs qui s’y réfèrent. Les attributs :

Preuve, Location Siège, Régime, ont été supprimés.

Removemissingvalue : Avant d’appliquer cette fonction, nous avons préféré évaluer le nombre

de valeurs manquantes dans notre base. Afin de détecter les valeurs manquantes, Weka

permet de visualiser les données en histogrammes. Cette opération nous a permis de discerner

trois valeurs dont l’attribut est Address et une valeur dont l’attribut est Date_debut_Trt.

N’étant pas nombreuses, nous avions le choix entre remplacer le vide par des valeurs

adéquates ou supprimer toute l’instance. Pour cela, Weka offre deux fonctions

Replacemissingvalue et Removemissingvalue.

Replacemissingvalue : est une fonction qui permet de remplacer le vide par la moyenne (resp.

médiane) des valeurs numériques (resp. des valeurs nominales). Dans notre cas, cette

fonction n’est pas adéquate car l’attribut Address étant en forte corrélation avec les attributs

Com et Daira, il est impossible de simplement le remplacer par la moyenne/médiane.

Removemissingvalue : est une fonction qui permet de supprimer les instances

correspondantes. N’étant pas nombreuses, nous avons opté de consulter l’avis de l’expert. Ce

dernier connaissant les individus en question a pu nous fournir leurs adresses.

Après avoir analysé l’attribut Date_debut_Trt, il a été constaté que les valeurs

correspondantes représentent le mois de la détection de la maladie chez le patient, or l’attribut

Mois existe déjà. Ainsi, l’attribut Date_debut_trt est une redondance, ceci implique la

suppression de cet attribut.

Removeuseless : cette fonction permet de supprimer les attributs de type nominal pour

lesquels les valeurs sont trop ou peu variables. Effectivement avoir trop de distinction dans

notre base risque de faire dériver le processus de classification, par exemple, vers un arbre

trop volumineux. Pour cela, nous avons spécifié le nombre de valeurs distinctes par rapport

au nombre total des instances à 90%, n’ayant rien donné, nous l’avons fait varier jusqu’à

60%, où les attributs : Address et Trim ont été supprimés.



96

Supprimer les attributs Address et Trim n’a pas d’impact sur l’étude, car la location des

patients est désignée par d’autre attributs que l’attribut Address, tels que la commune (Com)

et la daira (Daira). L’attribut Trim peut être référencé par l’attribut Mois.

L’opération de nettoyage a permis de réduire le nombre des attributs de 18 à 11 attributs.

b. Transformation

Parmi 12 attributs restants, neuf sont nominaux et trois sont numériques (âge, mois, année).

Nous rappelons que l’âge des patients est inclus dans l’intervalle [3,94]. Exploiter ce type de

données conduirait à un nombre important de règles ou à une taille massive des arbres de

décision. Tel que cité par Witten (Witten et al., 2011), quelques algorithmes de la fouille de

données fonctionnent plus lentement avec des attributs numériques, parce qu’ils ont besoin

constamment de trier les valeurs des attributs. Ces raisons nous conduisent à appliquer la

discrétisation, plus particulièrement la discrétisation des âges.

L’application de la fonction Discretize de Weka conduit à l’affectation des instances à l’un

des neuf groupes [0,4], [5, 14], [15, 24], [25, 34], [35, 44], [45, 54], [55, 64], [65, 74], [75,94]

que nous avons renommé de A0 à A8.

Certains algorithmes de fouille de données, tels que les règles d’association, ne peuvent

fonctionner avec des attributs numériques, d’où l’obligation de transformer tout attribut

numérique en attribut nominal. Ainsi la fonction Numercitonominal a été appliquée afin de

transformer les valeurs de l’attribut Année en valeurs nominales. Il est à noter que même si les

fonctions Numercitonominal et Discretize œuvrent pour transformer un attribut numérique en

nominal, ceci est effectué de manière tout à fait disjointe, quand la première fonction

transforme chaque valeur numérique en valeur nominal, la deuxième fonction divise

l’ensemble des valeurs en groupes où les instances y sont affectées.


Tel que nous l’avons spécifié dans le chapitre 3, la sélection des attributs est une étape

importante dans le processus de l’ECD, dans le sens où les attributs les plus appropriés sont

sélectionnés. Ainsi, réduire l’espace des attributs mène à réduire le temps d’apprentissage,

réduire le temps d’exploitation des algorithmes de fouille de données et améliorer la qualité

des connaissances extraites. Afin d’achever au mieux cette étape de sélection, Weka met à la

disposition de l’utilisateur un ensemble d’algorithmes d’évaluation des attributs qui se

réfèrent aux approches citées dans le chapitre 3 (cf. § 2.1.3). Le tableau 5.5 résume ces

différents algorithmes. Les algorithmes d’évaluation à eux seuls ne peuvent accomplir

proprement l’opération de sélection, une recherche des groupes d’attributs est nécessaire.



97

Tableau 5.5 Algorithmes de sélection des attributs (Witten et al., 2011)

Algorithme Nom

Attribute Subset Evaluator

CfsSubsetEval

ClassifierSubsetEval

ConsistencySubsetEval

CostSensitiveSubsetEval

FilteredSubsetEval

WrapperSubsetEval

Single-AttributeEvaluator ChiSquaredAttributeEval

CostSensitiveAttributeEval

FilteredAttributeEval

GainRatioAttributeEval

InfoGainAttributeEval

LatentSemanticAnalysis

OneRAttributeEval

PrincipalComponents

ReliefFAttributeEval

SymmetricalUncertAttributeEval

Tableau 5.6 Méthodes de recherché pour la sélection des attributs (Witten et al., 2011)

Algorithme Nom

Search Method BestFirst

ExhaustiveSearch

GeneticSearch Search

GreedyStepwise

LinearForwardSelection

RaceSearch

RandomSearch

RankSearch

ScatterSearchV1

SubsetSizeForwardSelection

Ranking Method Ranker

Ainsi, Weka propose un ensemble d’algorithmes de recherche, tels que résumés sur le

tableau 5.6. Le processus de sélection consiste à appliquer en premier les algorithmes de

recherche, ceux-ci génèrent un ensemble d’attributs qui sont par la suite évalués par les

algorithmes d’évaluation. Pour une sélection plus optimale, nous avons opté d’appliquer



98

toutes les combinaisons possibles entre algorithmes de recherche et algorithmes d’évaluation.

Au total, 176 (16*11) expérimentation sont nécessaires pour l’étape de sélection des attributs.

Cependant, tel que justifié par Saeys et al. (2007), les algorithmes d’évaluation de type

« subset evaluators » sont généralement utilisés pour améliorer les performances de prédiction

en considérant les dépendances et corrélations entre attributs. Par contre, les algorithmes de

type « single attribute » considèrent chaque attribut séparément pour améliorer la détection

des segments existants (Inbarani et al, 2014). Notre but étant d’extraire les connaissances

explicitant la relation entre les différents attributs, le premier type est jugé plus adéquat, ce qui

réduit le nombre d’expérimentations à 60 (6*10). Le tableau A.1 (cf. Annexe 1) schématise

l’ensemble des attributs sélectionnés pour chaque algorithme (recherche et évaluation). Il est à

noter que les attributs Age, Bacil2 et Bacil3 ont été retenus par la plupart des algorithmes,

suivis par Bacil1, Com et Daira puis le reste. L’algorithme Filtered Subset Evaluator a la

meilleure capacité de réduire l’espace des attributs de 11 attributs à 4 attributs (classe exclue),

où uniquement Daira, Bacil 1-3 ont été sélectionnés ce qui représente une réduction jusqu’à

70%, suivi par CSF Subest Evaluator, où 5 attributs ont été sélectionnés. Dans ce dernier

selon la méthode de recherche, telle que schématisée sur le tableau A.1, deux groupes (1 et 2)

distincts d’attributs ont été observés : (Age, Com, Bacil 1-3) et (Age, Daira, Bacil 1-3). Au

total, cette étape a permis de générer huit différents groupes d’attributs qui ont été évalués

pertinents selon leur corrélation. Toutefois, cette étape ne permet pas de mesurer l’importance

ou même d’ordonner ces groupes selon leur priorité. Cette tâche revient à l’étape de fouille de

données.

5.3.3.3 Classification

Rappelons que notre objectif dans ce travail de recherche est d’extraire des connaissances qui

peuvent être utiles à l’optimisation du modèle computationnel conçu. Ces connaissances

peuvent être de différentes formes : simples attributs, arbres ou règles. Nous pouvions nous

contenter de ces sous-ensembles d’attributs sélectionnés, mais ceci ne distingue pas lequel est

le plus utile. Optimiser le modèle computationnel en exploitant tous ces sous ensemble serait

un travail laborieux. Ainsi, la valorisation de ces groupes par la classification est primordiale.

L’application de la classification à notre base de données permet de discriminer les exemples

les uns des autres selon la classe à prédire, qui est dans notre cas l’état du patient tuberculeux

à la fin du traitement.

Les expérimentations ont été effectuées sur Weka, où un ensemble d’algorithmes sont fournis

à l’utilisateur. Comme nous pouvons le voir sur le tableau 5.7, les algorithmes illustrés sont à

base d’arbre de décision. Bien que, la classification va au-delà des algorithmes à base d’arbre

de décision, nous nous sommes restreint à ce type de classification. Les raisons de cette

restriction sont dument argumentées au Chapitre 3. Le lecteur est invité également à revoir les

travaux de Gorunescu (2011), Lavanya et Rani (2013) Mitchell (1997), Phyu (2009) et Carr et

al. (2013), qui ont souligné l’importance et l’utilité d’appliquer les arbres de décision pour la

classification des données médicales.



99

Pour résumer, notre motivation d’adopter les arbres de décision dans notre étude est due à :

Le modèle résultant de la classification est sous forme d’arbre (ensemble de règles)

simplement interprétable par un non-expert et peut facilement être intégré aux

composants du langage Bio-PEPA.

Les algorithmes des arbres de décision s’apprêtent bien aux types d’attributs de

notre base de données (discrets et nominaux).

Les algorithmes des arbres de décision identifient les variables pertinentes, qui sont

notre principal but pour le développement d’un modèle formel et réaliste. En effet,

dans un contexte épidémiologique, les arbres de décision permettent d’expliciter la

relation causale entre les différents attributs, ce qui facilite grandement la

compréhension de l’épidémie.

Une fois le choix des algorithmes établi, nous pouvons entamer l’étape de fouille de données.

Nous rappelons que l’étape précédente (sélection des attributs) a permis de générer huit sous

ensemble d’attributs. Nous allons dans ce qui suit, exécuter chacun des 14 algorithmes sur

chacun des huit groupes, ce qui revient à exécuter 112 expérimentations.

Tableau 5.7 Les algorithmes de classification (arbres de décision) (Witten et al., 2011) Algorithme Fonction

ADTree

BFTree

DecisionStump

FT

Id3

J48

J48graft

LADTree

LMT

NBTree

RandomForest

RandomTree

REPTree

SimpleCart

Construit un arbre de décision alternatif

Construit un arbre de décision en utilisant l’algorithme de

recherche best-first

Construit un arbre de décision à un niveau

Établit un arbre fonctionnel avec divisions obliques et des

fonctions linéaires au niveau des feuilles

Arbre de decision basic divisé-et-conquérir

Construit l’arbre selon l’algorithme C4.5

C4.5 with grafting

Construit un arbre de decision alternative multiclasse en utilisant

LogitBoost

Construit un arbre de decision logistique

Construit l’arbre selon un classificateur Naïve Bayes

Construit random forests

Construit un arbre qui considère un nombre aléatoire des attrbuts

à chaque noeud

Construit l’arbre en se basant sur la réduction des erreurs de

l’élagage

Construit l’arbre en utilisant l’algorithme CART avec un coût

minimum de l’élagage



100

Pour mieux appréhender les connaissances à extraire, nous allons dérouler notre exemple de

la tuberculose. Après prétraitement et sélection des attributs, la base de données est composée

de 393 instances et 11 attributs (classe incluse), il s’agit d’expliquer l’état des individus

(patient) après traitement par rapport à leur âge, sexe, location, date de détection, type de

patient et les trois tests bactériologiques (Bacil 1,2, 3) à partir des informations collectées par

les experts du service épidémiologique SEMEP au niveau de la Daira de Ain Tedles, Wilaya

de Mostaganem. Vu la confidentialité des informations, il n’est illustré qu’un échantillon dans

le tableau A.2 (cf. Annexe 1).

Avant de lancer le processus de classification, nous devions fixer certains paramètres qui

peuvent être communs à tous les algorithmes ou propres à chacun d’eux. Les paramètres

propres à chaque algorithme ne seront pas explicités ici. Après plusieurs tests, nous avons

constaté que les valeurs par défaut préétablis par Weka sont les plus appropriées. Les seuls

paramètres communs sont en relation avec la procédure de validation croisée (cf. Section 4,

Chapitre 3), où les paramètres K (nombre de partitions) et N (nombre de répétition de

l’algorithme) sont initialisés.

Etant donné que nous voulons optimiser le modèle computationnel pour prédire correctement

l’année 2010, pour nos expérimentations nous nous sommes limités aux données

correspondantes aux années 2008, 2009 et 2010. Il est à noter que Weka intègre la procédure

de validation croisée. En variant la valeur de K, tel que K = 5, 10, 20, 25. Nous avons constaté

que la valeur 25 est la plus appropriée. La valeur de N a été fixée à 10. Le tableau A.3 (cf.

Annexe 1) illustre les résultats des expérimentations correspondantes aux paramètres ci-

dessus.


Nous commençons d’abord à discuter les résultats des expérimentations puis nous allons

effectuer une étude comparative entre les différents algorithmes. La matrice de confusion, les

mesures FP rate, TP rate et précision sont évaluées (cf. Section 2.3 - Chapitre 3) pour valider

le modèle de classification le plus performant. Ce qui signifie que la classification d’un

individu doit s’effectuer avec le minimum d’erreur possible. Weka calcule automatiquement

ces mesures et les fournit en sortie avec le modèle de classification.

Dans le tableau A.3 (cf. Annexe 1), les taux moyens des instances correctement classifiées

(Accuracy) et les écarts type (Standard deviation value :Std) ainsi que les attributs

sélectionnés après classification sont présentés. Nous constatons que quel que soit

l’algorithme de classification, l’algorithme de sélection des attributs Filtered Subset

Evaluator a abouti vers le meilleur taux de précision. Par exemple pour l’algorithme J48, le

taux de précision varie entre 66,42% et 73,33%, où Filtered Subset Evaluator présente le

meilleur taux. En revanche, il est important de rappeler que ce taux est relativement bas en

terme de fouille de données, ceci est principalement dû à la fois à la variabilité de la nature de

notre base de données et au nombre de ses instances qui a été réduit lors des étapes de

nettoyage et transformation. En terme du meilleur classificateur, l’algorithme J48 et J48Graft

ont été les plus performants, avec un taux de 73,33% (Std = ±8.73), suivi par l’algorithme



101

Ladtree avec un taux de 72.76% (Std = ±9.40) quand l’algorithme BFTree présente le plus bas

taux de 69.84% (Std = ±9.37), sachant que les taux tels que présentés, varient de 59.60% à

73.33%.

Ainsi, les algorithmes J48 et J48Graft ont été sélectionnés et leurs arbres analysés pour une

éventuelle extraction de connaissances. Il est à noter que ces deux algorithmes ont présenté les

mêmes résultats en termes de mesures de performance et de structure d’arbre.

La figure 5.9, illustre l’arbre de décision, le tableau 5.8 sa matrice de confusion

correspondante et la figure 5.10 sa traduction en un ensemble de règles.

Figure 5.9 Arbre de décision J48/J48Graft

Bacil3

Bacil2

Bacil1

Daira

Recovered Failed

Recovered

Recovered

Failed

Lost

Transferred

Lost Failed

=MM

= M P

= M P+

= MM

=MP+

=NF

= M P

= MM

=kHEIREDDINE

=AIN TEDLES

=NF

=NF

Tableau 5.8 Matrice de confusion et exactitude des classes référentielles de l’algorithme

J48/J48Graft

Classes prédites

Classe

Died Failed Recovered Lost Transferred Trt_comp

Died 0 0 2 11 1 2

Failed 0 7 0 13 1 7

Recovered 0 0 288 0 0 3

Lost 0 3 3 72 0 17

Transferred 0 2 0 7 2 1

Trt_comp 0 2 17 47 1 49

True positive rate 0

0.25 0.99 0.758 0.167 0.422

False Positive Rate 0 0.013 0.082 0.168 0.005 0.068



102

La matrice de confusion représente les six classes (Recovered, Lost, Trt_comp, Failed,

Transferred et Died), où les colonnes dénotent les instances prédites de la classe et les lignes

dénotent les instances réelles de la même classe. Les deux dernières lignes du tableau 5.8,

représentent le taux des individu de la classe i (i {Recovered, Lost, Trt_comp, Failed,

Transferred, Died }) bien classés (TP) et le taux des individus assignés par erreur à la classe i.

Nous observons que la classe “Recovered” est déterminée par la plus grande exactitude

(0.99), suivie par la classe « Lost » (0.758).

L’arbre J48 (cf. figure 5.9) est représenté par des nœuds de décision (rond) et des nœuds de

prédiction (réctangle), où le nœud de décision se réfère à la condition et le nœud de prédiction

se réfère à la conclusion. Comme nous l’avons décrit précédemment, les résultats

expérimentaux sont focalisés sur trois principales notes :

- Extraire les attributs que l’arbre de décision a jugé plus pertinents.

- Se concentrer sur les branches dérivant vers l’état perdu de vue « Lost ».

- Vérifier que les attributs sélectionnés ne sont pas déjà représenté dans le modèle

computationnel initial ou bien la règle dans laquelle ils sont exprimés n’est pas une

fonction du modèle computationnel.

Nous observons dans les règles déduites de l’arbre de décision (cf. figure 5.10) que les

conditions aboutissant à l’état « Lost » sont décrites par les attributs Bacil 1-3. Toutefois, ces

attributs ne sont pas en mesure d’apporter plus d’information que celles déjà fourni par

l’expert. En effet, quand un individu a été détecté comme tuberculeux, il est automatiquement

assigné à un traitement dont la date de détection a été enregistrée. Selon cette date

l’épidémiologiste surveille son suivi de traitement qui est limité en moyenne à six mois.

Chaque deux mois l’épidémiologiste reporte les résultats des tests bactériologiques qui

peuvent être positifs (MP), négatifs (MM) ou dans le cas d’un perdu de vue non faits (NF). A

la fin de la période de traitement, l’épidémiologiste récolte 3 résultats. Les résultats se référant

à l’état « Lost » se définissent par au moins deux « NF ». Par conséquent, nous observons

dans la figure 5.10, deux règles permettant d’accéder à l’état « Lost » (règles encadrées). Il est

clair à partir de ces règles que les seuls attributs composants la règle sont Bacil 1-3. Ainsi,

aucune nouvelle information n’a été extraite de ce modèle d’apprentissage, et ce même si

If (BACIL3 = NF)

| If (BACIL2 = NF)

| | If (BACIL1 = NF) Then Lost

| | If (BACIL1 = MM)

| | | If (DAIRA = AIN TEDLES) Then Recovered

| | | If (DAIRA = KHEIR EDDINE) Then Trt_comp

| | If (BACIL1 = MP) Then Failed

| | If (BACIL1 = MP+) Then Lost

| If (BACIL2 = MM) Then Recovered

| If (BACIL2 = MP)Then Transferred

If (BACIL3 = MM) Then Recovered

If (BACIL3 = MP) Then Failed

Figure 5.10 Règles déduites de l’arbre J48



103

l’attribut « Daira » est présent dans l’arbre, ce dernier est affecté à des branches dérivant vers

les états « Recovered » et « Trt_comp ».

Afin de s’approfondir dans cette étude de fouille de données, nous proposons d’analyser les

autres arbres du tableau A.3. Le processus est tel que nous devons ordonner les modèles

résultants selon leur taux d’exactitude de classification. Cette procédure nous amène

automatiquement vers les résultats correspondant à l’algorithme Ladtree, qui a le taux le plus

élevé (taux = 72.76, Std = 9.40) après les arbres J48 et J48Graft. La figure 5.11 illustre les

règles déduites de l’arbre de décision de l’algorithme Ladtree. Nous pouvons observer que les

règles résultantes, telles que schématisées ci-dessous, produisent des classes multiples avec

leurs valeurs prédictives dans la partie conclusion de la règle, à la différence des algorithmes

J48 et J48Graft, pour lesquels la conclusion est une classe unique. Ainsi tel que nous pouvons

le voir, la conclusion est exprimée par un vecteur de valeurs prédictives correspondantes à

chaque classe. Dans notre exemple, les valeurs prédictives se réfèrent respectivement à: Lost,

Recovered, Failed, Died, Trt_comp, Transferred.

If (Bacil3= MM) Then(-1.16,4.217,-1.159,-1.158,0.415,-1.155)

If (Bacil3 ≠ MM) Then (0.643,0.376,-0.197,-0.632,0.49,-0.68)

If (Bacil2 = MM) Then (-0.769,2.585,-0.696,-0.66,0.192,-0.652)

If (Bacil2 ≠ MM) Then (0.343,-0.628,0.297,-0.008,0.141,-0.144)

If (Daira = Ain Tedles) Then(-0.59,0.64,-0.008,0.777,-0.237,-0.581)

If (Daira = Kheireddine) Then(0.526,-0.647,0.199,-0.794,0.116,0.6)

Figure 5.11 Règles déduites de l’algorithme LadTree

Nous rappelons que notre objectif est de filtrer les branches dont la conclusion est référencée

par l’état « Lost ». Dans les règles de Ladtree, nous parcourons tous les chemins aboutissant à

l’état « Lost », tel que tous les nœuds de décision sont « vrai ». Ici, le terme « vrai »

correspond à une valeur positive exprimée entre parenthèses. Ainsi, le principe consiste à

maximiser la somme de toutes les valeurs correspondantes à chaque branche, le meilleur

classificateur est alors sélectionné. Dans notre exemple, la règle performante (celle menant à

l’état “Lost” est extraite en maximisant l’ensemble (0.643, 0.643+0.343, 0.643+0.343+0.526).

par conséquent, cette évaluation permet d’aboutir à la règle ci-dessous (extraite de la

figure 5.11).

If (Bacil3 ≠ MM) Then

If (Bacil2 ≠ MM) Then

If (Daira=Kheireddine) Then (0.526,-0.647,0.199,-0.794,0.116,0.6)

Le but d’analyser cette règle n’est pas de prédire la tuberculose, mais de détecter et

comprendre ce qui est en commun entre les individus tuberculeux, en particulier, ceux perdus

de vue.

Le tableau 5.9 présente les résultats de l’algorithme Ladtree exprimés sous forme de matrice

de confusion pour les six classes. La classe « Recovered » est déterminée par le taux le plus

élevé d’exactitude (0.978), suivi par la classe « Lost » (0.811). Il est clair que les

performances de ce classificateur d’un point de vue de la classe « Lost » sont meilleures que

l’algorithme J48/J84Graft.



104

L’analyse de la règle extraite implique que les individus infectés par la tuberculose, pour

lesquels les tests bactériologiques 2 et 3 sont soit positifs ou non faits, ont plus de chance

d’être localisés à la Daira de Kheireddine qu’à la Daira de Ain Tedles. Ce qui suggère que,

l’attribut “Daira” est une information additive, qui permet de spécifier la location des

individus qui sont en grande partie concernés par l’état des perdus de vue.

En conséquence, une optimisation de notre modèle computationnel en se basant sur une

structuration par location correspondante à l’attribut « Daira », pourrait être plus consistante

et cohérente avec les données observées. Il est à noter que cette information ne fait pas partie

de la structure du modèle computationnel initial, ce qui fait d’elle un candidat potentiel.

La section suivante décrit en détail les étapes d’intégration de l’attribut « Daira » dans le

modèle Bio-PEPA.


Avant de mettre à jour le modèle Bio-PEPA, une étape est requise: restructuration de la base

de données selon la règle sélectionnée. En effet, tel que nous l’avons spécifié, mettre à jour un

modèle Bio-PEPA consiste à mettre à jour les paramètres, compartiments, taux fonctionnels et

les espèces. Etant donné que les paramètres sont en partie calculés des données observées,

ceci implique un ré-ordonnancement de la base selon la règle candidate, et donc une division

en deux parties. Une première partie correspondante aux individus dont la location est

Kheireddine. Une deuxième partie, ceux dont la location est Ain Tedles. Le modèle à

compartiment de la figure 5.4 a été optimisé, où la même structure a été respectée. Sauf que,

les compartiments et arcs ont été dupliqués en deux. Nous définissons plus en détails les

nouveaux paramètres, les espèces, les taux fonctionnels, les compartiments et les composants

du modèle dans ce qui suit :

- Paramètres et compartiments: Théoriquement, Bio-PEPA permet aux espèces de

même nature d’être regroupées dans un même compartiment. Pour simplifier cette étape, nous

considérons les individus appartenant à la même location comme des espèces de nature

similaire.

Tableau 5.9 Matrice de confusion et exactitude des classes référentielles de l’algorithme

Ladtree

Classes prédites

Classes


Died 0 0 1 7 0 0

Failed 0 0 2 10 0 4

Recovered 1 0 136 0 0 2

Lost 0 1 1 30 0 5


Trt_comp 0 1 12 15 1 5

True positive rate 0

0 0.978 0.811 0.333 0.147

False Positive Rate 0.004 0.009 0.168 0.172 0.004 0.053



105

Rappelons que dans notre modèle initial, nous avons défini un seul compartiment où tous les

individus se regroupaient dus à leur homogénéité. Nous l’avons nommé « City ». Ici, nous

divisons “City” en deux sous compartiments correspondants à l’attribut « Daira ». Ce dernier,

est défini par uniquement deux locations : Kheireddine et Ain Tedles. Le code ci-dessous

illustre les deux locations :

Les nouveaux paramètres du modèle illustrés ci-dessous, décrivent les paramètres (taux)

relatifs à chaque groupe d’individus, où ceux figurant à gauche (resp. à droite) indicés avec le

nombre 1 (resp. 2) sont associés à la location Kheireddine (resp. la location Ain Tedles).

Il est à noter que le principe des taux est identique à la définition qui leur a été attribuée dans

le modèle initial, à la différence qu’ils sont exploités uniquement par les espèces affectées à la

location correspondante. Il est clair que les deux compartiments nous permettent de suivre

séparément et indépendamment chaque groupe lors de la simulation.

Le taux de transmission p (infection) a été remplacé par deux nouveaux taux associés à

chaque location p1 et p2. Ces derniers sont calculés en utilisant la même formule décrite dans

le tableau 5.2, où le nombre de contact et la probabilité d’infection ont été mises à jour selon

la location. Cependant, la période d’infectiosité reste inchangée, car c’est un paramètre relatif

à la maladie, non à la population.

- Taux fonctionnels : tels qu’illustrés sur le code ci-dessous, les taux fonctionnels ainsi

définis permettent de distinguer entre les deux locations, où chaque paramètre correspondant

est rapporté pour le compartiment approprié. Toutefois, nous pouvons observer que les

mêmes fonctions sont définies pour Kheireddine et Ain Tedles.

Taux fonctionnels de la location Ain Tedles

kineticLawOf susceptible_infected1: Infection_Rate1*Susceptible@ Ain Tedles * Infected@Ain Tedles;

kineticLawOf Infected_Failed1 : Failure_Rate1 * Infected @ Ain Tedles;

kineticLawOf Infected_Recovered1 : Recovered_Rate1 * Infected @ Ain Tedles;

kineticLawOf Infected_Transfered1 : Transfered_Rate1 * Infected @ Ain Tedles;

kineticLawOf Infected_Treat_comp1:Treatment_completed_Rate1*Infected @ Ain Tedles;

kineticLawOf Infected_Died1 : Death_Rate1 * Infected @ Ain Tedles;

kineticLawOf Infected_Lost1 : Lost_Rate * Infected @ Ain Tedles;

Failure_Rate1 =0.00039; Failure_Rat2 =0.00025;

Recovered_Rate1 =0.003; Recovered_Rate2 =0.003;

Transfered_Rate1 =0.00003; Transfered_Rate2 =0.00006;

Treatment_completed_Rate1 =0.001; Treatment_completed_Rate2 =0.0008;

Death_Rate1 =0; Death_Rate2 =0.0003;

Lost_Rate1 =0.00078; Lost_Rate2 =0.00055;

Size_Population = 137990;

location City : size = Size_Population, type = compartment;

location Kheireddine in City : size = Size_Population, type = compartment;

location Ain_Tedles in City : size = Size_Population, type = compartment;



106

Taux fonctionnels de la location Kheireddine

- Espèces : Dans le nouveau modèle Bio-PEPA, le nombre d’espèces reste inchangé. En

effet, puisque chaque espèce se rapporte à un type d’individu, dans notre modèle optimisé les

types d’individus ne changent pas (susceptible, infecté, …etc.). Cependant, étant donné que

nous avons spécifié deux locations, Bio-PEPA permet de distinguer entre les individus des

deux locations en modifiant la description des espèces. Ceci, en utilisant le symbole @

associé à chaque location dans chaque terme prédéfini. Le code ci-dessous illustre cette

description :

- Le composant modèle : définit la densité initiale des espèces et leurs interactions. Il est

à noter que toutes les espèces définies dans le modèle sont initialisées dans cette partie. Pour

ce qui est du nombre des susceptibles associés à la location Kheireddine (resp. Ain Tedles), ce

dernier a été initialisé selon la taille de la population de Kheireddine (resp. Ain Tedles).

Susceptible = (susceptible_infected1,1) << Susceptible@AinTedles

+ (susceptible_infected2,1) << Susceptible@Kheireddine;

Infected =usceptible_infected1,1) >> Infected@AinTedles +(Infected_Recovered1,1) << Infected

+( Infected_Failed1,1) << Infected@AinTedles

+ (Infected_Transfered1,1) << Infected@AinTedles

+(Treatment_completed_Rate1,1) << Infected@AinTedles

+( Infected_Died1,1) << Infected@AinTedles

+( Infected_Lost1,1) << Infected@AinTedles

+(susceptible_infected,1) >> Infected@Kheireddine

+(Infected_Recovered2,1) << Infected@Kheireddine

+( Infected_Failed,1) << Infected@Kheireddine

+ (Infected_Transfered2,1) << Infected@Kheireddine

+(Treatment_completed_Rate2,1) << Infected@Kheireddine

+( Infected_Died2,1) << Infected@Kheireddine

+( Infected_Lost2,1) << Infected@Kheireddine;

Failed = (Infected_Failed1,1) >> Failed@AinTedles

+ (Infected_Failed2,1) >> Failed@Kheireddine;

Recovered= (Infected_Recovered1,1) >> Recovered@AinTedles

+ (Infected_Recovered2,1) >> Recovered@Kheireddine;

Transfered=(Infected_Transfered,1) >> Transferred@AinTedles

+(Infected_Transfered2,1) >> Transfered@Kheireddine;

Treat_comp=(Treatment_completed_Rate1,1) >> Treat_comp@AinTedles

+(Treatment_completed_Rate2,1) >> Treat_comp@Kheireddine;

Died = (Infected_Died1,1) >> Died@AinTedles + (Infected_Died2,1) >> Died@Kheireddine;

Lost = (Infected_Lost1,1) >> Lost@AinTedles + (Infected_Lost2,1) >> Lost@Kheireddine;

kineticLawOf susceptible_infected2: Infection_Rate2*Susceptible@Kheireddine

* Infected@ Kheireddine;

kineticLawOf Infected_Failed2 : Failure_Rate2 * Infected @ Kheireddine;

kineticLawOf Infected_Recovered2 : Recovered_Rate2 * Infected @ Kheireddine;

kineticLawOf Infected_Transfered2 : Transfered_Rate2 * Infected @ Kheireddine;

kineticLawOf Infected_Treat_comp2:Treatment_completed_Rate2*Infected @ Kheireddine;

kineticLawOf Infected_Died2 : Death_Rate2 * Infected @ Kheireddine;

kineticLawOf Infected_Lost2 : Lost_Rate2 * Infected @ Kheireddine;



107

Aussi, il est à noter que même si nous avons spécifié des compartiments différents pour

chaque groupe de population (Kheireddine et Ain Tedles), ces derniers interagissent tous

ensemble d’où la définition d’un seul composant du modèle.

Le modèle ainsi optimisé peut être analysé et simulé, en outre il sera comparé à nouveau aux

données observées de l’année 2010.


Pour cette phase de simulation, nous avons appliqué les mêmes principes que ceux utilisés

lors de la simulation du modèle initial (simulation stochastique, moyenne de 100 simulations

et une période d’une année).

Les histogrammes sur la figure 5.12 (resp. figure 5.13) illustrent la comparaison entre les

données simulées et observées des individus situés à Ain Tedles (resp. Kheireddine), en 2010.

Tel que nous pouvons l’observer, l’écart entre données observées et simulées est plus

important pour les individus perdus de vue « Lost » situés à Kheireddine que ceux situés à

Ain Tedles.

Figure 5.13 Modèle de la tuberculose pour la Daira Kheireddine 2010

0 0

3

4

18

16

5

15

2 1

6

4

0

2

4

6

8

10

12

14

16

18

20


Died

Failed

Recovered

Lost

Transfered

Treat_Comp

Figure 5.12 Modèle de la tuberculose pour la Daira Ain Tedles 2010

3 4

2 3

27 28

5

3

1 0

7

1

0

5

10

15

20

25

30


Died

Failed

Recovered

Lost

Transfered

Treat_Comp



108

En effet, en comparant les proportions du groupe d’individus par rapport au nombre total

d’infectés, il est clair que pour ceux situés à Ain Tedles l’écart est de 2% avec un nombre de

simulés perdus de vue estimé à 5 par rapport à trois individus observés, alors que l’écart est de

30% pour ceux situés à Kheireddine, où le nombre de simulés est à 5 comparé à 15 individus

observés. Les figures 5.12 et 5.13 montrent clairement que le nombre d’individus simulés

dans le reste des classes (états) correspond au nombre observés. Afin de renforcer cette

observation, une analyse statistique a été réalisée avec Minitab, en se basant sur le test

d’ajustement Khi2 (

2) (cf. § 5.5.2.c – Chapitre 5). Cette analyse nous a permis de conclure

qu’à 5% du degré de signification les données observées ne sont pas statistiquement différents

des données simulées, où 2

= 0.862, degree of freedom=2 and P-value = 0.650 pour Ain

Tedles et 2

=5.742, degree of freedom = 2, P-value = 0.057 pour Kheireddine.

Davantage, cette simulation explique que le groupe d’individus de Kheireddine est la

principale cause de l’écart constaté lors de la simulation du modèle initial pour l’année 2010

(cf. figure 5.7). En effet, même si l’écart est toujours présent lors de la simulation du modèle

optimisé, ceci nous a permis de distinguer quel groupe d’individus exactement est mal prédit.

En écartant les individus situé à Ain Tedles, nous a permis de nous prononcer sur quelle partie

du modèle nécessite une meilleure et profonde optimisation future. Par conséquent, les

paramètres du modèle initial tels qu’utilisés ne sont pas tous inadéquats, mais uniquement

ceux relatifs au groupe de Kheireddine. Ceci implique que plus d’informations sont requises

pour prédire correctement l’état épidémique. En général dans notre approche, la phase de

fouille de données peut être répétée afin d’extraire davantage d’informations. Plus

particulièrement, nous pouvons exploiter uniquement le sous-ensemble de la base de données,

c’est-à-dire, le sous-ensemble de ceux situés à Kheireddine. Néanmoins, pour notre base de

données de tuberculose, ce sous-ensemble est limité. Lors de la restructuration de la base,

nous avons constaté un total de 40 instances pour la location de kheireddine. En appliquant les

algorithmes de fouille de données sur cet ensemble, aucune nouvelle information n’a été

détectée, où seuls les attributs Bacil 1-3 ont été constatés. Ces derniers ne nous sont pas utiles.

En utilisant l’induction symbolique par arbre de décision, nous avons pu optimiser notre

modèle Bio-PEPA initial. Plus spécifiquement, nous avons pu identifier la zone (location)

pertinente qui a permis à l’expert et épidémiologiste d’entreprendre de nouvelles directives. A

ce stade d’étude, l’expert pourra collecter d’autres informations permettant d’affiner notre

modèle prédictif ou réaliser plus d’investigations dans cette partie de population afin de

comprendre les raisons de cette distinction. En révélant cette corrélation entre location et

individus perdus de vue, l’expert peut se focaliser sur la Daira de Kheireddine et prendre de

meilleures décisions la concernant.

En identifiant cette caractéristique particulière, il est tout à fait clair que l’optimisation que

nous avons tenté de réaliser dans la section 5.3.2.c, ne pourra pas nous mener vers une

prédiction correcte. La population dans le modèle global était homogène, avec un seul taux de

transmission (infection). En ré-estimant ce taux dans le modèle initial pour une population

homogène, il était impossible de trouver implicitement le juste milieu entre la population de

Kheireddine et celle de Ain Tedles. Par contre, en définissant un taux d’infection distinct et



109

relatif à chaque groupe de population a permis de cibler le point nécessitant une ré-estimation.

N’oublions pas que notre objectif est de concevoir un modèle prédictif optimal, ainsi détecter

l’erreur n’est pas suffisant, notre modèle a besoin d’être amélioré mais en se focalisant

uniquement sur la partie concernée par la location Kheireddine.

Discussion

Rappelons que lors de l’optimisation des paramètres, nous avons réévalué les taux permettant

de transiter du compartiment infecté aux différentes classes ainsi que le taux de transmission

en prenant en considération uniquement le facteur probabilité (probabilité d’infection,

probabilité de transition vers les différentes classes). Ceci est dû principalement au fait que la

probabilité dépond des données restructurées. Nous avons démontré que même si cette

optimisation a permis une bonne prédication pour la location Ain Tedles, tel n’est pas le cas

pour la location Kheireddine. Ainsi, en revisitant les paramètres du modèle optimisé, nous

avons constaté qu’un autre principal paramètre permet de distinguer la partie en question, le

taux d’infection connexe à la location de Kheireddine. Réévaluer ce paramètre sans pour

autant modifier celui de Ain Tedles. Selon l’expert et la formule définie dans le tableau 5.2, le

paramètre clé permettant de ré-estimer ces taux est le nombre de contact entre les individus de

Kheireddine. En effet, le taux de transmission est défini par trois termes, la période

d’infectiosité, la probabilité d’infection et le nombre de contact, où le premier terme est fixe,

le deuxième terme est calculé des données restructurées, reste le troisième terme qui n’a pas

été recalculé.

Selon l’avis de l’expert, compte tenu du nombre des perdus de vue constatés en 2010 (18

infectés) par rapport à 2009 (9 infectés), il est jugé raisonnable d’augmenter légèrement le

nombre de contact. En se basant sur les données collectées de la littérature, où le nombre de

contact est compris entre 7 et 30, nous avons varié ce dernier de 27 à 29 pour l’année 2010.

Les résultats de simulation du modèle mis à jour pour l’année 2010 sont illustrés sur la

figure 5.14. En comparant les résultats des données observées aux simulées, les histogrammes

montrent que ces derniers sont similaires. Ceci prouve bien que le paramètre taux d’infection

en général et le nombre de contact en particulier, étaient sous-estimés.

Pour conclure cette analyse, nous avons fusionné les résultats précédant à ceux correspondant

aux simulations de la location Ain tedles (cf. figure 5.12) et nous les avons comparé aux

données globales (cf. histogrammes à droite de la figure 5.7).

La figure 5.15 illustre les histogrammes résultant de la fusion. La figure montre clairement

l’impact positif de l’optimisation du modèle Bio-PEPA en se basant sur les connaissances

extraites du processus de classification. Mais n’oublions pas qu’exploiter les connaissances de

la fouille données implique une réévaluation constante des valeurs des paramètres pour

obtenir des résultats de modélisation robustes et optimaux.

Afin d’explorer d’autres horizons de la fouille de données, en outre par les règles

d’association, nous allons d’abord dans ce qui suit présenter une extension des

expérimentations par classification en opérant sur d’autres années (2011 et 2012) des données

de la tuberculose utilisés.



110


3 2 4

1

44 42

11

27

1 1

10 10

0 5

10 15 20 25 30 35 40 45


Died

Failed

Recovered

Lost

Transfered

Treat_Comp


2 3 4 2

47 47

10 9

1 0

9 9

0

5

10

15

20

25

30

35

40

45

50


Died

Failed

Recovered

Lost

Transfered

Treat_Comp

Figure 5.15 Modèle final de la tuberculose pour l’année 2010

2 4 4

7

45 44

20 18

2 1

10

5

0

5

10

15

20

25

30

35

40

45


Died

Failed

Recovered

Lost

Transfered

Treat_Comp

Figure 5.14 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2010

0 0

3

4

16 16 15 15

2 1

6 4

0

2

4

6

8

10

12

14

16

18

20

Simulated data Observed data Contact Number = 29

Died

Failed

Recovered

Lost

Transfered

Treat_Comp



111

5.3.4 Généralisation de l’approche par des données additionnelles

Afin de démontrer la capacité de notre approche à être généralisée, le processus de

modélisation par Bio-PEPA, de simulations et d’optimisation appliqué pour l’année 2010,

sont considérés pour les années 2011 et 2012. Ces données seront exploitées pour valider que

le modèle optimisé peut convenir à d’autres années, pas uniquement l’année 2010.

Simulation pour les années 2011 et 2012

Pour prédire l’année 2011 (resp. 2012), le modèle initial de Bio-PEPA, utilisé pour prédire

l’année 2009 et 2010, est exploité. Evidemment, les paramètres du modèle sont adaptés

(recalculés) selon la moyenne des données de 2008 à 2010 (resp. de 2008 à 2011). Rappelons

que pour prédire 2009, nous avons utilisé les données de l’année 2008 et pour prédire 2010,

nous avons utilisé les données des années 2008 à 2009.

Comme illustrés sur les histogrammes de la figure 5.16, les résultats de simulation pour la

prédiction de 2011 correspondent bien aux données observées. Les résultats statistiques

renforce notre constatation, où à un degré de signification de 5%, 2

= 1.550, degree of

freedom = 3, p-value = 0.671.

Pareil que pour 2009, la simulation prédit correctement l’évolution de l’épidémie pour l’année

2011. Ce qui soutient l’idée que notre modèle Bio-PEPA prédit conformément aux données

observées quand les connaissances épidémiologiques sont correctement déclarées.

Contrairement pour l’année 2012, il est clairement montré dans la figure 5.17, que l’état

« Lost » est sous prédit, où un large écart sépare les données observées des simulées. A ce

stade du processus, une optimisation s’impose. Afin d’achever ce processus les étapes

appliquées précédemment pour le modèle de l’année 2010 sont réitérées. Ce qui se résume à

appliquer la fouille de données afin d’extraire les connaissances nouvelles et pertinentes.

Toutefois, nous étalons l’ensemble de données jusqu’à l’année 2012.


Pour la phase de prétraitement (nettoyage et transformation), nous avons adopté les mêmes

procédures que précédemment, car les données jointes (2011 et 2012) sont similaires aux

précédentes (2008, 2009 et 2010) d’un point de vue attribut et type. Toutefois, il est important

de noter qu’aucune valeur manquante n’a été observée pour les données jointes.


Pour la phase de sélection des attributs, nous avons appliqué les mêmes algorithmes que dans

la section 5.3.3.2. L’ensemble des attributs sélectionnés lors de cette phase sont schématisés

sur le tableau A.4 (Annexe 1). Les résultats examinés montrent que les attributs Age, Daira,

Bacil 1-3 sont retenus par la plupart des algorithmes, suivis par l’attribut Sexe puis le reste. A

la différence des résultats du tableau A.1 (Annexe 1), où l’algorithme Filtered Subset

Evaluator a été classifié le meilleur réducteur d’espace. Ici, les algorithmes CLASSIFIER Subset

Evaluator et WRAPPER SUBSETEVAL ont montré une meilleure performance de réduction, où le



112

nombre d’attributs initial (11 attributs) a été réduit en un seul attribut, ce qui représente une

réduction de 92%, suivi par Filtered Subset Evaluator, où 4 attributs ont été sélectionnés. Il est

à noter que ce dernier algorithme a sélectionné le même sous-ensemble d’attributs que dans la

sélection de la base de données de 2010. Toutefois, le fait que cette étape a permis de réduire

l’ensemble à un attribut, seule l’étape de classification jugera de l’importance de ce dernier

par rapport aux autres groupes sélectionnés.

Au total, cette étape a permis de générer sept différents groupes d’attributs qui ont été évalués

pertinents selon leur corrélation.

5.3.4.3 Classification par arbre de décision

Lors de cette phase, nous faisons appel aux mêmes algorithmes discutés et utilisés dans la

section 5.3.3.3. En plus des algorithmes de classification, nous avons aussi adopté la

procédure de la validation croisée, où le paramètre K a été varié, tel que K = 10, 15, 20, 25.

Les expérimentations ont montré que la valeur de K la plus performante en termes de taux

d’exactitude est de 20.


Le tableau A.5 illustre les taux moyens des instances correctement classifiées (Accuracy) et

les écarts type (Standard deviation value :Std) ainsi que les attributs sélectionnés après

classification. Nous constatons que quel que soit l’algorithme de classification, l’algorithme

de sélection des attributs Filtered Subset Evaluator a abouti vers le meilleur taux de précision.

Par exemple pour l’algorithme J48, le taux de précision varie entre 58.04% et 76,41%, où

Filtered Subset Evaluator présente le meilleur taux. En terme du meilleur classificateur en

combinaison avec le sélecteur Filtered Subset Evaluator, l’algorithme J48 a été le plus

performant, avec un taux de 76,41% (Std = ±4.83), suivi par l’algorithme J48Graft avec un

taux de 76.15% (Std = ±4.64) quand l’algorithme NBTree présente le plus bas taux de 75.11

% (Std = ±4.74). Ainsi, l’algorithme J48 est sélectionné et les règles déduites de son arbre

(telles qu’illustrées ci-dessous) correspondant sont analysées.

Règles déduites de l’arbre J48 :

If (BACIL3 = NF)

| If (BACIL2 = NF)


| | If (BACIL1 = MM) Then Recovered

| | If (BACIL1 = MP)

| | | If (DAIRA = AIN TEDLES) Then Failed

| | | If (DAIRA = KHEIR EDDINE) Then Lost


| If (BACIL2 = MM) Then Recovered

| If (BACIL2 = MP+)Then Transferred

If (BACIL3 = MM) Then Recovered

If (BACIL3 = MP) Then Failed



113

Le tableau 5.10 présente la matrice de confusion correspondante. Nous observons dans la

matrice de confusion que la classe “Recovered” est déterminée par la plus grande exactitude

de 99.6%, suivie par la classe « Lost » avec un taux de 90.4%.

Nous rappelons qu’à ce niveau d’étude notre principale objectif est de comprendre l’écart

entre données simulées est observées, relatif aux individus « Lost ». Pour cela, nous nous

focalisons sur les chemins menant à la classe « Lost » dans l’ensemble des règles observées.

Ceci, nous conduit à extraire trois règles, telles que schématisées ci-dessous :

1. If (BACIL3 = NF)

| If (BACIL2 = NF)


2. If (BACIL3 = NF)

| If (BACIL2 = NF)


3. If (BACIL3 = NF)

| If (BACIL2 = NF)

| | If (BACIL1 = MP)

| | | If (DAIRA = KHEIR EDDINE) Then Lost

- La première règle exprime le fait que les individus perdus de vue sont rattachés au cas où

aucun examen bactériologique n’a été accompli (NF).

- La deuxième règle classifie un individu dont le 1er

test bactériologique est positif

(MP+) mais le 2ème

et 3ème

sont non faits (NF), autant qu’individu perdu de vue.

- La troisième règle est relativement similaire à la deuxième, à la différence de l’attribut

« Daira » qui permet de distinguer quel groupe des positifs (MP) est le plus concerné

par le cas des perdus de vue.

Tableau 5.10 Matrice de confusion et exactitude des classes référentielles de

l’algorithme J48

Classes prédites

Classes


Died 0 0 1 11 1 0

Failed 0 5 4 10 0 0

Recovered 0 0 227 0 1 0

Lost 0 1 6 66 0 0


Trt_comp 0 0 19 33 1 0

TP Rate

0

0.005 0.996 0.904 0.429 0

FP Rate 0 0.263 0.188 0.175 0.008 0



114

Nous observons que les 1ères et 2èmes règles se basent uniquement sur les examens

bactériologiques. Ceux-ci ne nous apportent aucune information nouvelle que l’expert ne

sache déjà. Contrairement à la règle 3, où l’attribut « Daira » est considéré comme une

nouvelle connaissance, pouvant être exploitée pour notre phase d’optimisation. Rappelons

que l’attribut « Daira » avait aussi été identifié lors la fouille de données pour l’année 2010.

Ce qui permet de consolider le principe que l’attribut « Daira » est un descripteur performant

pour spécifier les individus perdus de vue.


Pour cette phase d’optimisation utilisant l’attribut « Daira », nous avons procédé d’abord à

une restructuration de la base de données selon la règle sélectionnée, recalculé les paramètres

du modèle puis nous avons mis à jour le modèle Bio-PEPA. Rappelons que les modalités

décrivant l’attribut « Daira » sont similaires à la définition précédente, ce qui implique une

restructuration selon deux groupes. Le premier groupe correspond aux individus dont la

location est Kheireddine. Le deuxième groupe correspond à ceux dont la location est Ain

Tedles. Ce qui implique aussi une optimisation du modèle Bio-PEPA identique au modèle de

l’année 2010. Ainsi, nous nous sommes focalisés uniquement sur l’optimisation des valeurs

des paramètres. Notons que les espèces, les taux fonctionnels, les compartiments et les

composants du modèle restent inchangés. Les paramètres du modèle et leurs nouvelles valeurs

sont illustrés ci-dessous :

Le modèle ainsi optimisé avec les nouvelles valeurs est simulé et comparé aux données

observées pour l’année 2012.


Les résultats du modèle optimisé sont illustrés sur la figure 5.18 correspondante à la location

Ain tedles (resp. figure 5.19 correspondante à la location Kheireddine). En comparant les

histogrammes de simulation à ceux des données observées, un écart considérable est distingué

pour la classe des perdus de vue « Lost » localisé à la Daira de Kheireddine. En évaluant le

nombre des individus perdus de vue par rapport au nombre total des infectés, il apparait une

différence de 6% pour la Daira de Ain Tedles (cinq individus sont prédits au lieu de 10

individus), et une différence de 14% pour la Daira de Kheireddine (quatre prédits au lieu de

17 individus).

Le modèle optimisé, enrichi par l’information Daira, permet d’identifier plus spécifiquement

la zone engendrant l’écart initialement observé pour l’année 2012 (cf. Figure 5.17).

Failure_Rate1 =0.00035; Failure_Rat2 =0.0003;

Recovered_Rate1 =0.003; Recovered_Rate2 =0.0037;

Transfered_Rate1 =0.0002; Transfered_Rate2 =0.000033;

Treatment_completed_Rate1 =0.001; Treatment_completed_Rate2 =0.0006;

Death_Rate1 =0.00004; Death_Rate2 =0.00033;

Lost_Rate1 =0.00337; Lost_Rate2 =0.00054;



115

Autrement dit, il est clair que l’attribut « Daira » demeure l’information la plus pertinente

extraite des données observées de la tuberculose.

Basé sur les suggestions faites par l’expert pour l’année 2010, concernant l’impact de l’état

« Lost » et de la location Kheireddine sur le nombre de contact, ce dernier a été étendu à 30,

où le nombre utilisé pour le modèle de la figure 5.19 est 27. Les résultats correspondant à

cette réévaluation sont illustrés sur la figure 5.20.

En analysant les histogrammes de la figure 5.20, il apparait clairement l’utilité et l’efficacité

de la réévaluation du nombre de contact qui selon ces résultats était sous-estimé.

Afin de valider la performance de notre modèle ainsi optimisé, la figure 5.21 présente une

fusion des résultats de simulation de la figure 5.20 (modèle mis à jour pour la location

Kheireddine) et de la figure 5.18 (modèle pour la location Ain tedles). Ceci, nous permet

d’effectuer une comparaison entre les histogrammes de fusion et les données globales

observées présentées dans la figure 5.17. La figure finale montre effectivement, un meilleur

ajustement entre données observées et simulées. Ces résultats consolident nos suppositions

que l’élément dont avait besoin notre modèle initial pour une bonne prédiction des années

2010 et 2012 était au-delà des connaissances de l’expert. Il est clair que ceci est en relation

avec un évènement qui s’est produit à la Daira de Kheireddine et qui semble être inconnu par

les services épidémiologiques concernés.

Figure 5.18 Modèle de la tuberculose pour la Daira Ain Tedles 2012

2 1

2 1

29 28

5

10

0 0

4 4

0

5

10

15

20

25

30


Died

Failed

Recovered

Lost

Transfered

Treat_Comp



116

Figure 5.21 Modèle final de la tuberculose pour l’année 2012

2 2 3 1

44 42

22

27

1 1

9 10

0

5

10

15

20

25

30

35

40

45


Died

Failed

Recovered

Lost

Transfered

Treat_Comp

Figure 5.20 Mise à jour du modèle de la tuberculose : Daira Kheireddine 2012

0 1

1

0

15

14

17 17

1 1

5 6

0

2

4

6

8

10

12

14

16

18

20

Simulated data Observed data Contact Number = 30

Died

Failed

Recovered

Lost

Transfered

Treat_Comp

Figure 5.19 Modèle de la tuberculose pour la Daira Kheireddine 2012

0 1 1

0

13 14

4

17

1 1

5 6

0

5

10

15

20

25

30


Died

Failed

Recovered

Lost

Transfered

Treat_Comp



117

Discussion

Le tableau 5.11 récapitule les valeurs des différents paramètres définis dans le modèle Bio-

PEPA pour la prédiction de l’année 2010 et 2012. En comparant les valeurs des différents

paramètres pour les deux années de prédiction, nous observons clairement que le taux des

perdus de vue est nettement plus élevé pour l’année 2012 que pour l’année 2010 dans la Daira

de Kheireddine, quand les autres taux sont pratiquement similaires. Rappelons que ces taux

sont estimés à partir des données observées, à la différence du nombre de contact qui a été

conclu de différents travaux de recherche (Aparicio and Catillo-chavez, 2009; Keeling and

Rohani, 2008).

Exploiter les connaissances extraites par classification, nous a conduit à accomplir une

optimisation spécifique pour un groupe de population particulier, au lieu de l’accomplir pour

la population entière. Même si nous avons réussi à concevoir un modèle prédictif optimal,

l’épidémiologiste et l’expert doivent mener de plus profonde recherche et enquêter sur cette

partie de la population. L’une des explications des experts jugée subjective, est que ce groupe

de population de par sa nature sociale et sa location qui est généralement loin des centres

épidémiologiques auxquels ils sont affectés, les empêche de se déplacer.

Tableau 5.11 Récapitulatif des paramètres du modèle de la tuberculose optimisé (2010 et 2012)

Paramètre Kheireddine

2010

Kheireddine

2012

Ain Tedles

2010

Ain Tedles

2012

Failure_Rate 0.00039 0.00035 0.00025 0.0003

Recovered_Rate 0.003 0.003 0.003 0.0037

Transfered_Rate 0.0003 0.0002 0.00006 0.000033

Treatment_completed_Rate 0.001 0.001 0.0008 0.0006

Death_Rate 0 0.00004 0.0003 0.00033

Lost_Rate 0.00078 0.00337 0.00055 0.00054

Nombre contact 29 30 26 26

Tableau 5.12 Les algorithmes de règles d’association (Witten et al., 2011) Algorithme Description

Apriori

FilteredAssociator

GeneralizedSequentialPatterns

PredictiveApriori

Tertius

Sélectionne les règles en utilisant l’algorithme Apriori

Exécute un associateur dans les données filtrées

Trouve de larges ensembles d’items dans les données

séquentielles

Sélectionne les règles triées par un taux d’exactitude prédictive

(Predictive accuracy)

Confirmation-guided discovery of association or classification

rules



118

5.3.5 Optimisation par règles d’association

Afin de renforcer l’optimalité de notre approche, nous allons dans cette section appliquer les

algorithmes de règles d’association. Rappelons que notre objectif spécifique à ce niveau est de

prédire correctement les années (2010 et 2012) dont notre modèle Bio-PEPA a montré un

écart en relation avec le nombre d’individus déclarés perdus de vue.

Dans cette optique d’optimisation par les règles d’association, nous allons explorer les

algorithmes offerts par l’outil Weka.

5.3.5.1 Génération de règles

Tel qu’illustré sur le tableau 5.12, Weka dispose de cinq algorithmes de règles d’association.

Cependant, pour nos expérimentations, nous nous sommes limités à : Apriori,

PredictiveApriori et Tertius. En effet l’algorithme FilteredAssociator a été exclu du fait que

nous allons indirectement l’appliquer. Rappelons qu’à la phase de prétraitement, nous avons

procédé à un filtrage sur l’ensemble des données de la tuberculose. Dans cette section, nous

appliquons les algorithmes de règles d’association sur cet ensemble filtré, ce qui résume le

principe de l’algorithme FilteredAssociator.

Le choix de l’exclusion de l’algorithme GeneralizedSequentialPatterns se justifie par la

définition de ce dernier. Selon Witten (Witten et al., 2011), l’algorithme

GeneralizedSequentialPatterns consiste à suivre le comportement des individus au cours du

temps, où le principe de la temporalité est pris en compte. Autrement dit, il consiste à extraire,

selon un certain ordre d’enchaînement, des ensembles d’items associés sur une période de

temps bien spécifique. Ceci se défini généralement par le fait de mettre en évidence des

associations inter-transactions, ce qui implique une contradiction avec le contenu de notre

base de données de la tuberculose ainsi que notre principe d’extraction des combinaisons

intra-transactions.

Nous rappelons que lors de la simulation du modèle Bio-PEPA initial pour les années 2010 et

2012, nous avons noté que les résultats ne correspondaient pas aux données observées,

particulièrement pour la classe des perdus de vue « Lost ». Dans cette optique

d’expérimentation par les règles d’association, nous allons nous focaliser sur les règles

exprimant l’état « Lost ». Ceci engendre deux séries d’expérimentations : la 1ère

série

concerne l’ensemble de données de 2008 à 2010 et la 2ème

série concerne l’ensemble de 2008

à 2012.

Le tableau 5.13 (resp. tableau 5.14) illustre les meilleures règles extraites lors de

l’expérimentation de la 1ère série en utilisant les trois algorithmes cités ci-dessus (resp. lors

de la 2ème

série d’expérimentations). Notons qu’uniquement les règles exprimant l’état

« Lost » ont été rapportées dans le tableau, le reste des règles a été ignoré.

Les algorithmes définis dans Weka, leur est associé un ensemble de paramètres que

l’utilisateur doit spécifier au préalable. Dans ce qui suit et pour chacun des trois algorithmes,

nous allons initialiser ces paramètres et justifier notre choix.



119

- Algorithme Apriori : afin d’extraire les règles pertinentes, Apriori se base sur les deux

indicateurs, support et confiance (cf. chapitre 3). Ainsi, dans Weka un support minimum

(seuil) doit être fourni afin de pouvoir calculer la fréquence d’apparition des itemsets dans la

base de données, cette fréquence doit être supérieure ou égale au seuil. Afin d’optimiser au

mieux les règles à extraire, l’utilisateur a le libre choix de spécifier un support et une

confiance minimale. Pour plus de souplesse, Weka permet de limiter le nombre de règles à

visualiser. Il permet également de ne se focaliser que sur des règles dont la conclusion est un

attribut particulier. Quoique ce dernier paramètre soit une bonne initiative pour notre

recherche car nous visons la classe des perdus de vue, il est plus avantageux d’analyser toutes

les règles contenant la classe « Lost » quelle que soit sa position (condition ou conclusion), le

fait est que, ce qui nous importe c’est de détecter les attributs en forte corrélation. Toutefois,

la priorité est assignée aux règles dont la conclusion est la classe « Lost ». pour nos

expérimentations, nous avons initialisé le seuil minimal pour l’indicateur support à 0.3.

Cependant, en se basant sur le fait que, plus le support d’une règle est élevé, plus la règle est

fréquente, néanmoins due à la taille réduite de notre base de données et sa variabilité, nous

avons préféré utiliser un seuil Supp assez bas pour ne pas perdre de l’information pertinente.

nous avons convenu de varier la confiance en fonction des règles obtenues dans un intervalle

[0.5, 1]. Les différents tests ont montré que nous ne pouvons pas aller au-delà de la limite 0.5,

car les perdus de vue représentent 20% de toute la base ce qui implique un nombre très faible

des transactions qui peuvent être sélectionnées. Notons que le nombre de règles à extraire

dépond du type de règles et de la confiance, la raison pour laquelle nous avons préféré étendre

la visualisation des règles jusqu’à 100 règles.

- Algorithme PredictiveApriori : pour cet algorithme les indicateurs support et confiance

sont combinés et remplacés par une seule mesure « exactitude prédictive ». Egalement, pour

cet algorithme, Weka permet à l’utilisateur de définir le nombre limite des règles à extraire.

Nous avons initialisé ce paramètre à 100 règles. Pour cet algorithme, pas besoin de définir un

seuil support car ce dernier est automatiquement incrémenté pour en extraire de meilleures

règles.

Algorithme Tertius : Tertius sélectionne les règles selon une mesure de confirmation. Sa

particularité est qu’il recherche des règles avec de multiples conditions dans la partie

conclusion, où ces dernières sont reliées par une conjonction (ou) à la différence de

l’algorithme Apriori qui utilise des disjonctions (et). Ses règles peuvent être configurées de

sorte que la partie conclusion ne fasse référence qu’à un seul attribut ou même un attribut

prédéterminé tel que la classe. Weka permet de spécifier le nombre de règles à extraire, le

degré minimum de confirmation, proportion maximale des contre-exemples, et le nombre

maximal d’attributs dans la règle. Weka permet aussi de définir d’autres paramètres tels que

ceux en relation avec les valeurs manquantes, paramètres pour affiner l’indice de confirmation

ou encore pour l’affichage de mesures statistiques. Une analyse sensible sur les différents

paramètres de cet algorithme, nous a permis de conclure que les valeurs à utiliser sont celles

définies par défaut dans Weka. Vu le nombre important de règles que cet algorithme peut

générer nous avons préféré limiter les règles à celles ayant un seul attribut en conclusion, qui

est la classe « ArretTrt ». Les paramètres ainsi initialisés, nous pouvons à présent

expérimenter les différents algorithmes sur notre base de données de la tuberculose.



120

Tableau 5.13 Expérimentations Série 1- Règles extraites de : Apriori, Predictive Apriori and Tertius

Algorithme Règle Mesure

Apriori 1. if (DAIRA=KHEIREDDINE, BACIL1=NF, BACIL2=NF,

BACIL3=NF) ==> ARETTRT=Lost

2. if (DAIRA=KHEIREDDINE, BACIL1=NF, BACIL2=NF)

==> ARETTRT=Lost

3. If (DAIRA=KHEIREDDINE, BACIL1=NF, BACIL3=NF)

==> ARETTRT=Lost

4. If (DAIRA=KHEIREDDINE, BACIL2=NF, BACIL3=NF)

==> ARETTRT=Lost

5. If (DAIRA=KHEIREDDINE, BACIL1=NF)

==> ARETTRT=Lost


==> ARETTRT=Lost

7. If (SEXE=M, BACIL1=NF, BACIL2=NF, BACIL3=NF)

==> ARETTRT=Lost

8. If (COM=SAYADA, BACIL2=NF, BACIL3=NF)

==> ARETTRT=Lost

conf:(0.84)

conf:(0.81)

conf:(0.75)

conf:(0.74)

conf:(0.72)

conf:(0.71)

conf:(0.65)

conf:(0.52)

Predictive

Apriori

1. If (AGE=A3, SEXE=F) ==> ARETTRT=Lost

2. If (AGE=A3, COM=SAYADA, DAIRA=KHEIREDDINE)

==> ARETTRT=Lost

3. If (AGE=A3, COM=SAYADA, BACIL1=NF, BACIL2=NF)

==> ARETTRT=Lost

4. If (SEXE=F, COM=SAYADA, DAIRA=KHEIREDDINE,

BACIL2=NF, BACIL3=NF) ==> ARETTRT= Lost

5. If (AGE=A3, DAIRA=KHEIREDDINE, BACIL1=NF)

==> ARETTRT=Lost

6. If (AGE=A3, SEXE=F, COM=SAYADA,

DAIRA=KHEIREDDINE, BACIL1=NF, BACIL2=NF,

BACIL3=NF) ==> ARETTRT=Lost

acc:(0.96)

acc:(0.96)

acc:(0.93)

acc:(0.93)

acc:(0.93)

acc:(0.93)

Tertius 1. If DAIRA = KHEIREDDINE

==> COM = SAYADA or BACIL1 = NF or ARETTRT = Lost

2. If (DAIRA = KHEIREDDINE and BACIL1 = NF)

==> COM = SAYADA or ARETTRT = Lost

3. If DAIRA = KHEIREDDINE


4. If (DAIRA = KHEIREDDINE and SEXE = M)


5. If (DAIRA = KHEIREDDINE and BACIL1 = NF and BACIL2

= NF) ==> ARETTRT = Lost

Confi:(0,53)

Confi:(0,50)

Confi:(0,50)

Conf:(0,42)

Confi:(0,41)


Le tableau 5.13, illustre l’ensemble de règles extraites des algorithmes (Apriori,

PredictiveApriori et Tertius) pour l’ensemble de la 1ère

série de données. Pour les règles 1-6

générées par l’algorithme Apriori, les attributs Bacil 1-3 et Daira sont relevés autant que

meilleurs descripteurs pour les individus perdus de vue avec une confiance maximale de 84%.

Tel que nous l’avions spécifié lors de l’étape de classification, la relation entre les attributs

Bacil1-3 et l’individu « Lost » est bien connue par l’épidémiologiste.

conf:(0.84)

conf:(0.81)

conf:(0.75)

conf:(0.74)

conf:(0.72)

conf:(0.71)

conf:(0.65)

conf:(0.52)

Conf:(0,42)



121

Cette relation se résume par le principe que si les tests bactériologiques ne sont pas

disponibles alors l’individu déclaré tuberculeux est considéré automatiquement perdu de vue.

Par conséquent, les attributs bacil 1-3 même si pertinents ne sont pas considérés comme

information nouvelle pour notre modèle Bio-PEPA, et l’attribut « Daira » est retenu comme

seul attribut pertinent.

Dans le même contexte de raisonnement, les règles 7 et 8 explicitent la pertinence des

attributs Sex et Com mais avec une confiance inférieure aux règles précédentes.

Les règles 1 et 2 générées par l’algorithme PredictiveApriori montrent que les attributs Sex,

Com et Daira sont tous des attributs pertinents à 96% d’exactitude. Il est à noter que ces

mêmes attributs ont été inférés de l’algorithme Apriori, ceci confirme leur importance autant

que descripteurs des individus perdus de vue. Aussi, il est important de noter que la modalité

(Sayada) correspondante à l’attribut Com exprimée dans les règles 3, 4 et 6 est parfaitement

associée à la modalité de l’attribut Daira dont la modalité est Kheireddine. En effet, selon la

structuration des communes de la Daira de Kheireddine, la commune Sayada en fait partie, ce

qui donne plus de précision sur les individus perdus de vue. De plus, les règles 1, 2, 3, 5 et 6

définissent l’attribut Age comme pertinent. Etant donné la modalité exprimée pour cet attribut

(A3), il n’est pas surprenant que cette catégorie d’individus dont l’âge est compris entre 25 et

34 ans, soit la plus exposée.

Similairement, l’algorithme Tertius montre relativement les mêmes résultats, où les attributs

Daira, Com et Sex ont été déduits comme descripteurs pertinents pour les individus perdus de

vue pour un degré de confirmation de 40 à 53%. Même si le degré de confirmation apparait

assez bas comparant aux autres indicateurs des autres algorithmes, les règles correspondantes

sont hautement confirmées et satisfaites, car le degré de confirmation est associé à une

proportion de contre-exemple assez basse (Flach et Lachiche, 2001). Tel est les cas par

exemple pour la règle 2 où le degré de confirmation est à 50% et le pourcentage de contre-

exemple est à 1%.

Il est clairement montré que les trois algorithmes ont généré pratiquement un même ensemble

de règles décrites par un même ensemble d’attributs. Cette constatation permet de confirmer

que les individus perdus de vue ne sont pas uniquement décrits par le cas où les trois tests

bactériologiques (Bacil 1-3) sont indisponibles, mais que leur état est aussi fortement

dépendant de leur location (Daira et Com), de leur genre (Sex) et de leur age (Age).

Avant d’optimiser notre modèle Bio-PEPA par ces nouvelles informations, nous allons dans

ce qui suit présenter les règles extraites pour l’ensemble de la 2ème

série de données, relative à

l’année 2012. Le tableau 5.14, illustre les résultats pour les algorithmes Apriori,

PredictiveApriori et Tertius.



122

Tableau 5.14 Expérimentations Série 2 - Règles extraites de: Apriori, Predictive Apriori and Tertius

Algorithme Règle Mesure

Apriori 1. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF)

==> ARETTRT= Lost

2. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF,

BACIL2=NF) ==> ARETTRT= Lost


BACIL3=NF) ==> ARETTRT= Lost


BACIL2=NF, BACIL3=NF) ==> ARETTRT= Lost

conf:(1)

conf:(1)

conf:(1)

conf:(1)

Predictive

Apriori

1. If (DAIRA=KHEIREDDINE, TYPMAL=N, BACIL1=NF)

==> ARETTRT= Lost

2. If (AGE=A5, SEXE=M) ==> ARETTRT= Lost

3. If (AGE=A1, BACIL1=NF) ==> ARETTRT= Lost

4. If (DAIRA=KHEIREDDINE, TYPMAL=N)

==> ARETTRT= Lost


==> ARETTRT= Lost

6. If AGE=A0 ==> ARETTRT=Lost

acc:(0.99)

acc:(0.98)

acc:(0.97)

acc:(0.92)

acc:(0.92)

acc:(0.91)

Tertius 1. TYPMAL = N and BACIL1 = NF and BACIL3 = NF

==> ARETTRT = Lost

2. TYPMAL = N and BACIL1 = NF and BACIL2 = NF

==> ARETTRT = Lost

3. TYPMAL = N and BACIL1 = NF ==> ARETTRT = Lost

4. DAIRA = KHEIR EDDINE and TYPMAL = N and

BACIL1 = NF ==> ARETTRT = Lost

5. DAIRA = KHEIR EDDINE and BACIL1 = NF and BACIL2

= NF ==> ARETTRT = Lost

6. DAIRA = KHEIR EDDINE and TYPMAL = N and

BACIL2 = NF ==> ARETTRT = Lost

7. TYPMAL = N and BACIL2 = NF ==> ARETTRT = Lost

8. SEXE = M and TYPMAL = N and BACIL1 = NF

==> ARETTRT = Lost

Confi: 0,31

Confi: 0,31

Confi: 0,29

Confi: 0,25

Confi: 0,24

Confi: 0,21

Confi: 0,21

Confi: 0,21

Tableau 5.15 Attributs pertinents.

L’algorithme Apriori montre une plus grande performance par rapport aux autres algorithmes,

où l’indice de confiance est à 100%. Cependant, les attributs en relation avec l’état « Lost »

sont relativement différents que ceux extraits dans l’ensemble de données de la 1ère

série (cf.

Tableau 5.13). Les règles exprimées dans le tableau 5.14 montrent que les attributs TYPMAL

et Daira sont hautement associés à la classe « Lost », où les attributs Sex et Com déduits de

l’algorithme Apriori pour la 1ère

série n’ont aucun impact sur les individus perdus de vue.

Experimentation Algorithme Attributs sélectionnées

Series 1 Apriori Daira, Sex, Com

Predictive Apriori Daira, Sex, Com, Age

Titrius Daira, Sex, Com

Series 2 Apriori Daira, TYPMAL

Predictive Apriori Daira, Age, TYPMAL

Titrius Daira, TYPMAL, Sex

conf:(1)

conf:(1)

conf:(1)

conf:(1)



123

L’algorithme Predictive Apriori a également indiqué que les attributs Daira et, TYPMAL sont

des descripteurs pertinent à 99% de taux d’exactitude. Cependant, les autres règles montrent

que l’attribut AGE a aussi une influence sur l’état « Lost », où différentes catégories d’âges

(A0, A1 et A5 correspondantes respectivement à [0-4], [5-14] et [45-54]) ont été déduites. Les

attributs Sex et Com n’ont pas été retenus.

Semblablement à l’algorithme Apriori, l’algorithme Tertius a montré que les attributs Daira et

TYPMAL sont pertinents. A l’exception de l’attribut SEX qui a aussi été reconnu comme

descripteur de l’état « Lost » mais avec un degré de confirmation moindre.

Il est important de rappeler que le but de cette analyse est d’enrichir l’expert/épidémiologiste

avec de nouvelles connaissances afin d’optimiser le modèle prédictif de Bio-PEPA. Dans

cette optique, nous avons préféré de ne rapporter dans les tableaux 5.13 et 5.14 que les règles

qui ont été jugées les plus pertinentes, dans le sens où les règles restantes sont arborées de

connaissances déjà connues par l’expert.

Pour résumer, le tableau 5.15 illustre l’ensemble des attributs sélectionnés comme pertinent.

Ces derniers seront les paramètres clés de la phase d’optimisation du modèle Bio-PEPA.

Nous pouvons voir sur le tableau 5.15 que l’attribut Daira est sollicité lors des deux

expérimentations (1ère

et 2ème

séries) quels que soient les algorithmes appliqués. Bien que les

attributs Sex et Com ont fait l’unanimité lors de la 1ère

série d’expérimentations, ils n’ont pas

été déduits lors de la deuxième série d’expérimentations où nous pouvons observer

l’apparition d’un nouvel élément qui est l’attribut TYPMAL. Par conséquent, nous retenons

l’attribut Daira pour les deux séries d’expérimentations, les attributs Sex et Com pour la 1ère

série et TYPMAL pour la 2èmle série.


Tel que nous avons procédé ultérieurement, les attributs sélectionnés feront l’objet d’une

optimisation du modèle Bio-PEPA initial, où les composants : paramètres, espèces et taux

fonctionnels, seront mis à jour en fonction de ces attributs.

Tableau 5.16 Attributs et modalités sélectionnés

Expérimentation Attributs sélectionnés Modalities sélectionnées

Series 1 Daira Kheireddine (KH), Ain Tedles (AT)

Sex Male (M), Female (F)

Com Sayada, Other

Series 2 Daira Kheireddine (KH), Ain Tedles (AT)

TYPMAL New, Other



124

Le nombre important de modalités par lesquelles quelques attributs sélectionnés sont

exprimés, par exemple l’attribut Com correspond à sept modalités, implique une mise à jour

assez complexe et couteuse en temps et effort. En effet, optimiser selon sept modalités revient

à restructurer le modèle selon sept compartiments, où pour chaque compartiment, les taux

fonctionnels doivent être redéfinis et les paramètres recalculés. Par conséquent, nous

suggérons que lors de la mise à jour du modèle, nous ne prenons pas en considération tous les

attributs à la fois. Ainsi, il est préférable d’analyser l’impact de chaque attribut

indépendamment des autres attributs. Ceci permettra de réduire la complexité de l’étape

d’optimisation et de voir l’influence de chaque attribut sur le modèle séparément. Mieux

encore, nous proposons de restructurer le modèle selon les modalités exprimées dans les

règles correspondantes. Par exemple, dans les règles des expérimentations de la 1ère série (cf.

tableau 5.13), l’attribut Com est décrit par la valeur « Sayada », ce qui implique la

restructuration du modèle Bio-PEPA selon deux compartiments, où le 1er

correspond à la

commune de Sayada et le 2ème

regroupe toutes les autres communes. Le tableau 5.16 résume

les modalités correspondantes à chaque attribut sélectionné pour chaque série

d’expérimentations. Rappelons que l’optimisation par l’attribut Daira a déjà été réalisée dans

la section 2.4. Dans ce qui suit nous allons nous focaliser sur les attributs restant. Une analyse

globale sera reportée à la fin de cette section.

La figure 5.22 illustre le nombre de cas simulés et observés associés à chaque classe pour

l’attribut « Sex ». Nous observons que la majorité des individus sont de sexe masculin

(histogrammes à gauche de la figure), où le plus grand nombre est associé à la classe des

guéris suivi par celle des perdus de vue. L’analyse des histogrammes pour l’attribut « Sex =

mal » montre que la classe des perdus de vue a été largement sous-estimée où l’écart observé

entre données simulées et observées est estimé à 46%. Malgré cette distinction, l’analyse

statistique, où 2 = 4,1, degrés de liberté = 3, valeur-p = 0.242, montre clairement que les

données observées et simulées ne sont pas statistiquement différents. Cependant, structurer le

Figure 5.22 Histogrammes pour la tuberculose par Sexe (Série 1- 2010)

2 2 1

2 4

5

1 2

26 27

17 17

7

13

2

5

2 1 1

0

9

4 3

1

0

5

10

15

20

25

30

Simulated Data - Male Observed Data - Male Simulated Data - Female Observed Data - Female

Nu

mb

er o

f ca

ses

Died

FAIL

RECOVERED

LOST

TRANSFERED

TRTCOMP



125

modèle par sexe ne permet pas de distinguer le groupe en cause de l’écart constaté dans le

modèle Bio-PEPA initial. En effet, en normalisant le nombre des infectés mâles et femelles, il

apparait que l’écart est pratiquement similaire pour les deux groupes, où il est estimé à 60%

pour les hommes et 56% pour les femmes. Ceci nous induit à conclure que la restructuration

du modèle Bio-PEPA par sexe ne permet pas de distinguer correctement la cause de l’écart

détecté.

Conjointement à l’étude ci-dessus, nous avons analysé l’impact de l’attribut « Com » (cf.

figure 5.23). Même si le nombre des infectés dans la commune de Sayada est inférieur au

nombre total des autres communes, une normalisation des résultats de notre modèle a montré

un grand écart (90%) entre données observées et simulées pour l’état « Lost » situé à Sayada

(histogrammes à gauche), où une prédiction optimal est constatée pour les autres communes

(histogrammes à droite).

La figure 5.24 correspondante aux expérimentations relatives à la 2ème

série de données pour

l’attribut TYPMAL montre que la grande majorité des infectés sont de type nouveau malade

où 7% sur un nombre total des infectés sont déclarés autre type que nouveau (repris ou échec).

Notre modèle prédictif suit ce raisonnement et réussit à prédire correctement toutes les classes

sauf pour l’état « Lost » où un écart de 17% est constaté par rapport aux données observées.

Cependant, le nombre limité des autres types ne nous permet pas de nous prononcer sur la

capacité de notre modèle à les prédire correctement.

Figure 5.23 Histogrammes pour la tuberculose par Com (Série 1- 2010)

0 0 2

4 1 1

3 6 6 6

42

38

1

9 9 9

1 1 0 0 3

0

10

5

0

5

10

15

20

25

30

35

40

45

Simulated data-Sayada

Observed data-Sayada

Simulated data-Other

Observed data-Other

Died

Fail

Recovered

Lost

Transferred

Trtcomp



126

Figure 5.26 Histogrammes pour la tuberculosis par : Daira et TYPMAL. (Série 2- 2012)

4 5 11

0

17 10

24

3 0

5

10

15

20

25

30

35

40

Daira=KH Daira=AT TYPMAL=New TYPMAL=Other

Nu

mb

er

of

Lost

Simulated Data Observed Data

Figure 5.24 Histogrammes pour la tuberculose par TYPMAL (Série 2- 2012)

Figure 5.25 Histogrammes pour la tuberculose par : Daira, Sex et COM. (Série 1- 2010)

2 2 0 0

4

0 0 1

38 40

1 2

11

24

0 3

1 1 0 0

9 10

0 0 0

5

10

15

20

25

30

35

40

45

Simulated data-New

Observed data-New

Simulated data-Other

Observed data-Other

Died

Fail

Recovered

Lost

Transferred

Trtcomp

Daira=KH Daira=AT SEX=M SEX=F COM=Sayada COM=Other

15

3

13

5 9

9

0

5

10

15

20

25

Nu

mb

er o

f L

ost

Simulated Data Observed Data



127

Discussion

La figure 5.25 (resp. figure 5.26) résume les résultats de simulation pour les expérimentations

de la 1ère

série de données (resp. 2ème

série de données) où nous rapportant uniquement la

classe des perdus de vue. Il est clairement montré que les attributs extraits par les règles

d’association ont permis à notre modèle prédictif de distinguer la partie de la population qui

est la cause de l’écart constaté lors des simulations du modèle initial (figure 5.7 resp.

figure 5.17). Effectivement de par cette analyse, jusqu’à l’année 2010, la population des

tuberculeux est définie en général par une majorité d’individus localisés à la Daira de

Kheireddine et plus spécifiquement à la commune de Sayada. Quand à l’analyse étendue

jusqu’à l’année 2012, a montré que la population des tuberculeux a été plus reconnu par

l’apparition de cas nouveaux dans la Daira de Kheireddine sans spécifier une commune

particulière. Il est évident de cette étude que la Daira de Kheireddine demeure la localité la

plus affectée que nous devrions prendre plus en considération lors de l’étape de définition des

paramètres du modèle Bio-PEPA. Cependant, nous avons constaté que même si les attributs

« Sex » et « TYPMAL » recensés par les règles d’association ont permis de visualiser l’écart

signalé pour l’état « lost », ils ne sont pas réellement de bon descripteurs pour l’optimisation

de notre modèle car l’effectif de certaines modalités, telles que « Sex = Female » ou

« TYPMAL = Other », est très limité. Ainsi, nous ne pouvons pas affirmer que les résultats de

simulations fournis par notre modèle et relatifs à ces modalités sont valides. Ainsi, même si

les règles d’association ont permis de définir un éventail plus large de descripteur pour l’état

des perdus de vue que les arbres de décision, nous avons constaté que les arbres de décision

visent plus étroitement le descripteur qui est le plus pertinent pour un processus

d’optimisation de modèles formel.

5.4 Conclusion

Dans ce chapitre, nous avons validé notre approche qui est d’exploiter les algorithmes de

fouille de données en phase d’optimisation. De par les expérimentations, nous avons prouvé

que les connaissances acquises du processus de fouille de données par classification et règles

d’association ont bien été utiles pour guider l’expert dans son raisonnement et sa prise de

décision et ainsi optimiser et raffiner au mieux le modèle prédictif. Afin d’approfondir le

concept de l’intégration du principe de fouille de données dans l’étape d’optimisation, nous

allons dans le chapitre suivant, étendre l’application de notre approche proposée à l’exemple

des oreillons en Grande Bretagne.



Chapitre 6

Fouille de données pour l’optimisation des modèles épidémiologiques:


Sommaire

6.1 Introduction


6.3 Modélisation des oreillons en Grande Bretagne (Ecosse)

6.3.1 Situation épidémique en Ecosse

6.3.2 Modélisation de l’épidémie des oreillons

6.3.3 Analyse de sensibilité

6.3.4 Processus d’optimisation par fouille de données



6.3.4.3 Optimisation par règles d’association

6.3.4.4 Evaluation et interprétation des règles extraites

6.3.4.5 Optimisation par segmentation

6.3.4.6 Evaluation et interprétation des segments

6.4 Conclusion



129

6.1 Introduction

Nous avons évalué dans le chapitre 5, les performances de notre approche proposée par son

application à l’épidémie de la tuberculose. Notre intérêt qui porte sur l’optimisation des

modèles épidémiologiques Bio-PEPA a été principalement motivé par l’intégration du

processus de classification et des règles d’association dans la phase d’optimisation du

processus de modélisation formelle.

A la lumière de l’approche proposée au chapitre 5 et notre conviction qu’elle peut être

étendue à d’autres exemples épidémique, il est dans ce chapitre de l’appliquer à l’épidémie

des oreillons au Royaume-unis.

Ce chapitre fait l’objet de deux publications (en cours de révision):

D.Hamami, R. Cameron, K.G.Pollock, C.Shankland. Understanding the epidemiology

of mumps immunization in Scotland: A computational modelling study. En cours de

révision, Journal Frontiers in Physiology, section Computational Physiology and

Medicine.

D.Hamami, B.Atmani, R.Cameron, K.G.Pollock, C.Shankland. Improving process

algebra model structure and parameters in infectious disease epidemiology through

data mining. En cours de révision, Journal of Intelligent Information Systems (JIIS).


Il s’agit dans ce chapitre de reproduire le processus d’optimisation tel que défini dans le

Chapitre 3 (cf. Section 3.4.2) pour l’épidémie des oreillons. Ainsi, nous reprenons les étapes

comme suit :

1. Prétraitement des données épidémiologiques des oreillons;


3. Application des règles d’association et de la segmentation ;

4. Evaluation et interprétation des règles extraites et des attributs sélectionnés comme

meilleurs descripteurs et analyse des segments résultants;



Cependant, tel que nous avons procédé dans le chapitre 5 pour l’exemple de la tuberculose et

selon la figure 6.1, nous allons au préalable concevoir un modèle Bio-PEPA initial pour

l’épidémie des oreillons.

Chapitre 6 Fouille de données pour l’optimisation des modèles épidémiologique : Application aux Oreillons

Figure 6.1 Optimisation des modèles épidémiologiques : Structure Générale






4: Définition du processus: etrées, sorties, règles et hypothèses

5: Implémentation du modèle Bio-PEPA model – Contribution 1

4: Ensemble de règles et d’attributs pertinents

3 : Règles d’association

2: Sélection des attributs

1: Nettoyage des données et transformation

Op

tim

isati

on

basi

qu

e

La

nga

ge

na

rra

tif

– C

on

trib

uti

on

2

Seg

men

tati

on

des

res

ult

an

ts d

e

sim

ula

tio

ns

– C

on

trib

uti

on

3

Ph

ase

d’o

pti

mis

ati

on

Phase de fouille de données Phase de modélisation et de simulation

Données épidémiologiq

ues

Extr

acti

on

des

co

nn

ais

san

ces–

Co

ntr

ibu

tio

n 3



6.3 Modélisation des oreillons en Grande Bretagne (Ecosse)

6.3.1 Situation épidémique en Ecosse

Les oreillons sont dus au virus « paramyxovirus ». Touchant uniquement l’espèce humaine, la

maladie des oreillons est déclarée souvent bénigne, mais qui peut dans certains cas, causer

des complications nécessitant une hospitalisation voire même laissant des séquelles à long

terme.

Durant la période 1988-2015, le centre national de surveillance de l’Ecosse (GB), HPS

(Health Protection Scotland), a reporté 10943 cas d’oreillons, où 10486 cas ont été signalés

entre 2004 et 2015. Le processus de vaccination contre les oreillons a été introduit en 1988, et

une seconde dose a été introduite en 1996. La figure 6.2 illustre l’évolution de l’épidémie des

oreillons en Ecosse et son protocole de vaccination pour les deux doses ROR1 et ROR2. Nous

observons le succès de la vaccination dès son introduction en 1988 jusqu’à 2003. Cependant

dès l’année 2004, une flambée de cas a été constatée et ce malgré la continuité du protocole

de vaccination.

Nous constatons aussi une fluctuation variable de l’épidémie tout au long de la période 2004-

2015, où quatre pics ont été observés (2005, 2009, 2012 et 2015). Il a été reporté que

l’invasion des oreillons produite en 2004-2005 est partiellement due à l’abaissement de la

couverture vaccinale (cf. figure 6.2). La figure 6.3 illustre la distribution de l’épidémie par

groupe d’âges, où il est clairement montré qu’en 2004 et 2005, la majorité des infectés (94%)

sont nés avant 1990 (agés plus de 15 ans). Une minorité de ces derniers (environ 1%) a due

recevoir uniquement le vaccin ROR1. Les mêmes conclusions ont été reportées pour les

épidémies de 2009 et 2012. Cependant, l’épidémie survenue en 2015, montre une toute autre

observation, car la plus grande incidence (63%) a été rattachée au groupe né en 1991-2000

(agé entre 15-24 ans). Cameron et Smith-Palmer (2015) reportent que l’épidémie de 2015 a

été le premier cas où la majorité des infectés ont été doublement vaccinés (ROR1 et ROR2).

Figure 6.2 Cas confirmés des oreillons, Ecosse 1988-2015 et la couverture vaccinale ROR.



132

Figure 6.4 Modèle à compartiments des oreillons

Les principales préoccupations des épidémiologistes sont : malgré l’existence d’une double

vaccination, quel est le principal facteur permettant à l’épidémie de ressurgir et de persister ?

Que sera le schéma futur de l’épidémie ?

Par conséquent, au cours de cette section nous allons tenter de répondre aux préoccupations

des experts en se focalisant principalement sur la modélisation des épidémies de 2004 à 2015.

6.3.2 Modélisation de l’épidémie des oreillons

a. Interaction expert/modélisateur

Nous considérons pour ce modèle des oreillons une structure à compartiments basée sur un

modèle SEIR étendu, où nous définissons sept compartiments : individus naturellement

susceptibles (S1), individus vaccinés avec ROR1 seulement (V1), individus vaccinés avec

ROR1 et ROR2 (V2), individus susceptible due à la perte de vaccination (S2), individus

Figure 6.3 Cas confirmés des oreillons, Ecosse 2004 – 2015, Distribution par âge.

0

200

400

600

800

1000

1200

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

Nu

mb

er

of

case

s

Years

[0-4] [5-9] [10-14] [15-19] [20-24]

[25-29] [30-34] [35-39] [40- ..]



133

latents (E), individus infectés (I) et individus guéris et qui ont acquis une immunité à vie (R)

(Anderson et May, 1991 ; Greenhalgh et Sfikas, 2003). Nous considérons pour ce modèle une

population homogène, soumise au protocole de vaccination et qui peut subir une

contamination d’une population immigrante. La figure 6.4 montre l’interaction entre les

différents compartiments cités ci-dessus. Le tableau 6.1 résume les paramètres du modèle.

Nous rappelons que les données fournies par le service HPS de l’Ecosse pour la période de

2004 à 2015 (HPS, 2015) sont utilisées pour calculer les paramètres du modèle. Aussi pour un

complément de paramètres, nous nous sommes inspirés de la littérature (Anderson et May,

1991 ; Keeling et Rohani, 2008). Les sections suivantes apportent plus de détails sur

l’estimation des paramètres.

Estimation démographique. Le taux de naissance et de mortalité sont calculés à partir des

données démographiques de l’Ecosse (HPS, 2015).

Estimation du taux d’immigration. Afin d’assurer la persistance de l’infection, nous avons dû

intégrer le principe d’immigration dans notre modèle. Le taux d’immigration est calculé selon

la formule décrite dans le tableau 6.1 (Finkenstadt et al., 1998 ; Benkirane et al.,2012).

Estimation du taux de vaccination (μ2, μ3). Conformément aux données de vaccination de

1988 à 2015 (Childhood Immunisation Statistics, 2015), nous supposons en moyenne : une

couverture vaccinale du ROR1 à 94% pour les enfants âgés entre 0 et 2 ans. Une couverture

vaccinale du ROR2 à 90% pour les enfants âgés entre 3 et 5 ans.

Estimation du nombre initial de susceptibles. En se basant sur l’historique vaccinal (Moragan-

Capner et al., 1988 ; England PH, 2013), nous supposons que la proportion de la population

susceptible et non vaccinée est à 20%, où parmi ces derniers 11% sont âgés de 10 ans et plus.

Estimation de la perte d’immunité (, ). Selon les explications des épidémiologistes, nous

considérons que les vaccinés avec ROR1 et ROR2 (resp. uniquement ROR1) sont

temporairement protégés et peuvent revenir vers un état susceptible selon un taux (resp. ).

Lebaron et al . (2009) rapportent qu’après 4-9 ans de la vaccination avec ROR1 les individus

vaccinés atteignent leur bas niveau d’anticorps et après 7-12 ans de la vaccination avec

ROR2.

Taux de latence et guérison . Les études empiriques (Anderson et May, 1991 ; Anderson et

al., 1987). ont estimé une période de latence de 12 à 25 jours et une période de transmission

de 7 à 9 jours.



134

Tableau 6.1 Paramètres du modèle des oreillons

Parameter Description Value

(day)

Formula

B Taux de naissance 3 10-5

Nomber de naissances /

Population totale

Taux de décé 3.7 10-5

Nomber de décés / Population

totale

1 Taux non-vacciné 2.1 10-6

Taux de naissance -(μ2+μ3)

μ2 Taux de vaccination (ROR1) 2.8 10-6

Taux de naissance * VC1

μ3 Taux de vaccination (ROR2) 2.5 10-5

Taux de naissance * VC2

Taux de perte d’immunité du

vaccin (ROR1)

3.4 10-4

1/ Durée de l’immunité du vaccin

ROR1

Taux de perte d’immunité du

vaccin (ROR2)

/2 1/ Durée de l’immunité du vaccin

ROR 2

1

2

3

Taux de transmission :

- Haute saison et susceptible

naturel

- Haute saison et susceptible

modifié

- Basse saison

0.7

0.9

0.4

= R0 *

T7 Période inter-épidémique [2-5]

T = 2 *

(Moragan-

Capner et al., 1988)

Où A: Age moyen de l’infection

1/ Période d’incubation [12-25] 1/taux d’inféction

1/ Période d’infection [7-9] 1/taux de guérison

Taux d’immigration 0.07 Immigration ∗

Estimation du taux de transmission (1, 2, 3). Dans notre modèle, le taux de transmission

dépond de deux paramètres : la saisonnalité (haute, basse) et le type de susceptible (naturel,

modifié). Ainsi, il l’en dérive quatre paramètres de transmissions : 1 (haute saison et

susceptible naturel), 2 (haute saison et susceptible modifié), 3 (basse saison et susceptible

naturel) et 4 (basse saison et susceptible modifié). Pour la saisonnalité, les données reportent

7 Inter-epidemic period related to a pre-vaccine era



135

un grand nombre des infectés entre le mois d’Octobre à Mai, et qui diminue entre Juin et

Septembre (HPS, 2015). Etant donné que l’épidémie touche le plus souvent les individus âgés

entre 17 et 24 ans, les observations concernant la saisonnalité sont confirmées par le fait que

la répartition des mois correspond parfaitement à la répartition temporelle scolaire. En effet,

pour cette population estudiantine (âgés de 17 à 24 ans), les mois de Juin à Septembre

correspondent à leurs vacances scolaires ce qui implique moins de contact pour une probable

infection. Pour le degré de transmission des individus naturellement infectés et infectés due à

la perte de la protection vaccinale, Cameron (Cameron, 2016) argumente que parmi 205 cas

confirmés, 137 (67%) sont doublement vaccinés, en conjonction avec les formules présentées

dans les travaux de Scherer et McLean (2002) il en dérive que 2 > 1. Afin d’estimer les

taux de transmission, nous nous sommes basés sur le nombre de reproduction de base R0 (cf.

Tableau 6.1), où un intervalle de valeurs est proposé [4-11] (Anderson et May, 1991 ; Van

Boven et al., 2013 ; Anderson et al., 1987).

b. Conception du modèle formel par Bio-PEPA

Afin de reproduire correctement le schéma de l’épidémie des oreillons dans la population

écossaise, nous avons adopté quatre scénarios :

- Scénario 1. Pas de vaccination. Ceci se rapporte à l’ère pré-vaccinale, où la vaccination

n’avait pas été à lors introduite.

- Scénario 2. L’immunité acquise de la vaccination est permanente. Les taux et sont

nuls.

- Scénario 3. L’immunité acquise de la vaccination est temporaire.

- Scénario 4. Une intervention médicale supplémentaire permet de prolonger la période

d’immunité.

Tel que souligné par notre approche, nous avons formulé le modèle de la figure 6.4 en Bio-

PEPA. Modéliser l’épidémie des oreillons en Bio-PEPA (voir ci-dessous), requis une

description détaillée des composants: paramètres, espèces, taux fonctionnels, compartiments

et composants du modèle.

Paramètres. Tous les paramètres décrits dans le tableau 6.1 sont reportés dans le code Bio-

PEPA (cf. ligne 1 à 12). Le paramètre relatif à la saisonnalité (cf. ligne 19 à 22) est formulé

par la fonction Heaviside (H). Tel que noté par Marco et al. (2012b), la fonction H est utilisée

pour activer/désactiver des taux fonctionnels, ceci en attribuant une valeur booléenne au

paramètre temps. Ainsi le système balance instantanément entre les hautes saisons (du mois

d’Octobre à Mai) et basses saisons (du mois de Juin à Septembre).

Espèces et taux fonctionnels. Selon le modèle à compartiment de la figure 6.4, sept espèces

sont définies : S1, S2, V1, V2, E, I, R. Les espèces exécutent des actions (taux fonctionnels)

permettant de croitre/décroitre leur densité (cf. de la ligne 24 à 40). Les actions se produisent

selon les valeurs des paramètres qui leur sont attribuées. Ainsi, la dynamique du système

évolue, telle qu’à chaque interaction entre espèces une action est invoquée conduisant à une

variation de la densité des espèces concernées. Par exemple, l’action décrite à la ligne 34 du

code Bio-PEPA, correspondante à l’action de latence fait intervenir les deux espèces « E » et



136

« I », ce qui implique une diminution du nombre d’individus latents (cf. ligne 43) en utilisant

l’opérateur « << », et augmentation de nombre d’individus infectés par l’opérateur « >> ».

Rappelons qu’à chaque pas de temps de la simulation, Bio-PEPA permet de choisir d’exécuter

différentes actions, ceci est réalisable grâce à l’opérateur « + ».

Compartiments. Les compartiments dans Bio-PEPA sont définis par le terme « Location ».

Dans notre modèle, la population est considérée homogène. Ainsi, tous les individus

interagissent dans le même espace (cf. de la ligne 13 à 18).

Composant modèle. La dernière ligne du modèle (cf. ligne 48) décrit les interactions entre les

espèces et leur densité initiale.

Paramètres

1 D_R = 0.000037;

2 Beta1 =0.7;

3 Beta2 =0.9;

4 Beta = 0.4;

5 Mu2= 0.0000028;

6 Mu3= 0.000025;

7 Mu1 = 0.0000021;

8 Alpha = 0.05;

9 Gama = 0.143;

10 imrate1 =0.07;

11 Tau= 0.00034;

12 Delta=Tau/2;

13 sizeOutside = 110000;

14 sizeLocal = 5300000;

15 location world : size =5200000 , type = compartment;

16 location Local in world: size = sizeLocal, type = compartment;

17 location Local in world: size = sizeLocal, type = compartment;

18 location Outside in world : size = sizeOutside, type = compartment;

19 thigh = 4;

20 tlow = 9;

21 month = floor(time/30);

22 season_time = 1-H( ((month - 12*floor(month/12)) - tlow)*

(thigh-(month - 12*floor(month/12))) );

23 N = (S1@Local +E@Local + I@Local + R@Local +S2@Local

+ MMR1@Local + MMR2@Local);



137

c. Simulation et analyse

Nous rappelons que le plugin Bio-PEPA permet d’analyser le modèle selon différents types

d’analyse et que le choix du type dépondait fortement de la nature de l’épidémie et de

l’objectif à atteindre. Nous rappelons que lors de notre interaction avec les épidémiologistes,

ces derniers se sont fortement focalisés sur la durée des cycles épidémiques, tel que celui

définissant les épidémies entre 2005 et 2015. Dans ce contexte, nous avons en premier lieu

effectué une analyse stochastique de notre modèle, ceci ne nous a pas permis d’identifier

correctement les tendances cycliques à long terme. Le comportement étant trop variable, nous

Kinetic Laws

24 kineticLawOf BIRTH1: Mu1 * N;



27 kineticLawOf MMR1_S2: MMR1@Local *Tau;

28 kineticLawOf MMR2_S2: MMR2@Local *Delta;

29 kineticLawOf Death_MMR1 : D_R * MMR1@Local;

30 kineticLawOf Death_MMR2 : D_R * MMR2@Local;

31 kineticLawOf immigration : imrate1/10000;

32 kineticLawOf S1_E: (Beta1 * S1@Local * I@Local)/N * (season_time)

+ (1-season_time)*(Beta * S1@Local * I@Local)/N ;

33 kineticLawOf S2_E: (Beta2 * S2@Local * I@Local)/N * (season_time)

+ (1-season_time)* (Beta * S2@Local * I@Local)/N;

34 kineticLawOf E_I: Alpha * E@Local;

35 kineticLawOf I_R: Gama * I@Local;

36 kineticLawOf Death_S1: D_R * S1@Local;

37 kineticLawOf Death_I: D_R * I@Local ;

38 kineticLawOf Death_E: D_R * E@Local;

39 kineticLawOf Death_S2: D_R * S2@Local;

40 kineticLawOf Death_R: D_R * R@Local;

Species

41 S1 = (BIRTH1,1) >> S1@Local + (S1_E,1) << S1@Local + Death_S1 << S1@Local;

42 S2 = (S2_E,1) << S2@Local + Death_S2 << S2@Local + (MMR2_S2,1) >> S2@Local

+ (MMR1_S2,1) >> S2@Local;

43 E = (S1_E,1) >> E@Local + (S2_E,1) >> E@Local + (E_I,1) << E@Local

+ Death_E << E@Local;

44 I = (E_I,1) >> I@Local + (I_R,1) << I@Local + Death_I << I@Local

+ immigration[Outside -> Local](.)I + (S1_E,1) (.) I + (S2_E,1) (.) I;

45 R = (I_R,1) >> R@Local + Death_R << R@Local ;

46 MMR1 = (BIRTH2,1) >> MMR1@Local + (MMR1_S2,1) << MMR1@Local

+ Death_MMR1 << ;

47 MMR2 = (BIRTH3,1)>> MMR2@Local + (MMR2_S2,1) << MMR2@Local

+ Death_MMR2 << ;

Model component

48 S1@Local[1100000] <*> S2@Local[0] <*> E@Local[0]

<*> I@Local[20] <*> R@Local[3218600] <*> MMR1@Local[273541]

<*> MMR2@Local[250000] <*> I@Outside[10000]



138

avons tenté de répliquer les simulations jusqu’à 1000 réplications. Chaque série de

simulations présentait une courbe différente. Due à cette variabilité, nous avons convenu avec

les épidémiologistes d’adopter une analyse déterministe.

En se basant sur les figures 6.2 et 6.4 et en conjonction avec les données observées de

l’épidémie des oreillons en Angleterre et Pays de Galles8 (cf. figure 6.5 (a) et (b), Galbraith et

al., 1984 ; Euro Surveil, 2004), trois différentes périodes épidémiques sont constatées :

période pré-vaccinale, période post-vaccinale réussie et période post-vaccinale échouée (perte

d’immunité), où nous pouvons observer un décalage dans les âges des infectés ainsi que dans

l’incidence de l’épidémie.

La figure 6.6 illustre le résultat de simulation des scénarios 1-3. Il est clair que l’épidémie des

oreillons persiste et se produit chaque année.

Figure 6.5 Les oreillons en Angleterre et Pays de Gales 8 Due à l’indisponibilité des données en période pré-vaccinale pour l’Ecosse, nous nous sommes inspirés des

données de l’Angleterre et pays de Galles

50

54

58

62

66

70

74

78

82

86

90

94

98

0

500

1000

1500

2000

2500

3000

3500

4000

4500

va

ccin

e co

ver

ag

e (%

)

lab

ora

tory

co

nfi

rmed

ca

ses

(a) données de 1967 à 2014 excluant (1982-1995)

MUMPS CASES MMR1 MMR2

MMR vaccine introduced, 1988

2nd dose MMR introduced, 1996

(b) données de 1984 à 2004



139

Figure 6.6 Prédiction de l’incidence des oreillons: (a) Scenario 1- Sans de vaccination,

(b) Scenario 2- Vaccination sans perte d’immunité, (c) Scenario 3- Vaccination avec perte

d’immunité

0

1000

2000

3000

4000

5000

6000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 (a) Years

Infected

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

(b) Years

without waning immunity

0

100

200

300

400

500

600

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 (c) Years

Obs

Exp1

Exp2

Exp3

Exp4

Exp5

Exp6



140

Figure 6.7 Période inter-épidémique versus taux reproductive de base R0, ère pré-vaccinale

Scénario 1 :

Nous commençons par analyser les performances de notre modèle pour la période pré-

vaccinale. En utilisant une période de latence de 13 jours, une période d’infection de sept

jours et un âge moyen d’infection de cinq ans, la figure 6.6 (a) montre des cycles inter-

épidémiques de trois ans avec des motifs oscillatoires internes. Ces résultats sont

conformément comparables aux données de l’Angleterre et pays de Galles ((Galbraith et al.,

1984 ; Euro Surveil, 2004)) et aux observations reportées dans la littérature, où les cycles

épidémiques varient entre 2 et 5 ans (Anderson et al., 1987 ; Edmunds et al., 2000 ; Galazka

et al. 1999). Afin de démontrer les performances du modèle pour la période pré-vaccinale,

nous avons varié R0 dans l’intervalle [7 – 14]. La figure 6.7 montre que la période du cycle

épidémique décroît de 5 à 3 cycles avec l’accroissement de R0.

Scénario 2 :

Tenant compte du succès de notre modèle à reproduire la période pré-vaccinale, nous avons

par la suite modélisé l’ère où la vaccination a été introduite (dès 1988) et où une forte

décroissance de l’incidence épidémique a été constatée (1988 – 2003). Ce qui implique pour

cette période d’assumer une immunité permanente. La figure 6.6 (b) montre l’impact de la

vaccination sur la dynamique oscillatoire de l’épidémie et son amplitude. Il est clair qu’en

présence d’une protection vaccinale, le nombre de susceptible décroit menant ainsi à une

décroissance du nombre des infectés. A ce stade, les enfants ayant été les principaux hôtes

pour lesquels le virus trouvait réservoir, les contrôler a permis de cerner la propagation de

l’épidémie.

Scénario 3 :

Suivant le schéma des scénarios proposés dans la section 6.3.2.b, nous avons introduit dans le

modèle précédent le principe de perte de l’immunité (période 2004 – 2015). Tel qu’il est

montré sur la figure 6.6 (c), le schéma réel de l’épidémie est très instable où nous pouvons

observer que les fluctuations varient d’année en année. Les valeurs des paramètres que nous

avons utilisé n’ont pas permis de reproduire le schéma exacte de l’épidémie et les valeurs des

0

1

2

3

4

5

6

7 8 9 10 11 12 13 14

Pe

rio

d c

ycle

s

Basic reproductive rate of infection R0



141

plages proposées sont trop larges. Tel qu’il est illustré sur la figure 6.6 (c), une multitude de

graphes peuvent être générés en variant les paramètres du modèle, où chacun des graphes

présente des comportements épidémiques particulier pouvant présenter des similarités

partielles avec les données observées. Afin de pallier ce problème, en outre, identifier les

valeurs des paramètres permettant de se rapprocher des données observées, nous avons,

comme étape d’optimisation classique, due réaliser une analyse sensitive (cf. Tableau 6.2).

Nous tenons à rappeler que nous avons d’abord utilisé l’approche du langage narratif où

l’expert a validé la structure de notre modèle. Toutefois, il a suggéré de revoir les valeurs des

paramètres utilisées, ce qui nous a conduit à l’analyse de sensibilité.

6.3.3 Analyse de sensibilité

Le tableau 6.2 présente l’impact de la variation des valeurs des paramètres : taux de

transmission, période d’infection, période de latence, durée de l’immunité et couverture

vaccinale, sur l’amplitude de l’épidémie et la période des cycles épidémiques. Nous avons

pour cela, utilisé la méthode d’analyse par ANOVA intégrée dans l’outil Minitab (Minitab,

2010).

Tableau 6.2 Analyse sensitive

Période d’incubation

Valeurs 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Amplitude 2357 2316 2229 2123 2020 2309 2280 2153 2149 2132 2020 1968 1909 1927 Période du

Cycle 8 9 9 9 9 9 10 10 10 10 11 10 11 11

Période d’infectiosité

Valeurs 6 7 8 9

Amplitude 1808 2132 2276 2739 Période du

Cycle 10 10 11 10

Nombre basique de reproduction

Valeurs 4 5 6 7 8 9 10 11

Amplitude 1690 1708 2132 2134 2256 2320 2289 2407

Période du Cycle 14 12 10 9 9 8 7 6

Durée de l’immunité

Valeurs 10 20 30 40 50 60 70 80

Amplitude 1873 1245 909 668 555 440 371 306

Période du Cycle 10 8 7 7 6 5 5 4.5

Couverture vaccinale

Valeurs 75 80 85 90 95

Amplitude 1694 1660 1552 1536 1413

Période du Cycle 9 10 10 10 10



142

Analyse 1 : variation de la période de latence.

Nous avons entrepris 14 expérimentations, où la période de latence a été variée de 12 à 25

jours par pas de 1 jour. Les résultats indiquent qu’à une confiance de 95% (p = 0.968), il n’y

a pas de différence significative entre les différentes expérimentations. Les tests de Tukey

montrent que la variation de la période de latence n’a aucun impact sur le nombre des

infectés. Cependant, en utilisant la simulation par Bio-PEPA, nous pouvons observer que

durant une période de 100 ans de simulations la période des cycles épidémiques varie de 8 à

11 cycles.

Analyse 2: variation de la période d’infectiosité.

La variation de la période de transmission de 6 à 9 jours par pas de 1 jour indique qu’il n’y a

pas de différence statistique entre les expérimentations (P= 0.114). Cependant, les tests de

Tukey sont en contradiction avec ceux de Hsu MCB. Quand le test de Tukey ne montre

aucune différence statistique, les tests de Hsu MCB montrent une large différence entre

l’expérimentation N°1 (période de transmission 1/ = 6 jours) et l’expérimentation N°4 (1/ =

9 jours). En effet, l’analyse montre que la moyenne de l’expérimentation N°4 (2739) est plus

importante que les autres (1808, 2113, 2276), où le nombre des infectés varie de 1808 à 2739

infectés. Cependant, il est à noter que la période des cycles est pratiquement stable, où la

majorité des expérimentations exprime 10 ans entre deux grands pics épidémiques.

Analyse 3: variation des taux de transmission.

La variation des taux de transmission est basée sur la variation de R0 de 4 à 11. L’analyse par

ANOVA montre que les expérimentations ne sont pas statistiquement différentes (p = 0.36).

Cependant, les résultats de 100 ans de simulations montrent que l’accroissement de R0

implique une diminution de la périodicité. Comme R0 varie de 4 à 11, la périodicité des cycles

varie de 14 à 6 et ainsi le nombre des cycles varie de 7 à 16 cycles. Durant la simulation il a

été observé que le premier pic épidémique tend à se produire plus rapidement avec une

amplitude croissante lorsque R0 augmente.

Analyse 4: variation de la durée de l’immunité.

L’analyse par ANOVA montre que la variation de la durée de l’immunité de 10 à 80 ans

implique une différence statistique entre les expérimentations. En particulier, cette analyse

extrait quatre différents groupes. Le 1er

groupe inclus la 1ère

expérimentation (durée de

l’immunité = 10 ans). Le 2ème

groupe inclus la 2ème

et 3ème

expérimentation (20 et 30 ans). Le

3ème

groupe inclus trois expérimentations (30, 40 et 50 ans). Le 4ème

groupe inclus cinq

expérimentations (40, 50, 60, 70 et 80 ans). Nous pouvons observer clairement que les

groupes 2, 3 et 4, se chevauchent entre eux, ce qui implique que le 1er

groupe est

significativement différent des autres groupes. Ceci s’explique par le fait qu’une courte durée

d’immunité permet une hausse rapide du réservoir des susceptibles et ainsi à l’épidémie de

survenir rapidement avec un large nombre d’infectés. L’analyse de la périodicité montre

également que la durée de l’immunité a un impact important sur la dynamique de l’épidémie,

où la périodicité varie entre 4.5 à 10 ans.



143

Analyse 5 : variation de la couverture vaccinale

La variation de la couverture vaccinale de 75% à 95% par pas de 5%, indique qu’à 95% de

confiance, aucune différence statistique significative n’a été constatée (p=0 .648). Les

résultats validés par le test de Tukey sont similaires à ceux de Hsu MC, ce qui implique que la

variation de la couverture vaccinale n’a aucun effet majeur sur le nombre des infectés. Ce fait

est confirmé par les résultats de simulations, où nous pouvons observer que la périodicité

n’évolue pratiquement pas. De 80% à 95% de couverture vaccinale, les simulations détectent

10 ans de périodicité quand à la couverture vaccinale de 75% la périodicité est définie à 9 ans.

Ces résultats en relation avec le fait que la couverture vaccinale qui n’a pas d’impact sur

l’épidémie, confirment les conclusions apportées par DeStefano et al (2013) et Donaghy et al

(2006).

De cette série d’expérimentations et des variations des valeurs des paramètres, il est clair que

les paramètres : période d’infectiosité et la durée de l’immunité ont un impact majeur sur

l’amplitude de l’épidémie, et les paramètres : période d’incubation et R0 ont un impact sur la

périodicité. Bien que, la durée de l’immunité ait également présenté un impact sur la

périodicité, toutefois ceci est ignoré du fait de l’incohérence par rapport aux données

observées. Nous avons exclu la variation de la couverture vaccinale du fait des constatations

exprimées ci-dessus. Vu le nombre important des valeurs des paramètres qui jouent un rôle

dans la dynamique de l’épidémie, à ce stade des expérimentations, il nous a été très laborieux

d’opter pour une combinaison de valeurs permettant d’optimiser correctement notre modèle

afin d’aboutir à un résultat comparable aux données observées. Le choix entre les différents

résultats n’est pas une évidence absolue, car nous avons constaté que chaque expérimentation

permet de représenter partiellement les données observées. Face à cet handicap, nous

proposons d’appliquer la suite de notre approche qui est l’optimisation par fouille de données

(data mining).

6.3.4 Processus d’optimisation par fouille de données

Rappelons que les définitions présentées au chapitre 3 et l’analyse décrite au chapitre 5, à

propos de l’apprentissage supervisé et non supervisé, nous ont permis de déduire que le type

d’apprentissage à appliquer dépond fortement de l’étude à accomplir et des données à

exploiter. Nous rappelons que l’objectif de cette étude est double. D’une part nous voulons

comprendre la relation entre l’immunité acquise suite à un protocole vaccinal et la

transmission de la maladie des oreillons. D’une autre part, présenter aux épidémiologistes des

modèles prédictifs futurs, afin qu’ils puissent agir, contrôler et prendre des décisions

efficaces. Les résultats tels que nous les présentons ci-dessus, ont permis de réaliser notre 1er

objectif. Cependant, le 2ème

objectif n’a été atteint que partiellement. Tel que nous l’avons

expliqué, notre modèle présente une instabilité à produire un schéma conforme à la réalité, où

chaque série de valeurs des paramètres (cf. tableau 6.2) conduit à un résultat partiellement

correcte. Nous avons montré qu’il nous est impossible, ni à l’œil nu ni en utilisant des

méthodes d’analyse de sensibilité, d’opter pour une telle ou telle solution qui soit la plus

proche des données observées. Dans ce contexte, nous allons appliquer les algorithmes de

fouille de données afin d’extraire d’éventuelles connaissances pouvant enrichir notre modèle



144

et ainsi aboutir à des résultats qui convergent étroitement vers les données observées. Mais

tout d’abord, dans un souci de sélection de méthodes de fouille de données pour notre

exemple, nous devons au préalable analyser, indépendamment du processus d’optimisation, la

nature des données.

Dans la lumière des objectifs cités ci-dessus et des définitions du chapitre 3, il est plus

approprié de se focaliser sur une tâche de classification, sur les règles d’association ou sur la

segmentation. Toutefois, les caractéristiques des données telles qu’illustrées sur le tableau 6.3,

montrent clairement qu’aucune classe ne peut être prédéfinie pour accomplir une tâche de

classification d’où leur rejection immédiate de notre approche. Par contre, dû à leur définition,

les règles d’association n’exigent aucune classe à prédire car leur but est avant tout la

description, ce qui fait d’elles le parfait candidat. Quand à notre motivation à utiliser la

segmentation, elle va au-delà du concept pour lequel les règles d’association ont été

proposées. Rappelons que notre premier but est de trouver les descripteurs les plus pertinents

relatifs aux individus infectés, toutefois, tel que nous l’avons spécifié dans la section 5.3 –

Chapitre 5, la segmentation consiste à former des groupes homogènes en faisant intervenir

tout les attributs. Ceci contredit notre objectif. Notre deuxième but est de sélectionner le

meilleur résultat parmi l’ensemble des simulations. Par « meilleur », nous décrivant le résultat

de simulation le plus significativement similaire aux données observées, la segmentation se

trouve être en parfaite harmonie avec cette définition. En effet, en proposant les différents

résultats de simulation aux algorithmes de segmentation, ces derniers permettront de choisir

objectivement l’une des solutions (résultat de simulation) qui sera par la suite décisive pour

les prédictions futures.

Tel que nous l’avons spécifié dans le chapitre 5, nous devons au préalable analyser les

algorithmes de fouille de données les plus optimaux pour notre approche d’optimisation des

modèles computationnels. Le fait d’opter pour les deux tâches présentées ci-dessus répond

parfaitement à nos motivations et notre double contribution : d’une part, explorer les modèles

de segmentation conçus pour sélectionner les résultats les plus optimaux. Cependant, il est

important de rappeler à ce niveau que ces modèles contribuent à l’optimisation des paramètres

du modèle épidémique et non pas l’optimisation de sa structure. D’une autre part, se

concentrer sur les règles d’association qui nous permettent de mieux comprendre la

dynamique de l’épidémie et les attributs qui sont en forte corrélation afin de les intégrer dans

notre modèle computationnel.

Pour résumer, il s’agit dans ce chapitre d’appliquer en premier les règles d’association sur les

données de l’épidémie des oreillons pour l’optimisation de la structure et des paramètres du

modèle conçu précédemment. Ensuite, il s’agit d’appliquer la segmentation sur les résultats de

simulations pour l’optimisation des paramètres.

Les données sujettes au processus de fouille de données sont fournies par le centre médical

HPS (Health Protection Scotland ; HPS, 2016) de l’année 2004 à 2016, où les attributs : Age,

Sex, NHSBoard, Year, Week, Report Date, Disease, sont rapportés.



145


Pour accomplir cette phase, nous avons exploré les algorithmes offerts par Weka tels que

décrits dans la section 5.3.3.1. L’opération de nettoyage a permis de réduire le nombre initial

des attributs de 7 à 4 attributs et d’ajouter un nouvel attribut. Au total, nos données sont

référencées par cinq attributs (cf. Tableau 6.3).

a. Nettoyage

Remove : l’attribut « Report Date » représente le jour où l’individu a été détecté infecté. En

analysant les données nous avons constaté que durant la période de 2004 à 2016, chaque six

jour au moins un individu est infecté, ce qui consiste en un nombre massif de valeur pour cet

attribut. Etant donné que l’attribut « Week » permet de suivre l’évolution temporelle de

l’épidémie, l’épidémiologiste nous a conseillé d’ignorer l’attribut « Report Date ».

Etant donné que notre objectif est d’extraire les caractéristiques communes à tous les

individus infectés quel que soit l’année de l’infection, nous avons ignoré l’attribut Year.

Removeuseless : en analysant les données, l’attribut « Disease » est défini par une et une seuls

modalité : « Mumps », qui est rapportée pour tous les individus (instances). Ainsi, il est

automatiquement supprimé.

Replacemissingvalue : nous avons détecté deux attributs dont les valeurs sont manquantes:

Age et Sex. Le nombre d’instance pour lesquels la valeur de l’attribut Age (resp. Sex) est

manquante est de 278 (resp. 27) qui correspond à 3% (resp. 0.3%) du nombre total des

individus déclarés. Du fait de leur nombre assez réduit, en utilisant cet algorithme nous

pouvons remplacer les valeurs numériques par une moyenne (pour l’attribut Age) et les

valeurs nominales par une médiane (pour l’attribut Sex).

Add : cette fonction permet d’ajouter un nouvel attribut aux données existantes. En analysant

le statut vaccinal global des individus infecté dans une région sanitaire particulière en une

année, il a été révélé que le statut vaccinal pourrait être une caractéristique importante. Bien

que nous n'ayons pas pu obtenir ce type d’information pour chaque individu, nous avons été

en mesure de construire un ensemble de données simulées combinant manuellement les cas

observés avec le statut de vaccination projeté sur la base de cette épidémie, où il nous a été

communiqué par les épidémiologistes (Pollock et Cameron, 2016) que 50% des patients ont

Tableau 6.3 les attributs de la base de données des oreillons

Attributs Description

Age Age de l’individu

Sex Homme/Femme

Week Semaine de détection

Year Année de détection

MMR status Statut vaccinal relative aux vaccins contre la Rougeole, les Oreillons et la Rubéole



146

été partiellement vaccinés (une dose du vaccin ROR) , 12,6% n'ont pas été vaccinés et 18,5%

ont été complètement vaccinés (deux doses du vaccin ROR). Ainsi, un nouvel attribut « MMR

status » est ajouté aux données (pour plus de description voir le tableau 6.3).

b. Transformation

Parmi cinq attributs restants, deux attributs sont numériques (Age, Week). Il est important de

rappeler que les règles d’association ne supportent pas les attributs numériques d’où

l’obligation de les transformer en attributs nominaux. Toutefois, il est à noter que l’attribut

« Age » est défini dans l’intervalle [0,97] et l’attribut « Week » est défini par 53 valeurs

distinctes. Exploiter ces données par les algorithmes de règles d’association induirait à un

nombre important de règles générées, d’où la nécessité de les discrétiser.

Weka propose la fonction Discretize qui permet de distribuer les individus selon : 10 groupes

pour l’attribut « Age » et dix groupes pour l’attribut « Week ».


En général cette étape est appliquée afin de réduire le nombre des attributs. Toutefois, nous

constatons qu’après exécution des algorithmes de sélection un nombre assez réduit de groupes

d’attributs a été généré: Groupe 1 (Age), Groupe 2 (Week), Groupe 3 (Sex, Week), Groupe 4

(Age, Week), Groupe 5 (Age, Sex, Week), où les attributs NHSBoard et MMR status n’ont

été rapporté par aucune sélection. Etant donné qu’après exécution de l’étape de prétraitement,

notre base de données n’est constituée que de 5 attributs (Age, Sex, Week, NHSBoard, MMR

status), pour une plus large analyse, nous avons délibérément ignoré cette étape de sélection et

préféré continuer le processus de l’ECD en considérant les cinq attributs.

6.3.4.3 Optimisation par règles d’association

Pour cette étape nous reprenons les mêmes algorithmes utilisés dans la section 5.3.5.1:

Apriori, PredictiveApriori et Tertius, ainsi que les valeurs de leurs paramètres. Toutefois,

nous avons dû réduire le paramètre support à 0.1 car au-delà de cette valeur aucune règle n’a

pu être extraite. Le paramètre confiance a été réinitialisé à sa valeur la plus optimale 0.8 par

rapport aux règles générées.

Le tableau 6.4 illustre l’ensemble des règles extraites. Au total, 38 règles sont générées : neuf

règles par l’algorithme Apriori, 18 règles par l’algorithme PredictiveApriori et 11 règles

résultent de l’algorithme Tertius. Noter le haut niveau de confiance de l’ensemble de ces

règles, où le critère d’évaluation : Confiance est compris entre 82 et 100% pour l’algorithme

Apriori, le taux d’exactitude est compris entre 90 et 96% et la confirmation est comprise entre

26 et 28%. Aussi, le tableau 6.4 démontre une fréquence d’association des attributs MMR

status, Week et Age de 82% (31/38 règles).



147

Tableau 6.4 Règles extraites des algorithmes: Apriori, Predictive Apriori and Tertius

Algorithme Règles Measure

Apriori 1. Week='(41.8-46.9]' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'

2. Week='(46.9-inf)' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'

3. Week='(6.1-11.2]' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'

4. Week='(41.8-46.9]' ==> Age='(16.8-25.2]'

5. Sex=F MMR STATUS=MMR2 ==> Age='(16.8-25.2]'5

6. MMR STATUS=MMR2 ==> Age (years)='(16.8-25.2]'

7. Week='(-inf-6.1]' ==> Age (years)='(16.8-25.2]'

8. Week='(46.9-inf)' ==> Age (years)='(16.8-25.2]'

9. Sex=M MMR STATUS=MMR2 ==> Age (years)='(16.8-25.2]'

conf:(1)

conf:(0.97)

conf:(0.97)

conf:(0.96)

conf:(0.95)

conf:(0.88)

conf:(0.84)

conf:(0.83)

conf:(0.82)

Predictive

Apriori


2. Sex=F Week='(41.8-46.9]' ==> Age='(16.8-25.2]'

3. Sex=F Week='(46.9-inf)' MMR STATUS=MMR2 ==> Age='(16.8-

25.2]'

4. Age='(8.4-16.8]' ==> MMR STATUS=MMR2

5. Week='(46.9-inf)' MMR STATUS=MMR2 ==> Age='(16.8-25.2]'

6. Sex=M Week='(6.1-11.2]' MMR STATUS=MMR2 ==>

Age='(16.8-25.2]'


8. Week='(41.8-46.9]' ==> Age='(16.8-25.2]'

9. Sex=F Week='(-inf-6.1]' MMR STATUS=MMR2 ==> Age='(16.8-

25.2]'

10. Sex=F Week='(-inf-6.1]' ==> Age='(16.8-25.2]'

11. Week='(46.9-inf)' MMR STATUS=MMR ==> Age='(16.8-25.2]'

12. Age='(8.4-16.8]' Week='(21.4-26.5]' ==> Sex=M MMR

STATUS=MMR2

13. Age='(42-50.4]' ==> MMR STATUS=NONE

14. Week='(36.7-41.8]' ==> Age='(16.8-25.2]'

15. Sex=F MMR STATUS=MMR2 ==> Age='(16.8-25.2]'

16. Week='(16.3-21.4]' MMR STATUS=MMR2 ==> Age='(16.8-

25.2]'

17. Sex=F Week='(16.3-21.4]' MMR STATUS=MMR1 ==>

Age='(16.8-25.2]'

18. Week='(-inf-6.1]' MMR STATUS=MMR1 ==> Age='(16.8-25.2]'

acc:(0.995)

acc:(0.994)

acc:(0.994)

acc:(0.993)

acc:(0.992)

acc:(0.992)

acc:(0.992)

acc:(0.987)

acc:(0.982)

acc:(0.981)

acc:(0.968)

acc:(0.956)

acc:(0.956)

acc:(0.943)

acc:(0.908)

acc:(0.908)

acc:(0.907)

acc:(0.907)

Tertius 1. MMR STATUS = MMR2 ==> Week = '(6.1-11.2]' or Age (years) = '(16.8-25.2]'

2. Age (years) = '(16.8-25.2]' ==> Week = '(41.8-46.9]' or MMR STATUS = MMR2

3. MMR STATUS = MMR2 ==> Age (years) = '(16.8-25.2]'

4. MMR STATUS = MMR2 ==> Week = '(46.9-inf)' or Age (years) = '(16.8-25.2]'

5. MMR STATUS = MMR2 ==> Week = '(-inf-6.1]' or Age (years) = '(16.8-25.2]'

6. Sex = F and MMR STATUS = MMR2 ==> Week = '(11.2-16.3]' or Age (years) = '(16.8-25.2]'

7. Age (years) = '(16.8-25.2]' ==> Week = '(-inf-6.1]' or MMR STATUS = MMR2



10. Sex = F and MMR STATUS = MMR2 ==> Age (years) = '(16.8-25.2]'

11. Age (years) = '(16.8-25.2]' ==> MMR STATUS = MMR2

Confi:(0.28)

Confi:(0.27)

Confi:(0.27)

Confi:(0.27)

Confi:(0.27)

Confi:(0.26)

Confi:(0.26)

Confi:(0.26)

Confi:(0.26)

Confi:(0.26)

Confi:(0.26)


Pour une plus forte consistance des connaissances à exploiter pour l’optimisation du modèle

Bio-PEPA, il s’agit pour cette analyse de donner la priorité aux règles communes aux trois

algorithmes. Les règles 1-3 générées par l’algorithme Apriori montrent que les descripteurs

conf:(1)

conf:(0.97)

conf:(0.97)

conf:(0.96)

conf:(0.95)

conf:(0.88)

conf:(0.84)

conf:(0.83)



148

Week, MMR status et Age sont en forte corrélation avec une confiance supérieure à 97%.

Cette même série de règles est évaluée à 99% par l’algorithme PredictiveApriori. Les

modalités définies pour ces trois attributs spécifient que les individus dont l’âge est compris

entre 16 et 25, ayant reçu deux doses de vaccin (ROR 1 et 2) ont été sujets à l’infection durant

la période du mois de février à mars et du mois d’octobre à décembre. Quand à la règle 5,

aucune précision temporelle n’est soulignée, mais le critère sexe est spécifié.

Les règles 1, 2, 3 et 5 de l’algorithme Apriori sont identiques aux règles 1, 6, 7 et 15 de

l’algorithme PredictiveApriori et aux règles 1, 2, 4 et 10 de l’algorithme Tertius. Ceci

confirme la pertinence de ces règles et celle des attributs Age, Week, MMR status et Sex.

Nous constatons également, qu’une seule modalité est rapportée pour l’attribut Age et

l’attribut MMR status, et ce quelque soit l’algorithme générateur.

Pour résumer, parmi 5 attributs quatre ont été identifiés pertinents par les règles

d’association : Week, Age, MMR status et Sex. Ainsi l’ensemble des règles sélectionnées

montre clairement la relation entre le fait d’être infecté à une période particulière et le fait

d’être vacciné et être âgé entre 16 et 25 ans.

Nous omettons les règles concernant l’attribut « Sex », car elles sont réparties entre les cas et

ainsi se complètent mutuellement, par exemple : la règle 5 et 9 de l’algorithme Apriori.

Rappelons que quelques soient les connaissances extraites du processus de fouille de données,

les experts demeurent les principaux maîtres pour valider et inclure toute donnée dans le

modèle Bio-PEPA. Ainsi, selon les déclarations des épidémiologistes, l’attribut « Sex » n’est

pas un facteur de résurgence et de persistance de la maladie car cette dernière suit un

comportement similaire chez les femmes aussi bien que chez les hommes. Aussi, notons que

l’attribut « NHSBoard » n’a été identifié par aucun algorithme.

Les règles dont l’attribut « week » est explicité, permettent de conclure que la maladie des

oreillons ne se produit qu’à des plages saisonnières particulières durant l’année, en outre au

premier et au dernier trimestre de l’année. Ceci confirme les déclarations des épidémiologistes

lors de la conception initiale du modèle Bio-PEPA où le critère de saisonnalité a été intégré.

Les règles dont l’attribut « MMR status » est spécifié, permettent de conclure que le critère de

statut de vaccination est hautement recommandé. Ceci confirme les descriptions des

épidémiologistes incluses dans le modèle initialement conçu.

De même, L’attribut « Age » est aussi considéré comme un descripteur pertinent. Toutefois,

étant en forte corrélation avec l’attribut « MMR status » (l’âge auquel un vaccin est

administré est défini par le protocole de vaccination), cet attribut peut être implicitement

considéré dans la structure vaccinale du modèle initial. Notons ici que, cette considération a

déjà été étudiée est incluse dans le modèle initial.

Pour conclure, les trois attributs sélectionnés, ont tous été préalablement considérés dans le

modèle initial. Ainsi, aucune nouvelle connaissance ne vient enrichir le modèle initial Bio-

PEPA et donc aucune information n’est à inclure pour la phase d’optimisation. Toutefois, il



149

est important de noter que les règles extraites permettent de confirmer et valider la structure

du modèle Bio-PEPA initiale.

6.3.4.5 Optimisation par segmentation

Dans le contexte d’une optimisation structurelle, les méthodes de règles d’association que

nous avons employé n’ont pas été significatives. Dans un souci d’optimisation pour aboutir à

des résultats similaires aux schémas réels, nous proposons de se focaliser sur l’optimisation

des paramètres. En revoyant l’ensemble des techniques proposées par la communauté de

fouille de données, la segmentation (clustering) semble être le meilleur candidat. En effet, de

par sa définition et les travaux en relation (cf. Chapitre 3), cette tâche se prête bien au but que

nous nous sommes fixés. Autrement dit, en première étape, nous allons créer une nouvelle

base de données. Chaque solution présentée par notre simulateur Bio-PEPA sera une instance

de la base. Notant que les résultats de simulation sont des séries de données temporelles, où à

chaque pas de temps, le nombre des infectés est donné. Ainsi, chaque pas de temps représente

un descripteur de la nouvelle base. En suite, afin de pouvoir choisir au mieux la série de

résultats qui est la plus conforme aux données observées, nous allons introduire la série des

données observées dans la base de données comme étant une instance parmi les autres. Enfin,

en appliquant les techniques de segmentation, nous pouvons observer qu’elles sont les

solutions qui se sont regroupées avec la série des données observées. Ces dernières seront

considérées comme étant des résultats les plus probables. L’algorithme suivant résume ce

processus :

Algorithme 1: Optimisation des paramètres du modèle Bio-PEPA

Definitions:

1. Select Bio-PEPA model parameters to be investigated and range of values. N = number of

parameters * number of values;

2. Define target number of clusters K [2,N-1];

3. Set the group Gi to the ith

series of parameter values used to run the ith

Bio-PEPA experiment, where

i [1,N];

4. Set the experiment Expi [t] to the simulation results relating to the group Gi, and let T be the time of

simulation end, where t [0,T];

5. Let ExpN+1 [t] be the time series of the observed data;

6. Let B[j,t] = [Expj,t] be the constructed database, where j: jth

experiment and j [1,N+1];

Algorithm

7. Initialise K =2;

8. Apply the clustering algorithms using B as an input. The output is a set {Ck|k[1,K]} of clusters.

Identify Cm as the cluster containing ExpN+1 ;

If |Cm| > 2 then increment K and repeat from step 8 until |Cm| <= 2, or no more clustering occurs.



150

Tableau 6.5 Algorithmes de segmentation (Witten et al., 2011)

Algorithme Description

EM Se base sur l’évaluation de l'espérance de la vraisemblance puis vient

l’estimation du maximum de vraisemblance des paramètres en maximisant

la vraisemblance trouvée à l'étape précédente.

FarthestFirst Se base sur le principe du plus loin voisins qui à partir des quels les

clusters sont formés

HierarchicalClusterer Se base sur l’approche agglomérative.

sIB Cluster La mesure de la distance se base sur la divergence de Kullback-Leibler.

Simple KMeans Se base sur le partitionnement des instances en K groupes puis d’assigner

chaque observation à la partition la plus proche

XMeans Une extension de Kmeans, se basant sur le critère d’information bayésien

pour la définition du K.

En appliquant ce processus, nous pourrons à la fin conclure quelle série de valeurs des

paramètres du modèle sera utilisée pour les prédictions futures. Cependant, avant d’exécuter

cet algorithme, il nous reste un point à éclaircir : quel algorithme de segmentation est le plus

optimal pour ce type d’étude ?

Tel que présenté dans le chapitre 3, les techniques de segmentation se classifient en 4

groupes: Exclusif, chevauché, probabiliste et hiérarchique. Notre but étant d’arriver à

regrouper avec la série des données observées un minimum de série des données simulées,

nous nous focalisons sur les types de segmentation où l’intersection entre groupe est un

ensemble vide. Ainsi, les types de segmentation les plus adéquats pour notre étude sont

« exclusif » et « hiérarchique ». Le 1er

type nous permet de ne se focaliser que sur le groupe

dont la série des données observées est incluse et ainsi répéter le processus de segmentation

de façon à optimiser le cluster cible. Le 2ème

type nous permet de parcourir l’arbre

hiérarchique et de détecter le niveau auquel la série des données observées est affectée et ainsi

sélectionner les séries appartenant au même groupe. Le tableau 6.5 présente les algorithmes

de segmentation offerts par Weka.

Nous construisons notre nouvelle base selon les expérimentations présentées dans le tableau

6.2. Rappelons que lors de l’analyse sensible, les paramètres : période d’incubation (),

période d’infectiosité () et le nombre basique de reproduction (R0) sont identifiés comme les

plus pertinents et sont variés selon des plages de valeurs spécifiques. Ce qui correspond à 24

valeurs pour le paramètre , 4 valeurs pour le paramètre et 8 valeurs pour le paramètre R0.

Au total nous allons dans ce processus d’optimisation à base de segmentation considérer 768

expérimentations (24*4*8). Cependant, nous notons que pour ces expérimentations, la

construction de la nouvelle base selon l’algorithme 1 est couteuse en temps. Ainsi, nous

devons au préalable, filtrer le groupe d’expérimentations. En analysant les différents



151

paramètres, il apparait que l’intervalle des valeurs pour la période d’incubation est le plus

large, ainsi nous avons opté pour une première distribution, qui sera par la suite plus affinée si

nécessaire. De ce fait, les valeurs sélectionnées pour le paramètre période d’incubation sont :

12, 15, 18, 21, 25.

Le tableau 6.6 (colonne 3) présente l’ensemble de valeurs à utiliser pour chaque paramètre.

Ceci implique 160 (5*4*8) expérimentations. Au total, 699040 (160*4321) cellule composent

la table d’entrées du processus de segmentation, où le nombre d’instances est 160 (nombre

d’expérimentations) et le nombre d’attributs est 4321 (les jours cumulés de l’année 2004 à

2015). Le tableau 6.7 résume les résultats de segmentation pour chaque algorithme défini

dans le tableau 6.5.

6.3.4.6 Evaluation et interprétation des segments

Le tableau 6.7 résume les résultats de segmentation par les différents algorithmes. Il est

montré que tous les algorithmes, à l’exception de sIB, ont pu exprimer un cluster à deux

instances uniquement dont l’une est celle correspondante aux données observées. Davantage,

les mêmes expérimentations ont été observées dans le cluster ciblé pour chaque algorithme

dont les valeurs optimales sont illustrées dans le tableau 6.6. Notons que le « cluster ciblé »

correspond au cluster contenant les données observées ainsi que d’autres éventuelles

expérimentations.

En initialisant le nombre de clusters pour le processus de segmentation à 2 (K=2),

l’algorithme Hierarchical (resp. FartherFirst) aboutit au cluster cible aux bout de 4 itérations

(resp. 6 itérations). Quand à l’algorithme K-means exige plus de temps, où 35 itérations ont

été nécessaires pour arriver au cluster cible. Contrairement à ces algorithmes, l’algorithme sIB

consomme significativement plus de temps ( ≈ 9 minutes) sachant qu’après 14 itérations le

cluster cible compte 4 instances.

Nous rappelons que tous les algorithmes se basent sur la même mesure de similarité « la

distance euclidienne» à l’exception de l’algorithme sIB qui se base sur la divergence de

Kullback-Leibler. Notons qu’à l’unanimité, l’instance qui a été regroupée avec les données

observées correspond aux paramètres : = 21, = 7 et R0 = 6.

Tableau 6.6 Valeurs expérimentales des paramètres

Paramètre Intervalle initial Intervalle sélectionné Valeur optimale

12-25 12, 15, 18, 21, 25 21

6-9 6-9 7

R0 4-11 4-11 6



152

Tableau 6.7 Résultats de segmentation

Tableau 6.8 Échantillon des résultats de segmentation par K-means

K-MEANS CLUSTERING

No Cluster N

o object in cluster Cycle

Parameter values

R0

1 2 9,10 7 21,25 9

2 5 11-13 4 12-21 6, 7, 9

5 8 8-10 6,7 12-21 7-9

6 3 9-10 7-8 25 7-9

10 7 9-10 5-7 12-25 6-7

17 2 10 6 21 7

23 3 9-11 5 12-15 8-9

26 3 10-11 6 21-25 8-9

32 1 15 4 25 6

En considérant les clusters ne contenant pas les données observées, nous avons constaté une

différence significative dans le nombre de cycles par rapport aux valeurs de R0. En effet, la

période entre deux pics épidémiques varie inversement avec le paramètre R0. Le tableau 6.8

présente quelques exemples de clusters pour l’algorithme K-means. Il est clairement montré

que pour R0 variant de 4 à 8, la période du cycle varie entre 15 et 9. Nous constatons

également, que pour une plus grande valeur du paramètre associé aux valeurs de R0, la

période du cycle accroit. Cependant, le paramètre semble n’avoir aucun effet majeur.

Nous rappelons que l’intervalle des valeurs définies pour le paramètre a été distribué selon

5 valeurs. Pour ce paramètre, nous répétons le processus de segmentation avec plus de

granularité. La figure 6.8, illustre les résultats de simulation pour [19,24]. Le processus de

segmentation confirme que la valeur 21 est la plus optimale. La colonne 4 du tableau 6.6

présente les valeurs les plus optimales définies par le processus de segmentation pour chaque

paramètre. Intuitivement, une longue période d’incubation semble plus appropriée, car au

cours du temps les individus dans le compartiment des exposés (cf. figure 6.4) sont accumulés

ce qui conduit à un large réservoir des futurs infectés.

Algorithme de

segmentation

Nombre de

clusters (K)

Nombre d’objets

(cluster cible)

Temps d’exécution

(seconds)

K-means 36 2 4.06

Hierarchical

clustering

5 2 2.03

FarthestFirst 7 2 0.22

EM clustering 15 2 45.91

X-means 15 2 11.28

sIB 10-15 4 540



153

Pour une plus profonde analyse, nous examinons les clusters (résultant des algorithmes K-

means et sIB) contenant plus de deux instances y compris les données observées. Les figures

6. 9 et 6. 10 arborent que les résultats de simulation tels que présentés ne peuvent être

discriminés à l’œil nu. Bien que la période du cycle soit similaire aux données observées (dix

ans), l’amplitude des pics épidémiques est légèrement variable.


Figure 6.8 Graphes de simulation pour [19, 24]

0

500

1000

1500

2000

2500

3000

3500

4000

1

98

19

5

29

2

38

9

48

6

58

3

68

0

77

7

87

4

97

1

10

68

11

65

12

62

13

59

14

56

15

53

16

50

17

47

18

44

19

41

20

38

21

35

22

32

23

29

24

26

25

23

26

20

27

17

28

14

29

11

30

08

31

05

32

02

32

99

33

96

34

93

35

90

36

87

37

84

38

81

39

78

40

75

41

72

42

69

Nu

mb

er o

f ca

ses

Days

R0-6_ALPHA-19_GAMMA-7 R0-6_ALPHA-20_GAMMA-7 R0-6_ALPHA-21_GAMMA-7



155

Figure 6.9 Graphes des résultats de simulations relatives aux résultats de segmentation par l’algorithme sIB

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

1

10

4

20

7

31

0

41

3

51

6

61

9

72

2

82

5

92

8

10

31

1

13

4

12

37

1

34

0

14

43

1

54

6

16

49

1

75

2

18

55

1

95

8

20

61

2

16

4

22

67

2

37

0

24

73

2

57

6

26

79

2

78

2

28

85

2

98

8

30

91

3

19

4

32

97

3

40

0

35

03

3

60

6

37

09

3

81

2

39

15

4

01

8

41

21

4

22

4

Nu

mb

er o

f ca

ses

Days



156

Figure 6.10 Graphes des résultats de simulation relatives aux résultats de segmentation par l’algorithme K-means

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

1

10

0

19

9

29

8

39

7

49

6

59

5

69

4

79

3

89

2

99

1

10

90

11

89

12

88

13

87

14

86

15

85

16

84

17

83

18

82

19

81

20

80

21

79

22

78

23

77

24

76

25

75

26

74

27

73

28

72

29

71

30

70

31

69

32

68

33

67

34

66

35

65

36

64

37

63

38

62

39

61

40

60

41

59

42

58

Nu

mb

er o

f ca

ses

Days



Figure 6.11 Prédiction de l’incidence des oreillons en Ecosse de l’année 2004 à 2015,

( graphe de simulation par Bio-PEPA relatif aux paramètres : = 21, = 7 et R0 = 6 )

0

100

200

300

400

500

600

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

Nu

mb

er o

f ca

ses

Years

Observed Data Simulated Data

Figure 6.12 Extension des Prédictions de l’incidence des oreillons en Ecosse à 2016

(Graphe de simulation par Bio-PEPA relatif aux paramètres : = 21, = 7 et R0 = 6)

La figure 6. 11 illustre les données observées et les résultats de simulation correspondant à

l’ensemble des valeurs optimales sélectionnées par les algorithmes de segmentation (R0 :6,

:7, : 21). Notre but étant de reproduire le schéma réel de l’épidémie, nous observons que

les résultats semblent satisfaisants mis à part pour les années 2009 et 2010. Les

épidémiologistes en relation avec cette étude ont affirmé que leur souci prioritaire actuel est

de comprendre et de prédire le prochain pic le plus culminant tel que celui de 2005 ou de

2015. Ainsi, il est plus important à l’heure actuelle de se focaliser sur les grands cycles

épidémiques et que les incohérences telles que celles constatées pour 2009 et 2010 peuvent

être ignorées pour ce type d’étude. La segmentation, se basant sur ses mesures statistiques, a

automatiquement souligné majoritairement la période de 10 ans pour le grand cycle

épidémique. Ceci suggère plus de confidence pour les prédictions futures de l’épidémie des

oreillons. De par cette approche nous avons pu optimiser les valeurs des paramètres clés de la

modélisation des oreillons. Nous tenons à préciser que les valeurs sélectionnées ont été

discutées avec les épidémiologistes, ces derniers ont hautement encouragé nos résultats

comme solution pour leurs futures analyses et prises de décision.

En utilisant la série des valeurs des paramètres sélectionnées, nous avons simulé notre modèle

pour l’année 2016. Les résultats tels que présentés sur la figure 6.12 confirment la validité des

prédictions par apport aux données observées de 2016.

6.4 Conclusion

Dans ce chapitre, nous avons présenté des résultats pour l’épidémie des oreillons démontrant

l’utilité de combiner les algorithmes de fouille de données à la modélisation par Bio-PEPA.

En utilisant la segmentation, nous avons démontré que l’optimisation des modèles

computationnels peut aussi présenter de grande performance dans la sélection des résultats de

simulations les plus probables ce qui simplifie amplement le choix des valeurs des paramètres

à appliquer. Bien que les règles d’association n’aient pas pu apporter d’éléments

0

100

200

300

400

500

600

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

Nu

mb

er o

f ca

ses

(c) Years

total_inf Simulated Data



159

supplémentaires dans un but d’optimisation, toutefois les règles extraites ont été utiles pour

confirmer ce qui a été annoncé par les experts et ce qui a été intégré par le modélisateur.

Ainsi, de par l’exploration des règles extraites, nous avons démontré que la fouille de données

ne se résume pas uniquement à l’objectif d’optimisation pour lequel nous l’avons adopté,

mais qui peut être aussi exploré autant qu’outil de validation.

Conclusion Générale et Perspectives

Conclusion générale

Le sujet de cette thèse traite trois disciplines différentes et complémentaires: la modélisation

et la simulation, la vérification et la validation des modèles et l’optimisation par fouille de

données.

La modélisation et la simulation épidémiologique étant l’axe primaire autours duquel se

focalise notre thèse, nous avons d’abord rappelé les notions de base de cette discipline, puis

un tour d’horizons des différentes techniques de modélisation nous a conduit à opter pour la

modélisation par les algèbres des processus (cf. Chapitre 1). Plus particulièrement à explorer

le potentiel de Bio-PEPA comme outil de modélisation, de simulation et d’analyse.

L’approche adoptée dans ce contexte était d’étudier deux exemples, la tuberculose en Algérie

et l’épidémie des oreillons en Grande Bretagne.

En phase primaire de ce travail, il nous fallait valider les performances d’une modélisation par

Bio-PEPA (cf. Chapitre 4). Nous nous sommes tout d’abord intéressés à la modélisation et la

simulation de la tuberculose et son protocole de traitement où nous avons repris un modèle

existant à base de système multi agents qui a déjà été validé et nous l’avons reproduis en

formalisme Bio-PEPA. Nous avons montré par une analyse stochastique et déterministe

établit par Bio-PEPA que le modèle répondait parfaitement au modèle initial tout en

soulignant sa simplicité, sa souplesse et la disponibilité de différentes méthodes d’analyse.

Par la suite, dans un souci de vérification et de validation d’un nouveau modèle pour lequel il

est impossible d’effectuer une étude comparative, nous avons analysé les différentes étapes du

processus de modélisation et simulation, où nous avons identifié que dans le cas d’une

incohérence des résultats par rapport au système réel, un retour illicite à la phase d’interaction

entre l’expert et le développeur s’impose (cf. Chapitre 2). Cependant, nous avons constaté que

cette phase n’est pas aussi simple qu’elle ne le semble. Car d’une part le développeur peut

omettre des informations fournies par l’expert. D’une autre part, l’expert ne peut comprendre

le langage formel du modèle pour le valider. Afin de pallier à ce problème, nous avons

proposé une approche à base de langage narratif (cf. Chapitre 4). L’objectif fixé consistait à

simplifier l’interaction entre l’expert et le développeur. Pour cela, nous avons proposé de

traduire le modèle Bio-PEPA en un langage narratif structuré qui est facilement interprétable

par l’expert et l’épidémiologiste. Afin de valider cette approche, nous avons repris le premier

modèle de la tuberculose où nous avons délibérément omis quelques informations. La

simulation du modèle par Bio-PEPA a montré que les résultats sont incohérents et qu’ils ne

correspondaient plus au modèle à base d’agents. Une fois le modèle traduit et soumis à

l’expert, ce dernier, en parcourant les différents éléments du modèle en une structure qui lui

est bien familière, il a pu détecter les anomalies et ainsi identifier les composants que nous

avions omis. La performance de cette approche s’est exprimée par la simplification de la tâche

d’interaction entre l’expert et le développeur, ainsi que la réduction du degré d’échange

d’information entre eux.

Conclusion Générale

161

Par la suite, nous avons développé un deuxième modèle Bio-PEPA de la tuberculose en

Algérie (cf. Chapitre 5). A l’inverse du premier modèle de la tuberculose, la conception de

celui-ci s’est basée sur les connaissances d’un épidémiologiste. Nous avons suivi les mêmes

étapes que précédemment, en outre la modélisation et la simulation par Bio-PEPA et la

traduction en langage narratif. Les simulations ont été réalisées pour les années d’étude de

2009 à 2012.

Les résultats ont démontré un comportement variable du modèle pour chaque année

expérimentée, où les résultats pour les années 2009 et 2011 ont confirmées la validité du

modèle conçu. Contrairement aux résultats relatifs aux années 2010 et 2012 où une

incohérence a été identifiée par rapport aux données observées par les épidémiologistes. Ce

qui nous a amené à suivre le cours de notre approche et ainsi traduire le modèle en un langage

narratif afin de détecter les anomalies. En soumettant le modèle ainsi traduit à l’expert, celui-

ci a confirmé la validité des informations définissant le modèle et n’a donc pu apporter aucune

nouvelle connaissance pour une éventuelle optimisation.

En ce qui concerne ces dernières expériences menées au cours de cette recherche, il est apparu

que ni les méthodes d’analyse offertes par Bio-PEPA, ni l’exploration du langage narratif du

modèle, ne suffiraient pour capturer avec précision tous les comportements cibles dans une

définition d'algèbre de processus pour un but d’optimisation.

Ainsi, dans une dernière partie nous nous sommes intéressés à d’autres disciplines venant

enrichir cette phase d’optimisation que nous avons fortement lié à l’étape de l’interaction

entre l’expert et le développeur (cf. chapitre 5). Dans ce contexte, nous avons proposé de

combiner les performances de la fouille de données à la modélisation par Bio-PEPA. Dans

cette approche nous avons analysé l’influence des techniques de prédiction telles que la

classification, et de description telles que la segmentation et les règles d’association sur les

connaissances dont à besoin le modélisateur pour concevoir ou raffiner son modèle

computationnel.

L’analyse et l’étude comparative faite des méthodes et approches pour la fouille de données

épidémiologiques a mis en évidence la dominance des méthodes basées sur les arbres de

décisions, la segmentation des séries de données chronologiques de simulation et les règles

d’association (cf. Chapitre 3).

Afin de valider les performances de notre dernière contribution, nous avons appliqué le

processus d’optimisation par fouille de données sur les données de la tuberculose en Algérie

(cf. Chapitre 5) et de l’épidémie des oreillons en Grande Bretagne (cf. Chapitre 6). Avec cette

approche proposée, deux angles ont été parcourus. D’abord un ensemble d’attributs pertinents

à l’étude de la tuberculose, jusque-là inconnu par l’expert médical, ont été extraits par arbres

de décision et règles d’association et validés par la modélisation et simulation par Bio-PEPA.

Ensuite, en exploitant par la segmentation d’un ensemble de résultats de simulation, pour

l’étude de l’épidémie des oreillons, les résultats les plus optimaux ont été sélectionnés et

validés. Nous avons également exploré les données de l’épidémie des oreillons par règles

d’association. Les connaissances extraites des règles générées ont montré une totale similitude

avec les informations fournies par l’épidémiologiste.


162

Il est bien clair que les techniques de fouille de données utilisées dépendent de la nature des

données observées ainsi que de l’objectif visé. En effet, le caractère nominal ainsi que

l’identification d’un attribut dépendant des autres dans les données de la tuberculose en

Algérie a permis l’application des arbres de décision et des règles d’association. Ceux-ci, à

l’unanimité ont identifié l’attribut en relation avec la location des individus infectés « Daira »

comme étant le plus pertinent. Par l’intégration de cette nouvelle connaissance au modèle

Bio-PEPA, les résultats de simulations ont pu distinguer les zones des incohérences de celles

correctement prédites. Toutefois, nous avons constaté que les règles d’association ont détecté

d’autres attributs comme descripteurs pertinents. Aucune confirmation n’a pu être identifié

par les résultats de simulation, vu le nombre réduit des instances en relation. Ainsi, même si

les règles d’association ont permis de définir un éventail plus large de descripteurs que les

arbres de décision, nous avons constaté que les arbres de décision ciblent plus étroitement le

descripteur qui est le plus pertinent pour un processus d’optimisation des modèles formels.

Pour approfondir le concept de l’intégration du processus de fouille de données dans les

étapes de modélisation et simulation et mieux guider le parcours de notre contribution, nous

avons expérimenté notre approche sur l’épidémie des oreillons. La nature de ses données ont

guidé le choix des techniques de fouille de données et ont montré qu’il est impossible

d’appliquer les arbres de décision, car aucune classe à prédire ne pouvait être identifiée.

Quand aux règles d’association, aucune connaissance nouvelle n’a pu être extraite.

Cependant, les informations proposées par l’épidémiologiste et intégrées dans le modèle

initial ont pu être confirmées et validées.

Vu la variabilité du comportement de la maladie des oreillons et le nombre important des

paramètres guidant sa prédiction, nous étions devant le fait que plusieurs solutions (résultats

de simulations), reproduisant le schéma de l’épidémie et partiellement comparables, ont été

proposées à l’expert. Il nous fallait donc, faire un choix objectif et sélectionner la solution la

plus optimale. Dans cette optique, le tour d’horizon de la littérature entreprise (cf. Chapitre 3)

nous a conduit à l’utilisation de la segmentation des données de séries chronologiques. Dans

ce contexte, afin de joindre l’étape de l’optimisation à la segmentation, la simulation par Bio-

PEPA a joué un grand rôle. En effet, cette dernière permet de produire des résultats de

simulations sous forme de séries de données chronologiques, ce qui a amplement simplifié

cette tâche. Ainsi, les résultats de segmentation ont non seulement permis de sélectionner la

solution la plus optimale, mais aussi d’identifier les valeurs des paramètres les plus adéquats à

ce type de maladie dans le pays en question.

De par cet ensemble d’expérimentations, nous avons mis en avant l’importance de cette

approche qui réside dans la découverte automatique de nouvelles connaissances pertinentes et

utiles à l’optimisation des modèles computationnels. Ces nouvelles informations sont un

complément au savoir de l’expert qui reste le seul juge de nos résultats. L’avantage majeur de

notre approche est d’une part alléger le fardeau que puisse subir l’expert lors de la résurgence

d’une épidémie : de par la compréhension de sa dynamique, son suivi et son contrôle. D’une

autre part simplifier le travail de modélisation du développeur, qui n’est plus obliger de subir

les interminables interactions avec l’expert.


163

Toutefois, il est important de souligner que lors du processus de fouille de données, il faut

impérativement tenir compte de la dynamique de l’épidémie, de la nature de ses données ainsi

que des objectifs ciblés.

Dans cette thèse nous avons présenté notre approche qui se résume en trois principales

phases : modélisation et simulation, fouille de données et optimisation. Nous avons arboré en

détails les différentes étapes constituant ces phases. La phase de modélisation et de simulation

constitue la principale phase durant laquelle le modèle épidémiologique est conçu. La phase

de fouille de données est dédiée à l’analyse des données épidémiologiques dont l’objectif est

d’extraire les connaissances les plus pertinentes. La dernière phase d’optimisation est le

tunnel reliant les deux premières phases permettant ainsi d’acheminer les connaissances

extraites vers le modèle initialement conçu. L’utilisation de la fouille de données pour

l’extraction des données pertinentes nous a permis d’enrichir les connaissances de l’expert et

d’optimiser le modèle computationnel pour une meilleure prédiction et une prise de décision

optimale. Au cours de ce thèse, nous avons aussi défini la phase d’optimisation comme étant

une passerelle reliant l’expert et le modèle conçu, en traduisant ce dernier en un langage

narratif facilement interprétable par l’expert épidémiologique.

Ainsi, nos principales contributions dans ce travail de thèse se résument comme suit :

- L’élargissement du champ d’application du formalisme Bio-PEPA pour le suivi

épidémiologique.

- Proposition d’un outil de vérification et validation par langage narratif.

- Intégration du processus d’extraction de connaissances en général et du processus de fouille de

données en particulier dans l’étape de conception des modèles computationnels Bio-PEPA.

Perspectives

Le travail accompli lors de cette recherche a permis de faire valoir l’importance des données

observées et collectées lors d’un suivi épidémiologique pour la modélisation et la simulation

des maladies infectieuses humaines, la prédiction et la prise de décision. Ce travail offre une

vue optimiste de l’intégration du concept de fouille de données dans le processus de

modélisation computationnelle. Sur cette aligné, nous proposons pour des travaux futurs

d’étendre ce champ d’application à d’autres types d’épidémies, en outre celles en relation à la

race animale. Nous proposons également de rediriger la recherche dans le sens opposé de

notre approche et ainsi d’arborer les performances de la modélisation pour la fouille de

données, en outre nous proposons de calibrer le type de données collectées en fonction des

résultats de simulation voulus.

Au-delà du concept du data ming, récemment le terme Big data a monopolisé l’enthousiaste

des chercheurs et des développeurs. Dans cette optique, nous nous projetons au futur

d’exploiter les techniques et méthodes développées pour enrichir l’aspect cognitif de l’expert

et du développeur pour un processus de modélisation et de simulation optimal. Ainsi, nos

travaux futurs se focalisent sur l’intensification de nos contributions, où il s’agit de créer une

synergie entre le big data, la modélisation et la simulation.

Annexe A

164

Tableau A.1 Descripteurs sélectionnés pour la base de données de la tuberculose

Algorithmes

d’évaluation Groupe Algorithmes de recherche

Attributs

AG

E

SEXE

MO

IS

AN

NEE

CO

M

DA

IRA

LOC

ATIO

N

TYP

MA

L

BA

CIL1

BA

CIL2

BA

CIL3

CFS Subset Evaluator

1 BESTFIRST EXHAUSTIVE SEARCH

GENETIC SEARCH GREEDY STEPWISE LINEAR FORWARD

SELECTION RANKER SEARCH SCATTER SEARCH

SUBSET SIZE FORWARD SELECTION

X x

x x X

2 RANDOM SEARCH X X X X X

CHISQUARE EVAL 3 RANKER

X X X X x X x x X

Classifier Su

bset

Evaluato

r

Wrap

per

Sub

sete

valu

tor

4 RANDOM SEARCH

X x x X x X

CONSISTENCY SUBSET EVAL

5 BEST FIRST EXHAUSTIVE SEARCH GREEDY STEPWISE LINEAR FORWARD SELECTION RANDOM SEARCH SUBSET SIZE FORW

X X x x x x x X

Annexe A

165

Genetic search

6 RANKER SEARCH

X X x x x x x X

7 SCATTER SEARCH

X X x x X x X

FILTERE SUBSET EVAL

8 RANDOM SEARCH X x x X

Annexe A

166

Tableau A.2 Echantillon de la base de données de la tuberculose après prétraitement et sélection

AGE SEXE MOIS ANNEE COM DAIRA LOCATION TYPMAL BACIL1 BACIL2 BACIL3 ARETTRT

A4 M 1 2008 SAYADA KHEIR EDDINE TP BK+ N MP MP NF TRANSF

A3 M 1 2008 AIN

TEDLES

AIN TEDLES TP BK- N NF MM NF G

A2 M 1 2008 SAYADA KHEIR EDDINE TP BK+ N NF NF MM G

A4 M 1 2008 SAYADA KHEIR EDDINE TP BK+ N NF NF NF ECHEK

A2 M 1 2008 KHEIR

EDDINE

KHEIR EDDINE TP BK+ N NF MM NF TRT TERMIN

A2 M 1 2008 OUED EL

KHEIR

AIN TEDLES TP BK- N NF NF NF PV

A5 M 1 2008 OUED EL

KHEIR

AIN TEDLES TP BK+ N MM NF MM G

A5 M 2 2008 AIN

TEDLES

AIN TEDLES TP BK+ N MM MM MM TRT TERMIN

A3 M 2 2008 AIN

BOUDINA

R

KHEIR EDDINE TP BK+ N NF MM NF TRT TERMIN

A8 F 2 2008 SOUR AIN TEDLES TP BK- N NF NF NF PV

A2 F 3 2008 OUED EL

KHEIR

AIN TEDLES TP BK+ N MM NF MM G

Annexe A

167

Tableau A.3 Résultats des expérimentations par arbres de décision

ALGORITHMES D’ARBRES DE DECISION

BFTREE J48 J48

Graft

Ladtree NB Tree RANDOM

TREE

REPTREE SIMPLE

CART

CFS Subset Evaluator :

BEST FIRST/EXHAUSTIVE

SEARCH/ GENETIC

SERACH/GREEDY

STEPWISE/LINEAR FORWARD

SELECTION/ SCATTER

SEARCH /SUBSET SIZE

FORWARD SELECTION

/RANKER SEARCH, AGE,

COM, BACIL1, BACIL2,

BACIL3

Attributs

résultants

BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3 BACIL3


BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1

AGE AGE AGE COM AGE COM COM

COM COM COM AGE COM AGE

Accuracy 67.88(10.10) 67.51(9.40) 67.51(9.40) 70.30(11.46) 68.97(11.02) 64.52(12.61) 66.66(11.06) 69.73(8.45)

CFS Subset Evaluator/ RANDOM SEARCH:

age, daira, bacil1, bacil2, bacil3

Attributs

résultants



BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1 BACIL1

AGE DAIRA AGE AGE DAIRA AGE DAIRA

DAIRA DAIRA DAIRA AGE DAIRA

Accuracy 69.56(10.06) 72.87(8.71) 72.87(8.71) 69.51(11.27) 69.08(9.86) 63.84(11.00) 67.93(10.06) 70.76(8.88)

Annexe A

168

CHISQUARE EVAL/RANKER:

AGE, SEXE, COM, DAIRA,

LOCATION, TYPMAL, BACIL1,

BACIL2, BACIL3 Attributs

résultants

BACIL3

BACIL2

BACIL1

BACIL3

BACIL2

BACIL1

COM

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

BACIL3

BACIL2

BACIL1

AGE

COM

DAIRA

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

DAIRA

LOCATION

TYPMAL

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

DAIRA

LOCATION

TYPMAL

BACIL3

BACIL2

BACIL3

BACIL2

Accuracy 68.37(9.90) 71.45(8.33) 71.49(8.30) 69.69(11.86) 68.74(10.11) 61.76(13.54) 66.46(11.34) 69.31(8.76)

Classifier subset eval/RANDOM

SEARCH , WRAPPER SUBSET

EVAL:

RONDOM SEARCH SEXE,

MOIS, TRIM, DAIRA, BACIL2,

BACIL3

Attributs

résultants



SEXE DAIRA SEXE MOIS MOIS SEXE SEXE

MOIS DAIRA DAIRA DAIRA MOIS

DAIRA MOIS DAIRA DAIRA

MOIS SEXE MOIS

Accuracy 67.73(10.07) 66.42(10.57) 66.42(10.57) 66.46(11.34) 66.44(10.25) 62.31(11.96) 68.71(10.21) 67.86(9.49)

CONSISTENCY SUBSET

EVAL:BEST FIRST/

EXHAUSTIVE

SEARCH/GENETIC SEARCH/

GREEDY STEPWISE /linear

forward selection/RANDOM

SEARCH/SUBSET SIZE FORW:

AGE, SEXE, COM, DATE

DEBUT TRT, LOCATION,

TYPMAL, BACIL1, BACIL2,

BACIL3

Attributs

résultants

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

BACIL3

BACIL2

BACIL1

SEXE

COM

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

BACIL3

BACIL1

BACIL2

COM

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

LOCATION

TYPMAL

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

LOCATION

TYPMAL

BACIL3

BACIL2

BACIL3

BACIL2

BACIL1

Accuracy 67.97(10.57) 69.03(9.32) 69.03(9.32) 71.52(11.83) 66.57(10.76) 61.49(13.20) 66.25(11.53) 68.69(9.81)

Annexe A

169


/RANKER Search AGE, SEXE,

COM, DAIRA, DATE DEBUT

TRT, LOCATION, TYPMAL,

BACIL1, BACIL2, BACIL3

Attributs

résultants

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

BACIL3

BACIL2

BACIL1

SEXE

COM

DAIRA

BACIL3

BACIL2

BACIL1

AGE

COM

SEXE

BACIL3 BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

DAIRA

LOCATION

TYPMAL

BACIL3

BACIL2

BACIL1

AGE

SEXE

COM

DAIRA

LOCATION

TYPMAL

BACIL3 BACIL3

BACIL2 BACIL2 BACIL2

BACIL1 BACIL1

DAIRA

TYPMAL

Accuracy 68.01(10.40) 70.31(9.95) 70.31(9.95) 70.40(11.34) 68.22(11.26) 59.60(13.39) 66.25(11.53) 68.74(9.76)


/SCATTER SEARCH: AGE,

COM, DATE DEBUT,

LOCATION, TYPMAL, BACIL1,

BACIL2, BACIL3

Attributs

résultants

BACIL3

BACIL2

BACIL1

AGE

COM

BACIL3

BACIL2

BACIL1

COM

BACIL3

BACIL2

BACIL1

AGE

COM

BACIL3

BACIL2

BACIL1

COM

BACIL3

BACIL2

BACIL1

AGE

COM

LOCATION

TYPMAL

BACIL3

BACIL2

BACIL1

AGE

COM

LOCATION

TYPMAL

BACIL3

BACIL2

BACIL3

BACIL2

BACIL1

Accuracy 68.52(10.35) 70.33(8.51) 70.33(8.51) 71.48(11.91) 69.03(11.20) 60.57(13.38) 66.45(11.23) 68.89(9.50)

FILTERED SUBSET EVAL /

RANDOM SEARCH: DAIRA,


Attributs

résultants

BACIL3

BACIL2

BACIL1

DAIRA

BACIL3

BACIL2

BACIL1

DAIRA

BACIL3

BACIL2

BACIL1

DAIRA

BACIL3

BACIL2

BACIL1

DAIRA

BACIL1,

BACIL2,

BACIL3

DAIRA

BACIL3

BACIL2

BACIL1

DAIRA

BACIL3

BACIL2

BACIL1

DAIRA

BACIL3

BACIL2

BACIL1

DAIRA

Accuracy 69.84(9.37) 73.33(8.73) 73.33(8.73) 72.76(9.40) 71.55(9.33) 70.77(9.88) 71.40(8.84) 71.30(8.54)

Annexe A

170

Tableau A.4 Descripteurs sélectionnés pour la base de données de la tuberculose

Att

rib

uts

ALGOTITHMES DE SELECTION DES ATTRIBUTS

CFS Subset Evaluator

CHISQUARE EVAL

CLASSIFIER Subset Evaluator

CONSISTENCY SUBSET EVAL FILTERE SUBSET EVAL

WRAPPER SUBSETEVAL

BESTFIRST EXHAUSTIVE SEARCH GENETIC SEARCH GREEDY STEPWISE LINEAR FORWARD SELECTION RANDOM SEARCH RANKER SEARCH SCATTER SEARCH SUBSET SIZE FORWARD SELECTION

RANKER GENETIC SERACH

RANDOM SEARCH

Ran

ker search

BEST FIRST

EXHAUSTIVE SEARCH GREEDY STEPWISE LINEAR FORWARD SELECTION RANDOM SEARCH SCATTER SEARCH SUBSET SIZE FORW

Genetic search /RANKER SEARCH

RA

ND

OM

SEAR

CH

AGE X X X X x

SEXE X x X x

MOIS x

ANNEE x

COM X X x

Annexe A

171

DAIRA x X x x X

LOCATION X X x

TYPMAL X X x

BACIL1 x X X x X

BACIL2 x X x X x X

BACIL3 x X x x X X X

Annexe A

172

Tableau A.5 Résultats des expérimentations par arbres de décision

BFTREE J48 J48 Graft

Ladtree NB Tree RANDOM TREE

REPTREE SIMPLE CART

CFS Subset Evaluator : BEST FIRST/EXHAUSTIVE SEARCH/ GENETIC SERACH/GREEDY STEPWISE/LINEAR FORWARD SELECTION/ SCATTER SEARCH /SUBSET SIZE FORWARD SELECTION /RANKER SEARCH, AGE, DAIRA, BACIL1, BACIL2, BACIL3

Attributs résultants



BACIL3 BACIL2 BACIL1 AGE

BACIL3 BACIL2 BACIL1 DAIRA AGE





Instances correctement

classifiées 74.57(4.75) 76.41(4.83) 76.15(4.64) 74.41(5.29) 74.95(4.65) 69.34(7.08) 75.96(5.10) 75.43(4.81)

CHISQUARE EVAL: age, sexe, com, daira, location, typmal, bacil1, bacil2, bacil3

Attributs resultants


BACIL3 BACIL2 BACIL1 COM

BACIL3 BACIL2 BACIL1 AGE SEXE COM

BACIL3 BACIL2 BACIL1 DAIRA AGE LOCATION

BACIL3 BACIL2 BACIL1 DAIRA AGE SXE COM LOCATION TYPMAL

BACIL3 BACIL2 BACIL1 DAIRA AGE SXE COM LOCATION TYPMAL



Annexe A

173


73.80(5.12) 76.41(4.83) 75.95(4.66) 74.26(6.72) 73.35(6.34) 65.55(8.67) 75.58(5.58) 74.31(4.44)

CLASSIFIER Subset Evaluator , WRAPPER SUBSET EVAL:GENETIC SEARCHAGE.


AGE // // AGE AGE AGE // AGE


classifiées 58.65(4.09) 58.04(2.74) 58.04(2.74) 58.67(3.92) 58.97(3.94) 59.25(4.18) 58.47(3.71) 58.17(3.77)

Classifier subset eval/RANDOM SEARCH , WRAPPER SUBSET EVAL:RONDOM SEARCH SEXE, MOIS, TRIM, DAIRA, BACIL2, BACIL3


BACIL3 BACIL2

BACIL3 BACIL2 SEXE DAIRA MOIS


BACIL3 BACIL2 MOIS DAIRA

BACIL3 BACIL2 SEXE MOIS DAIRA


BACIL3 BACIL2 MOIS DIARA

BACIL3 BACIL2


classifiées 68.54(6.60) 68.83(7.01) 68.58(6.90) 67.96(7.08) 69.75(6.84) 65.04(7.21) 69.37(7.22) 68.42(6.55)

Annexe A

174

CONSISTENCY SUBSET EVAL:BEST FIRST/ EXHAUSTIVE SEARCH/GENETIC SEARCH/ GREEDY STEPWISE /linear forward selection/RANDOM A97SEARCH/SUBSET SIZE FORW/SCATTER SEARCH, AGE, SEXE, COM, DATE DEBUT TRT, LOCATION, TYPMAL, BACIL1, BACIL2, BACIL3





BACIL3 BACIL1 BACIL2 AGE COM

BACIL3 BACIL2 BACIL1 AGE COM SEXE LOCATION TYPMAL

BACIL3 BACIL2 BACIL1 COM SEXE LOCATION TYPMAL AGE

BACIL3 BACIL2 BACIL1 COM AGE


Instances correctement classifiées

74.06(4.76) 76.31(4.97) 75.85(4.78) 71.98(6.23) 73.14(5.69) 64.31(8.95) 75.37(5.61) 74.67(4.10)

CONSISTENCY SUBSET EVAL /RANKER Search AGE, SEXE, COM, DAIRA, DATE DEBUT TRT, LOCATION, TYPMAL, BACIL1, BACIL2, BACIL3




BACIL3 BACIL2 BACIL1 COM SEXE AGE

BACIL3 BACIL2 BACIL1 AGE DAIRA LOCATION

BACIL3 BACIL2 BACIL1 AGE SEXE COM DAIRA LOCATION TYPMAL

BACIL3 BACIL2 BACIL1 AGE SEXE COM DAIRA LOCATION TYPMAL

BACIL3 BACIL2 BACIL1 AGE COM



74.04(4.80) 76.13(5.11) 75.67(4.92) 73.14(6.72) 73.58(6.63) 64.77(8.65) 75.39(5.62) 74.69(4.11)

Annexe A

175

FILTERED SUBSET EVAL /Random search DAIRA,



BACIL3 BACIL2 BACIL1 DAIRA




BACIL1, BACIL2, BACIL3 DAIRA





75.96(4.87) 76.41(4.83) 76.15(4.64) 75.55(5.15) 75.11(4.74) 75.96(4.55) 76.29(4.81) 75.94(4.96)

Références

176

Adams, R., Clark, A., Yamaguchi, A., Hanlon, N., Tsorman, N., Ali, S., ... & Troein, C. (2013). SBSI: an

extensible distributed software infrastructure for parameter estimation in systems

biology. Bioinformatics, 29(5), 664-665. http://www.sbsi.ed.ac.uk/.

Ajelli, M., Gonçalves, B., Balcan, D., Colizza, V., Hu, H., Ramasco, J. J., ... & Vespignani, A. (2010).

Comparing large-scale computational approaches to epidemic modeling: agent-based versus structured

metapopulation models. BMC infectious diseases, 10(1), 190.

Almeida, V. G., Borba, J., Pereira, H. C., Pereira, T., Correia, C., Pêgo, M., & Cardoso, J. (2014).

Cardiovascular risk analysis by means of pulse morphology and clustering methodologies. Computer

methods and programs in biomedicine, 117(2), 257-266.

Amouroux, E., Desvaux, S., & Drogoul, A. (2008, December). Towards virtual epidemiology: an agent-based

approach to the modeling of H5N1 propagation and persistence in North-Vietnam. In Pacific Rim

International Conference on Multi-Agents (pp. 26-33). Springer Berlin Heidelberg.

Anderson, RM., May, RM., (1991) ‘Infectious diseases of humans: dynamics and control’, Oxford University

Press, Oxford.

Anderson, R. M., May, R. M., Ng, T. W., & Rowley, J. T. (1992). Age-dependent choice of sexual partners and

the transmission dynamics of HIV in Sub-Saharan Africa. Philosophical Transactions of the Royal Society

of London B: Biological Sciences, 336(1277), 135-155.

Anderson, R. M., Crombie, J. A., & Grenfell, B. T. (1987). The epidemiology of mumps in the UK: a

preliminary study of virus transmission, herd immunity and the potential impact of

immunization. Epidemiology and infection, 99(01), 65-84.

Andrews, J. R., & Basu, S. (2011). Transmission dynamics and control of cholera in Haiti: an epidemic

model. The Lancet, 377(9773), 1248-1255.

Aparicio, J. P., & Castillo-Chavez, C. (2009). Mathematical modelling of tuberculosis epidemics. Math Biosci

Eng, 6(2), 209-237.

Asha, T., Murthy, K. N. B., & Natarajan, S. (2012). Data mining techniques in the diagnosis of tuberculosis.

INTECH Open Access Publisher.

Atmani, B., & Beldjilali, B. (2007). Knowledge discovery in database: Induction graph and cellular

automaton. Computing and Informatics, 26(2), 171-197.

Azar, A. T., Elshazly, H. I., Hassanien, A. E., Elkorany, A. M., (2013) ‘A random forest classifier for lymph

diseases’, Computer Methods and Programs in Biomedicine, 113(2), 465–473.

doi:10.1016/j.cmpb.2013.11.004.

Balci, O. (1998, December). Verification, validation, and accreditation. In Proceedings of the 30th conference on

Winter simulation (pp. 41-4). IEEE Computer Society Press.

Bouyer, J. (2009). Epidémiologie: principes et méthodes quantitatives. Lavoisier.

Benkirane, S., Norman, R., Scott, E., & Shankland, C. (2012, August). Measles epidemics and PEPA: an

exploration of historic disease dynamics using process algebra. In International Symposium on Formal

Methods (pp. 101-115). Springer Berlin Heidelberg.

Benkirane, S., Hillston, J., McCaig, C., Norman, R., & Shankland, C. (2009). Improved continuous

approximation of PEPA models through epidemiological examples. Electronic Notes in Theoretical

Computer Science, 229(1), 59-74.

Références

177

Beurton-aimar.M (2007). Langage de modélisation des réseaux biochimiques, 1–16, ECRIN-Biologie syst,

Chap. 07, Page 7

Bjørnstad, O. N., Finkenstädt, B. F., & Grenfell, B. T. (2002). Dynamics of measles epidemics: estimating

scaling of transmission rates using a time series SIR model. Ecological Monographs, 72(2), 169-184.

Blower, S. M., & Dowlatabadi, H. (1994). Sensitivity and uncertainty analysis of complex models of disease

transmission: an HIV model, as an example. International Statistical Review/Revue Internationale de

Statistique, 229-243.

Blower, S. M., Mclean, A. R., Porco, T. C., Small, P. M., Hopewell, P. C., Sanchez, M. A., & Moss, A. R.

(1995). The intrinsic transmission dynamics of tuberculosis epidemics. Nature medicine, 1(8), 815-821.

Blower, S. M., Small, P. M., & Hopewell, P. C. (1996). Control strategies for tuberculosis epidemics: new

models for old problems. Science, 273(5274), 497.

Blum, C. (2005). Ant colony optimization: Introduction and recent trends. Physics of Life reviews, 2(4), 353-373.

Bolker, B., & Grenfell, B. (1995). Space, persistence and dynamics of measles epidemics. Philosophical

Transactions of the Royal Society of London B: Biological Sciences, 348(1325), 309-320.

Bonissone, P., Cadenas, J. M., Garrido, M. C., & Díaz-Valladares, R. A. (2010). A fuzzy random

forest. International Journal of Approximate Reasoning, 51(7), 729-747.

Bonmarin, I., Santa-Olalla, P., & Lévy-Bruhl, D. (2008). Modélisation de l’impact de la vaccination sur

l’épidémiologie de la varicelle et du zona. Revue d'epidemiologie et de sante publique, 56(5), 323-331.

Brahami, M., Atmani, B., & Matta, N. (2013). Dynamic knowledge mapping guided by data mining: application

on healthcare. Journal of Information Processing Systems, 9(1), 1-30.

Brahami, M. M. (2014). Conception et Expérimentation d’une nouvelle méthode booléenne de cartographie des

connaissances guidée par data mining (Doctoral dissertation, Université de Technologie de Troyes).

Brailsford, S. C., Gutjahr, W. J., Rauner, M. S., & Zeppelzauer, W. (2007). Combined discrete-event simulation

and ant colony optimisation approach for selecting optimal screening policies for diabetic

retinopathy. Computational Management Science, 4(1), 59-83.

Cabena, P., Hadjinian, P., Stadler, R., Verhees, J., & Zanasi, A. (1998). Discovering data mining: From concept

to implementation. Upper Saddle River, NJ: Prentice-Hall.

Cameron, L.R, and A. Smith-Palmer, (2015). Measles, mumps, rubella and whooping cough illness, routine

childhood vaccine uptake. Immunisation Team, HPS weekly report, 49: 251-259.

Cameron, L.R., (Jan, 2016).Health Protection Scotland, immunization team. Personal communication..

Carr, M., Ravi, V., Reddy, G. S., & Veranna, D. (2013). Machine Learning Techniques Applied to Profile

Mobile Banking Users in India. International Journal of Information Systems in the Service Sector

(IJISSS), 5(1), 82-92.

Castiglione, F., Pappalardo, F., Bernaschi, M. & Motta, S. (2007). Optimization of HAART with genetic

algorithms and agent-based models of HIV infection. Bioinformatics 23(24), 3350–

3355. [doi:10.1093/bioinformatics/btm408]

Chandola, V., Banerjee, A., & Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys

(CSUR), 41(3), 15.

http://dx.doi.org/10.1093/bioinformatics/btm408

Références

178

Chen, S. C., Chang, C. F., Jou, L. J., & Liao, C. M. (2007). Modelling vaccination programmes against measles

in Taiwan. Epidemiology and infection, 135(05), 775-786.

Childhood Immunisation Statistics, Infromation Service Division. http://www.isdscotland.org/Health-

Topics/Child-Health/Immunisation/

Ciocchetta, F. and Hillston, J., (2009a) ‘Bio-PEPA for epidemiological models’, ENTCS, 261, 43-69.

Ciocchetta, F., & Hillston, J. (2009b). Bio-PEPA: A framework for the modelling and analysis of biological

systems. Theoretical Computer Science,410(33), 3065-3084.

Ciocchetta, F., Degasperi, A., Hillston, J., & Calder, M. (2009). Some investigations concerning the CTMC and

the ODE model derived from Bio-PEPA. Electronic Notes in Theoretical Computer Science, 229(1), 145-

163.

Cook, A. D., & Skinner, M. J. (2005). How to perform credible verification, validation, and accreditation for

modeling and simulation. The Journal of Defense Software Engineering, May.

Dash, M., & Liu, H. (1997). Feature selection for classification. Intelligent data analysis, 1(1-4), 131-156.

Dash, M., & Liu, H. (2003). Consistency-based search in feature selection. Artificial intelligence, 151(1-2), 155-

176.

Dechter, R., & Pearl, J. (1985). Generalized best-first search strategies and the optimality of A. Journal of the

ACM (JACM), 32(3), 505-536.

Delen, D., Walker, G., Kadam, A., (2005) ‘Predicting breast cancer survivability: a comparison of three data

mining methods’, Artificial intelligence in medicine, Elsevier, 34(2), 113–27.

De Espíndola, A. L., Bauch, C. T., Cabella, B. C. T., & Martinez, A. S. (2011). An agent-based computational

model of the spread of tuberculosis. Journal of Statistical Mechanics: Theory and Experiment, 2011(05),

P05003.

DeStefano, F., Price, C. S., & Weintraub, E. S. (2013). Increasing exposure to antibody-stimulating proteins and

polysaccharides in vaccines is not associated with risk of autism. The Journal of pediatrics, 163(2), 561-

567.

Donaghy, M., Cameron, J. C., & Friederichs, V. (2006). Increasing incidence of mumps in Scotland: options for

reducing transmission. Journal of clinical virology, 35(2), 121-129.

Dorigo, M., Maniezzo, V., & Colorni, A. (1996). Ant system: optimization by a colony of cooperating

agents. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 26(1), 29-41.

Džeroski, S., & Todorovski, L. (2008). Equation discovery for systems biology: finding the structure and

dynamics of biological networks from time course data. Current opinion in biotechnology, 19(4), 360-368.

Edmunds, W. J., Gay, N. J., Kretzschmar, M., Pebody, R. G., & Wachmann, H. (2000). The pre-vaccination

epidemiology of measles, mumps and rubella in Europe: implications for modelling studies. Epidemiology

and infection, 125(03), 635-650.

England PH, (2013). Mumps: the green book, chapter 23. Mumps immunisation information for public health

professionals. In: Immunisation against infectious disease Mumps: guidance, data and analysis.

Euro Surveill. Increase in mumps cases in England and Wales, 2004. 2004;8(48):pii=2591. Available online:

http://www.eurosurveillance.org/ViewArticle.aspx?ArticleId=2591

http://www.isdscotland.org/Health-Topics/Child-Health/Immunisation/

http://www.isdscotland.org/Health-Topics/Child-Health/Immunisation/

http://www.eurosurveillance.org/ViewArticle.aspx?ArticleId=2591

Références

179

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996a). The KDD process for extracting useful knowledge from

volumes of data. Communications of the ACM, 39(11), 27-34.

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996b). From data mining to knowledge discovery in

databases. AI magazine, 17(3), 37.

Ferguson, N.M., Donnelly, C.A., Anderson, R.M., (2001). The foot-and-mouth epidemic in Great Britain:

pattern of spread and impact of interventions. Science 292, 1155–1160.

Finkenstädt, B., Keeling, M., & Grenfell, B. (1998). Patterns of density dependence in measles

dynamics. Proceedings of the Royal Society of London B: Biological Sciences, 265(1398), 753-762.

FitzHenry, F., Resnic, F. S., Robbins, S. L., Denton, J., Nookala, L., Meeker, D., ... & Matheny, M. E. (2015).

Creating a common data model for comparative effectiveness with the observational medical outcomes

partnership. Applied clinical informatics, 6(3), 536-547.

Flach, P. A., & Lachiche, N. (2001). Confirmation-guided discovery of first-order rules with Tertius. Machine

learning, 42(1-2), 61-95.

Friedman, J. H. (1998). Data mining and statistics: What's the connection?. Computing Science and

Statistics, 29(1), 3-9.

Friis, R. H. (2010). Epidemiology 101. Jones & Bartlett Learning.

Fukunaga, K. (2013). Introduction to statistical pattern recognition. Academic press.

Galazka, A. M., Robertson, S. E., & Kraigher, A. (1999). Mumps and mumps vaccine: a global review. Bulletin

of the World Health Organization, 77(1), 3.

Galbraith, N. S., Pusey, J., Young, S. J., Crombie, D. L., & Sparks, J. P. (1984). Mumps surveillance in England

and Wales 1962-81. The Lancet, 323(8368), 91-94.

Galpin, V., & Hillston, J. (2009, August). Equivalence and discretisation in Bio-PEPA. In International

Conference on Computational Methods in Systems Biology (pp. 189-204). Springer Berlin Heidelberg.

Galpin, V., & Hillston, J. (2011). A semantic equivalence for Bio-PEPA based on discretisation of continuous

values. Theoretical Computer Science, 412(21), 2142-2161.

Galpin, V., Hillston, J., & Ciocchetta, F. (2011). A semi-quantitative equivalence for abstracting from fast

reactions. arXiv preprint arXiv:1109.1365.

García, S., Luengo, J., & Herrera, F. (2015). Data preprocessing in data mining. New York: Springer.

Garrido, J. (2011). Introduction to elementary computational modeling: essential concepts, principles, and

problem solving. CRC Press.

Gay, N. J. (1998). Modeling measles, mumps, and rubella: implications for the design of vaccination

programs. Infection Control & Hospital Epidemiology, 19(08), 570-573.

Gibert, K., Izquierdo, J., Holmes, G., Athanasiadis, I., Comas, J., & Sànchez-Marrè, M. (2008). On the role of

pre and post-processing in environmental data mining.

Gillespie, D. T. (2001). Approximate accelerated stochastic simulation of chemically reacting systems. The

Journal of Chemical Physics, 115(4), 1716-1733.

Gorunescu, F. (2011). Data Mining: Concepts, models and techniques (Vol. 12). Springer Science & Business

Media.

Références

180

González-Parra, G., Villanueva, R. J., Ruiz-Baragaño, J., & Moraño, J. A. (2015). Modelling influenza A

(H1N1) 2009 epidemics using a random network in a distributed computing environment. Acta tropica, 143,

29-35.

Grassly, N. C., & Fraser, C. (2006). Seasonal infectious disease epidemiology. Proceedings of the Royal Society

of London B: Biological Sciences, 273(1600), 2541-2550.

Greenhalgh, D., & Sfikas, N. (2003). Vaccination programs against mumps in the United Kingdom. Journal of

Medical Informatics & Technologies, 5.

Grenfell, B. T., Bjørnstad, O. N., & Kappey, J. (2001). Travelling waves and spatial hierarchies in measles

epidemics. Nature, 414(6865), 716-723.

Guerriero, M. L., J. K. Heath and C. Priami, (2007). An Automated Translation from a Narrative Language for

Biological Modelling into Process Algebra, in: Proceedings of Computational Methods in Systems Biology

(CMSB’07), LNCS 4695, pp. 136–151. URL http://www.springerlink.com/content/vt23126.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA data mining

software: an update. ACM SIGKDD explorations newsletter, 11(1), 10-18.

Hamami, D., Atmani, B., & Shankland, C. (2017). Decision Support Based on Bio-PEPA Modeling and

Decision Tree Induction: A New Approach, Applied to a Tuberculosis Case Study

(Forthcoming). International Journal of Information Systems in the Service Sector, 9(2).

Hamami, D., Cameron, R., Pollock, K.G., Shankland, C., (In review process). Understanding the epidemiology

of mumps immunization in Scotland: A computational modelling study. Journal Frontiers in Physiology,

section Computational Physiology and Medicine.

Hamami, D., Atmani, B., Cameron, R., Pollock, K.G., Shankland, C., (In review process). Improving process

algebra model structure and parameters in infectious disease epidemiology through data mining. En cours de

révision, Journal of Intelligent Information Systems (JIIS).

Hamami, D., & Atmani, B. (2016, October). Obtaining Optimal Bio-PEPA Model Using Association Rules:

Approach Applied to Tuberculosis Case Study. In International Conference on Information Systems for

Crisis Response and Management in Mediterranean Countries (pp. 62-75). Springer International

Publishing. http://dei.inf.uc3m.es/iscrammed2016/

Hamami. D, Atmani. B. (2013). Optimisation des outils d'aide à la décision par SBML, ASD’2013 conférence

maghrébine sur les avancées des systèmes décisionnels, Merrakech, Maroc. ISBN 978-9-98-113000-1


Hamami, D., Atmani, B., (2012). Modeling the Effect of Vaccination on Varicella using Bio-PEPA. The 23rd

IASTED International Conference on Modelling and Simulation (MS 2012). July 3 - 5, 2012, Banff,

Canada. ISBN 978-0-88986-938-7.

Hamami, D., Atmani, B., (2014, April). From Simulated Model By Bio-PEPA to Narrative Language Through

SBML», International Journal of Control Theory and Computer Modeling: IJCTCM, Vol.4, No.1/2, pp 27-

43. http://airccse.org/journal/ijctcm/current2014.html

Hamami, D., & Atmani, B. (2013). Tuberculosis Modelling Using Bio-PEPA Approach. World Academy of

Science, Engineering and Technology, International Journal of Medical, Health, Biomedical,

Bioengineering and Pharmaceutical Engineering, 7(4), 183-190.


Han, J., Kamber, M., (2006). Data Mining: Concepts and Techniques. 2nd edn. Morgan Kaufmann Publishers,

San Francisco.

Hand, D. J. (1998). Data mining: Statistics and more?. The American Statistician, 52(2), 112-118.

http://www.springerlink.com/content/vt23126


http://airccse.org/journal/ijctcm/current2014.html


Références

181

Hethcote, H. W. (2000). The mathematics of infectious diseases. SIAM review, 42(4), 599-653.

Hillston J., (2003). Model validation and verification. Edinburgh: University of Edinburgh.

Hillston, J. (2005). A compositional approach to performance modelling (Vol. 12). Cambridge University Press.

Hirano, S., & Tsumoto, S. (2005). Empirical comparison of clustering methods for long time-series databases.

In Active Mining (pp. 268-286). Springer Berlin Heidelberg.

HPS, 2015: Department of Health Protection Scotland, National surveillance center.

Hucka.M, Finney.A, S. Hoops, S. Keating and N. L. Novere (2007). Systems Biology Markup Language

(SBML) Level 2: Structures and Facilities for Model Definitions. Systems Biology Markup Language,

Release 2.

Huynh, G. H., Klein, D. J., Chin, D. P., Wagner, B. G., Eckhoff, P. A., Liu, R., & Wang, L. (2015). Tuberculosis

control strategies to reach the 2035 global targets in China: the role of changing demographics and

reactivation disease. BMC medicine, 13(1), 88.

Inbarani, H. H., Azar, A. T., & Jothi, G. (2014). Supervised hybrid feature selection based on PSO and rough

sets for medical diagnosis. Computer methods and programs in biomedicine, 113(1), 175-185.

INSP, 2006. l’Institut national de santé publique.

Jordán, F., Scotti, M., & Priami, C. (2011). Process algebra-based computational tools in ecological

modelling. Ecological Complexity, 8(4), 357-363.

Joshi, A., & Kaur, R. (2013). A review: Comparative study of various clustering techniques in data

mining. International Journal of Advanced Research in Computer Science and Software Engineering, 3(3).

Kalpakis, K., Gada, D., & Puttagunta, V. (2001). Distance measures for effective clustering of ARIMA time-

series. In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on (pp. 273-280).

IEEE.

Karegowda, A. G., Manjunath, A. S., & Jayaram, M. A. (2010). Comparative study of attribute selection using

gain ratio and correlation based feature selection. International Journal of Information Technology and

Knowledge Management, 2(2), 271-277.

Karpenko, O., Shi, J., & Dai, Y. (2005). Prediction of MHC class II binders using the ant colony search

strategy. Artificial Intelligence in Medicine, 35(1), 147-156.

Keeling, M. J., & Gilligan, C. A. (2000). Metapopulation dynamics of bubonic plague. Nature, 407(6806), 903-

906.

Keeling, M. J., & Ross, J. V. (2015). Optimal prophylactic vaccination in segregated populations: When can we

improve on the equalising strategy?. Epidemics, 11, 7-13.

Keeling, M. (2005). The implications of network structure for epidemic dynamics. Theoretical population

biology, 67(1), 1-8.

Keeling, M. J., & Rohani, P. (2008). Modeling infectious diseases in humans and animals. Princeton University

Press.

Kermack, W. O., & McKendrick, A. G. (1927, August). A contribution to the mathematical theory of epidemics.

In Proceedings of the Royal Society of London A: mathematical, physical and engineering sciences (Vol.

115, No. 772, pp. 700-721). The Royal Society.

Références

182

Khoshgoftaar, T. M., & Rebours, P. (2007). Improving software quality prediction by noise filtering

techniques. Journal of Computer Science and Technology, 22(3), 387-396.

Kim, H., Ishag, M. I. M., Piao, M., Kwon, T., & Ryu, K. H. (2016). A Data Mining Approach for Cardiovascular

Disease Diagnosis Using Heart Rate Variability and Images of Carotid Arteries. Symmetry, 8(6), 47.

Kleijnen, J. P. (1995). Verification and validation of simulation models. European journal of operational

research, 82(1), 145-162.

Knepell, P. L., & Arangno, D. C. (1993). Simulation validation: a confidence assessment methodology (Vol. 15).

John Wiley & Sons.

Koziel, S., & Yang, X. S. (Eds.). (2011). Computational optimization, methods and algorithms (Vol. 356).

Springer.

Krizmaric, M., Verlic, M., Stiglic, G., Grmec S., Kokol, P., (2009) ‘Intelligent analysis in predicting outcome of

out-of-hospital cardiac arrest’, Computer Methods and Programs in Biomedicine, 22–32.

doi:10.1016/j.cmpb.2009.02.013.

Kwiatkowska, M., Norman, G., & Parker, D. (2002, April). PRISM: Probabilistic symbolic model checker.

In International Conference on Modelling Techniques and Tools for Computer Performance Evaluation (pp.

200-204). Springer Berlin Heidelberg.

Kwiatkowska, M., Norman, G., & Parker, D. (2009). PRISM: probabilistic model checking for performance and

reliability analysis. ACM SIGMETRICS Performance Evaluation Review, 36(4), 40-45.

Lamm, E., & Unger, R. (2011). Biological computation. CRC Press by Chapman and Hall/CRC, Textbook - 343

Pages - 50 B/W Illustrations ISBN 9781420087956 - CAT# C7959

Series: Chapman & Hall/CRC Mathematical and Computational Biology,

Lakshmi, K. S., & Kumar, G. S. (2014, February). Association rule extraction from medical transcripts of

diabetic patients. In Applications of Digital Information and Web Technologies (ICADIWT), 2014 Fifth

International Conference on the (pp. 201-206). IEEE.

Laskowski, M., dubey, P., alexander, M. E., collinson, S., & moghadas, S. M. (2015, June). What is the optimal

level of information dissemination during an epidemic?. In BIOMAT 2014: Proceedings of the International

Symposium on Mathematical and Computational Biology (p. 206). World Scientific.

Lavanya, D., & Rani, K. U. (2013). A Hybrid Approach to Improve Classification with Cascading of Data

Mining Tasks. International Journal of Application or Innovation in Engineering Management (IJAIEM), 2,

345-350.

LeBaron, C. W., Forghani, B., Beck, C., Brown, C., Bi, D., Cossen, C., & Sullivan, B. J. (2009). Persistence of

mumps antibodies after 2 doses of measles-mumps-rubella vaccine. Journal of Infectious Diseases, 199(4),

552-560.

Legrand, J., Sanchez, A., Le Pont, F., Camacho, L., & Larouze, B. (2008). Modeling the impact of tuberculosis

control strategies in highly endemic overcrowded prisons. PLoS One, 3(5), e2100.

Lewis, R. O. (1992). Independent verification and validation: A life cycle engineering process for quality

software (Vol. 11). John Wiley & Sons.

Liao, T. W. (2005). Clustering of time series data—a survey. Pattern recognition, 38(11), 1857-1874.

Lincoln, E. M. (1967). Epidemics of tuberculosis. Archives of Environmental Health: An International

Journal, 14(3), 473-476.

https://www.crcpress.com/Chapman--HallCRC-Mathematical-and-Computational-Biology/book-series/CHMTHCOMBIO

Références

183

Ma, Z., & Li, J. (2009). Basic Knowledge and Modeling on Epidemic Dynamics. In Dynamical Modeling And

Analysis Of Epidemics (pp. 1-82).

Macaš, M., Lhotská, L., Bakstein, E., Novák, D., Wild, J., Sieger, T., ... & Jech, R. (2012). Wrapper feature

selection for small sample size data driven by complete error estimates. Computer methods and programs in

biomedicine, 108(1), 138-150.

Marco, D., Scott, E., Cairns, D., Graham, A., Allen, J., Mahajan, S., & Shankland, C. (2012). Investigating co-

infection dynamics through evolution of Bio-PEPA model parameters: a combined process algebra and

evolutionary computing approach. In Computational Methods in Systems Biology (pp. 227-246). Springer

Berlin Heidelberg.

Marco, D., Shankland, C., & Cairns, D. (2012, July). Evolving Bio-PEPA process algebra models using genetic

programming. In Proceedings of the 14th annual conference on Genetic and evolutionary computation (pp.

177-184). ACM.

May, R. M. (2004). Uses and abuses of mathematics in biology. Science, 303(5659), 790-793.

McCaig, C., Fenton, A., Graham, A., Shankland, C., & Norman, R. (2013). Using process algebra to develop

predator–prey models of within-host parasite dynamics. Journal of theoretical biology, 329, 74-81.

McCaig, C., Norman, R., & Shankland, C. (2009). From individuals to populations: A symbolic process algebra

approach to epidemiology. Mathematics in Computer Science, 2(3), 535-556.

McCaig, C., (2008). From individuals to populations: changing scale in process algebra models of biological

systems. PhD thesis, University of Stirling, 2008. Available from www.cs.stir.ac.uk/~cmc/thesis.ps.

Minitab 17 Statistical Software (2010). [Computer software]. State College, PA: Minitab, Inc.

(www.minitab.com).

Mitchell, T., (1997). Decision tree learning (Chapter 3). Machine Learning. The McGraw-Hill Companies, Inc.,

414, 52–78.

Mokeddem, S., Atmani, B., & Mokaddem, M. (2013). Supervised feature selection for diagnosis of coronary

artery disease based on genetic algorithm. arXiv preprint arXiv:1305.6046.

Morgan-Capner, P., Wright, J., Miller, C. L., & Miller, E. (1988). Surveillance of antibody to measles, mumps,

and rubella by age. BMJ, 297(6651), 770-772.

Murray, J. D. Mathematical Biology. 1989. C271.

Mutter, S., Hall, M., & Frank, E. (2004, December). Using classification to evaluate the output of confidence-

based association rule mining. In Australasian Joint Conference on Artificial Intelligence (pp. 538-549).

Springer Berlin Heidelberg.

Nahar, J., Imam, T., Tickle, K. S., & Chen, Y. P. P. (2013). Association rule mining to detect factors which

contribute to heart disease in males and females. Expert Systems with Applications, 40(4), 1086-1093.

Norman, R., & Shankland, C. (2003, February). Developing the use of process algebra in the derivation and

analysis of mathematical models of infectious disease. In International Conference on Computer Aided

Systems Theory (pp. 404-414). Springer Berlin Heidelberg.

Oaken, D. R. (2014). Optimisation of Definition Structures & Parameter Values in Process Algebra Models

Using Evolutionary Computation.

http://www.cs.stir.ac.uk/~cmc/thesis.ps

http://www.minitab.com/

Références

184

Omran, D. A. E. H., Awad, A. H., El, M. A., Mabrouk, R., Soliman, A. F., & Aziz, A. O. A. (2015). Application

of Data Mining Techniques to Explore Predictors of HCC in Egyptian Patients with HCV-related Chronic

Liver. Asian Pacific Journal of Cancer Prevention, 16(1), 381-385.

OMS, http://gamapserver.who.int/gho/interactive_charts/tb/cases/atlas.html.

Oremland, M. (2011). Optimization and Optimal Control of Agent-Based Models (Doctoral dissertation, Virginia

Polytechnic Institute and State University).

Osman, M. K., Mashor, M. Y., & Jaafar, H. (2012, May). Performance comparison of clustering and

thresholding algorithms for tuberculosis bacilli segmentation. In Computer, Information and

Telecommunication Systems (CITS), 2012 International Conference on (pp. 1-5). IEEE.

Ozcaglar, C., Shabbeer, A., Vandenberg, S. L., Yener, B., & Bennett, K. P. (2012). Epidemiological models of

Mycobacterium tuberculosis complex infections. Mathematical Biosciences, 236(2), 77-96.

Pappalardo, F., Pennisi, M., Castiglione, F., & Motta, S. (2010). Vaccine protocols optimization: in silico

experiences. Biotechnology advances, 28(1), 82-93.

Patel, R., Longini, I. M., & Halloran, M. E. (2005). Finding optimal vaccination strategies for pandemic

influenza using genetic algorithms. Journal of theoretical biology, 234(2), 201-212.

Pavé, A. (1994). Modélisation en biologie et en écologie. Aléas.

Perez L, Dragicevic S (2009) An agent-based approach for modeling dynamics of contagious disease spread. Int

J Health Geogr 8.

Petty, M. D. (2010). Verification, validation, and accreditation. Modeling and simulation fundamentals:

Theoretical underpinnings and practical domains, 325-372.

Piarroux, R., Barrais, R., Faucher, B., Haus, R., Piarroux, M., Gaudart, J., et al., (2011) ‘Understanding the

cholera epidemic, Haiti’, Emerging Infectious Disease. http://dx.doi.org/10.3201/eid1707.110059.

Pollock,K., Cameron, R., (Nov, 2016). Protection de la santé Écosse, communication privée.

Porco, T. C., & Blower, S. M. (1998). Quantifying the intrinsic transmission dynamics of

tuberculosis. Theoretical population biology, 54(2), 117-132.

Prandi, D. (2010). Particle swarm optimization for stochastic process calculi. In Proceedings of the 9th

Workshop on Process Algebra and Stochastically Timed Activities, Department of Computing (pp. 77-82).

Phyu, T. N. (2009, March). Survey of classification techniques in data mining. In Proceedings of the

International MultiConference of Engineers and Computer Scientists (Vol. 1, pp. 18-20).

Quinlan, J., (1993). C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann.

Railsback, S. F., & Grimm, V. (2011). Agent-based and individual-based modeling: a practical introduction.

Princeton university press.

Rao, R. R., & Makkithaya, K. (2016). Identifying risk patterns in Public Health data through Association

Rules. Journal of Biomedical Engineering Society of India, 30.

Rehkopf, D., Furumoto-Dawson, A., Kiszewski, A., & Awerbuch-Friedlander, T. (2015). Spatial spread of

tuberculosis through neighborhoods segregated by socioeconomic position: a stochastic automata

model. Discrete Dynamics in Nature and Society, 2015.

Renshaw, E. (1993). Modelling biological populations in space and time (Vol. 11). Cambridge University Press.

http://gamapserver.who.int/gho/interactive_charts/tb/cases/atlas.html

http://dx.doi.org/10.3201/eid1707.110059

Références

185

Rhodes, C. J., & Anderson, R. M. (1997). Epidemic thresholds and vaccination in a lattice model of disease

spread. Theoretical Population Biology, 52(2), 101-118.

Ribassin-Majed, L., Lounes, R., & Clemençon, S. (2013). Deterministic modelling for transmission of Human

Papillomavirus 6/11: impact of vaccination. Mathematical Medicine and Biology, dqt001.

Roberts, M. G., & Tobias, M. I. (2000). Predicting and preventing measles epidemics in New Zealand:

application of a mathematical model. Epidemiology and Infection, 124(02), 279-287.

Rokach, L., & Maimon, O. (2005). Decision trees. In Data mining and knowledge discovery handbook (pp. 165-

192). Springer US.

Rulaningtyas, R., Suksmono, A. B., & Mengko, T. L. (2011, July). Automatic classification of tuberculosis

bacteria using neural network. In Electrical Engineering and Informatics (ICEEI), 2011 International

Conference on (pp. 1-4). IEEE.

Rulaningtyas, R., Suksmono, A. B., Mengko, T., & Saptawati, P. (2015, November). Multi patch approach in K-

means clustering method for color image segmentation in pulmonary tuberculosis identification.

In Instrumentation, Communications, Information Technology, and Biomedical Engineering (ICICI-BME),

2015 4th International Conference on (pp. 75-78). IEEE.

Saeys, Y., Inza, I., & Larrañaga, P. (2007). A review of feature selection techniques in

bioinformatics. bioinformatics, 23(19), 2507-2517.

Saporta, G. (2004). «DATA MINING» ou FOUILLE DE DONNÉES. RST «Epidémiologie» Data Mining.

Sargent, R. G. (2005, December). Verification and validation of simulation models. In Proceedings of the 37th

conference on Winter simulation (pp. 130-143). winter simulation conference.

Schaffernicht, E., Stephan, V., & Groß, H. M. (2007, September). An efficient search strategy for feature

selection using chow-liu trees. In International Conference on Artificial Neural Networks (pp. 190-199).

Springer Berlin Heidelberg.

Scheller, R. M., Sturtevant, B. R., Gustafson, E. J., Ward, B. C., & Mladenoff, D. J. (2010). Increasing the

reliability of ecological models using modern software engineering techniques. Frontiers in Ecology and the

Environment, 8(5), 253-260.

Scherer, A., & McLean, A. (2002). Mathematical models of vaccination. British Medical Bulletin, 62(1), 187-

199.

Schimit, P. H. T., & Monteiro, L. H. A. (2011). A vaccination game based on public health actions and personal

decisions. Ecological Modelling, 222(9), 1651-1655.

Sharma, M., Choudhary, J., & Sharma, G. (2012, August). Evaluating the performance of apriori and predictive

apriori algorithm to find new association rules based on the statistical measures of datasets. In International

Journal of Engineering Research and Technology (Vol. 1, No. 6 (August-2012)). ESRSA Publications.

Sharma, T. C., & Jain, M. (2013). WEKA approach for comparative study of classification

algorithm. International Journal of Advanced Research in Computer and Communication Engineering, 2(4),

1925-1931.

Sharma, N., Bajpai, A., & Litoriya, M. R. (2012). Comparison the various clustering algorithms of weka

tools. facilities, 4(7).

Sirakoulis, G. C., Karafyllidis, I., & Thanailakis, A. (2000). A cellular automaton model for the effects of

population movement and vaccination on epidemic propagation. Ecological Modelling, 133(3), 209-223.

Références

186

Slimi, R., El Yacoubi, S., Dumonteil, E., & Gourbiere, S. (2009). A cellular automata model for Chagas

disease. Applied mathematical modelling, 33(2), 1072-1085.

Smitha, T., Sundaram, V., (2012) ‘Classification Rules by Decision Tree for Disease Prediction’, International

Journal of Computer Applications, Vol. 43(8), pp. 6–12.

Sudheep, E. M., & Sumam Mary, I. (2012). Design and Development of data mining models for the predictions

of manpower placement in the technical Domain (Doctoral dissertation, Cochin University of Science and

Technology).

Sullivan, R. (2012). Introduction to data mining for the life sciences. Springer Science & Business Media.

Sumner, T. (2010). Sensitivity analysis in systems biology modelling and its application to a multi-scale model of

blood glucose homeostasis (Doctoral dissertation, UCL (University College London)).

Sun, G. Q., Jin, Z., Song, L. P., Chakraborty, A., & Li, B. L. (2011). Phase transition in spatial epidemics using

cellular automata with noise. Ecological research, 26(2), 333-340.

Tanevski, J., Todorovski, L., & Džeroski, S. (2016). Learning stochastic process-based models of dynamical

systems from knowledge and data. BMC systems biology, 10(1), 30.

Tofts, C. (1994). Processes with probabilities, priority and time. Formal Aspects of Computing, 6(5), 536-564.

Tomar, D., & Agarwal, S. (2013). A survey on Data Mining approaches for Healthcare. International Journal of

Bio-Science and Bio-Technology, 5(5), 241-266.

Toni, T., Welch, D., Strelkowa, N., Ipsen, A., & Stumpf, M. P. (2009). Approximate Bayesian computation

scheme for parameter inference and model selection in dynamical systems. Journal of the Royal Society

Interface, 6(31), 187-202.

Unnebrink, K., & Windeler, J. (2001). Intention‐to‐treat: methods for dealing with missing values in clinical

trials of progressively deteriorating diseases. Statistics in medicine, 20(24), 3931-3946.

Van Boven, M., de Melker, H. E., Schellekens, J. F., & Kretzschmar, M. (2000). Waning immunity and sub-

clinical infection in an epidemic model: implications for pertussis in The Netherlands. Mathematical

biosciences, 164(2), 161-182.

Van Boven, M., Ruijs, W. L., Wallinga, J., O'Neill, P. D., & Hahne, S. (2013). Estimation of vaccine efficacy

and critical vaccination coverage in partially observed outbreaks. PLoS Comput Biol, 9(5), e1003061.

Van Hulse, J. D., Khoshgoftaar, T. M., & Huang, H. (2007). The pairwise attribute noise detection

algorithm. Knowledge and Information Systems, 11(2), 171-190.

Venkatesan, P., & Yamuna, N. R. (2013). Treatment response classification in randomized clinical trials: a

decision tree approach. Indian Journal of Science and Technology, 6(1), 3912-3917.

Verbaeten, S., & Van Assche, A. (2003, June). Ensemble methods for noise elimination in classification

problems. In International Workshop on Multiple Classifier Systems (pp. 317-325). Springer Berlin

Heidelberg.

Vynnycky, E., & White, R. (2010). An introduction to infectious disease modelling. Oxford University Press.

Wang, Z., Yan, R., Chen, Q., & Xing, R. (2012). Data mining in nonprofit organizations, government agencies,

and other institutions. Advancing the Service Sector with Evolving Technologies: Techniques and

Principles: Techniques and Principles, 208.

Références

187

Wearing, H. J., & Rohani, P. (2009). Estimating the duration of pertussis immunity using epidemiological

signatures. PLoS Pathog, 5(10), e1000647.

Wearing, H. J., Rohani, P., & Keeling, M. J. (2005). Appropriate models for the management of infectious

diseases. PLoS Med, 2(7), e174.

Weber, A., Weber, M., & Milligan, P. (2001). Modeling epidemics caused by respiratory syncytial virus

(RSV). Mathematical biosciences, 172(2), 95-113.

Wei, P., Cong, X., Tang, W., Cao, S., Luo, P. F., Li, W., & Luo, D. (2011, June). Study on effects of different

methods of health education on tuberculosis among the primary and middle school students in rural areas of

northern Jiangsu Province. In Remote Sensing, Environment and Transportation Engineering (RSETE),

2011 International Conference on (pp. 8533-8537). IEEE.

Whitaker, H. J., & Farrington, C. P. (2004). Infections with varying contact rates: application to

varicella. Biometrics, 60(3), 615-623.

White, S. H., Del Rey, A. M., & Sánchez, G. R. (2007). Modeling epidemics using cellular automata. Applied

Mathematics and Computation, 186(1), 193-202.

Wilkinson, D. J. (2011). Stochastic modelling for systems biology. CRC press.

Witten, I. H., & Frank, E. (2005). Data Mining: Practical machine learning tools and techniques", Morgan

Kaufmann, San Francisco, USA.

Witten IH, Frank E, Hall MA. (2011). Data mining: practical machine learning tools and techniques. Third

edition, Morgan Kaufmann. San Francisco, CA.

Wismüller, A., Lange, O., Dersch, D. R., Leinsinger, G. L., Hahn, K., Pütz, B., & Auer, D. (2002). Cluster

analysis of biomedical image time-series. International Journal of Computer Vision, 46(2), 103-128.

World Health Organization. (2013). WHO report. Global tuberculosis control 2011. Geneva, Switzerland:

WHO (2013).

Wu, T. F., You, J. B., Yan, M. J., & Sun, H. J. (2012, November). Applied Research of PSO in Parameter

Estimation of Richards Model. In Web Information Systems and Applications Conference (WISA), 2012

Ninth (pp. 87-90). IEEE.

Wu, J., Dhingra, R., Gambhir, M., & Remais, J. V. (2013). Sensitivity analysis of infectious disease models:

methods, advances and their application. Journal of The Royal Society Interface, 10(86), 20121018.

Xiong, Y., & Yeung, D. Y. (2004). Time series clustering with ARMA mixtures. Pattern Recognition, 37(8),

1675-1689.

Yoshimura, K., Okanoue, T., Ebise, H., Iwasaki, T., Mizuno, M., Shima, T., ... & Yamazaki, K. (2016).

Identification of novel noninvasive markers for diagnosing nonalcoholic steatohepatitis and related fibrosis

by data mining. Hepatology, 63(2), 462-473.

Zhu, X., & Wu, X. (2006). Class noise handling for effective cost-sensitive learning by cost-guided iterative

classification filtering. IEEE Transactions on Knowledge and Data Engineering, 18(10), 1435-1440.

Zhu, X., & Wu, X. (2004). Class noise vs. attribute noise: A quantitative study. Artificial Intelligence Review, 22(3), 177-210.

DOI: 10.4018/IJISSS.2017040104

Copyright © 2017, IGI Global. Copying or distributing in print or electronic forms without written permission of IGI Global is prohibited.

International Journal of Information Systems in the Service SectorVolume 9 • Issue 2 • April-June 2017

Decision Support based on Bio-PEPA Modeling and Decision Tree Induction:A New Approach, Applied to a Tuberculosis Case StudyDalila Hamami, Laboratoire d’informatique d’Oran (LIO), University of Oran 1 Ahmed Benbella, Oran, Algeria

Atmani Baghdad, Laboratoire d’informatique d’Oran (LIO), University of Oran 1 Ahmed Benbella, Oran, Algeria

Carron Shankland, Department of Computing Science and Mathematics, University of Stirling, Stirling, UK

ABSTRACT

The problem of selecting determinant features generating appropriate model structure is a challenge in epidemiological modelling. Disease spread is highly complex, and experts develop their understanding of its dynamic over years. There is an increasing variety and volume of epidemiological data which adds to the potential confusion. The authors propose here to make use of that data to better understand disease systems. Decision tree techniques have been extensively used to extract pertinent information and improve decision making. In this paper, the authors propose an innovative structured approach combining decision tree induction with Bio-PEPA computational modelling, and illustrate the approach through application to tuberculosis. By using decision tree induction, the enhanced Bio-PEPA model shows considerable improvement over the initial model with regard to the simulated results matching observed data. The key finding is that the developer expresses a realistic predictive model using relevant features, thus considering this approach as decision support, empowers the epidemiologist in his policy decision making.

KEywoRDSBio-PEPA Modelling, Data Mining, Decision Support, Decision Tree Induction, Epidemiology, Modelling and Simulation, Optimisation, Refinement, Tuberculosis

1. INTRoDUCTIoN

The epidemiological field has been greatly enhanced by the use of computational and mathematical models, e.g. the studies of Anderson and May (1991), Weber et al, 1997; Keeling and Rohani (2008), Amouroux et al. (2010) and Hamami and Atmani (2013). Such models are considered indispensable both to understand the pathophysiology of human disease and to follow the spread of disease. The latter in particular allows public health policies to be developed by using predictive models to explore suitable disease control strategies.

For any modelling, the main goal is to provide accurate disease representation and realistic long term prediction; at least, as far as possible given that “the real world is undeniably replete with many complications; economic and social as well as biological” (Anderson and May, 1991). Capturing the complex, dynamic and variable nature of disease spread depends on strong partnership working between epidemiologists and modellers, to achieve careful refinement, elaboration and optimisation of models. Even so, the developed models (Anderson and May, 1991; Frost, 1995; Oaken et al., 2014)

71


72

rely heavily on the experience of the experts and developers, and a degree of speculation and inspiration regarding identification of pertinent model features or accurate parameter estimation. Keeling and Rohani (2008) confirm this point of view: “The feasibility of model complexity is compromised by computational power, the mechanistic understanding of disease natural history, and the availability of necessary parameters. Consequently, the accuracy of any model is always limited”. However, relying on expert knowledge and assumptions is not enough to ensure model accuracy when this depends on knowledge or features unknown to the expert/developer team.

In this context, many works (vynnycky and Fine, 1997; Debanne, 2000; Geisweiller, 2006; Prandi, 2010; DeEspíndola et al. 2011; Oaken REF, Goeyvaerts, 2015) focus on optimisation, as it becomes as a natural step in the modelling process. Optimisation has grown in recent years from considering simply parameter values, to refining model structure. Of great help in this process is the availability of massively complex datasets on epidemics, containing quantitative, qualitative, textual, Boolean, etc., information (Maumus et al., 2005). Our conclusion is that to decrease uncertainty in epidemic modelling, providing rigorous model descriptions containing the most important system features so parameters can then be correctly estimated, it is urgent to devise a solution to assisting experts/developers in acquiring only the most pertinent information from a dataset, and allow them to review their reasoning about the underlying epidemic system (Moundalexis and Nag, 2013).

To resolve this enigma and overcome the problems of selecting the determinant model features, in particular for tuberculosis (TB), we propose here, that a good epidemiological understanding and control requires a knowledge extraction process from data derived from cohort studies (Mancini, 2014; Poulymenopoulou et al., 2013). This process can involve symbolic methods of data mining (Maumus et al., 2005; Azar et al., 2013).

In epidemiology and public health, the use of data mining methods in general and decision tree induction in particular is growing briskly (Azar et al., 2013; Kotu and Deshpande, 2015; Breiman et al., 1984; Krizmaric et al., 2009; Smitha and Sundaram, 2012). Often these works mention the discovery of unexpected but effective information. As in other areas, it is the availability of wide-ranging historical databases that encourages such developments. By using data mining, patterns are discovered which can lead to better performance in computational modelling, long term prediction and decision-making (Lavanya and Rani, 2013). In our work, this process is automated by using WEKA tool (Hall et al., 2009), this offers a range of algorithms to build decision tree models.

The purpose of this article is:

• To show how the results from data mining can be complementary to the expert knowledge and help to achieve, update or validate an epidemic Bio-PEPA model,

• To present a framework in which data mining and Bio-PEPA modelling can be used together to better understand the mechanisms of detection and spread of epidemics, and

• To demonstrate the application of the framework to TB disease to identify influencing factors and their force.

This paper is structured as follows: section 2 provides background on Bio-PEPA modelling and data mining concepts more extensively on decision tree induction. Section 3 is dedicated to the proposed approach, which describes the different steps undertaken to combine Bio-PEPA with data mining. Details of the case study (tuberculosis), experimental approach and results of applying the Bio-PEPA framework using decision tree induction results are described in Section 4. Finally, in section 5, we conclude by summarizing and highlighting our key findings and contribution, together with perspectives on future work.


73

2. BACKGRoUND

This section reviews the two main areas in our work, Bio-PEPA modelling and simulation and data mining.

2.1. Bio-PEPA Modelling and SimulationBio-PEPA (Bio-Performance Evaluation Process Algebra) is a formal language belonging to the Process algebra (PA) family. Developed in the 1970s, PA was mainly based on algebraic concepts (operators and axioms) to study the behaviour of parallel and distributed systems. It has since been used in biology: e.g. in 1993 Tofts (1993) used it to describe the behaviour of social insects, and in 2003 Norman and Shankland (2003) used it for epidemiology. Ciocchetta and Hillston (2009a, 2009b) developed a new, less-complex formalism, Bio-PEPA, to describe biological systems more succinctly. A general view of Bio-PEPA model components is given in Figure 1 (Appendix, all figures and tables are shown in Appendix).

Bio-PEPA is a formalism based on a set of rules and events (Ciocchetta and Hillston, 2009a) describing an interaction between a set of species (agents) belonging to one or a set of compartments and performing different reactions evolving under specific parameters. More formally and conveniently those concepts are described by the syntax below:

S:: = (α, κ) op S | S + S | Cop = << | >> | (+) |(-) |(.)P:: = P <L> P | S(x)

Where ‘S’: species or well known as individual entities. The dynamic of S is described by the reaction defined by ‘α’: action to undertake and ‘κ’: stoichiometry coefficient of the entity in that reaction. During the process ‘P’, S evolves under a specific operation ‘op’ as indicated above, where ‘<<’: reactant, ‘>>’: product, ‘(+)’: activator, ‘(-)’: inhibitor, ‘(.)’: generic modifier. Bio-PEPA syntax offers the choice between different behaviours by using ‘+’ (the full syntax details are presented by Ciocchetta and Hillston, 2009a, 2009b).

By applying Bio-PEPA to avian influenza Ciocchetta and Hilston (2009a) draw out the advantages of using Bio-PEPA for epidemiology modelling such as, its ability to deal with population level dynamics, the heterogeneity of individual attributes, stochasticity, spatial structure and discrete/external event. Further, Bio-PEPA offers a series of analyses not previously available to epidemiology through a single description such as stochastic simulation, model checking, ODE derivation and for those who are less familiar, Bio-PEPA allows translating an existing model to SBML (The Systems Biology Markup Language based on XML) (Hamami and Atmani, 2014).

The Ciocchetta and Hillston (2009a, 2009b) epidemiological studies led many authors to extend the use of Bio-PEPA to different infectious diseases. Benkirane et al. (2012) pinpointed the key features of Bio-PEPA by developing a measles model. They put forward seasonal effects and immigration on spreading disease. Hamami and Atmani (2012, 2013) have reviewed a Bonmarin mathematical model of chickenpox (Bonmarin et al., 2008) as well as De-Espindola tuberculosis model (DeEspíndola et al. 2011). Ramanathan et al. (2012) and Oaken et al. (2014) worked on SIR/SEIR models using the Bio-PEPA framework for deeper analysis. Despite the success of Bio-PEPA in epidemiological modelling, developers and experts still must avoid including irrelevant details and features and excluding pertinent ones in the model description.

2.2. Data Mining and Features FilteringData mining techniques are powerful tools to identify pertinent patterns and events within a large database. Data mining involves different techniques depending on the objective of the task and data to explore (Wang et al., 2012). They are summarised as predictive or descriptive methods (Kotu and


74

Deshpande, 2015). That is, predictive methods, such as classification and regression, use known outputs and the relationship between existing features to predict the future. Regression defines models using continuous output, as applied by Piarroux et al. (2011) to detect different levels of Cholera infection by region. Classification uses categorical output as done by Azar et al. (2013) to classify patients infected with Lymph disease. Descriptive methods, such as clustering and association rules, disclose concealed patterns that sum up the relationship between variables without predicting target values. Clustering regroups a set of objects with a similar specificity, as used by Almeida et al. (2014) in cardiovascular risk assessment where the resulting five clusters showed the intrinsic relation between features. Association rules identify a degree of association between features and their frequency, as achieved by Ou-yang et al. (2013) where the impact of prescribed drugs on Stevens–Johnson syndrome was detected. Thus, before applying data mining techniques, it is important to know which kind of method is more appropriate for our dataset study. Recall that the aim of this work is to use data mining techniques to enrich computational modelling by finding the relevant variables that explain the data. This means that the output of the data mining model is known. In addition, according to the categorical nature of our data, this description led us to focus on classification.

Classification is a data mining technique based on supervised learning (Kotu and Deshpande, 2015; López-Vallverdú et al., 2012): the learning is based on using known output values to build a model, useful to predict the class of objects whose class label is unknown. Various techniques such as: Decision Trees, Bayesian networks, Neural Networks, Rule induction, K-nearest neighbour, are used in classification. Many works highlight the decision tree as the classification method popularly used for classifying medical data (Lavanya and Rani, 2013; Mitchell, 1997; Phyu, 2009; Gorunescu, 2011; Carr et al., 2013). The decision tree is described by a tree structure where each non-leaf node denotes an attribute, each branch represents an attribute value and leaf nodes represent classes or class distributions. This structure makes models easy to interpret into rules: If Condition Then Conclusion, where Condition denotes a disjunction/conjunction of attributes, and Conclusion is the class reached by the condition (Atmani and Beldjilali, 2007). More advantages are reported in literature: Lavanya and Rani (2013) argued that decision tree algorithms are most commonly used because the parameter setting of domain knowledge is not required to construct the tree. Phyu (2009), by undertaking a survey of classification techniques, concluded that decision tree algorithms tend to perform better when dealing with discrete/categorical features. Gorunescu (2011) noted that the greatest benefit of decision tree approaches is flexibility, understandability and usefulness in prediction. Delen et al. (2005) used a series of decision tree algorithms (ID3, C4.5, C5 (Quinlan, 1993), and CART (Aguiar et al, 2012)) to identify variables and corresponding thresholds which separate observations in branches containing a set of leaves. Delen et al. (2005) outlined that the objective of decision tree algorithms is to minimise the number of homogeneous groups, and went on to apply the C5 algorithm to breast cancer data, extracting the most important features for the breast cancer prognosis. Azar et al. (2013) applied decision tree algorithm following classification to prove an increase in diagnostic confidence, by selecting six relevant features rather than the defined eighteen as data input. Krizmaric et al. (2009) focused on survival prediction of patient subject to cardiac arrest where features such as arrival time and cardiopulmonary resuscitation were detected as more pertinent for this study. Smitha and Sandaram (2012) applied a decision tree algorithm to predict the inhabitants infected by disease in a slum area. The resulting tree explains clearly that the infection is related first to climatic parameters and second to other parameters such as spread of deadly diseases, population immunity and control activities, vector abundance and family history.

These wide-ranging examples reveal that the decision tree is by far the most adequate classifier for our study, because:

• The resulting model is expressed by a tree (set of rules), easily interpreted by non-expert and well matched to Bio-PEPA model components.


75

• Decision tree algorithms perform better when dealing with the nature of features defined in our dataset (discrete, categorical),

• Decision tree algorithms identify variables relevant to the example, which is our principal aim in developing more realistic formal models. In the epidemiological setting, this draws out the causal relationships between predictors of the disease using a decision tree classifier, allowing relevant information to be extracted to understand and monitor epidemics.

To summarize, to improve and simplify the interaction between expert and developer, this section has identified two complementary techniques: decision tree induction and Bio-PEPA modelling. The former identifies the relevant features. The latter is used by the modeler to explore the usefulness of those features in optimising and refining a realistic and accurate model aiming to predict and improve the decision making of the epidemiologist. The next section explains how these techniques can be combined.

3. METHoDoLoGy

Our aim is to use decision tree induction to extract useful information from the database to inform, refine and optimise our formal modelling.

To prove the usefulness of our approach, we begin by considering the typical manual modelling process and show how this can be enhanced with data mining. Figure 2 shows the structure of the methodology. Typical steps of our approach include:

1. Interaction expert/developer: Consecutive exchange knowledge between epidemiologist and developer is performed as follows:a. Problem Definition: identify critical areas in the process to be modelled.b. Design the Study: collect data (and possibly expert knowledge of the problem).c. Design the Conceptual Model: describe all dependencies between system components.d. Process Definition: determine the predictability and accuracy of the model, where inputs,

outputs, assumptions and rules are specified separately.2. Bio-PEPA modelling: Based on Bio-PEPA structure, the formal model is constructed using all

the information gained in the previous step, inputs, outputs and rules.3. Simulation and analysis: Once the formal model is constructed, it can be analysed. For this

work we use stochastic simulation of the Bio-PEPA model. The resulting outputs are used to validate model accuracy by comparing with observed data.

4. Optimisation: The implementation of the model can be an accurate/inaccurate representation of the real system depending on the assumptions made by either the developer or the epidemiologist/domain expert. In either case, more information is required to refine/optimise the model.a. Manual Optimisation (dashed line in Figure 2 ): By returning to the process definition

step defined earlier (Interaction expert/developer step), the expert enhances this step with new information. The optimisation based on expert/developer interaction is repeated until the results match well with observed data. This process is extremely reliant on expert/developer capability and knowledge, when basing only on inspiration and assumptions could derive to time consuming and increasing in complexity. To overcome these problems, we propose to use data mining at optimisation step.

b. Optimisation Using Data Mining: Rather exploring the expert/developer interaction at optimization step, decision tree induction is used as factor retrieval on the disease dataset. This optimization begins with the data mining process (data cleaning, data transformation, feature selection, classification and validation) and ends in Bio-PEPA model refinement. The steps lie as follow:


76

▪ Data Cleaning and Data transformation: As disease dataset is collected from different sources, noise and errors can be expressed. Data cleaning attempts to correct inconsistencies, remove errors, noise and missing values in the data (Han and Kamber, 2006; Gibert et al, 2008), when data transformation (Inbarani et al, 2013) converts the data into appropriate forms for mining that makes data operationally efficient and understandable. To achieve this goal, a series of algorithms are available in literature (Inbarani et al, 2013; Witten, 2011), such as discretisation and removing missing values. The choice of those algorithms remains strongly dependent on dataset used.

▪ Feature Selection Algorithms: Not all features recorded in the dataset are useful in decision making. Feature selection is a preliminary step to classification, it reduces the attribute space with the aim of finding a minimal attribute set to describe the data (Guyon and Elisseeff, 2003). Those attributes are the classifier input deriving the optimal tree (optimal tree size and number of leaves) with highest accuracy. In data mining a range of feature selection algorithms are defined. According to Witten (2011), Saeys et al. (2007) and Karegowda et al. (2010), methods used for feature selection are classified into two types: Attribute subset evaluator and Single attribute evaluator. The choice of algorithm depends on the aim of feature selection. As argued by Saeys et al. (2007), attribute subset evaluators are used to improve prediction performance by considering feature dependencies whereas single attribute evaluators consider each feature separately to improve cluster detection (Inbarani et al., 2013). The aim of this study is to detect pertinent information expressed by the relation between different attributes to improve modelling prediction, therefore the Attribute Subset Evaluator algorithms are more suitable for this field. Many of them are defined in the literature. For example, Karegowda et al. (2010) applied a Correlation-based Feature Selection algorithm (CFS algorithm) combined with a neuronal network classifier to diabetic data to identify highest classifier accuracy through a highest correlation between features, while Macaš et al (2012) used Wrapper Subset Evaluator and Filtered Subset Evaluator combined with a series of classifiers. The choice of algorithm remains dependent on the nature of data to be mined.

▪ Classification: Once the feature selection step is achieved, the selected attributes can be used as an input to the classifier.As argued in section 2.2, decision tree algorithms are used in this study. A range of algorithms can be used to create the classifier, the most commonly reported in literature (Ou-yang et al., 2013; Shi, 2008; Zhao and Zhang, 2008; Gibert et al, 2010) are: Best First Decision Tree (BFTree), J48, J48Graft, Naive Bayesian Tree (NBTree), Alternating decision Tree using the LogitBoost strategy (LadTree), REPTree, RandomTree and Cart /Simple Cart.

▪ Validation: Once the models resulting from the classifiers listed above are achieved and trained, their performance is evaluated and significance is interpreted. To this end, a series of measures are undertaken such as: accuracy rate, confusion matrix, positive rate and negative rate. According to Witten (2011), confusion matrix is very useful measure for better understandability. The matrix is defined by predicted classes (matrix columns) and actual classes (matrix rows), where all correct predictions are expressed by its diagonal, see for example Table 5. Once the performance evaluated using the above measures, a comparison is done between all classifiers resulting in a ranked set.

▪ Optimisation of Bio-PEPA Model: The best ranked model resulting from the validation step is analysed to distinguish which parameters influence the classification results. To simplify this step, the selected model structured as a tree, where the first node is a root and terminal nodes reflect decision outcomes is converted into sets of rules described by a relation (arc) between a set of attributes (nodes) and then defined as: X and Y then Z, where X, Y are called antecedent (condition) and Z the consequent (conclusion) of the


77

rule. At this step, the selected attributes could be further validated by the epidemiologist as being primary reasons disrupting the analysis of disease spread which were unknown/missed by epidemiologist at the start of the study.

Having extended these rules, this information from data mining is incorporated into the Bio-PEPA model as follows:

1. Extract from mined rules, pertinent attributes not currently included in the Bio-PEPA model.2. Refine the existing Bio-PEPA model by integrating relevant features.3. Recalculate parameters useful to developing the Bio-PEPA model by restructuring the initial

database.4. Analyse the new simulated results.5. Come back to step 1 here or to the data mining/dataset interaction phase to regenerate new rules

if the aim is not achieved (i.e. the model is improved, but there is still a significant gap between observed data and model simulation).

To illustrate this methodology, the next section describes its application to a tuberculosis data set.

4. RESULTS

The Tuberculosis has been a major killer disease for several years which makes it a disease of interest for number of studies either in modelling and simulation field such as: Blower et al. (1998), Aparicio and Catillo-chavez (2009), DeEspíndola et al. (2011), Ozcaglar et al. (2012) and Hamami and Atmani (2013), or in data mining field such as: Sebban et al. (2002), Aguiar et al. (2012) and Venkatesan and Yamuna (2013).

According to the last report of the World Health Organization (WHO), the international standard for tuberculosis control, TB remains the leading infectious deadly disease today (WHO, 2012). WHO applies a strategy to reduce the transmission of the infection through prompt diagnosis and effective treatment of symptomatic TB patients who present at health care facilities, where strict supervision is based on recording individual patient data and their medicines taken during treatment period.

In 1985, the medical authority of Algeria, created the Service of Epidemiology and Preventive Medicine (SEMEP: Service d’Epidémiologie et MEdecine Préventive). The role of SEMEP is to co-ordinate and monitor health and prevention activities. SEMEP services work closely with the Department of Health and Population (DSP: Direction de la Santé et de la Population) for the collection of health information and its analysis. This is useful for statistical analysis of data, epidemiological interpretation, dissemination and exploitation of results. Although the SEMEP provides a great support to epidemiological monitoring, the large number and complexity of recorded data increase the difficulty to follow the spread of TB.

To demonstrate the value of our approach, we used data set obtained from the SEMEP of Mostaganem (Algeria). This data set consists of a set of locations situated in Mostaganem (Algeria). It records the details of individuals infected by tuberculosis from January, 2008 up to December, 2012: a total number of 998 cases. This data is an Excel spreadsheet with 23 attributes to describe each record described in Table 1, where nine attributes were ignored following data mining steps (more details are given in the section 4.4).

The process as described in section 3 is divided into three steps:

1. Realize TB Bio-PEPA model based on expert knowledge.2. Analyse TB data using data mining techniques if the simulated output does not match observed

data.


78

3. Rebuild existing model taking into consideration the extracted pertinent information from the second step.

4.1. Interaction Expert/DeveloperFigure 3 formulates a global schema of the TB model that incorporates treatment and reinfection based on expert knowledge. The host population is divided into the following epidemiological classes or subgroups: susceptible moves through to infected by pulmonary TB (TP) when he is diagnosed. The TP moves to one of the different states (recovered, died, Trt_comp, lost, failed and transferred). It is noted in Figure 3 that:

• Because the TB treatment just allows recovery and does not give immunity, the recovered individual comes back to the susceptible class.

• Because of treatment failure, the individual in the Failure state comes back to the infected TP state.• Because lost individuals are no longer part of the treated population, they will return into the

infected class.

The main parameters that drive these transitions are shown in Table 2 with their values, and formula used to calculate the values from TB data.

4.2. Bio-PEPA ModellingThe aim here is to express the TB model, illustrated in Figure 3, in Bio-PEPA and to analyse the results.

As shown in Figure 4, the Bio-PEPA model is composed in a modular way through the interactions between the processes by defining:

Parameters/rates (P, θ1, …, θ6): numeric rates (Figure 4 from line 1 to 8), calculated using the observed data or collected from the literature (Aparicio and Catillo-chavez, 2009; Keeling and Rohani, 2008), see Table 2.

Location (space): Bio-PEPA defines a “Location” parameter which describes the place where the population is situated. For our initial model, we consider our population as homogeneous within a unique space (location) “City” (see Figure 4 line 9).

Species and Functional rates (KineticLawOf). The species correspond to the compartments defined in Figure 3 (Susceptible, Infected, transferred, Failed, Lost, Trt_comp and recovered). Each species carries out activities to change their own levels or those of others they may interact with (see Figure 4 from line 17 to 24). The rate of change is defined by the functional rate (see Figure 4 from line 10 to 16). For example, the action Recovery (line 12) leads to an increase in Recovered species (line 20) using the “>>” operator, while it leads to a decrease in Infected species (line 18) using the “<<” operator. By using the operator ‘+’, the Infected species (line 18) has a choice between different actions at each time step.

The last line of the model (line 25) is the model component, defining the initial sizes and the interaction between species.

4.3. Simulation and AnalysisOnce the model is achieved, a series of simulations are carried out in the Bio-PEPA plug-in (Duguid et al., 2009) (100 simulations are performed: Two Way ANOVA followed by Tukey Multiple Comparisons showed that the mean responses were not statistically different when more simulations were performed). The simulation is of one year, starting at t=0, where only the susceptible individuals and infected by pulmonary TB individuals are present, and ending at t=364.


79

Complete data series of five years are available, from 2008 to 2012. As some of Bio-PEPA parameters are calculated from observed data, Table 3 illustrates the period used according to the year of prediction. For example, to predict 2011, the average value of the set (2008-2009-2010) is considered to calculate parameters reported in Table 2.

To validate the model, the first simulation for observed data of 2008 is carried out and predicted data for 2009. A comparison is done between simulated (rounded mean) and observed data illustrated in histograms of Figure 5, for each class (died, failed, recovered, lost, transferred and Trt_comp).

As shown in Figure 5, the simulated model corresponds well to observed data. The histograms illustrate the state of individuals after 180 days of treatment. In order to strengthen the validity of these results, a χ2 goodness of fit test was performed at 5% significance level. The null hypothesis (H0) is that the observed data follows the same distribution as the simulated data while the alternative hypothesis (H1) is that the observed data follows some other unspecified distribution. The results of this analysis was χ2 = 0.381, degree of freedom = 3, p-value = 0.944. Thus, there is insufficient evidence at the 5% level to reject H0 in favour of H1, which confirms that observed data is not different to the predicted. In the rest of the paper we summarize this argument by writing that the simulated data is not statistically different from the observed data (χ2=x, degree of freedom=y, p-value=z). As there is no large variability between simulated and observed data, the optimization step is not required and the model is considered as an accurate one.

Moving on to 2010, further simulations (100 simulations) are carried out in the Bio-PEPA plug-in. Figure 7 shows histograms of the state of individuals, who were detected as infected in 2010, after 180 days of treatment. The same Bio-PEPA model was used to carry out this simulation as for 2009, keeping the same rates. It is clearly shown that a large difference separates simulated data and observed data, particularly the Lost class (resp. Trt_comp class) where the gap is estimated at 9 individual (resp. 9 individual). Nevertheless, the Lost state draws more attention than the Trt_comp state as it was under-predicted. It is noted that the Lost state is significant in both 2009 and 2010. As shown in Figure 5 and 7, the lost state is the largest group after recovered. Additionally, in 2010 our Bio-PEPA model predicts that the lost state characterizes 12% of infected when in the observed data it characterizes 23% of infected. This difference may mislead decisions by the epidemiologist. This state means that the patients are still infected and could cause potential infection in the population in the following years.

Thus, the Bio-PEPA model is inaccurate for 2010. At this step, as discussed in section 3, the principle of modelling and simulation is to apply the optimisation step.

4.4. optimizationDeliberately, we apply manual optimisation first to better state its limitations and enhance the model with available information from either expert or literature. In this case, our expert observed the larger number of Lost in the observed data and proposed that the parameters may be adjusted. A series of experiments ranging over the flexible parameters: contact_ number and infection_period (see Table 2) show us that the results are insensitive to the balanced values of rates and converge to the same histograms in Figure 6. Therefore, what happened in 2010 that expert does not know? Which information is omitted from the simulated model? Which specific features could explain this large difference?

To refine the model and enrich the information given by the expert, data mining techniques are used. This process will not itself give a closer match to data, but it will explain what part of the population tends towards this lost state and helps us understand the underlying system. The model can then be revised accordingly.

WEKA (Waikato Environment for Knowledge Analysis, Hall et al., 2009) is a collection of machine learning algorithms for data mining tasks. WEKA contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes (Ou-yang et al., 2013).


80

In this study WEKA is used to carry out experiments. Table 4 summarises the range of data set used for each data mining experiment. For example, if we are predicting the year 2010 in Bio-PEPA then the range of data set used in WEKA is from 2008 to 2010. According to the steps depicted in the section 3, the corresponding results are discussed below:

4.4.1. Data Cleaning and Data TransformationBy using either manual process or WEKA algorithms, some of irrelevant variables were removed and some others were transformed. In sum nine of them were removed and one transformed:

• “ID, First name, Last name, RecStatus” are not relevant to our analysis, and then removed manually.

• “DiagnoTEP and Preuve” do not help in diagnosis, as they concern extra-pulmonary tuberculosis, where in our study we focus on disease which spreads. Therefore, only pulmonary tuberculosis is considered.

• As the last action leads to remove all extra-pulmonary tuberculosis records, the “Loc” attribute as well “DiagnoTP” are referring to the only pulmonary tuberculosis, where their values do not vary at all, hence there were considered useless by WEKA filter and then removed.

• “MalAsso” for which 99% of records are not reported, and then considered as useless by WEKA filter.

• As “Age” is defined by a large number of possible values ranging from 3 to 94, discretisation was applied to reduce this number, where ages were transformed to nine groups using WEKA filter.

That leaves 14 attributes which could be significant. These were input to the feature selection and classification algorithms as described in Section 3.

4.4.2. Feature Selection and ClassificationAs argued in section 3.2, the Attribute Subset Evaluator is more suitable for this field. To analyse the performance of our approach, we compared five attribute Subset Evaluators combined with eight classifier algorithms, where the feature set resulting from each feature selection algorithm is assigned as an input to each classifier. In addition, the classification process is based on separated training and test data, as our data are limited due to the cleaning step undertaken above, a k-fold cross-validation (k =5, 10, 20, 25) algorithm is pre-applied (Saeys et al., 2007; Witten, 2011). This splits training and test data in different ways, to ensure we are not overfitting to training data.

In total, WEKA (Hall et al., 2009) runs 160 (5*8*4) experiments. Although this number of experiments seems staggering, WEKA automates the process and much more, WEKA repeats the process N times to give mean accuracy and standard deviation value. Data mining relies on additional parameters of the algorithms. We carried out a series of preliminary experiments: our recommendation is that the default values for WEKA parameters are used. These depend on our data (e.g. minimum number of objects: 2, confidence factor: 0.25, pruning: true). Results showed that the best accuracy was performed by running 10 times k-fold cross-validation, with k = 25. Indeed, splitting our dataset on 25 folds enables the fine grained heterogeneity of our data to be explored.

4.4.3. ValidationAs identified in section 4.3, the lost state is the inaccurate part of our modelling; therefore, looking across our 160 experiments, we select classifiers reaching the highest class-wise accuracies particularly for the Lost state. In terms of feature selection algorithms, Filtered subset evaluator always provides the highest classification (for our data). In terms of classification algorithms, J48, J48Graft and LadTree algorithms reached the highest accuracy.


81

The rules resulting from J48 and J48Graft are described below, where the condition expresses the pertinent attributes and the conclusion expresses the state of individual.

As can be observed, the features Bacil 1-3 and Daira are those pertinent features inducing the state of individual during treatment. Recall that the Lost state is the inaccurate part of our modelling, the conditions leading to the Lost state are the point of interest (see dashed rectangle in the rules above). Although this indicates Bacil 1-3 as a classifier, in fact Bacil 1-3 are used as the definition of Lost: if we fail to have all of these tests, then the subject is defined as lost. Therefore, these add no additional information either to the expert knowledge or how the higher number of Lost cases arise.

We conclude the model arising from J48 and J48Graft does not give useful information, and we consider the LadTree model, which has the next highest accuracy after J48 and J48Graft. The rules resulting from Ladtree algorithm, as seen below, produce a multi class in the conclusion of the rule with their predictive values rather one class as in J48 tree.

If (Bacil3= MM) Then(-1.16,4.217,-1.159,-1.158,0.415,-1.155)If (Bacil3 ≠ MM) Then(0.643,0.376,-0.197,-0.632,0.49,-0.68)| If (Bacil2 = MM) Then(-0.769,2.585,-0.696,-0.66,0.192,-0.652)| If (Bacil2 ≠ MM) Then(0.343,-0.628,0.297,-0.008,0.141,-0.144)| | If (Daira = Ain Tedles) Then(-0.59,0.64,-0.008,0.777,-0.237,-0.581)| | If (Daira = Kheireddine) Then(0.526,-0.647,0.199,-0.794,0.116,0.6)

The Ladtree is based on decision nodes and prediction nodes, where a decision node refers to conditions in the rules above, and a prediction node refer to conclusions. As the LadTree algorithm is well known as a multiclass decision tree, the conclusion is expressed by a vector of predictive values corresponding to each class. In our example the predictive values refer respectively to: Lost, Recovered, Failed, Died, Trt_comp, Transferred.

Recall that our aim is to filter the branch reaching to the Lost state. In LadTree, we follow all paths leading to the Lost state for which all decision nodes are true (the “true” refers to the positive values expressed between brackets in the above rules). By maximising the sums of all predictive values corresponding to each branch, the best classifier is then selected. In our example the strongest classifier leading to the Lost state was from maximising the values (0.643, 0.643+0.343, 0.643+0.343+0.526). This result leads us to conclude that the attribute “Daira” is the main factor arising to this classifier.

The aim of analysing these conditions is not to predict TB, but to detect, extract and understand what is common in general to all TB individuals described in the database and in particular those that are lost.

Table 5 shows the Ladtree algorithm results depicting the class-wise accuracy and confusion matrix for six classes, where columns denote the instances in a predicted class and rows denote the instances in an actual class. The Recovered class yields highest accuracy (0.978) followed by the Lost class (0.811). It is clear that LadTree algorithm successfully classified and identified patients who are lost after the end of treatment.

As the aim of this research is to find out the determining factors for being lost, Table 5 and described rules strengthen the usefulness of “Daira” attribute.

In fact, the rules described above mean that the lost individual, infected by pulmonary TB, for whom the smear test 2 and 3 are either positive or unavailable, has more chance to be located in Daira of Kheireddine than in Daira of AinTedles. This suggests that a more refined model structured


82

on Daira could be more consistent with observed data, by integrating the selecting rules to the initial Bio-PEPA model. The next section describes this step in detail.

4.4.4. Optimisation of Bio-PEPA ModelTwo stages are required prior to further simulation: restructuring the TB database according to the condition described in the last section, and updating Bio-PEPA model.

• Restructuring tuberculosis database: To make the TB database heterogeneous, it should be divided into two parts, those situated in Kheireddine and those situated in Ain Tedles.

• Updating Bio-PEPA model: As the main concepts of Bio-PEPA are: parameters, compartments, functional rate and species, updating the initial model requires us to update each one of these concepts.

Conveniently, Bio-PEPA allows species to be grouped in compartments. In the first model the compartment was based on one location “City”. Here, we split the “City” compartment into two sub-compartments corresponding to the Daira of interest which contains only two sub-locations: Kheireddine and Ain Tedles. The set of rates is essentially as before, but specialized to use only individuals and rules in the specified location from which the new values were calculated. These two distinguished compartments help us to follow each group separately in simulation. The full Bio-PEPA model is available online (Hamami, 2015).

The revised model can now be analysed using simulations (100 simulations, time period as before) and comparing to 2010 data to answer the questions: which part of the population makes the simulated model illustrated in Figure 6 different than the observed data? Further, which attribute is pertinent to conduct this analysis and detect the missing information?

Histograms in Figure 7 (resp. 8), illustrate comparison between simulated and observed data of individuals located at Ain Tedles (resp. Kheireddine), in 2010. As can be seen from Figure 7 (resp. Figure 8), the gap between simulated and observed data is more important for Lost individuals located in Kheireddine, than those located in Ain Tedles. By comparing them to the observed number of infected in each location, the gap for those located in Ain Tedles is 2% (with number of lost in simulated data 5 compared to 3 in observed data), and the gap for those located in Kheireddine is 30% (with number of lost in simulated data 5 compared to 15 in observed data). Figure 7 and 8 show clearly that the rest of classes matched well between observed and simulated data with insignificant differences. The observed data is statistically analysed at 5% significance level (with χ2 = 0.862, degree of freedom=2 and p-value = 0.650 for Ain Tedles and χ2=5.742, degree of freedom = 2, p-value = 0.057 for Kheireddine).

Further, this simulation explains that group located in Kheireddine is the cause of the discrepancy between simulated and observed data which involves that more information is required to correctly predict an epidemic state. In general, in our approach, data mining can be repeated to extract further information from the restructured dataset. For the TB example the data is limited - just 40 instances for Kheireddine location. No new information was issued except Bacil 1-3; and these are not useful. By using symbolic decision tree induction, we have refined the initial model and more tightly identified the problem area which helps the expert to undertake the next step, to further investigate this particular portion of population and collect additional useful knowledge. Revealing this direct relationship between location and the lost state will lead the expert to investigate the district of Kheireddine more closely, and make a better decision.

By identifying the specific problem area, it is clearer now why the manual optimisation undertaken in section 4.4 did not lead to a more accurate result. The population in the global model was homogeneous and well mixed, with only one global rate of infection. By re-estimating this rate, it is impossible for the initial model to estimate accurately those lost in Kheirddine without leading to an imperfection for those lost located in Ain Tedles, and vice-versa. By defining the rate of infection


83

for each location, the revaluation using the range values defined in Table 2 is more accurate for that location. Indeed, the optimisation considers rates (rate of infection and rate of lost) related to the lost state in Kheireddine Location without changing those at Ain Tedles location. It is worth noting that the major concern in those rates is actually increasing the contact rate within population of Kheireddine. The choice was argued both by the formula defining the rate of infection illustrated in Table 2 and the capability to re-evaluate formula parameters. As infection probability is estimated from our data, this leads to re-evaluate the contact rate, which was increased from 27 to 29 for 2010. Results for updated model of the year 2010 are illustrated in Figure 9. Our histograms show better results when comparing simulated data to observed data, as a consequence of increasing the related rates which were under-estimated. Furthermore, to assess the global perspective of the last results corresponding to Kheireddine location (Figure 9), they were merged to those corresponding to Ain Tedles location (Figure 7) and compared to the global observed data (histograms in the right side of Figure 6). The final histograms in Figure 10 show clearly the positive impact of optimisation on our Bio-PEPA results. Recall that simply changing the parameter values (without changing the structure of the model) is not sufficient. Our study highlights the utility of decision tree induction in uncovering relevant features in the data, but also the requirement to couple this with constant reassessment of parameter values to achieve robust modelling results. The key element is that both of these are strongly tied to the nature of the disease, and the data collected.

In order to emphasize the generalized capability of our approach, the same process and simulations, as done for 2010, are carried out in the Bio-PEPA plug-in, for both years 2011 and 2012 by considering them as blind data, to show the refined model fits other years.

To predict 2011 (resp. 2012), the same initial Bio-PEPA model was used to carry out this simulation as for 2009 and 2010 keeping the same species and functions and varying rates depending on information extracted from 2008, 2009 and 2010 (resp. From 2008 to 2011). As shown in Figure 11 the simulated model corresponds well to observed data. The histograms illustrate the state of individuals, who were detected as infected in 2011, after 180 days of treatment. The statistical analysis (χ2=1.550, degree of freedom = 3, p-value = 0.671) shows that the observed data is statistically similar to the simulated data at 5% significance level.

If (BACIL3 = NF)| If (BACIL2 = NF)| | If (BACIL1 = NF) Then Lost| | If (BACIL1 = MM) Then Recovered| | If (BACIL1 = MP)| | | If (DAIRA = AIN TEDLES) Then Failed| | | If (DAIRA = KHEIR EDDINE) Then Lost| | If (BACIL1 = MP+) Then Lost| If (BACIL2 = MM) Then Recovered| If (BACIL2 = MP+)Then TransferredIf (BACIL3 = MM) Then RecoveredIf (BACIL3 = MP) Then Failed

As for 2009, this simulation predicts well what happened in 2011, which leads us to strengthen our opinion that the Bio-PEPA model works well when epidemic knowledge is correctly stated. Contrariwise, for 2012 it is clearly shown in Figure 12 that only for the Lost state a large difference separates simulated data and observed data, as it is under-predicted. The same steps were undertaken, as it was done for 2010, to extract pertinent information from decision tree induction, thus the initial model is refined by integrating Daira attribute extracted from the resulting rules as shown above.

Results for the updated model are illustrated in Figure 13 (resp. 14). Histograms show comparison between simulated and observed data of individuals located at Ain Tedles (resp. Kheireddine), in 2012.


84

As can be seen from these Figures, the gap between simulated and observed data is more important for Lost individuals located in Kheireddine than those located in Ain Tedles. By comparing them to the observed number of infected in each location, the gap for those located in Ain Tedles is 6% (with 5 lost in simulated data rather than 10 in observed data), and for those located in Kheireddine is 14% (with 4 lost in simulated data rather than 17 in observed data) (see Figure 14).

The refined model, enriched by Daira attribute, identified more specifically the area of difference with the data of 2012. That is, we have used the information of 2010 to create a model which corresponds for other years not considered in our data mining step. Independently, we applied decision tree induction for 2012 to confirm the use of the Daira attribute.

Results achieved by using the same set of feature selection algorithms combined with classification methods, define J48 algorithm as the most accurate by using 20-fold cross-validation. According to Table 6 depicting the class-wise accuracy and confusion matrix for six classes, the Recovered class yields higher (0.996) followed by Lost class (0.904). It is clear that J48 algorithm successfully classified and identified patients who are lost after the end of treatment. It is clear that J48 algorithm outperformed for the 2012 data comparing to the 2010 data.

As the aim of this research is to find out the determining factors for being lost, the rules defined above reveal the pertinent attributes resulting from use of the Filtered Subset Evaluator and J48 classifier.

It is clear that Daira attribute remains the most pertinent information extracted from tuberculosis dataset.

Further, based on assumptions made by the expert for 2010 concerning strong influence that the Lost state and Kheireddine location have on contact rate, the latter was increased from 27 to 30. The corresponding results are illustrated in Figure 15.

The analysed histograms validate the usefulness of increasing the related rates which were under-estimated.

We also performed the merging process between the last histograms depicting simulated data for Kheireddine location (Figure 15) and those for Ain tedles Location (Figure 13), with the aim of comparing the merged histograms to the global observed data (histograms in the right side of Figure 12).

The final histograms in Figure 16 show better fitting between simulated and observed data compared to the first model results.

These results strengthen our assumptions that the expert missed important information that could enrich our Bio-PEPA prediction for both years 2010 and 2012. It is clear that something happened in Kheireddine location during 2010 and 2012, leading to perform a specific optimisation for a specific part of population rather than refining parameters of the whole population. Even if, we succeed to achieve an accurate model comparing to the observed data, the expert should investigate more research to understand really what happened at Kheireddine location which leads to this group of lost. At that time, our model can be subject for further future predictions.

5. CoNCLUSIoN

In this paper we have presented results demonstrating the usefulness of combining data mining with Bio-PEPA modelling in the epidemiological field. We have done this by creating a framework in which data mining and Bio-PEPA modelling can be used together to better understand the mechanisms of detection and spread of epidemics, and by demonstrating its application to TB disease to identify influencing factors and their force. Thus we have met the objective set out at the beginning.

More specifically, we carried out a series of simulations to predict outbreaks in 2009, 2010, 2011 and 2012. The results showed that there is clearly variation between those different years. For 2009 and 2011, the initial prediction corresponded well to observed data, which means that all information used was sufficient to reproduce an accurate model. Conversely, for 2010 and 2012 the results showed


85

that the Bio-PEPA model ought to be enriched by new information (unknown by the expert). This is to be expected: variation within the system and unexpected future circumstances mean that the past is not always a good predictor of the future. However, using decision tree induction at this point helped to uncover which portion of the population should be subject to more investigation. This process was achieved by experimenting with eight decision tree classifiers combined with five feature selection algorithms, where the accuracy of classification reached to 76.41%. This rate is relatively low in data mining terms: this is due to our rather small, highly variable dataset. We therefore used accuracy enhanced by the true positive rate as a way of qualitatively identifying pertinent features to incorporate in our Bio-PEPA model. It is important to state that by analysing all dataset from 2008 to 2012 the accuracy was increased by 3%. In terms of feature selection algorithms and classifiers, the filtered subset evaluator yielded the highest accuracy for all classifiers where the best classifiers were Ladtree classifier for 2010 and J48 classifier for 2012. The results show that the most appropriate feature extracted is “Location”. This pertinent attribute leads to divide the Bio-PEPA model into two parts: “Kheireddine” location and “Ain tedles” location. It is clear that the Kheireddine location is the principal part of the model where the developer should parameterize parameters differently to the rest of the model. In addition, it suggests to the expert subareas and subsets he should explore to make the right decision.

The last step in this experiment, based on expert hypothesis, was to prove the influence of the Location attribute on the infection rate by inferring the number of contacts through experiments.

By comparing our analysis to other modelling and simulation works, as done by Aparicio and Castello-chavez (2009), when the simulated model does not fit with observed data, it is better to use pertinent parameters extracted from data mining than to select by inspiration. Aparicio and Castello-chavez (2009) argued in their last work, the importance of modelling age and its influence on the number of contacts. The parameters used for these attributes are drawn from a literature review. The question is: are those parameter values ranges the right ones? And are there other features more important than this one? For example, if the ranges of age groups resulting from expert analysis are not clustered correctly then significant and pertinent information will be hidden from the expert. As argued by Anderson and May (1991): “even if using a roughly flat age distribution in the host population had large impact on the force of infection for a specific period, this could be an unreasonable assumption for another period”. Further, in our study the age was among features defining TB data, but at no point was it depicted as the pertinent one by data mining. Through the use of decision tree induction, medical experts can detect relevant paths and even anomalies better than just human observation of datasets. By using Bio-PEPA modelling and simulation tools, we were able not only to validate the usefulness of extracting rules for the epidemiological study, but also to design the patterns which help to identify which, among a series of parameters, is the cause of an epidemic. By doing this, Bio-PEPA with symbolic induction decision tree aids the decision making of the epidemiologist.

In this study we proved the performance of using data mining at optimisation step in the existing computational model gaining on time and complexity.

This work is the first step in showing that data mining techniques generally can be used to support formal modelling. In future work we plan to optimise a selection of parameters affecting classifier performance and to carry out a large comparative study of all the data mining techniques, including association rules and clustering algorithms, as well as combining a set of classifiers, and their combination with our modelling approach. This will expand the range of measures used to select new content for our formal models. That is, rather than simply using accuracy rate (as here) as the principal measure to choose the best classifier, we can use information about clusters and associations to enhance the model.


86

REFERENCES

Aguiar, F. S., Almeida, L. L., Ruffino-Netto, A., Kritski, A. L., Mello, F. C., & Werneck, G. L. (2012). Classification and regression tree (CART) model to predict pulmonary tuberculosis in hospitalized patients. BMC Pulmonary Medicine, 12(1), 40. doi:10.1186/1471-2466-12-40 PMID:22871182

Almeida, V. G., Borba, J., Pereira, H. C., Pereira, T., Correia, C., Pêgo, M., & Cardoso, J. (2014). Cardiovascular risk analysis by means of pulse morphology and clustering methodologies. Computer Methods and Programs in Biomedicine, 117(2), 257–266. doi:10.1016/j.cmpb.2014.06.010 PMID:25023535

Amouroux, e., taillandier, p., & drogoul, a. (2012). Complex environment representation out epidemiology abm: application on h5n1 propagatio. Tạp chí Khoa học và Công nghệ, 48(4).

Anderson, R. M., May, R. M., & Anderson, B. (1992). Infectious diseases of humans: dynamics and control (Vol. 28). Oxford: Oxford university press.

Aparicio, J. P., & Castillo-Chavez, C. (2009). Mathematical modelling of tuberculosis epidemics. Mathematical Biosciences and Engineering, 6(2), 209–237. doi:10.3934/mbe.2009.6.209 PMID:19364150

Atmani, B., & Beldjilali, B. (2012). Knowledge discovery in database: Induction graph and cellular automaton. Computing and Informatics, 26(2), 171–197.

Azar, A. T., Elshazly, H. I., Hassanien, A. E., & Elkorany, A. M. (2014). A random forest classifier for lymph diseases. Computer Methods and Programs in Biomedicine, 113(2), 465–473. doi:10.1016/j.cmpb.2013.11.004 PMID:24290902

Benkirane, S., Norman, R., Scott, E., & Shankland, C. (2012). Measles epidemics and PEPA: an exploration of historic disease dynamics using process algebra. In FM 2012: Formal Methods (pp. 101-115). Springer Berlin Heidelberg. doi:10.1007/978-3-642-32759-9_11

Blower, S. M., & Gerberding, J. L. (1998). Understanding, predicting and controlling the emergence of drug-resistant tuberculosis: A theoretical framework. Journal of Molecular Medicine, 76(9), 624–636. doi:10.1007/s001090050260 PMID:9725765

Bonmarin, I., Santa-Olalla, P., & Lévy-Bruhl, D. (2008). Modélisation de limpact de la vaccination sur lépidémiologie de la varicelle et du zona. Revue dEpidemiologie et de Sante Publique, 56(5), 323–331. doi:10.1016/j.respe.2008.07.087

Brieman, L., Friedman, J., Olshen, R., & Stone, C. (1984). Classification and regression trees. Monterrey, CA: Wadsworth & Brooks.

Carr, M., Ravi, V., Reddy, G. S., & Veranna, D. (2013). Machine Learning Techniques Applied to Profile Mobile Banking Users in India. International Journal of Information Systems in the Service Sector, 5(1), 82–92. doi:10.4018/jisss.2013010105

Ciocchetta, F., & Hillston, J. (2009). Bio-PEPA: A framework for the modelling and analysis of biological systems. Theoretical Computer Science, 410(33), 3065–3084. doi:10.1016/j.tcs.2009.02.037

Ciocchetta, F., & Hillston, J. (2009a). Bio-PEPA for epidemiological models. ENTCS, 261, 43–69.

de Espíndola, A. L., Bauch, C. T., Cabella, B. C. T., & Martinez, A. S. (2011). An agent-based computational model of the spread of tuberculosis. Journal of Statistical Mechanics, (05): P05003.

Debanne, S. M., Bielefeld, R. A., Cauthen, G. M., Daniel, T. M., & Rowland, D. Y. (2000). Multivariate Markovian modeling of tuberculosis: Forecast for the United States. Emerging Infectious Diseases, 6(2), 148–157. doi:10.3201/eid0602.000207 PMID:10756148

Delen, D., Walker, G., & Kadam, A. (2005). Predicting breast cancer survivability: A comparison of three data mining methods. Artificial Intelligence in Medicine, 34(2), 113–127. doi:10.1016/j.artmed.2004.07.002 PMID:15894176

Duguid, A., Gilmore, S., Guerriero, M. L., Hillston, J., & Loewe, L. (2009, December). Design and development of software tools for Bio-PEPA. Proceedings of theWinter Simulation Conference (pp. 956-967). Winter Simulation Conference. doi:10.1109/WSC.2009.5429725

http://dx.doi.org/10.1186/1471-2466-12-40

http://www.ncbi.nlm.nih.gov/pubmed/22871182

http://dx.doi.org/10.1016/j.cmpb.2014.06.010


http://dx.doi.org/10.3934/mbe.2009.6.209




http://dx.doi.org/10.1007/978-3-642-32759-9_11

http://dx.doi.org/10.1007/s001090050260

http://dx.doi.org/10.1007/s001090050260


http://dx.doi.org/10.1016/j.respe.2008.07.087

http://dx.doi.org/10.4018/jisss.2013010105

http://dx.doi.org/10.1016/j.tcs.2009.02.037



http://dx.doi.org/10.1016/j.artmed.2004.07.002


http://dx.doi.org/10.1109/WSC.2009.5429725


87

Frost, W. H. (1995). The age selection of mortality from tuberculosis in successive decades. American Journal of Epidemiology, 141(1), 4–9. PMID:7801964

Geisweiller, N. (2006). EM-PEPA, A Software to Find the Most Likely Rates Inside a PEPA Model. Retrieved from http://empepa.sourceforge.net/

Gibert, K., Sanchez-Marre, M., & Codina, V. (2010). Choosing the right data mining technique: classification of methods and intelligent recommendation (Doctoral dissertation). International Environmental Modelling and Software Society.

Gibert, K., Spate, J., Sànchez-Marrè, M., Athanasiadis, I. N., & Comas, J. (2008). Chapter twelve data mining for environmental systems. Developments in Integrated Environmental Assessment, 3, 205–228. doi:10.1016/S1574-101X(08)00612-1

Goeyvaerts, N., Willem, L., Van Kerckhove, K., Vandendijck, Y., Hanquet, G., Beutels, P., & Hens, N. (2015). Estimating dynamic transmission model parameters for seasonal influenza by fitting to age and season-specific influenza-like illness incidence. Epidemics, 13, 1–9. doi:10.1016/j.epidem.2015.04.002 PMID:26616037

Gorunescu, F. (2011). Data Mining: Concepts, models and techniques (Vol. 12). Springer Science & Business Media. doi:10.1007/978-3-642-19721-5

Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157–1182.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, 11(1), 10-18.

Hall, M., Witten, I., & Frank, E. (2011). Data mining: Practical machine learning tools and techniques. Burlington: Kaufmann.

Hamami, D. (2015). URL Bio-PEPA code. Retrieved from http://www.cs.stir.ac.uk/~dha/

Hamami, D., & Atmani, B. (2012). Modeling the effect of vaccination on varicella using Bio-PEPA.Proc. of IASTED (pp. 783-077). doi:10.2316/P.2012.783-077

Hamami, D., & Atmani, B. (2013, April). Tuberculosis Modelling Using Bio-PEPA Approach. In Proceedings of World Academy of Science, Engineering and Technology (No. 76, p. 871). World Academy of Science, Engineering and Technology (WASET).

Hamami, D., & Atmani, B. (2014). From Simulated Model By Bio-PEPA to Narrative Language Through SBML. International Journal of Control Theory and Computer Modeling, 4(1/2), 27–43. doi:10.5121/ijctcm.2014.4203

Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques (2nd ed.). San Francisco: Morgan Kaufmann Publishers.

Holmes, G., Pfahringer, B., Kirkby, R., Frank, E., & Hall, M. (2002). Multiclass alternating decision trees. Proceedings of the Machine learning ECML ‘02 (pp. 161-172). Springer Berlin Heidelberg. doi:10.1007/3-540-36755-1_14

Inbarani, H. H., Azar, A. T., & Jothi, G. (2014). Supervised hybrid feature selection based on PSO and rough sets for medical diagnosis. Computer Methods and Programs in Biomedicine, 113(1), 175–185. doi:10.1016/j.cmpb.2013.10.007 PMID:24210167

Karegowda, A. G., Manjunath, A. S., & Jayaram, M. A. (2010). Comparative study of attribute selection using gain ratio and correlation based feature selection. International Journal of Information Technology and Knowledge Management, 2(2), 271–277.

Keeling, M. J., & Rohani, P. (2008). Modeling infectious diseases in humans and animals. Princeton University Press.

Kotu, V., & Deshpande, B. (2015). Data Mining Process Predictive Analytics and Data Mining. Morgan Kaufmann.

Krizmaric, M., Verlic, M., Stiglic, G., Grmec, S., & Kokol, P. (2009). Intelligent analysis in predicting outcome of out-of-hospital cardiac arrest. Computer Methods and Programs in Biomedicine, 95(2), S22–S32. doi:10.1016/j.cmpb.2009.02.013 PMID:19342117


http://empepa.sourceforge.net/

http://dx.doi.org/10.1016/S1574-101X(08)00612-1

http://dx.doi.org/10.1016/S1574-101X(08)00612-1

http://dx.doi.org/10.1016/j.epidem.2015.04.002


http://dx.doi.org/10.1007/978-3-642-19721-5

http://www.cs.stir.ac.uk/~dha/

http://dx.doi.org/10.2316/P.2012.783-077

http://dx.doi.org/10.5121/ijctcm.2014.4203

http://dx.doi.org/10.1007/3-540-36755-1_14

http://dx.doi.org/10.1007/3-540-36755-1_14








88

Lanzas, C., & Chen, S. (2015). Complex system modelling for veterinary epidemiology. Preventive Veterinary Medicine, 118(2), 207–214. doi:10.1016/j.prevetmed.2014.09.012 PMID:25449734

Lavanya, D., & Rani, K. U. (2013). A Hybrid Approach to Improve Classification with Cascading of Data Mining Tasks. International Journal of Application or Innovation in Engineering Management, 2, 345–350.

López-Vallverdú, J. A., Riañ, O. D., & Bohada, J. A. (2012). Improving medical decision trees by combining relevant health-care criteria. Expert Systems with Applications, 39(14), 11782–11791. doi:10.1016/j.eswa.2012.04.073

Macaš, M., Lhotská, L., Bakstein, E., Novák, D., Wild, J., Sieger, T., & Jech, R. et al. (2012). Wrapper feature selection for small sample size data driven by complete error estimates. Computer Methods and Programs in Biomedicine, 108(1), 138–150. doi:10.1016/j.cmpb.2012.02.006 PMID:22472029

Mancini, M. (2014). Exploiting big data for improving healthcare services. Journal of e-Learning and Knowledge Society, 10(2).

Mantas, J. (2014). Machine learning for knowledge extraction from phr big data. Integrating Information Technology and Management for Quality of Care, 202, 36. PMID:25000009

Marco, D., Shankland, C., & Cairns, D. (2012, July). Evolving Bio-PEPA process algebra models using genetic programming.Proceedings of the 14th annual conference on Genetic and evolutionary computation (pp. 177-184). ACM. doi:10.1145/2330163.2330189

Maumus, S., Napoli, A., Szathmary, L., & Visvikis-Siest, S. (2005). Fouille de données biomédicales complexes: extraction de règles et de profils génétiques dans le cadre de l’étude du syndrome métabolique. In Journées Ouvertes Biologie Informatique Mathématiques JOBIM ‘05 (pp. 169-173).

Mitchell, T. (1997). Decision tree learning. In Machine Learning (Vol. 414, Ch. 3, pp. 52–78). The McGraw-Hill Companies, Inc.

Moualeu-Ngangue, D. P., Röblitz, S., Ehrig, R., & Deuflhard, P. (2015). Parameter Identification in a Tuberculosis Model for Cameroon. PLoS ONE, 10(4), e0120607. doi:10.1371/journal.pone.0120607 PMID:25874885

Moundalexis, M. L., & Nag, B. N. (2013). Decision making, dashboard displays, and human performance in service systems. International Journal of Information Systems in the Service Sector, 5(4), 32–46. doi:10.4018/ijisss.2013100103

Norman, R., & Shankland, C. (2003). Developing the use of process algebra in the derivation and analysis of mathematical models of infectious disease. In Computer Aided Systems Theory-EUROCAST 2003 (pp. 404–414). Springer Berlin Heidelberg. doi:10.1007/978-3-540-45210-2_37

Oaken, D. R. (2014). Optimisation of Definition Structures & Parameter Values in Process Algebra Models Using Evolutionary Computation.

Ou-Yang, C., Agustianty, S., & Wang, H. C. (2013). Developing a data mining approach to investigate association between physician prescription and patient outcome–A study on re-hospitalization in Stevens–Johnson Syndrome. Computer Methods and Programs in Biomedicine, 112(1), 84–91. doi:10.1016/j.cmpb.2013.07.004 PMID:23910224

Ozcaglar, C., Shabbeer, A., Vandenberg, S. L., Yener, B., & Bennett, K. P. (2012). Epidemiological models of Mycobacterium tuberculosis complex infections. Mathematical Biosciences, 236(2), 77–96. doi:10.1016/j.mbs.2012.02.003 PMID:22387570

Phyu, T. N. (2009, March). Survey of classification techniques in data mining. Proceedings of the International MultiConference of Engineers and Computer Scientists, 1, 18–20.

Piarroux, R., Barrais, R., Faucher, B., Haus, R., Piarroux, M., Gaudart, J., & Raoult, D. et al. (2011). Understanding the cholera epidemic, Haiti. Emerging Infectious Diseases, 17(7), 1161–1168. doi:10.3201/eid1707.110059 PMID:21762567

Prandi, D. (2010). Particle swarm optimization for stochastic process calculi.Proceedings of the 9th Workshop on Process Algebra and Stochastically Timed Activities (pp. 77-82).

Quinlan, J. (1993). C4.5: programs for machine learning. San Mateo, CA: Morgan Kaufmann.

http://dx.doi.org/10.1016/j.prevetmed.2014.09.012


http://dx.doi.org/10.1016/j.eswa.2012.04.073

http://dx.doi.org/10.1016/j.eswa.2012.04.073




http://dx.doi.org/10.1145/2330163.2330189

http://dx.doi.org/10.1371/journal.pone.0120607


http://dx.doi.org/10.4018/ijisss.2013100103

http://dx.doi.org/10.4018/ijisss.2013100103

http://dx.doi.org/10.1007/978-3-540-45210-2_37



http://dx.doi.org/10.1016/j.mbs.2012.02.003

http://dx.doi.org/10.1016/j.mbs.2012.02.003





89

Saeys, Y., Inza, I., & Larrañaga, P. (2007). A review of feature selection techniques in bioinformatics. bioinformatics, 23(19), 2507-2517.

Sebban, M., Mokrousov, I., Rastogi, N., & Sola, C. (2002). A data-mining approach to spacer oligonucleotide typing of Mycobacterium tuberculosis. Bioinformatics (Oxford, England), 18(2), 235–243. doi:10.1093/bioinformatics/18.2.235 PMID:11847071

Shi, H. (2008). Best-first decision tree learning (Thesis). Citeseer, Hamilton.

Smitha, T., & Sundaram, V. (2012). Classification rules by decision tree for disease prediction. International Journal of Computers and Applications, 43, 35–37.

Tofts, C. (1993). Using process algebra to describe social insect behaviour. Transactions of the Society for Computer Simulation, 9(4), 227–283.

Venkatesan, P., & Yamuna, N. R. (2013). Treatment response classification in randomized clinical trials: A decision tree approach. Indian Journal of Science and Technology, 6(1), 3912–3917.

Vynnycky, E., & Fine, P. E. M. (1997). The natural history of tuberculosis: The implications of age-dependent risks of disease and the role of reinfection. Epidemiology and Infection, 119(02), 183–201. doi:10.1017/S0950268897007917 PMID:9363017

Wang, Z., Yan, R., Chen, Q., & Xing, R. (2012). Data mining in nonprofit organizations, government agencies, and other institutions. Advancing the Service Sector with Evolving Technologies: Techniques and Principles: Techniques and Principles, 208.

Weber, A., Weber, M., & Milligan, P. (2001). Modeling epidemics caused by respiratory syncytial virus (RSV). Mathematical Biosciences, 172(2), 95–113. doi:10.1016/S0025-5564(01)00066-9 PMID:11520501

Wolkewitz, M., & Schumacher, M. (2011). Simulating and analysing infectious disease data in a heterogeneous population with migration. Computer Methods and Programs in Biomedicine, 104(2), 29–36. doi:10.1016/j.cmpb.2010.05.007 PMID:20633950

World Health Organization (WHO). (2009). Tuberculosis. Retrieved from http://www.who.int/topics/tuberculosis/en/

Zhao, Y., & Zhang, Y. (2008). Comparison of decision tree methods for finding active objects. Advances in Space Research, 41(12), 1955–1959. doi:10.1016/j.asr.2007.07.020

http://dx.doi.org/10.1093/bioinformatics/18.2.235

http://dx.doi.org/10.1093/bioinformatics/18.2.235


http://dx.doi.org/10.1017/S0950268897007917

http://dx.doi.org/10.1017/S0950268897007917


http://dx.doi.org/10.1016/S0025-5564(01)00066-9





http://www.who.int/topics/tuberculosis/en/

http://www.who.int/topics/tuberculosis/en/

http://dx.doi.org/10.1016/j.asr.2007.07.020


90

APPENDIX

Figure 1. Bio-PEPA model component

Figure 2. Modelling and simulation process


91

Figure 3. Simplified tuberculosis model

Figure 4. Tuberculosis Bio-PEPA Model


92

Figure 5. Histograms for tuberculosis model for 2009



93

Figure 7. Histograms for tuberculosis model for Ain Tedles 2010

Figure 8. Histograms for tuberculosis model for Kheireddine 2010


94

Figure 9. Updated tuberculosis model for Kheireddine Location 2010

Figure 10. Final Histograms for tuberculosis model for 2010


95




96

Figure 13. Histograms for tuberculosis model for Ain Tedles Location 2012

Figure 14. Histograms for tuberculosis model for Kheireddine Location 2012


97

Figure 15. Updated tuberculosis model for Kheireddine Location 2012

Figure 16. Final Histograms for tuberculosis model for 2012


98

Table 1. Attributes and description

Attributes Description

Attributes used in the study

Age Age of individual

Sexe Male / Female

Mois month of detection

Trim season of detection

Annee year of detecting disease

Com City

Daira municipality

adress Flat nimber, Zip code, etc.

Date_Debut_TRT Date of starting treatment

Typmal New/Relapse/Failure/Other

Bacil1, Bacil2, Bacil3

Baciloscopy1, Baciloscopy 2, Baciloscopy 3. MM: negative, MP: positive, known as microscopy for Bacilli, test performed during six months of treatment by using a microscope to detect bacteria of tuberculosis in sputum samples. This test is used to manage mycrobacterial infections of tuberculosis.

AretTRT State of patient at the end of treatment period: Lost: individual diagnosed but not treated, failed: treated but not recovered, Trt_comp: completed treatment without proving recovery, died, transferred: resistant TB, recovered.

Attributes not used in the study

ID, First name, Last name RecStatus Loc DiagnoTP DiagnoTEP Preuve MalAsso

Identifier, first name of patient, last name of patient national identity number pulmonary or Extra pulmonary tuberculosis Patient diagnosed as a pulmonary tuberculosis Patient diagnosed as extra-pulmonary tuberculosis Examination of Extra pulmonary tuberculosis Other disease related to the record


99

Table 2. Model Parameters

Parameter Description Value Formula

p Rate of developing active pulmonary tuberculosis from susceptible state

5.4 e-8 (Contact _ Number / Infection_Period)* Infection_Probability 1 (Keeling and Rohani, 2008).

θ 1 Transfer rate 0.1 e-3 (1/ Infection_Period) * Transfer _Probability1 (Keeling and Rohani, 2008).

θ 2 Failure rate 3.7 e-4 (1/ Infection_Period) * Failure_Probability

θ 3 Lost rate 8.5 e-3 (1/ Infection_Period)* Lost _Probability1

θ 4 Complete treatment rate 7.8 e-4 (1/ Infection_Period)* Treatment_completed_Probability

θ 5 Death rate 1.9 e-4 (1/ Infection_Period)* Death_Probability1

θ 6 Recovery rate 4 e-4 (1/ Infection_Period)* Recovery_Probability1

ηt Rate of recovered individual moving to susceptible state 1 All recovered move to Susceptible state.

ɳ1 Rate of failure state transiting to infected TP state 1 All failed move to Infected state

ɳ Rate of lost transferred to Infected state 1 All lost move to Infected state

Contact Number Contact with one infected case 27 Range over the interval [7,30]: possible freedom to vary these to fit observed data (Aparicio and Castillo-chavez, 2009)

Infection Period (month)

The period during which the virus can be transmitted 6 Range over the interval [6,24]: possible freedom to vary these to fit

observed data (Aparicio and Castillo-chavez, 2009)

1the probabilities are calculated from observed data.

Table 3. Description the uses of data by year in Bio-PEPA process

Year of prediction 2009 2010 2011 2012

Set of years used 2008 2008-2009 from 2008 to 2010 from 2008 to 2011

Table 4. Description the uses of data by year in data mining process

Year of prediction 2010 2012

Set of years used From 2008 to 2010 from 2008 to 2012


100

Table 5. Confusion matrix and class wise accuracy of Ladtree algorithm

Predicted classes

Class label Died Failed Recovered Lost Transferred Trt_comp

Died 0 0 1 7 0 0

Failed 0 0 2 10 0 4

Recovered 1 0 136 0 0 2

Lost 0 1 1 30 0 5


Trt_comp 0 1 12 15 1 5

True positive rate 0 0 0.978 0.811 0.333 0.147

False Positive Rate 0.004 0.009 0.168 0.172 0.004 0.053

Table 6. Confusion matrix and class wise accuracy of j48 algorithm

Predicted classes

Class label Died Failed Recovered Lost Transferred Trt_comp

Died 0 0 1 11 1 0

Failed 0 5 4 10 0 0

Recovered 0 0 227 0 1 0

Lost 0 1 6 66 0 0


Trt_comp 0 0 19 33 1 0

TP rate 0 0.005 0.996 0.904 0.429 0

FP Rate 0 0.263 0.188 0.175 0.008 0


101

Dalila Hamami is a PhD student at Computing Science Department, Oran University (Algeria) in collaboration with School of Natural Science, Stirling University (Stirling). She completed her Master’s in Computing science in 2007. Her research interests include modelling, simulation, data mining and optimization and decision support systems. She is currently assistant lecturer at Computing science and mathematics department, University of Abdelhamid Ibn Badis, Mostaganem, Algeria.

Baghdad Atmani is a professor of Computing Science at the University of Oran. His field of interests are Data Mining and Machine Learning Tools. His research is based on Knowledge Representation, Knowledge-based Systems and CBR, Data and Information Integration and Modelling, Data Mining Algorithms, Expert Systems and Decision Support Systems. His research is guided and evaluated through various applications in the field of control systems, scheduling, production, maintenance, information retrieval, simulation, data integration and spatial data mining.

Carron Shankland is a professor of Computing Science at the University of Stirling, and deputy head of the school of Natural Sciences. Her research lies in the intersection of computer science, mathematics and biology: understanding the behaviour of biological systems through mathematical and computational models. Her models (in process algebra) can describe systems at a high level of abstraction as networks of communicating individuals, scaling up to the emergent population dynamics. Her group has worked across a range of biological systems (disease dynamics, immunological systems, collective dynamics of cells, cell signaling response to cancer therapies) as well as in computer networks and protocols. In addition, her group is developing an exciting technique combining genetic programming with modelling to produce models directly from experimental data. Prof Shankland leads activities in the modelling and abstraction theme in the Scottish Computing community, and nationally co-leads the POEMS network linking modelling to healthcare technology.

Documents

DEPARTEMENT D'INFORMATIQUE THESE · sagesse pour laccomplissement de cette thèse. Je les remercie pour leurs encouragements et sacrifices. Un merci sans frontière à mes très chers