134
Forage de données de bases administratives en santé Thèse Ahmed Najjar Doctorat en génie électrique Philosophiæ doctor (Ph.D.) Québec, Canada © Ahmed Najjar, 2017

Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Forage de données de bases administratives en santé

Thèse

Ahmed Najjar

Doctorat en génie électriquePhilosophiæ doctor (Ph.D.)

Québec, Canada

© Ahmed Najjar, 2017

Page 2: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Forage de données de bases administratives en santé

Thèse

Ahmed Najjar

Sous la direction de:

Christian Gagné, directeur de rechercheDaniel Reinharz, codirecteur de recherche

Page 3: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Résumé

Les systèmes de santé actuels sont de plus en plus informatisés et dotés de systèmes de collecteet de stockage des données. Une énorme quantité des données est ainsi stockée dans les bases dedonnées médicales. Les bases de données, conçues à des fins administratives ou de facturation,sont alimentées de nouvelles données à chaque fois que le patient fait appel au système desoins de santé. Cette spécificité rend ces bases de données une source riche en information etextrêmement intéressante et utile. Elles rassemblent ainsi toutes les données de prestation desoins et pourraient permettre de construire et de dévoiler les processus de soins des patients.Toutefois, malgré cet intérêt évident que représente ces banques de données administratives,elles sont jusqu’à date sous-exploitées par les chercheurs. Nous proposons donc dans cettethèse une approche de découverte de connaissances qui à partir des données administrativesbrutes permet de détecter des patrons des trajectoires de soins des patients.

Nous avons tout d’abord proposé un algorithme capable de regrouper des objets complexes quireprésentent les services médicaux. Ces objets sont caractérisés par un mélange de variablesnumériques, catégorielles et catégorielles multivaluées. Nous proposons pour cela d’extrairedes espaces de projection pour les variables multivaluées et de modifier le calcul de la distanceentre les objets afin de prendre ces projections en compte.

La deuxième nouveauté consiste à la proposition d’un modèle de mélange en deux étapes,capable de regrouper ces objets. Ce modèle fait appel à la distribution gaussienne pour lesvariables numériques, multinomiales pour les variables catégorielles et aux modèles cachésde Markov (HMM) pour les variables multivaluées. Nous obtenons ainsi deux algorithmescapables de regrouper des objets complexes caractérisés par un mélange de variables.

Par la suite, une approche de découverte de patrons des trajectoires de soins a été mise enplace. Cette approche comporte plusieurs étapes. La première est l’étape de prétraitement quipermet de construire et de générer les ensembles des services médicaux. Ainsi, on obtient troisensembles des services médicaux : un pour les séjours hospitaliers, un pour les consultationset un pour les visites. La deuxième étape est l’étape de modélisation et regroupement des pro-cessus de soins comme une succession des étiquettes des services médicaux. Ces processus sontcomplexes et ils nécessitent une méthode sophistiquée de regroupement. Nous proposons ainsiun algorithme de regroupement basé sur les HMM. Finalement, une approche de visualisation

iii

Page 4: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

et d’analyse des patrons des trajectoires est proposée pour exploiter les modèles découverts.L’ensemble de ces étapes forment le processus de découvertes des patrons des trajectoires àpartir des bases de données administratives en santé.

Nous avons appliqué cette approche aux bases de données sur la prestation des soins pour lespersonnes âgées de 65 ans et plus souffrant d’insuffisance cardiaque et habitant à la provincede Québec. Ces données sont extraites de trois bases de données : la banque de donnéesMED-ÉCHO du MSSS, la banque de la RAMQ et la base contenant les données concernantles certificats de décès. Les résultats issus de ce projet ont montré l’efficacité de notre approcheet de nos algorithmes en détectant des patrons spéciaux qui peuvent aider les administrateursde soins de santé à mieux gérer les soins de santé.

iv

Page 5: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Abstract

Current health systems are increasingly equipped with data collection and storage systems.Therefore, a huge amount of data is stored in medical databases. Databases, designed foradministrative or billing purposes, are fed with new data whenever the patient uses thehealthcare system. This specificity makes these databases a rich source of information andextremely interesting. These databases can unveil the constraints of reality, capturing ele-ments from a great variety of real medical care situations. So, they could allow the conceptionand modeling the medical treatment process. However, despite the obvious interest of theseadministrative databases, they are still underexploited by researchers. In this thesis, we pro-pose a new approach of the mining for administrative data to detect patterns from patientcare trajectories.

Firstly, we have proposed an algorithm able to cluster complex objects that represent med-ical services. These objects are characterized by a mixture of numerical, categorical andmultivalued categorical variables. We thus propose to extract one projection space for eachmultivalued variable and to modify the computation of the distance between the objects toconsider these projections.

Secondly, a two-step mixture model is proposed to cluster these objects. This model uses theGaussian distribution for the numerical variables, multinomial for the categorical variablesand the hidden Markov models (HMM) for the multivalued variables. Finally, we obtain twoalgorithms able to cluster complex objects characterized by a mixture of variables.

Once this stage is reached, an approach for the discovery of patterns of care trajectories is setup. This approach involves the followed steps: 1. preprocessing that allows the building andgeneration of medical services sets. Thus, three sets of medical services are obtained: one forhospital stays, one for consultations and one for visits. 2. modeling of treatment processesas a succession of labels of medical services. These complex processes require a sophisticatedmethod of clustering. Thus, we propose a clustering algorithm based on the HMM. 3. creatingan approach of visualization and analysis of the trajectory patterns to mine the discoveredmodels. All these steps produce the knowledge discovery process from medical administrativedatabases.

v

Page 6: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

We apply this approach to databases for elderly patients over 65 years old who live in theprovince of Quebec and are suffering from heart failure. The data are extracted from the threedatabases: the MSSS MED-ÉCHO database, the RAMQ bank and the database containingdeath certificate data. The obtained results clearly demonstrated the effectiveness of ourapproach by detecting special patterns that can help healthcare administrators to bettermanage health treatments.

vi

Page 7: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures x

Remerciements xv

1 Introduction générale 11.1 Contexte et problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Plan de thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Forage des données : notions et techniques 82.1 Les domaines de forage de données . . . . . . . . . . . . . . . . . . . . . . . 82.2 Méthodes et techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Forage de données des bases administratives médicales 263.1 Les bases de données administratives en santé . . . . . . . . . . . . . . . . . 263.2 Les méthodes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3 Le forage de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Algorithme k-prototypes pour données hétérogènes complexes 334.1 Définition du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 Nouvel algorithme k-prototype . . . . . . . . . . . . . . . . . . . . . . . . . 364.3 Étude de cas : échantillon des séjours hospitaliers . . . . . . . . . . . . . . . 414.4 Résultats pour l’ensemble des séjours hospitaliers . . . . . . . . . . . . . . . 49

5 Modèle de mélange fini hétérogène en deux étapes 545.1 Définition du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2 Modèle de mélange hétérogène proposé . . . . . . . . . . . . . . . . . . . . . 565.3 Étude de cas : Échantillon des séjours hospitaliers . . . . . . . . . . . . . . 605.4 Résultats pour l’ensemble des séjours hospitaliers . . . . . . . . . . . . . . . 65

vii

Page 8: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

6 Approche de regroupement des processus complexes 726.1 Regroupement de processus . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.2 Méthodologie proposée pour le regroupement des processus d’objets complexes 766.3 Approche proposée pour l’analyse des résultats . . . . . . . . . . . . . . . . 82

7 Cas d’étude : bases de données administratives à Québec 857.1 Mise en contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.2 Description et prétraitement des données . . . . . . . . . . . . . . . . . . . 877.3 Résultats et analyses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

8 Conclusion 1068.1 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1078.2 Impact potentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Bibliographie 110

A Liste des publications 118A.1 Revues scientifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118A.2 Conférences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

viii

Page 9: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Liste des tableaux

4.1 Description de quelques centres de groupes des séjours hospitaliers obtenus parla méthode proposée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.2 Description de quelques centres de groupes de l’ensemble des séjours hospita-liers obtenus par la méthode proposée. . . . . . . . . . . . . . . . . . . . . . . . 52

5.1 Description de quelques centres de groupes des séjours hospitaliers obtenus parla méthode proposée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

7.1 Chapitres des diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 907.2 Description de certains groupes avec forte présence de séjours hospitaliers dans

les trajectoires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957.3 Certains modèles découverts pour groupes ayant une forte présence des séjours

hospitaliers dans leurs trajectoires. . . . . . . . . . . . . . . . . . . . . . . . . . 967.4 Description des groupes de patron des maladies rénales. . . . . . . . . . . . . . 997.5 Description des groupes pour le patron des maladies cardiaques. . . . . . . . . 1007.6 Description des groupes pour le patron des maladies cardiaques décompensées. 1027.7 Description des groupes pour le patron des maladies de l’anémie. . . . . . . . . 104

ix

Page 10: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Liste des figures

2.1 Différentes étapes du processus de découverte des connaissances . . . . . . . . . 92.2 Modèle Markov caché avec trois états . . . . . . . . . . . . . . . . . . . . . . . 21

4.1 Morbidité entre les maladies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2 Valeurs des supports sur l’échantillon des séjours hospitaliers. . . . . . . . . . . 434.3 Variabilité des diagnostiques au sein des groupes . . . . . . . . . . . . . . . . . 444.4 Variabilité des interventions en fonction des groupes . . . . . . . . . . . . . . . 464.5 Variabilité des spécialités des médecins en fonction des groupes . . . . . . . . . 484.6 Variabilité des services visités au sein des groupes . . . . . . . . . . . . . . . . . 494.7 Valeur de l’indice CH en fonction du nombre de groupes. . . . . . . . . . . . . 504.8 Variabilité des diagnostiques au sein des groupes pour l’ensemble des séjours

hospitaliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.9 Valeurs des supports de certaines interventions selon les groupes des séjours

hospitaliers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.10 Valeurs des supports de certains services selon les groupes des séjours hospitaliers. 53

5.1 Comparaison des résultats obtenus avec l’algorithme Espérance-Maximisation(EM) appliquée uniquement aux variables numériques et catégorielles avecla méthode proposée traitant également des valeurs catégorielles multivaluées(EM+HMM). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.2 Variabilité des diagnostiques au sein des groupes . . . . . . . . . . . . . . . . . 645.3 Variabilité des interventions en fonction des groupes . . . . . . . . . . . . . . . 665.4 Variabilité des spécialités des médecins en fonction des groupes . . . . . . . . . 685.5 Variabilité des services visités au sein des groupes . . . . . . . . . . . . . . . . . 695.6 Valeur de BIC en fonction du nombre de groupes. . . . . . . . . . . . . . . . . 695.7 Comparaison des résultats obtenus avec la méthode de Espérance-Maximisation

appliquée uniquement aux variables numériques et catégorielles(EM) et ceuxobtenus avec la méthode proposée considérant en plus les valeurs catégoriellesmultivaluées(EM+HMM) pour l’ensemble des séjours hospitaliers. . . . . . . . 70

5.8 Valeurs des supports illustrant la variabilité selon les différents groupes desséjours hospitaliers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.1 Description de notre approche. . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7.1 Description de base de données mise en place . . . . . . . . . . . . . . . . . . . 897.2 Dendrogramme des regroupements hiérarchiques. . . . . . . . . . . . . . . . . . 927.3 Log du nombre moyen des services selon les groupes. . . . . . . . . . . . . . . . 927.4 Pourcentage de mortalité et pourcentages des services selon les groupes. . . . . 93

x

Page 11: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

7.5 Des modèles découverts pour certains groupes ayant une forte présence de sé-jours hospitaliers dans leurs trajectoires des soins. . . . . . . . . . . . . . . . . 96

7.6 Densités de tous les services dans certains groupes. . . . . . . . . . . . . . . . . 977.7 Modèles découverts pour le patron des maladies rénales . . . . . . . . . . . . . 987.8 Modèles découverts pour le patron des maladies cardiaques. . . . . . . . . . . . 1007.9 Modèles découverts pour le patron des maladies cardiaques décompensées. . . . 1017.10 Modèles découverts pour le patron des maladies d’anémie. . . . . . . . . . . . . 1017.11 Densités des services selon les groupes. . . . . . . . . . . . . . . . . . . . . . . . 103

xi

Page 12: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Liste des algorithmes

1 Algorithme Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Algorithme Forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 Algorithme Backward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Algorithme de Baum-Welch . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Algorithme k-prototypes proposé . . . . . . . . . . . . . . . . . . . . . . . . 407 Algorithme en deux étapes EM+HMM pour des données complexes . . . . 628 Algorithme EM pour les variables numériques et catégorielles . . . . . . . . 639 Algorithme HMM pour le regroupement des processus des traitements mé-

dicaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

xii

Page 13: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Je dédie cette thèse de doctorat àma défunte mère qui a toujoursvalorisé l’éducation, m’a élevé

avec ce grand goût dedépassement et qui a été à mescôtés dans tous les moments de

ma vie pour m’apporter l’amour,la tendresse et le soutien. Je

chéris ta mémoire. « Ô toi, âmeapaisée, retourne vers ton

Seigneur, satisfaite et agréée ;entre donc parmi Mes serviteurs,

et entre dans MonParadis » (Sourate al-Fajr,

27-30).

xiii

Page 14: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

La recherche procède par desmoments distincts et durables,intuition, aveuglement, exaltationet fièvre. Elle aboutit un jour àcette joie, et connaît cette joiecelui qui a vécu des momentssinguliers.

Albert Einstein

xiv

Page 15: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Remerciements

Je souhaiterai tout d’abord remercier mon directeur de recherche, M. Christian Gagné pourson encadrement, me donnant la liberté d’explorer des pistes nouvelles mais aussi en meguidant avec des directives précises pour arriver au perfectionnement de cette thèse.

Je voudrais également remercier mon co-directeur, M. Daniel Reinharz pour son soutien moralet financier, ses encouragements et pour avoir pris le temps de valider les parties de ce travailayant trait à la santé.

Je remercie aussi Mme Catherine Girouard pour avoir consacrer le temps pour interpréter etvalider les résultats de regroupement des trajectoires.

Ma gratitude, mon profond respect et mes remerciements à tous les membres du jury pourleur travail et l’attention consacrée à l’égard de mon travail.

Ce doctorat n’a pas pu être réalisé sans l’aide de plusieurs personnes à qui je suis extrêmementreconnaissant. Par ces quelques mots, je souhaite remercier ces gens qui étaient à mes côté lelong de ce doctorat avec un soutien sans faille.

Je remercie mes parents, sans qui je ne serais pas arrivé à ce niveau. Je les remercie pourtout ce que l’on fait pour moi, pour m’avoir conduit là où je suis aujourd’hui, pour avoirtoujours compris ce que je voulais, pour m’avoir toujours encouragé et pour m’avoir aidédans mon cheminement. Je remercie également mes frères Hichem, Hassen et Abdelaziz et masœur Hajer pour leur amour et leur affection. Ils étaient tous à mes côtés dans les pires et lesmeilleurs moments. Qu’ils retrouvent dans ces mots toute ma gratitude et ma reconnaissance.

Je n’aurais pas pu soutenir cette thèse sans le soutien sans faille de ma chère et adorableépouse Yosra. Elle a été à mes côtés durant ce parcours et surtout lors des moments difficilespour m’encourager, me donner la volonté de persévérance, de défi et de la réussite, et pourengendrer la joie, le bonheur et l’espoir dans ma vie. Avec tout mon amour, je la remerciepour tout ce qu’elle est, pour sa douceur, son amour, sa bonté et sa générosité.

Mes remerciements vont aussi à mon directeur de recherche en maîtrise, M. Mohamed Nadif.C’est avec lui que j’ai fait mes premiers pas dans la recherche en machine learning. Il m’asoutenu personnellement et académiquement et il m’a encouragé le long de mon parcours. Je

xv

Page 16: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

lui est reconnaissant.

Une pensée aux membres de ma grande famille et de ma belle famille, à tous ce que j’aime etqui m’aiment.

J’ai été toujours entourer de personnes formidables qui ont, chacune à leur façon, et ce,à différentes étapes de mon cheminement, contribué, d’une manière ou d’une autre, à laréalisation de cette thèse de doctorat. Je tiens à remercier mes amis : Haykel Hamdi, SamyMetari, Noureddine Boughanmi, Zied Toumi, Makrem Trabelsi, Mourad Kadi, Jamel Hajji,Mohamed Basti, Achraf Madani, Mohamed Chelli, Ahmed Mahgoub, Talel korkobi, AdelZiadi, Karim Zouaoui, Anis Dridi, Mourad Ouadi et Julien Fleuret qui m’ont fournis le courageen période de doute, et le recul nécessaire dans les phases de témérité.

Merci à tous ceux qui m’ont soutenu.

xvi

Page 17: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 1

Introduction générale

La capacité de stockage des données ne cesse d’augmenter favorisant la numérisation etl’accumulation de données liées à plusieurs types d’activités. Ces données, présentes sousdiverses formes, représentent une matière brute d’information et peuvent jouer un rôledéterminant dans l’élaboration des tendances et des modèles. Le besoin de les analyseret de les exploiter devient de plus en plus une grande exigence pour les entreprises et lesorganisations. Le domaine médical ne déroge pas à cette règle. En effet, la quantité desdonnées dans ce domaine ne cesse d’augmenter ce qui rend nécessaire de trouver un moyenpour les valoriser et les exploiter.

En outre, l’insuffisance cardiaque est la première cause d’hospitalisation chez les personnes de65 ans et plus. Elle est coûteuse pour le système de santé en termes économique et clinique.Les coûts d’hospitalisation et de consultation externe liés à la gestion de l’insuffisancecardiaque constituent l’un des problèmes de soins de santé les plus coûteux. Au Canada, lecoût d’une hospitalisation pour insuffisance cardiaque varie entre 6,000 $ et 15,000 $. Les tauxde réadmission dans un délai de 3 à 6 mois après la sortie sont élevés chez les personnes âgéeset varient entre 27% et 47%. Environ la moitié des réadmissions sont liées à la comorbidité,à la polypharmacie et aux handicaps associés à l’insuffisance cardiaque (Azad et Lemay,2014). Le nombre des canadiens qui souffrent de cette incapacité du cœur à pomper le sangadéquatement s’élève à 600,000 s’ajoute à eux 50,000 nouveaux cas qui sont diagnostiquéschaque année. Les coûts directs qu’entraîne cette maladie sont estimés à plus de 2,8 milliardsde dollars par année (Heart and stroke foundation, 2016).

Si l’on considère tout ce qui précède et l’on rajoute le succès des méthodes de forage dedonnées dans l’exploitation des grands volumes de données afin de mieux comprendre lespatrons et les modèles latents dans ces données, la nécessité de développer une méthodologied’extraction des connaissances à partir des bases de données de système médical liées à cette

1

Page 18: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

maladie devient une nécessité.

1.1 Contexte et problématique

L’augmentation de l’espérance de vie ainsi que la transition démographique observée dans laplupart des pays industrialisés a engendré une augmentation du taux des personnes atteintesde maladies chroniques. Cette augmentation a provoqué une hausse des dépenses associéesaux soins de santé et à l’utilisation de technologies souvent dispendieuses. D’ailleurs, en2005, 29.7% des personnes ayant 12 ans et plus au Québec déclarent souffrir d’une maladiechronique et 13.7% déclarent souffrir de deux maladies et plus (ISQ, 2009). Ainsi, la priseen charge des personnes atteintes de ces maladies chroniques de la manière la plus efficaceet la plus efficiente possible représente aujourd’hui un défi majeur pour les systèmes desanté. Ceci nécessite de disposer de données probantes sur les interventions et les modalitésorganisationnelles qui peuvent être proposées aux patients (Fritz et Cleland, 2003).

Dans le système de santé, deux notions distinctes sont pertinentes. La première est la notiond’efficacité qui représente la relation qui existe entre le niveau des ressources investies etcelui des résultats obtenus en gains de santé. Quant à la deuxième, c’est la notion d’efficiencequi est un concept beaucoup plus complexe et qui représente le rapport qui existe entre leniveau des ressources que l’on investit dans le régime de soins de santé et le volume des gainsde santé (Publications GC, 1993). Ceci est parfaitement apparent puisque dans le domaineclinique, les données probantes proviennent souvent des études conduites dans des conditionsdites « idéales », c’est-à-dire dans des milieux très contrôlés. Or, les résultats issus de tellesétudes sont parfois difficiles à implanter car ils sont de l’ordre de « l’efficacy », par oppositionà des données de type « effectiveness » où la mesure des effets de l’intervention se fait dansdes conditions proches de la vie réelle. D’ailleurs, lorsqu’ils le sont, ils requièrent souvent desadaptations qui en diminuent l’efficacité escomptée (Glasgow et collab., 2003).

Il convient de noter que les professionnels de la santé prennent généralement des décisions entenant compte des conditions de la vie réelle qui diffèrent bien souvent de celles des études enmilieu contrôlé (Kent et Kitsios, 2009). Cela est particulièrement observé chez les personnesâgées. La présence concomitante de plusieurs maladies chroniques peut amener, par exemple,à exclure des patients d’études cliniques même s’ils ont une pathologie qui pourrait bénéficierdu traitement testé (Chang et collab., 2011). Ces difficultés se retrouvent dans le cas del’insuffisance cardiaque, qui est la première cause d’hospitalisations chez les personnes de plusde 65 ans dans les pays industrialisés (Adams Jr. et collab., 2005). Des études ont démontréque la prise en charge de l’insuffisance cardiaque ne suit pas toujours les guides de pratiqueclinique (Fonarow et collab., 2010). On comprend mieux dès lors pourquoi le guide de pratique

2

Page 19: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

de la société canadienne de cardiologie souligne pour les cliniciens l’importance de prendre encompte les facteurs environnementaux et cliniques pouvant influencer le cours de l’insuffisancecardiaque et son traitement (McKelvie et collab., 2011). Il y a donc un intérêt grandissantà considérer les interventions tout en tenant compte des contingences de la vie de tous lesjours pour mieux évaluer la pertinence des traitements prônés sur la base des études cliniques.

Pour cette raison, le recours aux données contenues dans de grandes banques de donnéesadministratives ayant une base populationnelle est alors une avenue intéressante à consi-dérer (Yancy et collab., 2006). L’utilisation de telles banques de données permet ainsi demesurer l’ampleur d’une maladie (telle que l’insuffisance cardiaque), les tendances de sonincidence et de sa prévalence, de même que l’utilisation des services par les patients dansla « vraie vie ». Aussi, elle donne accès à une base populationnelle et donc à l’ensemble desmodalités de pratiques dans une juridiction donnée. L’intérêt pour ces banques s’est d’ailleursaccru dans plusieurs provinces canadiennes (y compris le Québec), grâce à la possibilitéd’apparier des banques de données administratives et ainsi de raffiner le portrait de prise encharge des patients (Daigle et Saint-Laurent, 2006).

De même, le stockage de l’historique médical des patients représente une source d’unequantité impressionnante de données médicales. Par exemple, au Québec, en 2005-2006,il y a eu près de 714 000 hospitalisations pour des soins de courte durée et plus de465 000 chirurgies d’un jour. En moyenne, entre 80 et 86 millions de services médicauxpar année ont été dispensés à la population québécoise (MSSS, 2007). Le traitement etl’analyse de ces données permet de constituer les trajectoires « réelles » de prises en chargedans le système de santé. Ceci est particulièrement vrai pour les personnes âgées, car cespersonnes sont celles pour lesquelles on dispose de plus d’informations dans les banquesde données administratives. En effet, au Québec, pour toutes les personnes âgées de 65ans et plus, la consommation de médicaments en ambulatoire est financée par le régime public.

Malgré la disponibilité de ces précieuses données, elles sont considérées comme sous-exploitées,car elles ne bénéficient que rarement de tout le développement technologique qui dans d’autressecteurs, a été réalisé pour mieux soutirer l’information contenue dans les banques de don-nées (McAullay et collab., 2005). Ces données méritent, donc, tout l’intérêt des scientifiquespour pouvoir mieux les valoriser et les exploiter afin d’en extraire de l’information utile quipourra améliorer et optimiser les processus de prise en charge.

3

Page 20: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1.2 Objectif

L’insuffisance cardiaque demeure un diagnostic répandu, surtout chez les sujets âgés. Elleest source de mortalité, de morbidité, d’hospitalisations et d’utilisation de plusieurs autresressources (Lloyd-Jones et collab., 2009). De grands progrès ont été accomplis sur les plansdu diagnostic et de la prise en charge de cette maladie, mais de récentes études soulignentque les soins reçus pour l’insuffisance cardiaque par les personnes âgées particulièrement nereflètent pas toujours les guides de pratique (Man et Jugdutt, 2012). Ce constat n’est pasétonnant puisque la prise en charge de l’insuffisance cardiaque est complexe, non seulementen raison d’une problématique requérant de nombreux intervenant appartenant à différentesdisciplines, mais aussi en raison de la diversité même des patients. Pouvoir étudier laprise en charge et le parcours des patients dans le système de santé à partir des banquesadministratives qui reflètent les contraintes de terrain de la prise en charge, et qui contiennentla diversité des situations existantes, devrait pouvoir aider les intervenants à mieux juger decomment adapter la littérature aux cas particuliers dont ils ont la responsabilité.

Malgré l’intérêt évident que représentent ces banques de données administratives, on observequ’elles sont sous-utilisées par les chercheurs. Cette sous-utilisation s’explique tout d’abordpar la complexité de l’accès à ces données dû principalement à des raisons techniques etlégales. Il est également important de noter que l’exploitation de ces données est confrontée àplusieurs défis. En effet, ces données ont été constituées non pas à des fins de recherche maisplutôt à des fins administratives. Toutefois, ces dernières années plusieurs projets structurantsont été mis sur pied dans le but spécifique de permettre l’exploitation de ces banques àdes fins de recherche. Ceux-ci ont permis de résoudre la question de leur accessibilité. Parcontre, l’exploitation de ces données par des approches computationnelles pour en produireune information pertinente pour le développement des projets de recherche reste un champ àdéfricher.

A cet égard, un objectif important est l’utilisation de ces données pour définir les trajectoiresde soins des patients dans la « vraie-vie » et l’extraction des groupes des pratiques similaires.La réalisation de cet objectif permettra aux médecins de comparer les directives et les indi-cations présentes dans la littérature et les pratiques faites et enregistrées dans les bases dedonnées administratives. En effet, d’un côté, les lignes directrices de pratique peuvent êtredéfinies comme des stratégies de prise en charge des patients conçues pour aider les cliniciensdans leur prise de décision. D’un autre côté et en analogie avec le processus d’affaire ou le pro-cessus métier, qui correspond à un ensemble des activités et leurs interactions pour atteindreun objectif défini, le système médical possède deux types de processus : le processus orga-nisationnel et la trajectoire de soins (Lenz et Reichert, 2007). Le processus organisationnelreprésente la coordination entre les professionnels de la santé et les unités organisationnelles

4

Page 21: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

alors que la trajectoire de soins est un processus spécifique au patient qui dépend des décisionsspécifiques qui diffèrent selon les cas. Elle représente la séquence des soins médicaux donnéeà un patient au cours d’une durée déterminée.

L’objectif de cette thèse est d’utiliser les données brutes enregistrées dans les bases de don-nées administratives pour concevoir et modéliser les trajectoires de soins et en identifier desgroupes homogènes afin de les mettre à la disposition des experts qui pourront les utiliserpour améliorer les guides de pratiques. Autrement dit, cette thèse présente une méthodologieet une expertise permettant l’exploitation de l’information contenue dans les grandes banquesde données administratives afin d’avoir une description et une vue globale des grands profilsde trajectoires des soins des patients souffrant d’une pathologie prédéfinie.

Pour atteindre cet objectif, deux objectifs spécifiques ont été identifiés. Le premier objectifest le regroupement des soins médicaux. Nous proposons ainsi des algorithmes capables deregrouper ces soins qui sont des objets complexes caractérisés par plusieurs types de variableset extraits des bases de données administratives. Le deuxième objectif est la proposition d’uneapproche qui se base sur ces regroupements pour construire les trajectoires de soins et lesregrouper. Cette approche est accompagnée par la proposition d’une approche de visualisationqui permet d’analyser les patrons et les modèles contenus dans ces groupes des trajectoires.La section 1.3 détaille les contributions liées à ces objectifs.

1.3 Contributions

Pour parvenir à trouver une solution à ce problème complexe, il faut présenter une solutionà divers problèmes inter-liés.

1.3.1 Regroupement des objets complexes

Les trajectoires de soins sont formées par plusieurs types de services. Certains types de servicesse composent des données complexes caractérisées par des variables mixtes et non classiques.Ces variables sont des variables numériques, des variables catégorielles et des variables enforme de séquences. Ceci rend difficile l’application des algorithmes classiques d’apprentissage.Nous proposons ainsi deux nouveaux algorithmes pour regrouper ces entités. Notre premièrecontribution sera un algorithme de partitionnement basé sur la notion de distance capable deregrouper des entités décrites par certains types de variables hétérogènes alors que la deuxièmecontribution proposera un modèle basé sur le modèle de mélange pour regrouper ces données.

1.3.2 Méthodologie de regroupement des trajectoires de soins

Partir d’informations brutes contenues dans les bases de données administratives pour arriverà des groupes de trajectoires des soins homogènes représente une tâche complexe qui néces-site d’être faite selon une approche adéquate. Pour cela, nous proposons une méthodologie qui

5

Page 22: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

permet d’atteindre cet objectif. D’abord, nous proposons l’appariement de plusieurs banquesde données administratives du système de santé. Deuxièmement, nous définissons une modé-lisation des trajectoires de traitement des patients et de leurs entités sous-jacentes. Ce travailpermet de transformer ces données de leur format brut à un format utilisable par les algo-rithmes d’apprentissage. Il permet aussi de construire des ensembles d’entités décrites par desdonnées complexes caractérisées par des variables mixtes. Troisièmement, tel que spécifié àla sous-section 1.3.1, des algorithmes capables de regrouper ces entités sont développés. À lafin, un algorithme de regroupement des trajectoires par l’intermédiaire des chaînes de Markovcachées (hidden Markov model (HMM)) est proposé.

1.3.3 Traitement et analyse des patrons extraits d’une banque médicaleadministrative de grand volume

Pour arriver à analyser et interpréter les modèles découverts par le regroupement, uneapproche de visualisation des patrons est présentée. Cette étape se joint à la méthodologie deregroupement pour construire une approche de découvertes des connaissances qui est mise enplace afin de pouvoir à partir des bases de données détecter et visualiser des patrons cachésdes trajectoires de soins. Cette approche constitue ainsi notre troisième contribution.

La combinaison de ces méthodes dans le contexte de la santé publique est inusitée etprometteuse en termes d’avancement des connaissances, et ce, autant en sciences de la santéqu’en forage de données. Il permet alors d’apporter une information empirique susceptibled’être utilisée pour améliorer la santé des populations. Ce travail a généré trois contributionsmajeures qui ont fait l’objet de trois articles.

1.4 Plan de thèse

Le mémoire de thèse est organisé comme suit. Dans le chapitre 2 nous introduisons le domainede forage des données, les notions et les techniques sur lesquelles s’appuient nos travaux. Lechapitre 3 est consacré à la revue de littérature décrivant les grandes familles de méthodesutilisées pour l’exploitation des banques de données administratives du système de santé. Nousnous intéressons plus particulièrement à la famille des méthodes choisie pour notre exploitationde ces banques : le regroupement (clustering). Le chapitre 4 présente notre première approchede regroupement des objets complexes modélisés. Nous exposons en détail les formalismesutilisés et les différentes étapes de l’approche. Ensuite, on propose au chapitre 5 la deuxièmetechnique pour le regroupement des objets complexes. Cette technique se base sur le conceptdes modèles de mélange. Le chapitre 6 détaille la modélisation ainsi que l’approche utiliséepour regrouper les trajectoires des patients. Finalement, le chapitre 7 présente l’application

6

Page 23: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

de nos algorithmes et de notre approche pour les bases de données administratives à Québecet expose les résultats obtenus.

7

Page 24: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 2

Forage des données : notions ettechniques

La nécessité d’avoir des méthodes qui permettent l’analyse et l’exploitation des données de-vient de plus en plus cruciale à cause de l’augmentation de la production et de stockaged’énormes quantités des données dû à la baisse des coûts des dispositifs de stockage et à lafacilité croissante de la collecte de ces données. La quantité et la diversité des données stockéesdans les bases de données posent des enjeux pour concevoir et implémenter des méthodes etdes algorithmes adaptés qui permettent d’extraire de la connaissance et de donner un sensà cette énorme source d’information. Ainsi, le forage des données vient comme une alterna-tive aux méthodes traditionnelles et classiques d’analyse et d’interprétation des données. Il aémergé comme un champ de recherche à la fin des années 1980 et il ne cesse de se développerdepuis. Dans ce chapitre, nous présentons les bases nécessaires et les notions utilisées pour lesalgorithmes et les méthodes proposés dans cette thèse.

2.1 Les domaines de forage de données

Le forage de données représente l’étape fondamentale du processus de découverte de connais-sances (Knowledge Discovery in Databases en anglais, KDD). En effet, le KDD vise à extrairedes informations intéressantes, non implicites, inconnues et potentiellement utiles à partirde données de grandes bases de données (Fayyad et collab., 1996b). Le processus de KDDcomprend toutes les étapes nécessaires pour l’extraction des connaissances à partir des basesde données. Ce processus implique plusieurs étapes : la sélection des données cibles, le pré-traitement de ces données, la transformation si nécessaire, le forage de données dans le butd’extraction des modèles et des relations et enfin l’interprétation et l’évaluation des struc-tures découvertes. La figure 2.1 donne un aperçu sur les différentes étapes qui composent leprocessus de découverte des connaissances.

8

Page 25: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Figure 2.1 – Différentes étapes du processus de découverte des connaissances (Fayyad et col-lab., 1996a)

Le forage des données (datamining en anglais), tel qu’il est défini par Koh et Tan (2005) estalors un processus de découverte de modèles et de tendances inconnus et l’utilisation de cesmodèles pour bâtir des modèles prédictifs. Hand et collab. (2001) rejoint cette définition enspécifiant que le forage de données est l’analyse de grands ensembles de données observation-nelles pour découvrir de nouvelles relations et pour résumer les données de façon novatrice,compréhensible et utile pour le propriétaire des données. Cette définition met l’accent surdeux points importants :

1. Le forage de données s’intéresse aux données observationnelles par opposition aux don-nées expérimentales. Les données observationnelles sont des données collectées à d’autresfins que l’analyse de données (par exemple, garder des renseignements sur l’historiquedes services médicaux reçus). Cela signifie que les objectifs de l’exercice de forage dedonnées n’influencent pas la stratégie de collecte de données et que les données sontdisponibles au moment de l’étude. On note par ailleurs que lorsque ces données sontrecueillies auprès d’organismes gouvernementaux à des fins d’administration, elles sontappelées données administratives (Kum et collab., 2003).

2. Le forage de données s’intéresse à des grands volumes de données. Cette taille des don-nées fait surgir des problèmes supplémentaires liés à la représentation et aux traitementsde données. Cela limite l’utilisation des méthodes d’analyse et d’exploration classiquedes données. Ainsi, le forage de données vient comme un remède qui met à dispositiondes techniques et des méthodes permettant de traiter ces grands ensembles de donnéespour en extraire de l’information (Besse et collab., 2001).

En conséquence, le forage de données est un domaine où l’informatique, l’apprentissage auto-matique et les statistiques se rencontrent. Il vise à extraire et à découvrir des relations cachéestelles que des modèles dans les données.

9

Page 26: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

De son côté, l’apprentissage automatique (machine learning en anglais) est un domaine del’intelligence artificielle. Mitchell (1997) le définit en tant que domaine de recherche prin-cipalement concerné par la découverte de modèles et d’autres régularités dans les données.Ce domaine met au point des algorithmes permettant d’apprendre et de faire des prévisionssur les données. Il fournit ainsi une base technique pour le forage de données. On distinguel’apprentissage supervisé, l’apprentissage par renforcement, l’apprentissage semi-supervisé etl’apprentissage non supervisé ou regroupement (ou clustering en anglais). Dans l’apprentis-sage supervisé, il s’agit d’apprendre à classer un nouvel individu au sens statistique parmi unensemble de classes prédéfinies, à partir de données d’entraînement. L’apprentissage par ren-forcement est une classe d’algorithmes qui spécifie comment un agent artificiel peut apprendreà sélectionner des actions afin de maximiser la récompense totale attendue. Le regroupementconsiste à apprendre sans superviseur. A partir d’une population, il s’agit d’extraire des classesou groupes d’individus présentant des caractéristiques communes, le nombre et la définitiondes classes n’étant pas disponibles a priori. L’apprentissage semi-supervisé quant à lui sesitue entre le regroupement et l’apprentissage supervisé. En fait, la plupart des stratégiesd’apprentissage semi-supervisées sont basées sur l’extension de l’apprentissage non superviséou supervisé pour inclure de l’information supplémentaire typique provenant de l’autre typed’apprentissage.Le regroupement est ainsi un sujet de recherche émanant de la problématique d’apprentis-sage automatique et représente l’une des tâches principales de forage de données à côté dela classification, de la recherche des règles d’association et de la détection des anomalies. Ilconstitue un domaine d’étude incontournable en apprentissage touchant plusieurs domainesd’application. Cette thèse fournit des contributions dans ce domaine avec une perspectivetechnique et fonctionnel qui intègre notre travail dans le cadre de forage de données et dedécouvertes de connaissances.

Le forage de données est basé sur les données. Ainsi, dans la sous-section 2.1.1 nous présentonsles différents types de données pour ensuite donner une idée sur la notion de similarité entre cesdonnées dans la sous-section 2.1.2. Pour conclure cette section, nous spécifions les différentesapproches utilisées pour aborder la problématique de cette thèse.

2.1.1 Données

Les données représentent la pièce maîtresse de forage de données. Elles sont collectées dansdes ensembles. Ces ensembles représentent une collection des objets ou des entités décritespar des attributs. Les différentes techniques d’apprentissage automatique interviennent surdes « individus » caractérisés par une liste des variables ou attributs. Un attribut définitune propriété de chaque individu. D’une façon formelle, on peut définir un attribut par uneapplication A de l’ensemble d’individus X dans D. D est le domaine d’observation de A et il

10

Page 27: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

est muni d’une structure algébrique.

A : X −→ DXi 7−→ A(Xi)

Il existe différents types d’attributs qui diffèrent selon leurs domaines d’observations. Ces do-maines spécifient les valeurs que les attributs peuvent prendre. Les types d’attributs est unfacteur primordial pour la conception et l’implémentation des algorithmes de forage de don-nées. En général, il existe de nombreux types d’attributs qui peuvent être utilisés pour mesurerles propriétés d’une entité. Il est nécessaire de comprendre les différences entre les différentstypes afin de proposer les meilleures solutions pour le forage des données. On distingue deuxgrandes familles de types d’attributs : les attributs classiques et les attributs symboliques.Les attributs classiques prennent seulement une valeur qui caractérise la propriété d’un objetalors que les attributs symboliques peuvent prendre plus d’une valeur ou même un intervallede valeurs.

Attributs classiques

Attributs qualitatives : Une variable qualitative (ou aussi catégorielle) est une carac-téristique d’un objet. Elle a un ensemble fini de valeurs. Ces valeurs sont des valeurs sym-boliques qui désignent des catégories ou modalités. Ce type de variable contient les variablesnominales, binaires et ordinales. Une variable nominale prend comme valeurs des catégories.Il n’y a aucun ordre précis entre ses valeurs. Par exemple, le sexe a deux modalités possibles :féminin ou masculin. Les modalités peuvent être représentées par des valeurs numériques maisaucune arithmétique ne peut être attribuée à ses valeurs. En outre, une variable binaire est uncas particulier d’une variable nominale qui ne prend que deux valeurs possibles : vrai ou fauxou 1 ou 0. D’un autre côté, la variable ordinale est semblable à la variable nominale sauf queses modalités disposent d’un ordre. Par exemple, le degré de satisfaction présente un ordreentre ces modalités qui peuvent avoir les valeurs suivantes : très satisfait, satisfait, insatisfait.

Attributs quantitatives : Une variable quantitative ou numérique contient des valeursmesurables. On distingue deux types : les variables continues et les variables discrètes. Unevariable discrète est une variable qui ne peut prendre que des valeurs séparées les unes desautres. C’est le cas, par exemple, du nombre d’habitants d’une municipalité. Son domained’observation est un sous ensemble fini ou infini de l’ensemble des entiers naturels N. Paropposition, une variable continue peut prendre toutes les valeurs possibles dans un intervalle.Son ensemble d’observation est ainsi un sous ensemble infini de l’ensemble des nombres réelsR.

Attributs symboliques Les variables symboliques sont définies dans l’analyse des don-nées symboliques (Diday et Esposito, 2003). Les variables symboliques peuvent prendre plus

11

Page 28: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

d’une valeur ou même un intervalle de valeurs. Selon la nature des valeurs et du domained’observation, on peut distinguer trois types des variables symboliques : les variables multi-valuées nominales, de type intervalle et de type modal. Pour la variable nominale multivaluéele domaine d’observation est l’ensemble P(S) qui est l’ensemble des parties d’un ensembleS où S est un ensemble fini. Cette variable prend comme valeur un ensemble de modalités.Par exemple, la variable intervention dans un séjour hospitalier peut contenir une liste desinterventions. La variable de type intervalle prend comme valeur un intervalle de valeurs alorsque la variable modale prend comme valeur une distribution de probabilités. Ces variablespermettent de tenir compte de la variabilité de certaines caractéristiques qui décrivent lesobjets (Chavent, 1997).

2.1.2 Mesures de similarité et de dissimilarité

En forage de données il est nécessaire de définir une sorte de mesure qui peut évaluer si deuxobjets sont similaires ou dissemblables. Deux notions interviennent afin d’atteindre cet objectifet fournir des mesures de ressemblance ou dissemblance. Ces notions sont la similarité et ladissimilarité ou la distance (Goshtasby, 2012). Une mesure de similarité est une mesure de laproximité entre deux objets. Si X représente l’ensemble des objets. La mesure de similaritéest définie comme une fonction :

s : X × X −→ R+

x, y 7−→ s(x, y)

Cette fonction satisfait les propriétés suivantes :

— Positivité : ∀x, y ∈ X , s(x, y) ≥ 0

— Symétrie : ∀x, y ∈ X , s(x, y) = s(y, x)

— Maximalité : ∀x, y ∈ X , s(x, x) ≥ s(x, y)

De ce fait, une grande valeur de similarité indique une forte ressemblance entre les objets. Parailleurs, la mesure de dissimilarité ou la distance mesure la dissemblance entre les individus.Une mesure de dissimilarité ou une distance se définit comme une fonction :

d : X × X −→ R+

x, y 7−→ d(x, y)

La distance vérifie les propriétés suivantes :

— Positivité : ∀x, y ∈ X , d(x, y) ≥ 0

— Symétrie : ∀x, y ∈ X , d(x, y) = d(y, x)

— Identité : ∀x, y ∈ X , d(x, y) = 0⇔ x = y

— Inégalité triangulaire : ∀x, y, z ∈ X , d(x, z) ≤ d(x, y) + d(y, z)

12

Page 29: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Selon les types d’attributs qui décrivent les objets des mesures de dissimilarités sont utilisées.Lorsque les objets sont décrits par deux vecteurs d’attributs numérique xi et xj , on utilisesouvent la distance Euclidienne définit par :

d(xi,xj) =

√√√√ m∑l=1

(xi,l − xj,l)2 (2.1)

Cependant, si les objets sont des vecteurs d’attributs nominaux, la distance de Hamming peutêtre utilisée. Elle se définit par l’équation suivante :

d(xi,xj) =m∑l=1

I(xi,l, xj,l) (2.2)

où I(x, y) = 0 si x = y et I(x, y) = 1 autrement, et où m est le nombre d’attributs.

2.1.3 Différentes approches

Il n’existe pas une technique de regroupement universelle applicable pour découvrir la variétédes structures présentes dans les ensembles de données multidimensionnelles (Jain et collab.,1999). Les ensembles de données collectées jouent un rôle déterminant dans le choix de cestechniques et méthodes. Ces différentes méthodes peuvent être classées en deux grandes fa-milles : les méthodes par partitionnement et les méthodes hiérarchiques. En outre, en présencedes données séquentielles, des méthodes pour représenter et exploiter ces données sont néces-saires. La représentation en sac des mots ainsi que l’extraction des motifs fréquents y fontpartie. De surcroît, si les données demandent la prise en compte de la composante temporelledans le regroupement, les modèles de chaînes de Markov cachées sont d’une grande utilité.La section 2.2 présentent en détails l’ensemble des techniques et des méthodes utilisées dansnos travaux.

2.2 Méthodes et techniques

2.2.1 Représentation en sac des mots

La représentation en sac des mots (Bag-of-Words (BoW) en anglais) est répandue dans ledomaine de la recherche d’information. Elle consiste à représenter un document par un vec-teur composé des valeurs qui reflètent pour chaque mot son importance relative comme undescripteur. Ces pondérations sont des poids wi,j attribués à chaque terme tj pour un docu-ment donné di et qui quantifient la pertinence de ce terme pour ce document. La méthode laplus utilisée de représentation en sac de mots est la méthode tf-idf (Term Frequency-InverseDocument Frequency en anglais) (Salton et McGill, 1986). Cette représentation se base surun vocabulaire de mots ou de termes. L’idée s’appuie sur deux concepts pour chaque terme :i) sa fréquence et ii) sa fréquence documentaire. Pour chaque document dans le corpus, la fré-quence du terme (Term Frequency, tf) est définie par le nombre d’occurrences de ce mot dans

13

Page 30: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

ce document. Cette fréquence peut être normalisée. D’autre part, la fréquence documentaire(Inverse Document Frequency, idf) (Sparck Jones, 1972) vise à donner un poids importantaux mots les moins fréquents dans le corpus. Le concept se base sur l’idée que plus un motapparaît dans le corpus moins il est pertinent pour la discrimination. Cette valeur est calculéepar la formule suivante

idf(tj) = log(

n

df(tj)

),

où df(tj) est le nombre de documents qui contiennent le terme tj dans le corpus et n est lenombre total de documents. Si on considère T comme vocabulaire, alors une représentationdu document di consiste en un vecteur de poids de mots (wi,1, . . . , wi,L), où L est le nombrede mots dans ce vocabulaire. Les poids wi,j sont calculés à l’aide de la formule tf-idf parwi,j = tf(tj , di) × idf(tj), où tf(tj , di) est la fréquence du terme tj dans le document di etidf(tj) est la fréquence documentaire pour ce terme.

2.2.2 Extraction des motifs fréquents

La problématique d’extraction des motifs fréquents est un sujet de recherche qui vise à ex-traire l’ensemble des itemsets fréquents ou motifs fréquents. Le concept d’extraction des motifsfréquents a été introduit en 1993 par Agrawal et collab. (1993) avec l’analyse du panier desclients afin de comprendre leurs habitudes de consommation, agencer les rayons du magasin,organiser les promotions, gérer les stocks, etc. Elle se base sur un cadre formel et des conceptsde base. D’un côté, l’item représente un objet appartenant à un ensemble fini d’élémentsdistincts I = i1, . . . , in. Un sous ensemble (i1, i2, . . . , ik) est définit comme un itemset.Lorsque cet ensemble contient k items, il est appelé k-itemset. D’autre part, dans une basetransactionnelle D, une transaction est définie comme un ensemble non-vide d’items t tel quet ⊂ I. Le support d’un itemset x est définit comme la proportion des transactions de D quicontiennent x. L’extraction des motifs fréquents revient ainsi à extraire l’ensemble de tousles itemsets fréquents, c’est-à-dire ceux qui sont supportés par une proportion des transac-tions qui dépasse un support minimum fixé a priori. Une propriété utile et courante dans ledomaine de recherche des motifs fréquents est l’antimonotonicité. Cette propriété stipule quetout sous-ensemble d’un itemset fréquent est aussi un itemset fréquent. Ainsi, la réciproquedonne que si un itemset est peu fréquent alors ses super-ensembles sont aussi peu fréquents.L’algorithme Apriori proposé par Agrawal et Srikant (1994) est l’algorithme de base pour l’ex-traction des motifs fréquents à partir d’une base transactionnelle. L’algorithme Apriori se baseessentiellement sur cette propriété d’antimonotonicité existante entre les itemsets et l’utiliseafin de diminuer le nombre d’itemsets candidats à considérer. Notons Sk l’ensemble d’item-sets candidats de taille k et Fk l’ensemble de ces itemsets fréquents. L’algorithme Apriorieffectue plusieurs passages dans la base D. Lors du premier passage, l’algorithme commencepar déterminer le support de chaque item. L’ensemble de ces 1-itemsets représente l’ensembledes candidats noté S1. Dans ce passage, et à partir de l’ensemble S1, l’algorithme génère

14

Page 31: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Algorithme 1 Algorithme Apriori

input ST : l’ensemble des transactions ; θ : seuiloutput F : l’ensemble des itemsets fréquents dans ST

1: F1 ← 1-itemsets fréquents2: k ← 23: while Fk−1 6= ∅ do4: Sk ← p ∪ q | p ∈ Fk−1 ∧ q 6∈ p5: supp(c)← 0, ∀c ∈ Sk6: for all st ∈ ST do7: Dt ← c | c ∈ Sk ∧ c ⊆ st8: for all c ∈ Dt do9: supp(c)← supp(c) + 1

10: end for11: end for12: Fk ← c | c ∈ Sk ∧ supp(c) ≥ θ13: k ← k + 114: end while

l’ensemble des items fréquents F1 en élaguant les candidats qui ont une valeur du supportinférieur à un seuil donné θ. Dans les passages suivants, l’algorithme commence par l’ensembled’itemsets fréquents obtenu à l’itération précédente et il agglomère à chacun de ces élémentsplus d’items. Ceci génère un nouvel ensemble d’itemsets candidats Sk et l’algorithme procèdeà un calcul des supports pour chaque élément de cet ensemble. Seuls les itemsets candidatsayant un support supérieur au seuil sont conservés. A la fin de ce passage, ces itemsets can-didats constituent l’ensemble fréquent Fk de ce passage et ils servent comme base pour laconstitution de l’ensemble des candidats pour le passage suivant et ainsi de suite. Ce pro-cessus se poursuit jusqu’à ce qu’aucun nouvel ensemble des candidats ne peut être généré.L’algorithme 1 présente le pseudo-code de la méthode Apriori.

2.2.3 Méthodes de regroupement

Les méthodes de regroupement font partie des techniques exploratoires permettant de dé-couvrir une structure dans les données. En regroupant les individus semblables au sein degroupes homogènes, ces méthodes permettent de synthétiser un ensemble d’informations àpartir de la notion de classe naturelle. La principale source de variété au sein de méthodes declustering provient de l’hétérogénéité dans la formalisation mathématique de terme semblableou homogène. De plus, selon le type de données et les hypothèses retenues de ces données, descritères et des méthodes adaptées pour optimiser ces critères sont proposées. Jain et collab.(1999) proposent une organisation des méthodes de clustering dans deux grandes familles :les méthodes par partitionnement et les méthodes hiérarchiques.

15

Page 32: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Méthodes de partitionnement Les méthodes de partitionnement cherchent à répartirun ensemble d’objets dans des groupes. Ceci peut être décrit formellement de la manièresuivante : Soit I un ensemble d’objets. L’objectif est de trouver une partition P en groupesd’objets Ci avec P = C1, C2, . . . , CK tel que :

Ci ∩ Cj = ∅, ∀i, j = 1, . . . , k et i 6= j,

C1 ∪ C2 ∪ . . . ∪ CK = I,

Ci 6= ∅, ∀i = 1, . . . ,K.

Dans cette partition, chaque groupe doit être le plus homogène possible et chaque paire degroupes doit être la plus différente possible. Autrement dit, ces méthodes cherchent à diviser lapopulation initiale en groupes disjoints en se basant sur une mesure de ressemblance entre lesobjets. Il existe dans la littérature une profusion de méthodes et de critères de regroupementnon hiérarchique. Nous nous sommes intéressés dans nos travaux à deux grandes famillesd’approches : les méthodes classiques de partitionnement basées sur la notion de distance etles approches fondées sur des modèles probabilistes.

Algorithme k-means : Les algorithmes de partitionnement basés sur la notion dedistance définissent une fonction objectif qui traduit le fait que les objets dans un groupedoit être similaires et les objets dans deux groupes différents doivent être le plus éloignés.Ainsi, ces algorithmes cherchent une partition qui optimise ce critère. Partant du fait qu’il estimpossible d’énumérer toutes les partitions, des heuristiques sont proposés pour trouver desoptimums locaux. L’algorithme classique de regroupement et qui reste parmi les algorithmesles plus utilisés dans le domaine est l’algorithme k-means (MacQueen, 1967). Cet algorithmese base sur l’idée que chaque groupe est représenté par un centre. Ce centre est la moyenne detous les objets qui appartient au groupe. Initialement, ces centres sont choisis d’une manièrealéatoire. Chaque objet est ensuite affecté au groupe du centre le plus proche de lui. Après cetteétape d’affectation vient l’étape d’actualisation des centres. Elle vise à calculer les valeurs descentres en se basant sur les valeurs des objets appartenant à chaque groupe. Ces deux étapessont répétées jusqu’à ce qu’il n’y ait plus de changement dans aucun groupe. L’algorithme estdécrit par les itérations suivantes :

1. Sélectionner aléatoirement k centres des groupes ;

2. Affecter chaque objet au centre le plus proche ;

3. Actualiser les centres des groupes en se basant sur la nouvelle partition ;

4. Répétez les étapes 2) et 3) jusqu’à ce qu’il n’y ait pas de changement pour chaquegroupe.

Approche fondée sur des modèles probabilistes : Les modèles probabilistes sup-posent que les données proviennent d’un mélange de plusieurs distributions de probabilité.

16

Page 33: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Dans cette perspective, les modèles de mélanges finis (Pearson, 1894) suppose que les don-nées proviennent des groupes distincts appelés composantes. Chacune de ces composantes,dont les proportions sont données par les nombres ω1, · · · , ωK , suivent des lois de probabilitésf(·, φk) , paramétrées par les vecteurs φk. La densité f de la loi mélange à laquelle répond lapopulation, paramétrée par le vecteur θ = (ω1, . . . , ωK , φ1, . . . , φK), s’écrit alors :

f(x, θ) =K∑k=1

ωkfk(x, φk)

On peut utiliser tout type de fonction de densité. Le choix se fait selon la nature des données àtraiter. La recherche d’une partition s’appuyant sur le modèle de mélange peut être faite selonle critère du maximum a posteriori. C’est à dire qu’une observation est associée au groupequi donne la plus grande probabilité a posteriori d’être issue de lui. Cette approche consisteà utiliser les paramètres estimés de modèle de mélange d’où la nécessité de les estimer. Cetteestimation se fait à l’aide de la méthode du maximum de vraisemblance, en utilisant l’al-gorithme Espérance-Maximisation (EM) (Expectation-Maximization en anglais) (Dempsteret collab., 1977). La vraisemblance des données observées x, notée L(θ, x), n’est autre quela probabilité d’obtenir l’échantillon x = x1, x2, . . . , xn lorsque les données suivent effecti-vement la loi de densité mélange f(x, θ). Comme les échantillons xi sont considérées commeétant indépendants et identiquement distribués, on a :

L(θ, x) =n∏i=1

p(xi, θ) =n∏i=1

K∑k=1

ωkfk(xi, φk).

La maximisation de la fonction de vraisemblance par rapport à θ ne peut pas se faire direc-tement. L’idée à la base de l’algorithme EM consiste à raisonner sur les données complètes(données observées et données cachées) tout en prenant en compte le fait que l’informationdisponible sur les données cachées ne peut venir que des données observées. Notons u les don-nées correspondantes à la partition des individus en K groupes. La méthode de maximisationde la log-vraisemblance part du principe que ces données u sont inconnues et que si ellesétaient connues le problème serait simple à résoudre. En appelant x les données observéeset y = (x, u) les données complétées, on peut écrire la probabilité des données complétéescomme étant le produit de la probabilité des données observées par la probabilité des donnéescomplétées sachant les données observées, c’est-à-dire :

p(y, θ) = p(y|x, θ)p(x, θ).

Les développements mathématiques standards de l’algorithme EM remplacent la maximisa-tion de la vraisemblance L(θ, x) par la maximisation de l’espérance conditionnelle, sachantles données x et le paramètre courant θ(t). Cette expression est notée

Q(θ, θ(t)) =n∑i=1

K∑k=1

zi,k log[ωkf(xi|φk)],

17

Page 34: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

où zi,k = E(uik|xi,θt) représente la vraisemblance d’appartenance de l’individu i au groupek conditionnellement au paramètre courant θt. L’étape E de l’algorithme EM se réduit aucalcul des valeurs de zi,k. Pour chaque itération t ces valeurs sont données par les expressionssuivantes :

z(t)i,k = ω

(t)k f(xi, φ(t)

k )∑Kl=1 ω

(t)l f(xi, φ(t)

l ).

L’étape M consiste à maximiser la log-vraisemblance complétée donnée par

Q(θ, θ(t)) =n∑i=1

K∑k=1

z(t)i,k log[ωkf(xi|φk)]),

Cette étape se réduit au calcul des paramètres φk et ωk qui maximise cette log-vraisemblance.Ainsi, l’étape M détermine les paramètres θ qui maximisent l’expression de la log-vraisemblance. Ces paramètres sont définis par

θ(t+1) = argmaxθ

[n∑i=1

K∑k=1

z(t)i,k log[ωkf(xi|φk)])].

Les proportions de mélange qui maximisent cette quantité sont données, indépendamment deloi utilisée, par :

ω(t+1)k = 1

n

n∑i=1

z(t)i,k .

L’algorithme EM est présenté à l’algorithme 2.

Algorithme 2 Algorithme EMinput X = x1, . . . ,xn : ensemble de données, TEM : nombre maximum d’itérationsoutput z(TEM)

i,k : probabilités finales d’appartenance1: Initialisation du paramètre θ(0)

2: while(|L(θ(t))−L(θ(t−1))|

L(θ(t−1)) ≥ ε)∧ (t ≤ TEM) do

3: Étape E : Calcul des probabilités à posteriori : z(t)i,k = ω

(t)kfk(xi,φ

(c)k

)∑K

l=1 ω(t)lfl(xi,φ

(t)l

)

4: Étape M :— Calcul des proportions : ω(t+1)

k = 1n

∑ni=1 z

(t)i,k

— Calcul des paramètres de modèles : θ(t+1) = argmaxθQ(θ, θ(t))5: t← t+ 16: end while

Méthodes hiérarchique Les méthodes de regroupement hiérarchique ne se contentent passeulement d’une partition mais tentent de construire une hiérarchie de parties de l’ensembledes objets. Les deux partitions extrêmes sont la partition discrète, où chaque objet forme àlui seul un groupe et la partition grossière, où il n’y a qu’un seul groupe formé par tous les

18

Page 35: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

objets. Formellement, une famille H des groupes de l’ensemble des objets I est une hiérarchiesi elle vérifie les propriétés suivantes :

— ∅ et les singletons appartiennent à H

— ∀A et B ∈ H,A ∩B ∈ ∅, A,B

En outre, une hiérarchie valuée est un couple (H, f) où H est une hiérarchie et f une appli-cation de H dans R+ telle que :

— f(A)=0 si et seulement si A ne contient qu’un seul individu.

— ∀A et B ∈ H,A ⊆ B ∧A 6= B ⇔ f(A) < f(B)

Une hiérarchie valuée est représentée par un arbre de regroupement appelé le dendrogramme.Il existe deux types de méthodes de regroupement hiérarchique : la Classification AscendanteHiérarchique (CAH) et la Classification Descendante Hiérarchique (CDH). L’approche deCAH consiste à commencer avec un objet dans chaque groupe et faire une série d’opérationsde fusion qui conduisent finalement à avoir tous les objets dans le même groupe. Par oppositionà la CAH, la CDH considère que l’ensemble de données appartient à un seul groupe et procèdeà diviser successivement les groupes jusqu’à ce que tous les groupes ne contiennent qu’un seulobjet. En regroupement hiérarchique, c’est l’approche ascendante ou agglomérative qui estsouvent utilisée. Cette approche est composée des étapes suivantes :

1. Considérer chaque objet comme un groupe.

2. Calculer la matrice de dissimilarité entre les groupes.

3. Déterminer les deux groupes les plus proches et les fusionner.

4. Actualiser la matrice de dissimilarité en calculant les distances entre le nouveau groupeet les autres clusters.

5. Répéter les étapes 3)-4) jusqu’à que tous les objets sont dans un seul groupe.

Il est clair que cette approche se base sur deux critères : un critère de dissimilarité entre lesobjets et un critère de dissimilarité entre les groupes. Pour le critère de dissimilarité entreles objets, il faut choisir la bonne distance selon les types de données. Plusieurs critères demesure de la dissimilarité entre les groupes sont proposés. Les critères les plus utilisés sontle critère du saut minimum (single linkage en anglais), le critère du saut maximal (completelinkage en anglais) et le critère de lien moyen (average linkage en anglais). Si on considèredeux groupes C1 et C2, le critère du saut minimal (Eq. 2.4) représente la plus courte distanceentre un individu de C1 et un individu de C2 alors que pour le saut maximal (Eq. 2.5) ellereprésente la plus longue distance. Le critère de lien moyen est donnée par l’équation Eq. 2.5.

D(C1, C2) = min d(x, y), x ∈ C1 et y ∈ C2 (2.3)

D(C1, C2) = max d(x, y), x ∈ C1 et y ∈ C2 (2.4)

D(C1, C2) = 1|C1||C2|

∑x∈C1

∑y∈C1 d(x, y) (2.5)

où d représente le critère de dissimilarité entre les objets.

19

Page 36: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

2.2.4 Modèle de chaînes de Markov Cachées

Les chaînes de Markov cachés (HMM) (Hidden Markov Models en anglais) sont des outilsstatistiques permettant de modéliser des phénomènes aléatoires dépendant du temps. Initia-lement, ces modèles ont été utilisés d’une manière novatrice dans la reconnaissance de paroleoù ils ont montré des bonnes performances. Ceci a favorisé leur utilisation dans d’autres do-maines tels que la reconnaissance d’images, l’ordonnancement des tâches et la reconnaissancedes formes. Pour pouvoir présenter les HMM, il est nécessaire de définir plusieurs notions.Tout d’abord on commence par définir la variable aléatoire réelle qui est une fonction me-surable : X : Ω → R. Ω est appelé l’univers et prend souvent comme valeur l’ensemble desréels R ou de l’ensemble des entiers positifs N. De son côté, un processus stochastique estune famille Xtt∈T de variables aléatoires définies sur le même espace de probabilité Ω. L’en-semble T représente souvent le temps. Les états d’un processus stochastiques, défini par lesvariables aléatoires Xt : Ω → R pour tout t ∈ T, sont les valeurs prises par ces variableslorsque t varie. On note S l’ensemble des états du processus. Lorsque T et S sont discrets etque le processus Stt∈T tient compte de la dynamique temporelle grâce à une équation derécurrence, on est dans le cas de processus markovien ou chaînes de Markov. Ainsi, le proces-sus de Markov est un système qui peut être en tous temps dans un état parmi un ensembledistinct de N états S = s1, s2, . . . , sN. Le système peut changer d’état ou rester dans sonétat actuel à chaque intervalle régulier de temps. On représente l’état dans lequel le systèmese trouve à l’instant t par qt. L’évolution d’un processus est une suite de transitions d’étatsq0, . . . , qT (qt ∈ S; ∀t = 1, . . . , T ). Sa loi d’évolution est obtenue à l’aide de la probabilitéP (S1 = q1, . . . , ST = qt) définie successivement de la manière suivante :

P (S1 = q1, . . . , ST = qt) =P (S1 = q1, . . . , ST−1 = qT−1)P (ST = qT |S1 = q1, . . . , ST−1 = qT−1)

=P (S1 = q1)P (S2=q2|S1=q1) . . . P (ST = qT |S1 = q1, . . . , ST−1 = qT−1)

Une chaîne de Markov est un processus de Markov pour lequel la probabilité que le processussoit dans un état à un instant t ne dépend que de l’état dans lequel se trouve le processus àl’instant t− 1. Cela s’exprime pour toute suite d’états (qt)t∈T et pour tout instant t ∈ T par :

P (St = qt|Xt−1 = qt−1, . . . , S1 = q1) = P (St = qt|St−1 = qt−1)

La probabilité P (St = qt|St−1 = qt−1) représente la probabilité de transition de l’état qt−1 àl’instant t − 1 vers l’état qt à l’instant t. Une chaîne de Markov est dite homogène dans letemps si, et seulement si, les probabilités de transition ne dépendent pas du temps. Elle estdéfinie totalement par la donnée :

— Ensemble des états S

— Les probabilités des états initiaux π = (π1, . . . , πN ) avec πi = P (S1 = si)

— Les probabilités de transition des états A : A = (aij)1≤i,j≤N avec ai,j = P (St =sj |St−1 = si), ∀(si, sj) ∈ S× S.

20

Page 37: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Figure 2.2 – Modèle Markov caché avec trois états (Yamagishi, 2006)

Dans le cas du modèle de Markov caché, les états ne sont pas observables. Lorsque le sys-tème visite un état donné, une observation est émise. Ainsi, le HMM discret correspond à lamodélisation de deux processus stochastiques ; un processus caché parfaitement modélisé parune chaîne de Markov discrète et un processus dépendant des états de processus caché. Lafigure 2.2 représente un modèle de Markov caché avec trois états. Les différents éléments d’unmodèle de Markov caché sont :

— N est le nombre d’états cachés du modèle. On note S = s1, s2, · · · , sN l’ensemble desétats cachés. A un instant t un état est représenté par qt (qt ∈ S) ;

— M est le nombre de symboles distincts que l’on peut observer dans chaque état. On lesreprésente par l’ensemble V = v1, v2, · · · , vM. A l’instant t un symbole observable estdésigné par ot (ot ∈ V) ;

— Une matrice de probabilité de transitions, notée A = (ai,j), où ai,j est la proba-bilité a priori de transition de l’état si vers l’état sj . Dans un modèle de Markovcaché stationnaire du 1er ordre, cette probabilité ne dépend pas de t. On définitai,j = P (St = sj |St = si), 1 ≤ i, j ≤ N ;

— Une matrice de distributions des probabilités, notée B = (bi(j)), associée à chaque étatoù bi(j) = P (Vt = vj |St = si)1 ≤ i ≤ M, 1 ≤ j ≤ N est la probabilité d’observer lesymbole vj en étant à l’état si à l’instant t ;

— Un vecteur π = (πi) de distributions des probabilités de transitions initiales, où πi

est la probabilité de commencer dans l’état i. On définit πi = P (S1 = si) avec 1 ≤ i ≤ N .

Un modèle de Markov caché discret stationnaire de premier ordre λ est défini complètementpar le triplet (A,B, π). Par la suite, on utilisera la notation λ = (A,B, π) et le terme HMMpour désigner un modèle de Markov caché discret stationnaire de premier ordre. On notera

21

Page 38: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

aussi Q = (q1, . . . , qT ) ∈ ST une séquence d’états cachés et O = (o1, . . . , oT ) ∈ V une séquencede symboles observés. Ainsi, P (V = O,S = Q|λ) représente la probabilité de réalisation de laséquence d’états cachés Q et de la séquence d’observations O par rapport au HMM λ. Cetteprobabilité peut être exprimée comme suit :

P (V = O,S = Q|λ) = P (V = O|S = Q,λ)P (S = Q|λ).

Avec,

P (V = O|S = Q,λ) =∏Tt=1 P (Vt = ot|St = qt, λ),

P (S = Q|λ) = P (S1 = q1, λ)∏T−1t=1 P (St+1 = qt+1|St = qt, λ).

Etant donné un HMM λ, une séquence d’états cachés Q et une séquence d’observations O,P (V = O|S = Q,λ) représente la probabilité que la séquence O ait effectivement été engendrépar le HMM λ tout en suivant la séquence d’états cachésQ. Cependant, on ne peut pas calculercette probabilité directement vue que la séquence d’états cachés n’est pas connue. Ainsi, ons’intéresse plus à calculer la vraisemblance que la séquence O ait été engendrée par le modèle λen sommant sur toutes les séquences d’états cachés Q possibles et en utilisant les probabilitésjointes. Ceci peut être exprimé par :

P (V = O|λ) =∑Q∈ST

P (V = O|S = Q,λ).

Ceci est impossible à cause de problèmes computationnels. Deux algorithmes sont largementutilisés pour calculer cette valeur efficacement. L’algorithme Forward et l’algorithme Backward(Rabiner, 1989). L’algorithme Forward se base sur des variable de chaînage avant αt(i) quireprésente la probabilité d’observer la séquence partielle o1, o2, . . . , ot jusqu’à l’instant t et enétant au état si à l’instant t et étant donné le modèle λ. Ces variables sont définies commesuit :

α1(i) = P (V1 = o1, St = si|λ),

αt(i) = P (V1 = o1, . . . , Vt = ot, St = si|λ).

Une relation de récurrence existe entre les variables de chaînage avant et qui est donnée par :

αt+1(j) = bj(ot+1)N∑i=1

αt(i)ai,j .

Ainsi, l’algorithme Forward commence par calculer la probabilité α1(i) qui la probabilitéd’obtenir l’état caché si sachant que l’on a observé le symbole o1. Par la suite, la relationde récurrence est utilisée pour calculer les αt+1(j) en utilisant les αt(i). En obtenant lesvariables de chaînage avant, il est facile de calculer la vraisemblance que la séquence O aitété engendrée par le modèle λ par P (O|λ) =

∑Ni=1 αT (i) où αT (i) représente la probabilité

22

Page 39: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Algorithme 3 Algorithme Forward1: for i = 1 to N do2: α1(i) = Πibi(o1)3: end for4: for t = 1 to T − 1 do5: for j = 1 to N do6: αt+1(j) = (

∑Ni=1 αt(i)aij)bj(ot+1)

7: end for8: end for9: P (O|λ) =

∑Ni=1 αT (i)

de générer la séquence d’observations O en terminant en si. L’algorithme Forward est ainsidonné par l’algorithme 3.

Une autre manière de calculer la vraisemblance que la séquence O ait été engendrée par lemodèle λ est donnée par l’algorithme Backward. On définit ainsi les variables de chaînagearrière βt(i) qui sont les probabilités d’être à l’instant t à l’état si et d’observer la séquenceot+1, . . . , oT . Ces variables sont données par :

βT (i) = 1,

βt(i) = P (Vt+1 = ot+1, . . . , VT = oT |St = si, λ).

Des relations des récurrences existent aussi entre les variables de chaînage arrière et expriméspar :

βt(i) =N∑j=1

ai,jβt+1(j)bj(ot+1).

La vraisemblance est donnée par :

P (O|λ) =N∑i=1

πibi(o1)β1(i).

L’algorithme Backward se détermine par l’algorithme 4.

Algorithme 4 Algorithme Backwardfor i = 1 to N doβT (i) = 1

end forfor t = T − 1 to 1 dofor i = 1 to N doβt(i) =

∑Nj=1 aijβt+1(j)bj(ot+1)

end forend for

Lors de l’implémentation et vu que les valeurs des αt et de βt sont calculées par multiplicationdes petites probabilités et avec des longues séquences, des problèmes de précision numérique

23

Page 40: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

apparaissent et ils sont résolus par une opération de re-échelonnement des valeurs (Rabiner,1989).

Un autre problème à résoudre lors de l’utilisation des HMM est le problème de ré-estimationou d’apprentissage. Il consiste à trouver le modèle λ∗ qui maximise la probabilité de généra-tion d’un ensemble de séquences d’observations O = Ol et ainsi à estimer les paramètresdu modèle (A, B et π) à partir des données. Un algorithme particulièrement efficace dansl’estimation des paramètres d’une chaîne de Markov cachée est l’algorithme de Baum-Welch.L’approche utilisée est la maximisation de la vraisemblance par rapport à une observationou à un ensemble d’observations nommée P (O|λ). L’algorithme de Baum-Welch utilise deuxnouvelles matrices : Ξ et Γ. On définit ξt(i, j) comme la probabilité d’être dans l’état si àl’instant t et de passer dans l”état sj à l’instant t + 1, d’après le modèle λ et la séquenced’observation O. Ainsi, ξt(i, j) = P (St = si, St+1 = sj |O, λ). Les coefficients de Γ, γt(i), re-présentent la probabilité d’être dans l’état si à l’instant t, sachant l’observation O et le modèleλ :

γt(i) = P (St = si|O, λ).

Le calcul des coefficients de deux matrices est rapidement réalisé grâce aux variables α etβ calculées par les algorithmes Forward et Backward. Ces coefficients sont calculés par leséquations 2.6 et 2.7.

ξt(i, j) = αt(i)aijbj(Ot+1)βt+1(j)∑k

∑l αt(k)aklbl(Ot+1)βt+1(l) , (2.6)

γt(i) =N∑j=1

ξt(i, j) = αt(i)βt(i)∑Nj=1 αt(j)βt(j)

. (2.7)

L’algorithme de Baum-Welch (Baum et collab., 1970), qui est est dérivé de l’algorithme EM,se compose de deux étapes à chaque itération. A l’étape E, on calcule les variables ξt(i, j) etγt(i) en ayant les paramètres de modèles λ qui sont la matrice de transition des états cachésA, la matrice de génération des symboles suivant les états B et le vecteur de probabilité dedépart π. A l’étape M, on recalcule ces paramètres avec les nouvelles valeurs des matrices Ξet Γ, avec les équations 2.8, 2.9 et 2.10.

πi = γ1(i), 1 ≤ i ≤ N, (2.8)

aij =∑T−1

t=1 ξt(i,j)∑T−1t=1 γt(i)

, 1 ≤ i, j ≤ N, (2.9)

bjk =∑T

t=1∧ot=vkγt(j)∑T

t=1 γt(j), 1 ≤ j ≤ N. (2.10)

L’algorithme de Baum-Welch est donné par l’algorithme 5.

24

Page 41: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Algorithme 5 Algorithme de Baum-WelchChoisir un modèle initial λ0

while (il y a augmentation de P (O/λ)) ou (itération < maxiter) doCalcul des variables Forward et Backwardfor t = 1 to T dofor i = 1 to N dofor j = 1 to N doCalcul de ξt(i, j)

end forCalcul de γt(i)

end forend forCalcul de λ = (A,B,Π)

end while

Lorsqu’on a plusieurs séquences d’observations, on adapte l’algorithme de Baum-Welch commesuit :

P (O|λ) =L∑l=1

P (Ol|λ),

aij =∑Ll=1∑T−1t=1 ξlt(i, j)∑L

l=1∑T−1t=1 γlt(i)

, 1 ≤ i, j ≤ N,

bjk =∑Ll=1∑Tt=1∧ot=vk

γlt(j)∑Ll=1∑Tt=1 γ

lt(i)

, 1 ≤ i ≤ N,

πli =∑Ll=1 γ

l1(i)

L, 1 ≤ i ≤ N.

avec

ξlt(i, j) = αlt(i)aijbj(Ol

t+1)βlt+1(j)

P (Ol|λ) ,

γlt(i) =∑Nj=1 ξ

lt(i, j).

Dans le présent chapitre, nous avons présenté un aperçu sur les domaines de forage de donnéeset nous avons défini les notions et les techniques qui seront utiles pour les méthodes et lesapproches présentées dans les prochains chapitres. Le chapitre 3 présente plus spécifiquementle forage de données des bases administratives médicales.

25

Page 42: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 3

Forage de données des basesadministratives médicales

Le stockage et la récupération de l’information médicale est assuré par le biais des basesde données. Pour ce qui a trait aux données administratives de soins de santé, les bases dedonnées administratives sont utilisées pour collecter les informations à chaque fois que lepatient fait appel au système de soins de santé. Ainsi, ces données sont générées suite soit àune visite d’un médecin, soit à une procédure de diagnostic, soit à une admission à l’hôpital ouà l’achat des médicaments. Bien que ces données soient recueillies à des fins administratives oude facturation, elles peuvent être utilisées pour explorer la prestation des soins de santé dansle système médical. Des approches appropriées sont nécessaires pour arriver à cet objectif.

3.1 Les bases de données administratives en santé

Les bases de données administratives en santé contiennent les données d’hospitalisations, lesdonnées individuelles et les données sur les services médicaux. Les données administrativesdes soins de santé sont générées à chaque rencontre d’un patient avec le système de soinsde santé, que ce soit par une visite au cabinet d’un médecin, suite à un examen médical,une hospitalisation ou par l’achat des médicaments. Ces données sont recueillies à des finsadministratives ou de facturation, mais pourront être utilisées pour étudier la prestation dessoins de santé et les processus dans le système de santé. Dans les pays où les citoyens ont unaccès à l’assurance-maladie financée par le régime public, ces bases de données contiennent desdonnées qui couvrent les inscriptions, les médicaments, les services médicaux et les serviceshospitaliers. Ces données sont semi-structurées dans plusieurs tables. Ces tables sont reliéespar plusieurs associations et plusieurs variables d’identifications anonymisées. Au Québec, cesbases de données ont une couverture qui tend vers l’exhaustivité, en termes de population etaussi de soins de santé ce qui fait d’elles une source d’information importante et riche. Ellespourraient ainsi permettre de construire les entités de prises en charge et les trajectoires de

26

Page 43: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

soins des patients et d’extraire de la connaissance. La description détaillée de ces bases dedonnées et de leur prétraitement est présentée dans le chapitre 7. Cette étape nous a permisde créer des ensembles des entités complexes des séjours hospitaliers caractérisées par troistypes de variables et nous a permis aussi de construire les trajectoires de soins. Ces ensemblesde données nécessitent des algorithmes de regroupement adaptés que nous proposons danscette thèse.

3.2 Les méthodes statistiques

Les statistiques descriptives sont la principale méthode d’analyse des bases de données admi-nistratives dans le domaine de la santé. Elles sont proposées afin de résumer, de synthétiserles variations ou de déterminer l’importance de certaines caractéristiques par des indicateursou des scores extraits de données. Ces méthodes ont permis d’étudier différents sujets dans ledomaine de la santé, tels que la variation dans l’utilisation des soins, l’émergence de certainesproblématiques (maladie ou épidémie), les variations de pratique, les déterminants de l’hos-pitalisation ou l’avènement d’effets indésirables aux médicaments (Hoblyn et collab., 2015;Lapi et collab., 2010; Lopushinsky et collab., 2007).

Cependant, ces méthodes ne sont pas capables de bâtir un modèle à partir des données etd’analyser la relation qui existe entre les variables. Elles aident seulement à décrire en coupestransversales un phénomène donné. Par ailleurs, des méthodes analytiques par des approchesstatistiques sont utilisées pour trouver des relations entre des variables dans des groupesde patients prédéfinis. Afin d’atteindre cet objectif, la technique de régression, est souventl’approche la plus utilisée dans le domaine de la santé dans plusieurs des travaux portant surdes sujets très divers, comme les études sur les déterminants de la mortalité hospitalière, de lamortalité ambulatoire pour des pathologies bien ciblées, des issues de la prise de médicaments,ou de l’utilisation de services (Kuwabara et collab., 2010; Foster et collab., 2008).

Toutefois, ces études n’arrivent pas à extraire de l’information à partir des données existantessans indication supplémentaire. Les deux approches citées ci-dessus peuvent être catégoriséesdans la classe des approches qui cherchent à expliquer ou à décrire un ensemble de données ouà décrire une relation entre les variables à l’aide d’un modèle. Ces méthodes font l’hypothèseque l’échantillon d’études est issu d’une même classe et donc elles le traitent comme un groupehomogène ou bien que les classes soient connues à l’avance.

De plus, grâce aux progrès rapides des technologies d’acquisition et de collecte de données,les données collectées deviennent plus complexes et volumineuses. Les approches d’analyseclassique ne sont pas adaptées pour analyser ce type de données. Ceci nécessite la concep-tion et le développement des techniques d’analyse avancées efficaces pour les transformer enconnaissance et d’en tirer profit. Ainsi, le forage de données est proposé en domaine de lasanté comme une approche d’exploration des données qui diffère en nature par rapport aux

27

Page 44: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

méthodes classiques (Seifert, 2004).

Plusieurs distinctions importantes entre les statistiques et le forage de données peuvent êtrementionnées (Hand, 1999). Tout d’abord, les statistiques utilisent généralement un échantillonde données qui possède presque la même signification statistique que toute la populationalors que le forage de données est appelé à exploiter l’intégralité des données. De plus, lesstatistiques ne traitent que des données numériques alors que le forage de données est capablede traiter plusieurs types de données. Enfin, les statistiques sont des méthodes hypothético-déductives. En effet, dans les statistiques, une hypothèse est construite et ensuite des donnéessont recueillies pour tester l’hypothèse. Contrairement aux statistiques, le forage de données,sans une hypothèse, explore les données qui ont été recueillies à l’avance, et découvre desmodèles cachés à partir de ces données. Il est un processus de génération d’une hypothèsegénérale à partir des données.

3.3 Le forage de données

Dans plusieurs cas, pour les données médicales et surtout pour les données administratives, onn’a pas les connaissances préalables sur les caractéristiques des classes des données et de leursnombres a priori. Une approche capable d’utiliser des méthodes qui permettent de trouverdans les données existantes, des structures inconnues (dites aussi latentes ou cachées) sansaucune connaissance préalable des classes est ainsi extrêmement utile afin d’exploiter toutle potentiel des données. Le domaine de regroupement qui fait partie des champs de foragede données est la parfaite solution à cette problématique. Il vise à comprendre les modèlescachés dans les données et aidera les médecins à construire des profils homogènes à partir desdonnées.

Même si cette technique est très répandue dans le domaine biomédical pour regrouper lesséquences de gènes, le nombre de travaux dans le domaine de santé pour l’exploitation d’autrestypes de données est plutôt restreint (Yoo et collab., 2012). Ceci est dû en une partie à lacomplexité, l’hétérogénéité et la non structuration des données médicales qui rend cette tâchedifficile. Toutefois, ces techniques de regroupement commencent de plus en plus à prendre dela place et à être utilisées.

3.3.1 Regroupement des individus

Récemment, plusieurs travaux se sont focalisés sur l’utilisation des techniques de regroupementpour détecter l’hétérogénéité dans les données médicales à diverses fins.

Certains travaux se sont intéressés à regrouper des individus caractérisés par des donnéesnumériques. Par exemple, Gorunescu et collab. (2010) ont utilisé le modèle de mélanges gaus-siens et les cartes auto-adaptatives (self organizing maps en anglais (SOM)) pour regrouper

28

Page 45: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

les patients qui ont subis une chirurgie dans un hôpital à Adélaïde, en Australie, entre le 4février 1997 et le 30 juin 1998. Ce regroupement est fait selon les valeurs de leurs durées duséjour hospitalier. Par ailleurs, Garg et collab. (2011) se sont intéressés à l’utilisation d’uneseule variable numérique qui est la durée de séjour hospitalier pour guider la constructiond’un arbre de décision. Les variables catégorielles sont utilisées comme attributs de divisionet la durée de séjour comme l’attribut cible. Pour cette fin, ils ont réalisé le regroupementen divisant les nœuds de façon récursive en utilisant l’une des trois variables (âge, sexe oudiagnostic) et en se basant sur le critère d’information d’Akaike (AIC). Ils ont ainsi modéliséla durée de séjour dans chaque nœud soit par un mélange gaussien ou par une distribution« phase-type »dans chaque nœud. Le critère AIC est utilisé comme le facteur déterminantpour la procédure de division. Pour valider leur modèle, ils ont utilisé la base de données deshôpitaux en Angleterre pour des patients souffrant d’un accident vasculaire cérébral et quiont quitté l’hôpital entre le 1 avril 1994 et le 31 mars 1995.

En outre, d’autres travaux ont utilisé une variable prenant des séquences comme valeur pourcaractériser et regrouper les individus. En effet, Roque et collab. (2011) et Doshi-Velez et col-lab. (2014) ont basé le regroupement des patients sur la séquence de diagnostics pour unepériode donnée. Pour cela, Roque et collab. (2011) ont extrait les codes des diagnostics despatients qui ont eu un service médical dans un hôpital psychiatrique Danois entre 1998 et 2008.Ils ont ensuite projeté les séquences de diagnostics de chaque patient dans l’espace composédes codes de diagnostics et ont utilisé un regroupement hiérarchique en utilisant la distancecosinus pour les regrouper. De leur côté, Doshi-Velez et collab. (2014) se sont intéressés auxdonnées des enfants âgés de 15 ans qui ont eu des troubles du spectre autistique. Ils ont extraitles séquences des codes de diagnostics de ces patients. Puis, en effectuant un prétraitement, ilsont choisi 45 codes communs des catégories des diagnostics et ils ont défini ces codes commeespace de projection. Ils ont ensuite projeté les codes des diagnostics en comptant le nombred’occurrences de chacune des catégories pour chaque patient dans des fenêtres de temps prédé-fini. Enfin, ils ont utilisé le regroupement hiérarchique avec le critère de Ward et la mesure dela distance euclidienne pour regrouper ces vecteurs. Quant à eux, Antonelli et collab. (2013)se sont intéressés aux séquences d’examens des patients diabétiques enregistrées par le centrede santé local de la province d’Asti en Italie durant l’année 2007. Ils ont projeté ces séquencessur un espace vectoriel composé par les examens. Ainsi, chaque séquence est représentée pardes valeurs numériques dans cet espace. Les auteurs ont utilisé l’algorithme DBSCAN avecla distance cosinus pour regrouper ces séquences afin d’identifier les patients ayant des profilsd’examens similaires. De même, Xu et collab. (2014) se sont intéressés au regroupement despatients grâce aux séquences des procédures médicales que les patients ont eu durant leursséjours à l’urgence. Pour cela, ils ont utilisé les données de service de l’urgence au cours d’unesemaine choisie. Ils ont extrait la liste des procédures médicales fournies aux patients et ilsont projetées les séquences dans l’espace composé par ces procédures en notant la présenceou l’absence de telle procédure pour un patient donné. Ils ont ensuite utilisé le regroupement

29

Page 46: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

hiérarchique, l’algorithme k-means et les cartes auto-adaptatives pour regrouper ces données.

A cet égard, on peut constater que tous ces travaux se sont basés sur un seul attribut d’untype bien précis soit numérique ou séquentielle afin de regrouper les patients.

Récemment, Olson et collab. (2016) ont utilisé les méthodes de regroupement pour identifiersi des groupes de patients sont plus susceptibles d’avoir des régimes de médicaments à risqueélevé et, par conséquent d’être plus réadmis à l’hôpital. Pour cela, les auteurs ont utiliséles données provenant de la base de données (Outcome and Assessment Information Set(OASIS)) contenant des informations sur les soins de santé à domicile. Elle contient desdonnées démographiques, sur l’état fonctionnel, l’état clinique ainsi que les informations surles services de santé donnés aux patients. Les auteurs ont choisi les variables et ils ont procédé àun prétraitement des données en discrétisant les variables numériques pour transformer toutesles variables en des variables binaires. Ils ont utilisé ensuite le regroupement hiérarchique avecla mesure de distance de Jaccard et le critère de lien moyen. Il ont montré que le regroupementpermet d’identifier des sous-groupes de patients hospitalisés ayant des scores de risque deréadmission en hôpital différents en considérant leur régime de médicaments.

En définitive, tous ces travaux montrent que le regroupement devient de plus en plus unenécessité pour identifier des groupes de patients ou des soins médicaux homogènes en sebasant sur des critères choisis. L’utilisation des algorithmes de regroupement émerge dans ledomaine de la santé et ne cesse de prendre une place de plus en plus importante puisque laquantité des données collectées augmente et ainsi l’hétérogénéité aussi. Cependant, ces travauxutilisent des algorithmes de regroupement pour des données numériques. Certains parmi euxutilisent des méthodes non adaptées à des données de grands volumes tel que le regroupementhiérarchique. Également, les méthodes proposées pour le regroupement des séquences utilisentune projection dans un espace composé seulement de valeurs uniques des diagnostics ou desprocédés ce qui ne tient pas compte de l’aspect de cooccurrence et de la relation séquentielle.

Lors de notre construction des séjours hospitaliers, nous avons obtenu des entités caractéri-sées par des variables mixtes contenant des variables séquentielles d’où vient la nécessité deconcevoir et d’implémenter des algorithmes qui peuvent traiter des grands volumes d’entitéscomplexes. C’est dans ce contexte que nous présentons dans les chapitres 4 et 5 ces entitéscomplexes, et que nous proposons deux algorithmes capables de traiter ce type de données.

3.3.2 Regroupement des trajectoires

L’information temporelle est cruciale pour les données des soins de santé dans les bases dedonnées administratives. Ceci ajoute une autre difficulté aux traitements et au regroupementde ces données. Ainsi, il est inconcevable de raisonner et d’exploiter ces données sans la dimen-sion temporelle. En général, les données de prestation de soins contiennent les informationssur les processus du système de santé. Ces processus sont catégorisés en deux sortes de proces-

30

Page 47: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

sus : les processus organisationnels et le processus de traitement médical (Lenz et Reichert,2007). L’exécution de ces processus engendre une énorme quantité des données disponibledans les bases de données du système de santé. Toutefois, dans le domaine de la santé, cesprocessus sont trop flexibles et présentent une grande variabilité. À cause de cette complexité,la tâche de vouloir présenter des modèles de processus compréhensibles à partir de l’ensembledes données devient difficile. Ceci a conduit à la naissance de champs de regroupement desprocessus (process clustering en anglais) ou aussi présenté sous le nom de regroupement detraces (traces clustering en anglais).

De ce fait, quelques travaux récents ont été développés pour le regroupement des processusmédicaux. Elghazel et collab. (2007) ont proposé une technique basée sur le regroupementhiérarchique et les graphes pour regrouper les processus des séjours hospitaliers des patientsdurant une année. De leur côté, Rebuge et Ferreira (2012) ont proposé une autre techniquebasée sur le mélange des chaînes de Markov d’ordre un pour regrouper les processus de laradiologie en urgence. Par la suite, Huang et collab. (2013, 2014) ont appliqué l’allocationlatente de Dirichlet (LDA) pour découvrir des modèles latents dans les flux de soins spécifiquesà l’hémorragie intracrânienne et l’infarctus cérébral.

Tous ces travaux récents montrent l’intérêt croissant pour le regroupement des processus ensystème de santé. Toutefois, ces travaux s’appuient sur des processus composés d’événementsrelativement simples et bien définis alors que les trajectoires de soins sont composées d’en-tités complexes de services médicaux. En outre, chacun de ces travaux était concerné parun aspect spécifique de la trajectoire d’un patient et non pas par une vue globale de l’en-semble des soins fournis. Au chapitre 6, nous discuterons de ces travaux et nous présenteronsnotre méthodologie capable de regrouper des trajectoires de soins composées d’événementscomplexes.

Eu égard à ce qui précède, le regroupement des données médicales a connu un intérêt croissantau cours des deux dernières décennies. De plus, les bases de données administratives repré-sentent une source riche en information extrêmement intéressante et utile. La conception etl’implémentation d’algorithmes capables de regrouper les entités complexes extraites de cesbases de données devient une nécessité.

Dans ce chapitre, nous avons présenté les techniques statistiques souvent utilisées pour analy-ser les données administratives en système de santé. Cependant, ces techniques se basent surune connaissance préalable des groupes de ces données. Dans le domaine médical, cette in-formation est en général absente ce qui nécessite l’utilisation des méthodes de regroupement.Nous avons ainsi présenté des travaux qui utilisent ces techniques pour des données statiquesou des données temporelles. Toutefois, l’extraction des descriptions des objets à partir desbases administratives génèrent des objets complexes difficiles à regrouper avec les algorithmesexistants. Le chapitre 4 introduit ce type d’objets et présente notre algorithme capable de

31

Page 48: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

regrouper ce genre des données.

32

Page 49: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 4

Algorithme k-prototypes pourdonnées hétérogènes complexes

La plupart des organisations sont composées de plusieurs départements ayant des spécialitéset activités diverses et opérant par le fait des systèmes d’information contenant des infor-mations variées liées à leurs activités. Ces informations sont collectées et conservées dansplusieurs bases de données administratives distinctes. L’extraction des connaissances utilesde ces grandes bases de données hétérogènes est habituellement difficile à réaliser avec lesméthodes traditionnelles (par exemple, les requêtes SQL), étant donné la taille et la naturecomplexe de ces bases de données. De plus, ces bases de données sont constituées d’informa-tions à diverses finalités qui ne sont pas nécessairement conçues ni adaptées à l’applicationde méthodes analytiques classiques.

Dans de telles circonstances, la conception et l’application des algorithmes de forage de don-nées devient une nécessité pour toutes ces organisations. Cette importance provient du faitque ces données représentent une source d’information qui pourrait permettre à ces organi-sations de capturer des éléments et des tendances à partir des situations réelles malgré leurgrande variété. Toutefois, l’agrégation et l’exploitation de ces données présente plusieurs défisliés à la quantité, à la diversité et à la complexité des données recueillies.

Le secteur de la santé présente bien cette situation. En effet, le système de santé est caracté-risé par un nombre croissant de disciplines médicales et de services spécialisés et contient desinformations liées aux patients et aux services fournis collectées dans plusieurs bases de don-nées administratives. En conséquence, une quantité massive de données médicales est stockéesous divers formats et types pour des fins administratives. Ces bases de données médico-administratives ont l’avantage d’offrir une couverture complète de la population et sont misesà jour continuellement. Elles contiennent ainsi les antécédents concernant la prestation desservices médicaux fournis aux patients. Les données liées à ces antécédents sont réparties surplusieurs bases de données telles que celles contenant de l’information sur les personnes assu-

33

Page 50: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

rées, sur les hospitalisations et sur les services ambulatoires. De ce fait, ces bases de donnéesrelationnelles sont constituées de nombreuses tables interconnectées par des liens. Le jumelagede ces bases de données permet ainsi de constituer des entités qui représentent les services mé-dicaux fournis aux patients. Cependant, ces entités sont parfois des objets complexes décritspar un mélange des variables hétérogènes.

Le traitement de ces données hétérogènes et semi-structurées conduit à avoir des grandsensembles de données caractérisées par plusieurs types de variables. Dans le cas des soinsmédicaux, les séjours hospitaliers présentent ce type d’objet. En effet, chaque séjour hospitalierest caractérisé par des variables numériques telles que la durée, par des variables catégoriellestelles que le type de soins et par des variables qui prennent une séquence comme valeur tellesque la variable diagnostic. Par exemple un séjour hospitalier peut avoir la valeur d’un jourcomme durée, la valeur 01 comme type de soins et la valeur K625, K921, I2519, E119, E039,I100, Z2230 comme valeur de diagnostic. On revient plus en détails sur la construction de cesensembles d’objets dans le chapitre 7. Suite à cette étape, on construit des séjours hospitalierscaractérisés par la durée comme variable numérique, type de soins, type de services, spécialiste,type de provenance et type de destination comme variable catégorielle et les diagnostics et lesinterventions comme des variables catégorielles multivaluées. Cet ensemble d’objets complexesprésente un défi qui nécessite la conception et l’implémentation des nouveaux algorithmescapables de gérer ces objets.

Dans ce chapitre, nous proposons notre variante de l’algorithme de regroupement k-prototypescapable de gérer ce type d’entités complexes caractérisées par un mélange des variables ca-tégorielles, numériques et catégorielles multivaluées. Nous évaluons notre algorithme sur unensemble de données réelles représentant un ensemble de séjours hospitaliers extraits des basesde données administratives de santé au Québec, avec des résultats qui illustrent les bonnesperformances de notre méthode.

Ce chapitre est organisé de la manière suivante. Nous présentons d’abord la problématiquedans la section 4.1. Nous présentons ensuite notre méthodologie et l’algorithme proposé dansla section 4.2. Une étude de cas sur le regroupement des séjours hospitaliers extraits desbases de données administratives sur les soins de santé validant notre méthodologie et notrealgorithme est présenté à la section 4.3 et à la section 4.4.

4.1 Définition du problème

Le regroupement est une technique qui prend une place importante en forage de données puis-qu’elle permet de former des groupes homogènes d’objets, et ainsi de réduire la complexitédes données afin de mieux les comprendre. Ceci est devenu inévitable à cause de la quantité etla complexité des données auxquelles les différentes organisations font face. En outre, les algo-rithmes de regroupement classiques peuvent être classés en trois grands groupes : les méthodes

34

Page 51: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

hiérarchiques, les algorithmes de partitionnement et les méthodes basées sur des modèles. Lesalgorithmes hiérarchiques traditionnels ne conviennent pas à des grands ensembles de donnéescompte tenu de leur complexité computationnelle. Ainsi, à cette fin, les algorithmes de parti-tionnement sont habituellement les plus utilisés en présence de grands ensembles d’objets. Lepartitionnement de tels ensembles nécessite une bonne mesure de distance qui mesure la si-milarité entre les entités et un algorithme de regroupement efficace. L’algorithme classique dek-means de MacQueen (1967) est l’un des algorithmes de regroupement les plus courammentutilisés pour le traitement de grands volumes de données numériques, grâce à sa complexitélinéaire en termes de taille de jeu de données. Cet algorithme utilise généralement la distanceeuclidienne comme une mesure de similarité. Cette mesure donne des bons résultats lorsqueles données sont décrites par seulement des variables numériques. Cependant, la mesure dedistance euclidienne ne permet pas de saisir la similarité entre des entités lorsque les attri-buts sont catégoriels ou mixtes. Par conséquent, plusieurs propositions ont été faites pourl’étendre à d’autres types de variables. Huang (1997) a proposé une extension de k-meanspour les données catégorielles. La valeur de ce qu’il appelle mode des variables catégoriellesest utilisée comme centre de chaque groupe. Le « mode » représente le vecteur contenant lesmodalités les plus fréquentes dans chaque groupe. La « matching distance » est utilisée commela fonction de coût pour calculer la similarité entre les objets. Une extension de ce travail aété proposée pour regrouper des données caractérisées par un mélange des variables numé-rique et catégorielle. Cet algorithme est l’algorithme k-prototypes, qui combine les mesures dedissimilarité utilisées par l’algorithme k-means et l’algorithme k-modes (Huang, 1998). Dansleur article, Chan et collab. (2004) ont proposé une amélioration de l’algorithme k-prototypeen ajoutant une pondération des variables. Une autre amélioration de cet algorithme a étéproposée par Bai et collab. (2011) pour remédier à une faiblesse dans le calcul des poids desvariables catégorielles caractérisant les données. Liang et collab. (2012) ont modifié la dernièreversion de l’algorithme k-prototypes en définissant une distance pondérée tenant compte desvariables catégorielles et numériques. Tous ces algorithmes ne sont pas conçus pour gérer desdonnées complexes qui incluent des séquences de longueur variable de valeurs discrètes (parexemple, un ensemble de catégories). Cependant, ces données sont courantes dans les basesde données réelles, en général, et dans les bases de données administratives de système desanté, en particulier.

D’une manière générale, les données sont stockées dans des bases de données relationnellesconstituées de nombreuses tables interconnectées par des liens. Lorsque nous nous intéressonsà la description d’une entité, nous procédons à l’agglomération des variables décrivant cetteentité en suivant les liens entre les tables. Cela nous permet de construire des objets caracté-risés par des variables V1, . . . , Vm. La valeur du domaine de chaque variable nous permet dedéterminer leur propre type. Lorsque la valeur de domaine d’une variable est un sous-ensembleinfini de l’ensemble des nombres réels R, cette variable est considérée comme une variable nu-mérique, tandis que pour les valeurs finies et non ordonnées, la variable est une variable

35

Page 52: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

catégorielle. De plus, lorsque certaines valeurs catégorielles sont concaténées, nous obtenonsune variable catégorielle multivaluée. Un exemple est la variable intervention pour un séjourhospitalier, qui peut avoir des valeurs telles que 1NQ87BA,4AT0200,1GZ35CA,1GZ32CA.Les valeurs possibles pour ces variables multivaluées correspondent à l’ensemble des partiesde l’ensemble des valeurs catégorielles simples qui les composent. Nous pouvons formuler unevariable comme :

Vl : X −→ Dl

xi 7−→ Vl(xi),

où Dl est le domaine d’une variable, X est l’ensemble des objets, xi est le ième objet, etVl(xi) = xi,l est la valeur de cet objet pour la variable Vl. Donc, lorsque Dl est R cette va-riable est numérique. Si Dl est un ensemble fini et non ordonné, la variable est catégorique. SiDl = P(S), où S est un ensemble fini et non ordonné, et P(S) est un ensemble de composantesde l’ensemble S, alors Vl est une variable catégorielle multivaluée. Ainsi, si nous nous intéres-sons à décrire un objet spécifique, nous interrogeons les bases de données relationnelles afind’agglomérer ses instances et ainsi nous obtenons un ensemble de n objets X = x1, . . . , xn.Chaque objet xi est représenté comme vecteur (xi,1, . . . , xi,r, . . . , xi,q, . . . , xi,m), avec les r pre-miers variables prennent des valeurs numériques, les (q − r) variables suivantes prennent desvaleurs catégorielles et les restantes prennent des valeurs catégorielles multivaluées. Ce typecomplexe d’objet décrit par exemple les séjours hospitaliers en système de santé mais aussipourrait décrire d’autres entités dans d’autres secteurs d’activités. Ainsi, la conception et l’im-plémentation des algorithmes de regroupement pour ce type d’objets devient de plus en plusune nécessité en forage de données. Nous proposons ainsi un nouvel algorithme k-prototypes(Najjar et collab., 2014) qui permet d’étendre la dernière évolution de k-prototypes Lianget collab. (2012) afin de supporter des valeurs mixtes composés par des valeurs numériques,catégorielles et catégorielles multivaluées.

4.2 Nouvel algorithme k-prototype

Comme mentionné dans la section 4.1, les objets décrits par un mélange des variables numé-riques, catégorielles et catégorielles multivaluées deviennent de plus en plus fréquents dansplusieurs domaines. Ainsi, notre algorithme prend comme entrée l’ensemble X de ces objetset donne comme résultat un ensemble de prototypes, c1, . . . , cK , décrivant les K groupes. Lamodification proposée de l’algorithme k-prototypes est décrite ci-dessous.

4.2.1 Réduction d’espace et représentation pour les valeurs multivaluées

Notre première nouveauté consiste à prendre en compte des variables catégorielle multivaluéesqui décrivent les objets à côté des variables numériques et catégorielles. A cet égard, nousprocédons en deux étapes. Tout d’abord nous définissons l’espace de projection pour chaque

36

Page 53: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

variable catégorielle multivaluée. En effet, en général, les variables multivaluées se caracté-risent par des espaces de grande dimension ce qui peut influencer la qualité de regroupementsi on essaye de projeter ces données dans cet espace. En outre, l’algorithme Apriori présentéà la section 2.2.2 est utilisé dans certains travaux récents pour la sélection de caractéris-tiques et la réduction de l’espace de grande dimension (Inan et collab., 2013; Thangsupachaiet collab., 2011). Ainsi, nous proposons d’utiliser cet algorithme dans notre contexte pourdéfinir un espace de projection de caractéristiques formé par les itemsets les plus fréquentspour chaque variable catégorielle multivaluée. Si on considère Xl la lième variable catégorielle,q + 1 ≤ l ≤ m et xi,l la valeur de cette variable pour le iième objet, notre approche consisteà prendre les valeurs de la variable l prises par les objets comme ensemble de transactionsST pour l’algorithme Apriori afin qu’il nous retourne l’ensemble des itemsets les plus fré-quents. Nous définissons ainsi cet ensemble comme l’espace de projection pour cette variable.Cet algorithme permet de réduire l’espace de projection des variables multivaluées et permetaussi de mieux représenter l’aspect séquentiel grâce aux itemsets de longueur supérieure à 1capables de tenir compte de la cooccurrence.

En deuxième lieu, notre représentation des valeurs multivaluées correspond à une représen-tation en « Bag-of-Words » (BoW) qui a été d’abord proposée pour le forage des documentstextuelles. Cette représentation, décrite à la sous-section 2.2.1, est utilisée dans des travauxrécents avec des méthodes de regroupement dans le domaine de la santé pour regrouper lesdonnées (Bouslimi et collab., 2013; Ordónez et collab., 2011). Dans notre représentation dechaque variable catégorielle multivaluée, nous extrayons les itemsets les plus fréquents avecla méthode Apriori pour déterminer le vocabulaire. Ensuite, chaque valeur de variable estprojetée sur cet espace. Si on considère T l’ensemble des itemsets, une représentation d’unevaleur de la variable consiste en un vecteur de poids des mots (wi,1, . . . , wi,L), où L est lalongueur de la projection spatiale (c’est-à-dire le nombre de itemsets dans le vocabulaire).Les coefficients de pondération wi,j sont calculés à l’aide de la formule tf-idf Salton et McGill(1986). Ces poids sont donnés par l’équation 4.1.

wi,j = tf(tj , di)× idf(tj), (4.1)

où tf(tj , di) est la fréquence du itemset tj dans la valeur xi,l et idf(tj) est la fréquence docu-mentaire pour ce terme qui est donné par l’équation 4.2.

idf(tj) = log(

n

df(tj)

). (4.2)

La valeur de chaque centre pour ce type de variable est un vecteur de poids. Nous utilisonsproj(xi,l) = (wi,j,1, . . . , wi,j,L) comme notation qui fait référence à la projection de xi,l dansl’espace des itemsets de cette variable dont les poids sont calculés par les équations 4.1-4.2.

37

Page 54: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

4.2.2 Calcul des dissimilarités entre les objets

Notre deuxième nouveauté consiste à adapter la mesure de distance pour prendre en comptece type des objets. En effet, lorsque les objets sont décrits uniquement par des variablesnumériques et catégorielles, la dissimilarité entre un objet xi et le prototype cj est mesuréepar l’équation donnée par Liang et collab. (2012) :

d(xi, ck) = rq

∑r

l=1 (xi,l−ck,l)2∑K

j=1

∑r

l=1 (xi,l−cj,l)2+ q−r

q

∑q

l=r+1 1−I(xi,l,ck,l)∑K

j=1

∑q

l=r+1 1−I(xi,l,cj,l), (4.3)

avec I(x, y) = 1 si x = y et I(x, y) = 0 sinon. r représente le nombre de variables numériques etq représente le nombre de variables catégorielles. Ainsi, si on ajoute les variables catégoriellesmultivaluées aux variables numériques et catégorielles, il faut trouver une distance adaptée.De ce fait, nous proposons la mesure de dissimilarité suivante :

d(xi, ck) = r

m

∑rl=1 (xi,l − ck,l)2∑K

j=1∑rl=1 (xi,l − cj,l)2

+ q − rm

∑ql=r+1 1− I(xi,l, ck,l)∑K

j=1∑ql=r+1 1− I(xi,l, cj,l)

+ m− qm

∑ml=q+1 1− cos(proj(xi,l), ck,l)∑K

j=1∑ml=q+1 1− cos(proj(xi,l), cj,l)

,

(4.4)

Où proj(xi,l) = (wi,l,1, . . . , wi,l,L) est la projection de xi,l dans l’espace de projection de lavariable multivaluée Xl comme décrit dans la sous-section 4.2.1. Pour cette variable, le centrepour le groupe k est ck,l = (wk,l,1, · · · , wk,l,L), où la valeur de wk,l,v est décrite comme étantla moyenne de tous les poids des objets wi,l,v dans le groupe k, 1 ≤ v ≤ L, et L est la taillede l’espace de projection (c.-à-d., le nombre de mots utilisés dans la représentation en BoWpour la variable l).

4.2.3 Calcul des centres

Notre troisième modification se présente dans le calcul des centres. A cet égard, onconsidère c1, . . . , cK les centres des K groupes. Chaque centre ck est représenté par(ck,1, . . . , ck,r, . . . , ck,q, . . . , ck,m) où les r premiers valeurs sont des valeurs numériques, les(q− r) suivants sont des valeurs catégorielles et les éléments restants sont des représentationsBoW de valeurs catégorielles multivaluées, en utilisant comme mots les éléments sélectionnésavec l’algorithme Apriori. Le calcul des valeurs du centre de chaque variable dépend de sontype. Lorsque cette variable est numérique, ck,l est simplement la valeur moyenne de la va-riable pour les objets qui appartiennent au groupe. Lorsque cette variable est catégorielle, ck,lest le mode des objets qui sont dans ce groupe. Pour les variables catégorielles multivaluées,nous avons comme centre ck,l = (wk,l,1, . . . , wk,l,L) où chaque wk,l,v représente la moyenne despoids des données dans le groupe k pour la variable l dans la dimension v, avec v = 1, . . . , Let L étant la taille de l’espace de projection. Ainsi, l’allocation d’un objet xi à un nouveau

38

Page 55: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

groupe C se fait avec les équations suivantes :

cl =

( ∑xj∈C

xj,l

)+xi,l

|C|+1 , l = 1, . . . , r, (4.5)

Hl(xi,l) = Hl(xi,l) + 1, l = r + 1, . . . , q, (4.6)

cl = maxh

Hl(h), l = r + 1, . . . , q, (4.7)

wl,v =

( ∑xj∈C

wj,l,v

)+wi,l,v

|C|+1 ,l = q + 1, . . . ,mv = 1, . . . , L

, (4.8)

C = C + xi, (4.9)

Où Hl(h) est le nombre de h pour la variable l dans le groupe C et |C| est le nombre d’objetsdans le groupe. De plus, cette réaffectation nécessite la mise à jour du centre de l’anciengroupe C de l’objet en utilisant les équations suivantes :

cl =

( ∑xj∈C

xj,l

)−xi,l

|C|−1 , l = 1, . . . , r, (4.10)

Hl(xi,l) = Hl(xi,l)− 1, l = r + 1, . . . , q, (4.11)

cl = maxh

Hl(h), l = r + 1, . . . , q, (4.12)

wl,v =

( ∑xj∈C

wj,l,v

)−wi,l,v

|C|−1 ,l = q + 1, . . . ,mv = 1, . . . , L

, (4.13)

C = C\xi. (4.14)

4.2.4 Algorithme k-prototypes

L’algorithme k-prototypes, proposé par Liang et collab. (2012), vise à regrouper les ensemblesde données mixtes avec des variables numériques et catégorielles. Les auteurs ont utilisé lamesure de dissimilarité décrite par l’équation 4.3. Une comparaison de cet algorithme avecd’autres algorithmes sur des données réelles et synthétiques a montré sa performance (Lianget collab., 2012). Cet algorithme se compose des quatre étapes suivantes.

1. Choisir aléatoirement K objets distincts de l’ensemble de données en tant que centresinitiaux des groupes.

2. Affecter chaque objet au centre le plus proche en fonction de la mesure de dissimi-larité donnée dans l’équation 4.3. Mettre à jour les centres des groupes après chaqueaffectation.

3. Pour chaque objet, déterminer son centre le plus proche. Si ce centre est le centre d’ungroupe différent de celui auquel l’objet est alloué, réaffectez l’objet immédiatement augroupe le plus proche. Mettre à jour les centres du groupe précédent et de l’actuel enconséquence.

39

Page 56: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Algorithme 6 Algorithme k-prototypes proposé

input X = x1, . . . , xn : Ensemble d’objets à regrouper ; tmax : Nombre d’itérations maxi-mal.

output bi, i = 1, . . . , n : Étiquettes des objets xi ; ck : centres des groupes1: Calculer l’espace de projection Fl pour chaque variable multivaluée Xl, q + 1 ≤ l ≤ m en

utilisant l’algorithme 1.2: Sélectionner aléatoirement K objets distincts de l’ensemble de données X et les utiliser

comme centres initiaux ck des groupes, k = 1, . . . ,K.3: for all xi ∈ X , dans un ordre aléatoire do4: bi ←

Kargminj=1

(d(xi, cj)) (en utilisant Eq. 6.2.1).

5: Actualiser le centre cbiet le groupe Cbi

en ajoutant xi (en utilisant Eq. 4.5-4.9).6: end for7: changed← true ; t← 18: while (changed = true) ∧ (t ≤ tmax) do9: changed← false

10: for all xi ∈ X , dans un ordre aléatoire do11: yi ←

Kargminj=1

(d(xi, cj)) (en utilisant Eq. 6.2.1).

12: if yi 6= bi then13: changed← true14: Actualiser le centre cbi

et le groupe Cbien enlevant xi (en utilisant Eq. 4.10-4.14).

15: Actualiser le centre cyi et le groupe Cyi en ajoutant xi (en utilisant Eq. 4.5-4.9).16: bi ← yi17: end if18: end for19: t← t+ 120: end while

4. Répétez l’étape 3 jusqu’à ce qu’aucun objet ne soit réalloué ou qu’un autre critère d’arrêtsoit atteint.

Toutefois, cet algorithme ne peut pas traiter les variables du type catégoriel multivalué.Notre proposition vise à l’étendre en utilisant la fonction de dissimilarité donnée dans l’équa-tion 6.2.1. Le résultat est présenté sous la forme Algorithme 6.

4.2.5 Interprétation des résultats pour les variables catégoriellesmultivaluées

Dans le domaine médical, il est difficile de trouver des bases de références qui contiennent unensemble d’objets avec leurs vraies étiquettes et qui permettent ainsi une comparaison objec-tive entre les algorithmes. A notre connaissance, ces bases sont inexistantes pour des donnéesayant les mêmes caractéristiques que notre ensemble des séjours hospitaliers. De plus, la co-morbidité, c’est-à-dire la présence des maladies qui s’ajoutent à la maladie initiale, augmentela complexité des données. Pour pouvoir interpréter les résultats pour les variables catégo-

40

Page 57: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

rielles et catégorielles multivaluées, nous sommes basés sur le fait qu’un groupe homogènea des valeurs qui le caractérisent et le diffèrent d’un autre. Afin d’arriver à déterminer cesvaleurs et leurs distributions, nous avons défini le support pour chaque valeur s dans chaquegroupe. Le support détermine ainsi la proportion des objets qui contiennent cette valeur.

Soit Xl, les valeurs prises pour la lème variable multivaluée. Le support pour une valeur oj,lde cette variable est défini comme suit :

suppk(oj,l) =

∑xi,l∈Ck

ni,l(oj,l)

|Ck|, (4.15)

où ni,l(oj,l) =

1 si oj,l ∈ xi,l0 sinon

, q + 1 ≤ l ≤ m et 1 ≤ j ≤ Ol.

Ainsi, le support d’une valeur dans un groupe représente le ratio entre le nombre des valeursd’une variable catégorielle multivaluée contenant cette valeur et le nombre des objets dans legroupe.

4.3 Étude de cas : échantillon des séjours hospitaliers

Dans cette section, nous présentons un exemple de l’application de regroupement pour lesséjours hospitaliers des patients âgés souffrant d’une insuffisance cardiaque du fait qu’elledemeure un diagnostic répandu, surtout chez les sujets âgés. Elle est aussi source de mortalité,de morbidité, d’hospitalisations et d’utilisation de plusieurs autres ressources. Ainsi, dansnotre projet nous nous sommes intéressés aux trajectoires de traitements des patients souffrantde cette maladie. Les patients sélectionnés sont les patients ayant au moins un diagnosticd’insuffisance cardiaque (les codes de ce diagnostic selon la classification CIM-9 sont 428.0,428.1 ou 428.9) entre le 1er janvier 2000 et le 31 décembre 2005. Les individus qui n’étaientpas âgés de 65 ans ou plus à la date de la première consultation ou à la première date dedépart de l’hôpital sont rejetés. Les données utilisées sont les données collectées entre le 1erjanvier 2000 et le 31 décembre 2009.

Une étape de prétraitement est faite pour extraire ces données. En effet, nous avons utilisédes fichiers extraits des bases de données administratives de la RAMQ (Régie de l’assurance-maladie du Québec), qui agit comme assureur maladie pour les résidents du Québec (près de100% des habitants de la province) et du MSSS (Ministère de la Santé et des Services so-ciaux du Québec). Chaque fichier contient des informations sur les patients ou sur les servicesmédicaux donnés. Nous avons extrait de ces fichiers l’information qui permet de reconstituerles séjours hospitaliers et ceci en associant les informations des patients aux informations surles diagnostics et sur les interventions. Chaque séjour hospitalier est ainsi considéré commeun objet complexe décrit par un ensemble de variables numériques et catégorielles corres-

41

Page 58: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

pondant à l’information sur le patient et le soin, et des variables catégorielles multivaluéescorrespondant aux valeurs du diagnostic et d’intervention. Nous avons obtenu 38,102 séjourshospitaliers pour les 10,000 patients de l’échantillon. Dans cette section, nous présentons lesrésultats de regroupement en 50 groupes de cet ensemble des séjours hospitaliers. Plus dedétails sur l’ensemble des données utilisées pour le projet et leurs prétraitement seront décritsdans la section 7.2.

La tâche de regroupement est difficile à cause de la comorbidité qui est la présence simulta-née de plusieurs diagnostics. Pour illustrer cette comorbidité, nous avons calculé les supportsde quelques diagnostics, présents comme un diagnostic principal ou secondaire, en utilisantl’équation 4.15. La figure 4.1 montre la variabilité de certains diagnostics liés à la maladie d’in-suffisance cardiaque au sein des groupes. Cette figure confirme la comorbidité. La figure 4.2représente la distribution des diagnostics, des interventions, des services et des spécialitésdans l’échantillon. En regardant ces distributions aucun groupe évident ne peut être détecté àpartir de ces données alors qu’en appliquant notre algorithme et en regardant la distributionau sein des groupes on voit clairement une variabilité remarquable donnée par le regroupe-ment engendré par notre approche. En analysant les groupes obtenus, on note l’efficacité denotre algorithme à détecter la présence de familles distinctes de séjours hospitaliers malgré lamorbidité. En se basant sur la variabilité des distributions, nous avons réussi a identifié desgroupes :

— Cataracte (groupe 1 et groupe 40) ;

— Démence sénile (groupe 13) ;

— Maladies de l’appareil locomoteur (groupe 39) ;

— Séjours liés aux problèmes cardiaques tels que : autres formes aiguës/cardiopathies is-chémiques subaiguës (groupe 2) ; Athérosclérose coronarienne (groupe 16) ; Insuffisancecardiaque gauche (groupe 19) ; Infarctus aigû du myocarde (groupe 30 et 32) ; Insuffi-sance ventriculaire gauche (groupe 47) ;

— Maladies cérébro-vasculaire (groupe 42) ;

— Problèmes rénaux (groupe 11) ;

— Maladies de l’appareil respiratoire (groupe 44)

— Maladies de l’appareil digestif (groupe 48)

La distribution des supports pour les diagnostics, les interventions, les services ainsi queles spécialités (voir figure 4.2) confirme d’ailleurs l’efficacité de ce regroupement. En effet, enregardant ces distributions aucun groupe évident ne peut être détecter à partir de ces donnéesalors qu’en regardant la distribution au sein des groupes on voit clairement une variabilitéremarquable donnée par le regroupement engendré par notre approche.

42

Page 59: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(a) Athérosclérose coronarienne

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Support

(b) Hypertension essentielle

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(c) Insuffisance cardiaque sansprécision

Figure 4.1 – Morbidité entre les maladies

0 500 1000 1500 2000

Diagnostic

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Support

Support des différents diagnostics

(a) Distribution des diagnostics

0 500 1000 1500 2000

Intervention

0.0

0.1

0.2

0.3

0.4

0.5

Support

Support des différentes interventions

(b) Distribution des interventions

10 20 30 40 50

Service

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Support

Support des différents services

(c) Distribution des services

5 10 15 20 25 30 35 40

Spécialité

0.0

0.1

0.2

0.3

0.4

0.5

Support

Support des différents spécialité

(d) Distribution des spécialités

Figure 4.2 – Valeurs des supports sur l’échantillon des séjours hospitaliers.

43

Page 60: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

Support

(a) Autres formesaigues/subaigues cardiopathiesischémiques

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Support

(b) Pneumonie, micro-organismenon précisé

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(c) Athérosclérose coronarienne

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Support

(d) Hyperplasie de la prostate

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35Support

(e) Syndrome de dysfonctionne-ment sinusal

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(f) Cataracte Sans Autre Indica-tion (SAI)

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(g) Cataracte sénile

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(h) Fibrillation et flutter auricu-laires

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(i) Fracture transtrochantériennedu col fémur, simple

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Support

(j) Infarctus aigû du myocarde

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

Support

(k) Sénilité sans mention de psy-chose

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Support

(l) Surveillances NCA et SAI

Figure 4.3 – Variabilité des diagnostiques au sein des groupes

44

Page 61: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Le tableau 4.1 fournit une description de certains centres de groupes obtenus par notre algo-rithme. La figure 4.3 montre la variabilité des diagnostics principaux les plus fréquents selonchaque groupe. Certains diagnostics permettent d’identifier la présence de familles de séjourshospitaliers pour les personnes âgées atteintes d’insuffisance cardiaque et peuvent caractéri-ser un groupe d’un autre. Par exemple, les cataractes peuvent différencier les grappes 1 et40 des autres. Nous pouvons également voir que pneumonie, micro-organisme non précisécaractérise le groupe 44 (voir Fig. 4.3b). Le groupe 26 est caractérisé par des sérieux pro-blèmes cardiaques. Cela peut être constaté par le service le plus fréquent qui est la cardiologierelié aux interventions prises dans ce groupe telles que la radiographie, cœur avec artères co-ronaires, cathétérisme du cœur gauche avec radioscopie (uoroscopie), approche (rétrograde)percutanée intra-artérielle, la dilatation, artères coronaires, l’implantation d’un appareil in-terne, cœur NCA et ainsi de suite. Le groupe 15 est caractérisé quant à lui principalement parles maladies des organes génitaux masculins et plus précisément l’hyperplasie de la prostatequi représentent le quart des diagnostics dans ce groupe.

La figure 4.4 présente la variabilité des interventions selon les groupes. Il est clair qu’il existeune plus grande variabilité des interventions entre les groupes. La répartition des diagnosticsen groupes semble correspondre à la répartition des services et des interventions. Par exemple,nous notons que l’intervention distinguant les grappes 20 et 29 des autres grappes est l’excisiontotale, la phacoémulsification des lentilles sans insertion d’une lentille intraoculaire. Pour lesgrappes 13 et 26, on note la présence de la circulation extracorporelle liée aux complicationscardiaques, etc. Nous avons également pu détecter que les patients des groupes 2, 16, 19, 24,26, 33, 34, 46 et 47 ont été traités principalement dans le service de cardiologie alors que lespatients dans les grappes 28 et 48 étaient hospitalisés dans les services de chirurgie générale.Fig. 4.5 montre une répartition basée sur les services aux patients.

Ces résultats montrent le potentiel de cette approche qui prend en compte toutes les variableset tente de décrire les variables catégorielles multivaluées et de rechercher des groupes desobjets complexes. Le regroupement des services médicaux est nécessaires pour la constructiondes trajectoires de traitement médical des patients. L’énorme variabilité des services médicauxpour les patients pousse à vouloir identifier des groupes des services qui permettent de syn-thétiser l’information et de définir les trajectoires par un nombre raisonnable d’événements.Toutefois, les données sur ces services sont importantes et complexes, de sorte qu’il est dif-ficile de les traiter. En effet, ces ensembles de données contiennent des variables hétérogèneset complexes qui doivent être considérées ensemble. En tenant compte de chaque variableséparément pour faire un jugement, conduit à une perte de la vue d’ensemble qui détermineles décisions dans le domaine médical. Ainsi, la synthèse des services dans des groupes ho-mogènes permet de synthétiser l’information sur ces services et d’utiliser cette synthèse pourconstruire les trajectoires de soins des patients qui est décrite dans le chapitre 6. Comme nousl’avons présenté ci-dessus, notre algorithme a réussi à détecter de grandes familles de services

45

Page 62: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Support

(a) Implantation d’un appareilinterne, cœur Non ClassableAilleurs (NCA)

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

Support

(b) Dilatation, artères coronaires

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

Support

(c) Implantation d’un appareil in-terne, articulation de la hanche

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Support

(d) Artériographie coronaire utili-sant deux cathéters

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(e) Sans intervention

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Support

(f) Phakofragmentation et aspira-tion de cataracte

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

Support

(g) Excision totale, cristallin, pha-coemulsification sans insertion delentille intraoculaire

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(h) Insertion prothèse intraocu-laire cristallin + extraction cata-racte

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(i) figures/chapitre4/inter/inter-Circulation-extracorporelle

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Support

(j) Implantation de pacemakerSAI

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Support

(k) Radiographie, cœur avec ar-tères coronaires, cathétérisme ducœur gauche avec radioscopiefluoroscopie, approche rétrogradepercutanée intra-artérielle

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(l) Réduction Ouverte de fractureavec Fixation Interne, fémur

Figure 4.4 – Variabilité des interventions en fonction des groupes

46

Page 63: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Group

e#

Patients

Soin

Méd

ecins

C12

605

(1.59%

)Age

:75-79

(25.79

%)

Sexe

:M(55.04

%)

Typ

ede

soins:So

insph

ysique

set

psychiatriq

uesde

courte

durée

Provena

nce:D

omicile

(94.05

%)

Destina

tion

:Dom

icile

(80.33

%)

Nom

brede

jour

moyen

:7.55jour

Diagn

osticplus

fréque

nt:O

bstruc

tionchroniqu

ede

svoiesrespira

toire

s,NCA

2èmediagno

stic

:Bronchite

chron.

muc

opurulente

Intervention

plus

fréque

nte:S

ansinterventio

n2èm

eintervention

Fibroscopiede

sbron

ches

Service:P

neum

olog

ie(91.07

%)

Spécialité:P

neum

olog

ie(77.02

%)

C25

340

(0.89%

)Age

:75-79

(26.47

%)

Sexe

:M(50.88

%)

Typ

ede

soins:So

insph

ysique

set

psychiatriq

uesde

courte

durée

Provena

nce:D

omicile

(80.00

%)

Destina

tion

:Maison

funé

raire

ouau

tre

CH

pour

prélèvem

entd’orga

nes(62.65

%)

Nom

brede

jour

moyen

:7.72jour

Diagn

osticplus

fréque

nt:S

urveillan

cesNCA

etSA

I2èm

ediagno

stic

:Soins

post-opé

ratoire

sNCA

Intervention

plus

fréque

nte:S

ansinterventio

n2èm

eintervention

Tran

sfusionde

sang

NCA

Service:S

oins

palliatifs

(57.35

%)

Spécialité

:Omnipraticien

(67.35

%)

C40

2132

(5.60%

)Age

:75-79

(29.03

%)

Sexe

:F(59.76

%)

Typ

ede

soins:S

oins

enchiru

rgie

d’un

jour

Provena

nce:D

omicile

(99.58

%)

Destina

tion

:Dom

icile

(99.30

%)

Nom

brede

jour

moyen

:1jour

Diagn

osticplus

fréque

nt:C

ataracte

SAI

2èmediagno

stic

:Cataracte,s

ansprécision

Intervention

plus

fréque

nte

:Ph

akofragm

enta-

tion/

asp.

cataracte

2èmeintervention

Ins.

proth.

intr.o

cul.+extr.c

at.1

t.

Service:O

phtalm

olog

ie(99.44

%)

Spécialité

:Oph

talm

olog

ie(99.77

%)

Tab

le4.1–Descriptio

nde

quelqu

escentresde

grou

pesde

sséjoursho

spita

liers

obtenu

spa

rla

métho

deprop

osée.

47

Page 64: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(a) Urologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(b) Chirurgie générale

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(c) Chirurgie orthopédique

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Support

(d) Chirurgie cardiovasculaire etthoracique

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(e) Cardiologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(f) Médecine interne

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

Support

(g) Neurologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(h) Ophtalmologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(i) Pneumologie

Figure 4.5 – Variabilité des spécialités des médecins en fonction des groupes

de santé. Cela devrait faciliter la catégorisation des séjours hospitaliers.

Comme la plupart des approches dérivées de k-means, cet algorithme proposé est sensible auxdonnées aberrantes. Pour notre projet, nous avons délibérément décidé de ne pas filtrer lesdonnées. En effet, il est particulièrement intéressant dans notre contexte de traiter ces cas,afin de permettre la découverte et le traitement des modèles rares et irréguliers qui peuventse produire dans le système de santé. Mais d’un point de vue de regroupement, faire untel prétraitement peut certainement aider à améliorer les résultats. Comme nous pouvonsconstater, l’algorithme peut ainsi extraire des groupes rares tel que le groupe 16 qui estcaractérisé par surveillances NCA et SAI comme le diagnostic le plus fréquent et le service desoins palliatifs comme service le plus fréquent.

48

Page 65: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(a) Cardiologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(b) Chirurgie cardiovasculaire etthoracique

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(c) Chirurgie générale

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

Support

(d) Neurologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(e) Ophtalmologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(f) Orthopédie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Support

(g) Soins palliatifs

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(h) Urologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(i) Pneumologie

Figure 4.6 – Variabilité des services visités au sein des groupes

4.4 Résultats pour l’ensemble des séjours hospitaliers

D’autre part, nous avons appliqué notre algorithme à l’ensemble complet des séjours hospi-taliers. Cet ensemble se forme de 684,906 séjours hospitaliers. Les résultats sont validés parun spécialiste et publiés (Najjar et collab., 2014). Ces résultats montrent le potentiel de notreapproche qui tient compte de toutes les variables, décrit les variables catégorielles multiva-luées et arrive à trouver des interventions et des diagnostics dominants dans les groupes. Ellepermet ainsi de détecter des familles de séjours hospitaliers de santé, de les caractériser et deles analyser.

Nous avons commencé par regrouper toutes les entités des séjours hospitaliers avec desnombres de groupes différents afin d’identifier le nombre de groupe qui maximise l’indice deCalinski-Harabasz (indice CH) (Caliński et Harabasz, 1974). En effet, cet indice fonctionnebien pour le choix de nombre des groupes tel qu’indiqué par Arbelaitz et collab. (2013) et il

49

Page 66: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

0 5 10 15 20 25 30 35 40Number of clusters

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1.1

1.2

1.3

CH

index

Figure 4.7 – Valeur de l’indice CH en fonction du nombre de groupes.

est calculé par l’équation 4.16.

CH(C) = n−KK − 1

K∑k=1|Ck| d(ck, x)

K∑k=1

∑xi∈Ck

d(xi, ck), (4.16)

où C est une partition, n est le nombre des objets, K est le nombre de groupes, Ck est le kème

groupe, x est la moyenne de tous les objets, xi est le ième objet et ck est le kème centre.

Selon la figure 4.7, pour une partition en 35 groupes nous obtenons des bonnes performancespour un nombre relativement moyen de groupes des séjours hospitaliers.

En analysant les supports des diagnostics dans les groupes, nous notons la présence des famillesde séjours hospitaliers typiques pour les personnes âgées :

— Cataractes (clusters 20, 29) ;

— Hernie (clusters 17, 30) ;

— Démence sénile (clusters 6, 7, 23) ;

— Maladie du système musculo-squelettique (clusters 12, 19, 25) ;

— Séjours liés à des problèmes cardiaques tels que : maladie la valve aortique, complicationscardiaques, autres complications dues à une intervention chirurgicale, athérosclérose desartères périphériques (clusters 13, 26) ; ou insuffisance cardiaque congestive ou insuffi-sance cardiaque gauche (4, 13, 24, 26, 28, 32) ; ou maladie de la valve mitrale (4, 13, 26,32) ;

— Infections (cluster 27) ;

— Système nerveux (hémiplégie, dysphagie) (cluster 18) ;

— Problèmes de rénaux : Néphropathie hypertendue (clusters 3, 8).

50

Page 67: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

0 5 10 15 20 25 30 35 40Cluster

0.0

0.1

0.2

0.3

0.4

0.5

Supp

ort

(a) Cataractes

0 5 10 15 20 25 30 35 40Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Supp

ort

(b) Complications cardiaques

0 5 10 15 20 25 30 35 40Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Supp

ort

(c) Hernie inguinale sans obs-truction ou gangrène

Figure 4.8 – Variabilité des diagnostiques au sein des groupes pour l’ensemble des séjourshospitaliers

0 5 10 15 20 25 30 35 40Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

Supp

ort

(a) Excision totale,lentille, phacoémulsifi-cation sans insertion delentille intraoculaire

0 5 10 15 20 25 30 35 40Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Supp

ort

(b) Circulation extracor-porelle

0 5 10 15 20 25 30 35 40Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Supp

ort

(c) Réduction ouverte dela fracture

0 5 10 15 20 25 30 35 40Cluster

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

Supp

ort

(d) Réparation desmuscles du thorax et del’abdomen

Figure 4.9 – Valeurs des supports de certaines interventions selon les groupes des séjourshospitaliers.

La tableau 4.2 fournit une description de certains centres des groupes obtenus avec notrealgorithme pour l’ensemble des séjours hospitaliers. On constate que certains diagnosticspermettent d’identifier la présence de familles de séjours hospitaliers pour les personnes âgéesatteintes d’insuffisance cardiaque et peuvent différencier un groupe d’un autre. Par exemple,les cataractes peuvent différencier les groupes 20 et 29 des autres. On peut également voirque la hernie inguinal sans obstruction ou gangrène caractérise les groupes 17 et 30 (voirFig. 4.8a-4.8c).

La figure 4.9 présente la variabilité des interventions selon les groupes. Nous notons quel’intervention qui distingue les groupes 20 et 29 des autres groupes est l’excision totale, laphacoémulsication des lentilles sans insertion de lentille intraoculaire. Pour les groupes 13 et26, nous notons la présence de la circulation extracorporelle liée aux complications cardiaques.Nous détectons également que les patients dans les groupes 4, 24, 28 et 32 ont été traitésprincipalement dans le service de cardiologie, alors que les patients dans les groupes 2, 7et 30 ont été hospitalisés dans les services de chirurgie générale. La figure 4.10 montre unerépartition basée sur les services où les soins sont fournis.

51

Page 68: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Group

e#

Patients

Soin

Méd

ecins

C13

5571

Age

:80-84

(50.39

%)

Sexe

:F(83.23

%)

Typ

ede

soins:So

insph

ysique

set

psychiatriq

uesde

courte

durée

Provena

nce:D

omicile

(63.06

%)

Destina

tion

:Centreho

spita

lierde

soinsgéné

raux

etspécialisés

oucentre

hospita

lierde

soinspsychiatriq

ues

(68.28

%)

Nom

brede

jour

moyen

:22jour

Diagn

osticplus

fréque

nt:A

thérosclérosecorona

ire2èm

ediagno

stic

:Hyp

ertensionartérie

lleessentielle

Intervention

plus

fréque

nte:C

irculationextracorpo

-relle

2èmeintervention

Tran

sfusion,

cellu

lessang

uine

sag

glo-

mérées

Service:C

hirurgie

cardiovasculaire

thoracique

(73.76

%)

Spécialité

:Chirurgie

cardiovascu-

laire

thoracique

(64.01

%)

C29

2995

2Age

:80-84

(37.69

%)

Sexe

:F(93.00

%)

Typ

ede

soins:S

oins

enchiru

rgie

d’un

jour

Provena

nce:D

omicile

(99.08

%)

Destina

tion

:Dom

icile

(98.30

%)

Nom

brede

jour

moyen

:1jour

Diagn

osticplus

fréque

nt:C

ataractes,

sans

précision

2èmediagno

stic

:Cataractes

Intervention

plus

fréque

nte

:Ex

cisio

ntotale,ph

a-coém

ulsifi

catio

ncrist

allin

esans

insertion

delentille

intrao

culaire

2èmeintervention

Insertiond’un

eprothè

seintrao

culaire

+extractio

nde

cataractes

Service:O

phtalm

olog

ie(91.54

%)

Spécialité

:Oph

talm

olog

ie(91.74

%)

C30

8383

Age

:80-84

(44.55

%)

Sexe

:M(85.51

%)

Typ

ede

soins:S

oins

enchiru

rgie

d’un

jour

Provena

nce:D

omicile

(94.54

%)

Destina

tion

:Dom

icile

(83.48

%)

Nom

brede

jour

moyen

:1jour

Diagn

osticplus

fréque

nt:A

thérosclérosecorona

ire2èm

ediagno

stic

:Hernieingu

inalesans

obstructionou

gang

rène

Intervention

plus

fréque

nte:R

éparation,

muscles

dela

poitr

ineet

del’a

bdom

en,a

pprocheou

verte

2èmeintervention

Auc

uneinterventio

n

Service

:Chirurgie

géné

rale

(73.49

%)

Spécialité

:Chirurgie

géné

rale

(79.76

%)

Tab

le4.2–Descriptio

nde

quelqu

escentresde

grou

pesde

l’ensem

blede

sséjoursho

spita

liers

obtenu

spa

rla

métho

deprop

osée.

52

Page 69: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

0 5 10 15 20 25 30 35 40Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Supp

ort

(a) Orthopédie

0 5 10 15 20 25 30 35 40Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Supp

ort

(b) Chirurgie générale

0 5 10 15 20 25 30 35 40Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Supp

ort

(c) Cardiologie

0 5 10 15 20 25 30 35 40Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Supp

ort

(d) Chirurgie cardiovas-culaire thoracique

Figure 4.10 – Valeurs des supports de certains services selon les groupes des séjours hospi-taliers.

Dans ce chapitre, nous avons présenté l’algorithme k-prototypes pour regrouper des grandsvolumes d’entités complexes. Ces objets sont décrits par des variables numériques, catégorielleset catégorielles multivaluées. Ils sont présents dans divers contextes, l’un d’entre eux estles bases de données administratives médicales. Cet algorithme permet le regroupement desséjours hospitaliers dans des familles homogènes. Ceci est nécessaire pour la découverte despatrons des trajectoires de soins présentée dans le chapitre 7.

53

Page 70: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 5

Modèle de mélange fini hétérogèneen deux étapes

Dans le chapitre précédent, nous avons souligné l’importance du regroupement des donnéescomplexes caractérisées par des variables numériques, catégorielles et catégorielles multiva-luées et nous avons proposés un algorithme de partitionnement basé sur la mesure de ladistance. Cet algorithme étend l’algorithme classique et largement utilisé en regroupementdes données numériques k-means afin qu’il puisse regrouper de données complexes tel queceux présents dans le domaine de santé.

Le regroupement basé sur un modèle de mélange est l’une des deux principales familles d’ap-proches utilisées pour le regroupement, l’autre étant les méthodes, soit hiérarchique ou departitionnement, basées sur la distance. D’ailleurs, le modèle de mélange gaussien représenteune généralisation de l’algorithme k-means. Partant de ce fait et de l’importance des modèlesde mélanges en regroupement, nous proposons un modèle de mélange capable de traiter cesdonnées complexes.

Dans ce chapitre, nous proposons une approche basée sur les modèles probabilistes pourregrouper ces données. Plus précisément, nous proposons un algorithme utilisant un modèlede mélange fini hétérogène pour le regroupement d’entités complexes caractérisées par desvariables catégorielles, numériques et catégorielles multivaluées. Cet algorithme est proposépour résoudre le même problème décrit dans la sous-section 4.1. Nous commençons d’abordpar la présentation d’un aperçu des approches pertinentes de regroupement par modèle demélange 5.1. Nous présentons ensuite notre méthodologie et l’algorithme correspondant dansla section 5.2. L’évaluation de la méthode pour le regroupement de ces données est présentéedans la section 5.3 et dans la section 5.4.

54

Page 71: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

5.1 Définition du problème

L’utilisation des modèles de mélanges est répandue pour le regroupement des données. Cesmodèles sont basés sur un mélange de densités de probabilité. Le choix des densités de pro-babilité dépend principalement des types des variables qui caractérisent les données. En effet,les modèles de mélanges gaussiens sont des modèles largement utilisés pour le regroupementdes données décrites par des variables quantitatives. Ce mélange de composants convient auxdonnées composées de variables numériques centrées autour de certains modes (un mode parcomposante). Cependant, lorsque les variables sont catégorielles, le mélange de distributionsmultinomiales est le mieux adapté, en supposant que les variables catégorielles sont mutuel-lement indépendantes au sein de chaque groupe (voir (Clogg, 1995) et (Everitt, 1984)).

Les modèles de mélanges peuvent également être appliqués pour traiter des séquences dis-crètes. Par exemple, Cadez et collab. (2003) ont utilisé un modèle de mélange des chaînes deMarkov du premier ordre pour regrouper un ensemble de séquences des navigations internetpour plusieurs utilisateurs. Chaque séquence représente les catégories des sites web visitéspar chaque utilisateur. Tiño et collab. (2004) ont utilisé un modèle de mélange de modèlesde Markov cachés comme modèle de mélange pour le regroupement de ce même type de sé-quences. McLachlan et Peel (2004), Frühwirth-Schnatter (2006), et Everitt et collab. (2011)présentent en détails les modèles de mélange fini et leur utilisation dans le regroupement.

En pratique, les ensembles de données peuvent contenir de nombreux types de variables. Enréponse au problème de regroupement de ce type des données, Hunt et Jorgensen (1999) etJorgensen et Hunt (1996) ont proposé un modèle de mélange pour regrouper des donnéescaractérisées par des variables mixtes composées des variables numériques et catégorielles.Dans leur modèle, ils ont supposé que les variables soient mutuellement indépendantes. Lemodèle proposé repose sur le fait que chaque composante pour chaque variable dépend deson type et que la distribution dans chaque groupe pour chaque individu est le produit desdistributions des variables. Ce modèle ne s’applique pas à des ensembles de données composésde variables multivariées et séquentielles.

Smyth (1999) a démontré qu’il est possible de faire un modèle de mélange fini qui gère à la foisdes variables multivariées et séquentielles, en supposant que les différents types de variablessont indépendants. Ce modèle étend le modèle de Jorgensen et Hunt (1996) en ajoutant unmélange finis de modèles séquentiels. En application de son modèle, Smyth (1999) a utilisé unmélange fini de composantes gaussiennes bidimensionnelles couplées à des chaînes de Markovde premier ordre.

Dans notre proposition, nous étendons le modèle proposé par Smyth (1999) à des mélanges dedistributions gaussiennes pour des variables numériques, des distributions multinomiales pourdes variables catégorielles et des modèles de Markov cachés pour des variables séquentielles(multivariées catégorielles). Nous proposons également une approche en deux étapes plutôt

55

Page 72: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

que de faire une modélisation complètement indépendante sur les différents types de variablesà traiter, tout en appliquant notre approche dans le domaine médical.

Le regroupement par des modèles de mélanges commence à prendre de la place dans le domainemédical. Garg et collab. (2009) ont développé un arbre de décision pour regrouper les patientsen fonction de la durée de leur séjour à l’hôpital. À cette fin, le regroupement hiérarchiquea été réalisé en divisant les nœuds de façon récursive en utilisant l’une des trois covariantes(âge, sexe ou diagnostic), tant qu’il y a diminution du critère d’information Akaike (AIC).Leur modélisation est un mélange fini de composantes gaussiennes pour modéliser la duréede séjour hospitalier dans chaque nœud. Le modèle proposé par Garg et collab. (2009) n’estpas construit d’une manière complètement non supervisée et est conçu pour modéliser unmélange de variables numériques. En effet, ce modèle est guidé par une variable numérique(durée de séjour) pour construire un arbre de décision en utilisant les valeurs catégorielles.En outre, Fonseca (2008) ont utilisé le modèle de mélange fini pour découvrir des modèlesdans les données numériques pour la maladie coronarienne. Rebuge et Ferreira (2012) ontappliqué un mélange fini de chaîne de Markov de premier ordre pour regrouper les séquencesqui représentent les flux composés par les événements de soins. Ils ont appliqué leur modèlepour les processus de la radiologie dans le service d’urgence à l’hôpital Saint-Sébastien auPortugal. Ces modèles ont été appliqués pour un type de variable. À notre connaissance, letravail décrit ici est la première application aux soins de santé du regroupement basé sur unmodèle de mélange capable de traiter trois importants types de variables.

5.2 Modèle de mélange hétérogène proposé

L’algorithme du modèle de mélange fini proposé procède en deux étapes et nous l’avons conçucompte tenu des besoins de regrouper des données décrites par des variables numériques, ca-tégorielles et catégorielles multivariées. Notre travail étend la proposition de Smyth (1999) dedeux manières. D’abord, nous avons introduit l’utilisation des distributions multinomiales etdes modèles de Markov cachés (HMM) pour traiter des valeurs catégorielles et catégoriellesmultivaluées, respectivement. Deuxièmement, l’algorithme est organisé sur deux étapes danschaque itération. Dans la première étape, nous déterminons le modèle de mélange pour lesvariables numériques et catégorielles. Selon les résultats obtenus suite à cet étape, la deuxièmeétape détermine un modèle de Markov caché (HMM) pour chaque valeur catégorielle mul-tivaluée et dans chaque groupe. Enfin, l’algorithme calcule la probabilité d’appartenance dechaque individu comme le produit des probabilités d’appartenance calculées dans ces deuxétapes. A chaque étape, nous déterminons un modèle qui décrit des données caractérisées parun ensemble de types de variables.

56

Page 73: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

5.2.1 Etape 1 : EM pour variables numériques et catégorielles

En considérant la formalisation présentée dans la section 4.1, le but de la première étape est deregrouper en K groupe les objets xi ∈ X caractérisés en utilisant seulement les variables nu-mériques et catégorielles et en les modélisant comme un modèle de mélange fini. La proportiondes groupes est donnée par ω1, . . . , ωK. Chaque groupe suit une distribution de probabilitéf(xi|φk), avec un paramètre φk pour chaque groupe k = 1, . . . ,K. Nous supposons donc quechaque observation xi est générée par un modèle de mélange fini avec une probabilité donnéepar :

f(xi) =K∑k=1

ωkf(xi|φk). (5.1)

Nous supposons que les variables sont indépendantes de sorte que la probabilité de distributionf(·|φk) du groupe k soit le produit de la probabilité de distribution f(·|ϕk,l) de chaque variablenumérique ou catégorielle :

f(xi|φk) =q∏l=1

f(xi,l|ϕk,l). (5.2)

Pour les variables numériques, f(xi,l|ϕk,l) est modélisé comme une distribution gaussienne,f(xi,l|ϕk,l) ∼ N (µk,l, σ2

k,l), avec µk,l et σk,l sont respectivement la moyenne et l’écart-type dela lème variable dans le groupe k. Pour les variables catégorielles, nous utilisons une densitémultinomiale, f(xi,l|ϕk,l) ∼ Mutl(1,λk,l), avec λk,l,e est la probabilité que la lème variableprend la modalité e lorsque le ième individu appartient au groupe k. Dans un tel contexte,xi,l,e prend 1 si l’individu i prend la modalité e pour la lème variable, et prend 0 sinon. Ll estle nombre de modalités pour la variable Vl et

∑Lle=1 λk,l,e = 1. Une telle modélisation est la

première nouveauté de notre algorithme. La densité de probabilité correspondante f(xi|φk)dans le groupe k est calculée comme suit :

f(xi|φk) =r∏l=1

1√2πσk,l

exp[−(xi,l − µk,l)2

2σ2k,l

q∏l=r+1

Ll∏e=1

(λk,l,e)xi,l,e . (5.3)

La détermination des paramètres d’un modèle de mélange fini s’effectue habituellement enutilisant l’algorithme d’Espérance-Maximisation (EM) (Dempster et collab., 1977). Le prin-cipe de l’algorithme est d’évaluer itérativement l’appartenance de chaque individu à chaquegroupe z(t)

i,k selon les paramètres du modèle φ(t−1) (étape Espérance). Cette étape est suivi ducalcul des paramètres du modèle φ(t) qui maximisent l’espérance de log-vraisemblance (étapeMaximisation). L’algorithme part d’une estimation initiale du paramètre φ(0) puis procèdeitérativement en évaluant les probabilités d’appartenance z(t)

i,k et en mettant à jour φ(t) jusqu’àce que la convergence soit atteinte. La log-vraisemblance à chaque itération est donnée par :

L(φ) =n∑i=1

K∑k=1

zi,k log[ωkf(xi|φk)]. (5.4)

57

Page 74: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

A l’étape Espérance, chaque probabilité d’appartenance qu’un individu appartient au groupek conditionnellement au paramètre courant du modèle φ(t−1) est donné par :

z(t)i,k = ω

(t−1)k f(xi|φ(t−1)

k )∑Kj=1 ω

(t−1)j f(xi|φ(t−1)

j ). (5.5)

A l’étape Maximisation, les paramètres qui maximisent la log-vraisemblance L(φ) sont calcu-lés, généralement d’une façon analytique et ceci en déterminant les expressions qui vérifient∂L(φk)/∂φk,l = 0 pour chaque φk,l dans φk. Pour le modèle mixte gaussien-multinomialproposé, les expressions des paramètres qui maximisent l’espérance de la log-vraisemblancecomplétée sont :

µ(t)k,l =

∑ni=1 z

(t)i,k xi,l∑n

i=1 z(t)i,k

, (5.6)

(σ(t)k,l)

2=

∑ni=1 z

(t)i,k(xi,l − µ

(t)k,l)2∑n

i=1 z(t)i,k

, (5.7)

λ(t)k,l,e =

∑ni=1 z

(t)i,k xi,l,e∑n

i=1 z(t)i,k

. (5.8)

La première étape de l’algorithme requiert le choix des paramètres initiaux pour les dis-tributions gaussienne et multinomiale. Pour cela, nous appliquons plusieurs fois la méthodek-prototypes proposées par Huang (1998) pour les valeurs numériques et catégorielles mixtes,en choisissant la partition qui minimise l’erreur totale. Nous calculons ensuite les moyenneset l’écart-type pour chaque variable dans chaque groupe en se basant sur le regroupementobtenu et nous les attribuons à la valeur initiale µ(0)

k,l et σ(0)k,l des distributions gaussiennes. De

même, nous calculons les fréquences de chaque modalité pour chaque variable catégorielle etnous l’attribuons au paramètre λ(0)

k,l,e correspondant.

Après l’initialisation des paramètres, l’algorithme procède au regroupement des données ense basant sur les variables numériques et catégorielles. Le regroupement est déterminé ense basant sur l’algorithme EM décrit par l’algorithme 8. L’expression de la distribution deprobabilité est donnée par l’équation 5.3 et l’expression des paramètres pour l’étape de maxi-misation est donnée par l’équation 5.6-5.8.

Suite à cette première étape, dans laquelle nous traitons uniquement des variables numériqueset catégorielles, nous obtenons les probabilités d’appartenance de chaque individu à chaquegroupe et qui sont calculées par l’équation 5.5. En outre, nous pouvons calculer la partitionstricte de données en affectant chaque objet i au groupe qui maximise zi,k :

bi,k =

1 if k = argmaxj zi,j0 autrement.

. (5.9)

58

Page 75: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Les valeurs de la variable catégorielle multivaluée données par cette partition sont utiliséescomme entrée pour la deuxième étape.

5.2.2 Étape 2 : HMM pour les variables multivaluées catégorielles

La deuxième nouveauté de notre méthode est l’utilisation de HMM (Rabiner, 1989) pourtraiter des valeurs catégorielles multivaluées. Le but de la deuxième étape de l’algorithmeest d’adapter un HMM pour chaque variable multivaluée dans chaque groupe obtenu suiteà la première étape d’algorithme, en utilisant les partitions strictes des individus donnéespar l’équation 5.9. Pour des raisons de simplification, pour la suite nous détaillons l’étapede l’algorithme pour une variable multivaluée. Cependant, la même procédure est faite pourchaque variable catégorielle multivaluée décrivant les données.

En prenant comme entrée la partition stricte des objets donnée par la première étape, nousobtenons un ensemble de valeurs de la lème variable multivaluée dans chaque groupe k. Chaquevaleur d’objet est donnée par xi,l qui est exprimée par xi,l = xi,l,1, xi,l,2, . . ., où xi,l ∈ Dl

est une suite de symboles observés qui peuvent prendre Ol valeurs possibles dans un espaced’observations. Partant de cette partition, nous formons K HMMs en déterminant un HMMpour chaque groupe.

La phase d’apprentissage dans cette étape vise à calculer les paramètres du modèle en utilisantles valeurs de la variable multivaluée Vl dans le groupe k. D’une manière générale, un HMMde S états cachés et O observations peut être décrit par les paramètres π,A,B, avec πcomme vecteur des probabilités initiales, A comme matrice de probabilités de transition, et Ba la matrice de probabilités d’émission. Dans le cas de notre méthode, nous formons un HMMpour chaque variable catégorielle multivaluée et pour chaque groupe en utilisant l’algorithmede Baum-Welch pour apprendre les paramètres ϕk,l = πk,l,Ak,l,Bk,l de chaque modèle.

Puisque la convergence de l’algorithme dépend de son initialisation, avec des résultats quivarient d’une exécution à une autre, nous exécutons l’algorithme plusieurs fois. Les paramètresinitiaux de chaque HMM ϕk,l = πk,l,Ak,l,Bk,l sont initialisés aléatoirement par des valeursgénérées en utilisant une distribution de Dirichlet. Nous faisons plusieurs génération en variantle paramètre α de la distribution (le même pour toutes les dimensions) entre 0,1 et 1 par pasde 0,1. Pour chaque groupe, le meilleur HMM obtenu avec cette méthode selon l’indicateurlog-vraisemblance est conservé.

La phase suivante de la deuxième étape consiste à calculer pour chaque valeur multivaluée xi,lde l’individu i la probabilité d’émission P (xi,l|ϕk,l) étant donné un HMM de paramètres ϕk,l.Cette probabilité est calculée par l’algorithme Forward (algorithme 3). Pour homogénéisercette valeur avec les valeurs d’appartenance calculées dans la première étape, nous procédonsà une normalisation de la probabilité calculé pour cette valeur de variable catégorielle multi-valuées par la somme des probabilités de cette même valeur dans tous les groupes. Ceci est

59

Page 76: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

fait en utilisant l’équation 5.10 :

ξi,k,l = P (xi,l|ϕk,l)∑Kk=1 P (xi,l|ϕk,l)

. (5.10)

Ainsi, nous obtenons la probabilité d’appartenance de chaque individu à chaque groupe enutilisant sa valeur prise pour une variable multivaluée donnée.

5.2.3 Algorithme EM+HMM en deux étapes proposé

Une itération de notre algorithme en deux étapes proposé se termine en calculant les pro-babilités d’appartenance individuelles comme le produit entre la probabilité d’appartenanceindividuelle, obtenue dans la première étape par l’algorithme EM, et les probabilités d’appar-tenance individuelles obtenues à partir des HMM de chaque variable multivaluée :

hi,k = zi,k

m∏l=q+1

ξi,k,l. (5.11)

Pour la prochaine itération, la partition stricte obtenue avec cette appartenance hi,k est uti-lisée pour calculer les paramètres initiaux de la distribution gaussienne et multinomiale afinde faire une nouvelle itération de l’algorithme. Nous définissons un nombre fixe d’itérationscomme critère d’arrêt pour l’algorithme. L’algorithme général de notre méthode est donné parl’algorithme 7, tandis que la version spécifique de EM utilisée pour les variables numériqueset catégorielles est présentée par l’algorithme 8.

5.3 Étude de cas : Échantillon des séjours hospitaliers

Pour donner un exemple de regroupement des données obtenu par notre algorithme et quipermettra de voir l’efficacité de la méthode, nous procédons au regroupement dans 50 groupesdes séjours hospitaliers décrits et utilisés dans le chapitre précédent. Notre évaluation se baserasur l’analyse des groupes en calculant les supports pour chaque valeur de variable dans chaquegroupe.

Tout d’abord, nous comparons le regroupement final donné par notre algorithme EM+HMMen deux étapes au regroupement donné par l’algorithme EM dans le premier cycle de notrealgorithme. Ces résultats montrent que l’approche proposée permet de découvrir des groupesplus homogènes et d’autres groupes spécialisés, justifiant l’ajout de variables multivaluées etl’efficacité de notre algorithme à la découverte des tendances dans les groupes. L’analyse dela répartition des services, des spécialistes, des diagnostics et des interventions au sein desgroupes, présentée dans la figure 5.1, confirme que l’algorithme EM+HMM proposé approuveles résultats de l’algorithme EM pour plusieurs groupes, découvre et renforce d’autres groupesplus homogènes que EM n’a pas pu détecter en utilisant uniquement des variables numériqueset catégorielles.

60

Page 77: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

EM+HMM

EM

(a) Service Psychiatrie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(b) Service Gériatrie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(c) Service Neurochirurgie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(d) Spécialité Cardiologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(e) Spécialité Neurologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(f) Spécialité Urologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

Support

(g) Infection Intestinale à Clos-tridium difficile

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(h) Autres formesaigues/subaigues cardiopa-thies ischémiques

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

Support

(i) Psychose maniaque dépres-sive, forme dépressive

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(j) Cathétérisme cardiaque,cœur gauche

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(k) Excision/Destruction trans-urétrale lésion,vessie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.01

0.02

0.03

0.04

0.05

Support

(l) Excision/Destruction de lé-sion ou tissu du péritoine

Figure 5.1 – Comparaison des résultats obtenus avec l’algorithme Espérance-Maximisation(EM) appliquée uniquement aux variables numériques et catégorielles avec la méthode pro-posée traitant également des valeurs catégorielles multivaluées (EM+HMM).

61

Page 78: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Algorithme 7 Algorithme en deux étapes EM+HMM pour des données complexesinput X = x1, . . . ,xn : ensemble des objets à regrouper ; T : nombre maximal d’itérationsoutput b(T )

i,k : étiquettes finales des objets1: Calculer b(0)

i,k pour i = 1, . . . , n et k = 1, . . . ,K avec k-prototypes, en déterminant une par-tition des données contenues dans X et ceci en utilisant seulement les variables numériqueset catégorielles.

2: for t = 1, . . . , T do3: Calculer les étiquettes b(t)i,k et les probabilités d’appartenance z(t)

i,k for i = 1, . . . , n andk = 1, . . . ,K en appliquant EM sur les variables numériques et catégorielles commedécrit à la Sec. 5.2.1, en utilisant Algo. 8

4: Générer les modèles HMM, ϕ(t)k,l for k = 1, . . . ,K and l = q + 1, . . . ,m, en utilisant

l’algorithme Baum-Welch décrit à la sous-section 2.2.4.5: Calcul des probabilités d’émission P (xi,l|ϕ

(t)k,l) en utilisant l’algorithme forward et calcul

des probabilités d’appartenance ξ(t)i,k,l en utilisant Eq. 5.10, pour k = 1, . . . ,K et l =

q + 1, . . . ,m6: Calculer les probabilités d’appartenance des deux étapes h(t)

i,k avec Eq. 5.11 pour i =1, . . . , n and k = 1, . . . ,K

7: Calculer les étiquettes b(t)i,k pour i = 1, . . . , n et k = 1, . . . ,K as :

b(t)i,k =

1 if k = argmaxj h

(t)i,j

0 sinon

8: end for

Les données sur les séjours hospitaliers se présentent sous forme d’un ensemble complexe telque mentionné dans le chapitre précédent. Cependant, malgré cette complexité et les difficultésassociées, notre algorithme permet d’extraire des grandes familles de séjours hospitaliers :

— Cataracte (groupe 1) ;

— Maladies du sang (groupe 13) ;

— Maladies de l’appareil respiratoire (groupe 6)

— Maladies de l’appareil locomoteur (groupe 36, 47) ;

— Séjours liés aux problèmes cardiaques tels que : Athérosclérose coronarienne (groupe 4,10) ; Insuffisance cardiaque gauche (groupe 15, 16) ; Infarctus aigû du myocarde (groupe45) ;

— Démence sénile (groupe 8, 9, 43) ;

— Problèmes rénaux (groupe 23) ;

— Problèmes de troubles mentaux (groupe 24) ;

— Maladies cérébro-vasculaire (groupe 39, 48) ;

— Maladies du système génito-urinaire (groupe 44, 7) ;

62

Page 79: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Algorithme 8 Algorithme EM pour les variables numériques et catégoriellesinput X = x1, . . . ,xn : ensemble d’objets à regrouper décrits uniquement par des variables

numériques et catégorielles ; b(0)i,k : Étiquettes initiales des objets ; TEM : le nombre maximal

d’itérationsoutput bi,k : Étiquettes finales des objets ; z(TEM)

i,k : probabilités finaux d’appartenance

1: Calculer µ(0)k,l ←

∑n

i=1 b(0)i,k

xi,l

nkpour k = 1, . . . ,K et l = 1, . . . , r

2: Calculer σ(0)k,l ←

∑n

i=1 b(0)i,k

(xi,l−µ(0)k,l

)2

nkpour k = 1, . . . ,K et l = 1, . . . , r

3: Calculer λ(0)k,l,e ←

∑n

i=1 b(0)i,k

xi,j,e

nkpour k = 1, . . . ,K, l = r + 1, . . . , q, et e = 1, . . . , Ll

4: t← 15: while

(|L(φ(t))−L(φ(t−1))|

L(φ(t−1)) ≥ ε)∧ (t ≤ TEM) do

6: Étape espérance : calculer z(t)i,k en utilisant Eq. 5.5 pour i = 1, . . . , n et k = 1, . . . ,K

7: Étape maximisation : calculer µ(t)k,l et σ

(t)k,l pour k = 1, . . . ,K et l = 1, . . . , r en utilisant

respectivement Eq. 5.6 et 5.7, et λ(t)k,l,e pour k = 1, . . . ,K, l = r+1, . . . , q, et e = 1, . . . , Ll

en utilisant Eq. 5.88: t← t+ 19: end while

10: Calculer les étiquettes bi,k à partir de z(TEM)i,k en utilisant Eq. 5.9 pour i = 1, . . . , n et

k = 1, . . . ,K

— Maladies de l’appareil respiratoire (groupe 6, 50)

— Maladies de l’appareil digestif (groupe 28)

De plus, il est intéressant de noter que, malgré que l’insuffisance cardiaque s’accompagne d’uneimportante comorbidité pour les personnes âgées, c’est-à-dire qu’elle est souvent associée àd’autres maladies, et que les services médicaux sont souvent fournis par des spécialistes etdes omnipraticiens, notre méthode nous a permis de découvrir plusieurs familles homogènesde séjours hospitaliers. La figure 5.2 présente la distribution de certains diagnostics au seindes groupes et le tableau 5.1 donne une description de certains de ces groupes. Malgré lacomorbidité, le grand nombre des diagnostics et des interventions fournis aux patients (2939code de diagnostics et 2239 code d’interventions) et malgré le fait que les services médicauxet les interventions varient d’un cas à une autre et qu’une maladie avec différentes symptômespeut être décrites par des codes différentes (exemple pour le cataracte : on a plusieurs codesselon le type de cataracte), nous pouvons constater que notre algorithme détecte des groupesdécrits par certaines maladies spécifiques qui les différencient des autres. Ceci est le cas parexemple de groupe 1 qui est caractérisé par la maladie de cataracte et ces différents types. Legroupe 10 est caractérisé par les maladies cardiaques probablement sévères car elles nécessitentdes interventions qui ont faites par un spécialiste en chirurgie cardiovasculaire et thoracique.

L’analyse des distributions des intervention au sein de groupes renforce les résultats de re-groupement et s’accorde avec la distribution obtenue du diagnostic et donne une information

63

Page 80: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(a) Insuffisance rénale aigue, SAI

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(b) Pneumonie, micro-organismenon précisé

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(c) Athérosclérose coronarienne

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

Support

(d) Hyperplasie de la prostate

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25Support

(e) Maladies cérébrovasculairesaigues mais mal définies

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Support

(f) Cataracte Sans Autre Indica-tion (SAI)

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(g) Myélome multiple sans men-tion de rémission

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

Support

(h) Tumeur maligne du corps del’utérus, sauf isthme

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(i) Fracture transtrochanté-rienne du col du fémur, simple

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

Support

(j) Psychose maniaque dépres-sive, forme dépressive

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Support

(k) Sénilité sans mention de psy-chose

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

Support

(l) Surveillances NCA et SAI

Figure 5.2 – Variabilité des diagnostiques au sein des groupes

64

Page 81: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

supplémentaire de ces groupes. La figure 5.3 donne un aperçu sur cette distribution pour cer-taines interventions et permet de constater que certaines interventions différencient quelquesgroupes des autres groupes.

Dans la figure 5.5, nous pouvons voir aussi que certains groupes des séjours hospitalierssont caractérisé par un service médical. Des conclusions similaires ont été confirmées par lavariabilité de la spécialité des médecins au sein des groupes qui est illustrée par la Figure 5.4.

5.4 Résultats pour l’ensemble des séjours hospitaliers

Comme mentionné et décrit à la section 4.3, l’ensemble complet des séjours hospitaliers re-présente un ensemble d’objets caractérisés par trois types de variables. Le regroupement decet ensemble est difficile à cause de la comorbidité. Nous avons appliqué notre modèle à cetensemble. Les résultats obtenus sont validés par un spécialiste et publiés (Najjar et collab.,2015). Pour ces résultats, nous avons appliqué notre méthode en deux étapes avec les pa-ramètres suivants : T = 3 pour le nombre des itérations, TEM = 100 pour le nombre desitérations dans l’algorithme EM de la première étape et avec des HMM ayant 10 états ca-chés. Ces états sont des variables latentes sans signification particulière. Quatre répétitionssont effectuées, où la meilleure répétition selon le critère d’information bayésien de Schwarz(BIC) (Schwarz, 1978) a été choisie. Afin de déterminer le nombre de groupes, nous avons ef-fectué le regroupement des entités des séjours hospitaliers avec un nombre variable de groupek ∈ 10, 11, . . . , 28, en évaluant les résultats de regroupement par le critère BIC, Commeillustré par la figure 5.6.

Les résultats obtenus suggèrent l’utilisation de 22 groupes qui est le nombre correspondant àla valeur de BIC minimale.

Selon ce choix, nous avons comparé le regroupement donné par notre algorithme EM+HMMen deux étapes avec le regroupement donné par l’algorithme EM dans le premier cycle de notrealgorithme. Ces résultats confirment, tel que mentionné dans la section 5.3, que l’approcheproposée permet la génération des groupes plus homogènes et d’autres groupes spécialisées.La figure 5.7 présente quelques exemple de cette comparaison.

En ce qui concerne l’ensemble des séjours hospitaliers, notre méthode nous a permis de dé-couvrir plusieurs familles de ces séjours. Cela illustre que ces derniers peuvent être regroupéedans plusieurs catégories. Ces groupes sont liés au :

1. cataractes (groupe 9) ;

2. problèmes cardiaques (groupes 3, 6, 10, 11, et 20) ;

3. maladie du système musculo-squelettique (groupes 4 et 5) ;

65

Page 82: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12Support

(a) Thoracocentèse

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(b) Excision /destruction trans-urétrale lésion, vessie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Support

(c) Hémodialyse

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

Support

(d) Injection/ Infusion d’agentschimiothérapie du cancer

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(e) Sans intervention

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Support

(f) Phakofragmentation et aspi-ration de cataracte

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Support

(g) Excision totale, cristallin,phacoemulsification sans inser-tion de lentille intraoculaire

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Support

(h) Insertion prothèse intraocu-laire cristallin + extraction cata-racte

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Support

(i) Circulation extracorporelle

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Support

(j) Fibroscopie des bronches

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.02

0.04

0.06

0.08

0.10

0.12

Support

(k) Radiographie, cœur avecartères coronaires,cathétérismedu cœur gauche avec radiosco-pie fluoroscopie, approche rétro-grade percutanée intra-artérielle

1 5 10 15 20 25 30 35 40 45 50Cluster

0.00

0.05

0.10

0.15

0.20

0.25

Support

(l) Réduction Ouverte de frac-ture avec Fixation Interne, fémur

Figure 5.3 – Variabilité des interventions en fonction des groupes

66

Page 83: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Group

e#

Patients

Soin

Méd

ecins

C13

178

(0.47%

)Age

:75-79

(24.16

%)

Sexe

:F(51.12

%)

Typ

ede

soins:So

insph

ysique

set

psychiatriq

uesde

courte

durée

Provena

nce:D

omicile

(91.57

%)

Destina

tion

:Dom

icile

(52.81

%)

Nom

brede

jour

moyen

:13.52

jour

Diagn

ostic

plus

fréque

nt:Myélome

multip

lesans

mentio

nde

rémiss

ion

2émediagno

stic

:Chimiothérap

ied’entretien

Intervention

plus

fréque

nte:S

ansinterventio

n2ém

eintervention

Tran

sfusion,cellu

lessang

.agg

lom.

Service:H

ématolog

ie(72.47

%)

Spécialité:H

ématolog

ie(82.58

%)

C23

357

(0.94%

)Age

:75-79

(29.69

%)

Sexe

:M(51.54

%)

Typ

ede

soins:So

insph

ysique

set

psychiatriq

uesde

courte

durée

Provena

nce:D

omicile

(83.47

%)

Destina

tion

:Dom

icile

(59.38

%)

Nom

brede

jour

moyen

:11.07

jour

Diagn

osticplus

fréque

nt:Insuffisanc

eréna

leaigu

ëSA

I2ém

ediagno

stic

:Nép

hrop

athiedû

eàl’h

ypertension,

Intervention

plus

fréque

nte:H

émod

ialyse

2émeintervention

Sans

interventio

n

Service:N

éphrolog

ie(97.76

%)

Spécialité:N

éphrolog

ie(100

%)

C24

104

(0.27%

)Age

:75-79

(32.69

%)

Sexe

:F(51.92

%)

Typ

ede

soins:So

insph

ysique

set

psychiatriq

uesde

courte

durée

Provena

nce:D

omicile

(89.42

%)

Destina

tion

:Dom

icile

(70.19

%)

Nom

brede

jour

moyen

:38.9jour

Diagn

osticplus

fréque

nt:P

sychoseman

iaqu

edé

pres-

sive,

form

edé

pressiv

e2ém

ediagno

stic

:Dém

ence

artério

pathique

Intervention

plus

fréque

nte:S

ansinterventio

n2ém

eintervention

Thé

rapiepa

rélectrocho

cNCA

Service:P

sychiatrie

(97.12

%)

Spécialité:P

sychiatrie

(90.38

%)

Tab

le5.1–Descriptio

nde

quelqu

escentresde

grou

pesde

sséjoursho

spita

liers

obtenu

spa

rla

métho

deprop

osée.

67

Page 84: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(a) Urologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(b) Chirurgie générale

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(c) Chirurgie orthopédique

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(d) Chirurgie cardiovasculaire etthoracique

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(e) Cardiologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(f) Hématologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(g) Neurologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(h) Ophtalmologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(i) Pneumologie

Figure 5.4 – Variabilité des spécialités des médecins en fonction des groupes

4. maladies physiques, mentales, fonctionnelles et sociales liées au vieillissement (groupe8) ;

5. Maladie du rein et de la prostate, voies urinaires (groupe 2) ;

6. maladies des voies respiratoires (groupe 19) ;

7. désordre mental (groupe 12) ;

8. infections (groupe 13).

En outre, il est possible de faire une description des centres de groupes obtenus avec notreméthode. Par exemple, le centre du groupe 9 se caractérise par l’ophtalmologie en tant queservice et spécialité les plus fréquents, la cataracte comme le diagnostic le plus fréquent, etl’insertion d’une prothèse intraoculaire + l’extraction des cataractes comme l’intervention laplus fréquente.

68

Page 85: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0Support

(a) Cardiologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(b) Chirurgie cardiovasculaire etthoracique

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(c) Chirurgie générale

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(d) Neurologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(e) Ophtalmologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(f) Orthopédie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Support

(g) Soins palliatifs

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(h) Urologie

1 5 10 15 20 25 30 35 40 45 50Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Support

(i) Pneumologie

Figure 5.5 – Variabilité des services visités au sein des groupes

10 12 14 16 18 20 22 24 26 28Number of clusters

6.786.806.826.846.866.886.906.92

BIC

crit

erio

n

1e7

Figure 5.6 – Valeur de BIC en fonction du nombre de groupes.

69

Page 86: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1 3 5 7 9 11 13 15 17 19 21Cluster

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Supp

ort

EM+HMMEM

(a) Service de gériatrie

1 3 5 7 9 11 13 15 17 19 21Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Supp

ort

(b) Service de psychia-trie

1 3 5 7 9 11 13 15 17 19 21Cluster

0.00.10.20.30.40.50.60.70.80.9

Supp

ort

(c) Spécialiste en pneu-mologie

1 3 5 7 9 11 13 15 17 19 21Cluster

0.000.010.020.030.040.050.060.070.080.09

Supp

ort

(d) Hypertrophie de laprostate

Figure 5.7 – Comparaison des résultats obtenus avec la méthode de Espérance-Maximisationappliquée uniquement aux variables numériques et catégorielles(EM) et ceux obtenus avec laméthode proposée considérant en plus les valeurs catégorielles multivaluées(EM+HMM) pourl’ensemble des séjours hospitaliers.

1 3 5 7 9 11 13 15 17 19 21Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Supp

ort

(a) Diagnostic de la ca-taracte

1 3 5 7 9 11 13 15 17 19 21Cluster

0.000.020.040.060.080.100.120.140.16

Supp

ort

(b) Diagnostic dufracture transtro-chantérienne du coldu fémur, diagnosticsimple

1 3 5 7 9 11 13 15 17 19 21Cluster

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Supp

ort

(c) Intervention d’ex-cision totale, lentille,phacoémulsificationsans insertion delentille intraoculaire

1 3 5 7 9 11 13 15 17 19 21Cluster

0.000.020.040.060.080.100.120.140.16

Supp

ort

(d) Intervention deprostatectomie trans-urétrale

1 3 5 7 9 11 13 15 17 19 21Cluster

0.00.10.20.30.40.50.60.70.8

Supp

ort

(e) Service d’ophtalmo-logie

1 3 5 7 9 11 13 15 17 19 21Cluster

0.00.10.20.30.40.50.60.70.80.9

Supp

ort

(f) Service d’urologie

1 3 5 7 9 11 13 15 17 19 21Cluster

0.00.10.20.30.40.50.60.70.8

Supp

ort

(g) Spécialité d’ophtal-mologie

1 3 5 7 9 11 13 15 17 19 21Cluster

0.0

0.2

0.4

0.6

0.8

1.0

Supp

ort

(h) Spécialiste en chi-rurgie orthopédique

Figure 5.8 – Valeurs des supports illustrant la variabilité selon les différents groupes desséjours hospitaliers.

Malgré la comorbidité avec l’insuffisance cardiaque, dans chaque groupe détecté, nous avonsdes maladies spécifiques qui le différencient des autres, comme l’illustre la figure 5.8 quidonnent la distribution de certains diagnostics, interventions, services et spécialité.

Les résultats présentés dans ce chapitre démontrent que notre modèle mixte de mélange finihétérogène à deux étapes est capable d’extraire des groupes de séjours hospitaliers malgré lacomplexité de la tâche causée par la spécificité de domaine de la santé.

Dans ce chapitre, nous avons présenté notre méthode de regroupement des objets complexesbasée sur le modèle de mélanges. De fait que ces objets sont caractérisés par des variablesnumériques, catégorielles et catégorielles multivaluées, notre méthode était composée de deux

70

Page 87: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

étapes en faisant appel à la distribution gaussienne pour les variables numériques, la distribu-tion multinomiale pour les variables catégorielles et aux modèles cachés de Markov (HMM)pour les variables multivaluées. Dans le chapitre 6, nous présentons la problématique de re-groupement des processus composés en partie de ces objets complexes et nous proposons uneapproche capable de la résoudre.

71

Page 88: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 6

Approche de regroupement desprocessus complexes

Le regroupement de processus émerge comme un champ de recherche dans le domaine médicalà cause de la complexité des processus du système de santé. Les trajectoires de soins présententl’un des deux types de processus présents dans le système de santé. Ces trajectoires décriventles successions des services médicaux donnés aux patients durant une période donnée. Cestrajectoires sont hétérogènes et dépendent de plusieurs facteurs. Ainsi, le développement d’uneapproche permettant de regrouper ces trajectoires de soins et déterminer les patrons courantsde prise en charge de patients par le système de santé est de grand intérêt. Dans ce chapitre,nous présentons d’abord ce domaine de recherche et les travaux qui y étaient fait pour leregroupement des processus médicaux, ensuite nous détaillons notre méthodologie proposéepour le regroupement des processus d’objets complexes qui caractérisent la prestation des soinsau sein du système de santé. Cette approche est appliquée aux trajectoires de soins construitesà partir des bases de données administratives. A la fin, nous clôturons le chapitre par unedescription de notre approche d’analyse et d’interprétation nécessaire pour l’interprétationdes modèles découverts.

6.1 Regroupement de processus

L’informatique médicale (Health Informatics en anglais) est un domaine en pleine expansionqui s’intéresse à l’application de l’informatique et des technologies de l’information pour ex-ploiter et explorer les données médicales et de santé (Coiera, 2015). En effet, les systèmesd’information occupent une place prépondérante dans le domaine médicale. Ces systèmescontiennent une énorme quantité d’information liées aux activités médicales et aux patients.Cette quantité d’informations ne cessent d’augmenter à cause de l’intense activités dans le do-maine médicale. Par exemple, dans la province de Québec, entre 80 et 86 millions de servicesmédicaux sont fournis en moyenne à la population par année. Pour 2005-2006, il y avait près

72

Page 89: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

de 714 000 soins de courte durée et plus de 465 000 interventions chirurgicales d’une journée,pour lesquelles des renseignements détaillés ont été recueillis (MSSS, 2007).

D’un autre côté, au cours des deux dernières décennies, le concept de processus et leur mo-délisation présentent un grand intérêt dans la gestion, l’organisation et l’optimisation desactivités. Ceci s’est suscité par le fait qu’elles deviennent plus complexes et nécessitent l’inter-action entre plusieurs personnes et différents départements. Une des approches utilisées est dedéfinir les « entités » , qui représentent les activités pour un processus donné, et de déterminerles interactions entre elles. Par conséquent, le processus d’affaire (business process en anglais)a apparu comme concept qui représente un ensemble des activités et leurs interactions pouratteindre un objectif défini. De plus, grâce à leurs systèmes d’informations, les entreprises sontcapables d’enregistrer les activités réalisées. Ces enregistrements représentent alors le journaldes événements (event log en anglais). Un prétraitement de ces enregistrements permet deconstruire les traces d’un processus donné en termes des activités et leurs interactions, ce quireprésente les instances de ce processus sur le champ réel. Ce journal contient les détails surchaque événement et pour quelle instance il avait été exécuté. En conséquence, il permet deconstruire les instances de processus appelées aussi les cas de processus. Par ailleurs, dansplusieurs cas, en particulier pour les petites et moyennes entreprises, plusieurs processus detravail ne sont pas présentés sous une forme formelle ou explicite. Cependant, bien que lemodèle pour un processus donné pourrait ne pas être disponible, les activités de ce processussont toujours enregistrées. Ainsi, l’extraction et le forage d’un modèle de processus à partirdes instances enregistrées de l’exécution de ce processus dans la « vraie vie » présente undéfi. Cet intérêt a donné l’émergence d’un champ de recherche connu sous le nom de forage deprocessus (process mining en anglais). Il vise à développer des techniques pour déterminer unprocessus et ceci à partir des enregistrements de ses exécutions dans la « vraie vie » construitesuite au prétraitement du journal des événements. Cette approche est basée sur l’hypothèseque chaque exécution est une instance du processus. Les techniques d’extraction de processusvisent à déterminer ce processus en se basant uniquement sur les informations contenues dansle journal d’événements. Il y a d’autres champs de recherche avec des objectifs différents telsque la vérification de la conformité des processus qui a pour but de déterminer la conformitédes enregistrements à un modèle de processus formel déjà défini.

Le système médical actuel quant à lui est un système plus complexe que celui des entreprises àcause du nombre croissant de départements spécialisés, de services et de disciplines médicales.Ce système médical nécessite plusieurs interactions, coopérations et des coordinations entredifférents acteurs. L’exécution de la prestation des services dans le système médical engendredes processus médicaux ayant différents objectifs tels que les diagnostiques, le traitement ou laprévention. Ces processus utilisent plusieurs ressources et font appel à plusieurs départements,spécialités et disciplines. Ceci rend ces processus très dynamiques, complexes et ad hoc. Danscet ordre d’idées, il est judicieux de faire la distinction entre les processus organisationnels

73

Page 90: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

et le processus de traitement médical. Comme mentionné par Lenz et Reichert (2007), lesprocessus organisationnels aident à coordonner les professionnels de la santé et les unités or-ganisationnelles. De son côté, le processus de traitement médical est un processus spécifique aupatient et dépend des décisions spécifiques qui diffèrent selon les cas. Les décisions sont prisesen analysant les données spécifiques aux patients en fonction des connaissances médicales. Ceprocessus décisionnel est très complexe car il englobe les connaissances médicales, les lignesdirectrices médicales et l’expérience individuelle des médecins. L’exécution de ces processusengendre une énorme quantité des données disponible dans les bases de données du systèmede santé et représente une source d’informations précieuses qui nécessitent d’être traitée etexploiter afin de l’utiliser pour améliorer ce système et mieux contrôler la hausse du coût dessoins de santé. Les bases de données administratives de leur côté contiennent les informationssur les soins donnés aux patients. Conséquemment, elles dévoilent les contraintes de la réalitéet permettent de capturer les éléments décrivant la grande variété de situations réelles desoins médicaux. Pourtant, il existe un manque d’outils d’analyse efficaces pour explorer etextraire les informations potentielles qui peuvent être apportées par l’analyse de ces banquesde données. L’exploration des banques de données à leur plein potentiel représente un défi caril nécessite des étapes complexes de prétraitement et une méthodologie adéquate qui répondà un problème bien défini. De ce fait, il y a une réelle préoccupation à cause de «l’absenced’un réel progrès pour appliquer les progrès des technologies de l’information pour améliorerles processus administratifs et cliniques» (Institute of Medicine (US), 2001).

À cet effet, le forage de processus dans le domaine médical fait le pont entre le forage de don-nées et l’informatique médicale. Il vise principalement à combler ce manque de méthodes et àconcevoir et à utiliser des algorithmes spécialisés de forage de données afin de les appliquer auxensembles de données contenus dans les bases de données médicales. Ceci permettra d’iden-tifier d’identifier les tendances, les modèles et les détails contenus dans le système médical.Le forage de processus vise ainsi à améliorer la détection et la compréhension des processusmédicaux. La possibilité d’utiliser des techniques pour découvrir des modèles de processusoffre de précieuses opportunités pour tirer parti des informations stockées dans les systèmesd’information médical. L’utilisation de techniques de forage de processus pour les processusdans le domaine médicale permet non seulement de s’assurer que ces processus peuvent êtrebien compris, mais peut également générer des avantages associés à l’efficacité du processus.Toutefois, le développement et l’application de forage de processus dans le domaine médicalest un domaine relativement inexploré, avec seulement quelques travaux effectués dans ladernière décennie (Rebuge et Ferreira, 2012).

Toutefois, les techniques de forage de données fonctionnent bien sur des processus structurés,elles présentent des limites lors de l’application pour des processus moins structurés que l’onretrouve dans le système médical, où des déviations sont permises pour faire face à l’évolu-tion et à la complexité des circonstances (Song et collab., 2008). En effet, les processus dans

74

Page 91: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

le système de santé sont des processus complexes qui peuvent varier à cause de plusieursconditions et circonstances liés aux patients et aux ressources. Tel que mentionné par Rebugeet Ferreira (2012), la plupart des techniques et des algorithmes proposés pour le forage deprocessus ne sont pas utiles pour gérer le caractère complexe et ad hoc des processus médi-caux. Ces processus posent des défis liés à l’existence des plusieurs variantes de processus,au bruit et aux variantes exceptionnelles qui doivent être capturées et non négligées. Pourrépondre à cette problématique, un autre champ de forage de processus vient d’apparaîtrecomme une discipline de recherche relativement jeune qui est le regroupement de processus(process clustering en anglais). L’objectif est de partitionner les instances construites à partirdes journaux d’événements pour générer des modèles de processus plus simples et plus struc-turés. Ces dernières années, quelques travaux récents ont été développés pour le regroupementdes processus médicaux. Ferreira et collab. (2007) ont proposé le regroupement des séquencescomme une approche pour traiter les processus. Ils estiment que leur approche représente unbon candidat pour le regroupement des processus. En effet, le regroupement de séquencesconsiste à développer des techniques capables de partitionner un certain nombre de séquencesen groupes homogènes. Pour atteindre cet objectif, ils ont utilisé un algorithme de regroupe-ment basé sur des chaînes de Markov de premier ordre. Par la suite, des études basées surl’utilisation de cette approche ont été proposées pour regrouper les processus médicaux. Parexemple, Rebuge et Ferreira (2012) ont proposé une méthodologie, également basée sur deschaînes de Markov de premier ordre, pour regrouper les processus composés des événementsde soins qui sont fournis dans le service d’urgence d’un hôpital. Ils s’intéressaient au flux detravail de la radiologie en urgence, représenté comme un processus organisationnel de soinsde santé. Les événements utilisés dans leurs études comprennent douze tâches différentes :demande d’examen et les onze états possibles de l’examen. De plus, Elghazel et collab. (2007)considèrent que les trajectoires des patients est une séquence de séjours hospitaliers et quechaque séjour hospitalier est représenté par deux éléments qualitatifs. Par conséquent, ils ontutilisé une approche basée sur la distance pour calculer les dissimilarités entre les trajectoiresdes patients et ils ont utilisé ces dissimilarités pour construire un graphe entre les trajectoireset utiliser une méthode basée sur la coloration de graphe pour regrouper ces trajectoires. Ilsont ensuite considéré que le comportement de chaque groupe de trajectoire est régi par unmodèle de chaîne de Markov de premier ordre.

Huang et collab. (2013, 2014) ont appliqué l’allocation latente de Dirichlet (LDA) pour dé-couvrir des modèles latents comme une combinaison probabiliste d’activités cliniques. Ils ontsupposé qu’une trajectoire clinique du patient est représentée par un mélange de patrons detraitement. Ils ont appliqué la LDA pour deux journaux de flux de soins spécifiques concernantl’hémorragie intracrânienne et l’infarctus cérébral. Ces journaux sont extraits d’un systèmed’information hospitalier. Le modèle donne l’estimation de la densité d’activité clinique pourchaque modèle, à partir de laquelle l’association probabiliste entre une activité et un patronpeut être déterminé.

75

Page 92: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Toutes ces études s’appuient sur des processus composés d’événements relativement simpleset bien définis. En outre, chacun d’eux était concerné par un aspect spécifique de la trajectoired’un patient, mais non par une vue globale de l’ensemble des soins fournis. Rebuge et Ferreira(2012) ont travaillé sur les processus organisationnels, mais pas sur les processus de traite-ment médical. Huang et collab. (2013, 2014) et Elghazel et collab. (2007) ont travaillé surle regroupement des processus de traitement médical. Huang et collab. (2013, 2014) étaientintéressés par la trajectoire de traitement du patient dans les séjours à l’hôpital qui donneune micro vue locale dans un site spécifique. Elghazel et collab. (2007) étaient intéressés parune succession de séjours hospitaliers. Ce travail fournit une vue plus globale et macro maisn’implique pas le processus de traitement médical complet puisqu’il y a des services autresque les séjours hospitaliers. De plus, la méthode utilisée par Elghazel et collab. (2007) n’estpas applicable à des données de grands volumes puisqu’elle utilise la dissimilarité par pairequi doit être calculée comme entrée pour construire et faire la détermination des groupes parune méthode heuristique de coloration de graphe. D’autre part, la méthode LDA peut donnerun modèle qui n’est pas très informatif en raison de faibles valeurs de probabilité d’activitéqui ne différencient pas clairement un patron d’un autre.

Les modèles de Markov cachés (HMM) sont une méthode stochastique qui ont connu un suc-cès pour la modélisation de données séquentielles et ont été prouvés efficaces et réussis dansde nombreuses tâches telles que la reconnaissance vocale (Rabiner, 1989). En se basant surces travaux, nous proposons donc d’utiliser cette méthode pour modéliser le comportement dechaque groupe de trajectoire sous la forme d’un modèle régi par un HMM. À notre connais-sance, le travail décrit ici est la première application du regroupement en utilisant les HMMpour regrouper les trajectoires de traitement médical.

6.2 Méthodologie proposée pour le regroupement desprocessus d’objets complexes

Notre projet est issu de trois observations principales. Tout d’abord, les trajectoires de traite-ments médicaux consistent en une succession d’étapes de diagnostics ou thérapeutiques liéesau patient. Deuxièmement, les bases de données administratives contiennent des donnéesd’observation recueillies à des fins autres que l’analyse et le forage des données. Elles ont rare-ment été utilisées pour analyser les processus de traitement médical, bien qu’elles représententune riche source d’information sur les services fournis en système de santé. Troisièmement,le regroupement de processus a reçu une attention accrue au cours des années, car il permetde regrouper les traces d’exécution contenues dans un journal d’événements généré par denombreux processus latents.

Notre approche proposée est conçue compte tenu de l’intérêt de générer des groupes de pro-cessus de traitements médicaux composés par des événements complexes. Ces événements

76

Page 93: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Séjours hospitaliers

Séjours hospitaliers caractérisés pardes variables numériques, catégorielles et séquentielles

Interventions

Données d'entrées: Bases de données administratives

Services médicauxDiagnostics Informations despatients

Processus de traitement médical

Consultations caractérisées par des variables catégorielles

Visites caractérisées pardes variables catégorielles

Algorithme k-Prototypes pour regroupement des valeurs mixtes(Najjar et collab., 2014) Catégorisation basée sur une structure

arborescente construite avec les valeursdes diagnostics des patients

Construction des trajectoires

Trajectoires des patients

Algorithme de regroupementpar HMM

Groupes et étiquettes des trajectoires

Sous-Niveau-

Super-Niveau

Regroupement hiérarchique des centres des groupes

Regroupement hiérarchique des centres des groupes

Figure 6.1 – Description de notre approche.

diffèrent selon leurs catégories et les variables qui les caractérisent. Nous pouvons traiter desévénements complexes décrits par un mélange de types de variables. En fait, le processus detraitement des patients est une séquence ordonnée de ces événements. Par conséquence, ces sé-quences sont elles-mêmes composées d’objets complexes qui doivent également être regroupés.Ainsi, vu la complexité de problème, nous l’avons découpé en deux étapes. La première étapeconsiste à s’intéresser aux services médicaux et de les regrouper en des groupes homogènes etla deuxième consiste à s’intéresser au regroupement des trajectoires de soins. Par ce fait, nousproposons une approche ascendante qui peut traiter ce type de données. Notre méthodolo-gie est une méthode de regroupement à deux niveaux. Au premier niveau, nous regrouponsles ensembles de données d’événements et nous les étiquetons selon leurs catégories et leursgroupes. Ensuite, ces étiquettes d’événement sont utilisées pour créer les valeurs d’abstractionde processus. Au deuxième niveau, nous proposons l’utilisation de HMM pour regrouper lesinstances des processus. Fig. 6.1 montre les étapes et les niveaux de cette approche. Dans cequi suit, nous expliquons plus en détails ces deux niveaux.

77

Page 94: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

6.2.1 Le sous-niveau de la méthodologie

L’objectif de ce niveau est de proposer une méthodologie permettant de construire des événe-ments complexes à partir de bases de données relationnelles, de les regrouper et de reconstituerla trajectoire du patient pour une période spécifique. Tout d’abord, les types d’événementsqui composent le processus doivent être identifiés. Au cours des processus des traitementsmédicaux, les services médicaux donnés aux patients peuvent être classés en trois catégories.Ces catégories sont :

— Visites : défini comme un service fourni par des médecins en soins ambulatoires sansréférence par un autre médecin ;

— Consultations : défini comme un service fourni par les médecins en soins ambulatoiresà la suite d’une référence d’un autre médecin ;

— Séjours hospitaliers : défini comme un service donné dans le cadre d’une hospitalisa-tion pour au moins un jour.

Chaque service présente un événement dans le processus de traitement. Il se caractérise par sacatégorie et ses variables descriptives. Les entités de consultations et de visites ne sont carac-térisées que par des variables catégorielles. Cependant, les séjours hospitaliers sont plus com-plexes. Chaque séjour hospitalier est décrit par des variables mixtes, composées de variablesnumériques, catégorielles et catégorielles multivaluées. Les bases de données sont utiliséespour créer ces trois ensembles d’entités.

L’étape suivante consiste à regrouper ces objets complexes en utilisant l’algorithme appropriéselon les types des variables qui les caractérisent. Cette étape vise à réduire la complexité desjournaux des instances des processus en remplaçant les objets complexes par leurs catégorieset leurs étiquettes.

Les consultations et les visites ne sont caractérisées que par des variables catégorielles. Nousavons donc adopté une catégorisation basée sur une structure arborescente construite en utili-sant les codes des diagnostics des patients. Nous avons créé des sous-ensembles en divisant lesobjets d’entrée selon les codes des diagnostics codés sur la base de la Classification Interna-tionale des Maladies, 10ème révision, CIM-10. Cette classification est une hiérarchie composéede chapitres définis par des blocs de trois caractères alphanumériques. Les premiers trois ca-ractères alphanumériques d’un code de diagnostic permettent de déterminer son chapitre, sonbloc et sa catégorie. Ainsi, nous commençons par diviser les objets selon les chapitres desdiagnostics. Si la taille d’un sous-ensemble dépasse un seuil fixe de nombre d’objets, nouscontinuons la partition du ce sous-ensemble en le divisant en des sous-ensembles de blocsd’objets selon les blocs de diagnostics. De plus, si la taille d’un sous-ensemble obtenu suiteà cette itération dépasse encore le seuil fixé, nous le divisons en catégories d’objets selon lescatégories des diagnostics. Par exemple, le code de la maladie I100 appartient au chapitre des

78

Page 95: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

maladies de l’appareil circulatoire. Ce chapitre couvre les codes avec les trois caractères alpha-numériques compris entre I00 et I99. Il est divisé en blocs homogènes de trois caractères. Unexemple d’un bloc est les maladies hypertensives qui contient des codes avec les trois premierschiffres entre I10 et I15. Un exemple d’une catégorie dans ce bloc est l’hypertension essentielledonnée par I10 en tant que les trois premiers caractères alphanumériques constituant le codede diagnostic.

Les séjours hospitaliers sont plus complexes. Chaque séjour hospitalier est décrit par unmélange de types des variables, avec des variables catégorielles, numériques et catégoriellesmultivaluées. Un exemple de ce dernier type de variable est l’ensemble des codes de diagnosticcorrespondant à un séjour hospitalier, qui peut avoir une valeur telle que O48001, Z370,O62101. Pour regrouper l’ensemble des séjours hospitaliers, nous appliquons tout d’abordl’algorithme k-prototypes pour regrouper les objets caractérisés par des valeurs mixtes quenous avons précédemment proposé et décrit à la section 4.2 (Najjar et collab., 2014). Ensuite,nous appliquons le regroupement hiérarchique pour les centres des groupes donnés par cetalgorithme k-prototypes pour obtenir le regroupement final.

L’algorithme k-prototypes prend comme entrée les entités des séjours hospitaliers. Il déterminele centre le plus proche de chaque entité selon une mesure de dissimilarité donnée et l’affecteau groupe du centre le plus proche. Pour calculer cette dissimilarité, une représentation ensac de mots dans un espace de projection défini est utilisée pour chaque variable multivaluée.Après chaque affectation, l’algorithme met à jour les centres de l’ancien et du nouveau groupede l’objet. L’algorithme répète le traitement de tous les objets jusqu’à ce qu’aucun objet nesoit réaffecté ou qu’un autre critère d’arrêt soit atteint.

Après avoir terminé ce premier regroupement, nous regroupons les centres obtenus c1, . . . , cK

avec un regroupement hiérarchique basé sur le critère de liaison moyen pour obte-nir le regroupement final. Par conséquent, chaque centre ck est présenté sous la forme(ck,1, . . . , ck,r, . . . , ck,q, . . . , ck,m), où les premiers r sont des valeurs numériques centrées ré-duites, les (q− r) sont des valeurs catégorielles et les autres sont des représentations en sac demots des valeurs catégorielles multivaluées. Tout d’abord, les distances par paires entre cescentres sont calculées par la mesure de dissimilarité suivante :

d(ci, ck) =r∑l=1

(ci,l − ck,l)2 + I(ci,l, ck,l) +m∑

l=q+11− (cos(ci,l, ck,l)),

avec I(x, y) = 0 si x = y et I(x, y) = 1 autrement.

A partir de cette matrice de distance par paire, nous appliquons un algorithme de regroupe-ment hiérarchique ascendant (agglomerative hierarchical clustering en anglais) avec un critèrede lien moyen (average linkage en anglais) pour regrouper ces centres et assigner les objets

79

Page 96: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

aux nouveaux groupes. Au début, chaque centre forme un groupe. Cet algorithme cherche àréduire le nombre des groupe en fusionnant à chaque étape deux groupes pour produire à lafin une hiérarchie des groupes. Les deux groupes choisis pour être fusionnés sont ceux dontla dissimilarité est minimale. Pour obtenir les nouveaux groupes, nous découpons le dendro-gramme à une certaine hauteur choisie. Ceci représente la nouvelle partition. Le paquetagede regroupement de Scipy 1 a été utilisé.

À partir des résultats de regroupement d’entités, nous construisons les processus en tant quesuccession des étiquettes des objets complexes qui les composent. L’ensemble des processusprésente le journal des processus qui sert d’entrée pour le super-niveau. Un exemple de pro-cessus obtenu après l’application de cette méthodologie dans ce niveau est donné par s51→ c17C1M2 → v2C1M5 → v2C1M2 → v2C1M2 → s50 . Cette trajectoire signifie que lepatient a fait un séjour à l’hôpital étiqueté s51 suivi d’une consultation étiquetée c17C1M2qui est à son tour suivie d’une visite v2C1M5, et ainsi de suite.

6.2.2 Le super-niveau de la méthodologie

À ce niveau, l’objectif est de regrouper l’ensemble des processus obtenu par la méthodologieappliquée au sous-niveau. Les modèles de Markov cachés (HMM) en utilisant la méthodeproposée par Knab et collab. (2003) suivie d’un regroupement hiérarchique ascendant avecun critère de lien moyen sont utilisés pour atteindre cet objectif. L’algorithme de regroupementbasé sur les HMMs est décrit par l’algorithme 9. La bibliothèque GHMM 2 a été utilisée commeune implémentation des algorithmes de HMMs.

Le but de l’algorithme 9 est d’adapter un HMM pour chaque groupe de processus. Puisque laconvergence de l’algorithme dépend de son initialisation, nous exécutons l’algorithme plusieursfois. Notre politique d’initialisation est basée sur une distribution de Dirichlet et dépend duparamètre α de la distribution. Dans l’étape d’initialisation, le paramètre α (identique pourtoutes les dimensions) est fixe. Nous générons les paramètres initiaux de tous les HMM enutilisant la distribution de Dirichlet avec ce α. L’affectation initiale des séquences est donnéepar l’algorithme k-means avec une distance cosinus et une représentation de sac de mots(BoW). Nous utilisons donc la représentation de BoW pour projeter les processus dans l’espacedes événements et nous appliquons l’algorithme k-means pour affecter chaque trajectoire à ungroupe. Nous déterminons un HMM pour chaque groupe en utilisant l’algorithme de Baum-Welch pour obtenir les paramètres de modèle Λ(0).

Après l’étape d’initialisation, l’algorithme se déroule en deux étapes. La première étapeconsiste à assigner chaque trajectoire du patient à la HMM qui donne la plus grande pro-babilité d’émission. Pour le faire, il calcule pour chaque valeur de trajectoire la probabilité

1. http://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html#module-scipy.cluster.hierarchy

2. http://ghmm.org

80

Page 97: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Algorithme 9 Algorithme HMM pour le regroupement des processus des traitements médi-caux.input S = S1, . . . ,SN : un ensemble de séquences, T : Nombre maximal d’itérationsoutput b : Étiquettes des séquences

1: Initialiser les paramètres de K HMMs Λ(0) = λ(0)0 , . . . , λ

(0)K

2: Calculer la log-vraisemblance L(Λ(0)) donnée par

L(Λ(0)) =K∑k=1

nk∑i=1

log[P (Si|λ(0)k )]

3: while(|L(Λ(t))−L(Λ(t−1))|

L(Λ(t−1)) ≥ ε)∧ (t ≤ T ) do

4: Générer une partition des processus en assignant chaque processus au HMM quidonne la probabilité d’émission maximale C = C1, . . . , CK où Ck = Si | k =argmaxj P (Si|λ(t−1)

j ) contient les séquences appartenant au kème HMM , k = 1, . . . ,K5: Calculer les nouveaux paramètres Λt en utilisant l’algorithme Baum-Welch avec les

paramètres initiaux Λt−1 et l’affectation des séquences aux HMMs6: Calculer les probabilités d’émission P (Si|λ(t)

k ) pour k = 1, . . . ,K; i = 1, . . . , nk en uti-lisant l’algorithme forward

7: Calculer la log-vraisemblance L(Λ(t)) donnée par

L(Λ(t)) =K∑k=1

nk∑i=1

log[P (Si|λ(t)k )]

8: t← t+ 19: end while

10: Calculez les étiquettes b(t)i,k pour i = 1, . . . , n et k = 1, . . . ,K données par

b(t)i,k =

1 if k = argmaxj P (Si|λ(t)

j )0 sinon

d’émission P (Si|λtk) donnée par les paramètres λtk de HMM. Cette probabilité est calculée parl’algorithme forward (Rabiner, 1989). En conséquence, nous générons une partition des pro-cessus en assignant chaque processus au HMM donnant la probabilité d’émission maximale.Dans la deuxième étape, les HMM sont mis à jour en fonction de la partition des séquences.Dans cette étape, l’algorithme calcule les paramètres du modèle pour chaque HMM danschaque groupe en utilisant l’algorithme bien connu de Baum-Welch pour obtenir les para-mètres de modèle λ(t)

k à partir de l’affectation précédente de trajectoires dans ce groupe et lesparamètres précédents de HMM de ce groupe λ(t−1)

k . Ces deux étapes sont répétées jusqu’àla convergence ou qu’un critère d’arrêt soit atteint.

Nous exécutons l’algorithme pour le paramètre α (même pour toutes les dimensions) entre 0.1et 1 en incrémentant de 0.1 à chaque fois et en faisant plusieurs répétitions et nous conservonsle meilleur résultat obtenu selon l’indicateur log-vraisemblance.

81

Page 98: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Après le regroupement par des HMMs, nous obtenons une partition des trajectoires dans desgroupes. La dernière étape de ce niveau est de construire une hiérarchie de ces groupes etde rechercher un nouveau regroupement dans un nombre beaucoup plus petit de groupes.Pour atteindre cet objectif, nous représentons chaque trajectoires Si comme vecteur de poidsd’événements (wi,1, . . . , wi,L), où L est le nombre d’événements différents dans toutes lestrajectoires. Les poids wi,j sont calculés par

wi,j = ni,j|Si|

,

où ni,j est le nombre d’occurrences de l’événement ej dans la trajectoire et |Si| est la longueurde cette trajectoire. Nous représentons le centre des trajectoires pour le groupe Ck par ck =(ck,1, . . . , ck,L). Chaque valeur ck,j est calculée par

ck,j =

∑Si∈Ck

wi,j

nk.

Nous calculons ensuite les distances par paires entre ces centres en utilisant la distance du co-sinus et nous appliquons l’algorithme du regroupement hiérarchique ascendant avec un critèrede lien moyen pour regrouper ces centres et attribuer les trajectoires aux nouveaux groupes.L’étiquette de chaque trajectoire correspond au nouveau groupe déterminé par le regroupe-ment hiérarchique et qui contient son ancien groupe. En outre, le regroupement hiérarchiqueest proposé pour réduire le nombre de groupes afin de faciliter la tâche pour les spécialistes dela santé et leur permettre de fixer le nombre désiré par la fixation d’un paramètre de coupuredans la hiérarchie. La hiérarchie des groupes permet par la suite d’étudier plus en détails àune branche donnée.

6.3 Approche proposée pour l’analyse des résultats

Les bases de données administratives des soins de santé sont une source riche d’informationsur les services de santé et les processus associés fournis aux patients. Être capable d’explorer,d’analyser et de visualiser les informations extraites de ces bases de données pourrait révélerun aperçu des modèles latents contenus dans ces données.

À la suite du regroupement, nous obtenons une partition des processus. Cette représentationn’est pas très informative dans son état actuel. Ainsi, puisque chaque groupe résultant est unniveau supérieur des processus et les sous-événements sont eux-mêmes des objets complexes,nous avons besoin d’une approche pour mieux comprendre les résultats. Ainsi, nous proposonsune approche d’analyse et de visualisation pour découvrir plus d’informations contenues dansces résultats.

82

Page 99: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

6.3.1 Analyse des fréquences

En plus de la partition de processus obtenue par l’algorithme de regroupement, nous devonscomprendre ce résultat et l’analyser. En tant qu’outil d’analyse, nous définissons les mesuressuivantes. La première mesure est le support de chaque service médical dans chaque groupe. Ilest calculé comme le rapport du nombre de processus qui contiennent ce service par le nombrede tous les processus dans ce groupe, tel que donné par l’équation 6.1 :

τ(s) =

∑Pi∈Ck

ui(s)

Nk, (6.1)

où ui(s) = 1 si s ∈ Pi et ui(s) = 0 sinon. Pi est le ième processus, Ck est kème groupe et Nk

le nombre de processus dans le kème groupe. La deuxième mesure est la densité de chaqueservice médical dans chaque groupe. C’est le rapport du nombre d’occurrences de ce servicepar la longueur totale de tous les processus dans ce groupe, tel que donné par l’équation 6.2 :

ρ(s) =

∑Pi∈Ck

oi(s)∑Nki=1 |Pi|

, (6.2)

où oi(s) est le nombre d’occurrences de s dans la trajectoire Pi, et |Pi| est la longueur de latrajectoire.

La dernière mesure est la transition entre les services dans chaque groupe. La fréquence detransition du service s au service s′ est définie comme le nombre d’occurrences de la paire(s, s′) par la longueur totale de tous les processus dans ce groupe, comme donné par Eq. 6.3 :

Ak(s, s′) =∑Nki=1 τi(s, s′)∑Nki=1 |Pi|

, (6.3)

où τi(s, s′) est le nombre de transitions de l’état s à l’état s′ dans le processus Pi et |Pi| estla longueur du processus Pi.

6.3.2 Découverte de modèles

Pour élaborer un modèle utile à partir des résultats de regroupement, nous proposonsune approche de visualisation pour découvrir le modèle de processus dans chaque groupe.Cette approche est basée sur l’abstraction et l’élagage des détails indésirables. En tantqu’abstraction, pour consultation et visites, nous restons au niveau de chapitres pour leursétiquettes de regroupement. Comme élagage, dans chaque groupe de trajectoires, nous nenous intéressons qu’aux événements ayant une densité qui dépassent un certain seuil fixé. Parla suite, nous supprimons les événements indésirables et nous utilisons une relation transitivepour mettre à jour la transition entre les événements existants. Par exemple, si nous avons

83

Page 100: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

A,B,C et D comme événements dans une trajectoire décrite par A → B → C → Det si B et C sont des événements qui sont supprimés, la trajectoire utilisée pour la dé-couverte du modèle devient A → D. Pour la visualisation du modèle, chaque étiquetted’événement différent est représentée comme un nœud et la transition comme un arc. Nouscalculons le nombre de transitions entre deux événements différents dans toutes les trajec-toires de groupe et ce nombre est considéré comme le poids pour cet arc entre ces deux nœuds.

Dans ce chapitre, nous avons proposé une approche de regroupement et de visualisationqui permet de regrouper et d’identifier les tendances latentes à partir des processus compo-sés d’événements complexes. Son application aux processus construits à partir des bases dedonnées administratives médicales présente la parfaite illustration de son intérêt et de sonefficacité.

84

Page 101: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 7

Cas d’étude : bases de donnéesadministratives à Québec

Dans ce chapitre, nous présentons maintenant les résultats de l’application de l’approche dé-taillée dans le chapitre précédent aux données de prestation de soins pour les personnes âgéesde 65 et plus souffrant d’insuffisance cardiaque au Québec. Partant de ce fait, nous commen-çons par une mise en contexte de cas d’études. Ensuite, nous procédons à une description desdonnées et du prétraitement. Après, nous présentons les résultats et pour finir nous effectuonsune discussion de ces résultats.

7.1 Mise en contexte

Le système de santé et les services sociaux dans la province de Québec font principalementpartie du service publique. La RAMQ (Régie de l’Assurance Maladie du Québec) agit commeassureur maladie pour les résidents du Québec qui sont couverts par un programme publicd’assurance maladie (pratiquement 100% des habitants de la province). Le MSSS (Ministère dela Santé et des Services sociaux du Québec) est le ministère responsable de l’administrationdes services de santé et des services sociaux dans la province. Presque tous les médecins(98%) participent au système de santé publique et sont payés exclusivement par la RAMQ.Le système de santé au Québec se compose d’institutions, d’organismes communautaires, deshôpitaux, de cliniques et des cabinets privés (ces cabinets sont payés par des fonds publics).La RAMQ enregistre donc les informations sur la majorité des services médicaux et sociauxfournis à la population dans la province de Québec.

D’un autre côté, l’insuffisance cardiaque est une cause importante de l’utilisation massivedes ressources de soins de santé (Lloyd-Jones et collab., 2010; Man et Jugdutt, 2012). Cettemaladie est un syndrome clinique qui exige normalement des soins de santé à fournir par desmédecins spécialistes et non spécialistes. Les praticiens ont des directives pour les aider à

85

Page 102: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

diagnostiquer et à traiter la maladie. Toutefois, les lignes directrices qui s’appliquent le plussouvent à un « patient moyen » ne sont pas toujours adaptées pour les cas individuels. Celan’est pas surprenant et s’explique généralement par la complexité de la gestion de l’insuffisancecardiaque en termes d’exigence de nombreux acteurs de plusieurs disciplines, avec une grandediversité de patients (Man et Jugdutt, 2012). De ce fait, les prestataires de soins de santéprennent leurs décisions selon leurs propres expériences et selon les cas des patients présentésen essayant de suivre au mieux les guides des pratiques. La gestion de l’insuffisance car-diaque est donc complexe et reflète l’intégration des décisions prises par de nombreux acteursde différentes disciplines engendrées par les spécificités des patients. En effet, les conditionsréelles diffèrent souvent des environnements contrôlés. Ainsi, dans la vie réelle, les décisionsprises sur les soins à fournir diffèrent souvent des recommandations fondées sur des donnéesprobantes (Kent et Kitsios, 2009).

Le recours aux données contenues dans de grandes banques de données administratives, ayantune base populationnelle, est alors une avenue intéressante à considérer (Yancy et collab.,2006). L’utilisation de telles banques de données permet de mesurer l’ampleur d’une maladie(telle que l’insuffisance cardiaque), les tendances de l’incidence et de la prévalence, de mêmeque l’utilisation des services par les patients dans la « vraie vie ». Aussi, elle donne accès à unebase populationnelle et donc à l’ensemble des modalités des pratiques dans une juridictiondonnée. L’intérêt pour ces banques s’est d’ailleurs accru dans plusieurs provinces canadiennes(y compris le Québec), grâce à la possibilité d’apparier des banques de données administrativeset ainsi de raffiner le portrait de prise en charge des patients (Daigle et Saint-Laurent, 2006).

Le traitement et l’analyse de ces données permet de constituer des trajectoires « réelles » deprises en charge dans le système de santé. Ceci est particulièrement vrai pour les personnesâgées, car pour ces personnes on dispose de plus d’informations dans les banques de donnéesadministratives. En effet, au Québec, pour toutes les personnes de 65 ans et plus, la consomma-tion de médicaments en ambulatoire –une composante-clef pour comprendre les trajectoires desoins– est financée par le régime publique, contrairement à ce qui se passe avec les personnesplus jeunes. Malheureusement, ces précieuses données disponibles sont considérées commesous-exploitées car elles ne bénéficient que rarement de tout le développement technologiquequi, dans d’autres secteurs, a été réalisé pour mieux soutirer l’information contenue dans lesbanques de données (McAullay et collab., 2005).

Toutes ce qui précède explique l’intérêt et la difficulté de défi qui nous a motivé pour proposerune méthodologie capable d’explorer et exploiter les informations contenues dans les basesde données administratives capables de dévoiler les contraintes de la réalité en captant leséléments d’une grande variété de situations réelles de soins médicaux, de constituer les trajec-toires de soins des patients à partir de ces bases et de les regrouper pour présenter des groupesdes trajectoires des patients qui présentent des patrons latents noyés dans cette grande massede données. En effet, nous définissons un patron des trajectoires de soins comme une régula-

86

Page 103: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

rité temporelle de certains types de soins. Nous définissons aussi les types, les groupes ou lescomposants d’un patron spécifique comme étant des modèles qui suivent la même régularitéavec des petites variations.

7.2 Description et prétraitement des données

7.2.1 Description des données

À cette fin, nous avons eu accès aux bases de données administratives de la RAMQ et duMSSS. Ces bases de données enregistrent tous les actes médicaux des professionnels de la santécouverts par la RAMQ et tous les séjours à l’hôpital dans la province de Québec. Notre inten-tion est d’exploiter ces données pour reconstituer et regrouper les trajectoires de traitementdes patients âgés souffrant de maladie d’insuffisance cardiaque. Nous avons eu accès à troisbases de données. La première est la banque de données MED-ÉCHO du MSSS qui contientdes données pour tous les séjours hospitaliers qui sont survenus au Québec. Les hôpitaux four-nissent des soins généraux et spécialisés. Ces données, compilées par les hôpitaux, concernentles soins de courte durée (physiques et mentaux) et les chirurgies d’une journée. Nous avonseu accès aux données organisées dans les 4 tableaux : séjours hospitaliers, diagnostics, ser-vices et interventions 1. La deuxième base de données est celle de la RAMQ. Elle contient desrenseignements sur les frais pour les services médicaux selon le régime d’assurance-maladieadministré par la RAMQ. Nous avons eu accès aux données contenues dans les tableauxsuivants : services médicaux, services pharmaceutiques et informations sur les patients. Ladernière base est la base contenant les données concernant les certificats de décès. Ces don-nées nous proviennent de l’Institut de la Statistique du Québec. Elles sont extraites de la Basecanadienne de données sur la Mortalité (BCDM) qui contient des données sur les décès sur-venus au cours des années 1950 jusqu’à l’année la plus récente pour laquelle des données sontdisponibles. Les décès sont déclarés par les bureaux provinciaux et territoriaux de l’état civildu Canada. L’information sur la cause du décès dans la BCDM est codée d’après la versionde la Classification internationale des maladies (CIM) en vigueur au moment du décès.

La première étape était l’appariement de ces banques et la génération des données brutes de lacohorte d’études. Dans cette optique, la RAMQ a constitué la première cohorte de toutes lespersonnes ayant eu un diagnostic d’insuffisance cardiaque entre 2000 et 2005 dans les banquesdes services médicaux rémunérés à l’acte et des séjours hospitaliers Med-Écho. La RAMQ aégalement envoyé les données d’identification à l’ISQ afin qu’il produise les données du fichierdes décès. La sélection et la production des données étaient faites selon les étapes suivantes :

— Sélection à partir du tableau des services médicaux rémunérés à l’acte de la banqueRAMQ, les individus ayant au moins un diagnostic d’insuffisance cardiaque entre le

1. http://www.msss.gouv.qc.ca/professionnels/documentation-sources-de-donnees-et-indicateurs/sources-de-donnees-et-metadonnees/med-echo/

87

Page 104: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

1er janvier 2000 et le 31 décembre 2005 dont le code diagnostic fait partie de la listesuivante : 428.0, 428.1, 428.9.

— Ajout des individus ayant au moins un diagnostic principal ou secondaire d’insuffisancecardiaque entre le 1er janvier 2000 et le 31 décembre 2005 dont le code diagnostic faitpartie de la liste suivante : 428.0, 428.1, 428.9, à partir de la banque MED-ÉCHO deMSSS des séjours hospitaliers.

— Détermination de la date index en utilisant la plus petite date de service retrouvée dansla banque des services médicaux ou la plus petite date de départ retrouvée dans labanque des séjours hospitaliers.

— Exclusion des individus n’ayant pas atteint l’âge de 65 ans à la date index.

— Extraction des informations liées à ces individus à partir de la banque de décès.

Ainsi, la procédure de la sélection de la cohorte a concerné la période du 1er janvier 2000 au 31décembre 2005. On a sélectionné les individus ayant eu un diagnostic d’insuffisance cardiaqueentre le 1er janvier 2000 au 31 décembre 2005 et ayant 65 ans et plus lors de la date index. Lesdonnées extraites sont les données concernant les services médicaux de ces individus fournisentre le 1er janvier 2000 et le 31 décembre 2009. Comme données de sortie de cette étape, lesfichiers des tableaux de données brutes correspondant à la cohorte sélectionnée nous ont étéfournis.

7.2.2 Prétraitement des données

Nous évaluons notre méthodologie proposée pour le regroupement des processus de soins surces données. Elles sont les données des patients âgés de plus de 65 ans, qui vivent dans laprovince de Québec (Canada) et qui souffrent d’une insuffisance cardiaque. Il est intéressantde mentionner que notre méthodologie est valable pour regrouper les trajectoires composéesdes objets complexes ayant des caractéristiques telles que détaillées dans le chapitre 6.

Suite à l’étape précédente, nous obtenons des données brutes contenant dans des fichiers quicorrespondent à des tables sélectionnées à partir des trois banques décrites au-dessus. Lapremière étape de prétraitement de ces données consiste à construire notre propre base dedonnées qui contient ces données brutes et qui va nous permettre de procéder à la généra-tion des services médicaux ainsi que les trajectoires. Cette base de donnée est décrite par lafigure 7.1.

Cette base de données est d’abord traitée pour générer les trois ensembles de services médicauxcorrespondant aux trois catégories : les visites, les consultations et les séjours hospitaliers. Pourobtenir les entités des séjour hospitaliers, nous avons extrait les informations sur les séjourshospitaliers en associant les informations des tables de séjours hospitaliers, diagnostics, inter-ventions et services. Chaque séjour hospitalier est considéré comme une première catégorie

88

Page 105: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Assuré

PK Numéro banalisé de l’individu

Groupe d’âge de l’individu

Sexe de l’individu

Date index

Séjour Hospitalier

PK Numéro séquentiel banalisé séjour hospitalier

FK1 Numéro banalisé de l’individu

Numéro banalisé de l’établissement

Région sociosanitaire de l’établissement

Date d’admission

Date de départ

Type de soins

Date accident

Numéro séquentiel du système de classification

Numéro banalisé de l’établissement MSSS provenance

Type lieu provenance

Date arrivée urgence

Nombre jours absence

Nombre jours séjour hospitalier

Numéro banalisé établissement MSSS destination

Type lieu destination

Type décèsDiagnostic

PK Numéro séquentiel diagnostic

FK2 Numéro séquentiel banalisé séjour hospitalier

FK1 Numéro banalisé de l’individu

Type diagnostic

Numéro séquentiel diagnostic

Numéro séquentiel du système de classification

Code de diagnostic médical clinique

Code caractéristique diagnostic

Service

PK Numèro séquentiel service

FK1 Numéro séquentiel banalisé séjour hospitalier

FK2 Numéro banalisé de l’individu

Numéro séjour du service hospitalier

Code de service

Classe dispensateur - Service

Code spécialité dispensateur – Service

Nombre de jours dans service

Intervention

PK Numèro séquentiel intervention

FK2 Numéro séquentiel banalisé séjour hospitalier

FK1 Numéro banalisé de l’individu

Numéro d’intervention

Date de l’intervention

Numéro séquentiel du système de classification

Code d’intervention santé

Code de l’attribut de situation d’intervention

Code de l’attribut du lieu d’intervention

Code de l’attribut d’étendue de l’intervention

Services médical

PK Numèro séquentiel service médical

FK1 Numéro banalisé de l’individu

Classe du professionnel

Numéro banalisé du professionnel

Spécialité du professionnel

Code d’entente de facturation de la demande de paiement

Code de groupe d’actes

Code d’acte

Rôle dans l’exécution de l’acte

Date du service

Code de diagnostic

Type de l’établissement

Numéro établissement banalisé

Code de localité banalisé du lieu de dispensation banalisé

Région du lieu de dispensation

Classe du professionnel référent

Numéro banalisé du professionnel référent

Spécialité du professionnel référent

Figure 7.1 – Description de base de données mise en place

d’objets complexes décrite par un ensemble de variables catégorielles, numériques et catégo-rielles multivaluées. Les variables catégorielles sont le type de soins, type d’origine et type dedestination. La variable numérique est la durée de l’hospitalisation tandis que les variablescatégorielles multivaluées sont la séquence des diagnostics et la séquence des interventions quiont eu lieu à chaque séjour hospitalier.

Les consultations quant à elles sont des services médicaux recommandés par un médecin deréférence qui a orienté le patient vers un autre médecin en général un spécialiste. Celles-ci représentent des objets complexes décrits par les informations extraites de la table desservices médicaux. Elles sont caractérisées par des variables catégorielles qui sont la spécialitéde médecin, le code de diagnostic, le type de l’établissement de service et la spécialité dumédecin référent. Les visites sont caractérisées par les mêmes variables, en soustrayant laspécialité du praticien référent puisqu’elles représentent les services fournis par des médecinsen soins ambulatoires, sans référence par un autre médecin.

La cohorte contient 180,027 patients et nous a permis d’extraire 684,906 séjours hospitaliers,2,594,341 consultations et 12,510,117 visites effectuées entre le 1er janvier 2000 et le 31 dé-cembre 2009. Comme mentionné dans la section 6.2, pour construire un processus de soinsde patient, nous avons catégorisé les ensembles de consultation et de visite en utilisant uneméthode basée sur une structure arborescente construite à partir des codes de diagnosticsdes patients. Comme nous nous sommes intéressés aux services médicaux fournis entre le 1erjanvier 2000 et le 31 décembre 2009, les diagnostics sont codés selon deux classifications mé-

89

Page 106: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre CIM-9 CIM-10 Titres1 000-139 A00-B99 Certaines maladies infectieuses et parasitaires2 140-239 C00-D48 Tumeurs3 240-279 E00-E99 Maladies endocriniennes, nutritionnelles et métaboliques4 280-289 D50-D99 Maladies du sang et des organes hématopoïétiques et cer-

tains troubles du système immunitaire5 290-319 F00-F99 Troubles mentaux et du comportement6 320-359 G00-G99 Maladies du système nerveux7 360-379 H00-H59 Maladies de l’œil et de ses annexes8 380-389 H60-H99 Maladies de l’oreille et de l’apophyse mastoïde9 390-459 I00-I99 Maladies de l’appareil circulatoire10 460-519 J00-J99 Maladies de l’appareil respiratoire11 520-579 K00-K99 Maladies de l’appareil digestif12 580-629 N00-N99 Maladies de l’appareil génito-urinaire13 630-679 O00-O99 Grossesse, accouchement et puerpéralité14 680-709 L00-L99 Maladies de la peau et du tissu cellulaire sous-cutané15 710-739 M00-M99 Maladies du système ostéo-articulaire, des muscles et du

tissu conjonctif16 740-779 Q00-Q99 Malformations congénitales et anomalies chromoso-

miques17 780-799 R00-R99 Symptômes, signes et résultats anormaux d’examens cli-

niques et de laboratoire, non classés ailleurs18 – V01-Y99 Causes externes de morbidité et de mortalité19 800-999 S00-T99 Lésions traumatiques, empoisonnements et certaines

autres conséquences de causes externes20 – P00-P99 Certaines affections dont l’origine se situe dans la période

périnatale21 – Z00-Z99 Facteurs influant sur l’état de santé et motifs de recours

aux services de santé22 – U00-U99 Codes d’utilisation particulière

Table 7.1 – Chapitres des diagnostics

dicales : CIM-9 et CIM-10 (la classification a changé au cours de ces années). Pour faire lacatégorisation, nous avons utilisé vingt-deux chapitres, comme décrit dans le tableau 7.1. Lescodes dans les colonnes CIM-9 et CIM-10 du tableau 7.1 représentent les codes de première etdernière catégorie contenus dans chaque chapitre. Le chapitre 0 est consacré à des consulta-tions ou à des visites avec le diagnostic indéfini codé par un blanc ou V999, ce qui correspond,par exemple, à des consultations en radiologie. Nous avons fixé le seuil égal à 50 000 objetspour le regroupement des consultations et à 100 000 pour le regroupement des visites. Lorsquele nombre d’entités d’un chapitre dépasse le seuil, nous continuons à catégoriser en assignantchaque entité à un bloc de catégories. Après cela, si le nombre d’entités appartenant à unbloc dépasse à son tour le seuil, nous étendons la catégorisation en divisant les entités selonles catégories des maladies contenue dans chaque bloc. Nous avons obtenu 105 groupes pour

90

Page 107: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

les consultations et 220 pour les visites. L’étiquette pour les consultations ou les visites secompose de la lettre c pour la consultation ou v pour la visite suivie du numéro du chapitrede la maladie. Si nous allions au niveau de bloc de catégories, nous avons ajouté la lettre C etle numéro d’identification du bloc des catégories. Si, en plus, nous sommes passés au niveaudes catégories, nous avons ajouté la lettre M et le numéro d’identification de la catégorie.Nous avons utilisé l’algorithme k-prototypes présenté au chapitre 4 pour regrouper les entitésdes séjours hospitaliers en 200 groupes homogènes, puis nous avons appliqué un regroupementhiérarchique ascendant avec un critère de lien moyen. Cela nous donne la hiérarchie des 200groupes décrite par le dendrogramme représenté dans la figure 7.2a. Le choix de la valeur decoupure a été effectué de manière à chercher un compromis entre ne pas fusionner un tropgrand nombre des groupes et avoir un nombre relativement petit des groupes par rapportau regroupement initial. Ainsi, la valeur de coupure a été fixée à 1.02. En utilisant cette va-leur, on a obtenu 106 groupes, c’est-à-dire 106 étiquettes de groupes des séjours hospitaliers.L’ensemble de toutes les services de soins médicaux inclus dans les trajectoires a ainsi étérésumée en 431 étiquettes des services. En utilisant ces étiquettes, nous avons construit 180027 processus de soins des patients représentés comme une succession d’étiquettes de servicesmédicaux.Pour regrouper les trajectoires, nous avons d’abord exécuté l’algorithme de regroupement parles HMM, décrit par l’algorithme 9, avec des HMM ayant 10 états cachés, afin de regrouperles trajectoires des soins dans 500 groupes. Deux répétitions ont été effectuées, où la meilleurevaleur selon la log-vraisemblance a été considérée. Ensuite, afin de déterminer le nombre degroupes à utiliser, nous avons appliqué un regroupement hiérarchique ascendant avec un cri-tère de lien moyen et nous avons choisi 0.18 comme valeur de coupure. Nous avons obtenu139 groupes. La figure 7.2b donne une hiérarchie des 500 groupes de trajectoires et le niveaude coupure.

7.3 Résultats et analyses

Afin de voir la pertinence et l’efficacité de ce regroupement, on a tout d’abord examiné lesstatistiques sur le taux des séjours hospitaliers, le taux des consultations, le taux des visites,le taux des mortalités et le nombre moyen des services médicaux dans les trajectoires. Lestaux des mortalités généraux de la population, des séjours hospitaliers, des consultations etdes visites sont respectivement de 66,92%, 4,34%, 16,43% et 67,05 %. Le nombre moyen deservices médicaux dans les trajectoires est de 87,71. Afin de faciliter l’analyse, nous avonsensuite réorganisé les groupes de trajectoires par ordre décroissant en fonction du nombremoyen des services fournis au sein de chaque groupe. La figure 7.3 donne la distribution dulogarithme décimal de ce nombre selon les groupes.

Par la suite, en vue de mieux comprendre les variantes des trajectoires de soins, nous avons

91

Page 108: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

87 2

10

70

128

96

161

111

193

141

149

121

105

145

24

137

60

131

166

53

123

195

28

139

113

188

114

127

17

174

35

11

56

46

29

55

199

64

162

97

26

129

78

197

154

189

30

98

133 0

43

134

65

158

104

172 5

50

132

151

153

74

157

49

152

15

110

42

176

124

165

160

58

196

45

86

103

21

122

163

16

73

182 3

63

76 4

140

85

116

148

13

118

83

108

175

91

159

198

71

177

92

102

77

164

32

100

62

168

170

27

130

95

109

90

81

143

25

89

156

39

72

44

167

185

82

40

144

147

48

184

67

54 9

19

194

136

186

33

180

41

106

183

47

142

69

84

79

179

51

117

75

126

146

80

94

93

138 6

57

12

150

18

190 8

169 1

37 7

120

20

22

187

36

155

66

125

112

61

171

107

14

173

101

88

115

68

52

31

178

38

23

135

99

191

119

181

192

34

59

Indice du groupe

0

1

2

3

4

5

6

7

8

Dis

tance

Dendrogramme du regroupement hiérarchique

(a) Dendrogramme du regroupement hiérar-chique des groupes de séjours hospitaliers.

12

04

01 0

16

43

75

41

34

93

20

62

05

94

19

71

00

11

37

05

62

69

42

32

29

26

02

42

65

21

32

14

13

91

93

26

83

60

28

61

23

73

24

45

64

86

23

72

85

41

15

96

39

63

24

84

48

39

72

84

30

27

64

95

33

21

67

21

02

23

31

16

42

04

34

28

72

71

12

91

77

26

73

83

41

72

52

49

26

33

51

48

43

14

45

83

04

75

33

49

36

23

57

39

22

73

49

12

53

54

21

83

62

23

42

73

79

85

34

21

45

20

37

78

94

45

97

46

87

22

07

27

55

86

5 53

03

38

53

74

21

22

93

37

14

47

27

85

14

40

20

22

73

14

27

94

61

12

24

57

28

51

46

19

51

37

46

26

1 73

53

23

44

81

40

92

62

47

31

31

06

21

64

67

49

61

40

34

04

14

15

41

13

88

78

88 4 9

48

83

48

31

59

91

66

25

04

51

34

44

21

57

40

82

00

24

08

31

48

46

32

43

27

86

98

17

32

03

16

60

69

14

39

02

89

21

98

23

87

18

54

77

33

70

17

14

39

14

93

45

35

51

64

37

40

11

62

66 8

10

72

36

32

72

22

31

74

30

47

54

55

19

22

52

97

18

12

49

47

25

51

09

32

83

33

15

02

92

13

81

04

48

91

05

23

91

01 2

91

28

23

21

17

92

04

53

66

40

24

15

19

92

45

42

61

70

22

81

13

16

32

99

10

83

89

39

44

00

42

13

41

51

15

53

18

36

78

42

21

38

03

90

46

92

91

26

13

64

64

13

03

14

16

24

43

00

30

74

25

48

31

28

24

63

12

13

52

32

22

04

18

25

61

96

27

4 64

31

83

36

13

78

19

04

05

49

81

61

12

43

46

17

84

97

17

32

08

30

53

84

22

41

11

27

98

01

02

15

39

54

33

35

64

03

47

87

26

22

98

30

64

62

15

23

72

18

93

76

39

23

83

81

18

61

58

39

91

19

44

14

29

27

73

50

50

92

14

46

72

72

27

04

74

18

42

23

29

11

84

66

25

43

08

34

74

04

11

24

11

21

20

17

31

23

74

32

51

94

23

02

58

43

24

99

48

22

57

61

59

17

2 14

38

13

23

86

11

04

12

28

02

12

90

34

34

46

36

92

23

51

68

25

51

75

21

14

52

59

32

64

42

17

16

91

91

40

71

14

15

44

73

52

47

94

10

36

42

83

33

84

28

33

71

76

40

62

88

47

83

91

24

24

60

18

41

27

15

74

43

35

91

31

18

04

42

32

34

54

10

24

49

15

36

84

70

48

72

33

39

84

31

48

52

94

71

49

14

19

33

61

74

34

13

35

18

74

94

15

64

50

26

34

20

14

45

91

82

13

33

02

38

35

84

44

33

95

94

36

10

33

10

36

64

93

09

25

71

17

37

73

22

34

20

9 33

31

29

13

02

16

52

51

81

24

13

65

19

83

63

16

22

81

30

19

53

68

49

04

52

19

23

19

43

54

80

42

44

71

23

52

95

24

84

76

35

26

12

53

13

33

93

18

82

64

29

61

60

37

31

41

22

63

62

31

14

73

82

45

34

65

Indice du groupe0.0

0.2

0.4

0.6

0.8

1.0

Dis

tance

Dendrogramme du regroupement hiérarchique

(b) Dendrogramme du regroupement hiérar-chique des groupes de trajectoires.

Figure 7.2 – Dendrogramme des regroupements hiérarchiques.

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101 T106 T111 T116 T121 T126 T131 T136

Groupe

100

101

102

103

log(longueur )

Figure 7.3 – Log du nombre moyen des services selon les groupes.

92

Page 109: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

20 40 60 80 100 120 140

Groupe

0.0

0.2

0.4

0.6

0.8

1.0

Pourc

enta

ge d

es

décè

s

(a) Pourcentage de décès

20 40 60 80 100 120 140

Groupe

0.0

0.2

0.4

0.6

0.8

1.0

Pourc

enta

ge d

es

séjo

urs

hosp

italie

rs

(b) Pourcentage des séjours hospitaliers

20 40 60 80 100 120 140

Groupe

0.0

0.1

0.2

0.3

0.4

0.5

Pouce

nta

ge d

es

consu

ltati

ons

(c) Pourcentage des consultations

20 40 60 80 100 120 140

Groupe

0.0

0.2

0.4

0.6

0.8

1.0

Pourc

enta

ge d

es

vis

ites

(d) Pourcentage des visites

Figure 7.4 – Pourcentage de mortalité et pourcentages des services selon les groupes.

analysé les résultats à partir de plusieurs points de vue. Ces analyses ont permis de détectercertains groupes qui se différencient catégoriquement par rapport aux autres. En premier lieuet en examinant la variation du nombre moyen des services médicaux dans les trajectoiresde soins de chaque groupe, nous avons constaté qu’il y a des groupes caractérisés par destrajectoires courtes, moins de 5 services sur dix ans, qui ont un taux de mortalité élevésupérieur à 91%. Ces groupes commencent principalement à partir de la trajectoire T62. Lafigure 7.4a donne la répartition du pourcentage de décès pour chaque groupe.

Par ailleurs, pour comprendre ce qui distingue ces groupes des autres, nous avons étendules analyses en considérant la répartition de chaque type de service selon les groupes. Nousavons noté que ces groupes se caractérisent par un pourcentage de séjours hospitaliers quidépasse 53% du total des services fournis aux patients. Cependant, ce pourcentage estinférieur à 19% pour la plupart des autres groupes. La figure 7.4b montre le pourcentagedes séjours hospitaliers selon les groupes. Quant aux pourcentages des consultations et desvisites, nous avons observé une certaine variabilité entre les groupes, mais cette variabilitén’était pas très importante, à l’exception des groupes ayant un faible pourcentage de visiteset de consultations par rapport à d’autres groupes (voir Figures 7.4c-7.4d). Ces groupes secaractérisent généralement par la consommation d’un ou deux séjours hospitaliers liés à unemaladie qui n’est pas causée par l’insuffisance cardiaque.

93

Page 110: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Dans une analyse plus approfondie, nous avons fait appel à l’expertise d’une gériatre ayantune connaissance des bases de données administratives de l’insuffisance cardiaque. Nousavons bénéficié de son expertise et de sa connaissance des bases de données administrativespour la maladie de l’insuffisance cardiaque pour analyser les groupes de trajectoires, lesregarder en détails avec leurs modèles générés par notre approche de visualisation, et lesinterpréter en insistant sur les différences trouvées et les tendances détectées. Nous avonsexaminé ainsi avec elle le micro-niveau à travers l’analyse des fréquences, le calcul des densitésdes services et la découverte du modèle pour chaque groupe. Grâce à cette analyse, nousavons pu dénicher des tendances et obtenir plus de détails et de connaissances susceptiblesd’intéresser les praticiens. Comme indiqué ci-dessus, le premier patron distinctif se caractérisepar une forte présence d’hospitalisations dans les trajectoires des traitements médicaux. Parexemple, le groupe 94 se caractérise par un séjour hospitalier dû à un infarctus aigu dumyocarde, qui peut être grave, car il nécessite une intervention. Dans la figure 7.6a, nousavons identifié que le groupe 94 a un service fréquent accordé aux patients de ce groupe, soitle séjour hospitalier s28 (séjour hospitalier pour maladies cardiaques (voir tableau 7.2)). Lafigure 7.5a et le tableau 7.3 montrent et détaillent le modèle découvert pour le groupe 94 quiest basé uniquement sur des services ayant une densité supérieure à 10%. Le patient qui suitce modèle est simplement impliqué dans le séjour hospitalier s28. Ce séjour hospitalier estprésent dans 100% des trajectoires des soins des patients et représente 74,49% du nombrede services médicaux fournis dans les trajectoires de ce groupe. Ces résultats suggèrent qu’ilexiste un patron distinct de trajectoires des traitements médicaux caractérisé par une forteprésence d’hospitalisation dans les trajectoires. La plupart de ces séjours hospitaliers ne sontpas causés par une insuffisance cardiaque mais par une autre maladie. Le tableau 7.2 et letableau 7.3 fournissent quelques exemples pour ce patron.

Les étapes qui suivent consistent à analyser le contenu des autres trajectoires. Afin dedécouvrir des patrons particuliers, nous avons examiné les modèles produits et les servicesqui ont une forte densité dans les groupes. Les résultats obtenus montrent que l’approcheproposée permet l’identification et la différenciation des patrons spécifiques. Ces résultatssont validés par un spécialiste. Chacun de ces patrons correspondent à un patron spécifiqueet à des services médicaux spécifiques le caractérisant. Ces services se produisent plusfréquemment dans ce patron que les autres services. Ces services et modèles de traitementpermettent la description des patrons. L’un de ces patrons était lié aux maladies du systèmegénito-urinaire associé à une insuffisance cardiaque. Ceci est présenté dans la figure 7.11f quidonne la variabilité de la densité des visites liées aux maladies du système génito-urinaireselon les groupes. Dans le groupe 1, nous avons trouvé une forte densité de visite v13,caractérisée par une insuffisance rénale comme le diagnostic le plus fréquent, cliniquesexternes de centres hospitaliers comme établissements les plus fréquents et le néphrologuecomme médecin le plus souvent consulté dans ce groupe. Nous avons également noté une

94

Page 111: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Group

eDescription

Don

nées

démograph

ique

sSe

rvice

leplus

fréq

Soins

Praticien

s

C91

#:75

3Lon

gmoy

:1.66

Décès

:98

.67%

SéjHsp

:82

.07%

Con

sult:4.56

%Visite:13

.37%

Âge

leplus

fréq

:85

etplus

(63.35

%)

2èmefréq

âge:80

-84

(17.93

%)

Sexe

:F(52.86

%)

Étiqu

ette

:s55

Supp

ort:10

0%Den

sité

:65

.25%

Typ

e:Sé

jHsp

Provena

nce:Dom

icile

(91.64

%)

Destina

tion

:Dom

icile

(66.92

%)

Diagle

plus

fréq

:Pn

eumon

ie,o

rgan

ismeno

nspécifié

2èmefréq

diag

:Pn

eumon

ie,s

ansprécision

Interv

laplus

fréq

:pa

sd’interventio

n2èm

efréq

interv

:En

doscop

iebron

chique

Service:Méd

ecine(56.13

%)

Spécialiste

:Omnipraticien

(68.84

%)

C94

#:22

92Lon

gMoy

:1.59

Décès

:99

%Sé

jHsp

:84

.74%

Con

sult:3.35

%Visite:11

.90%

Âge

leplus

fréq

:85

etplus

(33.16

%)

2èmefréq

âge:80

-84

(26.48

%)

Sexe

:M

(51.79

%)

Étiqu

ette

:s28

Supp

ort:10

0%Den

sité

:74

.49%

Typ

e:Se

jHsp

Provena

nce:Dom

icile

(74.49

%)

Destina

tion

:Dom

icile

(54.08

%)

Diagle

plus

fréq

:Infarctusaigu

dumyo

carde

2èmefréq

diag

:Athérosclérosecorona

ireInterv

laplus

fréq

:Artériograp

hiecorona

rienn

eutilisant

deux

cathé-

ters

2èmefréq

interv

:Autre

artério

grap

hiecorona

rienn

e

Service:Cardiolog

ie(65.06

%)

Spécialiste

:Cardiolog

ie(54.86

%)

C11

1

#:13

05Lon

gMoy

:1.42

Décès

:98

.93%

SéjHsp

:88

.20%

Con

sult:3.18

%Visite:8.62

%

Âge

leplus

fréq

:85

etplus

(27.13

%)

2èmefréq

âge:75

-79

(25.29

%)

Sexe

:M

(53.41

%)

Étiqu

ette

:s52

Supp

ort:10

0%Den

sité

:74

.89%

Typ

e:Sé

jHsp

Provena

nce:Dom

icile

(92.31

%)

Destina

tion

:Dom

icile

(50.35

%)

Diagle

plus

fréq

:Tu

meu

rmaligne

,lob

esupé

rieur,b

ronche

/po

umon

2èmefréq

diag

:Néoplasmemalin,b

ronche

/po

umon

Interv

laplus

fréq

:Tr

ansfusion,

cellu

lessang

uine

sag

glom

érées

2èmefréq

interv

:Tr

ansfusionde

sang

Service:Chirurgie

géné

rale

(24.11

%)

Spécialiste

:Omnipraticien

(35.74

%)

C11

2

#:13

34Lon

gMoy

:1.42

Décès

:99

.33%

SéjHsp

:86

.61%

Con

sult:3.97

%Visite:9.42

%

Âge

leplus

fréq

:85

etplus

(38.23

%)

2èmefréq

âge:80

-84

(24.14

%)

Sexe

:F(55.25

%)

Étiqu

ette

:s61

Supp

ort:10

0%Den

sité

:76

.72%

Typ

e:Sé

jHsp

Provena

nce:Dom

icile

(87.60

%)

Destina

tion

:Dom

icile

(59.59

%)

Diagle

plus

fréq

:Insuffisanc

ecardiaqu

ega

uche

2èmefréq

diag

:Insuffisanc

ecardiaqu

econg

estiv

eInterv

laplus

fréq

:Im

plan

tatio

nde

pacemaker

2èmefréq

interv

:Tr

ansfusionde

sang

Service:Cardiolog

ie(49.94

%)

Spécialiste

:Cardiolog

ie(40.56

%)

C11

9

#:67

4Lon

gMoy

:1.34

Décès

:97

.63%

SéjHsp

:85

.70%

Con

sult:4.10

%Visite:10

.20%

Âge

leplus

fréq

:85

etplus

(74.48

%)

2èmefréq

âge:80

-84

(14.84

%)

Sexe

:F(72.26

%)

Étiqu

ette

:s16

Supp

ort:10

0%Den

sité

:76

.94%

Typ

e:Sé

jHsp

Provena

nce:Dom

icile

(83.36

%)

Destina

tion

:Centreho

spita

liergéné

rale

tspécialiséou

centre

hospita

-lie

rde

soinspsychiatriq

ues(30.15

%)

Diagle

plus

fréq

:Fracture

ducol

dufémur

tran

strochan

teriq

ue,

simple

2èmefréq

diag

:Fracture

tran

scervicale

ducold

ufémur,s

imple

Interv

laplus

fréq

:Réd

uctio

nou

vertede

lafracture

+fix

ation

in-

terne,

fémur

2èmefréq

interv

:Tr

ansfusionde

sang

Service:Ortho

pédie(80.20

%)

Spécialiste

:Chirurgie

orthop

é-diqu

e(87.66

%)

Tab

le7.2–Descriptio

nde

certains

grou

pesavec

forteprésen

cede

séjoursho

spita

liers

dans

lestrajectoire

s.

95

Page 112: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

start

s28

2292

end

2292

418

(a) Groupe 94

start

s52

1305

end

1305

85

(b) Groupe 111

start

s61

1334

end

1334

116

(c) Groupe 112

Figure 7.5 – Des modèles découverts pour certains groupes ayant une forte présence deséjours hospitaliers dans leurs trajectoires des soins.

Groupe # Modèle Description des services présents dans le modèle

C91 753 (0.42%) s55(s55) D : Pneumonie, organisme non spécifié ; I : Pas d’intervention ;

Sp : Omnipraticien ; Se : Médecine

C94 2292 (1.27%) s28(s28) D : Infarctus aigu du myocarde ; I : Artériographie corona-

rienne utilisant deux cathéters ; Sp : Cardiologie ; Se : Cardio-logie

C111 1305 (0.72%) s52(s52) D : Tumeur maligne, lobe supérieur, bronche / poumon ; I :

Transfusion, cellules sanguines agglomérées ; Sp : Omniprati-cien ; Se : Chirurgie générale

C112 1334 (0.74%) s61(s61) D : Insuffisance cardiaque gauche ; I : Implantation de pace-

maker ; Sp : Cardiologie ; Se : Cardiologie

C119 674 (0.37%) s16(s16) D : Fracture transtrochantérienne du col du fémur, simple ;

I : Réduction ouverte de la fracture + fixation interne, fémur ;Sp : Chirurgie orthopédique ; Se : Orthopédie

Table 7.3 – Certains modèles découverts pour groupes ayant une forte présence des séjourshospitaliers dans leurs trajectoires. D : Diagnostic le plus fréquent ; I : Intervention la plusfréquente ; Sp : Spécialiste le plus fréquent ; Se : Service le plus fréquent.

96

Page 113: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

c1 c5 c10 c15 v1 v6 v11 v16 s1 s6 s11 s16 s21 s26 s31 s36 s41 s46 s51 s56 s61 s66 s71 s76 s81 s86 s91 s96 s101s106

Service

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Densi

té d

es

serv

ices

(a) Groupe 94

c1 c5 c10 c15 v1 v6 v11 v16 s1 s6 s11 s16 s21 s26 s31 s36 s41 s46 s51 s56 s61 s66 s71 s76 s81 s86 s91 s96 s101s106

Service

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Densi

té d

es

serv

ices

(b) Groupe 17

c1 c5 c10 c15 v1 v6 v11 v16 s1 s6 s11 s16 s21 s26 s31 s36 s41 s46 s51 s56 s61 s66 s71 s76 s81 s86 s91 s96 s101s106

Service

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Densi

té d

es

serv

ices

(c) Groupe 20

c1 c5 c10 c15 v1 v6 v11 v16 s1 s6 s11 s16 s21 s26 s31 s36 s41 s46 s51 s56 s61 s66 s71 s76 s81 s86 s91 s96 s101s106

Service

0.00

0.05

0.10

0.15

0.20

0.25

Densi

té d

es

serv

ices

(d) Cluster 13

Figure 7.6 – Densités de tous les services dans certains groupes.

forte densité de visite v1 qui ne contient aucun diagnostic mentionné comme le diagnostic leplus fréquent. La visite v13 est présente dans 93.92% des trajectoires du groupe et représente28.75% de tous les services réalisés dans ce groupe. La visite v1, quant à elle, est présentedans 96.92% des trajectoires et représente 50.87% de tous les services réalisés dans ce groupedes trajectoires. Ce type de patron décrit la surveillance régulière des problèmes rénaux avecune variété d’autres problèmes, probablement légers. Le groupe 2 fait partie de ce patron etse caractérise par des problèmes rénaux graves avec la nécessité de plusieurs visites médicales.Le groupe 3 est semblable au groupe 1 avec un nombre plus faible de visites liées à desproblèmes rénaux. Il est également différent de ce dernier par le fait que la visite v19 prendla place de la visite v1. La visite v19 est un examen médical général de routine. Le derniercomposant de ce patron est décrit par le groupe 17. Il est caractérisé par une comorbiditémodérément élevée, entre une insuffisance rénale et une insuffisance cardiaque, contrairementaux autres types de ce patron. La figure 7.7 et le tableau 7.4 donne une idée sur ce patron etses composants. Nous pouvons souligner que le groupe 17 a un taux de mortalité relativementfaible malgré le fait que ce type a 53,08% des patients, qui à leur première visite dans lapériode de sélection, ont un âge supérieur à 80 ans et que 42,54% des services médicauxcorrespondent aux maladies rénales ou cardiaques. La figure 7.6b montre la variabilité desdensités des services pour ce type de patron.

97

Page 114: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

start

v1

182

v13

267

end

301

86193

14747

148

14866

42204

(a) Groupe 1

start

v13

1794

end

1794

471777

(b) Groupe 2

start

v13

133

v19

199

end

54

10872

860

278

781

36696

(c) Groupe 3

start

v13

612

v10

2107

end

1650

62912

10014

1069

11052

31484

(d) Groupe 17

Figure 7.7 – Modèles découverts pour le patron des maladies rénales

De plus, nous pouvons observer la présence d’un patron spécifique d’insuffisance cardiaquesans comorbidité significative. Dans ce patron, nous pouvons détecter trois tendances. Lapremière est décrite par le groupe 20. Il représente les trajectoires d’insuffisance cardiaqueavec un suivi régulier et se caractérise par un taux de mortalité relativement faible (55,57%)tandis que 50,96% des patients de ce groupe sont âgés de plus de 80 ans. La seconde estdonnée par le groupe 23. Cette tendance est également caractérisée par un suivi régulierlégèrement différent avec la visite v1 en plus. Dans cette tendance, il y a une importanteprésence de cette visite, qui est la visite pour la radiologie ou l’échographie, et une corré-lation significative de cette dernière avec la visite v10, qui est la visite pour les maladiescardiaques. Cette tendance a pratiquement les mêmes caractéristiques d’âge des patientsque la tendance précédente (51.80% ont 80 ans et plus). Cependant, elle a un taux demortalité légèrement plus élevé malgré le fait que la densité de v10 est inférieure à celledu groupe 20 (23.40% vs 39.23%). La dernière tendance est représentée par le groupe49. Ce groupe a un taux de mortalité élevé (80,74%) qui peut être expliqué en partiepar l’âge (66% ont 80 ans et plus) et s’explique aussi par des cas plus compliqués car ilexiste une corrélation entre les consultations pour insuffisance cardiaque et les visites pourla même raison. La figure 7.8 et le tableau 7.5 donne un aperçu de ce patron et de ses groupes.

En outre, nous pouvons noter que notre analyse a permis de dénicher l’existence d’un autrepatron. Ce patron représente les patients souffrant d’insuffisance cardiaque décompensée en-traînant des problèmes respiratoires. Ce patron se compose de trois tendances : le groupe 11,le groupe 24 et le groupe 42. Le groupe 11 représente un modèle typique. Les groupes 24 et

98

Page 115: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Groupe Description Données démogra-phiques

Services(densité ≥10%)

Modèle Description des services pré-sents dans les modèles

C1

# : 454 (0.25%)Long Moy : 438.35Décès : 75.99%Séj Hsp : 1.47%Consult : 7.12%Visite : 91.41%

A : 70-74 (28.41%)2ème A : 75-79

(28.19%)S : M (55.51%)

v1 : 96.92%-50.87%

v13 :93.39%-28.75%

Fig. 7.7a

(v1) D : non mentioné (100%) ;Sp : Omnipraticien(66.59%) ; Es : Centreshospitaliers : cliniqueexterne (43.45%)

(v10) D : Insuffisance car-diaque (16.31%), 2ème D :Cardiopathie ischémiquechronique (12.33%) ; Sp :Omnipraticien (67.95%) ;Es : Cabinets privés avecle numéro de municipalité(51.97%)

(v13) D : Insuffisance rénale(38.21%), 2ème D : In-suffisance rénale chronique(31.61%), Sp : Néphrolo-gie (66.59%) ; Es : Centreshospitaliers : clinique ex-terne (72.71%)

(v19) D : Examen médi-cal général de routine(33.69%), 2ème D : Vac-cination contre la grippe(11.09%) ; Sp : Omni-praticien (59.56%) ; Es :Cabinets privés avec lenuméro de municipalité(46.41%)

C2

# : 1804 (1%)Long Moy : 361.10Décès : 83.59%Séj Hsp : 1.72%Consult : 7.56%Visite : 90.72%

A : 75-79 (26.94%)2ème A : 70-74

(26.77%)S : M (56.49%)

v13 :99.45%-72.70%

Fig. 7.7b

C3

# : 337 (0.19%)Long Moy : 203.32Décès : 76.85%Séj Hsp : 2.22%Consult : 6.93%Visite : 90.85%

A : 85 and over(36.5%)

2ème A : 75-79(20.77%)

S : F (51.34%)

v19 :93.18%-55.10%

v13 :64.09%-17.20%

Fig. 7.7c

C17

# : 2747 (1.53%)Long Moy : 101.13Décès : 68.58%Séj Hsp : 4.25%Consult : 16.63%Visite : 68.58%

A : 85 and over(29.38%)

2ème A : 80-84(23.7%)

S : M (54.24%)

v13 :93.85%-26.84%

v10 :91.88%-15.70%

Fig. 7.7d

Table 7.4 – Description des groupes de patron des maladies rénales.A : Âge le plus fréquent ;2ème A : 2ème fréquent âge ; S : Sexe le plus fréquent ; D : Diagnostic le plus fréquent ; 2ème

D : 2ème fréquent diagnostic ; Sp : Spécialiste le plus fréquent ; Se : Service le plus fréquent ;Es : Établissement le plus fréquent.

42 sont des tendances avec une comorbidité plus élevée avec des problèmes respiratoires. Ilssont caractérisés par un problème respiratoire aigu détecté par la visite v18. La figure 7.9 etle tableau 7.6 fournissent les détails sur ces tendances et leurs différences.

Les résultats montrent également que les groupes 10, 13 et 48 forment un patron spécifiquepour les patients qui ont l’anémie comme comorbidité. Ce patron est important car cespatients pourraient nécessiter une surveillance spéciale. La figure 7.10 et le tableau 7.7fournissent des informations sur ce patron et ses types.

Les groupes 16, 19, 25, 30, 32, 40 et 52 présentent un patron spécifique caractérisé par uneforte présence de visites liées à l’anxiété. La figure 7.11c représente la variabilité de la densité

99

Page 116: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

start

v10

55796

end

55796

2118133

(a) Groupe 20

start

v1

661

v10

2010

end

1273

57163

12460

1398

13072

43506

(b) Groupe 23

start

v10

640

c10

599

end

524

6017

2075

715

1959

5026

(c) Groupe 49

Figure 7.8 – Modèles découverts pour le patron des maladies cardiaques.

Groupe Description Données démogra-phiques

Services(densité ≥10%)

Modèle Description des services pré-sents dans les modèles

C20

# : 56141 (31.18%)Long Moy : 98.71Décès : 55.57%Séj Hsp : 4.05%Consult : 16.58%Visite : 79.37%

A : 85 and over(28.85%)

2ème A : 80-84(22.11%)

S : F (54.21%)

v10 :99.39%-39.23%

Fig. 7.8a (c10) D : Insuffisance cardiaque(16.02%), 2nd D : Car-diopathie ischémique chro-nique (12.96%) ; Sp : Car-diologie (51.59%) ; Es : Ur-gence (38.21%)

(v1) D : non mentionné(100%) ; Sp : Omni-praticien (66.59%) ; Es :Centres hospitaliers :clinique externe (43.45%)

(v10) D : Insuffisance car-diaque (16.31%), 2nd D :Cardiopathie ischémiquechronique (12.33%) ; Sp :Omnipraticien (67.95%) ;Es : Cabinets privés avecle numéro de municipalité(51.97%)

C23

# : 2685 (1.49%)Long Moy : 92.26Décès : 62.61%Séj Hsp : 4.32%Consult : 16.90%Visite : 78.78%

A : 85 and over(28.34%)

2ème A : 80-84(23.46%)

S : M (52.33%)

v10 :96.95%-23.40%

v1 : 93.82%-28.62%

Fig. 7.8b

C49

# : 1262 (0.70%)Long Moy : 31.17Décès : 80.74%Séj Hsp : 8.29%Consult : 35.43%Visite : 56.28%

A : 85 and over(41.36%)

2ème A : 80-84(24.64%)

S : F (57.84%)

v10 :78.21%-21.90%

c10 :92.23%-19.58%

Fig. 7.8c

Table 7.5 – Description des groupes pour le patron des maladies cardiaques. A : Âge leplus fréquent ; 2ème A : 2ème fréquent âge ; S : Sexe le plus fréquent ; D : Diagnostic le plusfréquent ; 2ème D : 2ème fréquent diagnostic ; Sp : Spécialiste le plus fréquent ; Se : Servicele plus fréquent ; Es : Établissement le plus fréquent.

100

Page 117: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

start

v18

491

c1

416

v10

2150

end

1232

35577

7714

7499

835

7408

36871

6770

990

8546

6883

29395

(a) Groupe 11

start

v1

415

v10

1120

v18

475

end

658

21031

3121

4236

428

3274

12549

4328

924

4326

3789

23606

(b) Groupe 24

start

v10

2875

v18

1665

end

1277

27743

11431

3263

9833

91634

(c) Groupe 42

Figure 7.9 – Modèles découverts pour le patron des maladies cardiaques décompensées.

start

v10

328

v4

83

v5

56

end

150

4720

1447

1635

171

1330

7048

2055

146

1574

2026

5765

(a) Groupe 10

start

v10

2433

v5

724

end

1648

47418

18703

1509

17918

62065

(b) Groupe 13

start

v10

80

c5

79

end

72

483

218

87

210

766

(c) Groupe 48

Figure 7.10 – Modèles découverts pour le patron des maladies d’anémie.

101

Page 118: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Groupe Description Données démo-graphiques

Services(densité ≥10%)

Modèle Description des services pré-sents dans les modèles

C11

# : 3066 (1.70%)Long Moy :

117.28Décès : 51.37%Séj Hsp : 4%Consult : 26.30%Visite : 69.70%

A : 75-79 (23.84%)2ème A : 85 and

over (23.29%)S : F (60.14%)

v18 :94.62%-14.47%

c1 : 92.14%-14.43%

v10 :94.94%-12.74%

Fig. 7.9a

(c1) D : non mentionné (100%) ;Sp : Radiologie diagnostique(63.48%) ; Es : Laboratoiresde radiologie diagnostique : la-boratoire de médecine généralegéré par un médecin radiolo-giste (47.46%)

(v1) D : non mentionné (100%) ;Sp : Omnipraticien (66.59%) ;Es : Centres hospitaliers : cli-nique externe (43.45%)

(v10) D : Insuffisance cardiaque(16.31%), 2nd D : Cardio-pathie ischémique chronique(12.33%) ; Sp : Omnipraticien(67.95%) ; Es : Cabinets privésavec le numéro de municipalité(51.97%)

(v18) D : Dyspnée et anomalies res-piratoires (24.80%), 2nd D :Douleur thoracique (15.02%) ;Sp : Omnipraticien (80.02%) ;Es : Urgence (46.76%)

C24

# : 2022 (1.12%)Long Moy : 91.56Décès : 73.94%Séj Hsp : 6.29%Consult : 19.68%Visite : 74.04%

A : 85 and over(33.78%)

2ème A : 80-84(23.99%)

S : F (57.62%)

v18 :93.92%-17.63%

v10 :85.76%-11.12%

v1 : 87.88%-15.69%

Fig. 7.9b

C42

# : 4585 (2.55%)Long Moy : 66.78Décès : 82.46%Séj Hsp : 5.70%Consult : 14.48%Visite : 79.82%

A : 85 and over(46.32%)

2ème A : 80-84(22.7%)

S : F (57.3%)

v18 :96.25%-34.20%

v10 :81.44%-13.21%

Fig. 7.9c

Table 7.6 – Description des groupes pour le patron des maladies cardiaques décompensées.A : Âge le plus fréquent ; 2ème A : 2ème fréquent âge ; S : Sexe le plus fréquent ;D : Diagnosticle plus fréquent ; 2ème D : 2ème fréquent diagnostic ; Sp : Spécialiste le plus fréquent ; Se :Service le plus fréquent ; Es : Établissement le plus fréquent.

de ces visites selon les groupes. Dans ces groupes, plus de deux tiers des patients sont âgésde plus de 80 ans.

En outre, nous avons identifié un autre patron qui représente les patients atteints d’une tumeurassociée à une insuffisance cardiaque. Ce patron est représenté par les groupes 21, 27 et 34(voir figure 7.11a).

7.4 Discussion

La pertinence et l’efficacité de notre travail peuvent être soulignée par plusieurs aspects. Toutd’abord, notre travail a permis l’utilisation de bases de données administratives contenant desinformations intégrées dans un grand volume de données, pour la construction et l’extractiondes modèles latents des trajectoires de soins de patients dans le système de santé. Il peutêtre considéré comme une première étape qui peut aider les administrateurs du système desanté à extraire les connaissances incluses dans les banques communes de données de soins

102

Page 119: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Densi

té d

es

serv

ices

(a) Visite pour les tumeurs

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Densi

té d

es

serv

ices

(b) Visite pour maladies de l’appareil circulatoire

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Densi

té d

es

serv

ices

(c) Visite pour les troubles mentaux

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Densi

té d

es

serv

ices

(d) Visite ayant comme diagnostic non mentionné

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Densi

té d

es

serv

ices

(e) Visite pour causes externes de morbidité et demortalité

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Densi

té d

es

serv

ices

(f) Visite pour les maladies du système génito-urinaire

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Densi

té d

es

serv

ices

(g) Visite de maladies du système ostéo-articulaire, des muscles et du tissu conjonctif

T1 T6 T11 T16 T21 T26 T31 T36 T41 T46 T51 T56 T61 T66 T71 T76 T81 T86 T91 T96 T101T106T111T116T121T126T131T136

Groupe

0.00

0.05

0.10

0.15

0.20

0.25

Densi

té d

es

serv

ices

(h) Maladies du sang et des organes hématopoïé-tiques et certains troubles du système immuni-taire

Figure 7.11 – Densités des services selon les groupes.

103

Page 120: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Groupe Description Données démo-graphiques

Services(densité ≥10%)

Modèle Description des services pré-sents dans les modèles

C10

# : 467 (0.26%)Long Moy :

117.35Décès : 58.46%Séj Hsp : 4.09%Consult : 14.62%Visite : 81.29%

A : 75-79 (29.34%)2ème A : 70-74

(22.48%)S : F (56.32%)

v4 : 92.93%-19.35%

v5 : 95.50%-17.36%

v10 :96.15%-14.51%

Fig. 7.10a

(c5) D : Anémie (70.18%), 2ndD : Anomalies de coagulation(7.96%) ; Sp : Gastroentéro-logie (32.35%) ; Es : Centreshospitaliers : clinique externe(48.89%)

(v4) D : Diabète sucré sans compli-cation (74.04%), 2nd D : Hy-pothyroïdie (5%) ; Sp : Omni-praticien (82.56%) ; Es : Cabi-nets privés avec le numéro demunicipalité (65.05%)

(v5) D : Anémie (59.03%), 2ndD : Anomalies de coagulation(13.94%) ; Sp : Omnipraticien(60.39%) ; Es : Cabinets privésavec le numéro de municipalité(43.75%)

(v10) D : Insuffisance cardiaque(16.31%), 2nd D : Cardio-pathie ischémique chronique(12.33%) ; Sp : Omnipraticien(67.95%) ; Es : Cabinets privésavec le numéro de municipalité(51.97%)

C13

# : 3161 (1.76%)Long Moy :

112.92Décès : 65.74%Séj Hsp : 3.74%Consult : 15.79%Visite : 80.47%

A : 85 and over(31.38%)

2ème A : 80-84(23.76%)

S : F (53.08%)

v5 : 96.24%-22.83%

v10 :95.63%-18.99%

Fig. 7.10b

C48

# : 169 (0.09%)Long Moy : 33.86Décès : 89.35%Séj Hsp : 8.69%Consult : 39.02%Visite : 52.29%

A : 85 and over(44.97%)

2ème A : 80-84(23.08%)

S : M (53.25%)

c5 : 85.80%-18.58%

v10 :71.01%-13.51%

Fig. 7.10c

Table 7.7 – Description des groupes pour le patron des maladies de l’anémie. A : Âge leplus fréquent ; 2ème A : 2ème fréquent âge ; S : Sexe le plus fréquent ; D : Diagnostic le plusfréquent ; 2ème D : 2ème fréquent diagnostic ; Sp : Spécialiste le plus fréquent ; Se : Servicele plus fréquent ; Es : Établissement le plus fréquent.

de santé. À notre connaissance, il s’agit de la première étude utilisant les HMM pour leregroupement de trajectoires de soins en utilisant les bases de données administratives et enconsidérant tous les types de services durant une large période de temps. Notre contributionpour les administrateurs de soins de santé peut être observée dans la détection de patronsspéciaux représentant des taux de mortalité faibles. Ils pourraient pousser les spécialistes àentreprendre d’autres études sur les pratiques dans ces groupes. Cela pourrait aider à améliorerles directives de pratique. Une autre facette de notre travail est l’identification des patientsqui nécessitent un suivi après un certain nombre de visites ou suite à d’autres critères choisis.Cela peut se faire en détectant les patients qui suivent un patron spécifique et en mettant desmécanismes d’alerte dans le système d’information. Notre travail peut être considéré commela première couche de forage des bases de données administratives pour l’amélioration dusystème de santé.

En résumé, nous avons pu démontrer la pertinence et l’efficacité de l’approche proposée avecune application réelle qui provient du système de santé au Québec. Notre approche a permis

104

Page 121: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

de détecter plusieurs patrons de trajectoires de santé donnant une idée sur l’intérêt et lebesoin d’une telle approche pour bien exploiter l’information cachée dans les bases de donnéesadministratives.

105

Page 122: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Chapitre 8

Conclusion

Dans cette thèse, nous avons présenté une méthodologie pour la conception, la construction etle forage des trajectoires de soins des patients extraites des bases de données administratives.Ces trajectoires sont l’un des deux types de processus dans le système de santé. L’autreprocessus est les processus organisationnels. L’exécution de la prestation des services dans lesystème médical engendre ces processus médicaux. Ces processus utilisent plusieurs ressourceset font appel à plusieurs départements, spécialités et disciplines. Ceci rend ces processus trèsdynamiques, complexes et ad hoc. Ces processus sont composés par des entités complexescaractérisées par un mélange de plusieurs types de variables.

Par conséquence, nous avons proposés tout d’abord une technique de regroupement de cesunités basée sur une mesure de distance et un algorithme de complexité linéaire capable degérer des grands volumes de données.

Par la suite, dû à l’importance des modèles de mélanges dans les regroupements, nous avonsproposé un algorithme qui étend les mélanges classiques de distribution pour prendre enconsidération l’hétérogénéité des types de variables à prendre en compte.

Finalement, nous avons proposé une méthodologie de découverte de connaissances dans lesbases de données administratives du système de santé. Elle permet une différenciation de cer-tains patrons présents dans ces bases de données, même si les patients ont la même maladiechronique. Notre travail donnera aux spécialistes l’avantage d’avoir un résumé des informa-tions noyées dans ces bases de données et d’identifier des patrons spécifiques qui méritentd’être étudiés afin d’améliorer les guides de pratiques à partir des conclusions tirées de la« vrai vie ».

Les différentes contributions faites durant la thèse sont présentées à la section 8.1 et les travauxfuturs à la section 8.2.

106

Page 123: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

8.1 Contributions

L’apport de cette thèse se repartie en quatres grandes contributions.

8.1.1 Nouvel algorithme k-prototypes

Une première contribution importante de cette thèse, présentée au chapitre 4, est l’algo-rithme k-prototypes pour des données complexes. En fait, la disponibilité des grands en-sembles de données composés d’objets hétérogènes souligne l’importance du regroupement àgrande échelle des éléments complexes mixtes. Plusieurs algorithmes ont été développés pourdes jeux de données mixtes composées de variables numériques et catégorielles. Cependant,dans des nombreux domaines les données sont beaucoup plus complexes, par exemple desensembles de taille variable des valeurs catégorielles mélangées avec des valeurs numériqueset catégoriques, qui ne peuvent être traitées par ces classiques. Nous avons proposé ainsi unevariante de l’algorithme de regroupement k-prototypes qui peut gérer ces entités complexes,à l’aide d’une représentation en sac des mots pour les variables catégorielles multivaluées.Nous avons évalué notre approche sur une application réelle du regroupement des séjourshospitaliers, avec des résultats illustrant les bonnes performances de notre méthode.

8.1.2 Nouveau modèle de mélange fini hétérogène en deux étapes

Une deuxième contribution majeure de cette thèse, présentée au chapitre 5, est notre nouveaumodèle de mélange fini hétérogène en deux étapes. Ce modèle de mélange fini hétérogène endeux étapes commence avec une première étape impliquant un mélange conjoint de distri-butions gaussiennes et multinomiales pour traiter les variables numériques et les variablescatégorielles et une seconde étape comportant un mélange de modèles cachés de Markov pourgérer des valeurs catégorielles multivaluées.

8.1.3 Approche de regroupement des processus complexes

La troisième contribution majeure consiste à l’élaboration et la mise en place d’une approchede découverte de connaissances à partir des bases de données administratives. Cette approchevise à construire et regrouper les trajectoires des soins des patients et à extraire les patronslatents des trajectoires. Cette approche peut être considérée comme la première couche deforage des bases de données administratives pour l’amélioration du système de santé.

8.1.4 Traitement et analyse des patrons extraits d’une banque médicaleadministrative de grand volume

La quatrième contribution majeure est la conception et l’élaboration d’une approche d’analyseet de visualisation des patrons extraits à partir du forage des bases de données administratives.En effet, les données traitées et les résultats associés à l’extraction de trajectoires de patients

107

Page 124: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

sont complexes à comprendre et à visualiser. Notre méthode de visualisation et d’extractiondes modèles permettent aux spécialistes en santé d’avoir un moyen qui les aide à bien analyserces résultats.

Tout bien considéré, nous avons conçu et implémenté dans cette thèse une approche de décou-verte des connaissances qui, à partir des données brutes de bases des données administrativesmédicales arrive à extraire, à découvrir et à visualiser des patrons de soins des patients. Cetteapproche comprend toutes les étapes nécessaires du processus de découverte des connaissancesà savoir la sélection, le prétraitement, la transformation, le forage et finalement l’analyse, lavisualisation et l’interprétation.

8.2 Impact potentiel

La proposition des deux algorithmes capables de regrouper des objets complexes caractéri-sés par des variables numériques, catégorielles et catégorielles multivaluées est significativepuisque ces objets peuvent être des objets présents dans plusieurs domaines. L’un de ces do-maines est le domaine médical où ils décrivent les services médicaux fournis aux patients.L’application de nos algorithmes permet de synthétiser l’information présente dans un grandvolume de données et de la rendre plus exploitable par les administrateurs du système desanté.

D’un autre côté, notre approche du forage des patrons des soins des patients à partir des basesde données médicales administratives favorise une bonne compréhension des trajectoires dessoins des patients existantes pour une maladie donnée. Elle est essentielle pour aider lesmédecins et les administrateurs de soins de santé à améliorer les guides des pratiques en sebasant sur des patrons extraits de la vraie vie et face à des situations de grande variabilitéet de grande complexité. Notre travail aidera également à choisir des patrons à surveillerou à analyser pour mieux les comprendre et connaître leurs caractéristiques. Toutefois, cetteapproche représente une solution de regroupement et de visualisation des processus complexesdans d’autres domaines qui ont les mêmes caractéristiques que le système de santé.

De plus, extraire des patrons peut permettre de comparer les directives et les indicationsprésentes dans la littérature pour certaines pathologies avec ce qui est fait en pratique, afind’identifier les prises en charge qui divergent de celles-ci. Ces divergences peuvent s’expliquerpar le fait que les directives et la littérature ne tiennent pas compte de certains éléments oufacteurs externes fréquents (ex. comorbidités), que les experts ont développé des approchesou routines particulières adaptées à la réalité du terrain, ou que simplement des spécialistesne mettent pas en application les directives et approches recommandées, par méconnaissance,incompréhension ou habitude. En analysant bien les données administratives, on peut faire,d’une part, des ajustements aux directives avec une meilleure considération de la réalité duterrain, tout en identifiant les changements devant être faits aux opérations courantes obser-

108

Page 125: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

vées dans la pratique, afin d’éviter certaines inefficacités et déviations nuisant au traitementdes patients et à l’efficacité générale du système.

109

Page 126: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Bibliographie

Adams Jr., K., G. Fonarow, C. Emerman, T. LeJemtel, M. Costanzo, W. Abraham, R. Berko-witz, M. Galvao et D. Horton. 2005, «Characteristics and outcomes of patients hospitalizedfor heart failure in the united states : Rationale, design, and preliminary observations fromthe first 100,000 cases in the acute decompensated heart failure national registry (adhere)»,American Heart Journal, vol. 149, no 2, p. 209 – 216.

Agrawal, R., T. Imielinski et A. Swami. 1993, «Mining association rules between sets ofitems in large databases», dans In Proceedings of the 1993 ACM SIGMOD InternationalConference on Management of Data, p. 207–216.

Agrawal, R. et R. Srikant. 1994, «Fast algorithms for mining association rules», dans In Proc.20th Int. Conf. Very Large Data Bases, VLDB, p. 487–499.

Antonelli, D., E. Baralis, G. Bruno, T. Cerquitelli, S. Chiusano et N. Mahoto. 2013, «Analysisof diabetic patients through their examination history», Expert Systems with Applications,vol. 40, no 11, p. 4672–4678.

Arbelaitz, O., I. Gurrutxaga, J. Muguerza, J. Pérez et I. Perona. 2013, «An extensive com-parative study of cluster validity indices», Pattern Recognition, vol. 46, no 1, p. 243–256.

Azad, N. et G. Lemay. 2014, «Management of chronic heart failure in the older population»,Journal of geriatric cardiology : JGC, vol. 11, no 4, p. 329.

Bai, L., J. Liang, C. Dang et F. Cao. 2011, «A novel attribute weighting algorithm for cluste-ring high-dimensional categorical data», Pattern Recognition, vol. 44, no 12, p. 2843–2861.

Baum, L. E., T. Petrie, G. Soules et N. Weiss. 1970, «A maximization technique occurring inthe statistical analysis of probabilistic functions of markov chains», The annals of mathe-matical statistics, vol. 41, no 1, p. 164–171.

Besse, P., C. L. Gall, N. Raimbault et S. Sarpy. 2001, «Data mining et statistique», Journalde la Société Française de Statistique, vol. 142, no 1, p. 5–36.

110

Page 127: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Bouslimi, R., A. Messaoudi et J. Akaichi. 2013, «Using a bag of words for automatic medicalimage annotation with a latent semantic.», International Journal of Artificial Intelligence& Applications, vol. 4, no 3.

Cadez, I., D. Heckerman, C. Meek, P. Smyth et S. White. 2003, «Model-based clustering andvisualization of navigation patterns on a web site», Data Mining and Knowledge Discovery,vol. 7, no 4, p. 399–424.

Caliński, T. et J. Harabasz. 1974, «A dendrite method for cluster analysis», Communicationsin Statistics, vol. 3, no 1, p. 1–27.

Chan, E., W. Ching, M. Ng et J. Huang. 2004, «An optimization algorithm for clusteringusing weighted dissimilarity measures», Pattern Recognition, vol. 37, no 5, p. 943–952.

Chang, S., L. Gholizadeh, Y. Salamonson, M. DiGiacomo, V. Betihavas et P. Davidson. 2011,«Health span or life span : The role of patient-reported outcomes in informing healthpolicy», Health Policy, vol. 100, no 1, p. 96–104.

Chavent, M. 1997, Analyse de Données Symboliques. Une méthode divisive de classification,thèse de doctorat.

Clogg, C. C. 1995, «Latent class models», dans Handbook of statistical modeling for the socialand behavioral sciences, Springer, p. 311–359.

Coiera, E. 2015, Guide to health informatics, CRC Press.

Daigle, J. et D. Saint-Laurent. 2006, «L’utilisation des données médico-administratives et leurjumelage : l’approche privilégiée en surveillance des maladies chroniques au québec», BEHthématique, vol. 40-41, p. 300–302.

Dempster, A. P., N. M. Laird et D. B. Rubin. 1977, «Maximum likelihood from incompletedata via the em algorithm», Journal of the royal statistical society. Series B (methodologi-cal), p. 1–38.

Diday, E. et F. Esposito. 2003, «An introduction to symbolic data analysis and the sodassoftware», Intelligent Data Analysis, vol. 7, no 6, p. 583–601.

Doshi-Velez, F., Y. Ge et I. Kohane. 2014, «Comorbidity clusters in autism spectrum di-sorders : an electronic health record time-series analysis», Pediatrics, vol. 133, no 1, p.e54–e63.

Elghazel, H., V. Deslandres, K. Kallel et A. Dussauchoy. 2007, «Clinical pathway analysisusing graph-based approach and markov models», dans 2nd International Conference onDigital Information Management, 2007 (ICDIM’07), vol. 1, p. 279–284.

111

Page 128: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Everitt, B. 1984, «A note on parameter estimation for lazarsfeld’s latent class model usingthe em algorithm», Multivariate Behavioral Research, vol. 19, no 1, p. 79–89.

Everitt, B., S. Landau, M. Leese et D. Stahl. 2011, «Cluster analysis (> wiley series inprobability and statistics)», .

Fayyad, U., G. Piatetsky-Shapiro et P. Smyth. 1996a, «From data mining to knowledge dis-covery in databases», AI magazine, vol. 17, no 3, p. 37.

Fayyad, U. M., G. Piatetsky-Shapiro, P. Smyth et collab.. 1996b, «Knowledge discovery anddata mining : towards a unifying framework.», dans KDD, vol. 96, p. 82–88.

Ferreira, D., M. Zacarias, M. Malheiros et P. Ferreira. 2007, «Approaching process miningwith sequence clustering : Experiments and findings», dans Business Process Management,Springer, p. 360–374.

Fonarow, G., M. Nancy, A. Curtis, W. Stough, M. Gheorghiade, J. Heywood, M. McBride,P. Inge, M. Mehra, C. O’Connor et collab.. 2010, «Improving evidence-based care for heartfailure in outpatient cardiology practices : primary results of the registry to improve theuse of evidence-based heart failure therapies in the outpatient setting (improve hf).», Cir-culation, vol. 122, no 6, p. 585.

Fonseca, J. R. 2008, «The application of mixture modeling and information criteria for disco-vering patterns of coronary heart disease.», Journal of Applied Quantitative Methods, vol. 3,no 4.

Foster, S. A., K. A. Foley, E. S. Meadows, J. A. Johnston, S. Wang, G. M. Pohl et S. R.Long. 2008, «Characteristics of patients initiating raloxifene compared to those initiatingbisphosphonates», BMC women’s health, vol. 8, no 1, p. 1.

Fritz, J. et J. Cleland. 2003, «Effectiveness versus efficacy : more than a debate over language»,Orthop Sports Phys Ther., vol. 33, no 4, p. 163–165.

Frühwirth-Schnatter, S. 2006, Finite Mixture and Markov Switching Models : Modeling andApplications to Random Processes, Springer.

Garg, L., S. McClean, B. Meenan, E. El-Darzi et P. Millard. 2009, «Clustering patient lengthof stay using mixtures of gaussian models and phase type distributions», dans Proceedingsof the 22nd IEEE International Symposium on Computer-Based Medical Systems, 2009.CBMS 2009., IEEE, p. 1–7.

Garg, L., S. McCLEAN, B. J. Meenan et P. Millard. 2011, «Phase-type survival trees andmixed distribution survival trees for clustering patients’ hospital length of stay», Informa-tica, vol. 22, no 1, p. 57–72.

112

Page 129: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Glasgow, R., E. Lichtenstein et A.C.Marcus. 2003, «Why Don’t We See More Translation ofHealth Promotion Research to Practice ? Rethinking the Efficacy-to-Effectiveness Transi-tion», Am J Public Health, vol. 93, no 8, p. 1261–1267.

Gorunescu, F., S. Belciug, E. El-Darzi et M. Gorunescu. 2010, «Patient grouping optimizationusing a hybrid self-organizing map and gaussian mixture model for length of stay-based clus-tering system», dans 2010 5th IEEE International Conference Intelligent Systems, IEEE,p. 173–178.

Goshtasby, A. A. 2012, «Similarity and dissimilarity measures», dans Image registration,Springer, p. 7–66.

Hand, D. J. 1999, «Statistics and data mining : intersecting disciplines», ACM SIGKDDExplorations Newsletter, vol. 1, no 1, p. 16–19.

Hand, D. J., H. Mannila et P. Smyth. 2001, «Principles of data mining (adaptive computationand machine learning)», .

Heart and stroke foundation. 2016, «2016 report on the health of canadians»,https://eartandstroke.ca/-/media/pdf-files/canada/2017-heart-month/

heartandstroke-reportonhealth-2016.ashx?la=en;.

Hoblyn, J. C., S. L. Balt, S. A. Woodard et J. O. Brooks III. 2015, «Substance use disordersas risk factors for psychiatric hospitalization in bipolar disorder», Psychiatric Services.

Huang, Z. 1997, «A fast clustering algorithm to cluster very large categorical data sets in datamining», dans Workshop on Research Issues on Data Mining and Knowledge Discovery.

Huang, Z. 1998, «Extensions to the k-means algorithm for clustering large data sets withcategorical values», Data Mining and Knowledge Discovery, vol. 2, no 3, p. 283–304.

Huang, Z., W. Dong, L. Ji, C. Gan, X. Lu et H. Duan. 2014, «Discovery of clinical pathwaypatterns from event logs using probabilistic topic models», Journal of biomedical informa-tics, vol. 47, p. 39–57.

Huang, Z., X. Lu et H. Duan. 2013, «Latent treatment pattern discovery for clinical processes»,Journal of medical systems, vol. 37, no 2, p. 1–10.

Hunt, L. et M. Jorgensen. 1999, «Theory & methods : Mixture model clustering using themultimix program», Australian & New Zealand Journal of Statistics, vol. 41, no 2, p. 154–171.

Inan, O., M. S. Uzer et N. Yılmaz. 2013, «A new hybrid feature selection method basedon association rules and PCA for detection for breast cancer», International Journal ofInnovative Computing, Information and Control, vol. 9, no 0, p. 2.

113

Page 130: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Institute of Medicine (US). 2001, «Institute of medicine committee on quality of health carein america. crossing the quality chasm : A new health system for the 21st century», https:

//www.ncbi.nlm.nih.gov/books/NBK222271/.

ISQ. 2009, «Institut de la statistique du Québec», http://www.stat.gouv.qc.ca/

statistiques/sante/bulletins/zoom-sante-200901.pdf.

Jain, A., M. Murty et P. Flynn. 1999, «Data clustering : a review», ACM Comput. Surv.,vol. 31, p. 264–323.

Jorgensen, M. et L. Hunt. 1996, «Mixture model clustering of data sets with categorical andcontinuous variables», dans Proceedings of the Conference ISIS ?6, Australia, p. 375–84.

Kent, D. M. et G. Kitsios. 2009, «Against pragmatism : on efficacy, effectiveness and the realworld», Trials, vol. 10, no 1, p. 48.

Knab, B., A. Schliep, B. Steckemetz et B. Wichern. 2003, «Model-based clustering with hiddenMarkov models and its application to financial time-series data», dans Between Data Scienceand Applied Data Analysis, Springer, p. 561–569.

Koh, H. et G. Tan. 2005, «Data mining applications in healthcare.», Journal of healthcareinformation management : JHIM, vol. 19, no 2, p. 64.

Kum, H., D. Duncan, K. Flair et W. Wang. 2003, «Social welfare program administration andevaluation and policy analysis using knowledge discovery and data mining on administrativedata», dans Proceedings of the 2003 annual national conference on Digital governmentresearch, Digital Government Society of North America, p. 1–6.

Kuwabara, K., S. Matsuda, M. Anan, K. Fushimi, K. B. Ishikawa, H. Horiguchi, K. Haya-shida et K. Fujimori. 2010, «Difference in resource utilization between patients with acuteand chronic heart failure from japanese administrative database», International journal ofcardiology, vol. 141, no 3, p. 254–259.

Lapi, F., M. Tuccori, D. Motola, A. Pugi, M. Vietri, N. Montanaro, A. Vaccheri, O. Leoni,A. Cocci, R. Leone et collab.. 2010, «Safety profile of the fluoroquinolones», Drug safety,vol. 33, no 9, p. 789–799.

Lenz, R. et M. Reichert. 2007, «It support for healthcare processes–premises, challenges,perspectives», Data & Knowledge Engineering, vol. 61, no 1, p. 39–58.

Liang, J., X. Zhao, D. Li, F. Cao et C. Dang. 2012, «Determining the number of clusters usinginformation entropy for mixed data», Pattern Recognition, vol. 45, no 6, p. 2251–2265, ISSN0031-3203.

114

Page 131: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Lloyd-Jones, D., R. Adams, M. Carnethon, G. D. Simone, T. Ferguson, K. Flegal, E. Ford,K. Furie, A. Go, K. Greenlund et collab.. 2009, «Heart disease and stroke statistics–2009 up-date a report from the american heart association statistics committee and stroke statisticssubcommittee», Circulation, vol. 119, no 3, p. 480–486.

Lloyd-Jones, D., R. J. Adams, T. M. Brown, M. Carnethon, S. Dai, G. De Simone, T. Ferguson,E. Ford, K. Furie, C. Gillespie et collab.. 2010, «Heart disease and stroke statistics – 2010update», Circulation, vol. 121, no 12, p. 948–954.

Lopushinsky, S. R., P. C. Austin, L. Rabeneck, G. S. Kulkarni et D. R. Urbach. 2007, «Regio-nal variation in surgery for gastroesophageal reflux disease in ontario», Surgical innovation,vol. 14, no 1, p. 35–40.

MacQueen, J. 1967, «Some methods for classification and analysis of multivariate observa-tions», dans Proc. of the fifth Berkeley Symposium on Mathematical Statistics and Proba-bility, vol. 1, p. 281–297.

Man, J. et B. Jugdutt. 2012, «Systolic heart failure in the elderly : optimizing medical ma-nagement», Heart Failure Reviews, vol. 17, no 4-5, p. 563–571.

McAullay, D., G. Williams, J. Chen, H. Jin, H. He, R. Sparks et C. Kelman. 2005, «A deliveryframework for health data mining and analytics», dans Proceedings of the Twenty-eighthAustralasian conference on Computer Science-Volume 38, Australian Computer Society,Inc., p. 381–387.

McKelvie, R., G. Moe, A. Cheung, J. Costigan, A. Ducharme, E. Estrella-Holder, J. Ezeko-witz, J. Floras, N. Giannetti, A. Grzeslo et collab.. 2011, «The 2011 canadian cardiovascularsociety heart failure management guidelines update : focus on sleep apnea, renal dysfunc-tion, mechanical circulatory support, and palliative care», Canadian Journal of Cardiology,vol. 27, no 3, p. 319–338.

McLachlan, G. et D. Peel. 2004, Finite mixture models, John Wiley & Sons.

Mitchell, T. M. 1997, «Machine learning. 1997», Burr Ridge, IL : McGraw Hill, vol. 45, p. 37.

MSSS. 2007, «Ministère de santé et services sociaux Québec», http://wpp01.msss.gouv.qc.

ca/appl/g74web/statistiques.asp.

Najjar, A., C. Gagné et D. Reinharz. 2014, «A novel mixed values k-prototypes algorithmwith application to health care databases mining», dans IEEE Symposium Series on Com-putational Intelligence (IEEE-SSCI), IEEE, p. 159–166.

Najjar, A., C. Gagné et D. Reinharz. 2015, «Two-step heterogeneous finite mixture modelclustering for mining healthcare databases», dans Data Mining (ICDM), 2015 IEEE Inter-national Conference on, IEEE, p. 931–936.

115

Page 132: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Olson, C. H., S. Dey, V. Kumar, K. A. Monsen et B. L. Westra. 2016, «Clustering of elderlypatient subgroups to identify medication-related readmission risks», International journalof medical informatics, vol. 85, no 1, p. 43–52.

Ordónez, P., T. Armstrong, T. Oates et J. Fackler. 2011, «Using modified multivariate bag-of-words models to classify physiological data», dans Intl Conf. on Data Mining Workshops(ICDMW), IEEE, p. 534–539.

Pearson, K. 1894, «Contributins to the mathematical theory of evolution», Philosophical Tran-sactions of the Royal Society of London, vol. 185, p. 71–110.

Publications GC. 1993, «Publications du gouvernement du canada», http://publications.

gc.ca/Collection-R/LoPBdP/BP/bp350-f.htm.

Rabiner, L. R. 1989, «A tutorial on hidden markov models and selected applications in speechrecognition», dans Proceedings of the IEEE, p. 257–286.

Rebuge, Á. et D. R. Ferreira. 2012, «Business process analysis in healthcare environments :A methodology based on process mining», Information Systems, vol. 37, no 2, p. 99–116.

Roque, F., P. Jensen, H. Schmock, M. Dalgaard, M. Andreatta, M. D. Ritchie et collab.. 2011,«Using electronic patient records to discover disease correlations and stratify», .

Salton, G. et M. J. McGill. 1986, «Introduction to modern information retrieval», .

Schwarz, G. 1978, «Estimating the dimension of a model», The annals of statistics, vol. 6,no 2, p. 461–464.

Seifert, J. W. 2004, «Data mining : An overview», National security issues, p. 201–217.

Smyth, P. 1999, «Probabilistic model-based clustering of multivariate and sequential data»,dans Proceedings of the Seventh International Workshop on AI and Statistics, San Francisco,CA : Morgan Kaufman, p. 299–304.

Song, M., C. W. Günther et W. M. Van der Aalst. 2008, «Trace clustering in process mining»,dans International Conference on Business Process Management, Springer, p. 109–120.

Sparck Jones, K. 1972, «A statistical interpretation of term specificity and its application inretrieval», Journal of documentation, vol. 28, no 1, p. 11–21.

Thangsupachai, N., P. Kitwatthanathawon, S. Wanapu et N. Kerdprasop. 2011, «Clusteringlarge datasets with apriori-based algorithm and concurrent processing», dans Proc. of IntlMultiConference of Engineers and Computer Scientists, vol. 1.

Tiño, P., A. Kabán et Y. Sun. 2004, «A generative probabilistic approach to visualizing sets ofsymbolic sequences», dans Proceedings of the tenth ACM SIGKDD international conferenceon Knowledge discovery and data mining, ACM, p. 701–706.

116

Page 133: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Xu, M., T. Wong et K. Chin. 2014, «A medical procedure-based patient grouping method foran emergency department», Applied Soft Computing, vol. 14, p. 31–37.

Yamagishi, J. 2006, «An introduction to hmm-based speech synthesis», Technical Report.

Yancy, C., M. Lopatin, L. Stevenson, T. D. Marco et G. Fonarow. 2006, «Clinical presentation,management, and in-hospital outcomes of patients admitted with acute decompensatedheart failure with preserved systolic functiona report from the acute decompensated heartfailure national registry (adhere) database», Journal of the American College of Cardiology,vol. 47, no 1, p. 76–84.

Yoo, I., P. Alafaireet, M. Marinov, K. Pena-Hernandez, R. Gopidi, J.-F. Chang et L. Hua.2012, «Data mining in healthcare and biomedicine : a survey of the literature», Journal ofmedical systems, vol. 36, no 4, p. 2431–2448.

117

Page 134: Thèse Ahmed Najjar Doctorat en génie électrique · 2019-02-15 · Forage de données de bases administratives en santé Thèse Ahmed Najjar Sous la direction de: Christian Gagné,

Annexe A

Liste des publications

A.1 Revues scientifiques

— Ahmed Najjar, Christian Gagné, Daniel Reinharz et Catherine Girouard, Mining PatientTreatment Pathways in Administrative Healthcare Databases, Artificial Intelligence inMedicine (soumis).

A.2 Conférences

— Ahmed Najjar, Christian Gagné et Daniel Reinharz, Patient Treatment Pathways Clus-tering, Neural Information Processing Systems (NIPS) Workshop on Machine Learningin Healthcare, Montreal, Canada, 2015.

— Ahmed Najjar, Christian Gagné et Daniel Reinharz, Two-Step Heterogeneous FiniteMixture Model Clustering for Mining Healthcare Databases, IEEE International Confe-rence on Data Mining (ICDM), Atlantic City, USA, 2015.

— Ahmed Najjar, Christian Gagné et Daniel Reinharz, A Novel Mixed Values k-Prototypesalgorithm with Application to Health Care Databases Mining, IEEE Symposium onComputational Intelligence and Data Mining, Orlando, Florida, USA, 2014.

118