63
Exploitation des données massives en santé pour la recherche médicale : méthodes, outils et cas d’utilisation Pr Marc CUGGIA Département d’information médicale Equipe projet données massives en santé (Inserm UMR 1099 - LTSI) Unité Support Fouille de données (Inserm CIC - 1414 - CHU Rennes) Université de Rennes 1 CENTRE HOSPITALIER UNIVERSITAIRE DE RENNES

Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

  • Upload
    donhan

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Exploitationdesdonnéesmassives ensantépourlarecherchemédicale:méthodes,outilsetcasd’utilisation

Pr Marc CUGGIA

Département d’information médicaleEquipe projet données massives en santé

(Inserm UMR 1099 - LTSI)

Unité Support Fouille de données

(Inserm CIC - 1414 - CHU Rennes)

Université de Rennes 1

CENTREHOSPITALIER

UNIVERSITAIREDE RENNES

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement2

5

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement3

5

Jusqu’àhierQuelssontlespatientséligiblespourceprojetderecherche?

Revenezdans1mois…

Jusqu’àaujourd’huiUnSystèmed’Informationtrèsriche

Maispeuexploitableenl’état

Base rechercheRegistre (Small data)

DPISIH

Imagerie

Omic

e-Santé

SNIIR-AM

DonnéesMassivesen Santé

• Volume• Variabilité• Véracité• Vélocité• Sensibilité

8

99

EHR evaluation forms> 70.000 selectable items (including versioning)!

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement10

5

Quelsusages?

•Pourl’individu• Médecinecibléeetpersonnalisée

•Pourlescollectivités• Vigilances,veillesanitaire

• Larecherche• Épidémiologique:Détectiondecohortes• Clinique:Étudesdefaisabilité,Recherchedepatientéligible

•Médico-administratif• organisationraisonnéedessoins,pilotagedesactivités,analysedestrajectoiresdesanté

•Pourl’enseignement• Professionnelsdesanté,éducation,informationdescitoyens

11

Rechercheclinique:Etudedefaisabilitéetprescreening

CriteriaInclusion Criteria:1Male subjects, over 50 years of age at the time of enrollment.2Subjects referred to urology for BPH leading to permanent indwellingbladder catheters and are considered poor surgical candidates3Written informed consent to participate in the study.4Ability to comply with the requirements of the study proceduresExclusion Criteria:1Previous surgical treatment for BPH2Presence of bladder stones3History of prostate cancer4Prostate size > 150 g5History of urethral stenosis or its management6Known of suspected neurogenic bladder7History of recent hematochezia in the last 3 months8Contraindication to intravascular iodinated contrast such as allergies or significant elevated creatinine/renal failure9Uncorrected coagulopathy1Subjects who participated in an active stage of any drug, intervention or treatment trial within 30 days of enrollment.1Subjects with preexisting conditions, which, in the opinion of the investigator, interfere with the conduct of the study.1Subjects who are uncooperative or cannot follow instructions.1Mental state that may preclude completion of the study procedure or obtention of infor

13

14

15

Intégration des données pour une Médecine translationnelle, prédictive et personnalisée

16

Toward Precision Medicine: Building a Knowledge Network for Biomedical Research and a New Taxonomy of Disease Report from National academy of science, USA, 2011

8

17

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement18

5

intégrationetexploitationdesdonnéescliniqueshétérogènes

Entrepôtdedonnéesbiomédical

19

Entrepôtsdedonnéesbiomédicaux

Analyses

Clinique

Imagerie

Biologie

GénomiqueMédico-économique

Pharmacie

Chirurgie

Entrepôtdedonnéesbiomédicales

üCopiedesdonnéesdeproduction

üPermetlesanalysestrans-domaines

üAméliorelaqualitédesdonnées

Entrepôtde

DonnéesBiomédicales

Outils derecherche etde

fouille dedonnées

SillageDpi

Labo Pmsi

Radio …ETL

Systèmedeproduction

S.I.H

22

SomeexamplesofCDWtechnologies

• I2B2 shrine TRANSMART• Informatics forintegrating biologyandthebedside

• Harvard• Translationnal medicine

• STRIDE• Stanford• 3hospitals• Détectiondecohorte

• EHOP• Entrepôt HOPital

[1]M. Cuggia, N. Garcelon, B. Campillo-Gimenez, T. Bernicot, J.-F. Laurent, E. Garin, A. Happe, et R. Duvauferrier, « Roogle: an information retrieval engine for clinical data warehouse », Stud Health Technol Inform, vol. 169, p. 584-588, 2011.

•Entrepôt dedonnéesduCHUdeRennes•1,2millionsdepatients•27millionsde documents•130millionsd’élémentsdedonnées

• Compte-rendus Hospitaliers DossiersUrgence Génétique• Anatomo-pathologie Données deLaboratoires PMSI• Imagerie Dossiersinfirmier• Prescription/administration• Biobanque(CRB)

Quelquescaractéristiquestechniques

• Herbegée dansleSIHduCHU• Technologiesweb,BasededonnéesOracleetMongoDB• Conservationducontexte:dualitéDocument/Donnéesatomiques• Intégrationbaséesur

• lesstandardsd’interopérabilité HL7,PN13,HPRIM• Lesterminologiesmédicale :CIM10,ADICAP,SNOMED,LOINC

• Alimentationaufildel’eau:ETLindustriel:ENOVACOM/TALEND• Moduled’analyseetdefouillededonnées:R• Dé-identificationdesdonnées,traçabilitédesaccès• CompatibleetcomplémentaireàI2B2/SHRINE

25

26

• Traitement automatique des données textuelles • Extraction des concepts• Détection de la négation, de l’incertitude• Expansion sémantique

27

ResultsCritèresdémographiques

Recherchesurdonnéestextuelles

Traitementautomatiquedulangage

Recherchesurdonnéesstructurées

30

Ex:Sélection decohortes

34

35

36

37

Shneiderman, B., Plaisant, C.Sharpening Analytic Focus to Cope with Big Data Volume and Variety: Ten strategies for data focusing with temporal event sequences (2015)

38

Malik, S., Du, F., Monroe, M., Onukwugha, E., Plaisant, C., Shneiderman, B.Cohort Comparison of Event Sequences with BalancedIntegration of Visual Analytics and StatisticsACM Intelligent User Interfaces (IUI) 2015. Atlanta, GA, USA. (2015)

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement39

5

CentredeDonnéesCliniqueCDC

• Organisation intra-hospitalière « guichet unique »

• Propose une offre de service au sein de chaque établissement pourexploiter les données du SIH grâce à l’entrepôt de données et des outilsde fouille de données

• Rassemble des compétences Informatiques (DSI), réglementaires etméthodologiques (DIM), Métiers (Recherche clinique, épidémiologie).

• Structure tiers de confiance• Accède à l’exhaustivité des données qui lui sont confiées• Effectue les traitements et en assure la traçabilité• Respect strict du cadre éthique, juridique et réglementaire

• Met en œuvre des actions pour l’amélioration de la qualité des donnéesde l’entrepôt. (Ex : optimisationdu codage)

Entrepôtdedonnéesbiomédicales

Outilsd’exploitations(recherched’informationet

fouillededonnées)

Datamarts

DatamartsData

martsDatamarts

PortailrechercheGuichetunique

SystèmeEHOP

Demandes

Traitement

Exploitation

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement42

5

RéseauxdedonnéesdesantéClinical DataResearch Networks

43

Réseauinterégional desCDC

Ri-CDC:Objectifs

• ÉtendrelamiseenplacedesCDCdanschaqueétablissement• Gouvernance,procédures,méthodologied’exploitation,technicité

• Mutualiser,formeretutiliserdesoutilstechnologiques• Pourl’exploitationdubig datahospitalier• Intégrationdesdonnées

• OMICS,Imagerie,e-Santé• SNIIR-AM• Registres• SystèmeNationaldesDonnéesdeSanté

• Faciliterl’exploitationmulticentriquedesdonnées• Réseaudedonnéesnationauxetinternationaux

• Faireevoluer lesoutilsenétablissantunedémarchevertueusederechercheetdéveloppement

Ri-CDC:Objectifs

Projetsderechercheeninformatiquemédicales

Feasibility Screening e-CRF Pharmacovigilance

Electronic Health Record for Clinical Research

FP7/IMIInovativemedicalInitiative

Feasibility Screening e-CRF Pharmacovigilance

EtudeFaisabilité Recrutement E-CRF Pharamaco

vigilance

Electronic Health Record for Clinical Research

EtudeFaisabilité Recrutement E-CRF Pharamaco

vigilance

Electronic Health Record for Clinical Research

EtudeFaisabilité Recrutement E-CRF Pharamaco

vigilance

Rennes:10Paris:230Londres223Genève:22

Electronic Health Record for Clinical Research

June7th 2013 IMI JUInterimReviewMeeting 50

5151

52

FDA NHS

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement53

5

Dynamiquederecherche• ProjetPEPS :Plateformed’EtudedesProduitsdeSanté

• UtilisationduSNIIR-AMpourréaliserdesétudesdepharmacovigilance• SNIIRAM:Donnéesderemboursement+PMSI(donnéeshospitalières)• Caractérisationdelatrajectoiredesantédespatients

SNIIR AM

Chainage des données

Intégration des données

55

• Projet INSHARE(AOANR)(3ans):• PlateformeCloudd’Intégrationetpartagedesdonnéesensantépourlarecherche

• Protectiontatouagedesdonnées• Intégrationdesdonnéeshospitalières,SNIIRAM,etdesregistresépidémiologiques

56

57

• Analysededonnées:• Evaluationdespratiques:ProjetPREPSPACHA(AOPREPSobtenu)

• ObservatoiredesbonnepratiquedeprescriptiondesACO• Cardiophen :Sociétéfrancaise decardiologie

• Phénotypage del’insuffisancecardiaqueafractiond'éjectionpréservéeparlafouillededonnéesmassiveshospitalières

• Intégrationdedonnéesmultidomaine• Signaux:ProjetCardionode

• Intégrationdesdonnéesdesignauxelectrographique issusdedéfibrilateurs implantablescommunicant

• aideàladécision,• détectiondebiomarqueursbaséessurlessignauxélectrocardiographiques

• Biobanque :ProjetIBCB:IntegratingBioClinical dataforBiobanks• Annotationéchantillonsaveclesdonnéesclinico-biologiquedespatients• Fédérationd’entrepots dedonnéesnational

• ITFoc :IT:thefurure ofCancer(Flag-ERA- Digitalmedecine forCancer)• IntégrationdedonnéesCLINIC-OMIC

Dynamiquederecherche

Dynamiquederecherche

• Qualitédesdonnées:ProjetQualimed• Monotoring delaqualitédesdonnées• Utilisationdansl’améliorationducodageduPMSI

• Text mining etTraitementautomatiquedulangage• ProjetBIGCLIN:Big dataforclinical research (Cominlab)• Exploitationdesdonnéescliniquestextuelles pourlarechercheclinique• Machinelearning – Deep learning• Calculintensif

59

Dynamiqued’enseignement

• Nouvellestechnologiesè nouveauxmétiers• MasterdesSciencesdesDonnéesenSanté(2017)SDS

– Datascientists ensanté– 2champsd’applications:rechercheetpilotagedesétablissements

Informatique Biostatistiques

ExpertiseEnsanté

Biostatistiques etbio-mathématiquesInformatique algorithmique etbases dedonnéesBases enépidémiologie etrecherche clinique

TRONC COMMUNSystème d’information en santé

Sémantique des données Intégrationdes données massivesFouille dedonnées – recherched’information

Protection etgouvernance des données ensanté

ParcoursapplicationalaRECHERCHE

Recherche clinique etTranslationelleEpidémiologie

Pharmaco-epidémiologieEpidémiologie génétique

Parcoursapplicationàlal’évaluation etl’analyse

stratégiqueEvaluation médico

économiqueEvaluation des pratiques

STAGE (6mois)

MASTER1(S1/S3)

MASTER2(S3/S4)

MASTERSCIENCESDESDONNEESENSANTE(SDS)

Quefautilretenir?üLeBig dataensantéestconstituédedonnées:

• Hétérogènes• Multi-domaines• multi-échelles• Donnéessensibles

üLesentrepôts sontdesconcentrateurs dedonnéespermettantuneexploitationfacilitéedesdonnéesmaisquinécessitent:

• Unetechnicité:nouveauxmétiers• Desorganisationstiersdeconfiancepermettantleurexploitationsrespectantleprotectiondesdonnées

üCestechnologiespeuventmisesenœuvredansdenombreuxcasd’utilisationenrecherche(maisaussiaudelà)

• Ilssontcomplémentairesdesapprochesclassiquesderecueilpro-actifd’information

üLatendanceestlaconstitutionderéseauxdedonnéespouruneexploitationmulticentrique

üNousensommesaudébut62

Contact:

__________________________________________• Pr.MarcCUGGIA,MD,PhD• LTSI- UMRInserm- UniversitédeRennes1• Equipe-ProjetDonnéesmassivesensanté(DMS)• CampusdeVillejean- Bât.6• 35043RennesCedex- France-• Tel:+33223235350• Portable:+33672025620• Email:[email protected]__________________________________________________

• Départementd'informationMédicale• UFFouille dedonnées• Centred’investigationclinique• CHUPontchaillou• rueH.LeGuilloux- 35033Rennes__________________________________________________