1
L'informatisation des données biomédicales et omics offrent de nouvelles perspectives de recherche en santé. Un des verrous actuel à leur exploitation provient de leur caractère hétérogène et du cloisonnement des bases qui les hébergent. Le projet entrepôt de données biomédicales vise à colliger l'ensemble de ces informations au sein d'une seule et même base, et à développer des outils de fouille de données à destination des chercheurs et cliniciens. L'accès et l'exploitation de l'entrepôt sont soumis à des règles éthiques et déontologiques strictes. Entrepôt de données Réutilisation du dossier patient informatisé Contact : [email protected] www.fondationimagine.org Institut Imagine - 156 rue Vaugirard, 75015 Paris, FRANCE. N. Garcelon, R. Salomon – juin 2012 L'équipe projet Entrepôt comprend plusieurs groupes de travail dont l'objectif est de répondre aux aspects techniques, déontologiques et éthiques. Ces travaux se feront en collaboration avec des partenaires publics et industriels en fonction des thématiques abordées (notamment avec le projet RADICO). Le projet entrepôt de données s'inscrit dans le paradigme de la recherche translationnelle et contribue à assurer une transversalité entre la clinique et la recherche. Sources de données hétérogènes Comptes rendus cliniques Extract Extract Transform Transform Load Load ETL Documents Patients Séjours Méta données (thésaurus) Equipes / centres de référence Transformation : Contrôle qualité des données Homogénéisation des données structurées par l’utilisation de thésaurus internationaux Enrichissement sémantique des données en texte libre : extraction automatique de concepts Cette étape de contrôle des données permet de mettre en place des stratégies d'amélioration de la qualité des données à leurs sources Base de données Base de données : Le schéma en étoile permet d’intégrer tous les types de données (texte, date, nombre, corpus, image etc.) sans modifier le schéma lors de l’ajout d’une nouvelle source. Le module Oracle Text© indexe des données plein texte, et permet de créer des requêtes complexes Extraction des données sources : Les données sources contenues dans les différents logiciels sont extraites automatiquement. Ceci permet de ne pas compromettre le fonctionnement de ces logiciels lors de l'exploitation secondaire des données. Bases de connaissance et ontologies UMLS metathesaurus Les bases de connaissance ajoutent de l’information aux données biocliniques et génétiques . Ces bases permettent de créer des clusters de patients par de nouveaux vecteurs. Algorithmes de fouille de données et de visualisation Algorithmes de fouille de données et de recherche d'information reposant sur des méthodes de : calcul de similarité clustering traitement des données géographiques Analyse transespèce données patient données de population données modèles animaux données omics données environnementales Interface utilisateur L'interface utilisateur regroupe : des outils de recherche sur tous les types de données stockées : données structurées (thésaurus, nombre) et plein texte (ex: compte rendu d'hospitalisation) des résultats agrégées sous forme de graphiques la visualisation des données individuelles anonymisées un outil de constitution de cohorte un module de traçabilité des accès à l'entrepôt Le système est modulaire et évolutif : de nouvelles fonctionnalités seront développées en fonction des cas d'utilisation Module de sécurité L’ouverture des droits d’accès se fait par une demande dans le cadre d’une étude / d’un projet. La gestion des droits d’accès est multi modale : Accès à des données agrégées (pour les études de faisabilité) Accès à des données détaillées anonymisées (pour les études rétrospectives) Accès à des datamarts (des sous ensembles de l’entrepôt) Alimentation de registres L’entrepôt pourra alimenter des bases spécifiques (RADICO, etc.) Alimentation de registres L’entrepôt pourra alimenter des bases spécifiques (RADICO, etc.) Centres de Référence Maladies Rares Hôpital universitaire Necker-Enfants malades NECKER - ENFANTS MALADES Avec le soutien de Projet à l’étude

Centres de Référence Maladies Rares

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Projet à l’étude

L'informatisation des données biomédicales et omics offrent de nouvelles perspectives de recherche en santé. Un des verrous actuel à leur exploitation provientde leur caractère hétérogène et du cloisonnement des bases qui les hébergent.

Le projet entrepôt de données biomédicales vise à colliger l'ensemblede ces informations au sein d'une seule et même base, et à développer des outilsde fouille de données à destination des chercheurs et cliniciens.

L'accès et l'exploitation de l'entrepôt sont soumis à des règles éthiqueset déontologiques strictes.

Entrepôt de donnéesRéutilisation du dossier patient informatisé

Contact : [email protected]

Institut Imagine - 156 rue Vaugirard, 75015 Paris, FRANCE. N. G

arce

lon,

R. S

alom

on –

juin

201

2

L'équipe projet Entrepôt comprend plusieurs groupes de travail dont l'objectifest de répondre aux aspects techniques, déontologiques et éthiques.Ces travaux se feront en collaboration avec des partenaires publics et industriels en fonction des thématiques abordées (notamment avec le projet RADICO).

Le projet entrepôt de données s'inscrit dans le paradigme de la recherche translationnelle et contribue à assurer une transversalité entre la cliniqueet la recherche.

Sources de données hétérogènes

Comptes rendus cliniques ExtractExtract

TransformTransformLoadLoad

ETL

Documents

Patients

Séjours

Méta données

(thésaurus)

Equipes / centres de référence

Transformation : •Contrôle qualité des données•Homogénéisation des données structurées par l’utilisation de thésaurus internationaux•Enrichissement sémantique des données en texte libre : extraction automatique de concepts

Cette étape de contrôle des données permet de mettre en place des stratégies d'amélioration de la qualité des données à leurs sources

Base de données

Base de données :Le schéma en étoile permet d’intégrer tous les types de données (texte, date, nombre, corpus, image etc.) sans modifier le schéma lors de l’ajout d’une nouvelle source.Le module Oracle Text© indexe des données plein texte, et permet de créer des requêtes complexes

Extraction des données sources :Les données sources contenues dans les différents logiciels sont extraites automatiquement. Ceci permet de ne pas compromettre le fonctionnement de ces logiciels lors de l'exploitation secondaire des données.

Bases de connaissance et ontologies

UMLS metathesaurus

Les bases de connaissance ajoutent de l’information aux données biocliniques et génétiques . Ces bases permettent de créer des clusters de patients par de nouveaux vecteurs.

Algorithmes de fouille de données et de visualisation

Algorithmes de fouille de données et de recherche d'information reposant sur des méthodes de : •calcul de similarité•clustering•traitement des données géographiques•Analyse transespèce

• données patient• données de population• données modèles animaux• données omics• données environnementales

Interface utilisateur

L'interface utilisateur regroupe :

•des outils de recherche sur tous les types de données stockées : données structurées (thésaurus, nombre) et plein texte (ex: compte rendu d'hospitalisation)•des résultats agrégées sous forme de graphiques•la visualisation des données individuelles anonymisées•un outil de constitution de cohorte•un module de traçabilité des accès àl'entrepôt

Le système est modulaire et évolutif : de nouvelles fonctionnalités seront développées en fonction des cas d'utilisation

Module de sécurité

L’ouverture des droits d’accès se fait par une demande dans le cadre d’une étude / d’un projet. La gestion des droits d’accès est multi modale :•Accès à des données agrégées (pour les études de faisabilité)•Accès à des données détaillées anonymisées (pour les études rétrospectives)•Accès à des datamarts (des sous ensembles de l’entrepôt)

Alimentation de registresL’entrepôt pourra alimenter des bases spécifiques (RADICO, etc.)

Alimentation de registresL’entrepôt pourra alimenter des bases spécifiques (RADICO, etc.)

Centres de Référence Maladies Rares

Hôpital universitaire Necker-Enfants malades

NECKER - ENFANTS MALADES

Avec le soutien de

Projet à l’étude