56
Pour une meilleure utilisation des bases de données nationales pour la santé publique et la recherche Collection Documents Mars 2012

hcspr20120309_bddadmination (1)

Embed Size (px)

DESCRIPTION

Santé publique

Citation preview

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche Collection Documents

    Mars 2012

  • POUR UNE MEILLEURE UTILISATION DES BASES DE DONNEES ADMINISTRATIVES ET

    MEDICO-ADMINISTRATIVES NATIONALES POUR LA SANTE PUBLIQUE ET LA RECHERCHE

    Mars 2012

  • Haut Conseil de la sant publique 2

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 3

    SOMMAIRE

    La saisine......................................................................................................................... 5

    Composition du groupe de travail ............................................................................... 7

    Rsum et synthse des principales propositions ........................................................... 8

    1 Nature et intrt des diffrents types dinformations dans le cadre de systmes de surveillance, dtudes et de travaux de recherche en sant ............................................12

    1.1 Les bases de donnes publiques administratives et mdico-administratives nationales : une richesse insuffisamment exploite ...........................................................12 1.2 Les principales bases de donnes nationales pour la recherche et la sant publique 13 1.3 Quelques exemples dutilisation possible des bases de donnes administratives et mdico-administratives nationales pour la recherche et la surveillance .............................23

    2 Les principales difficults pour lutilisation des bases de donnes nationales des fins de recherche et de surveillance ..................................................................................29

    2.1 Obstacles rglementaires et lgaux .......................................................................29 2.2 Obstacles organisationnels et techniques ..............................................................34 2.3 Difficults diverses .................................................................................................37

    3 Propositions.................................................................................................................38 3.1 Lutilisation des bases de donnes nationales : pour qui ? pour quoi ? ..................38 3.2 Propositions concernant lidentifiant pour laccs aux bases de donnes...............41 3.3 Propositions concernant lextraction et la transmission de donnes des bases nationales ..........................................................................................................................46 3.4 Propositions concernant lutilisabilit des donnes provenant des bases nationales 47 3.5 Synthse des propositions : pour la cration dune plateforme dinterface entre les utilisateurs et les bases de donnes nationales .................................................................47 3.6 Propositions diverses .............................................................................................48

    Liste des sigles ...............................................................................................................51

  • Haut Conseil de la sant publique 4

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 5

    La saisine

  • Haut Conseil de la sant publique 6

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 7

    Composition du groupe de travail

    Prsident Marcel Goldberg

    Membres du HCSP Claudine Berr, CS Maladies chroniques Chantal Cases, CS Evaluation, stratgie et prospective Franois Dabis, CS Maladies transmissibles Jean-Pierre Hugot, CS Risques lis lenvironnement Eric Jougla, CS Evaluation, stratgie et prospective Catherine Sermet, CS Maladies chroniques

    Reprsentants des membres de droit du HCSP Sandrine Danet, Drees Isabelle Grmy, InVS Yves Charpak, EFS

    Experts extrieurs Jean-Claude Desenclos, InVS - Supplante : Anne Doussin Vincent Poubelle, Cnav Philippe Ricordeau, Cnam-TS Alain Trugeon, Fnors Alain Weill, Cnam-TS

    Secrtariat gnral du HCSP Grard Badyan, coordonnateur

  • Haut Conseil de la sant publique 8

    Rsum et synthse des principales propositions Le contexte La France dispose de bases de donnes mdico-sociales et conomiques nationales centralises, constitues et gres par des organismes publics, couvrant de faon exhaustive et permanente lensemble de la population dans divers domaines stratgiques pour la sant publique et la recherche : recours aux soins, hospitalisation, handicaps, prestations et situation professionnelle, sociale et conomique. De plus, un identifiant individuel unique (le NIR : numro didentification au rpertoire) est actuellement utilis par pratiquement toutes les bases de donnes nationales. Malgr certaines limites en termes de couverture, de qualit et de validit des donnes, ces bases de donnes, concernant plus de 60 millions de personnes, constituent un patrimoine considrable, vraisemblablement sans quivalent au monde. Cependant, lutilisation des fins de recherche et de surveillance de ces bases de donnes nationales se heurte actuellement des obstacles divers, dont les plus importants sont de nature juridique et oprationnelle. Les bases de donnes et leur utilisation pour la recherche et la surveillance Les principales bases de donnes nationales mobilisables pour la recherche pour la surveillance et la sant publique sont brivement dcrites dans ce rapport. Elles concernent :

    Des donnes de sant : mortalit, donnes dhospitalisation via le PMSI (Programme de mdicalisation du systme dinformation), donnes de consommations de soins et de prise en charge de lassurance maladie, ces deux dernires bases de donnes tant runies au sein du Systme national dinformation inter-rgimes de lassurance maladie - SNIIR-AM, dont un chantillon alatoire (lEGB : chantillon gnraliste des bnficiaires) peut tre utilis distance. Les principales limites des bases de donnes du PMSI et de lassurance maladie sont quelles ne contiennent pratiquement pas de donnes concernant la situation socioprofessionnelle des personnes et que les informations sur le domicile des patients ne sont pas suffisamment prcises pour permettre une exploitation territorialise une chelle fine ; de plus, la validit des donnes de sant de ces bases est de qualit variable.

    Situation socioprofessionnelle : les bases de donnes de la Caisse nationale dassurance vieillesse (Cnav) permettent de retracer, pour chaque personne ayant appartenu durant sa vie au moins une fois au rgime gnral de scurit sociale, ses diffrentes priodes d'activit : priodes d'activit professionnelle ou assimiles (chmage, maladie, maternit ou congs parentaux, ). De plus, la Cnav gre le systme national de gestion des identits qui contient l'ensemble des donnes (NIR, tat-civil, statut vital) de la population franaise, ainsi que le RNIAM (Rpertoire national inter-rgimes des bnficiaires de l'assurance maladie), qui contient les informations de rattachement des personnes aux organismes servant les prestations d'assurance maladie.

    Autres sources : outre les trois dispositifs cits, il existe dautres bases de donnes nationales concernant des problmes de sant ou des populations spcifiques.

    Des exemples dutilisation des bases nationales, rcents ou en cours, illustrent la diversit de leurs apports, quil sagisse de lutilisation de chaque base de donnes indpendamment des autres, de lappariement de bases diffrentes ou de lenrichissement par des sources

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 9

    administratives denqutes avec recueil de donnes auprs des personnes, comme les tudes de cohorte.

    Les principales difficults pour lutilisation des bases de donnes nationales des fins de recherche et de surveillance Le cadre juridique permettant daccder aux donnes caractre personnel des bases

    nationales est complexe et dpend notamment de la nature de la base de donnes concerne et de celle de lorganisme utilisateur : organismes de recherche et agences de sant, service statistique public, organismes privs but lucratif. Dans lensemble, on peut considrer que les textes actuels ne constituent pas un obstacle insurmontable laccs aux donnes caractre personnel des bases nationales, mais ils rendent complexes les circuits de transmission de donnes. Une difficult majeure concerne lidentifiant pour laccs aux donnes caractre personnel des bases nationales. Lidentifiant individuel actuellement utilis dans les bases nationales est le NIR, pour la collecte duquel un dcret en conseil dtat est ncessaire, ce qui constitue un obstacle infranchissable pour la plupart des quipes concernes, ds lors quelles nappartiennent pas un organisme habilit disposer de cet identifiant ou quil nest pas possible dtablir des flux de donnes reposant sur un tel organisme. Un autre problme risque de se poser prochainement avec le dploiement de lINS (Identifiant national de sant), destin tre le seul identifiant utilis pour les applications en sant, ce qui rendrait impossible lappariement de donnes de sant avec dautres sources utilisant le NIR comme identifiant. Enfin, dans nombre de situations, il nest en pratique pas possible de recueillir un consentement explicite des personnes concernes avant chaque tude, ce qui prsente une difficult vis--vis de la loi informatique et liberts.

    Obstacles organisationnels et techniques : laccessibilit effective des donnes reste aujourdhui un problme majeur, quil sagisse didentifier les personnes pour lesquelles on veut extraire des donnes dans les bases, dextraire les donnes et de mettre les donnes en forme pour les analyses. Lutilisation du NIR pour lidentification des personnes ncessite une participation active dun organisme dtenteur du NIR, mais il nexiste pas de dispositif formalis mis en place par un ou plusieurs organismes dtenteurs du NIR pour prendre en charge ce type dactivit ; lextraction proprement dite des donnes des bases ncessite galement une participation active des organismes gestionnaires des bases de donnes, car cette activit implique diverses tapes techniques lourdes et, malgr les trs importants efforts de la Cnam-TS, de lInsee et de la plupart des autres organismes gestionnaires de bases de donnes, laccessibilit effective des donnes reste cependant encore fortement contingente ; la complexit de la base de donnes du SNIIR-AM rend lutilisation des donnes individuelles particulirement difficile et ncessite des moyens spcialiss importants dont peu dquipes disposent.

    Finalement, lensemble des aspects juridiques, organisationnels et techniques prendre en compte pour pouvoir utiliser les bases de donnes nationales de faon respectueuse des textes et efficace en termes de rsultats constitue un vritable maquis juridico-institutionnel dans lequel les quipes de recherche et de surveillance ont souvent du mal se reprer.

    Principales propositions - Rgles douverture des bases de donnes nationales : les projets pour lesquels des

    donnes sont demandes doivent avoir fait lobjet dvaluations scientifiques pralables par des organismes lgitimes ; la finalit dintrt public de la demande doit tre tablie ; lutilisation est rserve des organismes publics ou parapublics, ou des structures

  • Haut Conseil de la sant publique 10

    prives but lucratif (directement ou par un intermdiaire acadmique) dans le cadre de la ralisation de certaines tudes (post-autorisation de mise sur le march) commandites par les pouvoirs publics ; un contrle pralable par les organismes gestionnaires des bases de donnes doit tre possible, le cas chant suivi dun avis ngatif argument, de mme que la mise en uvre danalyses titre de contre-expertise.

    - Gouvernance : il sagit de lorganisation de laccs aux bases, de la supervision de la ralisation des demandes et du contrle de lutilisation des donnes. Actuellement, chaque organisme gestionnaire de base traite directement avec les demandeurs ; cet tat de choses nest pas satisfaisant. Deux modles de gouvernance ont t envisags : dcentralise (chaque organisme public gestionnaire de bases de donnes fixe des rgles explicites daccs et met en place un guichet destin traiter les demandes) ; centralise (une structure centrale gre un guichet unique et fait office dinterface entre les demandeurs et les organismes gestionnaires de bases de donnes). Les avantages et inconvnients de chaque modle ont t analyss, notamment en termes de simplicit, dautonomie et de moyens.

    - Lidentifiant pour laccs aux bases de donnes lorsquon ne dispose pas du NIR : deux possibilits peuvent tre envisages : (i) recueil du NIR en clair auprs des personnes ou des professionnels et transfert un centre dappariement scuris (CAS), structure jouant un rle de tiers de confiance habilit recevoir les NIR des sujets concerns, qui applique ensuite des procdures danonymisation ; dans ltat actuel des textes, cette solution ne permet pas dviter la prise dun dcret en conseil dtat spcifique de chaque tude ; (ii) recueil par appariement indirect (probabiliste) et consultation dune base contenant les NIR de toute la population (RNIPP, RNIAM ou SNGI) ; cette mthode est employe pour laccs au statut vital et implique que le demandeur recueille uniquement les informations suivantes : nom, prnom, date et lieu de naissance des personnes concernes et les transmettent (accompagnes dun numro dtude destin aux transferts des donnes) via un tiers de confiance lorganisme dtenteur de la base des NIR, qui peut ainsi retrouver les NIR par une mthode dappariement indirect, et les transfrer qui de droit, sans que linvestigateur nen ait connaissance. Sa mise en uvre pratique (dont les aspects oprationnels sont dcrits dans le rapport) implique la cration dun centre dappariement scuris (CAS), tiers de confiance qui serait loprateur central des procdures mettre en uvre. Cette procdure a dj t mise en uvre, elle est prouve et fonctionne avec des performances satisfaisantes lorsque les informations initiales (nom, prnom, date et lieu de naissance) sont de bonne qualit ; elle implique cependant quau moins un organisme dtenteur des NIR (Insee ou Cnav) mette en place un service ad hoc. Sduisante, la mthode dappariement indirect nest pas adapte toutes les situations : par exemple les tudes avec des donnes en provenance des professionnels de sant ne pourraient pas obtenir le lieu de naissance, ou encore les tudes en situation durgence impliquent une rapidit incompatible avec les dlais ncessaires. Cest pour rpondre ces situations que la Cnil propose llaboration dun dcret-cadre en conseil dtat permettant lutilisation encadre du NIR des fins de recherche mdicale et dtudes en sant publique , solution qui simpose dans le cadre juridique actuel, dans la mesure o il nexiste pas de procdures sans utilisation du NIR permettant de rpondre toutes les situations. Au total, les deux approches (appariement indirect et recueil en clair du NIR autoris par un dcret-cadre) sont complmentaires : la mthode dappariement indirect doit tre privilgie pour toutes les situations o elle est possible et suffisamment efficace et un principe de parcimonie doit tre appliqu pour le recueil en clair du NIR ; en pratique, cest la Cnil que revient dexaminer dans chaque cas les solutions possibles.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 11

    - Correspondance INS NIR : le dploiement de lINS rendra indispensables ltablissement et la maintenance dune table de correspondance entre INS et NIR, seule permettre les appariements entre bases de donnes de sant, identifies lavenir avec lINS, et les autres bases identifies avec le NIR ; il semble prvu que la Cnav grera cette table de correspondance, ce qui reste confirmer.

    Pour la cration dune plateforme dinterface entre les utilisateurs et les bases de donnes nationales Une solution propose pour amliorer la situation actuelle est la cration dune plateforme spcialise qui jouerait le rle dinterface entre les chercheurs et les bases de donnes nationales. Cette plateforme aurait comme missions principales : le conseil aux utilisateurs, la prparation des requtes, la transmission des requtes vers les bases de donnes et la rcupration des fichiers extraits, la restitution aux utilisateurs de donnes synthtises, aprs slection pralable des variables dintrt partir des donnes brutes. Deux modles organisationnels peuvent tre envisags, qui ont chacun leurs avantages et inconvnients : chaque organisme gestionnaire de base dveloppe un guichet ouvert aux utilisateurs remplissant ces fonctions ; cration dune plateforme centrale.

    Propositions diverses - Le consentement des personnes : la recommandation de la Confrence nationale de

    sant dunifier le rgime de consentement la collecte, au traitement, lchange et lhbergement des donnes de faon ce quil soit aisment comprhensible par les usagers et commode exprimer doit tre soutenue et mise en uvre.

    - Identification indirecte dans le SNIIR-AM : bien que le SNIIR-AM soit une base anonymise, son dveloppement, avec des donnes de plus en plus nombreuses et diversifies, des extractions rptes sur les mmes personnes, peut rendre possible lidentification indirecte des personnes par croisement de donnes ; il est indispensable de dvelopper des mesures de prcaution renforces, faisant appel des techniques diverses.

    - La proprit des fichiers apparis : les fichiers constitus partir de lappariement de donnes provenant de bases gres par des organismes diffrents posent des problmes de proprit. Chaque organisme contributeur de donnes doit avoir le moyen de sopposer des utilisations des donnes quil fournit.

    - La politique tarifaire : si laccs aux donnes fait lobjet dun paiement, il est indispensable que les tarifs pratiqus pour les demandeurs relevant dun organisme public de recherche ou de surveillance ne soient pas incompatibles avec les budgets que les quipes publiques demandeuses sont susceptibles dobtenir pour leurs travaux ; par contre, pour des demandes provenant de structures but lucratif, il est lgitime que les tarifs pratiqus soient tablis de faon correspondre au moins au cot vritable des donnes.

    - La localisation spatiale des personnes : on recommande que les organismes collecteurs de donnes de premier niveau (lhpital, la CPAM, etc.) mettent en place une procdure interne automatise par laquelle l'adresse des personnes serait gocode, convertie en code Iris et transfre sous cette forme dans les bases nationales.

  • Haut Conseil de la sant publique 12

    1 NATURE ET INTERET DES DIFFERENTS TYPES DINFORMATIONS DANS LE CADRE DE SYSTEMES DE SURVEILLANCE, DETUDES ET DE TRAVAUX DE RECHERCHE EN SANTE

    1.1 LES BASES DE DONNEES PUBLIQUES ADMINISTRATIVES ET MEDICO-ADMINISTRATIVES NATIONALES : UNE RICHESSE INSUFFISAMMENT EXPLOITEE

    La France est un des rares pays qui dispose de bases de donnes mdico-sociales et conomiques nationales centralises, constitues et gres par des organismes publics, couvrant de faon exhaustive et permanente lensemble de la population dans divers domaines stratgiques : recours aux soins, hospitalisation, handicaps, prestations et situation professionnelle et sociale. De plus, un identifiant individuel unique (le numro didentification au rpertoire ou NIR) est actuellement utilis (directement ou sous forme anonymise) par pratiquement toutes les bases de donnes nationales, dont la constitution repose sur des activits lies aux missions de ladministration et dorganismes publics. Leur collecte est trs encadre, notamment par le code de la sant publique pour les bases mdico-administratives. Un intrt majeur est quelles sont le plus souvent exhaustives (et donc localises) et produites rgulirement, le plus souvent sur une base annuelle. Ces bases de donnes prsentent videmment des limites diverses en termes de couverture, de qualit et de validit des donnes, variables selon les types dutilisation quon peut envisager. Ces bases de donnes, concernant plus de 60 millions de personnes, constituent nanmoins un patrimoine immatriel considrable, vraisemblablement sans quivalent au monde. Dautres pays ont su depuis longtemps mettre au service de la sant publique et de la recherche leurs systmes dinformation mdico-sociaux, notamment les pays scandinaves ou le Canada, en crant de vritables Population Data Centers , largement ouverts la communaut scientifique qui permettent de trs nombreuses tudes de grande qualit dans des domaines divers (voir par exemple le centre mis en place la British Columbia University1). On peut, dans ce contexte, signaler l'laboration en cours par l'OCDE d'un document sur l'utilisation secondaire des donnes de sant. Cette demande de l'OCDE fait partie des priorits de travail retenues par les ministres de la sant lors de leur dernire runion d'octobre 2010. Il s'agit de faire un tat des lieux sur les bases de donnes contenant des informations individuelles pour divers champs identifis et pertinents pour l'OCDE (donnes dhospitalisation, de soins de longue dure, de mortalit), de faire le point sur les possibilits d'appariements de ces bases et les pratiques en cours dans les diffrents pays pour les aspects lgaux concernant l'utilisation de ces donnes. Un document de synthse devrait tre produit par l'OCDE en mai 2012. Dans notre pays, les bases de donnes administratives et mdico-administratives nationales sont cependant encore insuffisamment exploites en dehors des organismes qui les constituent et les grent, mme si plus dune centaine de publications rfrences, se rapportant des travaux raliss sur les donnes de remboursement de lassurance maladie, avaient t recenses en juin 20092. Les quipes de recherche les

    1 http://www.popdata.bc.ca/. 2 Martin-Latry K, Bgaud B. Pharmacoepidemiological research using French reimbursement databases: yes we can ! Pharmacoepidemiology and drug safety 2010; 19: 256265.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 13

    utilisent encore trop peu souvent, comme lillustre le fait que lInstitut des donnes de sant (IDS) avait enregistr fin 2010 au total moins de vingt demandes daccs au SNIIR-AM provenant dorganismes publics et privs divers3. En revanche, les agences (InVS, HAS, Afssaps) travaillent dsormais rgulirement sur les donnes de lassurance maladie, tant dans une approche de surveillance sanitaire que de suivi du mdicament (en post inscription, notamment) ou mdico-conomique. Les bases de donnes administratives et mdico-administratives nationales ont un potentiel considrable. Elles rpondent des besoins dinformation trs diversifis de surveillance, dtudes et de recherches, dpassant largement les proccupations de ces organismes, et peuvent rendre de grands services la communaut de sant publique et de recherche. Lutilisation des fins de recherche et de surveillance de ces bases de donnes nationales se heurte actuellement des obstacles divers, dont les plus importants sont de nature juridique et oprationnelle :

    Lidentifiant utilis de faon directe ou crypte par les bases de donnes nationales tant le NIR, linterdiction de fait de le recueillir auprs des personnes ou des organismes qui en disposent limite trs fortement les possibilits daccs aux bases de donnes, qui nest possible que dans certaines circonstances et qui, de plus, ncessite une participation active des gestionnaires de ces bases.

    la mise disposition des donnes la communaut de sant publique et de recherche dans des conditions en permettant lexploitation, ncessite des ressources scientifiques, techniques et organisationnelles complexes et de haut niveau de comptence. Ces ressources dpassent largement les moyens actuellement disponibles au sein des quipes franaises, quel que soit leur organisme dappartenance.

    1.2 LES PRINCIPALES BASES DE DONNEES NATIONALES POUR LA RECHERCHE ET LA SANTE PUBLIQUE

    1.2.1 Donnes de sant

    1.2.1.1 Mortalit Le statut vital et les causes de dcs peuvent actuellement tre obtenus selon la procdure dcrite dans le dcret n 98-37 autorisan t laccs au Rpertoire national d'identification des personnes physiques (RNIPP) et la base de donnes du Centre dpidmiologie des causes de dcs de lInserm (CpiDc). Dans le cadre de cette procdure, le plateau technique informatique du Centre de recherche en pidmiologie et sant des populations (CESP, ex-CRI IFR 69) joue un rle central, du type plateforme pour cette prestation spcifique daccs au statut vital et aux causes de dcs.

    3 Source: http://www.institut-des-donnees-de-sante.fr/.

  • Haut Conseil de la sant publique 14

    1.2.1.2 Donnes dhospitalisation : le PMSI Le PMSI (Programme de mdicalisation du systme dinformation) a pour objectif de produire des informations contenu mdical sur les fonctions hospitalires et de permettre une allocation de ressources dpendante de lactivit hospitalire. Il consiste en un recueil exhaustif systmatique et un traitement automatis dinformations administratives et mdicales. Chaque sjour est ensuite class dans lun des 560 GHM (Groupes homognes de malades), conomiquement et mdicalement considrs comme homognes . Au sein des tablissements hospitaliers, les dpartements dinformation mdicale (DIM) jouent un rle central. Le mdecin responsable de linformation mdicale a un rle de conseil pour la production des informations et il veille leur qualit. Les donnes recueillies sont soumises au secret mdical et sont sous la responsabilit du mdecin responsable du DIM. Les tablissements transmettent trimestriellement les fichiers anonymiss lAgence rgionale de sant (ARS), et celles-ci les transmettent lAgence technique de linformation sur lhospitalisation (ATIH) en vue de la constitution des bases de donnes nationales. Cette transmission se fait sous la forme de rsums de sortie anonymiss (RSA), qui contiennent les informations suivantes :

    Identification du sjour : modes dentre et de sortie de ltablissement nombre dunits mdicales frquentes mois et anne de sortie - dure de sjour de la totalit de lhospitalisation numro Finess de ltablissement. Identification du patient : sexe - ge en anne ou en jours pour les enfants de moins dun an - numro danonymat, construit par lanonymisation irrversible du NIR, de la date de naissance et du sexe du patient. Donnes mdicales : poids de naissance - diagnostic principal et ensemble des diagnostics associs et des actes pratiqus. Les diagnostics sont cods selon la CIM 10. Depuis 2005, la Classification commune des actes mdicaux (CCAM), qui harmonise la codification des actes entre mdecine de ville et mdecine hospitalire, est utilise pour le PMSI.

    1.2.1.3 Les donnes de lassurance maladie chelon loco-rgional du rgime gnral de scurit sociale

    Parmi les donnes enregistres par les systmes dinformation de lassurance maladie du rgime gnral de scurit sociale (RGSS), on distingue les donnes dites de production , portant principalement sur les consommations de soins, et dont lobjectif premier est la liquidation des prestations dassurance maladie, et les donnes de rfrentiels , qui concernent les informations sur les assurs, les tablissements de sant et les professionnels de sant. Par ailleurs, les services mdicaux des caisses primaires dassurance maladie (CPAM) disposent de leurs propres fichiers comportant des informations mdicales sur les affections de longue dure (ALD), les accidents du travail (AT) et les maladies professionnelles (MP), et dont lobjectif initial est le contrle, par les mdecins conseil, des pathologies ouvrant droit une prestation.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 15

    Toutes ces donnes sont rassembles au niveau des Centres de traitement informatique rgionaux (CTI), qui jouent ainsi un rle central dans la gestion des donnes de lassurance maladie. Il existe plusieurs CTI en France, chacun rassemblant les donnes dun groupe de CPAM. Une validation des donnes est faite ce niveau. Ces donnes sont regroupes au sein de deux bases principales : ERASME (donnes de production essentiellement) et HIPPOCRATE (donnes mdicales). La base ERASME (Extraction recherches analyses pour un suivi mdico-

    conomique) enregistre les consommations de soins et consommables pharmaceutiques de faon prcise (mdicaments, actes de biologie) des personnes affilies au rgime gnral et aux sections locales mutualistes (SLM), incluant lidentification des professionnels de sant (prescripteurs et excutants) et des tablissements sanitaires et sociaux prestataires de soins. ERASME est gre au niveau des CTI. Il ne sagit pas dune base anonyme, les bnficiaires tant identifis par le NIR de lassur, leur date et leur rang de naissance ; elle contient par ailleurs les nom, prnom, date de naissance, sexe, adresse et qualit des bnficiaires (assur, ayant droit conjoint ou enfant).

    La base HIPPOCRATE constitue le systme dinformation du service mdical de lassurance maladie ; elle est hberge et administre par les CTI. Elle enregistre les donnes mdicales (diagnostics cods en CIM-10) des patients en ALD, AT et MP. Les ALD, qui concernent les affections susceptibles d'ouvrir droit une exonration du ticket modrateur, sont dun intrt particulier pour lpidmiologie. Il sagit des affections de la liste ALD 30 (affections comportant un traitement prolong et une thrapeutique particulirement coteuse, inscrites sur une liste tablie par dcret) ; des affections dites hors liste (maladies graves de forme volutive ou invalidante, non inscrites sur la liste des ALD 30, comportant un traitement prolong dune dure prvisible suprieure six mois et une thrapeutique particulirement coteuse) ; des polypathologies (patient atteint de plusieurs affections caractrises entranant un tat pathologique invalidant et ncessitant des soins continus dune dure prvisible suprieure six mois). Les mdecins de lchelon local ont accs lidentit des patients (nom, prnom, adresse) ; les mdecins de lchelon rgional nont quune version de la base o les patients sont identifis par un numro danonymat.

    Les donnes de lassurance maladie Autres rgimes Les autres rgimes dassurance maladie ont des bases de donnes qui contiennent pour lessentiel des donnes de mme nature que le RGSS.

    Le Systme national dinformation inter-rgimes de lassurance maladie Lensemble des bases de donnes concernant les vnements de sant est runi au sein du Systme national dinformation inter-rgimes de lassurance maladie (SNIIR-AM). Depuis sa cration et la constitution en 2003 dun entrept, limit aux remboursements du rgime gnral, le SNIIR-AM sest considrablement enrichi et laccs ses donnes a t facilit avec la mise en place, en 2005, dun chantillon au 1/100 ddi aux institutions publiques, aux agences et au monde de la recherche

  • Haut Conseil de la sant publique 16

    (EGB : cf. ci-dessous). Lenrichissement du SNIIR-AM sest traduit par la mise disposition des utilisateurs :

    du chanage en routine des donnes ambulatoires et du PMSI (en 2007), de lexhaustivit de lactivit mdicale (actes techniques) code (en 2007), de lactivit externe des hpitaux publics (en 2009), des dates de dcs provenant de lInsee (en 2009), des mdicaments et dispositifs mdicaux facturs en sus des forfaits

    dhospitalisation (en 2009), des donnes provenant de lensemble des rgimes dassurance maladie (en

    2009), des dates exactes dhospitalisation (en 2010).

    Les donnes du SNIIR-AM incluent donc depuis 2009 tous les rgimes de lassurance maladie : Cnam-TS, MSA, RSI et les seize autres rgimes spciaux (y compris les sections locales mutualistes-SLM) et concernent aussi bien la mdecine de ville que les hospitalisations. Les objectifs du SNIIR-AM sont la connaissance des dpenses de lensemble des rgimes de lassurance maladie, le retour de ces informations auprs des professionnels de sant (informations pertinentes relatives leur activit, leurs recettes, et sil y a lieu, leurs prescriptions), la dfinition, le suivi et lvaluation des politiques de sant publique (loi de sant publique du 13 aot 2004). Le SNIIR-AM constitue une solution particulirement efficace pour laccs des donnes individuelles, en vitant le passage par les chelons locaux et rgionaux des diffrents rgimes qui rendent complexes et lourdes les procdures daccs. La base SNIIR-AM est en effet alimente par les fichiers des bases de donnes cites ci-dessus ; elle est gre par le Centre national de traitement informatique (Centi) de la Cnam-TS. Le SNIIR-AM est une base de donnes individuelles mais anonymes qui rassemble les donnes dcrites plus haut : les donnes de remboursement avec le dtail du codage des actes et des mdicaments ; les identifiants des professionnels de sant et des tablissements de sant qui ont particip aux soins du patient ; les informations sur la pathologie traite pour les patients en ALD et en AT-MP ; les donnes issues du PMSI. Pour les prestations concernes, les codes affins sont disponibles (mdicament, LPP4, CCAM5, GHS6, biologie). Lanonymisation des variables identifiantes est ralise par le module FOIN (Fonction doccultation des informations nominatives). Cette fonction repose sur le NIR de louvrant droit, la date de naissance et le sexe du bnficiaire ; pour les ayants droit (enfants, conjoints ne travaillant pas), la Cnam-TS gre pour ses affilis un fichier intitul Rfrentiel individus (RFI) qui permet de retrouver le NIR de louvrant droit et ainsi de calculer leurs propres identifiants FOIN en introduisant la date de naissance et le sexe du bnficiaire7. Les donnes sont

    4 Liste des produits et prestations. 5 Classification commune des actes mdicaux. 6 Groupe homogne de sjours. 7 Des systmes quivalents existent pour les autres rgimes obligatoires et les SLM (Sections locales mutualistes).

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 17

    anonymises en deux tapes : au niveau locorgional (FOIN-1), et au niveau national (FOIN-2). Lapplication des algorithmes FOIN construit un identifiant anonyme non rversible : partir dun identifiant, on ne peut pas retrouver les donnes nominatives qui ont servi son calcul. Larchitecture actuelle du SNIIR-AM est compose de plusieurs sous-ensembles : - Lentrept SNIIR-AM, contenant toutes les donnes de remboursement issues

    des diffrents rgimes dassurance maladie obligatoire, sert construire les autres sous-ensembles. Les donnes de cet entrept ne sont pas accessibles. La dure de conservation de ces donnes initialement de deux ans plus lanne en cours, a t porte rcemment trois ans plus lanne en cours.

    - La base DCIR (donnes de consommation inter-rgimes) est une extraction de lentrept SNIIR-AM des donnes du rgime gnral, de la MSA, du RSI et de quelques rgimes spciaux. Lhistorique des donnes est le mme que lentrept SNIIR-AM (deux ans plus lanne en cours), mais tous les organismes qui alimentent lentrept SNIIR-AM nutilisant pas le mme niveau de norme, le DCIR ne couvre pas le mme primtre que lentrept SNIIR-AM. Les donnes du DCIR sont dtailles par bnficiaire (identifiants anonymes) et par offreur de soins (prescripteur et excutant, identifiant en clair pour lassurance maladie obligatoire). Par construction, le DCIR concerne les bnficiaires ayant consomm des soins au cours de la priode couverte.

    - LEGB (chantillon gnraliste des bnficiaires) permet de suivre lvolution de la consommation de soins de 600 000 personnes (identifiants anonymes) sur vingt ans slectionns partir dune clef de tirage. Il est ce jour aliment par les donnes du rgime gnral (hors SLM), de la MSA et du RSI. Il devrait prochainement contenir des donnes des autres rgimes dassurance maladie et des SLM. Il contient les mmes donnes que celles du DCIR, mais il sagit la diffrence de ce dernier dun chantillon de bnficiaires.

    - Les Datamarts (magasins de donnes) contiennent, la diffrence du DCIR et de lEGB, des donnes agrges rpondant des besoins mtiers , par exemple : cliniques prives, offre de soins.

    - Les donnes du PMSI (dtailles, exhaustives et anonymises) sont accessibles aux utilisateurs ayant accs la base DCIR. Lidentifiant anonyme (NIR anonymis) des patients est commun la base DCIR et au PMSI, ce qui autorise le chanage par les utilisateurs au cas par cas des donnes issues de ces deux bases. Le chanage des donnes issues de lEGB et du PMSI pourra tre ralis et les utilisateurs accderont donc des donnes dj chanes.

    Le SNIIR-AM, qui est un dispositif relativement rcent (constitu en 2003), est complt et amlior rgulirement : le chanage ville-hpital a t ralis en 2006/2007, les dates de dcs ont t intgres en 2009, les dates prcises dhospitalisation en 2010. Concernant lenrichissement par les causes de dcs, une tude exprimentale nationale (Projet Amphi : analyse de la mortalit post-hospitalisation) est en cours (cf. plus loin).

  • Haut Conseil de la sant publique 18

    1.2.1.4 Intrt et limites des bases de donnes de lassurance maladie Bien quelles ninforment videmment pas sur de nombreuses donnes personnelles et environnementales pouvant tre indispensables pour la recherche et la surveillance (comportements, expositions des facteurs de risque de nature diverse, etc.), les bases de donnes du PMSI et de lassurance maladie ont lvidence un intrt majeur. Elles prsentent cependant certaines limites : - Elles ne contiennent aucune donne concernant la situation socioprofessionnelle

    des personnes (en dehors de la notion de CMUC), seuls le sexe, lge et lorganisme de scurit sociale de rattachement tant enregistrs.

    - Les informations sur le domicile des patients ne sont pas suffisamment prcises pour permettre une exploitation territorialise une chelle fine. Le code postal parfois utilis pose problme, le code commune tant toujours prfrable. De plus, disposer dune golocalisation plus fine permettant de produire lIris ou des donnes carroyes (cest--dire selon un quadrillage fin, par exemple de 200 mtres de ct), serait particulirement utiles pour les tudes sur les ingalits territoriales de sant et sur la sant environnementale.

    - Elles ne contiennent pas de rsultat dexamen clinique ou paraclinique. - Elles ne contiennent pas dinformation sur lhbergement en structure mdico-

    sociale des personnes ges ou sur les hospitalisations en long sjour (situation en voie damlioration).

    - Elles ne contiennent pas dinformation mdicale sur les sjours en centre hospitalier spcialis (psychiatrie).

    - Le PMSI ne contient pas dinformation sur les passages aux urgences ; cependant, la DGOS envisage de gnraliser la remonte dinformations sur les passages aux urgences (Rsums de passage aux urgences-RPU) dj mise en place pour environ 350 tablissements et de les intgrer au PMSI en utilisant le mme numro danonymat individuel.

    - La validit des donnes de sant de ces bases est de qualit variable. Bien que lensemble des bases de donnes cites nait pas fait lobjet danalyses systmatiques de validit, quelques tudes plus ou moins ponctuelles ont port sur les donnes issues des diffrents fichiers. Lutilisation du PMSI comme source dinformation sur les pathologies savre dlicate et les diagnostics ne sont pas toujours fiables8,9. Les ALD ont des limites connues10 et la qualit du codage des pathologies est encore mal connue. Des travaux rcents concernant les cancers mens avec la collaboration des registres du cancer montrent que, utiliss isolment, ni le PMSI ni les ALD ne permettent davoir une bonne

    8 Couris CM, Fort Dodelin C, Rabilloud M, Colin C, Bobin JY, Dargent D, Raudran D, Schott AM. Sensibilit et spcificit de deux mthodes didentification des cancers du sein incidents dans les services spcialiss partir des donnes mdico-administratives. Rev Epidemiol Sante Publique 2004, 52, 151-60. 9 Couris CM et al. Method of correction to assess the number of hospitalized incident breast cancer cases based on claims databases. Journal of Clinical Epidemiology, 2002, 55 : 386-391. 10 Incidence mdico-sociale des ALD30 en 1999. CNAMTS-DSM-Mission des Soins de ville-Mission Statistique. Avril 2004. Disponible sur le site www.ameli.fr/245/doc/1391/article_pdf.html.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 19

    estimation de lincidence et de la prvalence, mais que leur utilisation conjointe peut tre efficace11. La base de donnes de remboursements de lassurance maladie est adapte aux objectifs danalyse des pratiques de prescription12, dvaluation de limpact de campagne dinformation13. Par contre, elle ne comporte pas dinformation directe sur la nature des maladies traites et exclut par dfinition lautomdication et les prestations non prsentes au remboursement.

    Lintrt potentiel des bases de donnes du SNIIR-AM apparat clairement dans la mesure o elles fournissent des donnes individuelles mdicalises, structures et codes de manire standardise14. Leur utilisation, notamment dans une optique pidmiologique, ncessite cependant un important travail mthodologique, de contrle et de validation. 1.2.2 Situation socioprofessionnelle

    1.2.2.1 Les bases de donnes Les bases de donnes de la Caisse nationale dassurance vieillesse (Cnav) sont un lment essentiel, la fois pour laccs aux donnes socioprofessionnelles et pour le traage des sujets. Le rle de cet organisme est notamment d'assurer le droit au paiement de la retraite pour toute personne ayant appartenu durant sa vie au moins une fois au rgime gnral de scurit sociale. Pour cela, la Cnav a mis un place un systme permettant de collecter et traiter les donnes sociales issues de diffrents organismes tels que les rgimes de retraite, Ple Emploi (aux niveaux national, rgional et local). La Cnav exerce la mission de collecte, de contrle et de traitement de donnes sociales utiles pour les droits la retraite pour certains de ces partenaires, chacun d'entre eux tant ensuite rendu destinataire des informations qui le concernent. Pour remplir son rle, la Cnav a mis en place et gre plusieurs bases de donnes, quon prsente succinctement, ainsi que lorigine des donnes qui les alimentent. Le SNGI (Systme national de gestion des identits) qui contient l'ensemble des

    donnes (NIR, tat-civil, statut vital) pour toute personne ne en France mtropolitaine ou dans les DOM, ainsi que les donnes d'identification des personnes nes l'tranger ou dans les TOM et rsidant ou ayant rsid sur le territoire franais ; il a pour finalit de certifier l'identit d'une personne. L'Insee a en charge l'immatriculation de toute personne ne en France mtropolitaine ou dans les DOM ; ces informations sont contenues dans le RNIPP. Il incombe la Cnav depuis 1988, dans le cadre de sa mission dlgue par lInsee, de procder limmatriculation des ayants droit ns ltranger ou dans les TOM et rsidant sur le

    11 Grosclaude et al et Lauzeille et al, BEH 2012 ( paratre). 12 Deprez Ph-H, Chinaud F, Clech S, Germanaud J, Weill A, Cornille JL, Fender P. La population traite par mdicaments de la classe des antihistaminiques en France mtropolitaine : donnes du rgime gnral de lassurance maladie, 2000. Revue mdicale de lassurance maladie Avril-juin 2004, 35 (1), 3-11. 13 Lecadet J, Vialaret K, Vidal P, Baris B, Fender P. Mesure lchelle dune rgion des effets dun programme national dinformation sur le bon usage des antibiotiques. Revue mdicale de lassurance maladie Avril-Juin 2004, 35 (2) ,81-91. 14 Fender P, Weill A. Epidmiologie, sant publique et bases de donnes mdico-tarifaire. (ditorial) Rev Epidemiol Sant Publique, 2004, 52,113-117.

  • Haut Conseil de la sant publique 20

    territoire franais. Le SNGI contient l'ensemble de des lments d'identification des personnes (NIR, nom de famille15, nom dusage, nom marital, prnom(s), sexe, date et lieu de naissance, date et lieu de dcs, ventuellement numros d'acte de naissance et d'actes de dcs et, pour les personnes nes ltranger ou dans les COM, les lments de filiation), soit reus de l'Insee, soit intgrs par la Cnav elle-mme. LInsee et la Cnav se transmettent mutuellement les notifications (immatriculations et mises jour) apportes leur champ respectif, ceci afin que le SNGI et le RNIPP soient synchrones.16

    Le SNGC (Systme national de gestion des carrires) qui permet de retracer pour chaque individu ds la premire validation dun droit (premier salaire, etc.) et jusqu' la liquidation de ses droits la retraite, ses diffrentes priodes d'activit : priodes d'activit professionnelle ou assimiles (chmage, maladie, maternit ou congs parentaux, ). Le SNGC contient donc l'ensemble des donnes inhrentes la carrire des assurs du rgime Gnral, y compris les donnes concernant d'ventuelles priodes effectues dans les autres rgimes de base (MSA, Cancava, Organic), ainsi que dans les rgimes particuliers ou spciaux (SNCF, EDF-GDF, CNRACL, Mines, etc.).

    Le SNGD (Systme national de gestion des dossiers) de retraites en cours d'instruction ou de paiement).

    Le RNIAM (Rpertoire national inter-rgimes des bnficiaires de l'assurance maladie) est galement mis en uvre par la Cnav pour le compte et sous le contrle des organismes d'assurance maladie ; il est constitu pour chaque bnficiaire, en plus de son NIR et de son tat-civil, des informations de rattachement l'organisme lui servant les prestations d'assurance maladie.

    Pour la constitution et l'enrichissement de ces bases de donnes, la Cnav reoit rgulirement des donnes en provenance de diffrentes sources. Les Dclarations annuelles des donnes sociales (DADS), sont transmises chaque anne par les employeurs ayant un numro Siret. Les Donnes nominatives trimestrielles (DNT) sont transmises par les employeurs de personnel de maison. Les informations de priodes d'activit/non-activit des individus relevant de l'Unedic (chmage), de la Cnam-TS (maladie), de la Cnaf (maternit, ), des rgimes particuliers ou spciaux (SNCF, EDF, RATP,) sont galement transmises la Cnav. Il en est de mme pour certains autres rgimes, et il est prvu qu terme la Cnav reoive les donnes de tous les rgimes. Cependant, les donnes des autres rgimes ne sont actuellement pas toutes connues en temps rel : certaines le sont au moment de la rgularisation de la carrire ; pour dautres rgimes (RSI, par exemple), lalimentation est annuelle pour tous les actifs quel que soit lge. Aprs avoir reu des diffrents organismes gestionnaires des prestations sociales les informations relatives l'activit des individus, la Cnav procde des oprations de consolidation : validation des donnes ; envoi chaque partenaire (Insee, services fiscaux,) des donnes le concernant ; recodage et intgration dans le SNGC de la

    15 Sur lapplication SNGI, apparat, la place du terme nom de famille , le terme nom officiel . Il semble quil sagisse de la mme chose. 16 Le SNGI est plus large que le RNIPP, car il donne des informations de rattachement (mutation vieillesse, RNIAM).

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 21

    partie des donnes ncessaires pour le traitement des retraites ; destruction des donnes initialement transmises par les diffrents organismes gestionnaires des prestations sociales.

    1.2.2.2 Intrt et limites Les principales caractristiques des donnes issues de la Cnav sont leur exhaustivit et leur qualit : pour des raisons videntes (elles servent de base au calcul des retraites), ces donnes sont compltes et particulirement bien valides, notamment pour les priodes les plus rcentes, et leur qualit (compltude et exactitude) samliore rgulirement au fil des annes avec linformatisation du recueil la source. Les bases de donnes de la Cnav peuvent grandement faciliter des oprations particulirement lourdes et complexes, dont les rsultats sont souvent mdiocres, et qui sont courantes dans de nombreuses tudes. Pour lessentiel, ces oprations concernent : Le suivi et le traage des sujets : tous les pisodes socioprofessionnels de la

    quasi-totalit des personnes vivant en France sont enregistrs de faon rgulire et dtaille ; seules les personnes trs dsocialises et ne bnficiant daucun salaire et daucune prestation sociale chappent cet enregistrement. Il est donc thoriquement possible de suivre les personnes incluses dans un protocole longitudinal de cohorte tout au long de leur vie et de minimiser ainsi les perdus de vue.

    Laccs aux donnes socioprofessionnelles : certains domaines de la recherche et de la surveillance, notamment lpidmiologie sociale et lpidmiologie des risques professionnels, sintressent particulirement au statut social et professionnel et son volution dans le temps. Les donnes enregistres dans les bases de la Cnav sont particulirement riches de ce point de vue, dune trs bonne qualit, et susceptibles dintresser diffrentes quipes, aussi bien pour slectionner des sujets inclure dans des tudes sur des critres socioprofessionnels, que pour avoir accs aux donnes socioprofessionnelles les concernant tout au long de suivis de longue dure.

    Les principales limites des bases de la Cnav dans loptique dune utilisation pour la recherche et la surveillance en sant publique sont limprcision des donnes concernant la catgorie socioprofessionnelle (souvent donne sur les deux premiers chiffres seulement) et le fait quelles sont parfois manquantes. 1.2.3 Autres bases de donnes pertinentes Outre les trois dispositifs cits, dautres bases de donnes nationales et dun grand intrt potentiel pour la recherche et la surveillance sont actuellement en construction et viendront prochainement enrichir le dispositif national, comme celle des mutuelles (Systme national des donnes mutualistes). Ces sources peuvent tre qualifies de gnralistes . Il existe galement des bases de donnes plus spcifiques, enregistrant de faon exhaustive les personnes prsentant une caractristique de sant particulire. Certaines couvrent la totalit de la population franaise, dautres un territoire plus restreint (dpartement ou rgion).

  • Haut Conseil de la sant publique 22

    Sans chercher tre exhaustif, on peut citer parmi les bases de donnes ayant un intrt pour la sant publique :

    Les registres de maladie : registres des cancers, des maladies rares, des malformations congnitales, des cardiopathies ischmiques, des accidents vasculaires crbraux.

    REIN (Rseau pidmiologie et information en nphrologie), qui enregistre les patients en insuffisance rnale chronique traite par un traitement de supplance.

    Les certificats de sant de lenfant, en particulier du 8e jour ; celui du 24e mois est aussi intressant, car il permet de disposer des informations concernant la vaccination.

    Le systme d'information de ltablissement franais du sang (EFS) qui enregistre les donneurs et les produits reus par des patients.

    Cancer : des fiches standardises de compte-rendu anatomopathologique (CRFS) ont t labores par lINCa et la Socit franaise de pathologie (SFP) pour la plupart des localisations de cancer. Ces CRFS devraient alimenter le dossier communicant de cancrologie (DCC), service du dossier mdical personnel (DMP), expriment dans sept rgions ; la mise en place du DCC sur lensemble du territoire est prvue avant la fin 2013. Le schma gnral de ce systme prvoit la constitution dun entrept de donnes vise pidmiologique, mais les conditions de mise en uvre de celui-ci ne sont pas arrtes.

    Reproduction : lAgence de la biomdecine gre le registre national des tentatives de FIV (fcondation in vitro), ainsi que le registre national des IMG (interruptions mdicales de grossesse).

    Handicap : la Caisse nationale de solidarit pour l'autonomie des personnes ges et des personnes handicapes (CNSA) met actuellement en place le SipaPH (Systme dInformation partag pour lautonomie des personnes handicapes) destin permettre la mise disposition de donnes aidant au pilotage des politiques en faveur des personnes en situation de handicap. Il est actuellement en phase de mise en place dans les maisons dpartementales du handicap, et linformatisation des dossiers est aussi en train de dbuter.

    L'chantillon dmographique permanent (EDP), cr en 1967. Il correspond peu prs un sondage au 100e de la population (4 jours de naissance) ; depuis 2006, son effectif a t quadrupl (16 jours de naissance). Pour chaque personne incluse, il contient des informations issues des bulletins d'tat-civil de naissance, de mariage, de reconnaissance et de dcs depuis 1968, ainsi que des recensements de 1968, 1975, 1982, 1990 et 1999. Les sujets dcds pour lesquels un bulletin de dcs a t reu par l'Insee sont conservs dans l'EDP. Par sa taille, l'chantillon dmographique permanent permet des analyses fines qui peuvent notamment prendre en compte les effets de gnration et des diffrenciations selon les qualifications, l'origine...

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 23

    La base des prestations sociales de la Caisse nationale dallocations familiales pour la population gnrale et la Caisse centrale de la mutualit sociale agricole avec des donnes identiques.

    Donnes de ladministration fiscale concernant les revenus, qui peuvent beaucoup apporter aux travaux sur les dterminants sociaux de la sant et ltude des ingalits sociales de sant.

    1.3 QUELQUES EXEMPLES DUTILISATION POSSIBLE DES BASES DE DONNEES ADMINISTRATIVES ET MEDICO-ADMINISTRATIVES NATIONALES POUR LA RECHERCHE ET LA SURVEILLANCE

    Il est clair que les bases de donnes administratives et mdico-administratives nationales ne peuvent tre une panace qui rsoudrait toutes les difficults rencontres par les investigateurs, mais elles pourront apporter une aide importante. Ceci est particulirement vrai pour les tudes et recherches de grande dimension et de longue dure, comme les tudes de cohorte qui vont continuer de se dvelopper dans beaucoup de domaines, notamment en pidmiologie, o leffectif envisag de certaines cohortes ne se compte plus en dizaines, mais en centaines de milliers de sujets, une envergure comparable ce qui existe dans plusieurs pays17. Les trs grandes tudes cas-tmoins en population gnrale, les systmes de surveillance pidmiologique, les tudes concernant le recours aux soins, etc. peuvent bnficier de ces bases de donnes. De plus, dans le domaine de la surveillance, la rapidit de la remonte des informations dans le SNIIR-AM, qui semble dailleurs en constante amlioration, en fait un outil spcifique pouvant contribuer, outre la surveillance au long cours , la surveillance et les investigations moyen et court termes, comme le suivi dpidmies, linvestigation de clusters, la surveillance autour dune catastrophe environnementale. Sa disponibilit devrait tre un atout pour rpondre aux fortes contraintes de temps inhrentes aux missions de surveillance des agences sanitaires. Il est videmment impossible dimaginer toutes les utilisations possibles de bases de donnes aussi riches en informations et couvrant des domaines aussi diffrents que les grandes bases nationales mdicales et socioconomiques. Cependant, afin dillustrer lapport potentiel dune large ouverture de ces bases des utilisateurs diversifis, on peut voquer quelques utilisations typiques, ayant dj fait lobjet dexprimentations ou qui sont en prparation. 1.3.1 Utilisation de chaque base de donnes indpendamment des autres Les bases de donnes mdico-sociales existantes couvrent de faon large des domaines spcifiques. Mme si, comme on la vu, elles prsentent certaines limites de nature diverse, de nombreuses utilisations relevant de la recherche, de la surveillance ou des tudes peuvent bnficier de laccs indpendant lune ou lautre de ces bases.

    17 Voir par exemple le site : http://www.p3gobservatory.org/studylist.htm.

  • Haut Conseil de la sant publique 24

    1.3.1.1 Analyse de donnes contenues dans chaque base Depuis longtemps, les donnes de lassurance maladie sont utilises des fins descriptives, pour estimer la frquence de divers paramtres dintrt concernant les consommations de soins et la sant, malgr diverses limites concernant la qualit des donnes. La mise en place du SNIIR-AM, qui permet de combiner, pour les mmes sujets, donnes de lassurance maladie et donnes dhospitalisation, et lintroduction du chanage des donnes individuelles dans le PMSI ont permis damliorer trs nettement la qualit des estimations, notamment grce des travaux dveloppant des algorithmes destins identifier avec une bonne validit des pathologies spcifiques. On voit ainsi depuis peu des travaux prsentant des estimations de la prvalence et/ou de lincidence de certains cancers partir des donnes du PMSI18 au moyen dalgorithmes combinant diagnostics et actes techniques, ou des rsultats concernant la maladie de Parkinson ou lasthme partir des donnes dALD et de consommations de certains mdicaments19. Dans le domaine de la pharmacopidmiologie, il est possible de runir des chantillons deffectif important de sujets correspondants un ou plusieurs critres dintrt ; qui plus est, il est possible de suivre les sujets slectionns de faon longitudinale. Un exemple rcent et largement mdiatis est celui de ltude du risque de valvulopathies cardiaques chez les patients diabtiques utilisateurs de benfluorex (Mdiator). Une cohorte exhaustive des diabtiques affilis au rgime gnral, gs de 40 69 ans et ayant prsent au moins trois remboursements dantidiabtiques oraux et/ou dinsuline des dates diffrentes a t constitue partir du SNIIR-AM ; plus dun million de sujets a ainsi t inclus, et des comparaisons entre exposs (consommation de benfluorex en 2006) et non-exposs (aucune consommation de benfluorex en 2006, 2007 ou 2008) ont port sur les hospitalisations pour insuffisance mitrale ou aortique ou chirurgie de remplacement valvulaire pour insuffisance valvulaire survenus en 2006 ou 2007 recherches dans le PMSI20. Au-del de ce travail particulirement dmonstratif de lintrt du SNIIR-AM, il est clair que de trs nombreuses tudes de pharmacopidmiologie et de suivi post-AMM peuvent tre ralises uniquement partir de cette base. Ceci est particulirement vrai dans le cas de ltude de situations peu frquentes, comme des maladies rares, ou des traitements trs spcifiques, qui peuvent ncessiter ltude de la totalit des sujets concerns : dans de tels cas, le recours au SNIIR-AM est la seule mthode possible. Dune faon plus gnrale, face aux difficults oprationnelles dun suivi dtaill des patients bnficiaires de traitements spcifiques en termes de consommations de soins et dvnements de sant, il faut souligner quil existe une forte demande de lAfssaps, de la HAS et du ministre charg de la sant pour ce type dutilisation du SNIIR-AM, notamment pour les tudes de suivi post-AMM.

    18 Couris et al. Breast cancer incidence using administrative data: correction with sensitivity and specificity. J Clin Epidemiol. 2009;62:660-6. 19 Moisan F et al. Prediction model of Parkinson's disease based on antiparkinsonian drug claims. Am J Epidemiol 2011; 174:354-363. Iwatsubo Y et al. Prediction model of asthma using antiasthma drug claims for epidemiological surveillance of asthma in self-employed workers in France. EPICOH Conference, Oxford, 7-9 September 2011. 20

    Weill A, Pata M, Tuppin P, Fagot JP, Neumann A, Simon D, Ricordeau P, Montastruc JL, Allemand H.Benfluorex and valvular heart disease: a cohort study of a million people with diabetes mellitus. Pharmacoepidemiol Drug Saf. 2010;19:1256-62.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 25

    Un autre domaine dutilisation des donnes du SNIIR-AM est ltude de phnomnes territoriaux, notamment ce qui concerne les ingalits territoriales de soins de sant, mais aussi dans le domaine environnemental. Les tudes lchelle dun territoire limit peuvent en effet runir la totalit des personnes qui y habitent. La couverture nationale exhaustive de la population permet des tudes de comparaison entre zones gographiques, mme de petite taille ou de faible population. Lanalyse du recours aux soins peut bnficier de donnes concernant des chantillons ou la totalit des patients qui sont traits pour une pathologie donne, qui consultent tel type de professionnel ou qui utilisent tel mdicament ou dispositif mdical ; de plus, ces analyses peuvent tre transversales ou longitudinales, permettant ainsi dtudier des filires et des parcours de soins ou limpact dexpositions environnementales. titre dexemple dans le domaine environnemental, une tude de lInVS sur les gastro-entrites dorigine hydrique montre que les donnes du SNIIR-AM peuvent contribuer au reprage de secteurs vulnrables quant la qualit de leurs ressources en eau21. Dans le domaine de la surveillance autour des catastrophes, les donnes locales de lassurance maladie ont t mobilises pour suivre limpact de la catastrophe dAZF ; une tude est actuellement en cours sur les donnes du SNIIR-AM afin dvaluer limpact de la tempte Xinthia sur la consommation de psychotropes. Il faut cependant souligner que si ladresse des personnes figure dans les bases de lassurance maladie lchelle locorgionale, linformation disponible dans le SNIIR-AM se limite la commune de rsidence du bnficiaire ; on peut galement disposer de la commune dexercice des professionnels de sant (prescripteur, pharmacie). Dans un domaine diffrent, les bases de donnes de la Cnav peuvent apporter une aide majeure pour ltude de phnomnes socioconomiques intressant au premier chef lpidmiologie sociale ou lpidmiologie des risques professionnels. Ainsi, le Dpartement sant travail de lInVS discute actuellement avec la Cnav de la reconstitution de cohortes industrielles constitues de salaris ayant travaill dans certaines entreprises des fins danalyse de clusters et, plus gnralement, de mise en place de systmes de surveillance des risques professionnels.

    1.3.1.2 Enrichissement denqutes avec recueil de donnes auprs des personnes Ds 2006, le Cnis a soulign la complmentarit entre sources administratives et donnes denqutes22. Lappariement de donnes administratives avec donnes denqute sest dvelopp ces dix dernires annes23 mais reste encore relativement rare.

    Depuis plusieurs annes, lInsee et lensemble du systme statistique public se sont engags dans un mouvement croissant de recours aux sources administratives et mdico-administratives. Dans cette perspective, il a t dcid de complter le dispositif des enqutes Handicap-Sant (HSM) 2008 et 2009 en les appariant pour la premire fois avec les donnes de remboursements de lassurance maladie (SNIIR-AM). Parmi

    21 Utilisation des donnes de lassurance maladie pour valuer limpact sanitaire dune pidmie de gastro-entrites d'origine hydrique, Bourg-Saint-Maurice (Arc 1800), 2006. BEH 31, 6 septembre 2011. 22 Cnis (2006), Chroniques n 5, Enqutes statistiq ues et sources administratives : une complmentarit exploiter. 23 Gensbittel M.-H., Riandey B., Appariements scuriss et statistiques (2000-2011) : Une dcennie dexpriences. Courrier des statistiques n131 Septembre 2011.

  • Haut Conseil de la sant publique 26

    les avantages, on peut citer lintrt pratique, lappariement permettant notamment de rduire le temps denqute et dallger la charge de rponse pour les enquts, ainsi que lamlioration de la qualit des tudes par le recueil de donnes sans biais de mmoire ou de biais de dsirabilit sociale comme cela peut tre le cas pour les enqutes en face--face, par tlphone ou par auto-questionnaire. Cette base de donnes issue de lappariement HSM-SNIIR-AM a permis de dvelopper des travaux originaux, en particulier un chiffrage des dpenses de sant des personnes ges dpendantes dans le cadre de la prparation de la rforme de la dpendance. Le parcours de lappariement sest cependant avr trs lourd et complexe, car si les sources administratives et mdico-administratives prsentent lincomparable avantage dtre dj disponibles, les utiliser peut poser dimportantes difficults24. Le suivi de cohortes pidmiologiques longitudinales peut galement bnficier de lenrichissement des donnes recueillies directement auprs des sujets par des donnes de consommation de soins et dhospitalisation dans les bases de donnes de sant. Un exemple est celui de ltude Entred (chantillon national tmoin reprsentatif des personnes diabtiques) coordonne par lInVS, qui sintresse la qualit de prise en charge mdicale des diabtiques, lvolution du contrle des facteurs de risque vasculaire et de la frquence des complications chez les personnes diabtiques. Deux cohortes reprsentatives denviron 10 000 diabtiques (respectivement constitues en 2001 et 2007), tires au sort dans les bases de lassurance maladie parmi les personnes ayant bnfici dau moins trois remboursements de mdicaments antidiabtiques oraux et/ou dinsuline au cours des douze derniers mois. Entred 2007 a repos sur cinq sources de donnes : 1) un suivi de la consommation de soins (mdicaments, actes mdicaux et biologiques, montants rembourss) pour lensemble de lchantillon tir au sort ; 2) un suivi des hospitalisations de 2006 2009 pour les personnes nayant pas refus de participer lenqute ; 3) une enqute tlphonique ralise auprs des personnes ; 4) une enqute postale dtaille auprs des personnes ; 5) une enqute postale auprs des mdecins des personnes diabtiques25. Dautres projets compltant les recueils auprs de personnes par les bases de donnes nationales sont mens en collaboration avec la Cnam-TS. Sans prtendre tre exhaustif, on peut citer lenqute sur la sant et la protection sociale (ESPS) de lIrdes26, la cohorte Record27 (tude des effets du contexte physique et social de rsidence sur la sant cardiovasculaire de lUnit Inserm 707), le projet Cesir28 (tude de linfluence de la consommation de mdicaments et de ltat de sant sur linscurit routire, ralise par lUnit 897 de lInserm) ou les programmes de suivi post-professionnel Amiante Spirale29 (Inserm Unit 1018 et Cnam-TS) et Espri30 (DST-InVS et RSI).

    24 Lappariement Handicap-Sant et donnes de l'assurance maladie : Une source de donnes originale, mais un parcours sem dembches. Alexis Montaut, Lucie Calvet, Grard Bouvier, Lucie Gonzalez. Journes de mthodologie statistique, INSEE. http://jms.insee.fr. 25 http://www.invs.sante.fr/entred/. 26 http://www.irdes.fr/EspaceRecherche/Enquetes/ESPS/index.html. 27 http://www.u707.jussieu.fr/ds3/Recherche.htm. 28 Orriols et al. (2010) Prescription Medicines and the Risk of Road Traffic Crashes: A French Registry-Based Study. PLoS Med 7(11): e1000366. doi:10.1371/journal.pmed.1000366. 29 http://www.spirale.rppc.fr/amiante.html. 30 http://www.invs.sante.fr/surveillance/espri/default.htm.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 27

    Concernant les aspects socioprofessionnels, certains importants projets de recherche et de surveillance pidmiologique rcents sappuient galement largement sur des appariements avec les bases de donnes nationales de la Cnav, comme la cohorte Constances31, qui complte les donnes recueillies auprs des individus et dans le SNIIR-AM par des donnes de situation sociale et de trajectoire professionnelle de faon prospective, ce qui procure un avantage considrable. Enfin, il faut souligner quun des avantages du recours aux bases nationales est quil permet davoir au minimum pour tous les sujets un suivi passif et dviter, ou du moins de limiter fortement, les perdus de vue dans les tudes longitudinales, qui constituent des sources de biais potentiel qui peuvent tre majeurs. 1.3.2 Appariement de bases de donnes entre elles Dans le cadre du projet AMPHI (2010-2013), le CpiDc, en partenariat avec la Drees et la Cnam-TS, ralise lappariement entre causes mdicales de dcs et donnes du SNIIR-AM. Il sagit dune tude exprimentale nationale, portant sur les sjours hospitaliers en court sjour (PMSI-MCO) de 2008-2009 apparis, via le SNIIR-AM, aux donnes mdicales de dcs pour les personnes dcdes dans lanne suivant la sortie (dcs 2008-2010). L'objectif est de dcrire la mortalit hospitalire et post-hospitalire, pour, terme, valuer la faisabilit dindicateurs de mortalit par tablissements reprsentatifs de la qualit des soins. Rappelons que le SNIIR-AM, linstar de pratiquement toutes les sources mdicales, ne contient pas de donnes sur la situation socioprofessionnelle des personnes ; et que, de leur ct, les bases de la Cnav ne contiennent pas de donnes sur la sant (en dehors de donnes concernant certaines prestations sociales occasionnes pour raisons de sant). Dans un contexte de fort dveloppement des recherches en pidmiologie sociale, et o les tudes concernant les ingalits sociales et territoriales de sant, les risques professionnels ou la pnibilit du travail sont particulirement ncessaires pour venir en appui aux politiques publiques en matire de sant et demploi, des appariements lchelle des individus permettant de combiner des donnes en provenance du SNIIR-AM et de la Cnav (voire dautres bases nationales) sont indispensables. Ceci a notamment un intrt particulier pour constituer un systme permanent de surveillance des ingalits de sant comme lont recommand les rapports des groupes de travail sur les ingalits de sant32 et sur les systmes dinformation pour la sant publique33 du HCSP. Quelques projets dappariement de bases de donnes ont dj t raliss ou sont en cours. Ainsi, la base HYGIE gre par lIrdes provient de lchantillon au 1/20e de la population de personnes ges de 22 70 ans en 2005 et ayant cotis au moins une fois au rgime gnral de retraite au cours de leur vie. Il sagit dun panel (cohorte) constitu de donnes issues du SNGC et du systme national statistiques prestataires (SNSP) de la Cnav, et de donnes du SNIIR-AM obtenus par appariement (le taux

    31 http://www.constances.fr/. 32 Haut Conseil de la sant publique. Les ingalits sociales de sant : sortir de la fatalit. Rapport HCSP, dcembre 2009. 33 Haut Conseil de la sant publique. Les systmes dinformation pour la sant publique. Rapport HCSP, dcembre 2009.

  • Haut Conseil de la sant publique 28

    dappariement est de 96,8 %). La base contient lhistorique des salaires et des trimestres valids, consommations mdicales, les ALD, les AT-MP et les arrts de travail (maladie et AT/MP). La population danalyse est denviron 500 000 bnficiaires (actifs et retraits). Parmi les travaux en cours, on peut citer : (i) l'analyse des mcanismes d'arrts de travail des salaris du priv, en lien avec la nature et les spcificits des tablissements qui les emploient ; (ii) la connaissance de l'impact des maladies chroniques psychiatriques sur les parcours professionnels34. Un premier appariement entre les causes mdicales de dcs et lEDP dune part, le panel DADS dautre part a t ralis dans le cadre de la surveillance systmatique de la mortalit par profession et par secteur d'activit en population gnrale (InVS, projet COSMOP). Le projet EDISC (Inserm Unit 1018) a galement ralis diverses analyses sur les ingalits sociales de mortalit partir de lEDP. Le renouvellement intervalle rgulier de ces appariements prsente un grand intrt, et le CpiDc, lInVS et lInserm travaillent actuellement avec lInsee dans ce sens. Le CpiDc35 souhaite pouvoir apparier les causes individuelles de dcs avec les donnes sociales dtenues par la Cnav ; il en est de mme de la Cnam-TS qui souhaite raliser une opration dappariement des sujets inclus dans lchantillon gnraliste des bnficiaires (EGB) avec celles du CpiDc et de la Cnav. Dans un autre domaine, il serait possible de (re)constituer des cohortes de personnes travaillant dans des entreprises dintrt particulier et de les apparier avec des bases de donnes de sant des fins danalyse de clusters de maladies, de surveillance des risques professionnels en gnral ou pour dautres besoins. Ces quelques exemples montrent tout lintrt des appariements entre bases de donnes nationales dont on na pas encore explor le trs riche potentiel. Ainsi, le systme d'information de ltablissement franais du sang (EFS) qui est centr sur les donneurs et les produits reus par des patients pourrait tre appari avec les systmes d'information hospitaliers. En effet, lEFS dispose de donnes sur les produits administrs aux patients et les hpitaux ont l'information sur les patients via le PMSI : lappariement de ces deux sources permettrait de dcrire les utilisateurs de produits sanguins, les contextes mdicaux de la prescription ou leur devenir. L'assurance maladie de son ct na pas non plus de donnes sur ce sujet, puisque les produits sanguins ne sont pas dispenss en ambulatoire. Pourtant, des exemples locaux d'analyse conjointe des diffrentes bases existent, qui montrent lintrt potentiel dappariements des chelles plus larges (projet en cours au CHU de NICE en collaboration avec l'EFS Alpes-Mditerrane).

    34 http://www.irdes.fr/EspaceRecherche/Partenariats/Hygie/Presentation.html 35 Service de lInserm qui gre la base de donns nationale des causes de dcs.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 29

    2 LES PRINCIPALES DIFFICULTES POUR LUTILISATION DES BASES DE DONNEES NATIONALES A DES FINS DE RECHERCHE ET DE SURVEILLANCE

    2.1 OBSTACLES REGLEMENTAIRES ET LEGAUX Le cadre juridique permettant daccder aux donnes caractre personnel des bases nationales est le suivant. Le dispositif lgal et rglementaire concernant la protection des donnes caractre personnel dans le domaine de la sant est encadr notamment par la loi n 78-17 du 6 janvier 1978 mod ifie par la loi du 6 aot 2004 relative linformatique, aux fichiers et aux liberts, le dcret n 2005-1309 du 20 octobre 2005 modifi par le dcret n 2007-451 du 2 5 mars 2007 relatif linformatique, aux fichiers et aux liberts, ainsi que par les articles 226-16 226-21 du code pnal et les articles L.4113-7 et L.4163-9 du code de la sant publique. 2.1.1 Le SNIIR-AM Concernant le SNIIR-AM, larrt du 20 juin 2005 fixe la liste des organismes habilits accder aux donnes. Les organismes de recherche et les agences de sant font partie de cette liste ; par contre, les organismes privs but lucratif en sont exclus.

    2.1.1.1 Cas o on veut extraire des donnes du SNIIR-AM pour des personnes slectionnes uniquement sur leurs caractristiques

    Il sagit de situations o le demandeur veut uniquement extraire des donnes pour des personnes slectionnes selon des critres spcifiques correspondant des variables enregistres dans le SNIIR-AM (ge, sexe, priode, consommation de certains mdicaments, etc.), sans croisement avec dautres sources individuelles de donnes. Dans tous les cas, sagissant de donnes caractre personnel, lautorisation doit tre donne par la Cnil, conformment au rgime d'autorisation rglementaire fix, en fonction des objectifs, soit par la section II du chapitre IV (article 25), soit par le chapitre IX (art. 53 61) ou le chapitre X de la loi du 6 janvier 1978 relative l'informatique, aux fichiers et aux liberts, modifi par la loi n 200 4-801 du 6 aot 2004. Des rgles complmentaires sappliquent selon les caractristiques des donnes demandes, la nature du demandeur et le contexte de ltude :

    Lorsquil sagit de disposer de donnes provenant du SNIIR-AM, un avis de lInstitut des donnes de sant (IDS) est requis avant soumission la Cnil (arrt mentionn larticle L.161-28-1 du code de la scurit sociale).

    Lorsquil sagit de demandes du service statistique public (Insee et services statistiques ministriels), cest le Conseil national de linformation statistique (Cnis) qui doit donner un avis pralable36.

    Prochainement, un nouveau GIP - dont la cration est prvue par la loi relative au renforcement de la scurit sanitaire du mdicament et des produits de sant adopte le 19 dcembre 2011 - pourra galement autoriser laccs au SNIIR-AM : laccs ou lextraction peuvent tre autoriss par un groupement dintrt

    36 Article 8 II 7 de la loi du 6 janvier 1978 re lative l'informatique, aux fichiers et aux liberts.

  • Haut Conseil de la sant publique 30

    public constitu cette fin entre ltat, la Haute Autorit de sant, lAgence nationale de scurit du mdicament et des produits de sant, lInstitut de veille sanitaire et la Caisse nationale dassurance maladie des travailleurs salaris. (article L. 5121-28 du code de la sant publique).

    Cas particulier de lInstitut des donnes de sant (IDS) : larrt mentionn larticle L.161-28-1 du code de la scurit sociale, qui approuve le protocole dfinissant les modalits de gestion et de renseignement du SNIIR-AM, autorise les membres de lIDS37 accder aux datamarts et lEGB. Les membres de membres 38 de lIDS nont accs quaux datamarts, sauf les fdrations dassureurs maladie complmentaires qui ont aussi accs lEGB. Ce mme arrt nautorise laccs la base DCIR quaux rgimes dassurance maladie obligatoire. La ralisation de requtes se fait dans le respect de contraintes fixes par la Cnil (limites dans le croisement de certaines donnes sensibles, pas d'affichage des rsultats d'une requte lorsque le nombre de bnficiaires est infrieur dix) ; la ralisation de requtes dans lEGB se fait dans le respect de contraintes fixes par la Cnil (limites dans le croisement de certaines donnes sensibles).

    2.1.1.2 Cas o lon veut apparier les donnes individuelles du SNIIR-AM avec celles dautres systmes dinformation disposant du NIR

    Dans la mesure o les organismes gestionnaires des bases concernes sont habilits utiliser le NIR, seule lautorisation de la Cnil est ncessaire.

    2.1.1.3 Cas o on veut extraire des donnes pour des personnes pralablement identifies

    Typiquement, il sagit de situations o le demandeur veut enrichir des donnes individuelles recueillies auprs des sujets dune tude, de professionnels de sant ou dautres entits (cohorte, cas-tmoins ou transversale) par des donnes de consommation de soins et dhospitalisation. Sil sagit de donnes caractre personnel ayant pour fin la recherche dans le domaine de la sant, lavis du CCTIRS est ncessaire pralablement la soumission dun dossier la Cnil (chapitre IX de la loi). Pour les tudes ayant obtenu un avis positif du CCTIRS et qui veulent complter le recueil de donnes via le SNIIR-AM, lavis de lIDS doit tre demand, mais lautorisation est automatique, grce un accord entre le CCTIRS, la Cnil et lIDS. Mais pour raliser lappariement entre ces donnes denqutes et les donnes du SNIIR-AM, il faut, soit raliser un appariement indirect (aussi appel probabiliste ; cf. infra), soit dtenir ou se procurer le NIR et lanonymiser selon la mme procdure que celle du SNIIR-AM (FOIN 1 et 2). Or Les traitements de donnes caractre personnel mis en uvre pour le compte de l'tat, d'une personne morale de droit public ou d'une personne morale de droit priv grant un service public, qui portent sur des donnes parmi lesquelles figure le numro d'inscription des personnes au rpertoire

    37 tat, Cnam-TS, CCMSA, RSI, Unocam, Union nationale des professionnels de sant, Union nationale des rgimes spciaux, CNSA, FHF, Fdration des tablissements hospitaliers et dassistance privs, Fdration de lhospitalisation prive, Collectif interassociatif sur la sant, Fdration nationale des centres de lutte contre le cancer. 38 Il sagit des organismes qui sont des membres dorganismes participant directement lIDS.

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 31

    national d'identification des personnes physiques sont autoriss par dcret en conseil dtat aprs avis motiv et publi de la Cnil (article 27 de la loi relative linformatique, aux fichiers et aux liberts). Il faut donc un dcret en conseil dtat pour pouvoir recueillir le NIR des fins dtude pidmiologique ou de surveillance sanitaire. 2.1.2 Les autres bases nationales

    2.1.2.1 Base des causes de dcs du CpiDc Laccs au statut vital et aux causes individuelles de dcs est rglement par le dcret n 98-37 du 16 janvier 1998. Techniquement, laccs au statut vital s'obtient via le Rpertoire national d'identification des personnes physiques (RNIPP, gr par lInsee) partir de l'identit du sujet, son sexe et sa date et lieu de naissance. L'accs aux causes de dcs repose ensuite sur un appariement indirect (probabiliste) bas sur le sexe, les dates et lieux de naissance et de dcs.

    2.1.2.2 Bases de la Cnav Il nexiste pas de textes spcifiques concernant laccs aux bases de la Cnav.

    2.1.2.3 Bases de lInsee Jusqu une date rcente, seul l'Insee tait habilit avoir accs aux donnes sur les personnes quil recueillait ou dont il tait destinataire (en plus des archives nationales). La loi sur les archives de juillet 2008 (ouverture dune possibilit d'accs aux donnes individuelles sur les personnes via le Comit du secret statistique) en rendent l'accs possible, des fins de statistique publique ou de recherche scientifique ou historique, sur dcision de l'administration des archives prise aprs avis du Comit du secret statistique, et sous rserve de laccord de lInsee. Celui-ci a fait savoir quil pourrait donner son accord sous rserve du respect de certains protocoles39 :

    - la rgle gnrale est que des donnes indirectement nominatives (cest--dire ne comportant ni le nom, ni le NIR - mais pouvant comporter un NIR hach) sont accessibles sur un centre daccs scuris distant (CASD) (cf. 2.2.2) ;

    - cependant, les services statistiques ministriels40 peuvent avoir accs ces mmes donnes sur leur propre systme dinformation, condition davoir produit un document prouvant un degr de protection suffisant et une tanchit complte avec les autres systmes dinformation du ministre ; cette note doit tre approuve par le responsable des systmes dinformation de lInsee ;

    - des informations directement nominatives peuvent tre fournies, uniquement pour la ralisation denqutes statistiques, ayant reu le visa du ministre charg de lconomie, et aprs accord formel et explicite du comit de direction de lInsee.

    39 Voir le Guide du secret statistique ladresse : http://insee.fr/fr/insee-statistique-publique/statistique-publique/guide-secret-18-10-2010.pdf. 40 La liste de ces services est annexe au dcret n 2009-205 du 3 mars 2009 relatif lAutorit de l a statistique publique.

  • Haut Conseil de la sant publique 32

    Concernant l'EDP, base particulirement utile pour ltude des ingalits sociales de mortalit, elle est galement couverte par le secret statistique et son accs se fait dans les mmes conditions que les autres donnes couvertes par le secret statistique, cest--dire, en gnral, via le CASD. Alors quil avait t possible de lutiliser dans le cadre des projets COSMOP et EDISC dj cits, les demandes d'accs l'EDP doivent dsormais passer par le Comit du secret statistique et l'accs et le traitement des donnes doivent le plus souvent tre raliss via le CASD. Le CpiDc a ainsi obtenu en 2011 un accord auprs du Comit du secret statistique pour raliser un appariement entre l'EDP et la base des causes de dcs. Ce recours quasi systmatique au CASD implique la vrification des rsultats produits par des statisticiens de l'Insee. Cette mthode de travail s'avre assez contraignante l'usage.

    2.1.2.4 Autres bases notre connaissance, il nexiste pas de textes spcifiques concernant laccs aux diverses autres bases de donnes cites, lexception dune recommandation de la Cnil concernant linformation des patients et les rgles de scurit observer pour protger la confidentialit des donnes41. 2.1.3 Le problme de lidentifiant pour laccs aux donnes caractre personnel

    des bases nationales Dans lensemble, on peut considrer que les textes actuels ne constituent pas un obstacle insurmontable laccs aux donnes caractre personnel des bases nationales. Mais ils rendent complexes les circuits de transmission de donnes, ce qui induit des lourdeurs techniques et des dlais parfois longs pour obtenir les autorisations ncessaires. Globalement, la Cnil, charge dappliquer ces textes et de contrler leur mise en uvre, ne soppose pas laccs aux donnes des bases mdico-administratives pour la sant publique. Lobtention des autorisations ncessite invitablement des dlais indispensables la vrification du respect de la confidentialit des donnes caractre personnel. Mais la complexit et le nombre croissant des projets et des demandes dautorisation associes induisent une charge de travail pour la Cnil qui rend ces dlais souvent imprvisibles et la gestion des projets complexes parfois difficile.

    2.1.3.1 Le NIR Lidentifiant individuel actuellement utilis dans les bases nationales tant le NIR42, le problme majeur est limpossibilit de pouvoir lutiliser dans certaines situations. Il ne sagit pas dune interdiction stricte, mais la procdure dautorisation pour la collecte du NIR (dcret en conseil dtat) constitue dans les faits un obstacle infranchissable pour la plupart des quipes concernes. En pratique, lorsquon souhaite pouvoir extraire des donnes des bases nationales, les situations qui se rencontrent sont les suivantes :

    41 Cnil. Dlibration n 03-053 du 27 novembre 2003 portant adoption d'une recommandation relative aux traitements de donnes caractre personnel mis en uvre par les registres du cancer. 42 On voquera au paragraphe suivant les problmes poss par lIdentifiant national de sant (INS).

  • Pour une meilleure utilisation des bases de donnes nationales pour la sant publique et la recherche/mars 2012 33

    tudes qui ne ncessitent pas dappariement avec dautres donnes recueillies auprs des personnes (cas 3.1.1.1 ci-dessus), comme dans lexemple de ltude Mdiator : il suffit alors dobtenir les autorisations ncessaires, ce qui ne pose pas de problme particulier de nature juridique (uniquement pour les organismes habilits, dans le cas du SNIIR-AM).

    Appariements entre bases de donnes qui disposent chacune du NIR (cas de lappariement de lEGB avec les donnes de la Cnav, par exemple) : il suffit l aussi simplement dobtenir les autorisations ncessaires.

    Appariements entre enqutes individuelles et bases nationales : selon les modalits dinclusion des sujets de lenqute, deux situations peuvent se prsenter :

    o les modalits dinclusion impliquent un organisme qui dispose du NIR (organismes de protection sociale, employeur) : un exemple est celui de la cohorte Constances o linclusion des participants est faite partir dun tirage au sort dans les bases de la Cnav, qui transmet le NIR des sujets slectionns la Cnam-TS, qui peut donc appliquer les algorithmes FOIN pour extraire les donnes individuelles du SNIIR-AM et les transfrer via des flux de donnes o le NIR a t supprim.

    o linclusion se fait par contact avec les sujets de ltude ou en recueillant les informations auprs de professionnels de sant, dentreprises, ou dautres sources : dans ce cas, linvestigateur ne peut pas collecter le NIR et lextraction de donnes des bases nationales pour les sujets inclus est impossible de faon directe. Il est parfois possible malgr tout daccder indirectement au NIR en utilisant une mthode dappariement probabiliste, condition davoir pu collecter auprs des personnes des variables dappariement pertinentes et de qualit suffisante. Un exemple maintenant bien tabli est celui de laccs au statut vital du RNIPP qui permet de retrouver les causes de dcs par appariement indirect avec la base de donnes du CpiDc (cf. 2.1.2.1). Cette procdure nest toutefois pas applicable systmatiquement et le taux dappariement est variable selon la qualit des donnes dappariement.

    2.1.3.2 LINS L'identifiant national de sant est institu par l'article L.1111-8-1 du code de la sant publique (loi n 2007-127 du 30 janvier 2007) : Un identifiant de sant des bnficiaires de l'Assurance maladie pris en charge par un professionnel de sant ou un tablissement de sant ou dans le cadre d'un rseau de sant dfini l'article L. 6321-1 est utilis, dans l'intrt des personnes concernes et des fins de coordination et de qualit des soins, pour la conservation, l'hbergement et la transmission des informations de sant. Il est galement utilis pour l'ouverture et la tenue du dossier mdical personnel institu par l'article L. 161-36-1 du code de la scurit sociale et du dossier pharmaceutique institu par l'article L. 161-36-4-2 du mme code. Un dcret, pris aprs avis de la Commission nationale de l'informatique et des liberts, fixe le choix de cet identifiant ainsi que ses modalits d'utilisation .

  • Haut Conseil de la sant publique 34

    LINS, dont le but est de permettre de scuriser le contenu des changes, doit tre un identifiant prenne gnr alatoirement et attribu par un systme central, en garantissant les qualits suivantes : sans collision, sans doublon, non signifiant et non prvisible. LINS est destin tre le seul identifiant utilis pour les applications en sant. Son dploiement rendrait donc impossible lavenir lapp