7
INFOTECH # 50 LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE TECH La data science au service de la prévention en santé et prévoyance : un enjeu pour l’assureur. ACTUAIRE IA, CONSULTANTE [email protected] Alexandra BARRAL ACTUAIRE IA, DIRECTRICE PRODUITS SANTÉ ET PRÉVOYANCE [email protected] Cécile PARADIS Comment identifier les besoins des assurés en santé et en prévoyance ? Comment cibler les « bons » programmes de prévention, adaptés aux différents segments de portefeuilles et permettant ainsi de réduire les risques, à court ou moyen terme ? Autant de questions auxquelles l’équipe R&D du cabinet ACTUARIS apporte des réponses grâce à la mise en œuvre d’une méthodologie innovante. Notre taskforce, composée d’actuaires spécialistes du secteur de l’assurance Prévoyance & Santé, de Data Scientists et de doctorants, participe également aux travaux de la Chaire Prevent’Horizon. Dans cet article, nous abordons les 3 axes suivants : - Une présentation contextuelle de la prévention, ses principaux enjeux, les prérequis pour développer des programmes de prévention efficaces - La méthodologie développée et validée par nos équipes - Les principaux résultats obtenus comparativement sur plusieurs portefeuilles Chaire PREVENT’HORIZON ACTUARIS est initiateur et co-financeur, avec huit acteurs de référence du marché de l’assurance de personnes, de la Chaire PREVENT’HORIZON. Cette Chaire, créée en mai 2017 avec deux laboratoires de l’Université Lyon 1 (le laboratoire SAF de l’ISFA et le laboratoire de santé publique HESPER), représente un projet de recherche de grande envergure sur la thématique de la prévention et de son modèle économique. Son programme de recherche est centré autour de la question « Dans quelles mesures la prévention peut se concrétiser par des mécanismes efficaces qui donneraient une réalité à la notion de marché de la prévention ? ». QUELS SONT LES ENJEUX DE LA PRÉVENTION ? La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : ❚❙ La définition naturelle de la prévention (ou prévention primaire) : agir en amont du risque pour éviter que le risque ne se réalise. C’est notamment le cas de la vaccination ou de l’éducation à la santé. ❚❙ La prévention comme système de détection et d’alerte (prévention secondaire ou tertiaire) : repérer la réalisation du risque le plus tôt possible avec des examens de dépistage par exemple et éviter son aggravation ou les rechutes. Sur le marché de l’assurance santé et prévoyance, la prévention est aujourd’hui un atout différenciant entre les acteurs. Elle fait partie des moyens de fidélisation des assurés, par l’instauration d’une relation de confiance et la mise à disposition de services à haute valeur ajoutée. La prévention peut également être envisagée comme un outil de gestion du risque avec des programmes ciblés, qui répondent à des besoins identifiés pour réduire le risque à court ou moyen terme. © 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation 1

La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

INFOTECH # 50LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE

TECH

La data science au service de la prévention en santé et prévoyance : un enjeu pour l’assureur.

ACTUAIRE IA, CONSULTANTE [email protected]

Alexandra BARRAL

ACTUAIRE IA, DIRECTRICE PRODUITS SANTÉ ET PRÉVOYANCE [email protected]

Cécile PARADIS

Comment identifier les besoins des assurés en santé et en prévoyance ? Comment cibler les « bons » programmes de prévention, adaptés aux différents segments de portefeuilles et permettant ainsi de réduire les risques, à court ou moyen terme ?

Autant de questions auxquelles l’équipe R&D du cabinet ACTUARIS apporte des réponses grâce à la mise en œuvre d’une méthodologie innovante. Notre taskforce, composée d’actuaires spécialistes du secteur de l’assurance Prévoyance & Santé, de Data Scientists et de doctorants, participe également aux travaux de la Chaire Prevent’Horizon.

Dans cet article, nous abordons les 3 axes suivants :- Une présentation contextuelle de la prévention, ses principaux enjeux, les

prérequis pour développer des programmes de prévention efficaces- La méthodologie développée et validée par nos équipes- Les principaux résultats obtenus comparativement sur plusieurs portefeuilles

Chaire PREVENT’HORIZON

ACTUARIS est initiateur et co-financeur, avec huit acteurs de référence du marché de l’assurance de personnes, de la Chaire PREVENT’HORIZON. Cette Chaire, créée en mai 2017 avec deux laboratoires de l’Université Lyon 1 (le laboratoire SAF de l’ISFA et le laboratoire de santé publique HESPER), représente un projet de recherche de grande envergure sur la thématique de la prévention et de son modèle économique.

Son programme de recherche est centré autour de la question « Dans quelles mesures la prévention peut se concrétiser par des mécanismes efficaces qui donneraient une réalité à la notion de marché de la prévention ? ».

QUELS SONT LES ENJEUX DE LA PRÉVENTION ?

La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude :

❚❙ La définition naturelle de la prévention (ou prévention primaire) : agir en amont du risque pour éviter que le risque ne se réalise. C’est notamment le cas de la vaccination ou de l’éducation à la santé.

❚❙ La prévention comme système de détection et d’alerte (prévention secondaire ou tertiaire) : repérer la réalisation du risque le plus tôt possible avec des examens de dépistage par exemple et éviter son aggravation ou les rechutes.

Sur le marché de l’assurance santé et prévoyance, la prévention est aujourd’hui un atout différenciant entre les acteurs. Elle fait partie des moyens de fidélisation des assurés, par l’instauration d’une relation de confiance et la mise à disposition de services à haute valeur ajoutée. La prévention peut également être envisagée comme un outil de gestion du risque avec des programmes ciblés, qui répondent à des besoins identifiés pour réduire le risque à court ou moyen terme.

© 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation 1

Page 2: La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

INFOTECH # 50LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE

© 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation

TECH

Lorsqu’un acteur souhaite proposer un programme de prévention, il doit répondre aux quatre questions suivantes :

❚❙ Ciblage : Quel risque veut-il réduire ? Quelle action de prévention pertinente peut être mise en place ? A qui proposer cette action ?

❚❙ �Adhésion : Comment favoriser l’adhésion des assurés aux programmes de prévention : d’une part à la souscription, d’autre part dans la durée ? Comment favoriser l’adhésion aux programmes des assurés qui en bénéficieront le plus (c'est-à-dire les plus exposés au risque) ?

❚❙ Expérimentation : Comment bénéficier d’un retour d’expérience sur les actions de prévention que l’on souhaite tester ?

❚❙ Evaluation : Comment évaluer l’efficacité des programmes de prévention ? Quels indicateurs de suivi seront à mettre en place ?

Pour proposer une solution/un service en adéquation avec les besoins des assurés et créer les conditions favorables à la réussite de programmes de prévention, il est fondamental de traiter ces quatre enjeux.

ZOOM À L’INTERNATIONAL

Les actions de prévention diffèrent sensiblement selon les pays du fait :

- de modes de vie et de consommation santé très hétérogènes (homéopathie/cure en Europe, massage/acupuncture en Asie…),

- du système de protection sociale et de la place de l’assurance santé privée propres à chaque pays,

- des pathologies auxquelles sont principalement exposées les différentes populations (maladies cardiovasculaires, cancers, maladies respiratoires…).

Aux Etats Unis, avec un système de santé qui repose principalement sur une assurance santé privée non obligatoire pour les individus de moins de 65 ans, non handicapés, les assureurs ont la possibilité de mettre en avant le remboursement ciblé de tests de dépistage. C’est également aux Etats Unis que l’utilisation des objets connectés et des bases open data est la plus avancée.

En Europe, les politiques de prévention sont instaurées par les pouvoirs publics. Les actions de prévention des assureurs privés s’apparentent pour l’instant majoritairement à un « marketing de la prévention » (application mobile, programmes concernant la nutrition, l’activité physique, le sommeil…), à relativement faible valeur ajoutée pour l’assuré.

RGPD

Le 25 mai 2018 entrera en vigueur le Règlement Général sur la Protection des Données (RGPD). Il énonce un certain nombre de droits et de principes, qui vont contraindre l’utilisation des données « sensibles ».

Notamment, son article 22 interdit la prise de décision individuelle entièrement automatisée, sauf en cas d’accord de la personne concernée. Pour pouvoir proposer des actions de prévention personnalisées à un assuré, il sera donc désormais nécessaire de rajouter une clause supplémentaire optionnelle lors de la signature de son contrat. A défaut, il sera toujours possible de traiter l’information de manière anonymisée.

2

Page 3: La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

INFOTECH # 50LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE

© 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation

TECH

PRÉSENTATION DE LA MÉTHODOLOGIE - COMMENT UTILISER LES BASES DE DONNÉES RELATIVES AUX ASSURÉS ET À LEURS PRESTATIONS SANTÉ POUR PROPOSER DES ACTIONS DE PRÉVENTION CIBLÉES ?

1) Données et objectifs

Dans cette étude, nous nous sommes intéressés au ciblage optimisé d’actions de prévention.

L’étude a permis de démontrer que :

- les outils de Data Science sont adaptés pour traiter de ces problématiques et apportent de meilleurs résultats que les méthodes classiques,

- les bases de données traditionnelles de l’assureur santé sont porteuses d’informations suffisantes, sans nécessairement avoir recours à des sources de données en open data.

Les premières données exploitées pour mettre en œuvre cette méthodologie concernent 80 000 personnes assurées en santé individuelle complémentaire sur une année d’observation. La base de données de prestations santé comporte 80 libellés d’actes.

Cette base de données a été scindée selon le sexe et le statut Actifs ou Retraités de l’assuré.

Les analyses et interprétations sont bien sûr différentes selon ces 4 sous-groupes.

Nous souhaitions poser un regard sans a priori sur les analyses et résultats ; nous avons donc retenu une approche non supervisée.

En vue de proposer des actions de prévention ciblées, nous poursuivions deux objectifs :

❚❙ Objectif 1 : Identifier au sein de nos bases de données « Prestations » les différents parcours de consommation via des algorithmes de réduction de dimension

❚❙ Objectif 2 : Classer les assurés par profil de risque, en fonction de ces parcours de consommation, via des méthodes de clustering

2) Modélisation

La base de données regroupant l’ensemble des prestations des assurés est convertie en une base « fréquence  ». On ne s’intéresse donc ni aux dépenses, ni aux remboursements complémentaires, mais uniquement aux parcours de consommation.

Les données relatives aux prestations, ligne par ligne, versées à un assuré, sont transformées en une base de données reflétant « combien de fois cet assuré est allé consulter un médecin, un dentiste, un opticien (…) sur une période donnée ».

Au final, on obtient une matrice de fréquences contenant 80 colonnes (les différents actes). Cette donnée d’entrée s’apparente à ce que l’on peut retrouver dans les modèles en text mining.

On décompose ensuite cette matrice de fréquences en deux sous-matrices, à l’aide d’un algorithme de machine learning, et l’on obtient :

❚❙ une première « matrice groupes d’actes » permettant d’interpréter les regroupements d’actes,

❚❙ une seconde « matrice assurés » pour définir les profils de consommation de chaque assuré.

Cette décomposition matricielle permet de réduire la dimension des données et d’obtenir des parcours de consommation interprétables.

Ainsi, sur le segment des femmes retraitées par exemple (20 000 assurées), la matrice ainsi créée synthétise les 80 actes santé initiaux en 20 groupes d’actes correspondant à 20 parcours de consommation distincts.

A noter : Le niveau de regroupement en 20 parcours de consommation optimise les indicateurs de qualité de la réduction de dimension.

3

Page 4: La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

INFOTECH # 50LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE

© 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation

TECH

La matrice groupes d’actes fait ressortir les actes qui sont significatifs pour les parcours de consommation de la population étudiée et traduit la corrélation entre les actes.

Ainsi, pour les femmes retraitées, l’analyse de cette matrice a notamment permis de mettre en lumière :

❚❙ La distinction entre l’hospitalisation lourde et la chirurgie légère ou ambulatoire,

❚❙ La particularité des radiologies pour cause de chute (des actes d’imageries couplés avec des prestations de densitométrie, d’ostéopathie et d’orthèse)

❚❙ La distinction entre différentes prestations à domicile (kinésithérapeute, infirmière, aide à domicile…)

Les regroupements ainsi réalisés ne sont pas nécessairement ceux que l’on aurait fait selon des approches plus traditionnelles en utilisant son expertise métier ou la représentativité des actes.

Selon les bases de données et la granularité des informations véhiculées, l’analyse et l’interprétation des regroupements sont différentes et mettent en lumière des enjeux novateurs en termes de prévention.

Si l’on compare les résultats des populations segmentées selon le sexe et le statut Actifs ou Retraités, on obtient les analyses suivantes :

❚❙ On constate que les visites chez le généraliste et le spécialiste/dentiste, la pharmacie, l’optique, la radiologie, les prélèvements sanguins, mais aussi la kinésithérapie et l’échographie, concernent toutes les populations étudiées.

❚❙ On s’aperçoit aussi que, quelle que soit la base, les appareils respiratoires forment un groupe d’actes à part entière pour les hommes.

❚❙ L’orthoptie forme un groupe d’actes spécifique pour les femmes actives.

❚❙ L’ostéopathie et la psychiatrie concernent elles toutes les populations actives.

❚❙ À l’inverse, les actes à domicile et les soins à domicile concernent toutes les populations retraitées.

La matrice des assurés permet de représenter les comportements de consommation de chaque assuré à l’aide de coefficients de pondération. Dans les lignes de la matrice des assurés, plus le coefficient est important, plus le comportement de consommation est significatif pour l’assuré en question (exemple : groupe d’actes « analyse » dans l’exemple ci-dessous).

La réduction de dimension réalisée sur la base de données en fréquence va permettre, à l’aide d’un algorithme de clustering, d’obtenir des groupes d’assurés de meilleure qualité et de pouvoir interpréter ces groupes plus facilement.

Réductionde dimension Interprétation Data

Clustering

4

Page 5: La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

INFOTECH # 50LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE

© 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation

TECH

3) Visualisation

Après avoir challengé notre process, les choix opérés et les algorithmes utilisés, la dernière partie de la démarche consiste à valoriser l’intérêt des travaux réalisés et leurs conditions de mise en application.

Pour la visualisation des résultats, deux cas d’études se distinguent en tenant compte des contraintes liées au RGPD :

❚❙ L’étude est réalisée sur des données anonymisées, sans consentement de l’assuré : ces résultats permettront d’identifier - sur des groupes d’individus à caractéristiques similaires - les risques les plus présents, et d’agir en proposant des programmes de prévention adaptés ;

❚❙ L’assuré a donné son consentement à l’assureur pour l’utilisation de ses données personnelles : ces études permettront la mise en place de détecteurs d’alerte de dégradation d’un état de santé et d’agir en proposant une réponse personnalisée adaptée.

3.a) Etude réalisée SANS le consentement de l’assuré

Dans ce premier cas, il s’agit de définir, pour un segment d’assurés, quels risques sont principalement présents, à quels âges et quelles actions peut proposer l’assureur, pour les prévenir ou en limiter leurs effets ?

Grâce à des algorithmes de data visualisation, il est possible de représenter les résultats de l’étude précédente à l’aide d’un mapping des assurés (en regroupant les assurés qui ont des profils de consommation similaires).

L’exemple ci-dessous présente 16 classes d’assurés pour les femmes retraitées. Le nombre de classes est obtenu selon l’optimisation d’un critère de distance. Les cercles représentent des groupes d’assurés. On obtient donc 16 profils d’assurés homogènes en termes de combinaisons de parcours de consommation.

Kinésithérapie

Kinésithérapie à domicile

Acte à domicileet

infirmier à domicile

Infirmier à domicile Source ACTUARIS

Cette représentation des profils d’assurés permet de valider la qualité du clustering, de par :

❚❙ L’interprétation géographique : on observe des similitudes de comportements entre les classes d’assurés les plus proches, ce qui permet d’identifier les liens entre les différents profils d’assurés,

❚❙ L’importance des frontières : les frontières d’une classe d’assurés permettent de capter l’hétérogénéité de la classe (par exemple la classe 5 – en vert ci-dessus- qui représente un profil d’assurés caractérisé par une consommation de soins courants).

Sur ce même segment des femmes retraitées, l’analyse du clustering permet de mettre en lumière un parcours de fragilité que l’on peut caractériser selon l’âge :

❚❙ 70 ans : principalement des profils d’assurés consommant des soins courants, de l’optique et du dentaire avec l’apparition des premières chutes

❚❙ 74 ans : on constate la prédominance de profils d’assurés avec des parcours de consommation liés à l’hospitalisation légère et aux premiers soins à domicile

❚❙ 80 ans : l’hospitalisation lourde et la dépendance définissent les profils de consommation de ces groupes d’assurés

5

Page 6: La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

INFOTECH # 50LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE

© 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation

TECH

Les actions de prévention peuvent alors être adaptées selon les profils d’assurés identifiés.

Quel programme de prévention ciblé ?

Synthèse :

Le ciblage sur des données santé anonymisées et porteuses d’information se traduit par deux réalisations :

❚❙ Segmenter le portefeuille

❚❙ Identifier les besoins de prévention de chaque segment sur lesquels l’assureur peut intervenir

3.b) Etude réalisée AVEC le consentement de l’assuré

Lorsque l’assuré a donné son consentement à l’assureur pour le traitement de ses données personnelles, il est possible de mettre en place des indicateurs détecteurs de la dégradation de l’état de santé de l’assuré.

On s’intéresse dans ce cas à la probabilité d’appartenance de l’assuré aux différents profils.

L’exemple ci-dessous présente le même type de représentation graphique que précédemment, mais cette fois avec les probabilités d’appartenance d’un assuré aux différents profils de consommation.

30% de chancesd'appartenir à la classe "chuteur"

11% de chancesd'appartenir à la classe

"Kinésithérapie"

Source ACTUARIS

En fonction des classes de risques qui sont significatives pour un assuré donné, l’assureur peut proposer des conseils personnalisés à celui-ci en termes de services et d’actions de prévention. C’est la déformation dans le temps du profil de l’assuré exprimée à l’aide des probabilités d’appartenance aux différentes classes de consommation qui est ici étudiée.

Synthèse :

L’analyse des probabilités d’appartenance aux différentes classes de comportements de consommation est une approche qui offre la possibilité de mettre en place des programmes de prévention pour les assurés qui ont une probabilité supérieure à x% d’appartenir à une classe de comportements de consommation et ainsi d’optimiser le ciblage et le coût de l’action de prévention.

6

Page 7: La data science au service de la prévention en santé et ... · La définition de la prévention regroupe plusieurs notions à intégrer dans notre étude : La définition naturelle

INFOTECH # 50LA DATA SCIENCE AU SERVICE DE LA PRÉVENTION EN SANTÉ ET PRÉVOYANCE

TECH

SYNTHÈSE ET PERSPECTIVES

La démarche mise en œuvre pour optimiser le ciblage d’actions de prévention peut être synthétisée selon le process suivant :

La finesse de l’analyse est indissociable de la granularité de la donnée d’entrée. Les tests de robustesse, de validation et la recherche d’interprétabilité des méthodes de Data Science sont également des prérequis indispensables pour favoriser la réussite de ce type d’études.

Il est par ailleurs indispensable de challenger les résultats de ces tests par des experts métiers pour éliminer les évidences qui ressortent du modèle – pour pousser un peu l’exemple, seuls les enfants vont consulter un pédiatre, ou l’augmentation des garanties génère une augmentation du reste à charge...

On peut aller bien au-delà de la description des profils d’assurés avec l’âge ou le sexe à l’aide de données présentes dans les bases assurés, comme le niveau de couverture, la zone géographique, la situation de famille et la catégorie socio-professionnelle... Cette démarche ouvre de larges perspectives sur la manière de cibler au mieux les actions de prévention.

Pour les acteurs qui sont convaincus de l’importance de la prévention, cette étude fait écho au besoin d’optimisation du couple « coût/bénéfice ». Plus le ciblage de l’action de prévention est optimisé, plus la prévention aura de chances de produire des effets sur le comportement des assurés et plus elle sera rentable.

Riche de cette expérience, notre équipe de R&D poursuit ses travaux pour affiner la cartographie des parcours de soins des assurés, avec d’une part l’ajout d’une analyse actuaire-médecin (via la Chaire Prévent’Horizon), et d’autre part l’étude du lien avec le risque arrêt de travail.

© 2018 ACTUARIS – Tous droits réservés – Reproduction interdite sans autorisation

7

www.actuaris.com

ACTUARIS PARIS I 13/15 boulevard de La Madeleine I 75001 Paris I Tél +33(0)1 56 89 07 70ACTUARIS LYON I 46 bis chemin du Vieux Moulin I 69160 Tassin I Tél +33 (0)4 72 18 58 58Siège social

SAS au capital de 100 000 euros – NAF 7022 Z – RCS LYON 413 611 344

ACTUARIS est une société membre d’ADDACTIS Groupwww.actuaris.com – [email protected]