DATA MINING EN ASSURANCE : Quelques Utilisations

1

DATA MINING EN ASSURANCE : Quelques Utilisations

Rédha TIR Inspecteur Central Direction des Grandes Entreprises (DGE) Ministères des Finances Tél. :+213 70 35 53 85 Fax : +213 94 19 43 E-mail :[email protected]

Résumé / Abstract

Dans un contexte de compétitivité économique fondée sur l’usage de l’information, les compagnies d’assurances sont de plus en plus fréquemment amenées à entreprendre une démarche stratégique de traitement de l’information.

Eu égard aux gisements d’informations existants dans ce type d’entreprises, l’extraction des connaissances à partir de données appelée communément le « Data Mining » devient un enjeu majeur pour l’ensemble des acteurs (compagnies, autorité de contrôle, conseils consultatifs et organismes d’intelligence économique en général).

Au moment où les modèles statistico- mathématiques ont prouvé leurs limites, le Data Mining a pris un essor extraordinaire à travers un certain nombre de techniques empruntées à l’intelligence artificielle et à la biologie.

Le but de cette communication est de fournir quelques éléments clés susceptibles d’être utiles aux compagnies d’assurances en matière de traitement des données statistiques disponibles et de leur exploitation à des fins de croissance et de développement de produits et de services personnalisés.

La première partie de ce travail consiste à examiner les techniques du Data Mining qui revêtent une importance cruciale pour l’assurance. Ces techniques sont au nombre de quatre : le réseau neuronal (Neural Network), la logique floue (Fuzzy Logic), l’algorithme génétique (Genetic Algorithm) et les ensembles approximatifs (Rough Sets).

La deuxième partie concerne les différentes utilisations de ces techniques- simulant le raisonnement humain- et leur adaptation aux problèmes d’assurance. On pourrait citer, la classification de la clientèle et des entreprises à des fins de marketing, l’optimisation du portefeuille et des stratégies commerciales, l’évaluation du risque, la détection des fraudes, etc.

Quelques pistes de développement de ces systèmes seront discutées tout au long de cette communication.

Mots-clés : Intelligence artificielle, Data Mining, produits d’assurance, classification,

optimisation.

2

I- INTRODUCTION Actuellement, il est de plus en plus clair que l’avantage compétitif réside dans les compétences

des ressources humaines et la capacité à se doter d’une organisation apprenante. De plus, la

connaissance est devenue, plus encore que le capital et les ressources matérielles, l’ingrédient

essentiel de la création de valeur (Manfred, 1995).

Concernant le marché algérien des assurances, le besoin d’implanter des systèmes d’aide à la

décision et d’extraction de connaissance est ressenti de plus en plus avec l’évolution de

l’informatique et de la taille de l’entreprise. Ceci dit, l’informatique dans ces entreprises est

cantonnée à l’aide à la production effective de la compagnie, ainsi qu’à l’administration

traditionnelle (paie, comptabilité, etc.).

Les compagnies d’assurances ont aujourd’hui tout intérêt à se concevoir comme organisation

apprenante en utilisant le volume d’informations existant. En d’autres termes, il y a une

nécessité d’intégrer les services aux spécialités diverses et d’ajouter aux données de production

des informations permettant de les mettre en perspective pour des décisions de l’ordre de la

stratégie d’entreprise.

A cet égard, le data warehouse (entrepôt de données) est considéré comme une reconnaissance

de la valeur et du rôle de l’information. Son opérationnalisation pourrait augmenter la

performance des décideurs en consolidant, convertissant, transformant et intégrant les données

issues de différents sous- systèmes constituant la compagnie d’assurances, et en leur

fournissant une vue dynamique, globale et pertinente de leur entreprise.

Par ailleurs, Peppers et Rogers disaient qu’ « au lieu de se concentrer sur un produit à la fois,

en essayant de le vendre au plus grand nombre possible, concentrez – vous sur un client la

fois et essayez de lui vendre autant de produits que possible ». D’où la connaissance du client

est d’une importance cruciale pour l’entreprise et sa pérennité. Elle constitue également l’un

des facteurs essentiels de la réussite ou de l’échec de la compagnie d’assurances.

Ce processus de connaissance utilise souvent les techniques du Data Mining qui signifie la

fouille de données dans les gisements de l’entreprise. Ses applications en assurance couvrent

l’estimation des risques, gestion de la relation client (CRM), acquisition de nouveaux clients,

élaboration des plans de réassurance et enfin, la détection des fraudes.

Les outils de data mining représentent l’élément de base autour desquels la connaissance du

client et la réalisation de ses applications se construisent. Donc, qu’est-ce que le data mining ?

Comment peut-on le mettre en œuvre en assurance ? Quelles sont ses techniques ?

3

II. DATA MINING : PROCESSUS ET TECHNIQUES

Le terme data mining a pris son essor depuis 1995 ; mais les techniques qu’il utilise ont

plusieurs décennies. Le traitement des données à travers le data mining est un processus de

trois étapes fondamentales. Un ensemble de techniques empruntées à l’intelligence artificielle

pourrait y intervenir.

II-1. Processus de data mining.

Michel Jambu définie le data mining comme suit : « Le data mining est un processus d’analyse

fine et intelligente des données détaillées, interactif et itératif, permettant aux managers

d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur

– mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils

travaillent ».

Ainsi, le data mining est né de :

• l’évolution des systèmes de gestion des bases de données vers l’informatique décisionnelle

avec l’apparition des entrepôts de données (Data Warehouse).

• de plus en plus, du recours des entreprises à la constitution de giga bases de données.

• Développement de la Gestion de la Relation Client (CRM) qui représente la tendance

actuelle vers un marketing orienté client au lieu de marketing produit.

• Progrès réalisés dans le domaine de l’intelligence artificielle en matière d’algorithme

d’apprentissage et de règles d’extraction de connaissances.

Ce processus suit trois étapes : exploration, construction d’un modèle ou définition d’une

structure, et validation / vérification.

En outre, la mise en place d’un projet data mining suppose une très bonne compréhension des

objectifs de l’application. Il s’agit, en fait, de bien décomposer le problème en sous-

problèmes, et de récupérer, éventuellement, des données supplémentaires jugées nécessaires

pour la solution. Cette décomposition du problème permet de connaître sa nature (exploration,

création de modèles, identification de modèles, etc.). Un projet de data mining est une gestion

par les résultats, autrement dit, l’évaluation des résultats obtenus est cruciale pour sa réussite.

Donc, il faudrait choisir la technique convenable pour que le résultat corresponde aux attentes.

Après la fixation des objectifs, la première étape de data mining consistera en l’exploration des

données.

4

II-1-1. Exploration

Cette étape comporte plusieurs opérations. Ces opérations ont trait à la préparation des données

pour qu’elles soient exploitables.

En effet, la recherche des données (collecte) consiste en un inventaire des sources de données

(comment combiner des formats différents). Ensuite, un ensemble d’attributs sera sélectionné

par un expert (ex : souscripteur, risk manager, etc.). De plus, ces données doivent être

nettoyées (suppression, remplacement, contournement des valeurs manquantes) et modifiées

(homogénéisation et normalisation) le cas échéant.

II-1-2. Construction d’un modèle

Le data mining est souvent considéré comme un mélange des statistiques, d’intelligence

artificielle et de recherche de base de données. Il s’appuie sur l’intégration de tests statistiques

et d’algorithmes de choix des meilleures techniques de modélisation en fonction des

caractéristiques de chaque cas. La constitution d’un modèle en data mining repose sur la nature

du problème (discrimination, clustering, etc.). Pour ce faire, des bases de test et

d’apprentissage seront mobilisées pour qu’elles soient utilisées par l’algorithme choisi.

L’apprentissage peut être supervisé (prédictif) ou non supervisé (exploratoire). Cependant, la

data mining ne traite pas d’estimation et de test de modèles préspécifiés, mais la découverte de

structures inconnues jusqu’ici par le biais d’un processus de recherche algorithmique

d’exploration de modèles linéaire et non linéaire, explicite et implicite.

II-1-3. Validation / vérification du modèle

Le modèle doit être évalué et validé qualitativement (présentation graphique ou textuelle des

résultats) et quantitativement (affectation d’un indice de confiance eaux résultats obtenus).

Généralement, ces modèles sont validés par le test, c’est – à – dire à l’aide d’un autre

échantillon appelé « échantillon test et / ou validation ».

En résumé, pour mener à bien un projet de data mining dans une entreprise de banque ou

d’assurance, il es nécessaire de :

• identifier et analyser les besoins en vue de fixer des objectifs ;

• obtenir (collecter et traiter) des données représentatives du problème étudié ;

• identifier le contexte de l’apprentissage ;

• sélectionner les attributs et réduire leurs dimensions ;

• choisir un algorithme et / ou un espace d’hypothèses ;

• choisir un modèle résultant et valider les performances de la méthode utilisée.

5

II-2. Méthodes de data mining

Il existe plusieurs méthodes pour effectuer une analyse de type data mining. En fait,

l’extraction de connaissances peut être sous forme d’extraction d’association, de ressemblances

(ou de similitudes), ou sous forme d’apprentissage automatique.

II-2-1. Extraction d’associations

Une association peut se présenter au niveau des valeurs (implication) ou au niveau des attributs

(corrélations, dépendances). Notons que l’implication est une relation très forte entre deux

valeurs, ce qui est rare en réalité. C’est pourquoi la recherche tend vers l’étude des

dépendances qui caractérisent les attributs.

II-2-2. Ressemblance / Similitude

La ressemblance entre deux objets décrits linéairement est l’ensemble des points communs à

leurs descriptions. On parle aussi de similitude entre deux objets qui se ressemblent. Parmi les

méthodes de regroupement par ressemblance : les K- moyennes, le voisinage dense et

l’agglomération.

II-2-3. Apprentissage automatique

Cette méthode constitue un outil efficace permettant de faire face à la croissance exponentielle

du volume de l’information et d’offrir aux utilisateurs des moyens d’accès faciles aux

informations. Ainsi, l’apprentissage automatique apporte un gain important de productivité et

de réactivité dans l’analyse. En effet, il offre la possibilité aux utilisateurs de réaliser leurs

propres modèles de manière autonome. Enfin, les techniques qui se basent sur l’apprentissage

automatique sont relativement nombreuses :

• Agents intelligents ;

• Arbre de décision ;

• Moteur d’association ;

• Algorithmes génétiques ;

• Réseaux bayésiens ;

• Réseaux de neurones ;

• Ensembles approximatifs ;

• Logique floue.

Nous limiterons notre présentation à celles qui s’appliquent le plus souvent en assurance, tel

qu’il est connu dans la littérature assurantielle, et prouvé dans plusieurs expériences

d’entreprises d’envergure mondiale.

6

III. CARACTERISATION DES TECHNIQUES DE DATA MINING

Le but de cette section de faire connaître les techniques usuelles en data mining et dans le

domaine de l’assurance.

III-1. Réseaux de neurones : présentation et évaluation Les réseaux neuronaux revêtent une importance cruciale dans plusieurs domaines. La finance

n’échappe pas à l’emploi de ce type de méthodes ou techniques modernes. Il s’agit d’un outil

issu de l’intelligence artificielle, habituellement utilisé en sciences appliquées (biologie,

physique, etc.) et qui a fait son entrée en finance et en assurance en particulier. Le réseau de

neurones est utilisé à des fins de prévision, de classification et de reconnaissance de forme en

général. Selon (Paquet, 1997), il existe deux raisons essentielles qui poussent les chercheurs à

s’intéresser à cet outil. Primo, contrairement aux techniques statistiques classiques, le réseau

neuronal ne nécessite aucune hypothèse sur les variables. Secondo, il représente un instrument

adapté pour traiter des problèmes complexes et non structurés, d’où l’impossibilité de spécifier, à

priori, la forme de la relation entre les variables étudiées.

En finance, le réseau de neurones peut être utilisé pour différentes questions. On pourrait

citer : la détection des entreprises en difficulté, la gestion de portefeuille (Paquet, 1997), la

prévision des séries financières, du taux de change, l’évaluation d’actifs (Bolgot & Meyfredi,

1999) et le choix de stratégies ( Montagno, Sexton & Smith, 2002).

III-1-1 . Architecture du réseau multi -couches

Le réseau à couches est le plus utilisé en finance. Il est organisé, comme son nom l’indique,

en couches. Chaque couche comporte plusieurs neurones. Chaque neurone représente une unité

de calcul autonome reliée aux neurones de la ou les couches précédentes.

Le réseau neuronal comporte trois couches. La couche d’entrée (Inputs), une couche de

sortie comportant un seul neurone et donnant le résultat de tous les calculs internes.

Il existe entre ces deux couches une couche non visible de l’extérieur (hidden) appelée

couche « cachée », qui est, en fait, une boite ou engin noir. Là où tous les calculs intermédiaires

et transformations s’effectuent.

Quant au fonctionnement du réseau, l’algorithme d’apprentissage aura pour tâche d’évaluer

des poids dits synaptiques, qui relient les neurones entre eux. Chaque neurone reçoit les

informations fournies par les neurones de la couche précédente. Il calcule, ensuite, son potentiel

d’activation. Une fonction d’activation sert à déterminer l’impulsion à envoyer aux neurones de

la couche qui suit afin de calculer le potentiel de sortie (outputs).

7

III-1-2. Apprentissage du réseau neuronal

Afin que le réseau puisse découvrir la forme de la relation entre les variables, il suit, en

général, deux types d’apprentissage. Le premier, dit supervisé consiste en l’existence d’un

échantillon sur lequel le réseau apprend (s’entraîne) à reconnaître les formes. L’apprentissage

non supervisé, qui est le second type, est utilisé lorsque on n’est en mesure de présenter au

système un échantillon mettant en regard une quantité d’information, et la forme qu’elle est

censée représenter (Paquet, 1997).Par voie de conséquence, le réseau s’auto organise, comme

c’est le cas pour l’algorithme de Kohonen, en vue d’être capable de découvrir la forme à partir

des données fournies et sans aide extérieure.

Les données disponibles doivent être réparties en trois sous-ensembles (apprentissage,

validation et test) à raison de 60%, 30% et 10% respectivement.

A partir de l’échantillon d’apprentissage, le réseau de neurones se paramètre. Autrement dit,

l’algorithme d’apprentissage ajuste les poids synaptiques tout en minimisant une fonction de

coût. Cette dernière n’est, en fait, que la somme des carrés des erreurs produits par le réseau eu

égard le résultat souhaité.

La rétro- propagation des erreurs se fait continuellement jusqu’à ce que la fonction de coût

soit minimisée, ou jusqu’à ce que le concepteur intervienne pour y mettre fin.

Pour éviter le sur ajustement « overfitting », une procédure d’early stopping devrait être

exécutée. Elle consiste en l’introduction de l’échantillon de validation. Le point où cet

échantillon réalise le minimum d’erreur reflète la meilleure performance.

III-1-3. L’évaluation du réseau neuronal

L’échantillon d’apprentissage servira au paramétrage. Le deuxième servira à la validation

(arrêter l’apprentissage quand le niveau d’erreur soit le plus bas possible). Autrement dit,

l’objectif de celui-ci est d’arrêter le processus d’apprentissage lorsqu’il semble donner un résultat

satisfaisant en minimisation de la fonction d’erreur. Le troisième, sera réservé pour évaluer les

capacités du réseau à se généraliser et à simuler les outputs relatifs à un autre ensemble de

données. Enfin, il est à noter que le réseau neuronal est privilégié pour traiter des non linéarités,

et de la complexité en travaillant sur des données caractérisées par l’incomplétude et

l’imprécision. De même, les réseaux de neurones permettent le traitement des variables

qualitatives à travers des neurones recevant des valeurs binaires comme c’est le cas pour la

segmentation et la classification en sciences comportementales (Collins & Clark, 1993).

8

III-2. La logique floue La logique floue constitue l’une des meilleures techniques de modélisation des différents

phénomènes. Elle a mis en exergue le fossé qui sépare les représentations mentales de la réalité

et les modèles mathématiques connus à base de variables booléennes (vrai / faux).

III-2-1. La théorie des ensembles flous

Les travaux de L. Zadeh et ses associés se basent sur le constat suivant : « Très souvent, les

classes d’objets rencontrés dans le monde physique ne possèdent pas de critères d’appartenance

bien définis » (cité par NGUYEN PHUNG, 2001).

Ainsi, ce penseur a suggéré qu’au lieu de chercher à tout prix un seuil unique S décidant

l’appartenance à un ensemble dans un contexte donné, il semble plus réaliste de considérer deux

seuils S1, S2, avec une fonction d’appartenance donnant à chaque individu un degré

d’appartenance (compris entre 0 et 1) selon lequel l’individu en question appartient à une classe

donnée. En deçà de S1, l’individu appartient complètement à une classe (quand le degré

d’appartenance est maximal et égal à 1) ; au delà de S2, il n’appartient plus du tout à cette classe

(par convention, le degré d’appartenance est égal à 0). Entre S1 et S2, les degrés d’appartenance

seront intermédiaires (entre 0 et 1).

La logique floue part essentiellement de la notion de variable linguistique. Ce type de

variables sert à modéliser des connaissances imprécises ou incomplètes.

III-2-2. Le système flou

Un système flou est un processus de formulation de relations entre des entrées (inputs) et des

sorties (outputs) en utilisant les règles de la logique floue (The Mathworks, 2004). A partir de ces

relations, une décision peut être extraite ou une forme peut être découverte.

Ce processus met en relief un certain nombre d’outils, que sont : les fonctions

d’appartenance, les opérateurs logiques et les règles de type « Si – Alors ». La figure N° 1 donne

une illustration de son fonctionnement.

� Fonctions d’appartenance :

- les ensembles flous décrivent des concepts vagues ;

- Un ensemble flou admet la possibilité d’une appartenance partielle en lui ;

- L’appartenance d’un objet à un ensemble flou est déterminée par un degré d’appartenance

compris entre 0 et 1.

- La fonction d’appartenance associée à un ensemble flou relie la valeur de l’input à sa

valeur d’appartenance appropriée ;

9

� Opérateurs logiques : il s’agit d’un certain nombre d’opérations sur les ensembles

classiques et qui ont été généralisées pour être appliquées aux ensembles flous. Parmi ces

opérateurs : L’opérateur NON (complément), l’opérateur ET (intersection), l’opérateur

OU (union), L’implication floue.

Figure 1. Processus d’un système flou

� Règles Si- Alors : l’interprétation de ce type de règles est un processus de quatre étapes :

� Définition des entrées et des sorties ;

� Fuzzification ou définition des fonctions d’appartenance des variables. Il s’agit, en

fait, d’attribuer à chaque variable des degrés d’appartenance à différents états que l’on

doit définir ;

� Création des règles d’inférence : ceci consiste en une formulation de règles qui lient les

données aux actions. Ces règles sont établies pat une personne experte dans le domaine et

non pas par un programmeur.

� Calcul et défuzzification : une fois les calculs faits, on obtient un schéma de résultats

qui n’est autre qu’une valeur floue. L’objectif est de transformer cette valeur floue en

grandeur réelle. Pour cela, il existe trois grandes méthodes :

- La méthode du maximum qui correspond à l’abscisse minimum de l’ordonnée maximum

de la surface. Elle est peu utilisée.

10

- La méthode de la moyenne pondérée ;

- La méthode des centroides est la meilleure. Elle consiste tout simplement à calculer les

centres de gravité des surfaces.

De plus, il existe deux types de système d’inférence que l’on peut utiliser selon le besoin. La

méthode MAMDANI est la plus connue et qui présente les caractéristiques suivantes :

- Elle est intuitive ;

- Elle largement utilisée ;

- Elle simule le raisonnement humain ;

Par ailleurs, la méthode dite Sugeno, introduite pour la première fois en 1985, présente,

quant à elle, les avantages suivants :

- Très efficace du point de vue de calcul ;

- Elle fonctionne bien avec les techniques linéaires, l’optimisation et les techniques dites

adaptives ;

- Enfin, elle privilégie l’analyse mathématique ;

Concernant les domaines d’application de la logique floue en assurance,on peut citer

l’évaluation d’actifs et de crédit, l’évaluation du risque, la souscription des contrats d’assurance,

les recherches commerciales, la segmentation, etc. des models de l’assurance floue ( fuzzy

insurance) sont largement conçus et exploités pour répondre à ces attentes ( Lemaire, 1990)..

III-3. Les Algorithmes Génétiques Holland fut le premier qui a proposé les Algorithmes Génétiques (AGs) dans les années 70.

Ces derniers sont des algorithmes d’optimisation stochastique fondés sur les mécanismes de

l’évolution génétique des espèces, plus précisément, du principe de sélection naturelle.

III-3-1. Présentation des Algorithmes Génétiques

Les AGs travaillent sur une population de points au lieu d’un point unique. Contrairement

aux autres méthodes, Ils utilisent un codage des paramètres et non les paramètres eux mêmes. De

plus, les AGs ne prennent en considération que les valeurs de la fonction étudiée, pas sa dérivée,

ou une autre connaissance auxiliaire (Cordon et al, 2004).

Lors de leur fonctionnement, ils utilisent des règles de transition probabilistes (en situation

de croisement ou de mutation par exemple) et non déterministe.

Un AG manipule une population de taille constante N. Cette population se compose

d’individus, chacun représente le codage d’une solution potentielle au problème posé, donnée

11

sous la forme d’une chaîne de caractères. Chaque chaîne de caractères correspond à un

Chromosome (individu / séquence). Chaque caractère à un gène et chaque lettre de l’alphabet à

un allèle. Le locus est la position d’un gène au sein d’un chromosome. Reste la fonction

sélective, qui permet d’associer une valeur à chaque individu de la population. Cette fonction est

souvent une transformation de la fonction objective à optimiser (appelée fonction de fitness).

Par ailleurs, il existe trois principaux types de codage : binaire, gray ou réel. Le

fonctionnement d’un algorithme génétique se base sur les phases suivantes (Cordon et al, 2004) :

- Initialisation : il s’agit de générer aléatoirement une population d’individus de taille

donnée ;

- Evaluation : chaque chromosome est décodé puis évalué ;

- Sélection : utilisation d’une technique de sélection appropriée afin de créer une nouvelle

population de N chromosomes ;

- Reproduction : il s’agit, en fait, de recombiner deux individus appariés (lors de la phase

précédente) pour créer deux nouveaux individus. Il y a donc possibilité de mutation ou de

croisement au sein de la nouvelle population.

-Retour : à la phase de décodage et d’évaluation des chromosomes, jusqu’à l’arrêt du

processus.

III-3-2. Opérations génétiques classiques

Ces opérations jouent un rôle déterminant dans la réussite d’un AG. Les principaux

opérateurs sont en nombre de trois :

� Opérateur de Sélection : la sélection est la première étape du fonctionnement d’un

algorithme génétique. L’objectif est de sélectionner des chromosomes en fonction de leur

valeur sélective. Les individus qui disposent d’une meilleure valeur sélective seront choisis.

Pour ce faire, il existe plusieurs méthodes pour la sélection. La roue de loterie biaisée

(Roulette Wheel) de Goldberg en est la plus connue et utilisée.

� Opérateur de Croisement : la recombinaison se fait en deux étapes essentielles :

- L’appariement : consiste à choisir deux individus parmi ceux qui ont été sélectionnés pour

en créer d’autres (Cordon et al, 2004). Il y’a diverses méthodes pour ça, parmi lesquelles :

l’appariement aléatoire, la consanguinité et le croisement entre lignées ou inter fécondations

(la lignée résulte de l’appariement de deux individus proches au sens de la distance de

Hamming).

12

- Le croisement : cet opérateur combine deux individus appariés avec une probabilité Pc, qui

est classiquement, comprise entre 0.5 et 0.9 .Plus cette probabilité est élevée et plus la population

subira un changement.

� Opérateur de Mutation : lors d’un processus de sélection, certaines informations

peuvent disparaître de la population. Afin d’éviter l’établissement de populations uniformes

incapables d’évoluer, l’opérateur de mutation permettra de modifier aléatoirement, avec une

probabilité donnée Pm, la valeur d’un composant de l’individu, mais il ne crée, généralement, pas

de meilleurs individus. Le choix de cette probabilité est d’une importance cruciale. En effet, Pm

dépend de la taille N de la population, et de la longueur des individus (chromosomes). Elle est

inversement proportionnelle à la probabilité de croisement ; plus elle est élevée et plus la

performance de l’AG décroît.

Actuellement, les chercheurs visent une réduction du temps de convergence de l’AG, et

l’amélioration de la qualité de la population finale.

III-3-3. Utilisation des Algorithmes Génétiques

Les AGs font l’objet de plusieurs applications dans plusieurs domaines. En finance

particulièrement, les recherches portent sur la prévision (séries temporelles, économétrie, etc.),

l’optimisation et sur la prise de décision financière en général.

En assurance, les recherches sont orientées vers la résolution des problèmes liés à la

classification (segmentation, évaluation), à l’optimisation des stratégies commerciales et de la

gestion du portefeuille et, enfin, à la compétitivité d’un produit financer ou d’assurance

(Shapiro, 2000). Sur le plan logiciel, le module « Genetic Algorithm & Direct Search » dans sa

première version, fonctionnant sous MATLAB 7 ( The Mathworks, 2004) constitue l’un des

meilleurs instruments conviviaux , développé à des fins de résolution et d’analyse de problèmes

liés essentiellement aux algorithmes génétiques.

III-4. La théorie des ensembles approximatifs En 1982, dans un article fondateur de la revue « International Journal of Computer and

Information Sciences », Pawlak a introduit la théorie des ensembles approximatifs (TEA). Cette

théorie vise l’analyse et la classification des données compte tenu de leur imprécision. Elle

présente l’avantage d’être indépendante de la distribution des données. Plusieurs domaines ont

réussi l’application de la TEA. Parmi eux, le domaine médical, la finance, le marketing, etc. La

TEA pourrait constitue une méthode adéquate pour la classification en assurance du fait de la

nature non paramétrique des données collectées ainsi que leur imprécision.

13

Sur le plan informatique, il existe aujourd’hui deux logiciels très conviviaux, téléchargeables sur

Internet, qui permettent, en fait, l’application de la TEA. Il s’agit des logiciels ROSE2 et

ROSETTA (Ohrn, 2001).

III-4-1. Terminologie de la TEA

La TEA présente les avantages suivants :

- le raisonnement à partir des données imprécise ou ambiguë ;

- l’utilité pour l’apprentissage automatique et l’extraction de connaissances ;

- la réduction du degré de précision en vue de définir le concept afin de mettre en relief des

relations.

Cette théorie vise à prévoir l’affectation des individus ou des objets à plusieurs ensembles afin de

gérer l’indiscernabilité.

Pour ce faire, les données collectées se présentent sous la forme d’une table d’information qui est

une matrice à deux dimensions divisées en trois sections dont chaque ligne décrit une entité. Ces

sections sont :

- Les éléments de l’univers : les individus ou les objets concernés ;

- Les conditions : reflètent les caractéristiques des éléments de l’univers à étudier ;

- Les décisions : représentent les caractéristiques que l’on cherche à expliquer, à prédire ou à

classer.

L’application de la TEA passe par plusieurs phases : discrétisation, formation des atomes,

recherche des redondances, génération des règles, classification et validation.

III-4-2. Discrétisation des données

L’application des principes des ensembles approximatifs exige que toutes les données (appelées

aussi attributs) soient sous forme discrète. Donc les données continues doivent être discrétisées

avant de commencer l’opération de génération de règles.

La discrétisation granule le domaine continu des attributs, ce qui facilite l’induction de règles

courtes et fortes. Il existe plusieurs manières de discrétiser des données continues. La première

consiste en la création des classes sur la base des connaissances de la personne. Cependant, il

n’est pas toujours facile d’établir un tel classement. La deuxième se traduit par le recours à un

certains algorithmes permettant la transformation des données continues en données discrètes.

On pourrait citer, à titre d’exemple, le logiciel ROSE2 qui dispose de trois types de

discrétisation :

14

- locale

- locale supervisée

- globale

III-4-3. Formation des atomes

La TEA repose sur un concept fondamental qui est la relation d’indiscernabilité, normalement

associée à un ensemble d’attributs. Or, les ensembles indiscernables sont appelés ensembles

élémentaires. Lorsque tous les attributs sont pris en compte, les ensembles élémentaires cités ci –

dessus formés par les objets sont appelés atomes. De plus, les attributs décisionnels peuvent être

exprimés de la même façon. Ils sont appelés donc concepts.

Sur la base des atomes, on peut évaluer comment les différents individus ou objets se placent par

rapport aux concepts.

En ce qui concerne la performance de l’application, deux mesures sont connues : l’exactitude et

la fiabilité.

L’exactitude est une mesure de l’inconsistance des données. Elle est donnée par l’exactitude de

l’approximation calculée comme l’approximation inférieure sur l’approximation supérieure d’un

concept. La deuxième mesure, qui est la fiabilité permet d’apprécier la qualité de

l’approximation des données. Cette qualité est définie comme la somme des individus ou objets

des approximations inférieures pour tous les concepts sur le nombre d’individus ou objets totaux.

III-4-4. Recherche des redondances

Il est aisé de définir les attributs redondants par le concept d’indiscernabilité. En effet, si un

ensemble d’attributs et un sous – ensemble d’attributs définissent la même relation

d’indiscernabilité, alors chaque attribut appartenant au sous –ensemble est redondant.

III-4-5. Génération de règles

Les règles générées sont de type « Si –Alors » sur la base des atomes et concepts formés

précédemment. Il y a des règles certaines (induites par l’approximation inférieures) et des règles

possibles (induites par l’approximation supérieure du concept).

III-4-6. Classification

Une fois les règles formulées, la classification pourra s’effectuer. Si la méthode discrimine bien

entre les segments, la classification sera bonne et vice – versa. Dans la pratique, il existe deux

types de classification : a priori et post –hoc.

15

VI – LES APPORTS DU DATA MINING AUX PROBLEMES DE L’ASSURANCE Depuis le début de la décennie, 1990, les applications de l’intelligence artificielle en finance

se sont multipliées. Elle concernent trois principaux domaines : la prévision, l’optimisation et la

classification. La finalité d’utilisation de ces nouvelles et de fournir une information fiable au

moment opportun et au moindre coût. En effet, la valeur d’une information est déterminé par

son utilisation, c’est-à-dire est fonction du résultat de la décision dans laquelle elle est utilisée.

De plus, certains chercheurs et praticiens insistent sur le fait que la valeur de l’information

s’accroît avec son actualité, son exhaustivité, son exactitude et sa fiabilité. Or, ce type de

méthodes pourrait parfaitement satisfaire ces conditions.

VI – 1. Prédiction

La revue de la littérature fait ressortir différentes finalités d’utilisation de techniques

modernes par opposition aux méthodes statistiques traditionnelles. Les outils intelligents

représentent une source importante de solutions pour des problèmes variés, qui touchent

essentiellement à des aspects stratégiques de la vie de l’organisation.

Les réseaux de neurones ont été utilisés à des fins de prévision en exploitants le passé d’une

variable en vue d’extraire des relations permettant de prédire sa valeur future. En outre, les

réseaux de neurones sont capables de découvrir la forme de ces relations (linéaire, non linéaire).

Ainsi, les réseaux de neurones ont été utilisés pour prévoir la volatilité des indices boursiers, le

taux de change, le taux d’inflation dans une économie donnée (Paquet, 1997).

En assurance, le réseau de neurones peut être appliqué pour détecter les mauvais risques. Ces

derniers vont être transférés (cédés) par la suite au(x) réassureur(s), ou à un plan de répartition

des risques (PRR). Pour ce faire, l’assureur peut construire un réseau neuronal afin d’évaluer la

prime pure qui correspond, en réalité, à l’espérance mathématique des indemnités associées à un

risque particulier. En cas de cession, la différence entre cette prime (issue de réseau neuronal) et

la prime cédée à la réassurance constitue un profit projeté pour l’assureur. De plus, pour chaque

risque cédé le profit effectivement réalisé représente la différence entre les indemnités payées et

le volume des primes transférés au réassureur. Or, les expériences étrangères montrent que cette

opération génère des gains considérables permettant à l’assureur d’améliorer son niveau de

solvabilité à travers le transfert des risques indésirables.

Concernant, le rating des compagnies d’assurances, la prédiction de la solvabilité est

importante pour l’autorité de contrôle et / ou de régulation du marché. Le but étant d’assurer une

meilleure protection pour les assurés. A ce sujet, les réseaux neuronaux ont pris un essor

16

extraordinaire dans ce domaine contrairement aux méthodes statistiques traditionnelles (analyse

discriminante, régression logistique et arbre de décision style ID3 ou CART) car ils sont

évolutifs et muables. Comme ils concernent les branches de l’assurance : non vie et vie.

Par exemple, un réseau neuronal utilisant la rétro- propagation a été construit dans le but de

mettre en place un système d’alerte (warning system) pour prévoir l’insolvabilité des assureurs

deux ans avant la ruine. Les résultats de ce réseau démontrent qu’il est plus performant que

l’analyse discriminante. Celle –ci est utilisée par un organisme privé de natation des assureurs, et

l’autorité de régulation du marché aux Etats Unis.

Des chercheurs se sont penchés sur l’optimisation des paramètres du réseau neuronal en

introduisant un algorithme génétique dedans. Les résultats étaient encore une fois plus

performants que celles produits par les méthodes classiques telles que les K- plus proches ainsi

que la régression logistique. Notons que les données statistiques ont été fournies par l’autorité de

régulation des systèmes d’information des assureurs en Corée du Sud (Graham & Huang, 1996).

Quant à l’assurance vie, les assureurs s’intéressent aux taux de mortalité et de morbidité. Le

réseau neuronal a été également exploité pour traiter les statistiques liées à la cure intensive, aux

caries dentaires et aux complications hospitalières (Shapiro, 2000).

Quant aux algorithmes génétiques, ce domaine (la prévision) constitue une voie de recherche

à grand potentiel. Les AGs peuvent rechercher une forme fonctionnelle, des valeurs des

coefficients de régression etc. La prévision du taux de change en est l’exemple.

Selon (Cordon et al, 2004), les AGs ont été adaptés aux problèmes de séries temporelles

(type de modélisation, valeur des coefficients etc.). On peut rajouter une piste de recherche, qui

est proche du Data mining. Celle-ci consiste à prévoir des événements rares. La prévision de tels

événements est très importante pour certaines activités de banque et d’assurance, par exemple :

carte de crédit en utilisant un historique d’achats, comportements inhabituels sur un marché

financier, les comportements frauduleux en assurance etc.).

Enfin, la logique floue a permis la prévision de différents phénomènes à travers ce qu’on

appelle variable linguistique. Elle reste l’instrument privilégié quand il s’agira de données

imprécises ou incomplètes.

Selon (Shapiro, 2000), la logique floue répond aux besoins de la modélisation, par les

spécialistes de la finance, dans les domaines suivants : l’évaluation des taux, le calcul actuariel,

la souscription et l’élaboration de stratégies d’investissements. Combiner plusieurs approches est

17

très bénéfique et recommandé et peut aboutir à des résultats satisfaisants ou meilleurs (Von

Altrock, 2002).

Concrètement, Young (1997) montre comment peut- on utiliser la logique floue pour prendre

des décisions concernant l’évaluation d’actifs dans un groupe d’assurance maladie en

introduisant des données dites auxiliaires telles que les donnés marketing ou celles des

concurrents en plus de l’expérience statistique du groupe. L’analyse débauche sur un modèle

compétitif du changement de taux. Ce modèle emploie des contraintes floues en vue d’ajuster

les taux existants. Trois règles de type linguistique ont été générées comme suit :

• SI (Sinistres / Primes) élevé ET volume d’affaires est gros ALORS « Augmenter les taux » ;

• SI (Sinistres / Primes) modéré ET volume d’affaires est modéré ALORS « ne pas changer les

taux » ;

• SI (Sinistres / Primes) faible ET volume d’affaires est petit ALORS « diminuer les taux » ;

Les systèmes hybrides quant à eux, connaissent une évolution à mesure que la performance de

l’apprentissage automatique a augmenté.

VI – 2. Optimisation Les AGs sont, généralement, connus pour leur puissance en matière d’optimisation. Ils ont

été exploités pour identifier les réseaux de neurones qui présentent une meilleure performance.

Cela consiste à évaluer le nombre de neurones que comprend la couche cachée d’un réseau

neuronal jugé performant. Plusieurs études ont traité cette question (Montagno et al, 2002).

Cordon et al. (2004) citent trois principaux succès des AGs dans le domaine de

l’optimisation :

• Dans le cadre du management passif, les AGs contribuent largement à l’identification de

meilleurs portefeuilles (composés d’actions, d’obligations etc.), ou à choisir un

portefeuille optimal.

• Les AGs cherchent des règles optimales de prévision (sous forme : Si - Alors), afin de

prévoir les performances futures d’un portefeuille donné. Autrement dit, l’algorithme

génétique, à partir de l’évolution passée d’une valeur mobilière, pourrait prédire

l’évolution future de son cours. En outre, les chercheurs recommandent l’utilisation de

modèles mixtes qui améliorent nettement l’ensemble des résultats (utilisation d’un réseau

de neurones avec un algorithme génétique d’optimisation, ou un système neuro-flou).

18

• Enfin, la découverte de règles optimale d’échanges (Trading Rules), peut être réalisée par

les AGs, sur les marchés d’actions et des changes (Pavlidis et al, 2002). Selon ces

auteurs, les AGs ont donné des résultats prometteurs. En conséquence, les stratégies

d’échanges élaborées ont généré un gain satisfaisant.

A titre d’exemple, on pourrait implanter un algorithme génétique afin de bâtir la frontière

efficiente d’un portefeuille (ensemble de portefeuilles avec des combinaisons optimales de risque

et de rentabilité). Les données sous-jacentes consistent en 250 scénarii de rentabilité pour 8

classes d’actifs. Cet algorithme a donné de bons résultats (après 50 itérations) par rapport à un

optimizer non linéaire sophistiqué.

Par ailleurs, un autre AG a été conçu dans le cadre d’une simulation de type Monte Carlo pour

évaluer le triplet : profitabilité – risque – compétitivité des produits d’assurances (Shapiro,

2000). Son exécution visait la recherche d’une allocation optimale permettant de tenir compte de

ces trois variables. L’objectif serait de mieux positionner ces produits- là.

VI – 3. Segmentation La segmentation représente un des plus importants domaines d’application de l’intelligence

artificielle en finance. Elle concerne les risques, la clientèle, les entreprises etc.

L’objectif est d’évaluer, élaborer un tarif ou encore segmenter une clientèle ou un marché

donné. Les réseaux de neurones ont répondu à ce besoin naissant. Les banques, assurances et

différents établissements financiers les ont utilisé pour élaborer des politiques et tracer des plans

d’actions. Parmi les domaines concernés : la souscription des contrats d’assurances, évaluation

du risque crédit particulier et crédit entreprises, la valorisation des placements financiers et la

détection de comportements frauduleux à propos des déclarations des risques et des sinistres. La

finance comportementale, quant à elle, a bénéficié de ces avancées. La confrontation des

résultats des modèles d’évaluation d’actifs avec ceux générés par des réseaux neuronaux a

permis de tirer des remarques concluantes (Paquet, 1997).

Les données utilisées sont généralement, des batteries de ratios financiers, ou des

caractéristiques descriptives d’un échantillon (ou population) donné.

Dans le but d’éviter ou de minimiser les risques d’insolvabilité, les réseaux neuronaux

améliorent nettement le classement des entreprises par rapport aux techniques statistiques

traditionnelles. A leur tour, les AGs ont donné des résultats très remarquables dans ce domaine.

Une étude qui a porté sur les risques de banqueroute, élaborée par Varreto (1998), illustre

19

clairement l’efficacité des AGs par rapport à l’analyse discriminante linéaire. Bien que concluant

sur une relative supériorité de la méthode traditionnelle, l’auteur rappelle le caractère rapide et

moins contraignant que revêtent les AGs dans l’obtention des résultats.

Enfin, la classification offre un terrain d’expérimentation très intéressant au concept des

ensembles flous. La classification floue est née essentiellement suite aux différents problèmes

rencontrés au sujet de la segmentation. Les méthodes traditionnelles ont prouvé leurs limites. Ces

limites sont au nombre de deux :

• La nature des données recueillies en fonction de la complexité du comportement du

consommateur (préférences, attitudes etc.).

• La structure du marché, puisque il n’est pas simple de cerner avec clarté les frontières des

classes d’individus.

L’approche par la logique floue avance le concept du degré d’appartenance, qui détermine

la force avec laquelle un individu appartient aux différentes classes. En ce cas, ces classes

peuvent être considérées comme des sous-ensembles flous.

Les techniques floues fournissent une matrice des degrés d’appartenance de chaque individu

à chaque classe. Parmi ces techniques, l’algorithme C- Moyennes floues, K- plus proches voisins

flous. Ces techniques aident le manager à segmenter un marché, une clientèle donnée selon ses

caractéristiques socio- démographiques, un ensemble de prestations de services, produits etc.

Dans ce contexte, le data mining peut faire apparaître des opportunités inexploitées sur le

marché des assurances. Une compagnie d’assurances irlandaise a découvert un segment étonnant

de ses clients : les hommes jeunes disposant de voitures très chères, mais présentant un risque

minimal. La clef du mystère : des propriétaires de voitures de collection, qui sortent rarement et

les réparent eux- mêmes. La compagnie a créé un contrat spécial, qui a généré 70% de retour sur

investissement en 6 mois.

Enfin, les ensembles approximatifs enregistrent des performances incomparables en matière

de détection de mauvais risques, de clients douteux et surtout de défaillance d’entreprise. Ceci

dit, cette technique est déjà largement utilisée pour augmenter les compétences de diagnostic et

de conseil des collaborateurs en relation avec la clientèle, ainsi que pour tenir compte de la

nature non structurée de la décision, de l’incomplétude des données et leur imprécision.

20

V- CONCLUSION Au vu de cette communication, il apparaît que le data mining s’appuie sur le constat qu’il

existe des connaissances latentes dans les gisements d’informations au sein des entreprises

d’assurances. Il donne reflète ce que les américains appellent la « million dollars décision ». En

d’autres termes, la décision que prendra un manager grâce à une information cachée parmi des

millions de données que possède la compagnie d’assurances. Ainsi, le data mining offre des

perspectives nouvelles pour la statistique assurancielle. Les outils intelligents (réseaux

neuronaux, la logique floue, algorithmes génétiques et ensembles approximatifs), revêtent de

plus en plus, une importance cruciale en finance et en assurance en particulier.

L’apport considérable de ces techniques est varié. Il touche essentiellement à la prévision, à

l’optimisation ou encore à la classification.

Ainsi, la mise en place et en œuvre de systèmes intelligents permet d’instaurer une volonté

continue d’actualiser les données économiques et financières, d’inciter les opérateurs à collecter

mieux les informations et les bien classer. Ce processus de traitement de l’information disponible

sur différents supports est déterminant pour une prise de décision correcte et adéquate.

Ainsi, les administrations (ex : autorité de contrôle) comme les compagnies d’assurances

sont appelées, de plus en plus, à adopter des techniques en vue d’améliorer la performance de

leurs systèmes d’information. Ceci pourrait conduire à réduire l’incertitude, à maîtriser les

risques et à la bonne exécution des stratégies.

Enfin, parmi les pistes de recherche actuelles et futures, on peut citer l’utilisation des

ensembles approximatifs basés sur la relation de dominance, les systèmes d’induction de type

« machine learning » (Kasabov et al, 2003) et les algorithmes génétiques (évolutionnistes) multi-

objectifs (Bonissone, 2005).

21

BIBLIOGRAPHIE

BOLGOT S., MEYFREDI J. C. (1999). Réseaux de neurones, lissage de la fonction d’actualisation et prévision des OAT démembrées : une étude empirique, document GREQAM, Université de la Méditerranée, France.

BONISONNE P. (2005). Developpment and maintenance of fuzzy models in financial applications. “ Téléchargé”. COLLINS J. M., CLARK M. R.(1993). An application of the theory of neural computation to the prediction of

workplace behaviour : an illustration and assessment of network analysis, Personnel Psychology, 46 : 503- 524. CORDON O., GOMIDE F., HERRERA F., HOFFMAN and MAGDALENA L. 2004. Ten Years of Genetic Fuzzy

Systems: Current framework and News Trends. Fuzzy Sets and Systems, 141: 5-31. DEMUTH H., BEALE M. (2001). Neural Network Toolbox : for use with MATLAB, version 4, The Mathworks. GRAHAM J. W., HUANG Z.(1996). A case study in knowledge acquisition for insurance risk assessment using a

KDD methodology. PKAW96. The Pacific Rim Knowledge Acquisition workshop. Sydney, Australia, october. KASABOV N., DENG D., ERZEGOVEZI L., FEDRIZZI M., BEBER A. (2003). Hybrid Intelligent Decision

Support Systems for Risk Analysis and Prediction of Evolving Economic Clusters in Europe, working paper, University of Otago, New Zealand.

LEMAIRE J. (1990). Fuzzy Insurance, ASTIN Bulletin, vol. 20, N° 1. pp. 33-55. LESAGE C. (2001). Evaluation du Risque d’Audit : proposition d’un modèle linguistique, Cahier de Recherche

CEREG , N° 9713, Université Dauphine. MANFRED M. (1995). L’Organisation Apprenante Comme Système de Transformation de la Connaissance en

Valeur. Revue Française de Gestion. Sep.- Oct. N°105 : 43- 49. MONTAGNO R., SEXTON R. S., SMITH B. N. (2002). Using neural networks for identifying organizational

improvment strategies, www. faculty.smsu.edu /r /rss000f. NGUYEN PHUONG T.(2001). Segmentation des Marchés et Approche Neuro-Floue. Workshop Marketing &

Gestion, mars 8th, CREREG, university of Rennes I, France. OHRN A. and KOMOROWSKI J. (2001). ROSETTA: A Rough Set Toolkit for Analysis of Data,

http://www.idi.ntnu.no/~aleks/rosetta/ PAQUET P. (1997). L’utilisation des réseaux de neurones artificiels en finance, document de recherche N° 1-1997.

Laboratoire Orléanais de Gestion. PAVLIDIS N. G., TASOULIS D. K., VRAHATIS M. N. (2002). Financial forecasting through unsupervised

clustering and evolutionary trained neural networks, working paper, Department of Mathematics, University of Patras, Greece.

PAWLAK Z. (1982). Rough Sets. International Journal of Computer and Information Sciences. Vol 11. pp. 341- 356.

SHAPIRO A. F. (2000). Self Computing Applications in Actuarial Science, working paper, Penn State University. The Mathworks, (2001). Fuzzy Logic Toolbox: for Use with MATLAB, User’s Guide. VARETTO F. (1998). Genetic algorithms applications in the analysis of insolvency risk. Journal of Banking and

Finance, 22: 1421-1439. VON ALTROCK C., (2002), Applying Fuzzy Logic to Business and Finance, OPTIMUS. N° 2 : 38-39. YOUNG V. R. (1997). Ajusting indicated insurance rates: fuzzy rules that consider both experience and auxiliary

data. Proceedings of Casualty Actuarial Society, 84, 734- 765.

Documents

DATA MINING EN ASSURANCE : Quelques Utilisations