Ladétectiondefraudesàl’assurance...«La fraude est l’acte malhonnête fait dans l’intention de tromper en contrevenant à la loi ou auxrèglements»1. La fraude à l’assurance

Mémoire présenté devant l’ENSAE ParisTechpour l’obtention du diplôme de la filière Actuariat

et l’admission à l’Institut des Actuairesle 16/11/2016

Par : Jonathan Karsenty

Titre : La détection de fraudes à l’assurance

Confidentialité : �X NON � OUI (Durée : � 1 an � 2 ans)

Les signataires s’engagent à respecter la confidentialité indiquée ci-dessusMembres présents du jury de la filière Entreprise : PwC

Nom : Emmanuel DubreuilSignature :

Membres présents du jury de l’Institut Directeur du mémoire en entreprise :des Actuaires

Nom : Emmanuel DubreuilSignature :

Autorisation de publication et demise en ligne sur un site dediffusion de documents actuariels(après expiration de l’éventuel délai deconfidentialité)Signature du responsable entreprise

Secrétariat :

Signature du candidatBibliothèque :

Ecole Nationale de la Statistique et de l’Administration Economique (ENSAE)3, Avenue Pierre Larousse - 92245, MALAKOFF CEDEX, FRANCE

RemerciementsJe tiens tout d’abord à remercier ma tutrice de stage, Dorothée Jolly, pour m’avoir enca-

dré, motivé et pour m’avoir donné sa confiance lors de la réalisation de ce mémoire.

Je remercie également François Beugin, Emmanuel Dubreuil ainsi que Vincent Gibrais,associés du cabinet PwC pour m’avoir accueilli au sein du service RVMS – Actuariat et FinanceQuantitative.

Je tiens aussi à remercier François Gélan, Mickaël Baret, Pierre Martel, EmmanuelPerrin et Gabrielle Terré pour la qualité de leurs conseils et leur gentillesse.

Je souhaite aussi remercier Sandrine Créhange et Marie-Hélène Sylvestre pour leuraccueil chaleureux, leur bonne humeur et leur écoute tout au long de mon stage.

J’adresse aussi mes remerciements à toute l’équipe encadrante de l’ENSAE ParisTech ettout particulièrement mon tuteur pédagogique, Nicolas Baradel, pour sa disponibilité, sonécoute ainsi que ses conseils avisés.

Je remercie tout particulièrement Arthur Charpentier pour tout ce qu’il m’a appris, pourm’avoir inspiré, pour continuer de m’inspirer et pour avoir renforcé ma curiosité dans les do-maines de l’actuariat, de la data science et des mathématiques.

Enfin, je souhaite remercier mes collègues, amis, famille et surtout mes parents pour m’avoirpermis d’arriver jusqu’ici et sans qui je n’aurais pas pu réaliser ce mémoire.

Je souhaite dédier ce mémoire à ma sœur, Inès Karsenty.

RésuméLa fraude est une problématique bien connue des assureurs à laquelle toutes les branches

de l’assurance sont exposées. Détecter efficacement les fraudes permettrait une diminution desprimes, des provisions techniques et in fine du capital réglementaire sous Solvabilité II. Outreces aspects actuariels, la détection de fraude permettrait aussi, à travers la diminution desprimes, une compétitivité accrue sur le marché de l’assurance.De nos jours, les assureurs indemnisent encore beaucoup trop de sinistres frauduleux. Les chiffresde l’ALFA (Agence pour la Lutte contre la Fraude à l’Assurance) le démontrent, ils estimentl’indemnisation de sinistres frauduleux (en France) à 2,8 milliards d’euros sur l’exercice 2013alors que seulement 8 % (en montant) des fraudes à l’assurance sont détectées. Ce chiffre s’ex-plique par le fait que, pour la plupart des assureurs, les sinistres ne sont expertisés que sous laforte suspicion de leurs gestionnaires de sinistres.

Nous proposons dans ce mémoire une première démarche : développer une méthodologiepermettant de détecter les fraudes en amont du versement de l’indemnisation lors de la décla-ration du sinistre.Il existe un réel problème en matière de données dans le cadre de la fraude à l’assurance. Eneffet, la fraude n’est avérée que si une expertise du sinistre est effectuée. Les données enre-gistrées dans les bases des assureurs ne sont donc pas totalement fiables car conditionnées àla suspicion des gestionnaires de sinistre. Afin de pallier ce problème, nous développons doncles méthodes d’apprentissage non-supervisées (ne nécessitant pas de connaître, a posteriori, lavariable à modéliser, ici : la variable binaire « fraude ») de RIDIT et de PRIDIT.

Nous utilisons la méthode de RIDIT afin de calculer un score de suspicion de fraude pourchaque variable. Cette méthode n’opérant à l’origine que sur des variables catégorielles, nousprolongeons cette méthode (sans perte de précision) aux variables continues. Après l’applicationdu score de RIDIT sur chacune de nos variables, nous obtenons une matrice de scores avec lesindividus en lignes et les variables en colonnes. Nous utilisons alors la méthode de PRIDIT afinde calculer un score global de fraude par individu. Nous aboutissons enfin à une classificationdes sinistres en tant que fraude ou non-fraude, à une évaluation sur un échantillon de donnéestest afin de valider notre démarche ainsi qu’à une critique de la méthodologie.

Mots clefs : Fraude à l’assurance, informations biaisées, méthode non-supervisée, RIDIT, scorepar variable, PRIDIT, score global, classification.

1

AbstractInsurance fraud is a growing issue for all insurance companies, affecting every line of busi-

ness. As fraud cuts profits for insurers, being able to detect them would allow lower premiums,decrease best estimate liabilities and the solvency capital requirement under Solvency II. Be-sides these actuarial aspects, fraud detection would also, through lower premiums, increasecompetitiveness in the insurance market. Nowadays, insurers still pay too many fraudulentclaims. Indeed, ALFA (the French insurance fraud bureau) estimates fraudulent claim pay-ments (in France) to be 2.8 billion euros in 2013 ; however only 8% of this amount was detectedas fraudulent claims. These numbers can be explained by the fact that most insurers wouldonly audit claims under the strong suspicion of their claim handlers.

Therefore, in this thesis a methodology will be presented to detect fraud as soon as theclaim is notified and before any payment is made.Accurate detection of insurance fraud is hampered by a lack of quality data. Insurance fraudis not proven until an audit of the claim is made. Data stored into insurers’ databases are notcompletely reliable because they are conditional upon claim handlers’ suspicion. To overcomethis issue, we will develop non-supervised learning methods : RIDIT and PRIDIT methods.The main advantage of these methods is that they do not require knowing, a posteriori, thevariable to model (in this case, the binary variable «fraud»).

We first start by using the RIDIT method to calculate a fraud suspicion score for eachvariable. As RIDIT only applies to categorical variables, we extended it to continuous variables(without loss of accuracy). After applying RIDIT scoring for each variable, we obtain a fraudsuspicion score matrix. We use the PRIDIT method to obtain an overall fraud suspicion scorefor each claim. According to the score, we are able to classify claims as fraudulent or non-fraudulent, evaluate those methods on a test sample in order to validate our approach andperform a review of the methodology.

Keywords : Insurance fraud, unreliable data, unsupervised method, RIDIT, fraud suspicionscore, PRIDIT, overall fraud suspicion score, classification.

2

Table des matièresRésumé 1

Abstract 2

Introduction 6

1 Cadre de l’étude sur la fraude 71.1 La fraude à l’assurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Les types de fraudes à l’assurance . . . . . . . . . . . . . . . . . . . . . . 71.1.2 Les sanctions de la fraude . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 La place de la fraude dans l’assurance . . . . . . . . . . . . . . . . . . . . . . . . 101.2.1 La fraude dans le processus de souscription . . . . . . . . . . . . . . . . . 111.2.2 La fraude dans le processus de gestion des sinistres . . . . . . . . . . . . 12

1.3 Conséquences de la fraude sur les compagnies d’assurance . . . . . . . . . . . . . 141.3.1 Les effets de la fraude sur les assureurs . . . . . . . . . . . . . . . . . . . 141.3.2 Les actions des assureurs envers la fraude . . . . . . . . . . . . . . . . . . 23

1.4 Objectifs de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.4.1 Recherches bibliographiques . . . . . . . . . . . . . . . . . . . . . . . . . 241.4.2 Données disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.4.3 Objectifs et méthodologies . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 Transformation de RIDIT et score 282.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.1.2 Définitions de RIDIT par Bross . . . . . . . . . . . . . . . . . . . . . . . 282.1.3 Définitions de RIDIT par Brockett . . . . . . . . . . . . . . . . . . . . . 292.1.4 Score de fraude par RIDIT . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.2 Prolongement aux variables continues . . . . . . . . . . . . . . . . . . . . . . . . 322.2.1 Prolongement de la méthode aux variables continues . . . . . . . . . . . 322.2.2 RIDIT dans le cadre continu . . . . . . . . . . . . . . . . . . . . . . . . . 332.2.3 Dominance stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.3 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.3.1 Score de RIDIT pour tous types de variables . . . . . . . . . . . . . . . . 352.3.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3 Méthode de PRIDIT 393.1 Mesure de la qualité de discrimination . . . . . . . . . . . . . . . . . . . . . . . 39

3.1.1 Mesure de la qualité de discrimination dans le cas de variables catégorielles 393.1.2 Mesure de la qualité de discrimination dans le cas de variables continues 413.1.3 Mesure de la qualité de discrimination pour tous types de variables . . . 42

3.2 Score unique de fraude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.1 Projection sur le premier axe factoriel . . . . . . . . . . . . . . . . . . . . 443.2.2 Algorithme itératif pour l’estimation des poids . . . . . . . . . . . . . . . 453.2.3 Utilisation pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3

4 Application de la méthode 504.1 Description des données utilisées . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.1.1 Analyse factorielle des données mixtes . . . . . . . . . . . . . . . . . . . 504.1.2 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2 Application et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.1 Modification des variables . . . . . . . . . . . . . . . . . . . . . . . . . . 614.2.2 Application de RIDIT et PRIDIT . . . . . . . . . . . . . . . . . . . . . . 664.2.3 Résultats et interprétations . . . . . . . . . . . . . . . . . . . . . . . . . 68

5 Critiques et améliorations envisageables 755.1 Critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.1.1 Transposition possible de ces méthodes sur un jeu de données assurantiel 755.1.2 Limites des méthodes de RIDIT et PRIDIT . . . . . . . . . . . . . . . . 775.1.3 Avantages des méthodes RIDIT et PRIDIT . . . . . . . . . . . . . . . . . 77

5.2 Améliorations possibles de la méthodologie . . . . . . . . . . . . . . . . . . . . . 785.2.1 Analyse textuelle des déclarations de sinistre . . . . . . . . . . . . . . . . 795.2.2 Estimateur non paramétrique du taux de fraude . . . . . . . . . . . . . . 81

6 Démonstrations des propriétés associées aux méthodes de RIDIT et PRIDIT 826.1 La fonction d’affectation des scores de RIDIT . . . . . . . . . . . . . . . . . . . 826.2 La méthode de RIDIT affecte des scores de fraude plus faibles sur la classe fraude

que sur la classe non-fraude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876.3 La mesure de la qualité de discrimination s’écrit sous une seconde forme . . . . . 886.4 La mesure de la qualité de discrimination possède une forme unifiée pour tous

types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896.5 La mesure de la qualité de discrimination est à valeur bornée et permet de

discriminer la fraude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Conclusion 92

Note de synthèse 93

Executive summary 100

Bibliographie 106

Table des figures 109

Liste des tableaux 110

Annexes 111

Annexe A Sondage effectué par le cabinetd’études Gartner en 2008 111

Annexe B Rappels techniques 112B.1 Rappels de statistiques non-paramétriques . . . . . . . . . . . . . . . . . . . . . 112B.2 Rappels de dominance stochastique . . . . . . . . . . . . . . . . . . . . . . . . . 113

B.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113B.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

4

B.3 Rappels sur l’Analyse en Composantes Principales – ACP . . . . . . . . . . . . 115B.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115B.3.2 Données utilisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115B.3.3 Cadre théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

B.4 Rappels sur la méthode de Chain-Ladder . . . . . . . . . . . . . . . . . . . . . . 118

Annexe C Matrice des scores de fraudes par la méthode de RIDIT 119

5

IntroductionLa fraude à l’assurance est loin d’être un phénomène marginal dans le secteur qui plus est en

période de crise économique. Pour preuve : en 2014, selon ALFA (Agence pour la Lutte contrela Fraude à l’Assurance), les assureurs dommages ont identifié 42 529 cas de fraude pour 214millions d’euros d’enjeux financier, soit près de quatre fois plus qu’en 2003. En 2014, celle-ciestime le montant total de la fraude à l’assurance à plus de 2,5 milliards d’euros.

Il existe donc un réel enjeu financier à détecter les fraudes à l’assurance. En effet, la détec-tion des fraudes permettrait une diminution des tarifs, des provisions techniques et du SolvencyCapital Requirement sous Solvabilité II.Toutefois, ces enjeux ne sont pas uniquement financiers ou quantitatifs, la détection des fraudesexprime aussi des enjeux commerciaux à travers une anti-sélection des assurés malhonnêtes ; ladiminution des primes permettrait aussi une compétitivité accrue sur le marché de l’assurance.

A la date de rédaction de ce travail, il n’existe aucun mémoire ou thèse portant sur la dé-tection de fraudes à l’assurance. La démarche que nous allons proposer n’est pas totalementex nihilo, elle a déjà fait l’étude de plusieurs articles de recherches notamment aux États-Unisavec Bross (1958), Brockett (1977), Brockett et al (2002) ainsi que Ai et al (2009).

De nos jours, pour la plupart des assureurs, les sinistres ne sont expertisés que sous la fortesuspicion de leurs gestionnaires de sinistre. Peu d’algorithmes mathématiques ou de méthodesstatistiques sont mises en place dans les compagnies d’assurance et la détection de fraudes enest moins précise.Il en résulte alors un réel problème en matière de données. Les sinistres n’étant pas systéma-tiquement expertisés et la fraude n’étant pas systématiquement détectée par les experts desinistres, les données enregistrées dans les systèmes de gestion des assureurs sont donc biaisées.

Dans ce mémoire, nous souhaitons développer et proposer une méthode innovante, simpleet efficace permettant d’identifier la potentielle fraude dès la déclaration d’un sinistre. Afin depasser outre le problème de fiabilité de la variable à modéliser, nous développerons une approchestatistique non-supervisée. Cette approche se basera sur le calcul d’un score de suspicion defraude qui nous permettra in fine de classifier les sinistres en tant que fraude ou non-fraude.

6

1 Cadre de l’étude sur la fraudeDans cette section, nous présenterons le cadre de la fraude à l’assurance ainsi que les objectifs

de cette étude. Nous étudierons uniquement la fraude à l’assurance, i.e. la fraude d’un assuréenvers son assureur et non la fraude en assurance qui regroupe tous les cas de fraude dansune société d’assurance.

1.1 La fraude à l’assuranceAvant de définir la fraude à l’assurance, donnons une définition de la fraude :

«La fraude est l’acte malhonnête fait dans l’intention de tromper en contrevenant à la loi ouaux règlements» 1.

La fraude à l’assurance est un acte malhonnête, réalisé par un assuré, dans l’intentionde tromper un assureur en contrevenant aux conditions générales ou particulières du contratd’assurance.

1.1.1 Les types de fraudes à l’assuranceIl existe plusieurs types de fraudes et ce dans tous les domaines de l’assurance (Vie ou

Non-Vie). Nous distinguons principalement trois cas : la fraude à la souscription, la fraude ausinistre et la fraude de multi-assurance.

Figure 1 – Types de fraudes à l’assurance

La fraude à la souscription est vouée à un principal but : réduire sa prime d’assurance.En effet, un fraudeur donnera des informations volontairement erronées afin de faire baissersa prime d’assurance. Il s’agit d’une des fraudes les plus faciles à réaliser et parmi les moinsdétectables car l’expertise d’un sinistre sur la police d’assurance est requise afin de pouvoir

1. Cette définition est issue du dictionnaire Larousse 2016.

7

espérer détecter la fraude (expertise qui peut ne jamais survenir).

Cette fraude peut aller du «simple» faux renseignement (sur le bien ou la personne assurée)jusqu’à de l’usurpation d’identité.La fraude à la souscription se retrouve donc dans pratiquement toutes les branches de l’assu-rance comme l’assurance Multi-Risques Habitation (MRH), l’assurance automobile, l’assurancevie, l’assurance épargne, l’assurance décès, l’assurance santé, etc.

Exemples :

• Fausse déclaration en assurance MRH e.g. déclarer une habitation comme étant un 3pièces alors que c’est un 4 pièces dans le but de faire baisser la prime.

• Présentation à son assureur de faux papiers d’identité afin de faire baisser sa prime d’as-surance ou encore avoir accès à une garantie ou couverture particulière en assurancedécès.

Nous pouvons également donner l’exemple des courtiers fantômes («Ghost Brokers») auRoyaume-Uni. Même si cet exemple ne fait pas partie du cadre de l’étude telle que traitée dansce mémoire (la fraude ne venant pas directement de l’assuré), il a l’avantage de bien imager lasimplicité de la fraude à la souscription.

Un courtier fantôme crée un site internet fictif de courtage en assurance automobile (parexemple) et paye pour un bon référencement sur un moteur de recherche grâce à un servicepour générer du trafic web. Il vend ensuite de fausses polices d’assurance aux individus l’ayantcontacté via les informations renseignées sur le faux site. Par ailleurs, il souscrit alors de réellespolices d’assurance pour des voitures en utilisant de faux renseignements sur les véhicules afind’obtenir une prime peu élevée.Faisant cela, tout «assuré» 2 souhaitant consulter l’état de son assurance sur le site de la base dedonnées d’assurance véhicule du Royaume-Uni (Motor Insurance Database - MID) par exemple,verrait qu’il est assuré.En sous-traitant de nombreux aspects du processus à des tiers et autres complices tels queles centres d’appels, il est alors possible de réduire les chances de se faire prendre. En cas desinistre, il suffit juste pour le courtier fantôme d’indemniser lui-même ses «assurés».Souvent, les liens avec les tiers et complices sont découverts et les courtiers fantômes sont dé-masqués. Ces cas réels sont sévèrement sanctionnés notamment portés au tribunal pour fraudeet escroquerie passible de prison.

La fraude de multi-assurance est une fraude moins répandue et assez difficile à détecter.Elle consiste à souscrire à de multiples assurances afin de percevoir plusieurs indemnisationsde sinistres, souvent en assurance santé, où il est interdit que le cumul des remboursements deplusieurs complémentaires santé dépasse le montant des dépenses.

Pour la fraude au sinistre, elle peut se décomposer, comme vu sur la figure précédente, enquatre branches. Ci-après, les différents types de fraudes au sinistre :

2. Les personnes (physiques ou morales) souscrivant à de telles polices d’assurance via ce courtier fantômene sont en réalité pas assurées et conduisent alors sans assurance.

8

Figure 2 – Les quatre types de fraudes au sinistre

Voici quelques exemples réels de fraudes au sinistre :

• Par exagération du montant : après un accident de voiture, le réparateur «estime» lemontant des réparations du véhicule à un montant bien supérieur au coût réel des répa-rations ;

• Planifiée : l’assuré déclare le vol de son véhicule et décide de faire disparaître le véhicule(il peut, par exemple, le revendre pour pièces) ;

• Provoquée : l’assuré a contracté un crédit qu’il ne peut pas rembourser et choisit dese suicider. Cependant, provoquer sa propre mort ne permet pas le remboursement duprêt par l’assurance dont pourrait bénéficier ses héritiers, il décide de simuler une mortaccidentelle afin de masquer son suicide ;

• Opportuniste : l’assuré a été cambriolé trois jours avant la souscription d’un contratd’assurance garantissant le vol sur son habitation. L’assuré décide alors de déclarer sonsinistre (antérieur à sa souscription) peu après l’effet de sa police.

Les fraudes au sinistre peuvent survenir de plusieurs manières et sur toutes les branches del’assurance, cette liste n’est donc pas exhaustive.

Nous allons voir dans la sous-section suivante que la fraude, lorsqu’elle est détectée, peutêtre sanctionnée.

1.1.2 Les sanctions de la fraudeLa fraude étant une escroquerie, elle peut être sanctionnée comme étant un délit si l’assu-

reur souhaite engager une procédure judiciaire.

9

L’article 313-1 du Code pénal dispose que : «L’escroquerie est le fait, soit par l’usage d’unfaux nom ou d’une fausse qualité, soit par l’abus d’une qualité vraie, soit par l’emploi de ma-nœuvres frauduleuses, de tromper une personne physique ou morale et de la déterminer ainsi,à son préjudice ou au préjudice d’un tiers, à remettre des fonds, des valeurs ou un bien quel-conque, à fournir un service ou à consentir un acte opérant obligation ou décharge.L’escroquerie est punie de cinq ans d’emprisonnement et de 375 000 euros d’amende».

Hors sanctions pénales, le Code des assurances est lui aussi très précis quant aux sanctionsliées aux fraudes.

Pour la fraude à la souscription et selon l’article L113-8 du Code des assurances «Indépen-damment des causes ordinaires de nullité, et sous réserve des dispositions de l’article L132-26 3,le contrat d’assurance est nul en cas de réticence ou de fausse déclaration intentionnelle de lapart de l’assuré, quand cette réticence ou cette fausse déclaration change l’objet du risque ouen diminue l’opinion pour l’assureur, alors même que le risque omis ou dénaturé par l’assuréa été sans influence sur le sinistre.Les primes payées demeurent alors acquises à l’assureur, qui a droit au paiement de toutes lesprimes échues à titre de dommages et intérêts.Les dispositions du second alinéa du présent article ne sont pas applicables aux assurances surla vie».

Pour les fraudes aux sinistres, l’article L113-1 du Code des assurances énonce que : «Lespertes et les dommages occasionnés par des cas fortuits ou causés par la faute de l’assuré sontà la charge de l’assureur, sauf exclusion formelle et limitée contenue dans la police.Toutefois, l’assureur ne répond pas des pertes et dommages provenant d’une faute intentionnelleou dolosive de l’assuré».

En pratique, l’assureur cherche si la fraude avérée est de bonne ou mauvaise foi :

• Si la fraude est de mauvaise foi, les articles L133-1 et L113-8 sont appliqués ;

• Si la fraude est de bonne foi, l’assureur peut résilier le contrat avec préavis mais doitindemniser l’assuré en appliquant la Règle Proportionnelle de Primes (RPP) :

Montant indemnisé = (Montant initial de l’indemnité)× Primes payéesPrime dues ·

1.2 La place de la fraude dans l’assuranceEn assurance dommages, la fraude est estimée à 2,5 milliards d’euros et plus de 35 000 si-

nistres ont été détectés en tant que fraude en 2011. Ces chiffres ont triplé depuis 2001 en France.

À titre d’exemple, au Royaume-Uni, Aviva a détecté plus de 110 millions de livres sterlingde sinistres frauduleux en 2013. Cela correspond à une augmentation de 19 % par rapport à

3. L’article L132-26 énonce que «L’erreur sur l’âge de l’assuré n’entraîne la nullité de l’assurance que lorsqueson âge véritable se trouve en dehors des limites fixées pour la conclusion des contrats par les tarifs de l’assureur.Dans tout autre cas, si par suite d’une erreur de ce genre, la prime payée est inférieure à celle qui aurait dûêtre acquittée, le capital ou la rente garantis sont réduits en proportion de la prime perçue et de celle qui auraitcorrespondu à l’âge véritable de l’assuré. Si au contraire, par suite d’une erreur sur l’âge de l’assuré, une primetrop forte a été payée, l’assureur est tenu de restituer la portion de prime qu’il a reçue en trop sans intérêt».

10

l’exercice 2012. Aviva détecte plus de 45 sinistres frauduleux avec un total de £300 000 par jour.

En France et sur l’exercice 2009, 65 % des fraudes étaient en assurance Incendie, Accidentset Risques Divers (IARD) et dont 77 % des cas en assurance automobile.Selon l’Argus de l’assurance 4, le vol automobile est un sinistre particulièrement exposé au risquede fraude.

1.2.1 La fraude dans le processus de souscriptionRevenons sur la définition d’un contrat. Comme l’énonce l’article 1101 du Code civil, un

contrat est : «une convention par laquelle une ou plusieurs personnes s’obligent, envers une ouplusieurs autres, à donner, à faire ou à ne pas faire quelque chose».

Nous pouvons alors définir le contrat d’assurance comme étant «un contrat par lequel encontrepartie du versement d’une cotisation (à l’origine ou périodiquement), l’assureur garantitdes prestations précises, en cas de réalisation d’un risque ou dommage clairement identifié dansle contrat» 5.On pourra noter que le contrat d’assurance est un contrat aléatoire car les risques et dommagesidentifiés dans le contrat sont des évènements aléatoires.

Pour qu’un événement soit considéré comme aléatoire, un certain nombre de conditionsdoivent être réunies :

• au moment de la souscription, l’événement ne doit pas encore être réalisé ;

• l’événement doit également être incertain (on ne sait pas si l’événement se réalisera niquand il se réalisera) ;

• enfin, la réalisation du dommage ne doit pas dépendre de la volonté de l’assuré.

Afin de souscrire à un contrat d’assurance, un assuré a plusieurs choix : souscrire via desoffres digitales par internet, par le biais d’un courtier en assurance ou par une agence d’assu-rance.Dans ces trois cas, la procédure est assez similaire :

4. cf : [17]5. Définition donnée par la FFA (Fédération Française de l’Assurance).

11

Figure 3 – Processus usuel de souscription d’un contrat d’assurance

Nous pouvons voir sur la figure ci-dessus où se situe l’opportunité de fraude dans le pro-cessus de souscription d’un contrat d’assurance. En effet, cette opportunité apparaît lorsquel’assureur demande des informations, au souscripteur 6 ou au bénéficiaire 7, sur le bien ou lapersonne assurée afin d’établir un montant de primes (en rouge sur la figure).

En effet, l’assuré a une obligation formelle de répondre exactement aux questions qui luisont posées. Ces questions sont posées dans le cadre d’un questionnaire de type fermé 8 et lapreuve de l’inexactitude des informations fournies par l’assuré est à charge de l’assureur.La preuve de l’inexactitude de ces informations est majoritairement donnée lors de la réalisationd’un sinistre sur le bien ou la personne assurée.

Comme nous l’avons vu plus haut, la fraude au sinistre est un autre type de fraude lui aussitrès courant.

1.2.2 La fraude dans le processus de gestion des sinistresPar définition, le sinistre est un évènement qui englobe tout dommage matériel ou corporel

et qui entraîne (ou non) une indemnisation de la part de l’assureur (ou de l’assurance d’un tiersidentifié mis en faute).

Lors de la survenance d’un sinistre et selon les types de contrats et garanties, l’assuré doiten informer son assureur dans les plus brefs délais (cinq jours en général) afin d’être indemnisé.Il existe des particularités comme le vol automobile où la déclaration doit être faite dans lesdeux jours suivant la survenance du sinistre.

Les contrats d’assurance prévoient également l’obligation de déclarer le vol à l’assureur et àla police, pour donner le maximum de chances à l’assureur de retrouver le voleur et impliquer

6. Personne physique ou morale souscrivant à un contrat d’assurance.7. Personne physique ou morale recevant l’indemnité ou le capital versé par l’assureur.8. Un questionnaire pour lequel la personne interrogée se voit proposée un choix parmi des réponses prééta-

blies.

12

les autorités afin de minimiser le risque de fraude (il en est de même pour le dépôt de plainteau parquet).

Nous pouvons remarquer que la détection des fraudes est au cœur du processus de gestiondes sinistres.

Figure 4 – Processus usuel de gestion d’un sinistre

Lorsque l’assuré effectue sa déclaration à l’assureur, il lui soumet une demande d’indem-nisation (orale ou écrite selon le type de contrat). Le gestionnaire de sinistre, recevant cesinformations, constitue alors un dossier de sinistre. Les informations contenues dans ces dos-siers permettent aux gestionnaires de détecter les possibles fraudes et permettent la bonnegestion de l’indemnisation des sinistres. Un dossier de sinistre comporte (en général) :

• le numéro d’enregistrement du sinistre ;• le numéro de la police ;• le nom de l’assuré/du demandeur/du bénéficiaire ;• un document résumant l’évolution et l’état d’examen du dossier ;• le type d’assurance ;• la date d’ouverture du dossier ;• la date du sinistre ;• la date de notification ;• la description du sinistre ;• des informations sur les demandeurs ;• la date d’évaluation du dommage ;• le cas échéant, la copie électronique et/ou papier des rapports des experts et enquêteurs ;• l’identification de l’expert ;• le coût estimé des dommages ;

13

• la date des versements et leurs montants respectifs ;• le cas échéant, la date du rejet ;• le cas échéant, le nom des intermédiaires ;• la date de clôture du dossier ;• les documents retraçant les contacts de la compagnie avec l’assuré/le demandeur/le bé-

néficiaire.

Ces informations sont essentielles pour la bonne gestion d’un sinistre mais sont aussi parfoistrès révélatrices sur la nature frauduleuse (ou non) d’un sinistre.

1.3 Conséquences de la fraude sur les compa-gnies d’assurance

Le but de l’assurance est d’indemniser un assuré qui a subi une perte, ou de restaurer àun assuré la même situation financière dans laquelle il se trouvait avant la perte. L’assuranceest basée sur le principe de mutualisation et est conçue pour se protéger contre des pertesimportantes, mais incertaines. La fraude à l’assurance passe outre ce système et les fraudesépuisent les fonds versés par les nombreux clients honnêtes pour couvrir les pertes réelles. Lafraude a donc un impact non seulement sur les assureurs, mais aussi sur leurs clients.

1.3.1 Les effets de la fraude sur les assureursLa fraude affecte la tarification des produits d’assurance

La fraude à l’assurance n’est pas un délit insignifiant et n’affecte pas uniquement les assu-reurs. La grande majorité des assurés honnêtes finissent par payer pour la malhonnêteté desfraudeurs à cause de primes d’assurance plus élevées.En effet, la fraude affecte la tarification des produits d’assurance et a tendance à faire augmen-ter les montants des primes. Détecter la fraude (sans prendre en compte le prix de la détection)permettrait d’établir un tarif plus précis et plus faible basé sur le risque des assurés honnêtes.Cela aura pour effet de rendre l’assureur qui détecte les fraudes plus compétitif sur le marchéde l’assurance (notamment en assurance automobile responsabilité civile et dommage aux tiersoù les tarifs sont assez équivalents entre les assureurs sur le marché français).

Nous introduisons la prime pure : c’est l’espérance des coûts liés aux sinistres pour un assuré.Cette prime se décompose en deux parties : le coût moyen et la fréquence.

Prime Pure = PP = E[N∑i=1

Xi

]= E[N ] · E[X1]

Avec les variables Xi, représentant le coût des sinistres, de même loi, mutuellement indé-pendantes et indépendantes de N le nombre de sinistres.

Détecter la fraude signifierait alors enregistrer un nombre de sinistres inférieur ou égal aunombre de sinistres enregistrés si la fraude n’était pas détectée. Nous aurions alors une variablealéatoire N ′ = N −NF avec NF une variable aléatoire (de fonction de répartition F ) à valeurdans {0, 1, ..., N} correspondant au nombre de fraudes détectées.

14

Nous pouvons avancer que N ′ est plus avantageux pour un assureur que N car en moyenne,N ′ est plus petit que N .

E [N ′] = E [N −NF ] = E[N ]− E[NF ] ≤ E[N ]

Il en suit alors que (sous l’hypothèse que Xi|Fraude soit de même loi que Xi ∀i) :

Prime Pure (sans fraude) = PP ′ = E

N ′∑i=1

Xi

= E[N ′] · E[X1] ≤ E[N ] · E[X1] = PP

La prime pure associée à un assuré, après détection de fraudes, PP ′ est donc bien inférieureou égale à la prime pure PP sans détection de fraudes.

La fraude affecte le provisionnement

La fraude oblige les assureurs à indemniser leurs assurés pour des sinistres à de faux montantsbien supérieurs aux montants réels des sinistres ou même à indemniser des sinistres n’ayant ja-mais eu lieu. Cela a pour effet de diminuer les capacités d’investissement des assureurs etd’obliger les assureurs à provisionner plus que leur sinistralité réelle. Détecter efficacement lesfraudes permettrait aux assureurs de doter de plus faibles provisions.

Établissons un triangle des paiements des sinistres sur une branche assurance automobiledommages :

A/D 0 1 2 3 4 50 396 144 5 2 1 31 416 160 5 3 12 478 182 7 33 523 207 134 609 2305 644

Tableau 1 – Exemple d’un triangle de paiements de sinistres (en M€)

La première colonne (A) correspond à l’année de survenance des sinistres et la premièreligne (D) correspond à l’année de développement des paiements.

Nous pouvons alors cumuler les paiements :

A/D 0 1 2 3 4 50 396 540 545 547 548 5511 416 576 581 584 5852 478 660 667 6703 523 730 7434 609 8395 644

Tableau 2 – Triangle des paiements cumulés de sinistres (en M€)

15

Nous pouvons utiliser la méthode de Chain-Ladder 9 afin de compléter la partie basse, man-quante, du triangle.

A/D 0 1 2 3 4 50 396 540 545 547 548 5511 416 576 581 584 585 588,202 478 660 667 670 671 674,863 523 730 743 746 747,6 751,734 609 839 849 852,8 854,3 859,025 644 889 900,1 904,1 905,7 910,64

Tableau 3 – Triangle complété des paiements cumulés de sinistres (en M€)

Nous obtenons alors le montant à provisionner pour les sinistres à payer dans le futur.

Année Dernier Ultime PSAP0 551 551 01 585 588,20 3,22 670 674,86 4,863 743 751,73 8,734 839 859,02 20,025 644 910,64 266,64

Tableau 4 – Calcul de la Provision pour Sinistres À Payer (PSAP – en M€)

Nous calculons la provision pour sinistres à payer par année en calculant la différence entrela projection des paiements à l’ultime et le dernier cumul de paiements connu.Le montant de provisions pour sinistres à payer est donc la somme des PSAP pour toutes lesannées soit 303 M€.

En supposant que nous détectons en moyenne 8 % de fraudes (en montants sur une brancheIARD) par an, nous pouvons alors appliquer sur notre triangle des paiements, une détectionde 8 % de montants frauduleux.

A/D 0 1 2 3 4 50 364,32 496,8 501,4 503,24 504,16 506,921 382,72 529,92 534,52 537,28 538,22 439,76 607,2 613,64 616,43 481,16 671,6 683,564 560,28 771,885 592,48

Tableau 5 – Triangle des paiements cumulés de sinistres (déduits de 8 % de fraudes – en M€)

De la même manière que sur le triangle précédent, nous complétons ce nouveau triangle.

9. Nous rappelons brièvement la méthode de provisionnement déterministe dite de Chain-Ladder en annexeB.4.

16

A/D 0 1 2 3 4 50 364,32 496,80 501,40 503,24 504,16 506,921 382,72 529,92 534,52 537,28 538,20 541,152 439,76 607,20 613,64 616,40 617,49 620,873 481,16 671,60 683,56 686,61 687,82 691,594 560,28 771,88 781,12 784,61 785,99 790,305 592,48 818,27 828,06 831,76 833,23 837,79

Tableau 6 – Triangle complété des paiements cumulés de sinistres (déduits de 8 % de fraudes– en M€)

Nous obtenons alors une diminution de 8 % de PSAP qui s’élève à 279 M€.

Notons que la méthode pour calculer la PSAP ici est une méthode déterministe, ce qui im-plique que nous avons la PSAP après détection des fraudes strictement égale à une déductiondu taux de fraude sur la PSAP initiale.

La détection de fraude diminue bien les montants de provisions.

Impact de la fraude sur le capital réglementaire sous Solvabilité II

La réforme Solvabilité II résulte de la volonté de protéger les intérêts des assurés en leurgarantissant que les compagnies d’assurances dans lesquelles ils souscrivent leurs polices d’as-surance pourront faire face à leurs engagements. Solvabilité II définit deux exigences en capitalafin de faire face à des situations défavorables pour l’assureur.

Les exigences, définies dans la réforme Solvabilité II, sont structurées en 3 piliers commenous pouvons le voir dans la figure ci-après :

17

•

•

•

Figure 5 – Les piliers de la réforme Solvabilité II

Le premier pilier définit le calcul des provisions techniques ainsi que les exigences quantita-tives en matière de fonds propres, le MCR et le SCR :

• Le SCR (Solvency Capital Requirement) correspond au montant de fonds propres néces-saire pour éviter la ruine à l’horizon 1 an avec probabilité 99,5 % ;

• Le MCR (Minimum Capital Requirement), est le minimum de capital que l’entreprise doitdétenir en permanence, sous peine du retrait de l’agrément lui permettant d’exercer sesfonctions d’assurance par l’autorité de contrôle.

La détection des fraudes à l’assurance permet, comme nous l’avons montré précédemment,de diminuer les tarifs et les montants de provisions techniques. Nous pouvons aussi montrerque la détection de fraude permettrait de diminuer le montant de capital à allouer au SCR. Eneffet, la détection de fraudes limiterait les risques évalués lors du calcul du SCR.

Nous pouvons calculer le SCR selon deux manières : par la formule standard ou par unmodèle interne. En formule standard, nous calculons l’exigence de capital selon une architecturemodulaire :

• Pour chaque sous-module, l’exigence de capital est calculée à l’aide d’un scénario fournidans les spécifications et règles définies par l’Union Européenne ;

• Les différentes exigences de capital sont agrégées à l’aide de matrices de corrélation suivantdeux niveaux d’agrégation entre les sous-modules et entre les modules.

Le SCR est la somme de 3 éléments :

SCR = BSCR + SCRopérationnel + Ajustcapacité d’absorption des pertes

18

Le module risque opérationnel de la formule standard prend en compte «le risque qui dé-coule de pertes dues à des procédures, des membres du personnel ou des systèmes internesinadéquats ou défaillants, ou bien à des événements externes, selon un calcul fondé sur lesfacteurs» 10.Les pertes liées à des sinistres frauduleux augmentant le SCR opérationnel, la détection desfraudes (par définition du risque opérationnel) permet de diminuer ce montant du SCR.

Le BSCR (Basic Solvency Capital Requirement), est l’agrégation de 6 modules de risque :

• Risque de souscription non-vie ;

• Risque de souscription vie ;

• Risque de souscription santé ;

• Risque de marché ;

• Risque de contrepartie ;

• Risque d’actif intangible.

Le détail de chacun des sous-modules est donné dans le graphique ci-dessous :

Figure 6 – Cartographie des risques à agréger lors du calcul du SCR

Diminuer l’exigence de capital d’un sous-module permet alors de diminuer l’agrégation glo-bale qu’est le SCR. Nous pouvons montrer, en déroulant les formules de calcul du SCR, que ladétection de fraude diminue la valeur du SCR.

10. Définition donnée dans le Règlement Délégué Solvabilité II : [14].

19

Dans l’exemple précédent, nous avons effectué le calcul de la PSAP sur une branche assu-rance dommage automobile. Cette branche est une des Lines of Business (LoB) décrite dans lerèglement délégué de Solvabilité II [14].

En effet, la LoB 5 (Autre assurance des véhicules à moteur) correspond aux «Engagementsd’assurance couvrant tout dommage subi par les véhicules à moteur terrestres (y compris lesvéhicules ferroviaires).».

Cette LoB intervient dans le calcul du sous-module du SCR primes et réserve, agrégé ensuiteen SCR non-vie.

L’exigence de capital pour le risque de primes et de réserve en non-vie, comme défini dansl’article 115 du règlement délégué, se calcule comme suit :

SCRnl prem res = 3 · σnl · Vnloù :

• σnl représente l’écart-type du risque de primes et de réserve en non-vie ;

• Vnl représente la mesure de volume (exposition pécuniaire) pour le risque de primes et deréserve en non-vie.

La mesure de volume pour le risque de primes et de réserve en non-vie est égale à la sommedes mesures du volume pour le risque de primes et de réserve des LoB visées à l’annexe II durèglement délégué i.e. Vnl =

∑s

Vs.

Pour toutes les LoB, la mesure de volume pour le risque de primes et de réserve d’une LoBs donné se calcule comme suit :

Vs = (Vprem,s + Vres,s) · (0, 75 + 0, 25 ·DIVs)

où :

• Vprem,s représente la mesure de volume pour risque de primes de la LoB s (elle se calculecomme la somme des primes acquises et de la valeur actuelle attendue des primes àacquérir au cours des 12 derniers mois) ;

• Vres,s représente la mesure de volume pour le risque de réserve de la LoB s (elle se calculecomme étant la valeur de la meilleure estimation des PSAP appelée aussi «Best EstimateLiabilities») ;

• DIVs représente le facteur de diversification géographique de la LoB s (donné dans l’An-nexe III du règlement délégué).

L’écart-type du risque de primes et de réserve en non-vie se calcule comme suit :

σnl = 1Vnl

√∑s,t

Corr(s, t) · σs · Vs · σt · Vt

où :

20

• Vnl représente la mesure de volume pour le risque de primes et de réserve en non-vie ;

• la somme couvre toutes les combinaisons possibles (s, t) des segments visés à l’annexe IIdu règlement délégué ;

• Corr(s,t) représente le coefficient de corrélation pour le risque de primes et de réserve ennon-vie de la LoB s et de la LoB t visées à l’annexe IV du règlement délégué ;

• σs et σt représentent les écarts-types du risque de primes et de réserve en non-vie des LoBs et t ;

• Vs et Vt représentent les mesures du volume pour le risque de primes et de réserve desLoB s et t.

Pour toutes les LoB visées à l’Annexe II du règlement délégué, l’écart-type du risque deprimes et de réserve en non-vie d’une LoB s donnée se calcule comme suit :

σs =

√σ2prem,s · V 2

prem,s + σprem,s · Vprem,s · σres,s · Vres,s + σ2res,s · V 2

res,s

Vprem,s + Vres,s

où :

• σprem,s représente l’écart-type du risque de primes en non-vie de la LoB s ;

• σres,s représente l’écart-type du risque de réserve en non-vie de la LoB s ;

• Vprem,s représente la mesure de volume pour le risque de primes de la LoB s ;

• Vres,s représente la mesure de volume pour le risque de réserve de la LoB s.

Nous avons montré précédemment que, modulo un facteur d’actualisation, la détection defraude permettait une diminution du volume de primes ainsi que du volume de réserves.Nous avons donc V ′prem,s ≤ Vprem,s ainsi que V ′res,s ≤ Vres,s.

Nous pouvons à présent calculer l’écart-type du risque de primes et de réserve d’une LoB saprès détection de fraudes :

σ′s =

√σ2prem,s · V ′2prem,s + σprem,s · V ′prem,s · σres,s · V ′res,s + σ2

res,s · V ′2res,sV ′prem,s + V ′res,s

≤

√σ2prem,s · V 2

prem,s + σprem,s · Vprem,s · σres,s · Vres,s + σ2res,s · V 2

res,s

Vprem,s + Vres,s

≤ σs

Nous avons bien un écart-type plus faible sur une LoB où nous détectons la fraude.

Nous pouvons calculer, à présent, l’écart-type du risque de primes et de réserve non-vieaprès détection de fraudes :

21

σ′nl = 1V ′nl

√∑s,t

Corr(s, t) · σ′s · V ′s · σ′t · V ′t

≤ 1Vnl

√∑s,t

Corr(s, t) · σs · Vs · σt · Vt

≤ σnl

Avec V ′s = V ′res,s+V ′prem,s, en ne considérant aucune diversification géographique et V ′s ≤ Vs.

La mesure de volume pour le risque de primes et réserve en non-vie est aussi plus faible aprèsdétection de fraudes car il s’agit de la somme des volumes de primes et réserve sur toutes les LoB.

Nous obtenons donc un SCR primes et réserve non-vie, après détection de fraudes, plusfaible que le SCR primes et réserve non-vie, sans détection de fraudes car :

SCR′nl prem res = 3 · σ′nl · V ′nl≤ 3 · σnl · Vnl≤ SCRnl prem res

En agrégeant les autres sous-modules composant le SCR non-vie, nous obtenons un SCRnon-vie après détection de fraudes plus faible que le SCR non-vie sans détection de fraudes. Anoter que l’impact sur le SCR non-vie agrégé est plus faible qu’avant l’agrégation sur le SCRprimes et réserve.

Ensuite, en agrégeant les autres modules composant le BSCR, nous obtenons un BSCRaprès détection de fraudes plus faible que le BSCR sans détection de fraudes.

Nous pouvons ainsi calculer le SCR après détection de fraudes (avec BSCR′ le BSCR aprèsdétection des fraudes et SCR′opérationnel le SCR du risque opérationnel diminué par la détectiondes fraudes) :

SCR′ = BSCR′ + SCR′opérationnel + Ajustcapacité d’absorption des pertes

≤ BSCR + SCRopérationnel + Ajustcapacité d’absorption des pertes

≤ SCR

La détection de fraude permet bien de diminuer le montant de capital à allouer au SCR.

Autres effets de la fraude sur l’assurance

Il est aussi intéressant de remarquer que la fraude, notamment celle à la souscription, aug-mente l’asymétrie d’information déjà existante entre les assureurs et leurs assurés. En effet, lesassureurs ne connaissent déjà qu’imparfaitement les qualités intrinsèques des individus qu’ilssont censées couvrir contre un certain nombre de risques. Dans le cas de fraudeurs à la sous-cription, les assureurs possèdent alors des informations totalement erronées sur ces clients.

Même si la fraude est un réel problème reconnu par les assureurs, il leur est assez difficiled’initier une procédure d’expertise pour chaque sinistre suspicieux. En effet, même si les as-sureurs français investissent dans des logiciels spécifiques de détection des fraudes, beaucoupd’entre eux utilisent encore la suspicion (basée sur des critères subjectifs) des gestionnaires de

22

sinistres afin de sélectionner les sinistres pour lesquels une procédure d’expertise s’avère néces-saire afin de détecter une possible fraude.Cette dernière pratique est problématique car cette détection n’est pas efficace (environ 20 %des sinistres expertisés ne sont pas des fraudes). Afin de fidéliser les clients, la gestion des si-nistres doit être efficace et le processus d’indemnisation doit être rapide. Les assurés dont lessinistres (honnêtes) sont expertisés peuvent parfois attendre des mois avant d’être indemnisés.

La non-satisfaction de ces clients honnêtes peut créer un effet d’anti-sélection.En effet, sur un marché avec des produits à tarifs équivalents, les assurés honnêtes d’un assu-reur, possédant d’importants délais de règlements, auront tendance à se diriger vers un autreassureur et la proportion de fraudeurs sur le portefeuille du premier assureur en sera doncaugmentée.

Il est donc primordial pour les assureurs de mettre en place un dispositif de détection desfraudes afin de limiter l’indemnisation de sinistres frauduleux non détectés ainsi que de diminuerleurs tarifs afin d’être plus compétitifs sur le marché et fidéliser leurs clients.

1.3.2 Les actions des assureurs envers la fraudeL’assureur est le premier acteur de la chaîne de détection de la fraude car c’est généralement

lui qui est le premier à être en possession des pièces susceptibles d’être analysées. L’assureurseul n’est, en revanche, pas en moyen de détecter et prouver la fraude.C’est dans cette optique d’aide à la détection des fraudes qu’a été créée l’Agence pour la luttecontre la fraude à l’assurance (ALFA).

ALFA est une association (Loi 1901) regroupant l’ensemble des sociétés et mutuelles d’assu-rances. Elle a été créée à l’initiative de la FFSA (Fédération Française des Sociétés d’Assurance)et du GEMA (Groupement des Entreprises Mutuelles d’Assurances), aujourd’hui regroupés enla FFA (Fédération Française de l’Assurance).

Ses principales missions sont :

• Être une interface entre les assureurs et les pouvoirs publics (chargés de la police judi-ciaire) ;

• Informer les assureurs de ses études, méthodologies et de la documentation techniquedisponible et dans ce sens procéder en commun à une réflexion sur le problème de lafraude à l’assurance et de tenir une documentation technique et statistique ;

• Apporter un service efficace à la lutte contre la fraude par :

− La gestion d’outils spécifiques (outils de transferts d’informations, outils de commu-nications entre les divers assureurs, ...) ;

− Coordonner les enquêtes avec de multiples assureurs ;− Acquérir et restituer l’expérience déduite des enquêtes.

• Fournir un annuaire des enquêteurs certifiés d’assurance ;

• Fournir un fichier recensant tous les fraudeurs.

23

Tous les assureurs cherchent à réduire les coûts en essayant de limiter les paiements liés àdes sinistres frauduleux.D’après un sondage établi par le cabinet Gartner en 2008, «les (assureurs) français étaient ob-nubilés par la fraude», puisque 33,3 % ont investi dans les outils informatiques à destination del’analyse ou la détection des fraudes.

Nous pouvons trouver, dans la figure ci-dessous, une partie de ce sondage 11 :

0.0

0.2

0.4

0.6

Analyse ou détection desfraudes

Délocalisation de certainesopérations de gestion de

sinistreMesure de l'efficacité en cas

de sinistresMise en place d'une solution

de gestion de sinistres

Nouvelles capacitésinformatiques au système de

déclarations de sinistresRéactualisation du système de

gestion des sinistres

Renouvellement du système degestion administrative desdéclarations de sinistres

Pou

rcen

tage

Assureurs Allemands Britanniques Français

Avez−vous investi dans outils à destination de ...

Figure 7 – «Les (assureurs) français obnubilés par la fraude» (Source : Gartner - 2008)

Face à une demande croissante de la part des assureurs, certaines entreprises spécialiséesdans la détection de fraude sont apparues.Ces entreprises sont très hétéroclites. Il existe à la fois des offres de multinationales que desoffres de petites entreprises en démarrage (ou «start-up»). Parmi les plus grandes entreprisesfournissant déjà les assureurs en logiciels de gestions de données et d’applications statistiques,certaines fournissent des extensions à leurs logiciels afin de détecter les fraudes. Parmi les pluspetites, telles que les start-up, ce n’est pas un logiciel qui est proposé mais un service externede détection de sinistres frauduleux.

1.4 Objectifs de l’étude1.4.1 Recherches bibliographiques

La détection de fraudes à l’assurance est un sujet qui a très peu été étudié ces dernièresannées. Les recherches bibliographiques sur la fraude à l’assurance font ressortir deux grandsnoms en économie : Georges Dionne et Pierre Picard.Ces deux chercheurs ont publié de nombreux articles, il y a un peu plus de cinq ans, sur lafraude à l’assurance et notamment sur l’asymétrie d’information due à la fraude, l’influence de

11. Le graphique original du sondage est en annexe [A] page [111]

24

la fraude sur le cycle économique de l’assurance et le calcul du coût optimal de l’expertise dela fraude à assurance.Ces sujets, bien qu’ils ne soient pas directement liés à la détection des fraudes, peuvent y êtrecouplés afin de calibrer les méthodes de détection sous la contrainte des coûts optimaux des ex-pertises de sinistres. En revanche, nous n’aborderons pas cette problématique dans ce mémoire.

À la date de rédaction du présent mémoire, peu ou aucun travaux d’actuariat portant sur ladétection de fraude ont été recensés en France. Cependant, en Europe et au Canada, quelquesmémoires de fin d’études en «Data Science» (Science de la Donnée) et Statistiques portent surla détection de fraude en assurance (Poissant 2008 et Do Vale 2012).Il existe aussi aux États-Unis des thèses et publications de recherches au journal d’actuariatnord américain sur ce sujet (Ai 2008 et Ai et al 2009).

Ces ouvrages ont permis d’une part de prendre connaissance des méthodologies et pratiquesen recherche sur la détection de fraude et d’autre part de centrer les recherches nécessaires à laréalisation de ce mémoire.

1.4.2 Données disponiblesIl n’existe, pour l’instant, pas de données de fraude en libre accès sur les dépôts de bases

de données tels que Weka ou UCI Machine Learning sur la fraude à l’assurance et l’obtentionde données de fraude deumeure difficile. Les assureurs sont en effet peu enclins à partagerleurs données d’assurance même anonymisées, à plus forte raison leurs données de fraudes oùquelques statistiques descriptives simples permettraient à des personnes mal intentionnées demieux frauder à l’assurance.

Nous utiliserons un jeu de données sur une problématique connexe : la fraude au crédit 12.

Ce jeu de données a été fourni par le Professor Dr. Hans Hofmann à l’Institut für Statistikund Ökonometrie de l’Universität Hamburg (Institut de statistiques et d’économétrie de l’uni-versité d’Hamburg). Le but de ce jeu de données est de classer les contractants d’un crédit à laconsommation comme étant des fraudeurs ou non fraudeurs (en crédit, le défaut de paiementest considéré comme une fraude).

Nous n’avons pas de date exacte de ces données, elles se placent historiquement dans lecontexte de l’économie Allemande à l’époque du Deutsche Mark et où les crédits étaient par-ticulièrement facilités (notamment les crédits à la consommation) et ce, même si les individusavaient déjà eu un défaut de paiement et étaient recensés au registre de la Schutzgemeinschaftfür allgemeine Kreditsicherung (Société privée allemande de protection des crédits).

Le jeu de données est composé d’une variable à expliquer, la variable class représentant laclasse de l’individu (non-fraudeur ou fraudeur) ainsi que 20 variables explicatives :

• la variable catégorielle over_draft correspondant au montant d’argent disponible sur lecompte courant de l’individu sous forme d’intervalles de montants ;

12. Le jeu de données utilisé est disponible ici au format arff : http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff .

25

http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff

http://weka.8497.n7.nabble.com/file/n23121/credit_fruad.arff

• la variable continue credit_usage correspondant à la durée du crédit en mois ;

• la variable catégorielle credit_history représente l’historique de crédits du contractant(tous les crédits sont payés, aucun crédit connu, etc) ;

• la variable purpose correspondant au but d’usage du crédit (crédit étudiant, crédit auto-mobile, etc) ;

• la variable continue current_balance correspondant au montant du crédit emprunté ;

• la variable catégorielle Average_Credit_Balance représentant le montant d’argent surun compte épargne (l’équivalent en France serait le Livret A). Cette variable est composéede modalités représentant des intervalles de montant ;

• la variable catégorielle employment représentant l’ancienneté dans un emploi selon desintervalles de temps en années.

• la variable catégorielle location caractérisant des zones géographiques d’Allemagne ;

• la variable personal_status représentant le statut marital ainsi que le genre d’un indi-vidu (Femme, Homme marié, Homme célibataire ou Homme divorcé/veuf) ;

• la variable other_parties indique les autres parties du crédit tels que des garants ou desco-contractants au crédit ;

• la variable residence_since représentant le nombre d’années passées dans l’établisse-ment bancaire ;

• la variable property_magnitude correspondant aux autres biens personnels du contrac-tant au crédit (immobilier, assurance vie ou voiture) ;

• la variable quantitative cc_age indique l’âge de l’individu ;

• la variable other_payment_plans correspondant aux autres moyens de paiement desmensualités du crédit ;

• la variable housing nous indique si le contractant habite dans une location, s’il est pro-priétaire ou hébergé gratuitement ;

• la variable existing_credits représentant le nombre de crédits en cours ;

• la variable catégorielle job indique le niveau de qualification dans un emploi (très qualifié,qualifié, non-qualifié ou non-qualifié et sans emploi) ;

• la variable num_dependents indique le nombre de personnes capables de garantir le crédit ;

• la variable binaire own_telephone indique si l’individu possède un téléphone ;

• la variable binaire foreign_worker indique si le contractant au crédit est un travailleurétranger.

Ce jeu de données est ce qui se rapprocherait le plus d’un jeu de données d’assurance. Eneffet, nous pouvons utiliser ce jeu de données comme étant issu d’une assurance crédit.

C’est donc avec ce jeu de données que nous travaillerons tout au long de ce mémoire.

26

1.4.3 Objectifs et méthodologiesIl existe un réel problème en matière de données avec la fraude à l’assurance. Pour pouvoir

identifier un individu comme ayant commis une fraude lors de la déclaration d’un sinistre, uneexpertise d’un sinistre sur la police d’assurance est nécessaire. De plus, l’expertise d’un sinistrecoûte cher et est conditionnée à la suspicion du gestionnaire de sinistre.Cela implique donc que la variable que nous souhaitons modéliser (ici, la variable binaire fraude,indiquant la nature frauduleuse ou non d’un sinistre) possède un biais dû à un manque d’infor-mations.

L’objectif de ce mémoire est donc de proposer et de développer une démarche (mathéma-tique) pouvant d’une part, pallier la problématique issue de la fiabilité de la variable à modéliseret d’autre part, développer une solution facilement implémentable en interne et capable de don-ner des alertes sur la nature frauduleuse d’un sinistre.

Les méthodes que nous allons vous présenter, dans les sections 2 et 3, font partie d’uneméthodologie à mi-chemin entre l’analyse de données et l’apprentissage statistique 13.

La fraude à l’assurance, par sa nature peu observable, résulte en un manque d’informationou à des informations biaisées sur notre échantillon et empêche donc les méthodes superviséesou les statistiques paramétriques d’être performantes.

Dans le cas où l’échantillon de données ne possède pas de cas de fraude avérée (en raisondu faible nombre voire de l’absence d’expertise des sinistres ou parce que la suspicion du ges-tionnaire n’est pas assez élevée) il nous sera impossible d’utiliser ces méthodes.De plus, si un faible nombre de fraudes a été détecté sur l’échantillon de données, les algorithmesn’auront pas assez d’informations pour être performants.

Il est donc plus judicieux d’utiliser une méthode non-supervisée pour détecter la fraude àl’assurance.

13. L’objectif général de l’apprentissage statistique est d’élaborer des procédures automatiques qui permettentde mettre en évidence des règles générales à partir d’exemples. Il s’agit donc d’imiter le fonctionnement inductifdu cerveau humain dans le but de développer des systèmes d’intelligence artificielle. L’apprentissage statistiqueest aussi considéré aujourd’hui comme une branche de l’Informatique (ou, plus précisément, de la discipline«Computer Science»). Cependant, les liens avec la Statistique sont très étroits, notamment avec la théorienon-paramétrique.

Tout comme en statistique, le point de départ en apprentissage est l’échantillon Z1, ..., Zn, que l’on veututiliser, par exemple, pour faire des prévisions. Il existe différentes branches de l’Apprentissage caractériséespar la nature de l’échantillon et l’objectif poursuivi.

Apprentissage supervisé : les observations Zi = (Xi, Yi) sont composées d’une variable d’entréeXi ∈ Rd, souvent appelée entrée (parfois prédicteur ou «feature»), et d’une variable sortie Yi appelée étiquetteou «label», appartenant soit à un ensemble fini soit à R. L’objectif est de prévoir, pour un x ∈ Rd donné (choiside façon déterministe ou aléatoire), la valeur de l’étiquette correspondante.

Apprentissage non-supervisé : les observations Zi ne sont pas étiquetées. Le plus souvent, Zi ∈ Rd pourun d ∈ N, assez grand, et le but est de caractériser la loi de probabilité ayant engendré ces observations. Leregroupement («clustering»), l’estimation de densité ou encore l’Analyse en Composantes Principales (ACP)sont les problèmes les plus étudiés en apprentissage non-supervisé.

27

2 Transformation de RIDIT et scoreDans cette section, nous développerons l’utilisation de la transformation de RIDIT (acro-

nyme de «Relative to an Identified Distribution unIT») telle qu’elle a été définie en 1958 parBross puis son amélioration par Brockett en 1977 dans le but de calculer un score de fraude.

2.1 Définitions2.1.1 Contexte

Historiquement, les analyses via RIDIT sont utilisées en épidémiologie 14 et en bio-statistique.En effet, les jeux de données utilisés en épidémiologie (comme en bio-statistique) sont souventcomposés de variables catégorielles car elles sont les résultats de questionnaires.

Notons qu’en assurance, les données récoltées auprès des assurés sont aussi majoritairementdes données composées de variables catégorielles (e.g. la couleur du véhicule de l’assuré, le genrede l’assuré, la situation familiale de l’assuré, la présence d’une garantie, etc). L’utilisation deméthodes statistiques analytiques devient alors assez restreinte car la plupart de ces méthodess’utilisent principalement sur des variables quantitatives.

C’est dans ce contexte que s’inscrit la méthode de RIDIT. Cette méthode permet de re-transcrire une information qualitative en une information quantitative via une certaine trans-formation (que nous développerons dans cette partie).

Le nom de RIDIT fait écho aux méthodes probit (PROBability unIT) et logit (LOGisticunIT), deux autres transformations qui permettent de changer d’unité.

Néanmoins, contrairement aux méthodes probit et logit (où la transformation est liée à unedistribution de probabilité théorique e.g. la loi normale), la méthode de RIDIT est liée à unedistribution empirique i.e. basée sur la distribution observée d’une variable sur un échantillond’individus.

De plus, la méthode de RIDIT est étroitement liée aux autres méthodes de statistiquesnon-paramétriques (de distributions empiriques) basées sur les rangs comme par exemple letest des rangs de Wilcoxon 15.

2.1.2 Définitions de RIDIT par BrossIrwin D.J. Bross définit pour la première fois la méthode de RIDIT en 1958. De manière

formelle, nous pouvons l’énoncer comme suit :

Définition 1.Soit X une variable catégorielle (associée à un certain échantillon) à k modalités possibles.

14. Nous pouvons nous référer à la publication de Kantor et Winkelstein (1968)15. Cette liaison a été démontrée par Brockett et al en 2002

28

Posons pX = (pX1 , pX2 , ..., pXk) le vecteur des proportions observées pour chacune des modalités

de la variable X sur son échantillon avec pXi≥ 0, ∀i ∈ {1, ..., k} et ∑k

i=1 pXi= 1.

Nous définissons alors le score de RIDIT de la variable X pour la catégorie i ∈ {1, ..., k} notéRXi

comme étant la transformation suivante :

RXi=∑j<i

pXj+ 1

2 pXi

Nous pouvons reprendre l’exemple utilisé par Kantor dans ses études en épidémiologie surla pression sanguine afin d’imager la transformation de RIDIT. Supposons que nous avons unevariable explicative représentant la pression sanguine. Cette variable, pour diverses raisons, estcatégorielle et nous ne pouvons donc pas utiliser les tests statistiques «classiques».Kantor utilise alors la transformation de RIDIT :

Pression sanguine systolique (mm Hg)Modalité (1) (2) (3) (4) (5)< 116 20 10 0 10 0,06116 – 134 65 32,5 20 52,5 0,32136 – 154 55 27,5 85 112,5 0,68156 – 174 18 9 140 149 0,90≥ 176 8 4 158 162 0,98Total 166 166

Tableau 7 – Calcul de RIDIT selon la transformation définie par Bross

• La colonne (1) correspond au nombre d’individus sur la modalité de la variable catégo-rielle.

• La colonne (2) correspond à la colonne (1) divisée par deux.

• La colonne (3) correspond au cumulé de la colonne (1) décalé d’une modalité (vers le bas)

• La colonne (4) correspond à la somme de la colonne (2) et de la colonne (3)

• La colonne (5) correspond à la colonne (4) divisée par le total du nombre d’observations.

La colonne (5) est donc la valeur du RIDIT comme défini par Bross. Kantor, dans ses écrits,utilise cette nouvelle variable afin d’exécuter divers tests statistiques.

2.1.3 Définitions de RIDIT par BrockettBross, dans ses écrits, avait comme but de développer l’utilisation de RIDIT et non de

définir de manière rigoureuse la structure mathématique associée à la méthode d’affectation dela valeur de la transformation. En ce sens, Patrick L. Brockett et Arnold Levine considérantRIDIT comme étant un outil important de l’analyse statistique donnent alors une définitionrigoureuse bien que légèrement différente de celle de Bross.En effet, Brockett définit aussi RIDIT comme une méthode d’affectation de scores (de fraudes).En voici la définition :

29

Définition 2.Soit X une variable catégorielle, associée à un échantillon, à k modalités dont les proportionssont p = (pX1 , pX2 , ..., pXk

).

Nous définissons alors la fonction d’affectation de la transformation de RIDIT pour unemodalité i (parmi les k modalités de la variable X) hk (i, p).

Cette fonction d’affectation doit alors vérifier les quatre propriétés suivantes :

1. h1(1, 1) = 0.Si une variable n’a qu’une seule modalité, cette variable prendra tout le temps la mêmevaleur et n’apportera aucune information.

2. 0 ≤ h2(2, p, 1− p) = −h2(1, 1− p, p).Cette propriété illustre le fait que si une distribution empirique sur les deux modalités estinversée, alors par symétrie centrale, les valeurs (en valeurs absolues) de la transforma-tion assignées à une modalité sont échangées de la même manière que la distribution estinversée. Afin de préserver les rangs des modalités, le signe doit alors changer.

3. Supposons que nous avons plus que deux modalités sur notre variable (k modalités parexemple) et que pour des raisons computationnelles ou statistiques nous souhaitons re-grouper certaines modalités. Les modalités non-affectées par ce regroupement gardent exac-tement le même score qui leur avait été assigné précédemment et la nouvelle valeur affectéequi est associée aux modalités regroupées est une somme pondérée des valeurs originale-ment assignées à ces modalités.Supposons que nous regroupons les modalités i et i+1. La distribution pX = (pX1 , pX2 , ..., pXk

)devient qX =

(qX1 , qX2 , ..., qXk−1

)(avec qXj

= pXjpour j < i, qXi

= pXi+ pXi+1 et

qXj= pXj+1 pour j > i). Nous obtenons alors :

hk−1 (i, q) = pXi

pXi+ pXi+1

· hk (i, p) + pXi+1

pXi+ pXi+1

· hk (i+ 1, p)

hk−1 (j, q) = hk (j, p) ,∀j < ihk−1 (j, q) = hk (j + 1, p) , ∀j > i

4. Si la variable X étudiée ne possède que deux modalités, alors la quantité h2 (2, p, 1− p)−h2 (1, p, 1− p) ne décroît pas si p augmente.Cela reflète le fait que les transformations assignées aux modalités ne doivent pas être desvaleurs «proches» si la proportion sur l’une ou l’autre catégorie augmente.

Brockett et Levine énoncent alors un théorème fondamental pour leur définition du scorede RIDIT :

Théorème 1.Une fonction d’affectation de RIDIT hk satisfait les propriétés 1 à 4 si et seulement si

hk (i, p) = c

∑ji

pXj

pour c une constante arbitraire.

En choisissant «arbitrairement» la constante c = 1, nous pouvons alors définir le score deRIDIT comme suit :

30

Définition 3.Soit X une variable catégorielle (associée à un certain échantillon) à k modalités. PosonspX = (pX1 , pX2 , ..., pXk

) le vecteur des proportions observées pour chacune des modalités de lavariable X sur son échantillon avec pXi

≥ 0,∀i ∈ {1, ..., k} et ∑ki=1 pXi

= 1.Nous appelons le score de RIDIT de la variable X pour la catégorie i ∈ {1, ..., k} noté BXi

comme étant :BXi

=∑ji

pXj

Pression sanguine systolique (mm Hg)Modalité i (1) (2) (3) (4) (5)< 116 1 20 0 146 -146 -0,88116 – 134 2 65 20 81 -61 -0,37136 – 154 3 55 85 26 59 0,36156 – 174 4 18 140 8 132 0,80≥ 176 5 8 158 0 158 0,95Total 166

Tableau 8 – Illustration d’un calcul de RIDIT selon Brockett

• La colonne (1) correspond au nombre d’individus sur la modalité de la variable catégo-rielle.

• La colonne (2) correspond au cumulé de la colonne (1) sur les modalités inférieures à i

• La colonne (3) correspond au cumulé de la colonne (1) sur les modalités supérieures à i

• La colonne (4) correspond à la différence entre la colonne (2) et la colonne (3)

• La colonne (5) correspond à la colonne (4) divisée par le total du nombre d’observations.

La colonne (5) est donc la valeur de la transformation de RIDIT comme définie par Brockett.

Ce score, différent de celui énoncé précédemment (en Définition 1) n’est en réalité qu’unetransformation linéaire du score de RIDIT défini par Bross.

BXi=∑ji

pXj

=∑j<i

pXj−

k∑j=1

pXi−∑j≤i

pXj

= 2

∑j<i

pXj− 1 + pXi

= 2∑j<i

pXj+ 1

2 pXi

− 1

= 2 ·RXi− 1

31

2.1.4 Score de fraude par RIDITSupposons une relation monotone décroissante entre les modalités de nos variables catégo-

rielles et la fraude, nous obtenons alors via RIDIT (défini par Brockett), une manière d’affecterun score de fraude en plus de transformer nos variables catégorielles en variables continues.

En effet, si nous réordonnons les variables dans le sens où les modalités classées plus petitesont une forte suspicion de fraude et les modalités classées plus grandes ont une faible suspicionde fraude alors le RIDIT de Brockett permet de calculer un score de fraude par variable avecla fonction d’affectation des scores : hk(i, p) = Bi =

∑ji

pXj.

Supposons que nous ayons une variable catégorielle, correspondant au type d’assuranceautomobile, composée de 3 modalités : l’assurance tous risques avec franchise élevée, l’assurancedommages au tiers ainsi que l’assurance tous risques avec une faible franchise.En ordonnant cette variable de manière à ce que les modalités classées plus petites traduisentune suspicion de fraude plus forte et inversement, nous affectons bien, comme nous pouvons leremarquer dans l’exemple ci-dessous, des scores négatifs aux modalités avec une forte suspicionde fraude et de scores positifs avec une faible suspicion de fraude.

Type d’assurance automobileModalité i (1) (2) (3) (4) (5)Tous risques (avec faible franchise) 1 100 0 900 -900 -0,9Tous risques (avec franchise élevée) 2 200 100 700 -600 -0,6RC - Dommages au tiers 3 700 300 0 300 0,3Total 1000

Tableau 9 – Illustration du calcul de score de fraude (RIDIT)

Les colonnes (1) à (5) correspondent à la même démarche qu’au Tableau 8.

Le score de fraude ainsi calculé possède quelques propriétés intéressantes :

• Le score Bi est compris dans l’intervalle [−1, 1] et les variables (transformées) sont doncmesurées sur la même échelle quel que soit leur nombre de modalités ;

• Le score Bi est croissant si i croit ;

• Le score Bi est centré en zéro.

2.2 Prolongement aux variables continuesLe méthode d’affectation des scores n’est pour l’instant définie que pour les variables caté-

gorielles. Cette sous-section vise ainsi à prolonger cette méthode aux variables continues.

2.2.1 Prolongement de la méthode aux variables continuesCertaines informations sur un assuré ou sur un sinistre sont parfois numériques. Ces infor-

mations peuvent nous donner une indication sur la nature frauduleuse d’un sinistre. En effet,l’âge d’un assuré, l’ancienneté de l’assuré sur sa police d’assurance, l’ancienneté de son bien ou

32

encore le temps écoulé entre la survenance du sinistre et la déclaration de ce dernier peuventnous donner des indications sur la nature frauduleuse d’un sinistre.

Nous pourrions par exemple «catégoriser» ces variables continues en intervalles comme avecl’étude de Kantor sur la pression artérielle 16 et ainsi utiliser la méthode de RIDIT pour lesvariables catégorielles. Toute la difficulté serait alors de choisir les bornes des intervalles.

Nous pourrions utiliser un arbre de régression afin d’effectuer un découpage en classes ho-mogènes. Nous sommes dans cette étude dans un cadre non-supervisé et nous n’avons pas devariable réponse afin de pouvoir effectuer un arbre de régression qui est une méthode d’appren-tissage supervisé.

De plus, «catégoriser» une variable continue pourrait nous faire perdre de l’information etnous empêcherait d’obtenir un apprentissage optimal.

C’est pourquoi nous allons étendre la méthode de RIDIT aux variables continues.

2.2.2 RIDIT dans le cadre continuNous avions, dans le cas d’une variable catégorielle X le score de RIDIT associé :

Bi =∑ji

pXj

Avec pXjla proportion empirique d’individus sur la modalité j.

Dans le cas continu, nous aurions la variable X résultat de la réalisation d’une variablealéatoire de loi F (sa fonction de répartition).Par analogie avec le cas catégoriel, nous pourrions calculer le score de fraude (en supposant quela variable possède une relation monotone avec la fraude) pour une réalisation x comme étantla différence entre la proportion sur la distribution répondant moins que x et la proportionrépondant plus que x : B(x) = F (x−)− (1− F (x)) avec F (x−) la limite à gauche de F (x).

Nous définissons alors RIDIT dans le cadre continu comme suit :

Définition 4.Soit X une variable continue, la réalisation sur un échantillon d’une variable aléatoire de loi Fsa fonction de répartition inconnue.

Nous appelons le score de RIDIT de la variable X pour la réponse x noté B(x) commeétant :

B(x) = Fn(x−)− (1− Fn(x))=(Fn(x)− P (x)

)− (1− Fn(x))

= 2Fn(x)− 1− P (x)

Avec P (x) la proportion d’individus sur l’échantillon dont la variable répond x i.e. la probabilitéempirique que la réalisation de la variable X soit égale à x sur notre échantillon.

Le score de RIDIT étendu au cas continu garde alors les trois propriétés du RIDIT sur unevariable catégorielle. En effet :16. Voir l’exemple en épidémiologie par Kantor sur le tableau 7.

33

• Le score B(x) est toujours compris dans l’intervalle [−1, 1]. Cette propriété est importantecar elle permet de mettre sur la même échelle toutes les variables continues mais aussi lesvariables catégorielles ;

• Le score B(x) est croissant si x augmente ;

• Le score B(x) est centré en zéro. Calculons l’espérance sous la probabilité empirique Pde B(x) sur un échantillon :

EP[B(x)

]=

K∑k=1

B(xk)P (xk)

Avec la variable X prenant des valeurs croissantes x1, ..., xK sur l’échantillon

=K∑k=1

(2Fn(xk)− 1− P (xk)

)P (xk)

En écrivant que Fn(xk) est la somme sur toutes les valeurs de xk sous P

= 2K∑k=1

([k∑i=1

P (xi)]P (xk)

)− 1−

K∑k=1

(P (xk)

)2

En faisant sortir le dernier terme de la première somme et en ré-indexant

= 2(

K∑k=1

[P (xk)

]2+

K∑k=2

[k−1∑i=1

P (xi)]P (xk)

)−

K∑k=1

(P (xk)

)2− 1

Or,(

n∑i=1

xi

)2

=n∑i=1

x2i + 2

∑1≤i<j≤n

xi · xj

D’où :

EP[B(x)

]=(

K∑k=1

P (xk))2

− 1 = 0

2.2.3 Dominance stochastiqueLa construction de notre RIDIT et notamment le fait que nous affectons un score négatif à

une valeur à forte suspicion de fraude et un score positif à une valeur à faible suspicion de fraudelaisse suggérer une dominance stochastique 17 entre la classe fraude et la classe non-fraude.

Soit une variable aléatoire X de fonction de répartition F . La distribution de F nous estinconnue. Nous savons cependant que F est un mélange de deux lois :F (x) = θF1(x) + (1 − θ)F2(x) avec F1 la fonction de répartition sur la classe fraude, F2 lafonction de répartition de la classe non-fraude et θ le taux de fraude (inconnu).

Les variables étant construites de manière à ce que les plus petites valeurs suggèrent unfort potentiel de fraude, nous savons donc que F2 domine stochastiquement F1 à l’ordre 1 i.e.F1(x) ≥ F2(x), ∀x ∈ R.

17. La dominance stochastique est une manière de comparer des risques aléatoires. Le lecteur pourra trouverun rappel de ces notions en annexe B.2.

34

L’intuition que nous avons de dire que RIDIT affecte sur la classe fraude des scores plusfaibles que sur la classe non-fraude est alors donnée par la dominance stochastique dans laproposition suivante.

Proposition 1.Soit une variable t, la n-réalisation d’une variable aléatoire. Choisissons aléatoirement uneréponse X de la classe fraude et de fonction de répartition F1 ainsi qu’une variable aléatoire Yet de fonction de répartition F2, sélectionnée aléatoirement sur la classe non-fraude alors si F2

domine stochastiquement à l’ordre 1 F1, P(X > Y ) ≥ 12 .

Cette proposition nous indique que s’il y a dominance stochastique de la classe non-fraudepar la classe fraude, alors avec une probabilité supérieure à un demi, les valeurs de la classefraude sont plus faibles que les valeurs de la classe non-fraude.

−1.0 −0.5 0.0 0.5 1.0

0.0

0.2

0.4

0.6

0.8

1.0

cc_age transformé par RIDIT

Fn(

x)

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●●

●●

●●

●●

● ●●●

●●

●●

● ● ●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●●

●●

●●

●●●

● ●●●●●● ●●●●●●●

●●

●

●

Classe fraudeClasse non fraude

Figure 8 – Fonctions de répartition sur le score de la variable âge par classe

Nous remarquons sur la figure ci-dessus que la fonction de répartition (empirique) associéeà la classe fraude est supérieure à la fonction de répartition associée à la classe non-fraude.

2.3 UtilisationNous avons jusqu’à présent donné deux méthodes de RIDIT afin de calculer le score à

affecter à chacune de nos variables selon son type, qu’elle soit catégorielle ou continue. Nousallons voir en pratique comment définir une méthode d’affectation des scores de RIDIT quelque soit le type de variable.

2.3.1 Score de RIDIT pour tous types de variablesL’extension de la méthode du calcul des scores par RIDIT pour les variables continues est

en réalité la méthode unifiée qui permettra de calculer le score quel que soit le type de variable.

35

En effet, celle-ci passe outre le calcul par modalités que peuvent engendrer les variables caté-gorielles car le RIDIT pour les variables continues estime une fonction de répartition empirique.

Reprenons le calcul du score de RIDIT dans le cas catégoriel :Bi =

∑ji

pXj

Nous ordonnons nos modalités par suspicion (décroissante) de fraude et nous calculons laproportion d’individus ayant une modalité sur la variable strictement inférieure à la moda-lité classée i moins la proportion d’individus ayant une modalité sur la variable strictementsupérieure à la modalité classée i.

Maintenant, examinons le calcul du score de RIDIT dans le cas d’une variable continue :B(x) = Fn(x−)− (1− Fn(x))

Fn(x) est la fonction de répartition empirique d’une variable sur un n-échantillon en unevaleur x. Elle est égale à la proportion d’individus sur l’échantillon ayant eu une valeur infé-rieure ou égale à x.

Fn(x−) est la limite à gauche de la fonction de répartition empirique d’une variable sur unn-échantillon en une valeur x. Elle est égale à la proportion d’individus sur l’échantillon ayanteu une valeur strictement inférieure à x.

Soustraire (1− Fn(x)) revient à soustraire la proportion d’individus sur l’échantillon ayanteu une valeur strictement supérieure à x. Nous obtenons donc bien :

B(x) = Fn(x−)− (1− Fn(x)) =∑ji

pXj, ∀x = i ∈ {1, ..., k}

Reprenons l’exemple du calcul d’un score de RIDIT pour une variable catégorielle et appli-quons la même méthodologie :

Type d’assurance automobileModalité i Fn(i−) (1− Fn(i)) B(i)

Tous risques (avec faible franchise) 1 0,0 0,9 -0,9Tous risques (avec franchise élevée) 2 0,1 0,7 -0,6RC - Dommages au tiers 3 0,3 0,0 0,3

Tableau 10 – Calcul du score par la méthode de RIDIT unifiée

Nous retrouvons bien le score de RIDIT calculé selon l’utilisation de RIDIT sur une variablecatégorielle.

2.3.2 ApplicationNous possédons un jeu de données de n individus et de d variables de la forme suivante :

X = (X1, ..., Xd) avec Xj =

x(1,j)...

x(n,j)

,∀j. Donc X =

x(1,1) x(1,2) . . . x(1,d)x(2,1) x(2,2) . . . x(2,d)... ... ... ...

x(n,1) x(n,2) . . . x(n,d)

.

36

over_draft purpose employment cc_age<0 radio/tv >=7 67

0<=X<200 radio/tv 1<=X<4 22no checking education 4<=X<7 49

<0 furniture/equipment 4<=X<7 45<0 new car 1<=X<4 53

no checking education 1<=X<4 35no checking furniture/equipment >=7 530<=X<200 used car 1<=X<4 35no checking radio/tv 4<=X<7 610<=X<200 new car unemployed 280<=X<200 new car <1 25

<0 business <1 240<=X<200 radio/tv 1<=X<4 22

<0 new car >=7 60<0 new car 1<=X<4 28<0 radio/tv 1<=X<4 32... ... ... ...

Tableau 11 – Extrait du jeu de données German Credit Fraud

Nous assignons alors des valeurs numériques faibles aux modalités ayant une forte suspicionde fraude de sorte que la suspicion soit décroissante.

over_draft purpose employment cc_age1 8 4 672 8 3 224 1 5 491 7 5 451 3 3 534 1 3 354 7 4 532 9 3 354 8 5 612 3 2 282 3 1 251 5 1 242 8 3 221 3 4 601 3 3 281 8 3 32... ... ... ...

Tableau 12 – Extrait du jeu de données avec modalités classées par suspicion de fraude

Nous appliquons alors le score de RIDIT sur le jeu de données et nous obtenons alors lamatrice des scores B :

37

B = (B1, ..., Bd) avec Bt = (Bt(x(1,d)), ..., Bt(x(n,d)))t. D’où :

B =

B1(x(1,1)) B2(x(1,2)) . . . Bd(x(1,d))B1(x(2,1)) B2(x(2,2)) . . . Bd(x(2,d))

... ... ... ...B1(x(n,1)) B2(x(n,2)) . . . Bd(x(n,d))

Avec Bt(x(i,t)) = Fn(x−(i,t))−(1− Fn(x(i,t))

)Dans notre exemple, nous obtenons :

B =

−0, 726 0, 496 0, 399 0, 977−0, 183 0, 496 −0, 193 −0, 9130, 606 −0, 95 0, 826 0, 736−0, 726 0, 035 0, 826 0, 613−0, 726 −0, 642 −0, 193 0, 8150, 606 −0, 95 −0, 193 0, 1360, 606 0, 035 0, 399 0, 815−0, 183 0, 879 −0, 193 0, 1360, 606 0, 496 0, 826 0, 917−0, 183 −0, 642 −0, 594 −0, 375−0, 183 −0, 642 −0, 828 −0, 661−0, 726 −0, 267 −0, 828 −0, 746−0, 183 0, 496 −0, 193 −0, 913−0, 726 −0, 642 0, 399 0, 904−0, 726 −0, 642 −0, 193 −0, 375−0, 726 0, 496 −0, 193 −0, 068

... ... ... ...

Tableau 13 – Extrait de la matrice des scores de RIDIT

Cette matrice de RIDIT est intéressante car elle associe à chaque individu un score parvariable et permettrait, via des statistiques descriptives, de faire ressortir les profils les plussusceptibles de frauder. Cependant, afin de répondre à notre problématique qui est de calculerun score unique par individu, cette matrice des scores de RIDIT est insuffisante. Pour calculerun score unique par individu, nous allons utiliser la méthode PRIDIT.

38

3 Méthode de PRIDITDans la section précédente, nous avons développé une méthode (RIDIT) qui permet d’af-

fecter à une variable catégorielle un score reflétant une forte suspicion de fraude sur les valeursfaibles du score et une faible suspicion de fraude pour les valeurs élevées des scores.Nous avons ensuite prolongé la méthode de RIDIT pour calculer des scores de fraude pour unevariable continue puis développé une méthode de RIDIT unifiée permettant de traiter tout typede variable.

En calculant les scores par variable, nous obtenons une matrice des scores. Cette matricede score est d-dimensionnelle (dans le cas où nous avons d variables explicatives de la fraude)et nous ne sommes pas encore en mesure d’en déduire un score de fraude uni-dimensionnel.

L’idée première est, pour un individu (ou un sinistre), de sommer le score accordé à chacunede ses variables explicatives. Cette première idée est efficace car nous obtenons bien un scoreunique par individu. Cependant, ce score ne prend pas en compte l’importance (ou la qualitéexplicative) de chacune des variables envers la fraude. En effet, certaines variables peuvent avoirune forte influence sur la fraude tandis que d’autres auront une faible influence.

Nous allons donc présenter dans cette section la méthode de PRIDIT. Cette méthode, défi-nie par Brockett et al en 2002, va nous permettre d’affecter des poids à chacune des variableset donc de pondérer la somme des scores par variable afin d’obtenir un score de fraude uni-dimensionnel.

PRIDIT tient son nom de l’analyse en composantes principales. En effet, les scores uni-dimensionnels sont les composantes principales des scores de RIDIT. Nous développerons danscette section la méthode de projection des variables sur les axes factoriels afin d’obtenir lespondérations à appliquer à chacune des variables.

3.1 Mesure de la qualité de discriminationAfin de calculer la qualité explicative d’une variable (scorée par la méthode RIDIT), nous

allons définir la mesure de la qualité de discrimination A.

La méthode de PRIDIT utilise la mesure de la qualité de discrimination A afin de pouvoiraccorder un poids à chacune des variables lors du calcul du score uni-dimensionnel et conserverla propriété discriminante entre les classes fraude et non fraude donnée par RIDIT sur chacunedes variables.

3.1.1 Mesure de la qualité de discrimination dans le cas de va-riables catégorielles

Pour définir la mesure de la qualité de discrimination At, pour une variable catégorielle t,nous devons définir à nouveau le contexte mathématique.

39

Nous avons N observations (sinistres) appartenant à deux groupes, le groupe de fraude (1)et le groupe de non-fraude (2).Il en suit donc que N = N1 + N2 avec N1 le nombre d’observations appartenant à la classefraude et N2 le nombre d’observations appartenant à la classe non-fraude. N1 et N2 ne sont pasobservables dans notre cas. Soit θ = N1

Nle taux de fraude (non-observable) sur notre jeu de

données, nous avons donc la variable aléatoire N1 ∼ B(N, θ).

Sur la variable catégorielle t, nous pouvons définir alors les quantités π(1)t,i et π(2)

t,i telles que :

pt,i = θπ(1)t,i + (1− θ)π(2)

t,i

Avec pt,i la proportion d’observations de la modalité i sur la variable catégorielle t et π(j)t,i la

proportion d’observations de la modalité i sur la variable catégorielle t classée comme apparte-nant au groupe j (j ∈ {1, 2}, pour fraude ou non fraude).

Nous pouvons ainsi définir la mesure de la qualité de discrimination comme suit :

Définition 5.Soit une variable catégorielle t, nous appelons mesure de la qualité de discrimination de lafraude sur la variable t la quantité :

At =kt−1∑i=1

∑j>i

(π

(1)t,i π

(2)t,j − π

(2)t,i π

(1)t,j

)

Avec π(j)t,i la proportion d’observations de la modalité i sur la variable catégorielle t classée

comme appartenant au groupe j (j ∈ {1, 2}, pour fraude ou non fraude) et kt le nombre demodalités de la variable catégorielle t.

At est donc la quantité de dispersion entre la classe fraude et la classe non fraude dansla dimension latente (la variable t), At mesure ainsi la capacité que peut avoir la variable t àdiscriminer la fraude.Si |At| = 1 alors la variable t discrimine parfaitement les observations entre les classes fraudeet non fraude.Si At = 0, alors π(1)

t,i = π(2)t,i , pour tout i dans {1, ..., kt} alors la variable t ne discrimine en aucun

cas la fraude.

De plus, At est liée aux scores de RIDIT. En effet, E[Bt|Fraude] = (θ − 1)At.Lorsque nous affectons les scores de RIDIT à une variable t, nous ré-ordonnons la variablede sorte que les modalités à forte suspicion de fraude soient classées à un rang plus petit.Nous avons par construction, comme énoncé en section 2.2.3, la classe non-fraude dominantstochastiquement à l’ordre 1 la classe fraude.Par construction, At ∈ [0, 1]. Il est donc logique, comme (θ− 1) est négatif, d’avoir la moyennedes scores sur la classe fraude négative.

40

E[Bt|Fraude] =kt∑i=1

π(1)t,i E [Bt,i|Fraude]

=kt∑i=1

π(1)t,i

∑ji

(N1 − 1)π(1)t,j +N2π

(2)t,j

N

En utilisant les identités :

•N1 = N −N2 = Nθ

•kt−1∑i=1

∑ji

xj · yi

Nous obtenons :

= −N2

N

kt−1∑i=1

∑j>i

(π

(1)t,i π

(2)t,j − π

(2)t,i π

(1)t,j

)= (θ − 1)At

Par le même raisonnement, nous obtenons que E[Bt|Non− Fraude] = θAt.

3.1.2 Mesure de la qualité de discrimination dans le cas de va-riables continues

Nous avons défini précédemment la mesure de la qualité de discrimination dans le cas devariables catégorielles. Nous allons maintenant la définir dans le cas de variables continues.

Dans le cas d’une variable catégorielle, nous avons vu que la pierre angulaire de la construc-tion de cette mesure était la dominance stochastique de la classe non-fraude sur la classe fraude.C’est le cas ici aussi dans le cadre de la mesure de la qualité de discrimination pour une variablecontinue.

Prenons une variable continue t sur un N -échantillon avec N1 observations appartenant àla classe fraude et N2 observations appartenant à la classe non-fraude.Soit θ le taux de fraude sur l’échantillon tel que N1 ∼ B(N, θ).

Nous avons alors la distribution de la variable t qui est un mélange de deux lois i.e.F (x) = θF1(x) + (1 − θ)F2(x) avec F1 la fonction de répartition sur la classe fraude, F2 lafonction de répartition de la classe non-fraude.Rappelons que θ, F1 et F2 sont inconnues.

Définissons, comme précédemment, la fonction ∆ telle que ∆(x) = F1(x)−F2(x) ≥ 0. Noussavons donc que F2 domine stochastiquement à l’ordre 1 F1. Nous pouvons à présent définir lamesure de la qualité de discrimination At.

Définition 6.Soit une variable continue t de loi F telle que F (x) = θF1(x) + (1− θ)F2(x) avec F1 la fonctionde répartition sur la classe fraude, F2 la fonction de répartition de la classe non-fraude et θ letaux de fraude.

41

Nous appelons mesure de la qualité de discrimination de la fraude sur la variable t la quan-tité :

At = 2∫ +∞

−∞∆(x)dF1(x)

Cette mesure de la qualité de discrimination At peut aussi se calculer via les espérancesconditionnelles des scores de RIDIT pour une variable t.

Réécrivons la fonction de répartition F comme F (x) = F1(x) − (1 − θ)∆(x) et rappelonsque Bt(x) = Fn(x−) − (1 − Fn(x)) = 2Fn(x) − 1 − P (x), nous pouvons désormais calculerE[Bt|Fraude] comme suit :

E[Bt|Fraude] =∫ +∞

−∞E[Bt(x)]dF1(x)

=∫ +∞

−∞E[2Fn(x)− 1− P (x)

]dF1(x)

=∫ +∞

−∞E [2F (x)− 1] dF1(x)

= 2∫ +∞

−∞[F1(x)− (1− θ)∆(x)] dF1(x)− 1

= −2(1− θ)∫ +∞

−∞∆(x)dF1(x)

= 2(θ − 1)∫ +∞

−∞∆(x)dF1(x)

= (θ − 1)At

En montrant que At = 2∫+∞−∞ ∆(x)dF1(x) = 2

∫+∞−∞ ∆(x)dF2(x) (la démonstration de ce

postulat se situe à la section 6.3) et en appliquant la démarche du calcul précédent, nous pouvonscalculer E[Bt|Non− Fraude] et obtenir E[Bt|Non− Fraude] = 2θ

∫ +∞

−∞∆(x)dF2(x) = θAt.

3.1.3 Mesure de la qualité de discrimination pour tous types devariables

Comme dans le cas de RIDIT, nous avons défini la mesure de la qualité de discriminationdans le cas où la variable t est catégorielle :

At =kt−1∑i=1

∑j>i

(π

(1)t,i π

(2)t,j − π

(2)t,i π

(1)t,j

)

Nous avons ensuite étendu le calcul de la mesure de la qualité de discrimination At auxvariables continues :

At = 2∫ +∞

−∞∆(x)dF1(x)

En pratique, nous souhaitons un unique calcul de la mesure de la qualité de discrimina-tion sans distinction du type des variables. Nous définissons alors la mesure de la qualité dediscrimination «unifiée» comme suit :

42

Définition 7.Soit t une variable explicative de loi F , sa fonction de répartition, telle que F (x) = θF1(x) +(1−θ)F2(x) avec F1 la fonction de répartition sur la classe fraude, F2 la fonction de répartitionde la classe non-fraude et θ le taux de fraude.

Nous définissons At, la mesure de la qualité de discrimination de la fraude sur la variable tcomme étant la quantité :

At = 2∫ +∞

−∞∆(x)dF1(x)

Proposition 2.Si t est une variable catégorielle, alors :

At = 2∫ +∞

−∞∆(x)dF1(x) =

kt−1∑i=1

∑j>i

(π

(1)t,i π

(2)t,j − π

(2)t,i π

(1)t,j

)

Avec π(j)t,i la proportion d’observations de la modalité i sur la variable catégorielle t classée

comme appartenant au groupe j (j ∈ {1, 2}, pour fraude ou non fraude).

La démonstration de cette proposition est réalisée dans la section 6.4.

Comme précédemment, nous avons la proposition suivante :

Proposition 3.La mesure de la qualité de discrimination At est positive et est comprise dans l’intervalle [0, 1].De plus, si At = 1 alors la variable t sépare parfaitement la classe fraude et la classe non-fraudeet si At = 0 alors la variable t ne permet pas de différencier les deux classes.

La démonstration de cette proposition est effectuée à la section 6.5.

Nous avons bien une définition d’une mesure de la qualité de discrimination de la fraude Atpour une variable explicative t.

Il nous faut cependant bien garder à l’esprit que cette mesure est théorique et donc non-observable car nous ne connaissons pas les fonctions de répartition F1 et F2 (donc la fonction∆ que nous intégrons) et nous ne pouvons pas les estimer car nous n’avons aucune informationsur la classe du sinistre (fraude ou non-fraude).

3.2 Score unique de fraudePrécédemment, nous avons introduit le calcul de la mesure de la qualité de discrimination

sur une variable explicative. Pour cela, nous avons dû définir la mesure de la qualité de dis-crimination pour une variable catégorielle puis dans le cas d’une variable continue et enfin, uncalcul «unifié» quel que soit le type de variable.Cette mesure de la qualité de discrimination intervient alors dans le calcul d’un score unique.Elle permettra de définir la pondération à affecter à chacune des variables.

43

3.2.1 Projection sur le premier axe factorielNous disposons d’une matrice des scores de RIDIT B :

B = (B1, ..., Bd) avec Bt = (Bt(x(1,d)), ..., Bt(x(n,d)))t. D’où :

B =


... ... ... ...B1(x(n,1)) B2(x(n,2)) . . . Bd(x(n,d))


)Nous pouvons à présent utiliser la méthode de PRIDIT qui est une Analyse en Composantes

Principales (ACP) des scores de RIDIT.En effet, la méthode de PRIDIT nous donne les pondérations à appliquer sur chacune de nosvariables.

Nous pouvons définir la méthode de PRIDIT comme suit :

Définition 8.Soit B la matrice des scores de RIDIT.Les poids à appliquer à chacune des variables de la matrice B sont donnés par le vecteur W , lepremier axe propre obtenu par l’ACP de la matrice E[BtB], associé à la première valeur propreλ1.

Chacune des composantes de ce premier axe propre W est donné par :

Wt = At

(λ1 − Ut,t)√√√√ d∑j=1

A2j

λ1 − U2j,j

, ∀t ∈ {1, ..., d}

Avec λ1 la première valeur propre associée au premier axe propre et Ut,t = N1σ21,t + N2σ

22,t «la

composante unique de la variance» d’une analyse factorielle des correspondances.

Une fois les poids W calculés, nous pouvons alors calculer notre score uni-dimensionnel Sde la manière suivante :

S = BW =d∑t=1

Bt ·Wt

Nous ne pouvons pas (pour l’instant) calculer les poids à affecter à chaque variable. Parconséquent, nous ne pouvons pas non plus calculer nos scores uni-dimensionnels. En effet, lesvaleurs de E[BtB], At, λ1 ainsi que Ut,t ne sont pas observables.

Nous pouvons néanmoins les estimer par un algorithme de convergence.

44

3.2.2 Algorithme itératif pour l’estimation des poidsNous pouvons trouver un estimateur de W . Nous allons, dans cette partie, développer un

algorithme permettant d’estimer les poids à donner à chacune des variables, ces poids étant lescoordonnées du premier axe propre.

L’algorithme se décrit alors comme suit :

Data: La matrice des scores BResult: Les pondérations des variables W ainsi que le score uni-dimensionnel Sbegin

Initialization : Nous initialisons les poids W (0);for i←− 0 to n-1 do

S(i) ←− BW (i);

W (i+1) ←− BtS(i)

||BtS(i)||;

endS(n) ←− BW (n);

end

Algorithme 1: Algorithme itératif du calcul des poids et des scores uni-dimensionnels

En pratique, nous initialisons les poids W (0) = (1, ..., 1)t et nous calculons nos scores uni-dimensionnels comme étant la somme pondérée 18, par W (0), des scores par variables

S(0) = BW (0) =d∑t=1

Bt ·W (0)t .

Nous pouvons ensuite calculer les poids à l’itération suivante tels que W (1) = BtS(0)

||BtS(0)||.

BtS(0) peut alors se voir comme la covariance 19 entre les scores par variable et le score globalS(0).Les poids correspondent à la covariance, entre chacune des variables et le score global, norma-lisée par la norme du vecteur de covariances.

Heuristiquement, cela ressemble à une «corrélation» 20 entre chaque variable et le score glo-bal. C’est une mesure de la pertinence de la variable sur le score global.

Une fois ces nouveaux poids W (1) calculés, nous pouvons alors recalculer un nouveau scoreglobal : S(1) = BW (1). Ce score global sera alors plus précis que l’ancien et à l’itération suivante,les poids (la mesure de la pertinence des variables) seront d’une précision meilleure.

18. Ici, la pondération deW (0) est de 1 sur toutes ses composantes. Cela revient donc à sommer (sans pondérer)les scores par variables.19. Cov(X,Y ) = (X,Y ) = 1

n− 1∑n

i=1(Xi −X)(Yi − Y ).

Ici, Bt et S(0) sont centrés, nous avons donc Cov(Bt, S(0)) = 1

n− 1∑n

i=1 Bt(xi) · S(0)i .

20. Cor(X,Y ) = Cov(X,Y )σX · σY

avec σX l’écart-type de la variable X (resp. Y ).

45

Nous continuons le procédé jusqu’à arriver à un nombre d’itération fixé n où nous avons

W (n) = BtS(n−1)

||BtS(n−1)||et S(n) = BW (n).

Pour un n assez grand, nous obtenons alors notre pondération W (n) représentant l’estima-teur du premier axe propre de la matrice BtB associé à la première valeur propre λ1 ainsique nos scores uni-dimensionnels S(n) représentant la première composante principale i.e. laprojection des individus sur le premier axe propre.

Théorème 2.Les suites W (n) et S(n) convergent. De plus, W (n) est un estimateur consistant du premier axepropre W de E[BtB] i.e.

limn→∞

W(n)t = Wt = At

(λ1 − Ut,t)√√√√ d∑j=1

A2j

λ1 − U2j,j

, ∀t ∈ {1, ..., d}

La convergence de l’estimateur W (n) (et donc S(n)) est démontrée dans l’ouvrage de Trefe-then (1997) [26].

Ce théorème nous apporte la certitude que notre algorithme nous donne bien, pour unnombre d’itérations assez grand, la solution voulue : les pondérations à appliquer à chaquevariable ainsi que le score de fraude global uni-dimensionnel.

3.2.3 Utilisation pratiqueDans notre exemple précédent, nous avions notre jeu de données :

over_draft purpose employment cc_age<0 radio/tv >=7 67

0<=X<200 radio/tv 1<=X<4 22no checking education 4<=X<7 49

<0 furniture/equipment 4<=X<7 45<0 new car 1<=X<4 53

no checking education 1<=X<4 35no checking furniture/equipment >=7 530<=X<200 used car 1<=X<4 35no checking radio/tv 4<=X<7 610<=X<200 new car unemployed 280<=X<200 new car <1 25

<0 business <1 240<=X<200 radio/tv 1<=X<4 22

<0 new car >=7 60<0 new car 1<=X<4 28<0 radio/tv 1<=X<4 32... ... ... ...

46

Nous transformons ce jeu de données via la méthode des scores de RIDIT afin d’obtenir lamatrice des scores désirée B :

B =

−0, 726 0, 496 0, 399 0, 977−0, 183 0, 496 −0, 193 −0, 9130, 606 −0, 95 0, 826 0, 736−0, 726 0, 035 0, 826 0, 613−0, 726 −0, 642 −0, 193 0, 8150, 606 −0, 95 −0, 193 0, 1360, 606 0, 035 0, 399 0, 815−0, 183 0, 879 −0, 193 0, 1360, 606 0, 496 0, 826 0, 917−0, 183 −0, 642 −0, 594 −0, 375−0, 183 −0, 642 −0, 828 −0, 661−0, 726 −0, 267 −0, 828 −0, 746−0, 183 0, 496 −0, 193 −0, 913−0, 726 −0, 642 0, 399 0, 904−0, 726 −0, 642 −0, 193 −0, 375−0, 726 0, 496 −0, 193 −0, 068

... ... ... ...

Tableau 14 – Extrait de la matrice des scores de RIDIT

Nous appliquons ensuite notre algorithme itératif, en initialisant le vecteur W (0) à 1 etcalculons S(0) = BW (0). Nous obtenons à l’initialisation le score global suivant

S(0) =

1, 146−0, 7931, 2180, 748−0, 746−0, 4011, 8550, 6392, 845−1, 794−2, 314−2, 567−0, 793−0, 065−1, 936−0, 4912, 316

...

Tableau 15 – Score uni-dimensionnel à l’initialisation de l’algorithme

47

Nous calculons nos nouveaux poidsW (1) = BtS(0)

||BtS(0)||en «corrélant» nos scores par variables

avec le score global.

Nous obtenons alors, à la première itération, les poids suivants :

Variable Poidsover_draft 0,496purpose 0,440employment 0,540cc_age 0,518

Tableau 16 – Pondérations à l’itération 1 de l’algorithme

Nous pouvons à présent calculer un score global avec ces nouvelles pondérations S(1) :

S(1) =

0, 580−0, 4490, 7090, 419−0, 325−0, 1520, 9540, 2631, 440−0, 889−1, 163−1, 311−0, 4490, 041−0, 941−0, 2811, 157

...

Tableau 17 – Score uni-dimensionnel à la première itération de l’algorithme

Nous calculons à nouveau nos poids W (2) = BtS(1)

||BtS(1)||en «corrélant» encore une fois nos

scores par variables avec le score global après la première itération.

Nous continuons l’algorithme jusqu’à un nombre d’itérations fixé ou jusqu’à un critère d’ar-rêt et obtenons donc via notre algorithme des pondérations W à appliquer sur chacune desvariables de la matrice B.

À la convergence 21 de notre algorithme, nous obtenons les pondérations ci-après :

21. L’estimateur converge au bout d’une dizaine d’itérations. Nous considérons la convergence lorsque ladifférence de la norme du vecteur des poids entre chaque itération est inférieure à 10−5.

48

Variable Poidsover_draft 0,364purpose 0,077employment 0,620cc_age 0,691

Tableau 18 – Pondérations à la convergence de l’algorithme

Nous avons donc notre score global par individu S = BW avec S = (S1, ..., Sn)t.

S =

0, 697−0, 7791, 1680, 6740, 1300, 1221, 034−0, 0251, 404−0, 743−1, 086−1, 313−0, 7790, 558−0, 692−0, 3921, 069

...

Tableau 19 – Score uni-dimensionnel à la convergence de l’algorithme

Nous pouvons maintenant classifier nos individus ou sinistres. Si θ le taux de fraude estconnu (donné par l’ALFA par exemple), nous ordonnons nos scores S par ordre croissant etnous prenons les θN plus faibles scores qui traduisent une plus forte suspicion de fraude, nousles classifions comme fraude et suggérons alors de procéder à une demande d’informations com-plémentaires ou une procédure d’expertise.

Si nous ne connaissons pas a priori θ, comme cela peut être le cas d’une petite compagnied’assurance, nous prenons alors tous les individus ou sinistres ayant un score négatif et lesclassifions comme fraude.

49

4 Application de la méthodeLa méthode de PRIDIT développée plus haut est une méthode très adaptée à notre problé-

matique.Afin de valider l’utilisation d’une telle méthode, nous l’appliquons sur un jeu de données por-tant sur une problématique connexe de la détection de fraudes à l’assurance : la détection defraude en crédits bancaires.

4.1 Description des données utiliséesNous utilisons, dans cette section, les données présentées dans la section 1.4.2.

Ce jeu de données, fourni par le Professor Dr. Hans Hofmann de l’Institut de statistiqueset d’économétrie de l’université d’Hamburg, nous paraît adapté à notre problématique.En effet, nous devons classer les contractants d’un crédit à la consommation comme étant desfraudeurs ou non fraudeurs. Ce jeu de données possède un avantage par rapport aux jeux dedonnées issus du secteur de l’assurance, nous disposons d’une variable réponse fiable.Ce jeu de données nous permettra donc de pouvoir évaluer les méthodes développées précé-demment.

Afin de comprendre la composition de notre jeu de données, effectuons quelques statistiquesexploratoires.

4.1.1 Analyse factorielle des données mixtesNous avons sur notre jeu de données, des variables catégorielles ainsi que des variables conti-

nues. Nous ne pouvons donc pas utiliser les méthodes d’explorations de données comme l’ACP,ne s’appliquant qu’aux variables continues, ni l’Analyse des Correspondances Multiples (ACM),ne s’appliquant qu’aux variables catégorielles.

Il existe toutefois une méthode d’analyse exploratoire des données qui se prête à cette pro-blématique : l’Analyse Factorielle des Données Mixtes (AFDM).Le principe de l’AFDM 22 est d’utiliser la normalisation de l’ACM sur les variables catégorielleset d’effectuer une ACP sur la matrice des données (toutes devenues numériques).

Nous appliquons donc une AFDM sur notre jeu de données et choisissons par le scree plot(graphique des valeurs propres) suivant les axes de projection de nos données.

22. Pour plus d’informations sur la théorie associée à cette méthode, le lecteur peut se référer aux supportsde Ricco Rakotomalala [22] ou à l’ouvrage de Jérôme Pagès (2004) [18].

50

●

●

●

●

●

0.12

0.14

0.16

0.18

1 2 3 4 5Axe principal

Val

eur

prop

re

Figure 9 – Représentation des valeurs propres

Nous pouvons, de la même manière qu’en ACP, utiliser le critère «du coude» afin de pouvoirchoisir nos axes de projections. Ici, nous remarquons que le coude apparaît à la deuxième valeurpropre. Nous pouvons donc choisir les deux premiers axes propres comme axes de projection.

Nous projetons donc nos données sur ces axes factoriels et obtenons la visualisation de nosindividus suivante :

●

−10 −5 0 5 10 15

−6

−4

−2

02

4

Dim 1 (6.50%)

Dim

2 (

4.47

%)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

1516

17

1819

20

21

22

23

2425 26

2728

29 30

31

3233

34

35

36 373839

40 41

42

43

44

454647

48

49

5051

52

53

54

5556

5758

5960

61

62

63

64

65

66

67

6869

70

71

7273

74

75

76

77

78

79

80

81

82

83

84

85

86

8788

89

90

91

9293

94

95

96

97

98

99

100

101

102

103104

105106

107

108109

110 111112113 114

115116

117

118

119120121

122123

124

125

126127

128 129

130

131

132

133

134

135

136

137

138139

140

141

142

143144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162 163164

165

166167168

169

170171

172

173

174

175176177

178

179

180

181182

183184

185186 187

188

189190

191

192193

194

195

196197

198

199

200

201

202

203204

205

206

207

208

209

210211

212

213

214215216

217218

219

220

221 222

223 224

225226

227

228

229

230231

232

233234

235

236

237

238

239 240

241

242

243244

245

246

247

248

249250

251

252

253254

255256

257

258

259

260

261

262

263

264265

266267

268

269

270271

272

273

274

275

276

277

278

279 280

281282

283

284

285

286

287

288

289

290291

292

293294

295

296

297

298

299300

301

302

303

304

305306

307

308309

310

311312313

314

315

316

317

318

319

320

321322323

324

325

326

327328

329

330 331332

333

334

335336

337338

339340341

342343 344

345346347

348

349

350

351352

353

354

355

356

357

358

359

360

361

362

363

364 365366367

368

369

370

371372

373 374

375376

377

378

379

380

381

382

383384

385

386

387388389390

391392

393394395

396

397398399

400

401402

403

404405

406

407

408

409

410

411 412

413

414

415

416417

418

419420421

422

423

424

425

426

427

428

429

430

431

432

433434

435

436

437

438

439

440

441

442443

444

445

446

447

448

449450

451

452453

454

455456

457

458

459460

461462

463

464

465

466

467

468

469

470

471

472473

474

475

476

477478

479

480

481

482

483484

485

486487

488489

490

491

492

493

494

495

496

497

498499

500

501

502503 504

505

506

507

508

509

510

511

512513

514

515

516

517

518

519

520

521

522

523

524

525

526

527

528

529

530

531

532

533

534535

536

537

538 539

540541

542

543544

545

546

547548

549

550

551

552

553

554

555

556557

558559

560

561

562

563564565

566

567

568

569

570

571

572

573

574

575

576

577

578

579

580

581582

583 584

585

586

587

588

589

590

591

592

593

594595

596597

598

599

600601602

603

604

605606

607

608609

610

611

612

613614615

616

617

618

619

620

621

622

623

624

625

626

627628

629

630

631

632

633

634

635

636

637

638

639

640641

642

643

644645

646647

648

649650

651

652

653

654

655656

657

658

659

660661662

663

664

665

666667

668

669670

671

672673

674675

676

677

678

679

680

681682683684

685

686

687

688689690

691692

693

694

695

696697

698699 700701

702703

704

705

706

707708

709710

711712

713

714

715

716717

718719

720

721722

723

724

725

726727

728729

730

731

732733

734

735

736

737

738

739

740

741

742743

744

745

746

747

748

749750

751

752753

754

755

756

757

758

759

760

761

762763764765

766

767768

769

770

771772

773

774

775

776

777

778

779780781

782

783784 785

786

787788

789

790791 792

793 794

795

796

797

798

799

800

801

802

803

804

805

806

807

808

809810811

812

813814

815

816

817

818

819

820821

822

823

824

825

826827

828

829

830

831

832

833

834835

836

837838

839840

841

842843 844

845

846

847

848

849

850

851 852

853854

855856

857 858

859

860 861

862

863

864

865

866867

868

869870

871

872

873874

875

876

877878 879

880

881

882

883884

885

886 887

888

889890

891892893

894

895

896897

898

899

900

901902 903

904905

906

907

908

909910 911

912913

914

915

916

917918

919

920

921

922

923

924

925

926

927928

929

930

931

932

933

934

935 936

937

938

939

940941

942

943

944

945

946

947948949 950

951

952953954

955

956957

958

959 960

961

962963964

965

966

967

968

969

970

971

972

973

974

975

976977978

979

980981

982

983984

985986

987

988

989

990991992

993

994

995

996

997

998

999

1000

<0>=200

0<=X<200

no checkingall paid

critical/other existing credit

delayed previouslyexisting paid

no credits/all paidbusiness

domestic appliance

education

furniture/equipment

new car

other

radio/tv

repairsretraining

used car<100

>=1000

100<=X<500

500<=X<1000no known savings

<1

>=7

1<=X<44<=X<7unemployed1 234

female div/dep/marmale div/sepmale mar/wid

male single

co applicant

guarantornonecar

life insuranceno known property

real estatebanknone.1

stores

for freeown

renthigh qualif/self emp/mgmtskilled

unemp/unskilled non resunskilled resident

1.1

2.1

none.2yes

no

yes.1

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●●

●

●

●

●

●

●●

●●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

● ●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●● ●

●

●

●

●

●

●

● ●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●● ●

●

●

●

●●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●● ●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

Figure 10 – Représentation des individus sur les deux premiers axes propres

Nous remarquons, sur ce graphique, que le nuage projeté des individus est assez centréautour de l’origine et possède une assez faible dispersion (légère dispersion sur les valeurs posi-tives du premier axe propre). Cela induit que, sur cette projection, les individus possèdent descaractéristiques assez similaires. Les profils des individus ne laissent donc pas induire, sur ce

51

plan factoriel, une distinction de la fraude.

Nous pouvons de la même manière projeter nos variables continues sur le cercle des corré-lations suivant :

●

−2 −1 0 1 2

−1.

0−

0.5

0.0

0.5

1.0

Dim 1 (6.50%)

Dim

2 (

4.47

%)

credit_usagecurrent_balance

residence_since

cc_age

existing_credits

Figure 11 – Cercle des corrélations sur les deux premiers axes propres

Nous ne pouvons interpréter que les variables proches du cercle unitaire. Nous remarquonsdonc que les variables credit_usage et current_balance sont très corrélées positivement.Cela est dû à leur proximité dans le cercle unitaire. Nous pouvons aussi remarquer que la va-riable cc_age est très faiblement corrélée (corrélation très proche de zéro) avec les variablescredit_usage et current_balance.En effet, l’angle séparant ces variables est très proche de 90 degrés.

Nous pouvons aussi effectuer la projection des variables catégorielles sur le plan factorielsuivant :

52

●

−0.2 0.0 0.2 0.4 0.6 0.8

0.0

0.1

0.2

0.3

0.4

Dim 1 (6.50%)

Dim

2 (

4.47

%)

credit_usagecurrent_balance

residence_since

cc_age

existing_credits

over_draft

credit_history

purpose

Average_Credit_Balance

employment

location

personal_status

other_parties

property_magnitude

other_payment_plans

housing

job

num_dependents

own_telephoneforeign_worker

Figure 12 – Représentation des variables sur les deux premiers axes propres

Nous remarquons que beaucoup de variables comme foreign_worker, location, other_partieset other_payment_plans sont assez proches de l’origine du plan factoriel et ne sont donc pastrès explicatives du jeu de données. Afin de faire ressortir les variables les plus significativeset assez proches géométriquement, nous effectuons une classification ascendante hiérarchique(CAH).

−0.3 −0.2 −0.1 0.0 0.1 0.2 0.3 0.40.00

00.

005

0.01

00.

015

0.02

00.

025

−0.15−0.10

−0.05 0.00

0.05 0.10

0.15 0.20

Dim 1 (77.78%)

Dim

2 (

22.2

2%)

heig

ht

●●

●● ● ●

●●

●●●●●

●●●● ●

● ●

cluster 1 cluster 2 cluster 3 cluster 4

location

other_payment_plans

over_draft

foreign_workerother_partiesAverage_Credit_Balance

num_dependentsexisting_credits

residence_since

credit_history

personal_status

own_telephone

cc_age

employment

job

purpose

credit_usage

housing

current_balance

property_magnitude

Figure 13 – Classification ascendante hiérarchique et création de clusters

53

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

credit_usage

current_balance

residence_since

cc_age

existing_credits

over_draft

credit_history

purpose

Average_Credit_Balance

employment

location

personal_status

other_parties

property_magnitude

other_payment_plans

housing

jobnum_dependents

own_telephoneforeign_worker

0.0

0.1

0.2

0.3

0.0 0.1 0.2 0.3 0.4 0.5Dim.1

Dim

.2

cluster●a●a●a●a

1

2

3

4

Figure 14 – Représentation des variables et des clusters associés

Cette classification ascendante hiérarchique nous permet de faire ressortir des groupes ap-pelés «clusters» contenant des variables assez proches aussi bien de manière géométrique quede manière qualitative.Effectuons quelques statistiques descriptives intra-groupes et inter-groupes sur ces variables.

4.1.2 Statistiques descriptivesAfin de pouvoir visualiser notre jeu de données dans sa globalité, nous avons précédemment

effectué une AFDM. Pour pouvoir appréhender avec plus de précision la structure de nos don-nées, nous effectuons quelques statistiques descriptives.

Nous représentons, sur le graphique ci-après, la répartition de l’âge des individus sur notrejeu de données. Nous remarquons une forte concentration des contractants au crédit étant agésentre 25 et 40 ans avec un pic à 30 ans.

54

0.00

0.01

0.02

0.03

0.04

20 40 60cc_age

Den

sité

Figure 15 – Estimation de la densité de la variable «Âge»

Nous pouvons remarquer, sur la figure ci-dessous, que l’âge est (en moyenne) réparti uni-formément sur les modalités de la variable credit_history.

0

10

20

30

40

all paid critical/other existing credit delayed previously existing paid no credits/all paidcredit_history

Moy

enne

d'â

ge

Figure 16 – Représentation de la moyenne d’âge sur la variable «historique de crédits»

Nous remarquons, sur le graphique ci-après, une forte proportion de contractants à un créditqualifiés dans leur emploi. En effet, seulement 22 % des individus ne sont pas qualifiés dansleur emploi et seulement 2 % des individus sont sans emploi et non-qualifiés.Cela reflète bien le fait que la qualification dans un emploi est déterminante dans l’obtentiond’un crédit bancaire.

55

0

200

400

600

high qualif/self emp/mgmt skilled unemp/unskilled non res unskilled residentjob

Nom

bre

Figure 17 – Représentations du nombre d’individus sur les modalités de la variable «Job»

En étudiant la répartition des montants de crédits empruntés, comme nous pouvons le voirdans la figure suivante, nous remarquons un fort pic vers 2 000 Deutsche Mark. En effet, environ50 % des montants empruntés se situent entre 1 000 et 3 000 DM.

0e+00

1e−04

2e−04

3e−04

0 5000 10000 15000current_balance

Den

sité

Figure 18 – Représentation de la distribution de la variable «montant de crédit emprunté»

Ces montants empruntés sont en accord avec la distribution de la richesse des individus.Comme nous pouvons le voir dans le graphique ci-après, les contractants au crédit possèdentpeu d’argent dans l’équivalent allemand du Livret A. Près de 60 % des individus possèdent,en effet, strictement moins de 100 DM dans leurs portefeuille d’épargne avec près de 20 %d’individus dont nous ne recensons aucune épargne connue.

56

0

200

400

600

no known savings <100 100<=X<500 500<=X<1000 >=1000Average_Credit_Balance

Nom

bre

Figure 19 – Représentation du nombre d’individus sur les modalités de la variable «montantde l’épargne»

Après avoir étudié la composition du jeu de données et les profils des individus, étudionsla fraude sur ce portefeuille de crédit. Nous remarquons un nombre de fraudes assez élevéessur certaines modalités, notamment sur les crédits à destination d’une nouvelle voiture ou d’untéléviseur.

0

50

100

150

200

business domestic appliance education furniture/equipment new car other radio/tv repairs retraining used carpurpose

Nom

bre Class

Non−Fraude

Fraude

Figure 20 – Représentation du nombre d’individus (avec une distinction des fraudes) sur lavariable «destination du crédit»

Afin d’avoir une vision plus précise de la fraude et une notion de modalité plus risquéequ’une autre, étudions cette variable sous une vision de fréquence. Nous avons vu sur la figureprécédente que le nombre de fraudes était important lorsque le crédit est à destination d’une

57

nouvelle voiture ou d’un téléviseur. C’est cependant lorsque le crédit est à but non-spécifié oulorsqu’il s’agit d’un crédit étudiant que la fréquence de fraude est la plus élevée.

35% 33%44%

32% 38% 42%

22%36%

11% 17%

65% 67%

56%

68%62%

58%

78%

64%

89%83%

0.00

0.25

0.50

0.75

1.00

business domestic appliance education furniture/equipment new car other radio/tv repairs retraining used carpurpose

Fre

quen

ce ClassFraude

Non−Fraude

Figure 21 – Représentation des taux de fraudes sur la variable «destination du crédit»

Nous pouvons aussi prendre en compte des effets croisés sur cette variable. Observons lemontant moyen emprunté sur cette variable en distinguant la fraude.Nous remarquons une forte tendance des individus fraudeurs à emprunter des montants bienplus élevés notamment sur des crédits à destination d’une automobile d’occasion ou lorsque ladestination du crédit est non précisée.

0

3000

6000

9000

12000

busin

ess

dom

estic

app

lianc

e

educ

ation

furn

iture

/equ

ipmen

t

new ca

rot

her

radio

/tv

repa

irs

retra

ining

used

car

purpose

Mon

tant

moy

en e

mpr

unté

ClassNon−Fraude

Fraude

Figure 22 – Représentation du montant moyen emprunté sur la variable «destination du crédit»

En étudiant la variable type d’habitation (housing), nous remarquons une forte proportion

58

de propriétaires parmi la population étudiée. Parmi les fraudes sur cette variable, le nombre leplus élevé de fraudes correspond au cas où les contractants au crédit sont propriétaires de leurshabitation.

0

200

400

for free own renthousing

Nom

bre Class

Non−Fraude

Fraude

Figure 23 – Représentation du nombre de fraudes sur les modalités de la variable «type d’ha-bitation»

Dans la figure ci-dessous, nous représentons les taux de fraude sur les modalités de cettevariable. Nous remarquons que même si la fraude survient plus souvent lorsque les individussont propriétaires, c’est toutefois lorsque les individus sont locataires ou résident gratuitementdans leurs habitations que la fréquence de fraude est la plus élevée.

41%26%

39%

59%

74%

61%

0.00

0.25

0.50

0.75

1.00

for free own renthousing

Fre

quen

ce ClassFraude

Non−Fraude

Figure 24 – Représentation des taux de fraude sur les modalités de la variable «type d’habita-tion»

59

Nous pouvons aussi étudier la fraude selon le sexe ainsi que le statut marital. La fraudesurvient le plus lorsque les individus sont des hommes célibataires ou des femmes (dont lestatut marital n’est pas précisé).

0

100

200

300

400

female div/dep/mar male div/sep male mar/wid male singlepersonal_status

Nom

bre Class

Non−Fraude

Fraude

Figure 25 – Représentation du nombre de fraudes sur les modalités de la variable statut marital

C’est toutefois lorsque les hommes sont divorcés ou séparés que la fréquence de fraude estla plus élevée. Nous retrouvons aussi une forte fréquence de fraude lorsque l’individu est unefemme comme nous pouvons le voir sur le graphique ci-dessous.

35% 40%27% 27%

65%60%

73% 73%

0.00

0.25

0.50

0.75

1.00

female div/dep/mar male div/sep male mar/wid male singlepersonal_status

Fre

quen

ce ClassFraude

Non−Fraude

Figure 26 – Représentation du taux de fraude sur les modalités de la variable statut marital

60

4.2 Application et résultatsNous avons pu comprendre la structure de notre jeu de données, identifier plusieurs profils

et comportements parmi les individus et comprendre où se situe la fraude dans ce portefeuillede crédit, nous pouvons à présent appliquer les méthodes de RIDIT et PRIDIT sur notre jeude données, afin de pouvoir valider la méthodologie de détection des fraudes dans les sections2 et 3.

4.2.1 Modification des variablesJusqu’à présent, nous avons supposé que nos variables possédaient une relation monotone

décroissante avec la fraude. Cette hypothèse n’est pas toujours vérifiée en pratique. Nous allonsvoir sur notre jeu de données comment respecter à cette hypothèse.Pour pouvoir appliquer la méthode de RIDIT et calculer un score de fraude, nous devons mo-difier la majorité de nos variables.

Nous avons donc deux cas à traiter : les variables catégorielles et les variables continues.

Variables catégorielles

Comme énoncé précédemment, nous supposons que nos variables possèdent une relationmonotone décroissante avec la fraude. Nous utilisons la variable class distinguant les classesfraude et non-fraude afin de pouvoir réordonner les modalités selon leur fréquence comme nouspouvons le voir sur les graphiques ci-après.

●

●

●

●

0.49

0.220.39

0.12

0

100

200

300

400

<0 >=200 0<=X<200 no checkingover_draft

Nom

bre

de c

ontr

ats

Figure 27 – Représentation du nombre de contrats et de la fréquence de fraude par modalitéssur la variable «over draft»

61

●

●●

●

●

0.41

0.25 0.310.22

0.37

0

100

200

300

<1 >=7 1<=X<4 4<=X<7 unemployedemployment

Nom

bre

de c

ontr

ats

Figure 28 – Représentation du nombre de contrats et de la fréquence de fraude par modalitéssur la variable «employment»

Sur les graphiques ci-dessus, nous remarquons que les variables ne possèdent pas de relationmonotone décroissante avec la fraude. Nous devons identifier les modalités ayant une plus fortesuspicion de fraude et réordonner les variables de sorte que les modalités classées plus petitessoient alors les modalités ayant les plus grandes fréquences de fraude (les plus fortes suspicionsde fraude).

Dans les figures ci-après, nous remarquons bien la relation monotone décroissante entre nosvariables catégorielles et la suspicion de fraude.

●

●

●

●

0.490.39

0.220.12

0

100

200

300

400

1 2 3 4over_draft

Nom

bre

de c

ontr

ats

62

●●

●●

●

0.41 0.370.31 0.25 0.22

0

100

200

300

1 2 3 4 5employment

Nom

bre

de c

ontr

ats

Figure 29 – Représentations du nombre de contrats et de la fréquence de fraude après ré-assignation des modalités sur les variables «over draft» et «employment»

Nous devons à présent effectuer un travail similaire sur nos variables continues.

Variables continuesDe la même manière que pour les variables catégorielle, il est nécessaire, afin de satisfaire noshypothèses, que chacune de nos variables continues possèdent une relation monotone décrois-sante avec la fraude. Dans le cas des variables continues, le travail effectué sera légèrementdifférent. En effet, nous ne pouvons pas réorganiser notre échantillon sur les variables continuescar par définition, elles ne possèdent pas de modalités.

Nous pouvons toutefois expliciter une relation (croissante ou décroissante) avec la fraude enutilisant les corrélations de Pearson.

63

0.62 0.03

0.03

−0.04

0.03

0.27

−0.01

0.02

0.09

0.15

0.21

0.15

0

−0.09

−0.05

credit_usage

current_balance

residence_since

cc_age

existing_credits

curre

nt_b

alanc

e

resid

ence

_sinc

e

cc_a

ge

exist

ing_c

redit

scla

ss

−1 −0.5 0 0.5 1

Correlation

Figure 30 – Triangle des corrélations linéaires de Pearson

Nous pouvons remarquer sur le graphique précédent des relations linéaires entre les variablescc_age, existing_credits, current_balance, credit_usage et la variable fraude class.Nous pouvons expliciter cette relation linéaire, notamment sur la fréquence de fraude, commesur le graphique suivant :

●

● ●

●●

●

●

●

●

●

●

●●

●

●

●

● ●

●

●

●

● ●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●0.0

0.2

0.4

0.6

20 40 60cc_age

Fre

quen

ce

Figure 31 – Fréquence de fraude sur la variable «âge» et relation linéaire décroissante

Ici, nous remarquons bien une relation monotone décroissante avec la fraude. Les individusplus jeunes sont plus sujet à la fraude que leurs aînés.

Pour la variable credit_usage, représentant la durée du crédit, nous avons une relationlinéaire croissante. La corrélation de Pearson étant positive, nous retrouvons aussi cette relation

64

croissante dans le graphique suivante :

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ● ●

●

●

●

●

●

●

●

●

●

●

0.00

0.25

0.50

0.75

1.00

20 40 60credit_usage

Fre

quen

ce

Figure 32 – Fréquence de fraude sur la variable «durée du crédit» et relation linéaire croissante

Dans le cas où la relation monotone d’une variable continue avec la fraude est croissante i.e.le coefficient de corrélation de Pearson est positif, nous effectuons alors une symétrie axiale, decette variable, avec zéro.En effet, si une variable X est corrélée positivement avec une variable Y , alors −X est corréléenégativement avec la variable Y .

Nous appliquons cette transformation par symétrie axiale en zéro afin de pouvoir faireressortir la relation monotone décroissante avec la fraude.

65

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

0.00

0.25

0.50

0.75

1.00

−60 −40 −20credit_usage

Fre

quen

ce

Figure 33 – Transformation par symétrie de la variable «durée du crédit» et relation linéairedécroissante

La transformation effectuée nous permet bien d’obtenir une relation monotone décroissantede la variable avec la fraude.

Toutes les variables sont donc modifiées, les conditions sont alors réunies pour calculer unscore de fraude sur ces variables via la méthode de RIDIT.

4.2.2 Application de RIDIT et PRIDITAvant d’appliquer les méthodes de calcul des scores de RIDIT et PRIDIT, nous allons sé-

parer notre jeu de données. Nous utilisons 70 % de notre jeu de données dans la création d’unéchantillon d’apprentissage (l’échantillon sur lequel nous allons calibrer notre modèle) et 30 %de notre jeu de données dans la création d’un échantillon test, échantillon sur lequel nous allonstester notre méthode et nos prédictions par rapport à la réponse observée sur cet échantillon.

Afin de calculer les scores de fraude via la méthode de RIDIT sur notre échantillon test, nouscommençons par estimer les fonctions de répartition empiriques pour chacune des variables. Unefois chacune des fonctions de répartition empiriques estimées, nous pouvons calculer les scoresde fraude via la formule utilisée précédemment en section 2.3.1 :

Bt(x) = F (t)n (x−)−

(1− F (t)

n (x))

Nous appliquons alors le score de RIDIT sur notre échantillon test de 300 lignes et 20variables. Nous obtenons alors la matrice des scores de fraude B :

B =

B1(x(1,1)) B2(x(1,2)) . . . Bd(x(1,20))B1(x(2,1)) B2(x(2,2)) . . . Bd(x(2,20))

... ... ... ...B1(x(700,1)) B2(x(700,2)) . . . Bd(x(700,20))

66

Nous donnons un aperçu de cette matrice des scores de fraude en Annexe C.

Nous pouvons représenter la distribution des valeurs de chacun des scores de fraude parvariable comme sur la figure suivante.

●●

●●

●

●

●●●

●●●●

●●●●●●

●

●●

●

●

●

●

●●

●●

●

●●

●

●

●●●

●

●

●●

●

●

●

●●

●

●●●

●●

●●●

●

●

●●

●●

●●●●

●●●●●●●●

●●

●●

●●

●

●

●

●●●

●

●

●●

●●

●

●●●

●

●●

●

●

●

●●

●●

●●

●

●●●

●

●●●●

●●

●●●●●●●●

●

●●●●●

●●

●●●●●●

●

●●●●●

●

●

●

●●●

●

●

●

●●●●●

●●

●●

●

●●●●

●

●●●●●

●●

●●●●●

●

●●●

●

●●●●●●●●●●●

●●

●●

●

●●●●●●●●●●●

●●

●

●●

●●●

●

●●●●●●●

●●

●●●●●●●●●●●●●

●

●

●

●●

●

●

●

●

●●

●●

●

●

●

●●●●●●●

●

●

●●●

●●●●●

●●

●

●

●

●●

●

●●●●

●

●

●

●●

●

●

●●

●

●

●●

●

●

●

●

●

●●

●●●●

●●

●

●

●

●●

●

●●●

●●

●

●●●

●

●●●

●●

●●●●●

●

●

●

●

●

●●

●●

●

●●

●

●●●

●

●●●

●

●

●●●●●●●

●

●●

●●

●●

●

●●

●●●●

●

●

●●●●

●

●●●●●

●●

●

●●

●

●

●●●

●

●●

●

●

●

●

●●

●

●●●

●

●

●

●●

●

●●●

●●

●●●

●●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●●●●

●●●

●

●●

●

●

●

●

●

●●

●●●

●●●●

●●

●●●●●

●

●●

●

●

●

●●●●●

●

●●●●●

●

●●●

●●

●

●●

●●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●●●

●

●

●●

●●

●

●●●

●●●●●●

●

●

●

●

●●

●

●●●●

●

●

●

●●●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●●●●●●

●●●

●

●●

●

●●

●

●●

●●●●

●●●●

●●

●

●

●●●

●●

●

●

●

●●

●●●●●

●

●●

●

●●

●●

●

●

●●●●

●

●

●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

−1.0

−0.5

0.0

0.5

1.0

over

_dra

ft

cred

it_us

age

cred

it_his

tory

purp

ose

curre

nt_b

alanc

e

Avera

ge_C

redit

_Bala

nce

emplo

ymen

t

locat

ion

othe

r_pa

rties

resid

ence

_sinc

e

prop

erty_

mag

nitud

e

cc_a

ge

othe

r_pa

ymen

t_pla

ns

hous

ing

exist

ing_c

redit

sjob

num

_dep

ende

nts

own_

telep

hone

foreig

n_wor

ker

statu

s

variable

valu

e

Figure 34 – Boîtes à moustache des scores de fraude par variable via la méthode de RIDIT

Nous remarquons que les scores ne sont pas identiquement distribués même après avoir subila même transformation en score de RIDIT. On suppose donc que certaines variables pourraient,en effet, mieux discriminer la fraude que d’autres, et cette qualité de discrimination peut êtreexprimée selon les pondérations que donne la méthode de PRIDIT.

Nous allons donc calculer notre score de fraude, global et unique, par individu (ici, noscontrats). Nous appliquons la méthode de PRIDIT nous permettant de calculer les poids, àappliquer à chacune de nos variables, lors du calcul du score global par somme pondérée desvariables.

Nous appliquons à présent notre algorithme d’estimation des poids. Cet algorithme arriveà consistance (converge vers la solution) au bout d’une dizaine d’itérations. Nous obtenons lespoids suivant :

67

Variable Poidsover_draft -0,01credit_usage 0,48credit_history -0,04purpose -0,07current_balance 0,52Average_Credit_Balance -0,06employment -0,18location -0,01other_parties 0,05residence_since 0,18property_magnitude 0,41cc_age -0,18other_payment_plans 0,04housing 0,17existing_credits -0,07job 0,28num_dependents -0,03own_telephone -0,28foreign_worker 0,04status -0,18

Tableau 20 – Poids obtenus à la convergence de l’algorithme par la méthode de PRIDIT

Une fois ces poids obtenus, nous pouvons calculer de manière simple les scores uniques defraude par individu en effectuant la somme pondérée des variables par les poids précédents.

4.2.3 Résultats et interprétationsNous avons calculé nos poids via la méthode de PRIDIT. Nous utilisons alors ces poids afin

de calculer un score uni-dimensionnel, le score de PRIDIT. Ce score de PRIDIT est calculé eneffectuant la somme pondérée (les poids étant donnés par la méthode de PRIDIT) des scoresde RIDIT par variable.

Ce score de PRIDIT peut nous permettre de classifier nos individus (ici, nos contrats)comme étant en fraude ou non-fraude. Nous supposons, comme cela est le cas en assurance, quenous ne connaissons pas le taux de fraude θ et classifions les individus ayant un score négatifcomme des fraudes et les individus avec un score positif comme n’étant pas de la fraude.

Afin de mesurer la qualité de notre modèle, nous utilisons une matrice de confusion. Lamatrice de confusion est un outil servant à mesurer la qualité d’un système de classification.Elle permet de confronter les valeurs prédites avec les valeurs observées sur un échantillon dedonnées.

68

RéelsNon Oui

Prédits

Non Vrais négatifs (VN) Faux négatifs (FN)(erreur de type 2)

Oui Faux positifs (FP)(erreur de type 1) Vrais positifs (VP)

Tableau 21 – Exemple de matrice de confusion en classification binaire

De cette matrice de confusion, nous pouvons calculer des taux de performance du modèlede classification :

RéelsNon-fraude Fraude

Prédits

Non-fraude TV N = V N

V N + FPTFN = FN

FN + V P

Fraude TFP = FP

V N + V PTV P = V P

FN + V P

Tableau 22 – Calcul des taux de performance issus d’une matrice de confusion

Avec :

• TVN : Le taux de vrais négatifs ;• TFN : Le taux de faux négatifs (parfois appelé spécificité) ;• TFP : Le taux de faux positifs ;• TVP : Le taux de vrais positifs (parfois appelé sensibilité).

Nous pouvons aussi calculer la précision du modèle de classification en calculant l’indicateursuivant : Accuracy = V P + V N

navec n la taille de l’échantillon.

Nous obtenons donc, sur notre jeu de données, la matrice de confusion suivante :


Prédits Non-fraude 114 41Fraude 86 59

Tableau 23 – Matrice de confusion du modèle

Nous pouvons alors calculer les taux de performance via la matrice de confusion de notremodèle.

69


Prédits Non-fraude TVN : 57 % TFN : 41 %Fraude TFP : 43 % TVP : 59 %

Tableau 24 – Matrice des taux de performance du modèle

Ce modèle a une précision de 57,6 %. Notre précision est au dessus de 50 %, la modélisationest donc meilleure qu’une modélisation purement aléatoire.

Nos résultats sont assez satisfaisants, en particulier pour une méthode non-supervisée. Nousespérons pouvoir affiner notre modélisation et pouvoir obtenir de meilleurs résultats en matièrede détection des fraudes et donc de vrais positifs.

En effet, la méthode de PRIDIT nous permet une sélection de variables. La projection desvariables sur le premier axe propre nous donne la pondération à affecter à chacune de nos va-riables afin de calculer notre score global de fraude. Ces poids sont compris entre les valeurs-1 et 1 et peuvent parfois (voire souvent) être proches de zéro ce qui correspond au fait que lavariable est peu significative ou ne contribue que faiblement au calcul du score global de fraude.

Nous pouvons donc retirer les variables que nous estimons proches de zéro de notre modé-lisation.

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

−1.0

−0.5

0.0

0.5

1.0

Avera

ge_C

redit

_Bala

nce

cc_a

ge

cred

it_his

tory

cred

it_us

age

curre

nt_b

alanc

e

emplo

ymen

t

exist

ing_c

redit

s

foreig

n_wor

ker

hous

ing job

locat

ion

num

_dep

ende

nts

othe

r_pa

rties

othe

r_pa

ymen

t_pla

ns

over

_dra

ft

own_

telep

hone

prop

erty_

mag

nitud

e

purp

ose

resid

ence

_sinc

e

statu

s

variables

poid

s

Figure 35 – Représentation des poids de PRIDIT par variable

Dans la figure ci-dessus, nous représentons chacun des poids par variable. Nous allos en-suite pouvoir exclure de la modélisation les variables dont les poids sont inférieurs (en valeurabsolue) à un certain seuil. Nous définissons «arbitrairement» le seuil comme étant la moyennedes poids. Ce choix n’est effectivement pas totalement arbitraire car nous souhaitons pouvoirdévelopper une méthodologie qui s’adapte à tous types de jeux de données.

Nous retenons, à présent, dans notre étude les variables :

70

Variable Type Descriptioncredit_usage Continue Durée du créditpurpose Catégorielle But d’usage du crédit (crédit étudiant, crédit automo-

bile, etc)current_balance Continue Montant du crédit empruntéemployment Catégorielle Ancienneté dans un emploi selon des intervalles de

temps en années.personal_status Catégorielle Statut marital ainsi que le genre d’un individuresidence_since Catégorielle Nombre d’années passées dans l’établissement bancaireproperty_magnitude Catégorielle Biens personnels du contractant au crédit (immobilier,

assurance vie ou voiture)cc_age Continue Âge de l’individuhousing Catégorielle Habitation (indique si le contractant habite dans une

location, s’il est propriétaire ou hébergé gratuitement)job Catégorielle Niveau de qualification dans un emploiown_telephone Binaire Possession un téléphoneforeign_worker Binaire Indique si le contractant au crédit est un travailleur

étranger.

Tableau 25 – Variables retenues après sélection

Cette sélection de variables est très intéressante car elle n’affecte que les poids de PRIDITet le score global de PRIDIT et non les scores effectués par RIDIT.

Nous disposons donc d’une nouvelle matrice des scores composée des scores associés auxvariables explicitées plus haut.

Nous appliquons donc une nouvelle fois notre algorithme itératif afin de calculer de nou-veaux poids et donc de nouveaux scores individuels de fraudes, que l’on espère plus précis.

Après quelques itérations, l’algorithme a convergé vers sa solution : les coordonnées desvariables sur le premier axe propre de la matrice des scores.

Nous obtenons donc les poids ci-après :

71

Variable Poidscc_age -0,17credit_usage 0,53current_balance 0,54employment -0,09housing 0,20job 0,26own_telephone -0,29property_magnitude 0,37residence_since -0,21status -0,13existing_credits -0,01purpose -0,09

Tableau 26 – Poids obtenus avec l’algorithme de PRIDIT après sélection de variables

Nous obtenons suite à cet algorithme les nouveaux scores de fraude, obtenus à partir de cesnouveaux poids. Nous pouvons encore une fois classifier nos individus en tant que fraude ounon-fraude en partant de la même hypothèse que précédemment qui est que nous ne connais-sons pas le taux de fraude sur le portefeuille.

Nous pouvons donc à nouveau calculer, sur notre jeu de données, la matrice de confusionsuivante :



Tableau 27 – Matrice de confusion du modèle après sélection de variables

Nous pouvons aussi représenter graphiquement cette matrice de confusion :

72

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

Fraude

Non−Fraude

Non−Fraude FraudeRéels

Pré

dits

−2

−1

0

1

2score

Figure 36 – Représentation de la matrice de confusion sur notre échantillon de données

Via cette nouvelle matrice de confusion, nous pouvons alors calculer les taux de performancede notre modèle.



Tableau 28 – Matrice des taux de performance après sélection de variables

La sélection de variables que nous avons effectuée nous donne des résultats satisfaisants,nous avons pu améliorer notre modélisation de la fraude.En effet, les scores de fraudes ainsi calculés sont plus précis que précédemment. Cela se dis-tingue notamment sur la matrice des performances.

Nous augmentons donc les taux de vrais négatifs ainsi que les taux de vrais positifs de 1et 3 points. Nous diminuons de plus les taux de faux négatifs de 1 point et les taux de fauxpositifs de 3 points.De plus, nous pouvons calculer la précision générale du modèle suite à la sélection de variable.Nous obtenons donc une précision générale du modèle de 59,4 % ce qui revient à une augmen-tation du taux de précision général de 1,8 points.

Même si cette augmentation est faible, nous améliorons tout de même le modèle. Touteamélioration, même infime, est toujours importante dans le cadre de la détection de fraudes àl’assurance.

Ces méthodes non-supervisées, que sont les méthodes de RIDIT et PRIDIT, nous donnentdes résultats réellement satisfaisants en particulier dans un cadre où peu, voire aucune, méthodesupervisée ne peut être utilisée.

73

Nous nous intéresserons, dans la section suivante, aux possibilités de transposition de ces mé-thodes sur un jeu de données assurantielles, aux points négatifs et positifs que peuvent avoirces méthodes ainsi qu’aux améliorations possibles qui peuvent leur être appliquées.

74

5 Critiques et améliorations envisa-geables

Nous avons vu dans la section précédente, sur notre jeu de données German Credit Fraud,une application des méthodologies de détection de fraudes que nous avons proposé tout aulong de ce mémoire. Ces méthodes mathématiques nous donnent des résultats jugés assez sa-tisfaisants. Nous allons voir dans cette section, comment transposer ces méthodologies à unjeu de données assurantielles, les critiques que nous pouvons en faire ainsi que les quelquesaméliorations possibles dans le cadre d’une compagnie d’assurance.

5.1 Critiques5.1.1 Transposition possible de ces méthodes sur un jeu de don-

nées assurantielLes méthodes de RIDIT et PRIDIT sont adaptés à la problématique de détection de fraudes

à l’assurance et peuvent facilement se transposer sur un jeu de données assurantiel. De plus, dansle cas de l’assurance, plusieurs variables peuvent venir enrichir la modélisation via ces méthode.

En effet, lorsqu’un assuré effectue sa déclaration de sinistre à l’assureur, l’assuré soumet unedemande d’indemnisation. L’assureur recevant ces informations effectue la constitution d’undossier de sinistre. Les informations contenues dans ces dossiers permettent aux gestionnairesde sinistres de détecter les possibles fraudes et permettent la bonne gestion de l’indemnisationd’un sinistre. Le dossier de sinistre comporte (en général) :

• le numéro d’enregistrement du sinistre ;• le numéro de la police ;• le nom de l’assuré/du demandeur/du bénéficiaire ;• un document résumant l’évolution et l’état d’examen du dossier ;• le type d’assurance ;• la date d’ouverture du dossier ;• la date du sinistre ;• la date de notification ;• la description du sinistre ;• des informations sur les demandeurs ;• la date d’évaluation du dommage ;• le cas échéant, la copie électronique et/ou papier des rapports des experts et enquêteurs ;• l’identification de l’expert ;• le coût estimé des dommages ;• la date des versements et leurs montants respectifs ;• le cas échéant, la date du rejet ;• le cas échéant, le nom des intermédiaires ;• la date de clôture du dossier ;• les documents retraçant les contacts de la compagnie avec l’assuré/le demandeur/le bé-

néficiaire.

75

Ces informations sont essentielles pour la bonne gestion d’un sinistre mais sont aussi parfoistrès révélatrices sur la nature frauduleuse (ou non) d’un sinistre.

Prenons le cas d’un sinistre automobile. Nous pouvons utiliser les informations de ces dos-siers de sinistres afin de composer un jeu de données, pour la détection de fraudes, avec lesvariables suivantes :

• le type d’assurance ;• le temps écoulé entre la survenance du sinistre et la déclaration ;• le temps écoulé entre la déclaration et l’évaluation des dommages ;• le coût estimé des dommages ;• la cause du sinistre (vol, bris de glace,...).

Nous pouvons ajouter à cela les variables propres à l’assuré :

• l’âge ;• l’ancienneté du permis de conduire ;• le sexe ;• la situation maritale ;• le département ;• le nombre de changements de véhicules ;• la catégorie socio-professionnelle.

Nous pouvons aussi enrichir notre jeu de données avec les variables intrinsèques au véhicule :

• la marque ;• le type (modèle ou version) ;• le nombre de chevaux fiscaux ;• le nombre de conducteurs ;• l’ancienneté.

Ces listes de variables ne sont bien évidemment pas exhaustives, mais permettent de donnerune base d’application commune à tous les assureurs.

Nous pouvons donc tout naturellement appliquer le calcul des scores de fraudes par variableselon la méthode de RIDIT. Nous pouvons ensuite appliquer la méthode de PRIDIT sur lamatrice des scores ainsi calculée. La procédure est alors la même que celle développée précé-demment lors de l’application sur notre jeu de données German Credit Fraud.

En pratique, si nous ne disposons pas de la variable sous-jacente binaire permettant d’iden-tifier les sinistres en tant que fraude ou non-fraude (la variable class dans notre exemple), nouspouvons utiliser l’expertise métier des gestionnaires de sinistres afin de classer les modalités desvariables catégorielles par ordre décroissant de suspicion de fraude et de définir la monotoniede la relation entre les variables continues et la fraude.

De plus, dans le cas où les gestionnaires de sinistres sont dans l’incapacité de classer toutesles modalités par suspicion de fraude, nous pouvons diminuer le nombre de modalités en effec-tuant des regroupements grâce à la propriété de branchement, énoncée dans la Définition 2.Nous disposons, par exemple, de la variable «cause du sinistre» composée des modalités sui-vantes : Dommages accidentels, Tempête, Grêle, Vol, Incendie, Bris de Glace. Le gestionnaire

76

ne saurait pas, a priori, classer ces causes de sinistre par suspicion de fraudes décroissante maissait que le vol automobile est la cause de sinistre la plus fraudée. Nous pouvons donc regrouperles autres modalités afin d’obtenir les nouvelles modalités classées comme suit : Vol et autrescauses de sinistre classées comme 1 et 2.Nous calculons un score de fraude par la méthode de RIDIT puis nous pouvons calculer le scoreuni-dimensionnel de fraude via la méthode de PRIDIT.

5.1.2 Limites des méthodes de RIDIT et PRIDITNous pouvons mettre en avant trois principales réserves quant aux méthodes de RIDIT et

PRIDIT.

Tout d’abord, ces méthodes possèdent un inconvénient majeur : la théorie mathématiquequi y est associée est dense et assez technique. D’un point de vue opérationnel, l’utilisationde cette méthode en devient moins justifiable par rapport à l’utilisation d’une méthode plus«classique» telle que le modèle linéaire logistique très largement utilisé par les actuaires afin demodéliser un évènement binaire.

Ces méthodes possèdent un deuxième inconvénient, dont la prise en compte est tout aussiimportante, elles sont peu robustes. En effet, la classification qui en découle déclenche de nom-breux faux-positifs (sinistres classés comme fraude alors qu’ils ne le sont pas en réalité).Cette méthode fait transparaître la susceptibilité de fraude d’un sinistre par un score, ce quifait perdre la modélisation en précision lors de la classification.Nous pouvons cependant prendre en compte le fait qu’en assurance, beaucoup de fraude nesont pas encore détectées par les gestionnaires de sinistres ou experts de sinistres et que classerces sinistres comme étant à forte suspicion n’est pas forcément une «erreur». Ces faux positifstranscrivant alors une forte suspicion, ils peuvent toujours faire l’objet d’un audit interne ouexterne.Cette notion de faux-positifs est un problème dans le cas de notre jeu de données de crédit maisne l’est pas forcément en assurance.

Enfin, il nous est impossible d’effectuer des contrôles a posteriori, de notre méthode, surun historique fiable de fraudes. La variable sous-jacente que nous modélisons (fraude ou non-fraude) n’est, en effet, pas fiable dans les bases de données d’assureurs car conditionnée à lasuspicion des gestionnaires de sinistres et par le fait que tous les sinistres ne sont pas expertisés.Nous pouvons cependant mettre dans un premier temps, mettre en place ces méthodes et dansun second temps, effectuer un contrôle sur les sinistres futurs.

5.1.3 Avantages des méthodes RIDIT et PRIDITLes méthodes de RIDIT et PRIDIT, bien que comportant des inconvénients, possèdent aussi

de nombreux avantages.

Nous pouvons tout d’abord remarquer que cette méthode non-supervisée convient parfaite-ment à notre problématique. Dans le cas où un assureur a très peu de données de fraudes ouune base de données de fraudes peu fiable, il est tout de même possible d’utiliser l’expertisemétier des gestionnaires de sinistres afin d’appliquer cette méthode et d’en retirer des premiers

77

résultats.

Nous pouvons énoncer ensuite sa facilité de mise en œuvre. En effet, en matière de trai-tement de données, la transformation et le calcul des scores de RIDIT découlent de formulesfermées «simples». L’algorithme du calcul des poids selon la méthode de PRIDIT est lui aussiassez simple et ne requiert que quelques calculs matriciels.De manière computationnelle, le temps d’exécution pour le calcul d’un score de RIDIT est trèsbref. Pour une variable à 10 millions de lignes (l’équivalent du nombre de sinistres IARD, paran, en France), le calcul des scores de RIDIT s’effectue en un peu plus de 5 secondes. De plus,nous avons pu voir que l’algorithme de calcul des poids de PRIDIT converge très rapidement(il a été vu dans la littérature concernant la méthode de PRIDIT, une convergence entre 10 et20 itérations).À titre comparatif, les algorithmes d’apprentissage supervisés sont beaucoup plus lents. Pour lesplus simples tels que l’algorithme de Forêts Aléatoires («Random Forests») le temps d’exécutionpeut se chiffrer en plusieurs dizaines de minutes et plusieurs heures pour les plus complexes telsque l’algorithme du «Gradient Boosting».

De plus, les méthodes développées dans ce mémoire apportent des résultats très facilementinterprétables. Avec la méthode de PRIDIT, plus un score est petit et plus la suspicion defraude est grande ; la séparation étant faite par le signe du score. Elle est visuelle et très com-préhensible pour les gestionnaires de sinistres recevant les résultats de cette méthode.

Les méthodes de RIDIT et PRIDIT ne nécessitent pas non plus d’être mises à jour régulière-ment. En effet, sauf si la nature profonde des fraudes a changé (nouveaux produits d’assuranceou nouvelles manières de frauder), Ai et al (2009) [2] suggèrent que les poids des variables ainsique les scores de RIDIT mis à jour ne doivent pas nécessairement changer.De plus, ces méthodes sont plus à même de s’adapter à un changement de la nature profondedes fraudes. Le recalibrage des poids de PRIDIT ou des scores de RIDIT étant un processuspeu coûteux et simple à effectuer, ces méthodes sont donc avantageuses par rapport aux autresméthodes d’apprentissage statistique supervisées.

Enfin, la méthode de PRIDIT permet également d’effectuer une sélection de variables. Eneffet, si les poids associés à certaines variables sont très proches de zéro, nous pouvons alors lesretirer de l’étude. Cette sélection de variable permet donc de faire ressortir les variables les plusdéterminantes quant à la détection des fraudes. L’expert ou le gestionnaire de sinistres peutdonc se focaliser sur la récolte de ces variables afin de pouvoir prédire, de manière plus précise,les fraudes.

5.2 Améliorations possibles de la méthodolo-gie

Les méthodes de RIDIT et de PRIDIT que nous avons définies précédemment possèdent denombreux avantages et des inconvénients à prendre en compte. Même si ces méthodes abou-tissent à de bons résultats sur notre échantillon de données, il est nécessaire de développerdes axes d’améliorations en particulier dans le cadre d’une application sur un échantillon dedonnées assurantielles.

78

5.2.1 Analyse textuelle des déclarations de sinistreAfin d’améliorer notre modélisation de la fraude à l’assurance, nous souhaitons utiliser les

informations disponibles des déclarations de sinistres. Pour ce faire, nous pouvons utiliser l’ana-lyse textuelle.

L’analyse textuelle ou la fouille de textes provient du terme anglais «text-mining». Le text-mining a pour vocation d’automatiser la structuration des documents peu ou faiblement struc-turés.Ainsi, nous pouvons à partir d’un document texte, générer de l’information sur le contenu d’unou plusieurs documents. Cette information n’était pas présente, ou explicite, dans le documentsous sa forme initiale. Elle va être rajoutée, et donc contribuer à enrichir le document.

Le text-mining possède alors plusieurs buts :

• Classifier automatiquement des documents ;

• Obtenir un aperçu du contenu d’un document sans le lire ;

• Alimenter automatiquement des bases de données ;

• Enrichir l’index d’un moteur de recherche pour améliorer la consultation des documents.

Cette liste n’est pas exhaustive et plusieurs autres usages et services peuvent découler des outilsdisponibles en text-mining.

Il existe deux approches au text-mining pouvant être envisagées : une approche statistiqueet une approche sémantique. Nous ne développerons, ici, que l’approche statistique qui seral’approche qui répond le plus à notre problématique.

L’approche statistique consiste à ne voir le document que via le prisme de nombres et dechiffres. Ainsi, l’outil statistique associé au text-mining produit des informations sur le nombred’occurrences d’un terme, le nombre de co-occurrences de plusieurs termes et la fréquence d’ap-parition d’un terme dans un document ou un corpus de textes.

Le principal avantage de l’approche statistique réside dans son très faible coût de mise enœuvre, à condition que le volume du corpus documentaire soit significatif, voire très important.Le désavantage de l’approche statistique du text-mining est qu’il n’y a pas de prise en comptedes spécificités du corpus documentaire traité : textes médicaux, commerciaux, scientifiques ouautres, seront donc traités de manière identique.

Dans notre cas, nous souhaitons étudier un corpus de textes correspondant aux déclarationsde sinistres. En traitant et analysant les déclarations de sinistres présentes dans le corpus detextes, nous pouvons en retirer la «Document-Term Matrix» (DTM), la matrice correspondantaux occurrences de chaque mot dans chaque texte.

79

Déclaration de sinistre mot1 mot2 mot3 . . . motptexte1 m1,1 m1,2 m1,3 . . . m1,ptexte2 m2,1 m2,2 m2,3 . . . m2,ptexte3 m3,1 m3,2 m3,3 . . . m3,ptexte4 m4,1 m4,2 m4,3 . . . m4,ptexte5 m5,1 m5,2 m5,3 . . . m5,ptexte6 m6,1 m6,2 m6,3 . . . m6,p

... ... ... ... ... ...texten mn,1 mn,2 mn,3 . . . mn,p

Tableau 29 – Illustration d’une «Document-Term Matrix»

De cette DTM, nous pouvons alors représenter notre corpus selon un nuage de mots. Ci-dessous, un exemple d’une représentation d’un corpus de déclarations de sinistres selon unnuage de mots.

véhiculeaccident

amiableconstat

contratdontfaire

madamemonsieur

suitevoiture

afin

assurance

carte

courrier

déroulé

grise

inutilisable

lettre

objet

parebrisephotocopie

plusprésente

priorité

respectueuses

salutations

sinistre

’autre

adresse

agréer

appel

attente

atteste

auto

besoin

bien

bris

carrosserie

changement

changer

cijoint

clairement

comme

complémentaires

complètement

compter

conducteur

confier

conséquent

constater

contact

croire

croisait

date

déclaration

dégager

délais

dépanneuse

disposition

dommages

effectuer

effet

entendu

entière

estàdire

garage

glace

ignore

joint

jour

lourd

neuf

non

octobre

part

pouvoir

prie

réf

refus

route

saissubi

très

vois

Figure 37 – Représentation d’un nuage de mots basé sur des déclarations de sinistres

Nous pouvons utiliser les nuages de mots afin d’expliciter, si possible, les différences destructures de déclarations de sinistres frauduleuses ou non.

Nous pouvons tout autant enrichir notre jeu de données avec de nouvelles variables. Eneffet, chaque sinistre enregistré possède une déclaration de sinistre associée. Nous pouvons ainsiajouter à notre jeu de données toutes les occurrences des mots analysés via le text-mining surles déclarations de sinistres.

Cette démarche est en parfaite adéquation avec les méthodes de RIDIT et PRIDIT. En effet,nous pouvons utiliser tous les mots explicités par le text-mining comme nouvelles variables, laméthode de PRIDIT effectuant une sélection de variables, les mots qui discriminent le moinsla fraude seront alors exclus de la modélisation.

80

5.2.2 Estimateur non paramétrique du taux de fraudeAfin d’aller plus loin avec les méthodes de RIDIT et PRIDIT et surtout, afin de pouvoir

donner un aperçu de la sinistralité frauduleuse des assureurs, nous souhaitons estimer le tauxde fraude chez un assureur.

Nous pouvons expliciter, à l’aide de la théorie développée sur les méthodes de RIDIT et dePRIDIT, un estimateur non-paramétrique du taux de fraude sur un échantillon de données.Selon la méthode de RIDIT, la relation entre l’espérance des scores, le taux de fraude θ ainsique la mesure de la qualité de discrimination d’une variable At peut être exploitée afin d’estimerle taux de fraude θ.

En effet, il a été montré dans la section 3.1.3 que E[Bt|Fraude] = (θ − 1)At ainsi queE[Bt|Non− Fraude] = θAt.Nous avons donc :

θ = E[Bt|Non− Fraude]E[Bt|Non− Fraude]− E[Bt|Fraude]

Pour chaque variable t, nous pouvons alors définir un estimateur θt en calculant le scoremoyen sur les classes fraudes et non-fraude :

θt = B2,t

B2,t −B1,t

Où Bi,t représente le score de fraude de RIDIT moyen pour la variable t sur la classe i aveci ∈ {1, 2}.

Nous pouvons alors obtenir un estimateur du taux de fraude θ sur notre échantillon dedonnées basé sur les estimateurs θt en calculant la moyenne empirique de ceux-ci :

θ = 1d

d∑t=1

θt

Avec d le nombre de variables sur notre jeu de données.

En pratique, si nous ne connaissons pas le taux de fraude sur un échantillon, nous avonsclassifié nos sinistres comme fraude si le sinistre avait un score global de PRIDIT négatif.Nous utilisons alors cette classification pour calculer l’estimateur.

Même si cet estimateur produit des résultats que nous jugeons acceptables (en utilisant cetestimateur, nous estimons la taux de fraudes à 26,5 % contre 30 % de fraudes réelles sur le jeude données), la théorie mathématique associée a cet estimateur n’a pas été démontrée.

Une amélioration possible de la méthode de PRIDIT serait de prouver la convergence d’untel estimateur vers la solution voulue i.e. le taux de fraude θ.

81

6 Démonstrations des propriétés as-sociées aux méthodes de RIDIT etPRIDIT

Dans cette section, nous démontrerons tous les théorèmes, propositions ainsi que les hypo-thèses que nous avons pu faire dans ce mémoire.

6.1 La fonction d’affectation des scores de RI-DIT

Le Théorème 1 (page 30) est un des résultats les plus importants de ce mémoire. Il formalisel’affectation des scores de RIDIT, donne les propriétés que doit suivre la fonction d’affectationdes scores et nous donne aussi la forme que doit avoir cette fonction d’affectation.

Rappelons les propriétés 1 à 4, que doit suivre la fonction de scores, énoncées dans la Défi-nition 2 :

Soit X une variable catégorielle, associée à un échantillon, à k modalités dont les propor-tions sont p = (pX1 , pX2 , ..., pXk

).

Nous définissons alors une fonction d’affectation pour une modalité i (parmi les k modalitésde la variable X) hk (i, p).

Cette fonction d’affectation doit alors vérifier les quatre propriétés suivantes :

1. h1(1, 1) = 0.Si une variable n’a qu’une seule modalité, cette variable prendra tout le temps la mêmevaleur et n’apportera aucune information.

2. 0 ≤ h2(2, p, 1− p) = −h2(1, 1− p, p).Cette propriété illustre le fait que si une distribution empirique sur les deux modalitésest inversée, alors par symétrie centrale, les valeurs (absolues) des scores assignées à unemodalité sont échangées de la même manière que la distribution est inversée. Afin depréserver les rangs des modalités, le signe doit alors changer.

3. Propriété de branchement :Supposons que nous avons plus que deux modalités sur notre variable (k modalités parexemple) et que pour des raisons computationnelles ou statistiques nous souhaitons re-grouper certaines modalités. Les modalités non-affectées par ce regroupement gardentexactement le même score qui leur avait été assigné précédemment et le score associé auxmodalités regroupées est une somme pondérée des valeurs originalement assignées à cesmodalités.Supposons que nous regroupons les modalités i et i+1. La distribution pX = (pX1 , pX2 , ..., pXk

)

82

devient qX =(qX1 , qX2 , ..., qXk−1

)(avec qXj


= pXi+ pXi+1 et

qXj= pXj+1 pour j > i). Nous obtenons alors :

hk−1 (i, q) = pXi

pXi+ pXi+1

· hk (i, p) + pXi+1

pXi+ pXi+1

· hk (i+ 1, p)

hk−1 (j, q) = hk (j, p) ,∀j < ihk−1 (j, q) = hk (j + 1, p) , ∀j > i

4. Si la variable X étudiée ne possède que deux modalités, alors la quantité h2 (2, p, 1− p)−h2 (1, p, 1− p) ne décroît pas si p augmente.Cela reflète le fait que les scores assignés aux modalités ne doivent pas être des valeurs«proches» si la proportion dans l’une ou l’autre catégorie augmente.

Rappelons maintenant le Théorème 1 :Une fonction d’affectation de scores hk satisfait les propriétés 1 à 4 si et seulement si

hk (i, p) = c

∑ji

pXj

pour c une constante arbitraire.

Ce théorème se démontre en deux étapes, nous allons tout d’abord démontrer le sens réci-proque de la double implication (⇐) puis nous allons démontrer le sens direct (⇒).

Réciproque

Nous souhaitons montrer que si hk (i, p) = c

∑ji

pXj

pour c une constante arbi-

traire, alors la fonction hk satisfait les propriétés 1 à 4.Afin de faciliter la lecture, posons «arbitrairement» la constante c = 1.

1. Si la variable n’a qu’une modalité, alors la fonction hk(1, p) = h(1, 1) = 0. La propriétéest donc satisfaite.

2. Si la variable possède deux modalités avec p = (p, 1−p) alors nous devons avoir h2(2, p, 1−p) ≥ 0.hk(2, p) = h2(2, p, 1−p) = p or p > 0, nous avons bien h2(2, p, 1−p) = −h2(1, 1−p, p) ≥ 0.De plus, si nous avons p = (1− p, p) alors −h2(1, 1− p, p) = −(−p) = p.La propriété 2 est donc satisfaite.

3. Supposons que nous regroupons les modalités i et i + 1. pX = (pX1 , pX2 , ..., pXk) devient

qX =(qX1 , qX2 , ..., qXk−1

)(avec qXj


= pXi+ pXi+1 et qXj

= pXj+1

pour j > i).

Nous obtenons directement alors :{hk−1 (j, q) = hk (j, p) ,∀j < ihk−1 (j, q) = hk (j + 1, p) ,∀j > i

83

Nous devons à présent calculer hk−1(i, q) :

hk−1(i, q) =∑ji

qXj

=∑ji+1

pXj

Afin de simplifier les notations, posons :x =

∑ji+1

pXj

= x− yEn faisant apparaître de manière artificielle les quantités pXi

et pXi+1

= pXi+ pXi+1

pXi+ pXi+1

(x+ pXi

− pXi+ pXi+1 − pXi+1 − y

)= 1pXi

+ pXi+1

(pXi

(x− pXi+1 − y) + pXi+1(x+ pXi− y)

+ pXipXi− pXi

pXi+ pXi

pXi+1 + pXi+1 pXi+1 − pXi+1 pXi+1 − pXipXi+1

)

= pXi

pXi+ pXi+1

∑ji+1

pXj

+ pXi+1

pXi+ pXi+1

∑ji+1

pXj

= pXi

pXi+ pXi+1

∑ji

pXj

+ pXi+1

pXi+ pXi+1

∑j<i+1

pXj−

∑j>i+1

pXj

= pXi

pXi+ pXi+1

hk(i, p) + pXi+1

pXi+ pXi+1

hk(i+ 1, p)

La propriété de branchement est donc vérifiée.

4. Supposons que notre variable X n’a que deux modalités et posons la fonction g telle queg(p) = h2 (2, p, 1− p)− h2 (1, p, 1− p).Nous obtenons alors g(p) = p− (−(1− p)) = 1.

La fonction g qui à p associe la valeur 1 est une fonction constante qui n’est ni croissanteni décroissante sur son domaine de définition R.

En particulier si p augmente, g(p) = h2 (2, p, 1− p) − h2 (1, p, 1− p) n’est donc pas dé-croissante.

La propriété 4 est donc vérifiée.

Nous venons donc de montrer que si une fonction d’affectation des scores hk est de la forme

hk(i, p) = c

∑ji

pXj

, alors la fonction hk satisfait les propriétés 1 à 4.

84

Sens direct

Il nous reste à présent, pour démontrer ce théorème, à montrer le sens direct de la doubleimplication.Nous démarrerons avec une variable X catégorielle avec un nombre de modalités fixé (deuxmodalités) puis nous généraliserons pour k modalités :

Définissons la fonction f(p) = h2(2, p, 1 − p) avec 0 ≤ p ≤ 1. Les propriétés 1 (modalitéunique), 2 (symétrie) et 3 (branchement) impliquent alors :

h1(1, p+ 1− p) = h1(1, 1) = 0 d’après la propriété de modalité unique

= p

p+ 1− ph2(1, p, 1− p) + 1− pp+ 1− ph2(p, 1− p)

d’après la propriété de branchement= −p · h2(1, p, 1− p)− (1− p) · h2(2, p, 1− p)= p · h2(2, 1− p, p)− (1− p)h2(2, p, 1− p)

d’après la propriété de symétrieD’où : h1(1, p+ 1− p) = 0 = p · f(1− p)− (1− p) · f(p)

Soit p = 1 + t

2 , définissons alors la fonction φ telle queφ(t) = φ(2p− 1) =

( 21 + t

)· f(1 + t

2

)= 1pf(p)

φ(−t) =(

11− p

)· f(1− p)

En appliquant l’équation précédente, nous remarquons que la fonction φ est donc une fonctionpaire. En effet,

0 = p · f(1− p)− (1− p) · f(p)

⇔ f(1− p) =(

1− pp

)· f(p)

⇔ 11− p · f(1− p) = 1

p· f(p)

⇔ φ(−t) = φ(t)Nous obtenons alors : f(p) = p · φ (|2p− 1|).

Notons que nous pouvons écrire φ telle que φ(|2p− 1|) = h2(2, p, 1− p)− h2(1, p, 1− p).

φ(|2p− 1|) = p · φ(|2p− 1|) + (1− p) · φ(|2p− 1|)= p · φ(2p− 1) + (1− p) · φ(−(2p− 1)) car φ est paire= p · φ(2p− 1) + (1− p) · φ(−2p+ 1)= p · φ(2p− 1) + (1− p) · φ(2(1− p)− 1)= f(p) + f(1− p)= h2(2, p, 1− p) + h2(2, 1− p, p)= h2(2, p, 1− p)− h2(1, p, 1− p)

85

Afin de simplifier les notations, posons x =∑ji

pXj.

D’après la propriété 3, nous avons : hk (i, p) = h3 (2, x, pXi, y) et pXi

> 0. Nous pouvonsmaintenant calculer :

h3 (3, x, pXi, y) = h2 (2, x+ pXi

, y)= f (x+ pXi

)= (x+ pXi

)φ (|2(x+ pXi)− 1|)

= (x+ pXi)φ(|2(x+ pXi

)− (x+ pXi+ y)|)

= (x+ pXi)φ(|x+ pXi

− y|)et

h3 (1, x, pXi, y) = −h2(2, pXi

+ y, x)= −f (y + pXi

)= −(y + pXi

)φ(|y + pXi− x|)

En appliquant la propriété de branchement et la propriété de modalité unique, nous pouvonsremarquer quexh3(1, x, pXi

, y) + pXih3(2, x, pXi

, y) + yh3(3, x, pXi, y) = 0 ou de manière équivalente

h3(2, x, pXi, y) = −xh3(1, x, pXi

, y)− yh3(3, x, pXi, y)

pXi

.

En injectant ces derniers résultats dans l’équation précédente hk (i, p) = h3 (2, x, pXi, y) (la

généralisation à k modalités), nous obtenons :

hk (i, p) = x(1− x)φ(|y + pXi− x|)− y(1− y)φ(|x+ pXi

− y|)pXi

.

Comme φ est une fonction paire, et φ(t) = φ(|2p− 1|) = h2 (2, p, 1− p)− h2 (1, p, 1− p), lapropriété 4 n’est satisfaite que si et seulement si φ(t) = c, ∀t ∈ R et avec c ∈ R. En effet, lesseules fonctions paires à ne pas être décroissantes sont les fonctions constantes.

Injectons ce dernier résultat dans la dernière équation et nous obtenons :

hk(i, p) = x(1− x)c− y(1− y)cpXi

= c

(x(1− x)− y(1− y)

pXi

)

= c

(x(x+ pXi

+ y − x)− y(x+ pXi+ y − y)

pXi

)

= c

(x(y + pXi

)− y(x+ pXi)

pXi

)

= c

(xy

pXi

+ xpXi

pXi

− yx

pXi

− y pXi

pXi

)= c (x− y) .

86

D’où, hk (i, p) = c

∑ji

pXj

avec c ∈ R.

6.2 La méthode de RIDIT affecte des scoresde fraude plus faibles sur la classe fraudeque sur la classe non-fraude

Ici, nous souhaitons démontrer la proposition 1 (page 35).Cette proposition nous indique alors que s’il y a dominance stochastique entre la classe non-fraude et la classe fraude, alors avec une probabilité supérieure à un demi, les valeurs de la classefraude sont plus faibles que les valeurs de la classe non-fraude. Cette propriété est importantedans le cadre du calcul des scores de fraude par variable via la méthode de RIDIT unifiée.

Rappelons brièvement cette proposition :

Soit une variable t, la n-réalisation d’une variable aléatoire de loi F sa fonction de répartitionet sélectionnons aléatoirement une réponse X de la classe fraude de fonction de répartition F1et une variable aléatoire Y de fonction de répartition F2, sélectionnée aléatoirement sur la classenon-fraude alors si F2 domine stochastiquement F1 à l’ordre 1, P(X < Y ) ≥ 1

2 .Démontrons à présent cette proposition :

Soit ∆(x) = F1(x)− F2(x) ≥ 0 car F2 domine stochastiquement F1 à l’ordre 1. Nous avonsalors :

P(X < Y ) =∫ +∞

−∞P(X < y)dF2(y)

=∫ +∞

−∞F1(y)dF2(y)

=∫ +∞

−∞(F2(y) + F1(y)− F2(y)) dF2(y)

=∫ +∞

−∞(F2(y) + ∆(y)) dF2(y)

=∫ +∞

−∞F2(y)dF2(y) +

∫ +∞

−∞∆(y)dF2(y)

En posant le changement de variable x = F2(y) nous obtenons :

=∫ 1

0xdx+

∫ +∞

−∞∆(y)dF2(y)

=[x2

2

]1

0+∫ +∞

−∞∆(y)dF2(y)

= 12 +

∫ +∞

−∞∆(y)dF2(y)

≥ 12 car ∆(y) ≥ 0,∀y ∈ R

87

Nous montrons bien que cette construction pour les variables continues garde bien cettetendance à affecter des scores faibles aux valeurs à forte suspicion de fraude et inversement.

6.3 La mesure de la qualité de discriminations’écrit sous une seconde forme

Nous énonçons dans la section 3.1.2 que

At = 2∫ +∞

−∞∆(x)dF1(x) = 2

∫ +∞

−∞∆(x)dF2(x).

Où ∆(x) = F1(x)− F2(x).

Ce résultat est très cohérent. Heuristiquement, At représente la qualité de discrimination dela fraude d’une variable. Elle est calculée en intégrant l’écart entre les fonctions de répartitionde la classe fraude et de la classe non fraude par rapport à la loi de la classe fraude.

Nous pourrions voir alors At de manière inverse e.g. comme étant la qualité de discriminationde la classe non-fraude. Il paraît alors probable que nous puissions la calculer en intégrant l’écartentre ces deux fonctions de répartition par rapport à la loi de la classe non-fraude.Formalisons cette intuition :

At = 2∫ +∞

−∞∆(x)dF1(x)

= 2∫ +∞

−∞(F1(x)− F2(x))dF1(x)

En posant le changement de variable x = F1(y) nous obtenons :

= 2∫ 1

0xdx− 2

∫ +∞

−∞F2(x)dF1(x)

= 2[x2

2

]1

0− 2

∫ +∞

−∞F2(x)dF1(x)

= 1− 2∫ +∞

−∞F2(x)dF1(x)

En intégrant par partie (par rapport à F1) avec u′(x) = 1 et v(x) = F2(x)nous obtenons u(x) = F1(x) et v′(x) = dF2(x)

= 1− 2[F1(x)F2(x)

]+∞−∞

+ 2∫ +∞

−∞F1(x)dF2(x)

= 2∫ +∞

−∞F1(x)dF2(x)− 1

= 2∫ +∞

−∞F1(x)dF2(x)− 2

∫ +∞

−∞F2(x)dF2(x)

= 2∫ +∞

−∞(F1(x)− F2(x))dF2(x)

= 2∫ +∞

−∞∆(x)dF2(x)

88

6.4 La mesure de la qualité de discriminationpossède une forme unifiée pour tous typesde variables

Dans la Proposition 2, nous énonçons que si la variable t est une variable catégorielle, alorsla mesure de la qualité de discrimination de la fraude At peut également être écrite sous uneforme continue. Elle est donc égale à 2

∫ +∞

−∞∆(x)dF1(x).

Cette démonstration nous prouvera que nous ne perdons aucune information et ne faisonsaucune erreur en définissant une méthode unifiée pour cette mesure de la qualité de discrimi-nation pour tous les types de variables.

Commençons par écrire la valeur de At :

At = 2∫ +∞

−∞∆(x)dF1(x)

= 2∫ +∞

−∞(F1(x)− F2(x))dF1(x)

=∫ +∞

−∞(F1(x)− F2(x))dF1(x) +

∫ +∞

−∞(F1(x)− F2(x))dF1(x)

= 2∫ +∞

−∞F1(x)dF1(x)−

∫ +∞

−∞F2(x)dF1(x)−

∫ +∞

−∞F2(x)dF1(x)

Par un changement de variable (y = F1(x)), nous obtenons :

= 1−∫ +∞

−∞F2(x)dF1(x)−

∫ +∞

−∞F2(x)dF1(x)

=∫ +∞

−∞(1− F2(x))dF1(x)−

∫ +∞

−∞F2(x)dF1(x)

En intégrant par partie (par rapport à F1) avec u′(x) = 1 et v(x) = F2(x)nous obtenons u(x) = F1(x) et v′(x) = dF2(x)

=∫ +∞

−∞(1− F2(x))dF1(x)−

([F1(x)F2(x)

]+∞−∞−∫ +∞

−∞F1(x)dF2(x)

)=∫ +∞

−∞(1− F2(x))dF1(x)−

(1−

∫ +∞

−∞F1(x)dF2(x)

)=∫ +∞

−∞(1− F2(x))dF1(x)−

∫ +∞

−∞(1− F1(x))dF2(x)

=∫ +∞

−∞

∫ +∞

xf1(x)f2(y)dydx−

∫ +∞

−∞

∫ +∞

xf2(x)f1(y)dydx

=∫ +∞

−∞

∫ +∞

xf1(x)f2(y)dydx− f2(x)f1(y)dydx

Avec f1(x) et f2(x) les fonctions de densités (pour une variable t) respectivement de la classefraude et non fraude.

Dans le cas où la variable t est bien une variable catégorielle, l’intégrale se transforme alors

89

en somme et la densité en un point devient la probabilité empirique. Nous obtenons donc :

At =∫ +∞

−∞

∫ +∞

xf1(x)f2(y)dydx− f2(x)f1(y)dydx

=kt−1∑i=1

∑j>i

(π

(1)t,i π

(2)t,j − π

(2)t,i π

(1)t,j

)

Avec π(1)t,i et π(2)

t,i la proportion d’observations de la modalité i sur la variable catégorielle tclassée comme appartenant respectivement au groupe de fraude et non fraude.

6.5 La mesure de la qualité de discriminationest à valeur bornée et permet de discrimi-ner la fraude

Dans la Proposition 3 (page 43), nous énonçons que la mesure de la qualité de discrimination(de la fraude) At est comprise dans l’intervalle [0, 1].

Commençons par démontrer ce premier résultat :Nous disposons de deux fonctions de répartition F1 et F2 telles que 0 ≤ F1(x) ≤ 1,

0 ≤ F2(x) ≤ 1, f1(x) ≥ 0, f2(x) ≥ 0 ainsi que ∆(x) = F1(x)− F2(x) ≥ 0.

D’après la démonstration de la propriété précédente, nous avonsAt = 1−2∫ +∞

−∞F2(x)dF1(x).

De plus, comme∫ +∞

−∞F2(x)dF1(x) =

∫ +∞

−∞F2(x)f1(x)dx ≥ 0, il en résulte qu’At ≤ 1.

En réécrivant At comme dans la propriété précédente, nous avons :

At = 2∫ +∞

−∞∆(x)dF2(x)

= 2∫ +∞

−∞(F1(x)− F2(x))dF2(x)

= 2∫ +∞

−∞F1(x)dF2(x)− 1

Or, nous avons démontré que F2 domine stochastiquement à l’ordre 1 F1 et en résultantP(X < Y ) =

∫ +∞

−∞F1(x)dF2(x) ≥ 2.

D’où At ≥ 0.

En conclusion, nous avons At ≥ 0 ainsi que At ≤ 1 donc At ∈ [0, 1].

Nous souhaitons démontrer la deuxième partie de la proposition i.e. si At = 1 alors la va-riable t sépare parfaitement la classe fraude et la classe non-fraude et si At = 0 alors la variable

90

t ne permet pas de différencier les deux classes.

Si :At = 1

⇔ 2∫ +∞

−∞F1(x)dF2(x)− 1 = 1

⇔∫ +∞

−∞F1(x)dF2(x) = 1

⇔ P(X < Y ) = 1⇔ ∃ x? ∈ R tel que F1 (x?) = 1 et F2 (x?) = 0

Il existe donc un point x? tel que toutes les valeurs inférieures à x? soient de la distributionde F1 et les valeurs supérieures à x? soient de la distribution de F2. Nous avons donc bien uneséparation parfaite de la fraude par la variable t.

De manière similaire, si :

At = 0

⇔ 2∫ +∞

−∞F1(x)dF2(x)− 1 = 0

⇔∫ +∞

−∞F1(x)dF2(x) = 1

2⇔ P(X < Y ) = 1

2⇔ ∀ x ∈ R tel que F1 (x) = 1

2 = F2 (x)

Il n’y a donc bien aucune séparation de la fraude par la variable t.

91

ConclusionNous avons souhaité dans ce mémoire, développer et proposer une méthode pratique, inno-

vante et efficace permettant d’identifier la potentielle fraude dès la déclaration d’un sinistre.Afin de passer outre le problème de fiabilité de la variable à modéliser, nous avons développéune approche statistique non-supervisée par l’utilisation des méthodes de RIDIT et PRIDIT.

Les résultats que nous donnent les méthodes de RIDIT et PRIDIT sont satisfaisants. Aprèsle calibrage de notre modèle et notamment la sélection de variables, nous prédisons 62 % desfraudes sur notre jeu de données. Ce dernier résultat est à nuancer. En effet, les modèles li-néaires généralisés (notamment le modèle logistique) permettent en général d’obtenir de bienmeilleurs résultats. Cependant, dans le cas de la fraude à l’assurance, l’approche non-superviséeest la plus pertinente.Les méthodes de RIDIT et PRIDIT permettent d’une part, de palier le problème de fiabilitéde la variable que l’on cherche à modéliser et d’autre part, d’obtenir des résultats facilementinterprétables par les gestionnaires de sinistres.Nous pouvons noter que ces méthodes sont simples à mettre en œuvre et possèdent une granderapidité d’exécution.

La démarche que nous avons proposée permet, dans un premier temps, d’améliorer la dé-tection de fraudes déjà présente chez les assureurs, et dans un second temps, d’automatiser ladétection des fraudes et rendre donc plus rapide le processus de gestion des sinistres.Nous savons cependant qu’il est aujourd’hui difficle d’obtenir un algorithme capable de détecterparfaitement tous les sinistres frauduleux. Les algorithmes d’apprentissage procédant de ma-nière automatique, il est donc conseillé de demander à la machine de prédire la probabilité quele comportement d’un assuré soit frauduleux et solliciter, dans un second temps, le jugementd’un gestionnaire de sinistre.

Il a été question dans ce mémoire de détecter la fraude à l’assurance. Nous n’avons pas prisen compte la problématique du coût de la détection. La fraude n’étant avérée que si un sinistreest expertisé, la détection de fraudes à l’assurance présente donc un coût non négligeable pourl’assureur.Il serait alors judicieux, lors de futurs travaux sur la fraude, d’évaluer un modèle de détectionsous la contrainte du coût de l’expertise des sinistres.

92

Note de synthèseEn assurance dommages, l’ALFA (Agence pour la Lutte contre la Fraude à l’Assurance)

estime la fraude à 2,5 milliards d’euros en 2011 et 2,8 milliards d’euros en 2013. Ces montantsde sinistres frauduleux estimés par l’ALFA sont environ supérieurs à trois fois le montant payéen impôts par les assureurs.La fraude à l’assurance est une problématique n’épargnant aucun assureur. Dans le cadre de cemémoire, nous pouvons la définir comme étant un acte malhonnête, réalisé par un assuré, dansl’intention de tromper un assureur en contrevenant aux conditions générales ou particulièresdu contrat d’assurance.

La fraude ne se limite pas à l’indemnisation de sinistres frauduleux. Être en mesure de dé-tecter les fraudes à l’assurance permet une diminution des primes, des provisions techniques etdu capital réglementaire sous Solvabilité II (SCR) (le sujet étant également au cœur du risqueopérationnel).

Il est intéressant de remarquer que la fraude, notamment celle à la souscription, augmentel’asymétrie d’information déjà existante entre les assureurs et leurs assurés. En effet, les assu-reurs ne connaissent déjà qu’imparfaitement les qualités intrinsèques des individus qu’ils sontcensés couvrir contre un certain nombre de risques. Dans le cas de fraudeurs à la souscription,les assureurs possèdent alors des informations volontairement erronées sur ces clients.

Afin de fidéliser les clients, la gestion des sinistres doit être efficace et le processus d’in-demnisation doit être rapide. Les assurés dont les sinistres (honnêtes) sont expertisés (à tort)peuvent parfois attendre des mois avant d’être indemnisés. La non-satisfaction de ces clientshonnêtes peut créer un effet d’anti-sélection.En effet, sur un marché avec des produits à tarif équivalent, les assurés honnêtes d’un assureursouffrant d’importants délais de règlements, auront tendance à se diriger vers un autre assu-reur. La proportion de fraudeurs sur le portefeuille du premier assureur en sera donc augmentée.

Il est primordial pour les assureurs de mettre en place un dispositif de détection des fraudesafin de limiter l’indemnisation de sinistres frauduleux non détectés et diminuer leurs tarifs afind’être plus compétitifs sur le marché et fidéliser leurs clients.

La détection de la fraude à l’assurance n’est pas chose facile et de nos jours, beaucoup decompagnies d’assurance n’utilisent que la suspicion de leurs gestionnaires de sinistres afin dedétecter la fraude. Il en résulte alors un réel problème en matière de données. Les sinistresn’étant pas systématiquement expertisés et la fraude n’étant pas systématiquement détectéepar les experts de sinistres, les données enregistrées dans les systèmes de gestion des assureurssont donc biaisées.

Nous utilisons alors des méthodes d’apprentissage non-supervisé, permettant de remédierau problème de fiabilité de la variable que nous cherchons à prédire, les méthodes de RIDIT etPRIDIT.

En assurance, les données récoltées auprès des assurés sont majoritairement des donnéescomposées de variables catégorielles (e.g. la couleur du véhicule de l’assuré, le genre de l’assuré,

93

la situation familiale de l’assuré, le type de garantie, etc). L’utilisation de méthodes statistiquesanalytiques devient alors assez restreinte car la plupart de ces méthodes s’utilisent principale-ment sur des variables quantitatives.

C’est dans ce contexte que s’inscrit la méthode de RIDIT. Cette méthode permet de re-transcrire une information qualitative en une information quantitative via une certaine transfor-mation. En supposant une relation monotone décroissante entre les modalités de nos variablescatégorielles et la fraude, nous obtenons alors via RIDIT, une manière d’affecter un score defraude.

En effet, si nous réordonnons les variables dans le sens où les modalités classées plus petitesont une forte suspicion de fraude et les modalités classées plus grandes ont une faible suspicionde fraude alors RIDIT permet de calculer un score de fraude par variable comme suit :

Soit X une variable catégorielle (associée à un certain échantillon) à k modalités. SoitpX = (pX1 , pX2 , ..., pXk

) le vecteur des proportions observées pour chacune des modalités de lavariable X sur son échantillon avec pXi

≥ 0, ∀i ∈ {1, ..., k} et ∑ki=1 pXi

= 1.Nous appelons le score de RIDIT de la variable X pour la catégorie i ∈ {1, ..., k} noté BXi

comme étant :BXi

=∑ji

pXj

Supposons que nous ayons une variable catégorielle, correspondant au type d’assuranceautomobile, composée de 3 modalités : l’assurance tous risque avec franchise élevée, l’assurancedommages au tiers ainsi que l’assurance tous risques avec une faible franchise.En ordonnant cette variable de manière à ce que les modalités classées plus petites traduisentune suspicion de fraude plus forte et inversement, nous affectons bien, comme nous pouvons leremarquer dans l’exemple ci-dessous, des scores négatifs aux modalités avec une forte suspicionde fraude et de scores positifs avec une faible suspicion de fraude.

Type d’assurance automobileModalité i (1) (2) (3) (4) (5)Tous risques (avec faible franchise) 1 100 0 900 -900 -0,9Tous risques (avec franchise élevée) 2 200 100 700 -600 -0,6RC - Dommages au tiers 3 700 300 0 300 0,3Total 1000

Tableau – Illustration du calcul de score de fraude (RIDIT)

• La colonne (1) correspond au nombre d’individus sur la modalité de la variable catégo-rielle ;

• La colonne (2) correspond au cumulé de la colonne (1) sur les modalités inférieures à i ;• La colonne (3) correspond au cumulé de la colonne (1) sur les modalités supérieures à i ;• La colonne (4) correspond à la différence entre la colonne (2) et la colonne (3) ;• La colonne (5) correspond à la colonne (4) divisée par le total du nombre d’observations.

Le score de fraude ainsi calculé possède les propriétés suivantes :

• Le score Bi est compris dans l’intervalle [−1, 1] et les variables (transformées) sont doncmesurées sur la même échelle quel que soit leur nombre de modalités ;

94

• Le score Bi est croissant si i croît ;• Le score Bi est centré en zéro.

Certaines informations sur un assuré ou sur un sinistre sont parfois numériques. Ces infor-mations peuvent nous donner une indication sur la nature frauduleuse d’un sinistre. En effet,l’âge d’un assuré, l’ancienneté de sa police d’assurance, l’ancienneté de son bien ou encore letemps écoulé entre la survenance du sinistre et la déclaration de ce dernier peuvent nous donnerdes indications sur la nature frauduleuse d’un sinistre.Nous pouvons alors étendre le calcul du score de fraude par RIDIT sur les variables continueset créer une méthode de calcul pour tous types de variables comme suit :

Soit X une variable continue, la réalisation sur un échantillon d’une variable aléatoire de loiF sa fonction de répartition inconnue.

Nous appelons le score de RIDIT de la variable X pour la réponse x noté B(x) commeétant :

B(x) = Fn(x−)− (1− Fn(x))

Avec Fn la fonction de répartition empirique de la variable X.

Le score de fraude calculé sur les variables continues conserve les propriétés précédentes :

• Le score B(x) est compris dans l’intervalle [−1, 1] et les variables (transformées) sont doncmesurées sur la même échelle ;

• Le score B(x) est croissant si x croît ;• Le score B(x) est centré en zéro.

Nous appliquons notre calcul des scores de RIDIT sur un jeu de données de n lignes et dcolonnes et nous obtenons une matrice des scores de RIDIT B :B = (B1, ..., Bd) avec Bt = (Bt(x(1,d)), ..., Bt(x(n,d)))t. D’où :

B =


... ... ... ...B1(x(n,1)) B2(x(n,2)) . . . Bd(x(n,d))


)Cette matrice de RIDIT est intéressante car elle associe à chaque individu un score par

variable et permettrait, via des statistiques descriptives, de faire ressortir les profils les plussusceptibles de frauder. Cependant, afin de répondre à notre problématique qui est de calculerun score unique par individu, cette matrice des scores de RIDIT est insuffisante.

Pour ce faire, l’idée première est pour un individu (ou un sinistre), de sommer le score ac-cordé à chacune de ses variables explicatives. Cette première idée est efficace car nous obtenonsbien un score unique par individu. Cependant, ce score ne prend pas en compte l’importance(ou la qualité explicative) de chacune des variables envers la fraude. En effet, certaines variablespeuvent avoir une forte influence sur la fraude tandis que d’autres auront une faible influence.

95

Pour résoudre ce problème, nous utilisons la méthode de PRIDIT. Cette méthode consisteen une Analyse en Composantes Principales des scores de RIDIT. Cette méthode permet d’ob-tenir les poids à appliquer sur chacune de nos variables lors du calcul du score uni-dimensionnelpar somme pondérée.

Nous pouvons définir la méthode de PRIDIT comme suit :

Soit B la matrice des scores de RIDIT.Les poids à appliquer à chacune des variables de la matrice B sont donnés par le vecteur W ,le premier axe propre obtenu par l’ACP de la matrice E[BtB] et associé à la première valeurpropre λ1.

Chacune des composantes de ce premier axe propre W est donné par :

Wt = At

(λ1 − Ut,t)√√√√ d∑j=1

A2j

λ1 − U2j,j

, ∀t ∈ {1, ..., d}

Avec λ1 la première valeur propre associée au premier axe propre, Ut,t = N1σ21,t + N2σ

22,t «la

composante unique de la variance» d’une analyse factorielle des correspondances et At la me-sure de la qualité discriminatoire de la variable t sur la fraude.

Une fois les poids W calculés, nous pouvons alors calculer notre score uni-dimensionnel Sde la manière suivante :

S = BW =d∑t=1

Bt ·Wt

Nous ne pouvons (pour l’instant) pas calculer les poids à affecter à chaque variable. Parconséquent, nous ne pouvons non plus calculer nos scores-uni-dimensionnels. En effet, les va-leurs de E[BtB], At, λ1 ainsi que Ut,t ne sont pas observables.

Nous pouvons néanmoins les estimer par un algorithme de convergence.L’algorithme se décrit alors comme suit :

96

Data: La matrice des scores BResult: Les pondérations des variables W ainsi que le score uni-dimensionnel Sbegin

Initialization : Nous initialisons les poids W (0);for i←− 0 to n-1 do

S(i) ←− BW (i);

W (i+1) ←− BtS(i)

||BtS(i)||;


end

Algorithme – Calcul des poids et des scores uni-dimensionnels

En s’assurant bien que l’algorithme converge :

limn→∞

W(n)t = Wt = At

(λ1 − Ut,t)√√√√ d∑j=1

A2j

λ1 − U2j,j

, ∀t ∈ {1, ..., d}

Après quelques itérations, l’algorithme a convergé vers sa solution : les poids associés àchacune de nos variables (les coordonnées des variables sur le premier axe propre de la matricedes scores).

Nous utilisons alors ces poids afin de calculer un score uni-dimensionnel, le score de PRIDIT.Celui-ci est calculé en effectuant la somme pondérée (les poids étant donnés par la méthode dePRIDIT) des scores de RIDIT par variable.

Ce score global de fraude nous permet de classifier nos individus (ici, nos contrats) commeétant en fraude ou non-fraude. Nous supposons, comme cela est le cas en assurance, que nousne connaissons pas le taux de fraude θ et classifions les individus ayant un score négatif commedes fraudes et les individus avec un score positif comme n’étant pas de la fraude.

Afin de mesurer la qualité de notre modèle, nous utilisons une matrice de confusion :



Tableau – Matrice de confusion du modèle après sélection de variables

Via cette nouvelle matrice de confusion, nous pouvons alors calculer les taux de performancede notre modèle.

97



Tableau – Matrice des taux de performance après sélection de variables

Nous pouvons calculer la précision générale du modèle. La modélisation a donc une précisionde 59,4 %.

Ces méthodes non-supervisées, que sont les méthodes de RIDIT et PRIDIT, nous donnentdes résultats réellement satisfaisants en particulier dans un cadre où peu, voire aucune, méthodesupervisée ne peut être utilisée.

En conclusion, même si nous obtenons des résultats jugés satisfaisants, nous pouvons émettrequelques réserves quant à l’utilisation des méthodes de RIDIT et PRIDIT.

Tout d’abord, ces méthodes sont parfois peu robustes. En effet, la classification qui en dé-coule déclenche de nombreux faux-positifs (sinistres classés comme fraude alors qu’ils ne le sontpas en réalité).Cette méthode fait transparaître la susceptibilité de fraude d’un sinistre par un score, ce quifait perdre en précision la modélisation lors de la classification.Nous pouvons cependant prendre en compte le fait qu’en assurance, la grande majorité desfraudes ne sont pas détectées par les gestionnaires de sinistres ou experts de sinistres et queclasser ces sinistres comme étant à forte suspicion n’est pas forcément une «erreur».Cette notion de faux-positifs est un problème dans le cas général mais ne l’est pas forcémenten assurance.

Enfin, il nous est impossible d’effectuer des contrôles a posteriori («back-testing») de notreméthode sur un historique fiable de fraudes. La variable sous-jacente que nous modélisons(fraude ou non-fraude) n’est en effet pas fiable dans les bases de données d’assureurs car condi-tionnée à la suspicion des gestionnaires de sinistres et par le fait que tous les sinistres ne sontpas expertisés. Nous pouvons cependant dans un premier temps, mettre en place ces méthodesdans une compagnie d’assurance et dans un second temps, effectuer un contrôle sur les sinistresfuturs («forward-testing»).

Nous pouvons aussi mettre en exergue quelques avantages de ces méthodes dont la prise encompte est tout aussi importante.

Nous pouvons tout d’abord remarquer que ces méthodes non-supervisées conviennent par-faitement à notre problématique. Dans le cas où un assureur a très peu de données de fraudesou une base de données de fraudes peu fiable, il est tout de même possible d’utiliser l’expertisemétier des gestionnaires de sinistres afin d’appliquer les méthodes de RIDIT et PRIDIT afind’en retirer de premiers résultats.

Nous pouvons énoncer ensuite sa facilité de mise en œuvre. En effet, en matière de trai-tement de données, la transformation et le calcul des scores de RIDIT découlent de formulesfermées «simples». L’algorithme du calcul des poids selon la méthode de PRIDIT est lui aussi

98

assez simple et ne requiert que quelques calculs matriciels.De manière computationnelle, le temps d’exécution pour le calcul d’un score de RIDIT est trèsbref. Pour une variable à 10 millions de lignes (l’équivalent du nombre de sinistres IARD, paran, en France), le calcul des scores de RIDIT s’effectue en un peu plus de 5 secondes. De plus,l’algorithme de calcul des poids de PRIDIT converge très rapidement (entre 10 et 20 itérations).À titre comparatif, les algorithmes d’apprentissage supervisé sont beaucoup plus lents. Pour lesplus simples tels que l’algorithme de Forêts Aléatoires («Random Forests»), le temps d’exécu-tion peut se chiffrer en plusieurs dizaines de minutes et plusieurs heures pour les plus complexestels que l’algorithme du «Gradient Boosting».

De plus, les méthodes développées dans ce mémoire apportent des résultats très facilementinterprétables. Avec la méthode de PRIDIT, plus un score est petit et plus la suspicion defraude est grande ; la séparation étant faite par le signe du score. Elle est visuelle et très com-préhensible pour les gestionnaires de sinistres recevant les résultats de cette méthode.

Enfin, la méthode de PRIDIT permet également d’effectuer une sélection de variables. Eneffet, si les poids associés à certaines variables sont très proches de zéro, nous pouvons alors lesretirer de l’étude. Cette sélection de variables permet donc de faire ressortir les variables les plusdéterminantes quant à la détection des fraudes. L’expert ou le gestionnaire de sinistres peutdonc se focaliser sur la récolte de ces variables afin de pouvoir prédire les fraudes de manièreplus précise.

99

Executive summaryIn the Property and Casualty (P&C) branch, ALFA (Agence pour la Lutte contre la Fraude

à l’Assurance – the French insurance fraud bureau) estimated insurance fraud up to €2.5 billionin 2011 and €2.8 billion in 2013. To put this amount into perspective, this figure representsapproximately three times the amount paid by insurers in taxes. Insurance fraud can be definedas any act committed by an insured with the intent to obtain a fraudulent outcome from aninsurance process.

Fraud is not limited to compensation for fraudulent claims. Being able to detect insurancefraud allows a reduction of premiums, technical reserves and regulatory capital under SolvencyII (SCR).

It is worth mentioning that insurance fraud, and especially underwriting fraud, increases theeffects of asymmetrical information between insurers and their policyholders. Indeed, insurersalready know imperfectly the intrinsic qualities of the individuals they are supposed to coveragainst some risks. In the case of underwriting fraud, insurers have totally erroneous informa-tions on those risks.

To retain customers, claim management must be effective and the claim management pro-cess must be quick. Policyholders whose (honest) claims are (wrongly) audited can sometimeswait months before being paid. The non-satisfaction of those honest customers may cause aneffect of anti-selection. Indeed, in a market with similar products and similar premiums, honestpolicyholders of an insurer with significant delays of payments will tend to go to another insurerand the proportion of fraudsters in the first insurer portfolio will increase.

It is essential for insurers to establish a more effective insurance fraud detection device tolimit the payment of undetected fraudulent claims and lower their premiums so as to be morecompetitive in the market.

Insurance fraud detection is a complicated problem and yet many insurance companies onlyuse the suspicion of their claim handlers to detect fraud. This results in a problem in termsof data. Claims are not systematically audited and instances of fraud are not always detectedby claim auditors. Data recorded in insurance management systems are biased. We thereforecannot completely rely on the binary variable «fraud» indicating whether a claim is a fraud ornot.

To avoid the «fraud» variable reliability problem, we use unsupervised learning methods :RIDIT and PRIDIT methods.

Data collected from policyholders are mostly composed of categorical variables (e.g. thecolour of the vehicle, the type of insurance, the status (divorced, married, etc.), the type ofguarantee, etc.). The use of analytical statistical methods becomes relatively narrowed sincethese methods are mostly used on quantitative variables.

It is in this context that RIDIT method can be used. This method transcribes qualita-tive information into quantitative information. First, we assume a monotonically decreasing

100

relationship between the categories of our categorical variables and fraud. Then, using RIDITmethod, we get a way to create a fraud scoring.

Indeed, if we rearrange variables in the way where smaller values have a strong suspicionof fraud and higher values have low suspicion of fraud, we can use RIDIT as a scoring methodand calculate a fraud scoring as follows :

Let X a categorical variable with k possible values. Let pX = (pX1 , pX2 , ..., pXk) the vector

of empirical probabilities of X with pXi≥ 0,∀i ∈ {1, ..., k} and ∑k

i=1 pXi= 1.

The RIDIT score for the category i ∈ {1, ..., k} of the variable X is given by the followingtransformation :

BXi=∑ji

pXj

Suppose we have a categorical variable corresponding to the type of car insurance, withthree possible values : all risk insurance with high deductible, third party car insurance and allrisk insurance with low deductible.By ordering this variable so that smaller values reflects a high level of fraud suspicion and viceversa, we assign negative scores to categories with high fraud suspicion and positive scores withlow fraud suspicion as we can see in this example :

Type of car insuranceCategories i (1) (2) (3) (4) (5)All risk insurance with low deductible 1 100 0 900 -900 -0,9All risk insurance with high deductible 2 200 100 700 -600 -0,6Third party insurance 3 700 300 0 300 0,3Total 1000

Table – Example of RIDIT fraud scoring

• Column (1) corresponds to the number of individuals on the category ;• Column (2) corresponds to the cumulated column (1) on categories lower than i ;• Column (3) corresponds to the cumulated column (1) on categories higher than i ;• Column (4) corresponds to the difference between columns (2) and (3) ;• Column (5) corresponds to the column (4) by the number of individuals.

The fraud scoring as we defined it has a few interesting proprieties :

• The score Bi is bounded between [−1, 1] so the variables can be compared on the samescale regardless of the number of categories ;

• The score Bi is increasing as i increases ;• The score Bi is centered on zero.

Pieces of information on a policyholder or a claim can sometimes be quantitative. Thisinformation can give us an indication of the fraudulent nature of a disaster. Indeed, the ageof the policyholder, his seniority on the insurance policy, the age of his property or the timebetween the occurrence of the loss and the declaration of the claim can give us indications onthe fraudulent nature of a claim.We can then extend the calculation of fraud scoring by RIDIT to continuous variables andcreate a calculation method for all types of variables as follows :

101

Let X a continuous variable of an unknown distribution F (its cumulative distributionfunction).The RIDIT score for the response x of the variable X is given by the following transformation :

B(x) = Fn(x−)− (1− Fn(x))

With Fn the empirical cumulative distribution function of the variable X.

The fraud scoring is calculated on the continuous variables and conserves the desired pro-perties :

• The score B(x) is bounded between [−1, 1] so the variables can be compared on the samescale regardless of the variable type ;

• The score B(x) is increasing as x increases ;• The score B(x) is centered on zero.

We can now use RIDIT scoring on every variable on our dataset of n rows and d columnsand obtain the RIDIT matrix B :B = (B1, ..., Bd) avec Bt = (Bt(x(1,d)), ..., Bt(x(n,d)))t. So :

B =


... ... ... ...B1(x(n,1)) B2(x(n,2)) . . . Bd(x(n,d))

With Bt(x(i,t)) = Fn(x−(i,t))−(1− Fn(x(i,t))

)This RIDIT matrix is not enough to resolve our problem of fraud detection. We have a score

for each variable as we would like to have a unique fraud suspicion score for a claim.

The first idea is, for a claim, to sum all the RIDIT scores on all variables. This solution isinteresting as we now obtain a one-dimensional score for each claim. However, this score doesnot take into account the importance (or the explanation quality) of each variable toward thefraud. Indeed, some variables may have a stronger influence on fraud than others.

To solve this problem, we use the PRIDIT method. PRIDIT takes its name from Prin-cipal component analysis of RIDIT matrix. This method allows us to obtain the weight thatshould be applied to each of our variables in the calculation on the overall fraud suspicion score.

We can define the PRIDIT method as follows :

Let B the RIDIT matrix.The weights we apply on the weighted sum of the variables of the matrix B are given by thevector W , the first eigenvector obtained by the Principal Component Analysis (PCA) of thematrix E[BtB] associated to the first eigenvalue λ1.

102

Each coordinate of this first eigenvector W is given by :

Wt = At

(λ1 − Ut,t)√√√√ d∑j=1

A2j

λ1 − U2j,j

, ∀t ∈ {1, ..., d}

With λ1 the first eigenvalue, Ut,t = N1σ21,t +N2σ

22,t the «uniqueness component of variance» in

a single factor analytic model, σ21,t = V ar(Bt|Fraud), σ2

2,t = V ar(Bt|Non−Fraud) and At thediscriminatory power measure of the variable t.

As weights W are calculated, we can calculate our one-dimensional scores S :

S = BW =d∑t=1

Bt ·Wt

We still cannot (for now) compute the weight for each variable. Therefore, we cannot eithercompute our one dimensional scores S. Indeed, the values E[BtB], At, λ1 and Ut,t are not ob-servable data.

We can however use an algorithm to estimate them. We thus have :

Data: The RIDIT matrix BResult: The weights W and the one-dimensional vector of scores Sbegin

Initialization : We start by applying equal weights W (0);for i←− 0 to n-1 do

S(i) ←− BW (i);

W (i+1) ←− BtS(i)

||BtS(i)||;


end

Algorithm – Iterative algorithm on estimation of PRIDIT weights and overall summative score

And using the fact that the quantity W (n) converges :

limn→∞

W(n)t = Wt = At

(λ1 − Ut,t)√√√√ d∑j=1

A2j

λ1 − U2j,j

, ∀t ∈ {1, ..., d}

With a few iterations, the algorithm has converged to its solution : the PRIDIT weights i.e.the first eigenvector of the matrix E[BtB].

We thus use those weights to calculate an overall fraud suspicion score, the PRIDIT score.We calculate the PRIDIT score S as a weighted sum using the PRIDIT weights W : S = BW .

103

This PRIDIT overall suspicion score allows us to classify claims as fraud or non-fraud. Weassume the fraud rate on the portfolio θ unknown. We thus classify individuals as fraud whenthe PRIDIT score is negative and as non-fraud when it is positive.

To measure the quality of the classification, we thus use a confusion matrix :

RealNon-fraud Fraud

Predicted Non-fraud 116 38Fraud 84 62

Tableau – Confusion matrix

Using this confusion matrix, we can calculate the performance rates of the model.

RealNon-fraud Fraud

Predicted Non-fraud TNR : 58% FNR : 38%Fraud FPR : 42% TPR : 62%

Tableau – Performance rates matrix

We thus can calculate the accuracy of the PRIDIT scoring and obtain an accuracy of 59,4%.

Even if those mathematical methods allow us to obtain satisfying results on our dataset, wecan raise some issues about these methods.

First of all, these methods are not very robust. Indeed, the classification triggers many falsepositives (claims classified as fraud when they are not). However, we can take into account thefact that in insurance companies, a lot of fraud is still not detected by claim auditors and claimhandlers. To classify these claims as strong fraud suspicion is not necessarily an «error». Thisnotion of false positives is a problem regarding of our credit data set but is not necessarily onein insurance companies.

Finally, it is impossible to carry out back-testing of our method on a fraud history. Theunderlying variable that we model (fraud or non-fraud) is, in fact, not reliable in insurers’databases as the fraud detection is conditional upon the suspicion of claim handlers and notall claims are audited. However, we can implement these methods and make use of a forward-testing on future claims to validate these methods.

We can also highlight some advantages of these methods that need to be taken into accountas well.We first note that these unsupervised methods are perfectly suited for our problem. In thecase where an insurer lacks sufficient or reliable fraud data, it is still possible to use the claimhandlers’ business expertise to apply this method and to obtain first results.

Moreover, these methods are easy to implement : in terms of data processing, calculatingRIDIT scoring is quite simple as it derives from a «simple» formula. The algorithm calculating

104

the weights using PRIDIT method is also quite simple and merely requires a few matrix calcu-lations.In terms of computational processing, the execution time for the calculation of RIDIT sco-ring is very brief. For variable of 10 million rows (equivalent to the number of P&C claims inFrance per year), the calculation of RIDIT scoring only requires 5 seconds. Furthermore, thePRIDIT weight calculation algorithm converges very quickly (between 10 and 20 iterations). Incomparison, supervised learning algorithms are much slower. The execution time ranges fromten minutes, for simpler methods such as Random Forest algorithm, to several hours for morecomplex algorithms such as Gradient Boosting.

Moreover, RIDIT and PRIDIT methods provide easily interpretable results. With the PRI-DIT method, the smaller the score, the higher the fraud suspicion (the separation being thescore sign). These methods provide some very visual and understandable results for claim hand-lers.

Finally, the PRIDIT method also enables variable selection. Indeed, if the weights associatedwith some variables are very close to zero, they can be taken out of the model. This variableselection allows us to highlight the most significant variables in fraud detection. Auditors orclaim handlers can therefore focus on harvesting these variables in order to predict fraud moreaccurately.

105

Bibliographie[1] Jing Ai. « Supervised and Unsupervised PRIDIT for Active Insurance Fraud Detection ».

Thèse de doct. University of Texas at Austin, 2008.[2] Jing Ai, Patrick L. Brockett et Linda L. Golden. « Assessing consumer fraud risk

in insurance claims : an unsupervised learning technique using discrete and continuouspredictor variables ». In : North American Actuarial Journal Vol 13.No 4 (2009), p. 438–458.

[3] Harriett Baldwin MP et Lord Faulks QC. Insurance Fraud Taskforce. Final report ofthe UK Government. Jan. 2016.

[4] Nicolas Baradel. Théorie du risque. Cours. 2016.[5] Patrick L. Brockett et Arnold Levine. « On a characterization of RIDITs ». In : The

Annals of Statistics Vol 5.No 6 (1977), p. 1245–1248.[6] Patrick L. Brockett et al. « Fraud Classification Using Principal Component Analysis

of RIDITs ». In : Journal of Risk and Insurance Vol 69.No 3 (2002), p. 341–371.[7] Irwin D.J. Bross. « How to use Ridit Analysis ». In : Biometrics Vol 11.No 1 (1958),

p. 18–38.[8] Guido Cornelis van Capelleveen. « Outlier based Predictors for Health Insurance Fraud

Detection within U.S. Medicaid ». Mém.de mast. School Management and Governance,2013.

[9] Arthur Charpentier. Computational Actuarial Science with R. Chapman & Hall / CRC,2015.

[10] Michel Denuit et Arthur Charpentier. Mathématiques de l’assurance non-vie. Econo-mica, 2005. isbn : 9782717848601.

[11] Georges Dionne. The Empirical Measure of Information Problems with Emphasis onInsurance Fraud and Dynamic Data. Cahiers de recherche 1233. CIRPEE, 2012.

[12] Georges Dionne, Florence Giuliano et Pierre Picard. Optimal auditing with scoring :theory and application to insurance fraud. MPRA Paper 18374. University Library ofMunich, Germany, 2009.

[13] Georges Dionne et Kili C. Wang. Does Opportunistic Fraud in Automobile theft Insu-rance Fluctuate with the Business Cycle ? Cahiers de recherche 1121. CIRPEE, 2011.

[14] Comission Européenne. « Règlement délégué (UE) 2015/35 de la commission du 10octobre 2014 complétant la directive 2009/138/CE du Parlement européen et du Conseilsur l’accès aux activités de l’assurance et de la réassurance et leur exercice (solvabilitéII) ». In : Journal officiel de l’Union européenne (2015).

[15] Christian Faure. Introduction au text-mining. 2007. url : http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/.

[16] Seymour Kantor et Warren Winkelstein. « The rationale and use of Ridit analysisin epidemiologic studies of blood pressure ». In : American Journal of Epidemiology Vol90.No 3 (1969), p. 201–213.

[17] Frédéric Nguyen Kim. « La détection de la fraude en vol automobile, un enjeu impor-tant ». In : L’ARGUS de l’assurance 826 (fév. 2011).

106

http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/

http://www.christian-faure.net/2007/05/30/introduction-au-text-mining/

[18] Jérome Pagès. « Analyse factorielle de données mixtes ». In : Revue de statistique appli-quée 52.4 (2004), p. 93–111.

[19] Pierre Picard. « Economic Analysis of Insurance Fraud ». cahier de recherche 2012-23.2012.

[20] Mathieu Poissant. « Statistical methods for insurance fraud detection ». Mém.de mast.Université de Montréal, 2008.

[21] Ricco Rakotomalala. Analyse des correspondances multiples – ACM. Université Lyon2. url : http://eric.univ-lyon2.fr/~ricco/cours/slides/ACM.pdf.

[22] Ricco Rakotomalala. Analyse factorielle des données mixtes – AFDM. Université Lyon2. url : http://eric.univ-lyon2.fr/~ricco/cours/slides/AFDM.pdf.

[23] Krzysztof M. Ostaszewski Richard A. Derrig. « Fuzzy Techniques of Pattern Recog-nition in Risk and Claim Classification ». In : The Journal of Risk and Insurance 62.3(1995), p. 447–482. issn : 00224367, 15396975.

[24] Gilbert Saporta. Probabilités, analyse des données et statistique. Editions Technip, 2006.[25] Bernard Spitz. Les chiffres de la sinistralité. Fédération Française des Sociétés d’Assu-

rance. Juin 2012.[26] Lloyd N Trefethen et David Bau III. Numerical linear algebra. T. 50. Siam, 1997.[27] João Bernardo DO VALE. « Using Data Mining to Predict Automobile Insurance Fraud ».

Mém.de mast. Universidade Católica Portugesa, 2012.[28] Herbert I. Weisberg et al. « Quantitative methods for detecting fraudulent automobile

bodily injury claims ». In : Risques (1998), p. 75–101.

107

http://eric.univ-lyon2.fr/~ricco/cours/slides/ACM.pdf

http://eric.univ-lyon2.fr/~ricco/cours/slides/AFDM.pdf

Table des figures1 Types de fraudes à l’assurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Les quatre types de fraudes au sinistre . . . . . . . . . . . . . . . . . . . . . . . 93 Processus usuel de souscription d’un contrat d’assurance . . . . . . . . . . . . . 124 Processus usuel de gestion d’un sinistre . . . . . . . . . . . . . . . . . . . . . . . 135 Les piliers de la réforme Solvabilité II . . . . . . . . . . . . . . . . . . . . . . . . 186 Cartographie des risques à agréger lors du calcul du SCR . . . . . . . . . . . . . 197 «Les (assureurs) français obnubilés par la fraude» (Source : Gartner - 2008) . . . 248 Fonctions de répartition sur le score de la variable âge par classe . . . . . . . . . 359 Représentation des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . 5110 Représentation des individus sur les deux premiers axes propres . . . . . . . . . 5111 Cercle des corrélations sur les deux premiers axes propres . . . . . . . . . . . . . 5212 Représentation des variables sur les deux premiers axes propres . . . . . . . . . 5313 Classification ascendante hiérarchique et création de clusters . . . . . . . . . . . 5314 Représentation des variables et des clusters associés . . . . . . . . . . . . . . . . 5415 Estimation de la densité de la variable «Âge» . . . . . . . . . . . . . . . . . . . 5516 Représentation de la moyenne d’âge sur la variable «historique de crédits» . . . 5517 Représentations du nombre d’individus sur les modalités de la variable «Job» . . 5618 Représentation de la distribution de la variable «montant de crédit emprunté» . 5619 Représentation du nombre d’individus sur les modalités de la variable «montant

de l’épargne» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5720 Représentation du nombre d’individus (avec une distinction des fraudes) sur la

variable «destination du crédit» . . . . . . . . . . . . . . . . . . . . . . . . . . . 5721 Représentation des taux de fraudes sur la variable «destination du crédit» . . . 5822 Représentation du montant moyen emprunté sur la variable «destination du crédit» 5823 Représentation du nombre de fraudes sur les modalités de la variable «type

d’habitation» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5924 Représentation des taux de fraude sur les modalités de la variable «type d’habi-

tation» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5925 Représentation du nombre de fraudes sur les modalités de la variable statut marital 6026 Représentation du taux de fraude sur les modalités de la variable statut marital 6027 Représentation du nombre de contrats et de la fréquence de fraude par modalités

sur la variable «over draft» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6128 Représentation du nombre de contrats et de la fréquence de fraude par modalités

sur la variable «employment» . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6229 Représentations du nombre de contrats et de la fréquence de fraude après ré-

assignation des modalités sur les variables «over draft» et «employment» . . . . 6330 Triangle des corrélations linéaires de Pearson . . . . . . . . . . . . . . . . . . . . 6431 Fréquence de fraude sur la variable «âge» et relation linéaire décroissante . . . . 6432 Fréquence de fraude sur la variable «durée du crédit» et relation linéaire croissante 6533 Transformation par symétrie de la variable «durée du crédit» et relation linéaire

décroissante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6634 Boîtes à moustache des scores de fraude par variable via la méthode de RIDIT . 6735 Représentation des poids de PRIDIT par variable . . . . . . . . . . . . . . . . . 7036 Représentation de la matrice de confusion sur notre échantillon de données . . . 7337 Représentation d’un nuage de mots basé sur des déclarations de sinistres . . . . 80

108

38 Représentation d’une fonction de répartition empirique . . . . . . . . . . . . . . 11339 Représentation d’une dominance stochastique d’ordre 1 . . . . . . . . . . . . . . 11440 Représentation des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . 117

109

Liste des tableaux1 Exemple d’un triangle de paiements de sinistres (en M€) . . . . . . . . . . . . . 152 Triangle des paiements cumulés de sinistres (en M€) . . . . . . . . . . . . . . . . 153 Triangle complété des paiements cumulés de sinistres (en M€) . . . . . . . . . . 164 Calcul de la Provision pour Sinistres À Payer (PSAP – en M€) . . . . . . . . . . 165 Triangle des paiements cumulés de sinistres (déduits de 8 % de fraudes – en M€) 166 Triangle complété des paiements cumulés de sinistres (déduits de 8 % de fraudes

– en M€) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Calcul de RIDIT selon la transformation définie par Bross . . . . . . . . . . . . 298 Illustration d’un calcul de RIDIT selon Brockett . . . . . . . . . . . . . . . . . . 319 Illustration du calcul de score de fraude (RIDIT) . . . . . . . . . . . . . . . . . 3210 Calcul du score par la méthode de RIDIT unifiée . . . . . . . . . . . . . . . . . 3611 Extrait du jeu de données German Credit Fraud . . . . . . . . . . . . . . . . . . 3712 Extrait du jeu de données avec modalités classées par suspicion de fraude . . . . 3713 Extrait de la matrice des scores de RIDIT . . . . . . . . . . . . . . . . . . . . . 3814 Extrait de la matrice des scores de RIDIT . . . . . . . . . . . . . . . . . . . . . 4715 Score uni-dimensionnel à l’initialisation de l’algorithme . . . . . . . . . . . . . . 4716 Pondérations à l’itération 1 de l’algorithme . . . . . . . . . . . . . . . . . . . . . 4817 Score uni-dimensionnel à la première itération de l’algorithme . . . . . . . . . . 4818 Pondérations à la convergence de l’algorithme . . . . . . . . . . . . . . . . . . . 4919 Score uni-dimensionnel à la convergence de l’algorithme . . . . . . . . . . . . . . 4920 Poids obtenus à la convergence de l’algorithme par la méthode de PRIDIT . . . 6821 Exemple de matrice de confusion en classification binaire . . . . . . . . . . . . . 6922 Calcul des taux de performance issus d’une matrice de confusion . . . . . . . . . 6923 Matrice de confusion du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 6924 Matrice des taux de performance du modèle . . . . . . . . . . . . . . . . . . . . 7025 Variables retenues après sélection . . . . . . . . . . . . . . . . . . . . . . . . . . 7126 Poids obtenus avec l’algorithme de PRIDIT après sélection de variables . . . . . 7227 Matrice de confusion du modèle après sélection de variables . . . . . . . . . . . . 7228 Matrice des taux de performance après sélection de variables . . . . . . . . . . . 7329 Illustration d’une «Document-Term Matrix» . . . . . . . . . . . . . . . . . . . . 8030 Aperçu de la matrice des scores de fraudes par la méthode de RIDIT . . . . . . 119

110

AnnexesA Sondage effectué par le cabinet

d’études Gartner en 2008

111

B Rappels techniquesB.1 Rappels de statistiques non-paramétriques

En statistique, nous disposons d’un échantillon observé x1, ..., xn où xi est l’observation deXi i.e. xi = Xi(ω) la réalisation d’une variable aléatoire.Nous cherchons à utiliser ces observations dans un but prédictif, analytique,etc.

En statistiques, nous supposons que ce que nous observons X(ω) est le résultat d’une expé-rience aléatoire. X peut être, dans un cas simple, une suite de variables aléatoires.

Construire un modèle statistique c’est se donner pour X une famille de lois possibles{Pθ, θ ∈ Θ} indexée par un paramètre θ.La famille de lois possibles contient toute l’information que nous avons (ou que nous supposons)sur le phénomène.

Nous utilisons un modèle statistique non-paramétrique lorsque l’espace des paramètres Θn’est pas un sous-ensemble d’un espace euclidien e.g. un intervalle de R ou un ensemble denombres.

En statistiques non-paramétriques, l’espace Θ est une partie d’un espace fonctionnel (en-semble contenant des fonctions mathématiques).Si X1, ..., Xn sont des variables aléatoires indépendantes et identiquement distribuées, à valeursdans R et que nous supposons que X1 possède une densité par rapport à la mesure de Lebesgue,nous pouvons alors chercher à estimer cette densité en tant que fonction.Dans ce cas, Θ = {densités θ, sur R par rapport à la mesure de Lebesgue}.

Nous pouvons aussi prendre comme paramètre θ la fonction de répartition de la variablealéatoire X1 i.e. θ(·) = P(X1 ≤ ·).

Si X est une variable aléatoire de loi PX , sa fonction de répartition FX est définie par :

FX(t) = PX(]−∞, t]

)= EPX

[1]−∞,t](X)

]∀t ∈ R

= P(X ≤ t)FX est croissante, continue à droite et possède une limite à gauche. Le nombre de sauts

d’amplitude strictement positive est dénombrable.

Lorsque nous ne conaissons pas PX , la loi de X, nous pouvons calculer la loi empiriqueνn = 1

n

n∑i=1

δxi.

Cette loi empirique possède alors comme fonction de répartition la fonction définie parFn(t) = νn

(]−∞, t]

)= 1n

n∑i=1

1xi≤t.

Si nous avons n variables aléatoires X1, . . . , Xn, nous appelons statistique d’ordre associée,l’ensemble des valeurs prises par Xi rangées par ordre croissant.

112

Nous notons alors l’échantillon ordonné X1,n, . . . , Xn,n tel que X1,n ≤ . . . ≤ Xn,n.Nous écrivons alors la fonction de répartition Fn(t) = i

npour t ∈ [Xi,n, Xi+1,n[.

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●● ● ●

0.00

0.25

0.50

0.75

1.00

0 10 20x

Fn(

x)

Figure 38 – Représentation d’une fonction de répartition empirique

D’après le théorème de Glivenko-Cantelli (1932), nous avons convergence, pour un échan-tillon de grande taille, de la fonction de répartition empirique vers la fonction de répartitionthéorique i.e. :

supt∈R|Fn(t)− F (t)| = ||Fn − F ||∞ −−−→

n→∞0

B.2 Rappels de dominance stochastiqueLa dominance stochastique est une manière de comparer des risques abstraits. Si nous dis-

posons de deux variables aléatoires, X et Y , chacune représentant un risque, le choix de préférerX plutôt que Y dépendra des préférences de l’individu (sa fonction d’utilité).

Pour un individu avec une fonction d’utilité connue, une variable aléatoire est préférée à uneautre si elle maximise son espérance d’utilité. Il est cependant difficile de trouver la fonctiond’utilité d’un individu.

B.2.1 DéfinitionLa dominance stochastique au premier ordre représente le fait qu’une variable aléatoire est

«stochastiquement plus grande» qu’une autre : ce qui est plus grand est préféré par tous lesindividus qui souhaitent des réalisations plus élevées.

La dominance stochastique au second ordre représente le fait qu’une variable aléatoire est«moins volatile» ou «moins risquée» qu’une autre : ce qui est moins volatile est préféré par

113

tous les individus averses au risque.Nous ne rappellerons ici que la dominance stochastique d’ordre 1.

Nous définissons alors la dominance stochastique du premier ordre comme suit :

Soient X et Y deux variables aléatoires réelles. X domine stochastiquement à l’ordre 1 Y ,que nous écrivons X ≥1 Y si, pour toute fonction croissante u :

E[u(X)] ≥ E[u(Y )]

B.2.2 PropriétésLa dominance stochastique à l’ordre 1 possède des propriétés intéressantes. En effet :

1. Si X ≥1 Y et Y ≥1 X alors les variables aléatoires X et Y sont de même loi.

2. SoientX et Y deux variables aléatoires réelles avec FX et FY leurs fonctions de répartition.Alors X ≥1 Y ⇔ FX ≤ FY .

3. Si X ≥ Y presque sûrement alors X ≥1 Y . Réciproquement, si X ≥1 Y alors nouspouvons construire deux variables aléatoires X ′ et Y ′ de même loi que X et Y telles queX ′ ≥1 Y

′

La deuxième propriété est celle que nous utiliserons le plus dans ce mémoire. Une variablealéatoire qui domine stochastiquement à l’ordre 1 une autre variable, possède alors une fonctionde répartition plus petite. Cela se traduit par le fait qu’elle a tendance, par rapport à l’autrevariable aléatoire, à réaliser des valeurs plus élevées.

0.00

0.25

0.50

0.75

1.00

0.0 2.5 5.0 7.5 10.0x

Fn(

x)

Fonction de répartition X1 X2

Dominance stochastique d′ordre 1 de X2 sur X1

Figure 39 – Représentation d’une dominance stochastique d’ordre 1

114

B.3 Rappels sur l’Analyse en Composantes Prin-cipales – ACP

B.3.1 IntroductionL’ACP est une méthode d’exploration des données. Nous observons un grand nombre de

variables en colonnes (d) ainsi qu’un grand nombre d’individus en lignes (n) et nous cherchonsà retenir les informations essentielles, i.e. :

• Visualiser les données ;

• Réduire le nombre de variables ;

• Réduire le nombre d’individus (groupes d’individus avec les mêmes caractéristiques) ;

• Étudier la corrélation entre les variables.

B.3.2 Données utilisablesL’ACP s’applique à des données quantitatives. Soit X une matrice à n lignes et d colonnes :

X =

x(1,1) x(1,2) . . . x(1,d)x(2,1) x(2,2) . . . x(2,d)... ... ... ...

x(n,1) x(n,2) . . . x(n,d)

=

xt1xt2...xtn

Où xi = (x(i,1), x(i,2), . . . , x(i,d))t ∈ Rd est l’individu i, ∀i ∈ {1, . . . , n}.

Nous pouvons aussi écrire la matrice X différemment :

X =

x(1,1) x(1,2) . . . x(1,d)x(2,1) x(2,2) . . . x(2,d)... ... ... ...

x(n,1) x(n,2) . . . x(n,d)

= (ξ1, ξ2, . . . , ξd)

Où ξj = (x(1,j), x(2,j), . . . , x(n,j))t ∈ Rn est la variable j, ∀j ∈ {1, . . . , d}.

X est appelé tableau de données ou matrice des données et peut être représenté par unnuage de n points xi dans Rd ou un nuage de d variables ξj dans Rn.

L’ACP opérant sur des variables centrées, nous considérons que les variables ξj sont toutes

centrées dans le sens oùn∑i=1

xi = 0Rd .

Nota Bene : ( · )t correspond à la transposée d’une matrice ou d’un vecteur.

115

B.3.3 Cadre théoriqueGéométriquement, les données multi-dimensionnelles représentent un nuage de point dans

Rd (un point de ce nuage représente un xi). Si la dimension d est supérieure à 3, ce qui estsouvent le cas, nous ne pouvons pas visualiser ce nuage de point. Le seul moyen de visualiser cesdonnées est donc de considérer leurs projections sur des droites, des plans ou éventuellementdes espaces de dimension 3.

L’ACP a pour objectif de trouver un sous-espace linéaire de Rd de dimension d? << d telque la projection sur cet espace «capte» presque toute la structure des données.

Nous considérons la matrice S des variances-covariances empiriques telle que S = 1nX tX

car les variables sont centrées. S est une matrice symétrique et définie positive.

Nous cherchons alors la projection qui maximise la variance du nuage de points.La solution est donnée par a = Argmax

a∈Rd, ||a||=1atSa

Nous définissons alors :

• l’inertie du nuage de points par : I = 1n

n∑i=1||xi||2 ;

• l’inertie du nuage de points autour du sous-espace linéaireH par JH = 1n

n∑i=1||xi−P⊥Hxi||2 ;

• l’inertie de la projection du nuage de points sur H par IH = 1n

n∑i=1||P⊥Hxi||2.

Où P⊥Hxi est le projeté orthogonal de xi sur H.

JH mesure la déformation du nuage lorsque celui-ci est projeté sur H. Nous souhaitons doncminimiser JH et maximiser IH .

La recherche d’un sous-espace affine de dimension fixée minimisant l’inertie d’un nuage sedécompose en la somme d’inertie moyenne du nuage projeté sur des droites orthogonales ditesprojections principales de l’ACP.

Si uk est un vecteur propre unitaire (ou axe propre) de S associé à la k-ème plus grandevaleur propre alors Hk = V ect{u1, ..., uk} est l’espace vectoriel engendré par les k premiersvecteurs propres de S.

La k-ème plus grande valeur propre λk de S correspond à l’inertie du nuage projeté sur lek-ème axe propre uk i.e. Iuk

= λk.

L’inertie sur Hk est la somme des inerties moyennes sur les axes principaux i.e.

IHk=

k∑`=1

Iu`=

k∑`=1

λ`.

Pour choisir le nombre d’axes à analyser, il existe plusieurs critères :

• Critère de Kaiser : prendre tous les axes tels que λk ≥I

d

116

• Critère du coude :Si les variables ξ1, ..., ξd sont faiblement corrélées alors les valeurs propres décroissent demanière régulière. Les premières valeurs propres sont grandes et les autres sont faiblesce qui crée une rupture dans la décroissance des valeurs propres par composantes. Nouscherchons donc un point d’inflexion dans la décroissance et ne pas aller au-delà.

●

●

●

●

● ● ●0

1

2

3

4

5

comp 1 comp 2 comp 3 comp 4 comp 5 comp 6 comp 7Composantes principales

Val

eurs

pro

pres

Figure 40 – Représentation des valeurs propres

• Nous retenons les k? premiers axes avec : k? = min

{k ∈ {1, ..., d} :

k∑`=1

τ` ≥ C

}Avec C ∈ [0, 1] arbitraire. Nous choisissons en général C = 85% (de manière totalementarbitraire).

Nous avons défini les axes propres u1, ..., ud mais ces axes propres ne peuvent pas remplacerles variables ξ1, ..., ξd. Toutefois, la diagonalisation de S permet de définir d nouvelles variablesdans Rn appelées composantes principales :

Cα = Xuα =d∑j=1

(uα)jξj ∈ R

Avec uα = ((uα)1, (uα)2, ..., (uα)d)t, le α-ème vecteur propre de S.

Nous pouvons aussi écrire :

Cα =

xt1xt2...xtn

uα =

< xt1, uα >< xt2, uα >

...< xtn, uα >

Où < ·, · > représente le produit scalaire.

117

Nous remarquons avec cette dernière écriture que Xα est la projection de chaque point deX sur l’axe principal uα.De plus, les composantes principales Cα sont centrées (car les ξ1, ..., ξd sont centrées).

B.4 Rappels sur la méthode de Chain-LadderLa méthode de Chain-Ladder est une méthode de provisionnement particulièrement appré-

ciée des assureurs par sa facilité de mise en oeuvre et de compréhension. Elle fait partie desméthodes de provisionnement déterministes 23.

L’idée de la méthode de Chain-Ladder est que le déroulement des paiements est dirigé par desfacteurs de développement, notés αj, qui ne dépendent que de l’année de développement j. Ainsi,si on note Ci,j les paiements cumulés relatifs à l’année de survenance i et de développement j,on a la relation :

Ci,j = αj · Ci,j−1

La méthode de Chain-Ladder, bien que simple à mettre en place et utiliser, possède cepen-dant un léger inconvénient : l’estimation des provision est peu robuste.Cette méthode ne fait aucune hypothèse quant à la loi que suivent les montants et la fréquencedes sinistres. Nous devons cependant émettre comme hypothèse le fait que les années de sur-venance sont indépendantes entre elles et que les années de développement sont les variablesexplicatives du comportement des sinistres futurs.

Les coefficients αj, aussi appelés coefficients de passage (de l’année de développement j−1 àl’année de développement j), sont estimés à l’aide des observations grâce à la formule suivante :

αj =

n−j∑i=1

Ci,j+1

n−j∑i=1

Ci,j

, ∀k ∈ {1, ..., n− 1}

À partir de ces coefficients de passage, il est possible d’obtenir une estimation de la charged’une année future de la manière ci-dessous :

Ci,j = Ci,n−i ·j−1∏

k=n−iαk

Pour plus de détails sur la méthode de Chain Ladder ainsi que les autres méthodes deprovisionnement (déterministes ou non-déterministes), nous invitons le lecteur à se reporter àl’ouvrage d’Arthur Charpentier et Michel Denuit, « Mathématiques de l’assurance non-vie »(Charpentier et Denuit (2005) [10]).

23. Les méthodes déterministes reposent sur l’hypothèse de stabilité du délai s’écoulant entre la survenanced’un sinistre et le(s) règlement(s), quel que soit l’exercice de survenance, en absence d’inflation, de changementde structure de portefeuille, des garanties des contrats, des franchises et plus généralement de la gestion dessinistres. Les méthodes déterministes peuvent toutefois être un premier outil intéressant pour prévoir la chargefinale, en utilisant les cadences de règlement observées sur le passé.

118

C Matrice des scores de fraudes parla méthode de RIDIT

over draft credit usage credit history purpose current balance-0,726 0,911 0,707 0,496 0,69-0,183 -0,92 -0,292 0,496 -0,6930,606 0,461 0,707 -0,95 0,103-0,726 -0,849 -0,292 0,035 -0,855-0,726 -0,356 0,326 -0,642 -0,6210,606 -0,743 -0,292 -0,95 -0,8970,606 -0,356 -0,292 0,035 -0,197-0,183 -0,743 -0,292 0,879 -0,7850,606 0,461 -0,292 0,496 -0,259... ... ... ... ...

Average Credit Balance employment location other parties residence since0,595 0,399 -0,524 -0,011 -0,587-0,397 -0,193 0,497 -0,011 0,432-0,397 0,826 0,497 -0,011 -0,025-0,397 0,826 0,497 0,948 -0,587-0,397 -0,193 0,109 -0,011 -0,5870,595 -0,193 0,497 -0,011 -0,5870,841 0,399 0,109 -0,011 -0,587-0,397 -0,193 0,497 -0,011 0,4320,952 0,826 0,497 -0,011 -0,587... ... ... ... ...

property magnitude cc age other payment plans housing existing credits0,718 0,977 0,186 0,287 0,5990,718 -0,913 0,186 0,287 -0,3670,718 0,736 0,186 0,287 -0,3670,204 0,613 0,186 -0,892 -0,367-0,846 0,815 0,186 -0,892 0,599-0,846 0,136 0,186 -0,892 -0,3670,204 0,815 0,186 0,287 -0,367-0,36 0,136 0,186 -0,605 -0,3670,718 0,917 0,186 0,287 -0,367... ... ... ... ...

job num dependents own telephone foreign worker status-0,03 -0,155 0,596 -0,037 0,452-0,03 -0,155 -0,404 -0,037 -0,590,8 0,845 -0,404 -0,037 0,452-0,03 0,845 -0,404 -0,037 0,452-0,03 0,845 -0,404 -0,037 0,4520,8 0,845 0,596 -0,037 0,452-0,03 -0,155 -0,404 -0,037 0,452-0,852 -0,155 0,596 -0,037 0,4520,8 -0,155 -0,404 -0,037 -0,95... ... ... ... ...

Tableau 30 – Aperçu de la matrice des scores de fraudes par la méthode de RIDIT

119

Documents

Ladétectiondefraudesàl’assurance...«La fraude est l’acte malhonnête fait dans l’intention de tromper en contrevenant à la loi ou auxrèglements»1. La fraude à l’assurance