109

Page de garde Nassim KHEMLICHE - Institut des actuaires

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Page de garde Nassim KHEMLICHE - Institut des actuaires
Page 2: Page de garde Nassim KHEMLICHE - Institut des actuaires
Page 3: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 3

Résumé

Le marché de l’assurance habitation étant en constante évolution en termes de compétitivité et de

besoins clients, les assureurs se doivent de proposer un tarif de plus en plus fin et adapté aux risques

des assurés. AXA France a donc décidé d’élaborer une nouvelle gamme de produit MultiRisques

Habitation (MRH) dans le but de proposer un tarif compétitif, robuste et qui prend en compte la

segmentation client.

Dans le cadre de la création d’une nouvelle offre d’assurance habitation, ce mémoire a pour objectif

de déterminer la prime commerciale de l’assurance spécifique du Propriétaire Non Occupant (PNO)

et également l’étude de la distance tarifaire de la nouvelle gamme PNO par rapport à l’ancienne

gamme.

En ce sens, la modélisation se déroulera en trois étapes : tout d’abord, nous modéliserons la prime

pure des différents risques pris en charge par l’assurance PNO (bris de glace, dégâts des eaux, vol,

incendie, responsabilité civile, évènements climatiques et catastrophes naturelles), puis nous

déterminerons la prime technique et enfin la prime commerciale.

Page 4: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 4

Abstract

As the home insurance market is constantly evolving in terms of competitiveness and customer

needs, insurers must offer a finer and finer tariff adapted to the risks of policyholders. AXA France

has therefore decided to develop a new range of home insurance products in order to offer a

competitive, robust price that takes into account customer segmentation.

In the context of the creation of a new home insurance offer, this study aims to determine the

commercial premium of the specific Non-Occupant Owner's Insurance (PNO) and also the study of

the tariff distance of the new PNO range from the old one.

In this sense, the modelling will be carried out in three stages: first, we will model the pure premium

for the various risks covered by PNO insurance (glass breakage, water damage, theft, fire, civil

liability, climatic events and natural disasters), then we will determine the technical premium and

finally the commercial premium.

Page 5: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 5

Note de synthèse

L’objet de ce mémoire est de déterminer la prime commerciale spécifique du produit Propriétaire

Non Occupant (PNO).

Cette assurance est destinée au propriétaire qui met en location un logement (maison ou

appartement). Elle permet de le protéger en cas de survenance d’un ou de plusieurs sinistres.

Les garanties prises en charge par l’assurance PNO sont le bris de glace, le dégât des eaux, le vol,

l’incendie, la responsabilité civile, les évènements climatiques et les catastrophes naturelles.

L’objectif principal de cette étude est de créer un modèle prédictif de la sinistralité future des affaires

nouvelles. Nous chercherons à améliorer la qualité de prédiction du coût d’un contrat et à obtenir

une meilleure sélection des risques.

Actuellement, l’offre Propriétaire Non Occupant proposée ne tient pas compte de la segmentation

client. Le modèle utilisé se base sur un modèle commercial toutes garanties confondues.

Il est donc essentiel de mettre en œuvre une refonte complète des modèles de prédiction du produit

Propriétaire Non Occupant afin de prendre en compte la répartition hétérogène de la sinistralité sur

les différentes garanties. Nous allons créer un modèle par risque visant à prédire les primes pures

des différentes garanties.

De plus, la prime vendue actuellement est opaque et ne permet pas de dissocier les différents

niveaux de prime qui composent le tarif vendu.

La prime vendue se décompose en plusieurs niveaux :

· la prime pure (P1) :

Prime minimale requise pour faire face à la sinistralité du portefeuille avec une rentabilité nulle.

· la prime technique (P2) :

Prime pure sécurisée par des chargements additifs et multiplicatifs permettant de faire face à la

charge sinistre des assurés et aux différents frais.

· la prime commerciale (P3) :

Prime vendue assurant un minimum de rentabilité à la compagnie.

La refonte du produit PNO va nous permettre également d’obtenir un tarif dissociant la prime pure,

la prime technique et la prime commerciale. Cela nous permettra ainsi d’analyser la contribution de

chaque composante (P1, P2 et P3) au tarif final et de pouvoir faire des ajustements si nécessaire sur

P2 et P3 sans toucher à P1.

Notre étude est constituée de cinq parties :

Page 6: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 6

Partie 1 :

Dans une première partie, nous allons essayer de comprendre la spécificité de l’assurance

Propriétaire Non Occupant. En ce sens, nous allons présenter le périmètre de l’assurance PNO, la

composition de ce portefeuille et la sinistralité des PNO.

Cette partie sera également l’occasion de comparer la sinistralité des Propriétaires Non Occupants

(PNO) à celle des Propriétaires Occupants (PO). Pour cela, nous calculons le coût moyen, la fréquence

et la prime pure pour chacune des garanties mentionnées précédemment. Cette étude permet de

comparer les risques PNO et PO. A l’issue de cette étude, nous remarquons qu’en termes de coûts

moyen, les valeurs sont proches entre les PNO et les propriétaires occupants. Néanmoins, la

fréquence de sinistralité des PNO est inférieure à celle des PO. Ceci peut s’expliquer par le fait que

dans la plupart des cas, c’est l’assurance locataire qui indemnise le sinistre et non celle du PNO.

Nous en déduisons que le risque PNO est proche du risque porté par les propriétaires occupants avec

des niveaux de Prime Pure inférieurs pour les PNO qui s’expliquent par le fait que les fréquences de

sinistralité sont assez faibles sur les PNO.

Cette analyse nous donne des indications sur la stratégie à adopter pour la modélisation des

différentes garanties qui composent l’assurance PNO.

Partie 2 :

Dans cette partie, nous allons décrire la construction de la base de données et les différentes

transformations opérées.

La modélisation des différents risques nécessite d’avoir une base de données représentative du

risque PNO. L’historique important d’AXA France va nous permettre de construire une base

d’expérience qui reflète la sinistralité passée du portefeuille depuis 2009.

Afin de modéliser de façon appropriée le risque, il faut utiliser un historique de sinistralité assez

important. Dans cette optique, nous allons prendre en compte tous les contrats présents au moins

un jour entre 2009 et 2013.

Pour disposer d’un maximum d’informations sur chaque contrat, nous allons construire une base de

modélisation qui sera le résultat d’une jointure entre plusieurs bases : les bases contrats, les bases

clients, les bases sinistres et les bases automobiles.

Nous allons également ajouter des données externes à notre base de données. Ce sont des données

de type sociodémographiques, topologiques et géographiques apportant une information

supplémentaire sur l’environnement géographique de l’habitation. Ces données proviennent de

prestataires externes à AXA France.

Une fois notre base de modélisation constituée, nous allons opérer deux transformations importantes des données :

Page 7: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 7

Ø Ecrêtement des sinistres Dans le cadre de la tarification, une hypothèse classique est celle selon laquelle le portefeuille est

constitué de risques similaires. Un problème pour que cette hypothèse soit vérifiée est le poids

important des sinistres « graves ». Afin de résoudre ce problème, les sinistres observés sont souvent

écrêtés et mutualisés.

Nous allons donc réaliser un écrêtement pour chaque garantie. Pour cela, l’objectif est de trouver un

seuil d’écrêtement au-delà duquel les sinistres sont considérés comme graves pour chaque garantie.

Pour rappel, un sinistre grave correspond à un sinistre de fréquence faible mais également à un

risque de sévérité importante (supérieur au 95ème quantile de la distribution de la charge).

Ø Vieillissement des sinistres

Le coût d’un sinistre n’est pas fixe. Lorsqu’un sinistre survient, une évaluation forfaitaire est affectée

au sinistre en fonction de sa nature lors de l’ouverture du dossier dans un premier temps.

L’évaluation du sinistre sera ensuite revue à la baisse ou à la hausse après passage d’un expert.

Il s’agit d’une charge dite dossier/dossier. Ainsi, le montant de la charge peut évoluer au cours du

temps. Il est donc indispensable de considérer les variations potentielles de la charge.

Dans cette optique, nous allons procéder à un vieillissement des sinistres. Cela consiste à estimer les

évolutions du coût des sinistres en cours du temps pour mesurer la charge ultime des sinistres.

Partie 3:

Dans cette partie, nous cherchons à modéliser les primes pures des garanties suivantes :

· Bris de glace (BDG) · Dégâts des eaux Appartement et Maison (DDEA et DDEM) · Vol (VOL) · Incendie (INC) · Responsabilité civile (RC) · Évènements climatiques (CLIM) · Catastrophes naturelles (CATNAT)

A noter que pour la modélisation du risque dégât des eaux où les risques diffèrent considérablement entre les maisons et les appartements, nous allons créer deux modèles distincts : DDEA et DDEM. Dans le cadre de ce mémoire, nous présenterons l’étude détaillée de la garantie Dégâts Des Eaux

Appartement (DDEA). L’objectif est de créer un modèle prédictif de la sinistralité future des affaires

nouvelles.

La détermination des primes pures des différentes garanties doit tenir compte des contraintes

opérationnelles liées à l’informatique et au réseau de distribution d’AXA France.

Actuellement, il n’est pas possible pour l’informatique d’implémenter des modèles autres que

linéaires et notre tarif doit être compréhensible par notre réseau de distribution qui se compose

principalement d’agents généraux. C’est pourquoi l’utilisation des GLM parait indispensable pour

répondre aux deux contraintes citées précédemment.

Page 8: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 8

Pour la garantie DDEA ainsi que pour les autres garanties, nous allons opter pour une modélisation

en Prime Pure. Cela suppose en pratique de choisir en amont une distribution Tweedie pour décrire

la distribution des données. Il est donc essentiel de s’intéresser aux variables décrivant la sinistralité

comme le nombre de sinistres, le coût des sinistres et l’exposition.

Le choix du modèle Prime Pure s’explique par une fréquence assez faible comme nous avons pu le

constater dans la partie 1.

Au terme de cette partie, nous aurons les primes pures associées à chaque garantie qui compose

l’assurance PNO.

Partie 4:

Dans cette partie, nous allons tester des méthodes alternatives aux GLM pour la tarification. L’objectif est de tarifer la garantie dégâts des eaux appartement grâce à des méthodes de Machine Learning et ensuite de pouvoir comparer les résultats obtenus avec ceux du GLM : nous allons tester le Gradient Boosting Machine et le Random Forest. Gradient Boosting Machine (GBM)

Le Gradient Boosting est une technique d’apprentissage statistique qui peut être utilisée pour des

problèmes de classification ou de régression. Il repose sur le principe de Boosting qui consiste à

utiliser plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.

L’objectif est de construire une séquence de modèles de telle sorte qu’à chaque nouvelle étape, le

nouveau modèle apparaisse comme une meilleure solution que le précédent.

Pour avoir une amélioration de la prédiction à chaque étape, le Boosting affecte un poids plus

important aux individus pour lesquels la valeur a été mal prédite. Le réajustement des poids à chaque

étape permet une meilleure prédiction des valeurs difficiles.

Le GBM optimise ainsi les performances d’une série de modèles avec un pouvoir prédictif faible afin

de créer un modèle robuste. Généralement, les modèles de prédiction faible utilisés sont des arbres

de décision CART.

Le but du Gradient Tree Boosting est de réaliser une succession d’arbres de décision où chaque arbre

est construit sur l’erreur résiduelle du précédent.

Page 9: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 9

Le Random Forest

Le Random Forest (forêts aléatoires) est une technique d’apprentissage statistique qui peut être

utilisée pour des problèmes de classification ou de régression. Il repose sur le principe de Bagging qui

consiste à agréger plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.

Dans le cas spécifique des modèles d’arbres de décision (CART), Breiman propose une amélioration

du bagging par l’ajout d’une composante aléatoire. L’objectif est de rendre plus indépendants les

arbres de l’agrégation en ajoutant une composante aléatoire dans le choix des variables qui

interviennent dans les modèles.

Une forêt aléatoire est donc un ensemble d’arbres de décisions dans lequel la base d’apprentissage

de chaque arbre est aléatoire. En effet, les différents arbres sont construits et entrainés sur des sous-

échantillons tous différents les uns des autres.

Cette méthode permet de corriger le manque de robustesse dans le cas où un seul arbre de

régression est utilisé pour la prédiction.

Au terme de cette partie, nous avons remarqué que ces deux techniques présentent de meilleures

performances que le GLM.

Malgré le fait que ces techniques ne soient pas implémentables actuellement dans le système

informatique d’AXA France, il était intéressant d’évaluer leur performance en comparaison du GLM.

Cela nous a permis de comprendre l’apport de ces nouvelles techniques par rapport aux approches

traditionnelles. Nous pourrons ainsi utiliser le GBM et le Random Forest pour la sélection de

variables. En ce sens, lorsque nous sommes confrontés à de nombreuse variables, ces techniques

permettent de détecter rapidement les variables les plus importantes.

L’utilisation des algorithmes de Machine Learning nous permet également de valider les variables

sélectionnées dans le GLM.

Partie 5:

Après la modélisation d’un modèle prime pure par garantie (cf. partie 3), nous allons déterminer la prime commerciale avec la prise en compte des différents chargements (additifs, multiplicatifs et globaux) et de la marge. La prime commerciale s’écrit alors : !" = ( " × (1 + $) + % ) × (1 + &)

Le nouveau tarif permet de dissocier la prime pure, la prime technique et la prime commerciale. Cela

nous permettra ainsi d’analyser la contribution de chaque composante (P1, P2 et P3) au tarif final et

de pouvoir faire des ajustements si nécessaire sur P2 et P3 sans toucher à P1.

Page 10: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 10

Une fois le nouveau tarif obtenu, nous allons l’analyser et le comparer par rapport à l’ancien tarif. En ce sens, nous allons étudier la distance tarifaire de la nouvelle gamme par rapport à l’ancienne

gamme pour les PNO. Cela revient à analyser l’écart entre les deux tarifs et identifier les éléments à

l’origine de cet écart.

Cette analyse nous permet de constater que le tarif du nouveau produit est moins élevé en moyenne que l’ancien produit pour les appartements et plus élevé en moyenne pour les maisons.

Après avoir expliqué les écarts tarifaires entre le nouveau produit et le produit actuel, nous allons analyser la profitabilité du portefeuille PNO. L’objectif est d’identifier les clients qui génèrent le plus et le moins de rentabilité. La création d’un modèle Prime Pure par garanties va nous permettre d’utiliser un indicateur de

rentabilité : l’ELR (Expected Loss Ratio) L’ELR est un indicateur de suivi de la rentabilité d’un portefeuille d’assurance. Il va nous permettre de

connaitre la rentabilité générée par chaque contrat présent dans notre portefeuille PNO.

L’ELR est défini de la manière suivante :

'*, = -."/0 -2.0 345"/é0-."/0 607820 9:520;;0 Où :

· <>?@ A<@ ∶ correspond à l’agrégation des primes pures de l’ensemble des

garanties

· <>?@ C@DEA@ FGHA@II@ ∶ il s’agit du tarif vendu pour le produit actuel

L’utilisation de la prime vendue dans la formule de l’ELR permet d’évaluer la qualité de tarification du

modèle actuel. Dans cette optique, nous allons comparer notre estimation du risque avec le tarif du produit actuel. Cette analyse, nous permettra de dire si le risque est correctement évalué dans le tarif PNO actuel

Cette analyse basée sur l’ELR, nous permet de valider la création de notre nouveau tarif. En effet, au

terme de cette étude, nous remarquons que le tarif actuel sous évalue l’estimation du risque et par

conséquent, nous avons de nombreux contrats où la rentabilité espérée est négative, nulle ou très proche de zéro. Le nouveau tarif qui va être mis en place va donc permettre une meilleure évaluation du risque pour éviter à l’assureur d’avoir une rentabilité négative.

Une fois le nouveau tarif mis en place, l’ELR va constituer un indicateur de suivi de rentabilité des

affaires nouvelles. Il va nous permettre d’identifier la typologie des contrats les plus risqués et de

classer les assurés en fonction de la rentabilité générée.

L’ELR permettra également de piloter notre portefeuille PNO actuel. En effet, nous pourrons

réajuster les tarifs des assurés sous tarifés par le biais de majorations. Les assurés avec un ELR

supérieur à 100 % verront leur tarif augmenter afin d’avoir une meilleure prise en compte de leur

risque.

Page 11: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 11

Synthesis

The purpose of this study is to determine the specific commercial premium for the Non-Occupant Owner (PNO) product. This insurance is intended for the owner who rents a house or apartment. It protects it in the event

of one or more claims. The guarantees covered by the PNO insurance are glass breakage, water

damage, theft, fire, civil liability, climatic events and natural disasters.

The main objective of this study is to create a predictive model of future claims for new business.

We will seek to improve the quality of contract cost prediction and to obtain a better risk selection.

Currently, the proposed Non-Occupant Owner Offer does not take customer segmentation into

account. The model used is based on a commercial model with all guarantees combined.

It is therefore essential to implement a complete overhaul of the Non-Occupant Owner product

prediction models in order to take into account the heterogeneous distribution of claims on the

various coverages. We will create a model by risk to predict the pure premiums of the different

guarantees.

In addition, the premium currently sold is opaque and does not allow to dissociate the different

levels of premium that make up the price sold.

The premium sold can be broken down into several levels:

· The pure premium (P1) :

Minimum premium required to cover the loss of the portfolio with zero profitability.

· The technical price (P2) :

Pure premium secured by additive and multiplicative charge to cover the loss load of policyholders

and the various expenses.

· The commercial premium (P3) :

Premium sold ensuring minimum profitability for the company.

The overhaul of the PNO product will also enable us to obtain a tariff separating the pure premium,

the technical premium and the commercial premium. This will allow us to analyze the contribution of

each component (P1, P2 and P3) to the final tariff and to make adjustments if necessary on P2 and P3

without affecting P1.

Our study consists of five parts :

Page 12: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 12

Part 1:

In the first part, we will try to understand the specificity of Non-Occupant Owner Insurance. In this

sense, we will present the scope of PNO insurance, the composition of this portfolio and the loss

experience of PNO.

This part will also be an opportunity to compare the loss experience of Non-Occupant Owners (PNO)

with that of Occupant Owners (PO). For this purpose, we calculate the average cost, the frequency

and the pure premium for each of the guarantees mentioned above. This study compares the PNO

and PO risks. At the end of this study, we note that in terms of average costs, the values are close

between the Non-Occupant Owners and the Occupant Owners. Nevertheless, the frequency of PNO

claims is lower than that of PO. This can be explained by the fact that in most cases, it is the tenant

insurance policy that compensates the claim and not the PNO.

We deduce from this that the PNO risk is close to the risk carried by Occupant Owners with lower

Pure Premium levels for PNO, which are explained by the fact that the frequency of claims is rather

low on PNO.

This analysis provides us with some guidance on the strategy to be adopted for the modelling of the

different coverages that make up PNO insurance.

Part 2:

In this part, we will describe the construction of the database and the different transformations

carried out.

Modelling of the different risks requires a database that is representative of the PNO risk.

The significant history of AXA France will enable us to build an experience base that reflects the

portfolio's past loss experience since2009. In order to appropriately model the risk, it is necessary to

use a fairly large claims history. In this context, we will take into account all the contracts present at

least one day between 2009 and 2013.

In order to have as much information as possible on each contract, we will build a modeling base that

will be the result of a combination of several bases: contracts bases, customer bases, claims bases

and automobile bases.

We will also add external data to our database. These are socio-demographic, topological and

geographical data that provide additional information on the geographic environment of the

dwelling. These data come from providers outside AXA France.

Once we've built up our modeling base, we're going to make two major transformations of the data :

Page 13: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 13

Ø Capping claims A classic assumption in pricing is that the portfolio consists of similar risks. A problem for this

hypothesis to be verified is the significant weight of "serious" claims. In order to solve this problem,

the observed incidents are often clipped and pooled.

We will therefore carry out a capping for each guarantee. For this purpose, the objective is to find a

capping threshold beyond which claims are considered to be serious for each coverage. As a

reminder, a serious claim corresponds to a low frequency claim but also to a risk of significant

severity (above the 95th quantile of the charge distribution).

Ø Ageing of claims

The cost of a claim is not fixed. When a claim occurs, a lump sum assessment is assigned to the claim

based on its nature when the file is first opened. The assessment of the loss will then be revised

downwards or upwards after an expert has passed through. This is a so-called file/folder charge.

Thus, the amount of the charge may change over time. It is therefore essential to consider the

potential variations in the charge. With this in mind, we are going to be aging claims. This consists of

estimating changes in the cost of claims over time to measure the ultimate cost of claim.

Part 3:

In this section, we seek to model the pure premiums for the following coverages:

· Glass breakage · Apartment and House Water damage · Theft · Fire · Civil liability, · Climatic events · Natural disasters

Note that for the modeling of water damage risk where the risks differ substantially between houses

and apartments, we will create two distinct models

As part of this study, we will present the detailed study of the Apartment Water Damage Guarantee.

The objective is to create a predictive model of future claims for new business.

The determination of the pure premiums for the various guarantees must take into account the

operational constraints related to the IT and the distribution network of AXA France.

Currently, it is not possible for IT to implement models other than linear and our tariff must be

understandable through our distribution network, which consists mainly of general agents. This is

why the use of GLM seems indispensable to meet the two constraints mentioned above.

Page 14: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 14

For the apartment water damage warranty as well as for other guarantees, we will opt for a Pure

Premium modeling. In practice, this involves selecting a Tweedie distribution to describe the

distribution of data. It is therefore essential to look at the variables that describe loss experience

such as the number of claims, the cost of claims and exposure.

The choice of the Prime Pure model is explained by a relatively low frequency, as we have seen in

Part 1.

At the end of this part, we will have the pure premiums associated with each guarantee that makes

up the PNO insurance.

Part 4:

In this section, we will test alternative methods to GLM for pricing.

The objective is to price the apartment water damage guarantee with Machine Learning methods

and then to compare the results obtained with those of the GLM: we will test the Gradient Boosting

Machine and Random Forest.

Gradient Boosting Machine (GBM)

Gradient Boosting is a statistical learning technique that can be used for classification or regression

problems. It is based on the Boosting principle, which consists of using several models between them

in order to obtain a single predictive result. The goal is to build a sequence of models so that at each

new step, the new model appears as a better solution than the previous one.

To have improved prediction at each step, Boosting affects a greater weight to individuals for whom

the value has been poorly predicted. The readjustment of the weights at each stage allows a better

prediction of the difficult values.

The GBM thus optimizes the performance of a series of models with low predictive power to create a

robust model. Generally, the weak prediction models used are CART decision trees.

The aim of the Gradient Tree Boosting is to realize a succession of decision trees where each tree is

built on the residual error of the previous one.

Page 15: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 15

Le Random Forest

Random Forest is a statistical learning technique that can be used for classification or regression

problems. It is based on the Bagging principle, which consists of approving several models in order to

obtain a single predictive result.

In the specific cases of decision tree models (CART), Breiman proposes an improvement of bagging

by adding a random component. The objective is to make the trees of aggregation more independent

by adding a random component in the choice of variables involved in the models.

A random forest is therefore a set of decision trees in which the learning base of each tree is random.

Indeed, the different trees are constructed and trained on sub-samples all different from each other.

This method corrects the lack of robustness in cases where only one regression shaft is used for

prediction.

At the end of this section, we noted that both techniques perform better than GLM.

Despite the fact that these techniques are not currently implemented in AXA France's IT system, it

was interesting to evaluate their performance in comparison with the GLM. This has allowed us to

understand the contribution of these new techniques to traditional approaches. We can use use

GBM and Random Forest for variable selection. In this sense, when we are confronted with

numerous variables, these techniques allow us to quickly detect the most important variables.

The use of Machine Learning algorithms also allows us to validate the variables selected in the GLM.

Part 5:

After modelling a pure premium model per guarantee (see section 3), we will determine the

commercial premium, taking into account the different charges (additives, multiplicative and global)

and the margin.

The commercial premium is written:

!" = ( " × (1 + $) + % ) × (1 + &)

The new tariff allows the unbundling of pure premium, technical premium and commercial premium.

This will allow us to analyze the contribution of each component (P1, P2 and P3) to the final tariff and

to make adjustments if necessary on P2 and P3 without affecting P1.

Once we have obtained the new tariff, we will analyze it and compare it with the old tariff. we will

study the price range of the new range compared to the old range for PNO. This is tantamount to

analyzing the difference between the two tariffs and identifying the factors that cause this

difference.

This analysis shows that the price of the new product is lower on average than the old product for

apartments and higher on average for houses.

Page 16: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 16

After explaining the price differentials between the new product and the current product, we will

analyse the profitability of the PNO portfolio. The objective is to identify the customers who generate

the most and least profitability.

The creation of a Premium Pure model by guarantees will allow us to use a profitability indicator: the

ELR (Expected Loss Ratio)

The ELR is an indicator for monitoring the profitability of an insurance portfolio. It will enable us to

know the profitability generated by each contract in our PNO portfolio.

The ELR is defined as :

'*, = 345"/J508 -2.0 -.0/"2/-.0/"2/ KL;8 M2..075;N Where :

· 'OH>?PH@E A<@ <@?>A? ∶ corresponds to the aggregation of the pure premiums of all guarantees.

· <@?>A? QRIE !A<<@DHIS ∶ this is the tariff sold for the current product

The use of the premium sold in the ELR formula allows an assessment of the pricing quality of the

current model. In this context, we will compare our risk estimate with the current product price. This

analysis will allow us to determine whether the risk is correctly assessed in the current PNO tariff.

This analysis, based on the ELR, allows us to validate the creation of our new tariff. Indeed, at the end

of this study, we note that the current tariff underestimates the risk estimate and consequently, we

have many contracts where the expected profitability is negative, zero or very close to zero. The new

tariff that will be implemented will therefore allow a better assessment of the risk in order to avoid

negative profitability for the insurer.

Once the new tariff is implemented, the ELR will be an indicator for monitoring the profitability of

new business. It will enable us to identify the typology of the most risky contracts and to classify the

policyholders according to the profitability generated.

The ELR will also enable us to manage our current PNO portfolio. Indeed, we will be able to readjust

the rates of the under-priced policyholders through surcharges. Insured persons with an ELR greater

than 100% will have their rates increased in order to take better account of their risk.

Page 17: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 17

Remerciements

Je tiens tout d’abord à adresser mes remerciements à l’ensemble de l’équipe Multirisque Habitation

d'AXA France pour leurs précieux conseils, leurs disponibilités et leurs esprits d’équipe.

J’adresse notamment ma reconnaissance à Anne Laure LE GALLO responsable de l’équipe Multirisque

Habitation d'AXA France pour m’avoir fait confiance sur ce sujet d’étude.

Je remercie particulièrement Mme Camille LOIRET et Adélaïde RAMEY pour leurs encadrements

durant la réalisation et la rédaction de ce mémoire.

Je remercie l’équipe pédagogique de l’ISUP et en particulier Monsieur Jean-Marie Nessi, qui m’a suivi

jusqu’à la fin de ce mémoire. Ensuite, plus généralement j’aimerais remercier toutes les personnes qui ont contribué, de manière

directe ou indirecte, à mon parcours scolaire et professionnel.

Enfin c’est une reconnaissance toute particulière que je veux donner à mes amis, ma famille pour le

soutien moral et financier qu’ils m’ont apportés. Sans eux, mon cheminement dans la vie active

aurait été bien différent.

Page 18: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 18

Sommaire

Introduction ........................................................................................................................................... 20

I. Études préliminaires du portefeuille ............................................................................................. 22

1.1. Définition du périmètre ......................................................................................................... 22

1.1.1. Définition de l’assurance Propriétaire Non Occupant .................................................. 22

1.1.2. Garanties Couvertes ...................................................................................................... 22

1.2. Analyse statistique du portefeuille ....................................................................................... 24

1.3. Comparaison de la sinistralité des Propriétaires Non Occupants et des Propriétaires

Occupants .......................................................................................................................................... 26

II. Préparation des données .............................................................................................................. 30

2.1. Construction de la base de modélisation .............................................................................. 30

2.1. Ecrêtement des sinistres ....................................................................................................... 33

2.2. Vieillissement des sinistres .................................................................................................... 34

III. Détermination de la Prime Pure à l’aide des Modèles Linéaires Généralisés (GLM) ................ 36

3.1. Les Modèles Linéaires Généralisés ........................................................................................ 36

3.1.1. Modèles linéaires .......................................................................................................... 36

3.1.2. Modèles linéaires généralisés (GLM) ............................................................................ 38

3.1.3. Choix de la loi de la distribution et de la fonction lien .................................................. 41

3.1.4. Mesures de performance .............................................................................................. 42

3.2. Les variables explicatives ....................................................................................................... 46

3.2.1. Les variables habitation ................................................................................................. 46

3.2.2. Les variables clients ....................................................................................................... 47

3.2.3. Les variables caractéristiques du contrat d’assurance .................................................. 48

3.4.1. Les variables automobiles ............................................................................................. 48

3.4.2. Les variables externes ................................................................................................... 49

3.3. Modélisation de la garantie Dégâts des Eaux Appartements ............................................... 50

3.3.1. Analyse des variables explicatives ................................................................................. 51

3.3.2. Analyse des corrélations ................................................................................................ 55

3.3.3. Sélection de variables .................................................................................................... 56

3.3.4. Identification des interactions ....................................................................................... 61

3.3.5. Simplification du modèle ............................................................................................... 62

3.4. Validation du modèle ............................................................................................................ 63

Page 19: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 19

3.4.1. Validation du modèle sur la base d’apprentissage ....................................................... 63

3.4.2. Validation du modèle sur la base test ........................................................................... 67

3.4.3. Validation du modèle sur les bases d’apprentissage et test ......................................... 70

IV. Autres méthodes de tarification ............................................................................................... 72

4.1. Les Arbres CART (Classification And Regression Tree) .......................................................... 72

4.2. Gradient Boosting Machine ................................................................................................... 74

4.2.1. Principe .......................................................................................................................... 74

4.2.2. Théorie du Gradient Boosting ....................................................................................... 74

4.2.3. Les hyper-paramètres.................................................................................................... 76

4.2.4. Application du GBM à la garantie Dégât des Eaux Appartement ................................. 78

4.3. Random Forest ...................................................................................................................... 83

4.3.1. Principe .......................................................................................................................... 83

4.3.2. Application du Random Forest à la garantie Dégat des Eaux Appartement ................. 84

4.4. Comparaison des modèles .................................................................................................... 89

V. Tarif final ........................................................................................................................................ 90

5.1. Prime commerciale ................................................................................................................ 90

5.1.1. Calcul de la prime commerciale .................................................................................... 90

5.1.2. Distribution de la prime commerciale ........................................................................... 92

5.2. Étude de la distance tarifaire ................................................................................................ 93

5.3. Explication des écarts tarifaires ............................................................................................. 96

5.4. Analyse de la profitabilité du portefeuille PNO..................................................................... 98

5.4.1. Définition de l’ELR ......................................................................................................... 98

5.4.2. Analyse ELR .................................................................................................................... 99

5.4.3. Application des arbres aux ELR...................................................................................... 99

Conclusion ........................................................................................................................................... 102

Lexique ................................................................................................................................................ 104

Annexes ............................................................................................................................................... 105

Bibliographie........................................................................................................................................ 107

Table des figures .................................................................................................................................. 108

Page 20: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 20

Introduction

L’étude produite dans ce mémoire a été réalisée au sein de la Direction du Marché IARD (Incendie,

Accidents, Risques Divers) de la branche Particuliers/Professionnels d’AXA France, dans l’équipe

Actuariat « Non-Auto ».

Cette équipe gère plusieurs produits d’assurance dommages, le principal étant l’assurance MRH.

Le rôle de l’équipe est d’assurer le pilotage des produits, de leur production, des différents

indicateurs de rentabilité, ainsi que de réaliser l’ensemble des évolutions qui leur sont nécessaires.

L’assurance Multirisque Habitation est une assurance destinée à protéger les habitations des

particuliers. Elle a pour objectif de couvrir l’habitation, son contenu mais également la responsabilité

civile des occupants envers un tiers.

Un contrat d’assurance habitation couvre plusieurs risques tels que le bris de glace, le dégât des

eaux, le vol, l’incendie, la responsabilité civile, les évènements climatiques et les catastrophes

naturelles.

Le marché de l’assurance habitation connait un déclin économique en France ; actuellement il est

déficitaire. Cela s’explique notamment par une augmentation de la sinistralité au cours de ces

dernières années mais également par un environnement concurrentiel qui s’intensifie depuis la mise

en place de la loi Hamon en 2015. Désormais, les assureurs comme les assurés ont la possibilité de

résilier un contrat d’assurance à partir de l’échéance de la première année. Les assurés ont alors la

possibilité de souscrire auprès d’un assureur concurrent afin d’obtenir un tarif plus attractif.

Dans ce contexte, l’assureur ne peut pas se permettre d’augmenter les prix de l’ensemble des

assurés du portefeuille. Il est donc essentiel d’améliorer la segmentation client pour gagner en

compétitivité et améliorer la profitabilité du portefeuille dès la souscription.

La segmentation consiste à considérer que tous les clients n’ont pas le même risque et doivent donc

payer des primes différentes. Cela va permettre d’identifier les bons comme les mauvais risques et

de lutter contre les risques d’anti-sélection.

Actuellement, l’offre Propriétaire Non Occupant proposée ne tient pas compte de la segmentation

client. Le modèle utilisé se base sur un modèle commercial toutes garanties confondues et d’un

zonier géographique à la maille commune segmenté entre appartement et maison.

La prime vendue se décompose en plusieurs niveaux :

· la prime pure (P1) :

Prime minimale requise pour faire face à la sinistralité du portefeuille avec une rentabilité nulle.

· la prime technique (P2) :

Prime pure sécurisée par des chargements additifs et multiplicatifs permettant de faire face à la

charge sinistre des assurés et des différents frais.

Page 21: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 21

· la prime commerciale (P3) :

Prime vendue assurant un minimum de rentabilité à la compagnie.

La prime vendue est opaque et ne permet pas de dissocier les différents niveaux de prime qui

composent le tarif vendu.

Il est donc essentiel de mettre en œuvre une refonte complète des modèles de prédiction du produit

PNO. L’objectif est de créer un modèle visant à prédire les primes pures des garanties le bris de glace,

dégât des eaux, vol, incendie, responsabilité civile, évènements climatiques et catastrophes

naturelles. L’enjeu ici est d’obtenir la vision la plus juste possible du risque de notre portefeuille

d’assurés.

Nous chercherons à obtenir un tarif pour les Propriétaires Non Occupants qui va dissocier la prime

pure, la prime technique et la prime commerciale.

L’objet de ce mémoire est de déterminer la prime commerciale de l’assurance Propriétaire Non

Occupant et également d’étudier la distance tarifaire de la nouvelle gamme par rapport à l’ancienne

gamme pour les PNO.

Pour cela, dans une première partie, nous allons présenter le périmètre de l’assurance, la

composition du portefeuille et la sinistralité des PNO.

Nous nous intéresserons ensuite dans une deuxième partie à la construction de la base de données,

à l’écrêtement et au vieillissement des sinistres.

Dans une troisième partie, nous allons modéliser les primes pures des différentes garanties (bris de

glace, dégâts des eaux, vol, incendie, responsabilité civile, climatique et catastrophes naturelles)

grâce à des modèles linéaires généralisés.

La quatrième partie, allons tester des méthodes alternatives aux GLM pour la tarification. L’objectif

est de tarifer la garantie dégâts des eaux appartement grâce à des méthodes de Machine Learning et

ensuite de pouvoir comparer les résultats obtenus avec ceux du GLM : nous allons tester le Gradient

Boosting Machine et le Random Forest.

Dans la dernière partie, nous allons déterminer la prime commerciale. Une fois le nouveau tarif

obtenu, nous allons l’analyser et le comparer par rapport à l’ancien tarif. Après avoir expliqué les

écarts tarifaires entre le nouveau produit et le produit actuel, nous allons analyser la profitabilité du

portefeuille PNO. L’objectif est d’identifier les clients qui génèrent le plus et le moins de rentabilité et

de valider le nouveau tarif PNO.

Page 22: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 22

I. Études préliminaires du portefeuille

1.1. Définition du périmètre

1.1.1. Définition de l’assurance Propriétaire Non Occupant

L’offre d’assurance PNO s’adresse aux propriétaires de maisons ou d’appartements. Elle permet aux

propriétaires qui louent un logement de s’assurer en cas de survenance d’un sinistre.

A noter que depuis la loi ALUR du 24 mars 2014, l’assurance PNO devient obligatoire pour les

propriétaires dans un immeuble.

Cette assurance intervient lorsque :

· Les locaux sont vacants (entre deux locations par exemple). · En cas de défaut de l’assurance du locataire. · La responsabilité du locataire ne joue pas. Un contrat PNO protège le propriétaire en cas

de dommage subi par le locataire (exemple : un placard se décroche et blesse le locataire) mais aussi par les voisins ou les tiers, en cas de vice de construction, d'une dégradation non détectée ou d'un trouble de jouissance.

· Le contrat souscrit pallie également les manques de certains contrats MultiRisques Immeubles (MRI) de syndic : - il ne couvre pas la responsabilité personnelle du bailleur, ni les dommages causés par

ses biens privatifs - les parties privatives immobilières ou mobilières (embellissements, portes, cuisine)

ne sont en général pas couvertes · La location se fait par l’intermédiaire d’un organisme de location de particuliers à

particuliers (de type Airbnb par exemple) (à partir du moment où la période de location dépasse 9 mois, nous considérons qu’il s’agit d’un PNO).

1.1.2. Garanties Couvertes

· Bris de glace (BDG)

Couvre les dégâts en cas de bris de vitres, des fenêtres, portes fenêtres, baies vitrées lorsque les

locaux sont vacants entre deux locations par exemple.

· Dégâts des eaux (DDE)

Couvre les dégâts dus notamment aux fuites ou ruptures des conduites non enterrées, aux appareils

à effets d’eau (baignoire, ballon d’eau chaude, etc.).

Dans la plupart des cas pour les propriétaires d’appartements, c’est l’assurance de la copropriété qui

est mise en jeu, mais cela pourra être amené à évoluer dans le cadre de la refonte des conventions

CIDRE.

Page 23: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 23

· VOL

Couvre les dommages causés par les tentatives de vol sur les biens ou les équipements inclus dans la

location.

· Incendie (INC)

Couvre les dégâts dus aux incendies.

Nous étudions la responsabilité du locataire avant de décider quelle l’assurance doit prendre en

charge le sinistre : dans la plupart des cas, c’est l’assurance du locataire qui entre en jeu, l’assurance

du propriétaire n’intervient seulement que lorsque l’incendie est causé par un bien ou un

équipement inclus dans la location.

· Responsabilité civile (RC)

Couvre l’ensemble des dommages qui pourraient être causés au locataire ou à un tiers du fait de

l’habitation assurée ou de ses équipements.

· Évènements Climatiques (CLIM)

Couvre les dégâts causés à la partie immobilière dus aux évènements : tempêtes, chute de grêle,

poids de la neige sur la toiture, inondation, etc.

· Catastrophes naturelles (CATNAT)

Couvre les dégâts causés à la partie immobilière dus notamment aux évènements : inondations,

coulées de boues, tremblements de terre, sécheresse, etc.

Un évènement est considéré comme catastrophe naturelle uniquement lorsque ce dernier fait l’objet

d’un arrêté interministériel paru au Journal Officiel.

Page 24: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 24

1.2. Analyse statistique du portefeuille

L’assurance PNO est un marché dont le volume de cotisations n’a cessé d’augmenter ces dernières

années. La FFSA (Fédération Française des Sociétés d'Assurance) estime l’ensemble des cotisations des contrats PNO, toutes garanties confondues à 93 millions d’euros en 2016, soit une hausse de 25 % par rapport à 2013.

· Nombre de contrats par année

Figure 1 - Nombre de contrat PNO par année

· Cotisations (en K€)

Figure 2 - Cotisations PNO (en K€) par année

420 960446 706 464 503

492 068521 761

560 595607 473

632 219

2009 2010 2011 2012 2013 2014 2015 2016

51 211 56 678

62 500 68 510

74 095

81 166

88 509 92 939

2009 2010 2011 2012 2013 2014 2015 2016

Page 25: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 25

· Répartition des PNO par type de bien

Figure 3 - Répartition des PNO par type de bien

Maison53%

Appart47%

Page 26: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 26

1.3. Comparaison de la sinistralité des Propriétaires Non Occupants et

des Propriétaires Occupants

Pour les PNO et les propriétaires occupants, nous calculons le coût moyen, la fréquence et la prime

pure pour chaque garantie (Bris de glace, dégâts des eaux, vol, incendie, responsabilité civile,

climatique et catastrophe naturelles). Cette étude permet de comparer le risque PNO et le risque

porté par les propriétaires occupants.

Ø Coût Moyen Appartement

Figure 4 - Comparaison du coût moyen appartement entre les PNO et les PO

Ø Coût Moyen Maison

Figure 5 - Comparaison du coût moyen maison entre les PNO et les PO

En termes de coûts moyen, nous remarquons que les valeurs sont proches entre les PNO et les propriétaires occupants à l’exception des garanties CATNAT et Incendie.

- €

1 000 €

2 000 €

3 000 €

4 000 €

5 000 €

6 000 €

7 000 €

8 000 €

9 000 €

BDG CATNAT CLIM DDE INC RC VOL

PNO

PO

- €

2 000 €

4 000 €

6 000 €

8 000 €

10 000 €

12 000 €

14 000 €

16 000 €

BDG CATNAT CLIM DDE INC RC VOL

PNO

PO

Page 27: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 27

Ø Fréquence de sinistralité Appartement

Figure 6 - Comparaison de la fréquence de sinistralité appartement entre les PNO et les PO

Ø Fréquence Maison

Figure 7 - Comparaison de la fréquence de sinistralité maison entre les PNO et les PO

La fréquence de sinistralité des PNO est significativement inférieure à celle des PO. Ceci peut s’expliquer par le fait que dans la plupart des cas c’est l’assurance locataire qui indemnise le sinistre et non celle du PNO.

0,00%

1,00%

2,00%

3,00%

4,00%

5,00%

6,00%

7,00%

BDG CATNAT CLIM DDE INC RC VOL

PNO

PO

0,00%

1,00%

2,00%

3,00%

4,00%

5,00%

6,00%

7,00%

BDG CATNAT CLIM DDE INC RC VOL

PNO

PO

Page 28: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 28

Ø Prime Pure Appartement

Figure 8 - Comparaison de la Prime Pure observée appartement entre les PNO et les PO

Ø Prime Pure Maison

Figure 9 - Comparaison de la Prime Pure observée maison entre les PNO et les PO

Comme la fréquence de sinistralité des PNO est inférieure à celle des PO, nous obtenons des primes pures PNO inférieures à celle des PO.

0 €

10 €

20 €

30 €

40 €

50 €

60 €

70 €

80 €

BDG CATNAT CLIM DDE INC RC VOL

PNO

PO

- €

10 €

20 €

30 €

40 €

50 €

60 €

70 €

80 €

BDG CATNAT CLIM DDE INC RC VOL

PNO

PO

Page 29: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 29

Intéresserons-nous maintenant à la décomposition de la Prime Pure entres les PNO et les PO.

Ø Prime Pure observée Appartement

PNO Propriétaires Occupants

Figure 10 - Décomposition de la Prime Pure observée appartement pour les PNO et les PO

Nous constatons une réparation similaire pour les différentes garanties sauf pour le dégât des eaux et le vol.

Ø Prime Pure observée Maison

PNO Propriétaires Occupants

Figure 11 - Décomposition de la Prime Pure observée maison pour les PNO et les PO

Nous constatons une réparation similaire pour les différentes garanties sauf pour l’incendie.

La répartition des primes est assez semblable pour le PO et les PNO, nous ferons l’hypothèse que le

risque PNO est similaire au risque porté par les propriétaires occupants avec des niveaux de Prime

Pure différents. Les niveaux de primes pures sont beaucoup moins élevés chez les PNO.

Ces analysent permettent d’identifier les différents risques à prendre en compte dans notre étude

mais également la stratégie à adopter pour les modéliser.

BDG 2% CATNAT 1% CLIM

4%

DDE 68%

INC 17%

RC 2%VOL5%

BDG 2%

CATNAT 1%

CLIM 3%

DDE 59%

INC 13%

RC 4%

VOL 17%

BDG 1%CAT NAT

6%

CLIM 26%

DDE 17%

INC 43%

RC 1%

VOL 5% BDG 2%CAT NAT

7%

CLIM 22%

DDE 17%INC 32%

RC 6%

VOL 15%

Page 30: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 30

II. Préparation des données

Dans cette partie, nous allons décrire la construction de la base de données et les différentes

transformations opérées.

2.1. Construction de la base de modélisation

La modélisation des différents risques nécessite d’avoir une base de données représentative du

risque PNO. L’historique important d’AXA France va nous permettre de construire une base

d’expérience qui reflète la sinistralité passée du portefeuille depuis 2009.

Afin de modéliser de façon appropriée le risque, il faut utiliser un historique de sinistralité assez

important. Dans cette optique, nous allons prendre en compte tous les contrats présents au moins

un jour entre 2009 et 2013.

Pour disposer d’un maximum d’informations sur chaque contrat, nous allons construire une base de

modélisation qui sera le résultat d’une jointure entre plusieurs bases :

· Les bases contrats

Les bases contrats contiennent l’ensemble des informations disponibles à la souscription.

Nous associons à chaque numéro de contrat les caractéristiques de l’habitation (type d’habitation,

nombre de pièces, ancienneté du logement) ainsi que les données relatives au contrat lui-même

(formule souscrite, exposition, etc.).

· Les bases clients

Les bases clients donnent des renseignements sur la situation professionnelle et personnelle de

l’assuré (âge du client, CSP du client, statut marital, nombre d’enfants, etc.).

Toutes les données disponibles sont testées mais avant implémentation il convient de s’assurer du

respect du code déontologique (pas de discrimination en fonction du sexe, de l’origine, etc.)

· Les bases sinistres

Les bases sinistres regroupent les informations concernant les sinistres.

Elles renseignent sur les contrats ayant subi un ou plusieurs sinistres. Nous trouvons sur chaque ligne

le numéro de contrat touché ainsi que les caractéristiques du sinistre (le coût par garantie, le nombre

de sinistres par garantie, ...).

Les bases sont créées par année de survenance. Nous agrégeons ensuite tous les sinistres par le

couple (contrat, année) en opérant un comptage afin d’obtenir le nombre de sinistres et la charge

par contrat et par année.

· Les bases automobiles

Les bases automobiles permettent de donner des informations supplémentaires pour les assurés

ayant souscrit à un contrat automobile en plus d’un contrat MRH. Nous récupérons ainsi les

caractéristiques du véhicule et du conducteur.

Page 31: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 31

Une fois la jointure entre les quatre bases réalisée, l’objectif est de joindre les attributs géographiques de chaque adresse relative aux contrats présents dans la base de modélisation. Pour cela, nous disposons des bases Adresses géocodées depuis 2009. Ainsi pour chaque numéro de contrat, nous allons pouvoir obtenir l’ensemble des informations suivantes :

· L’adresse ;

· Le code postal ;

· La commune ;

· Le code IRIS : Les communes d'au moins 10 000 habitants et une forte proportion des communes de 5 000 à 10 000 habitants sont découpées en IRIS ;

· Les coordonnées géographiques(x,y) ;

· La précisons du géocodage : l’ensemble des adresses n’a pas été géocodé avec une

précision maximale. Nous avons défini pour cela quatre niveaux de précision :

- 1 : centroïde de la ville - 2 : centroïde de la voie - 3 : numéro rue approché - 4 : Adresse exacte

A partir des coordonnées géographiques associées à chaque contrat, nous effectuerons une jointure spatiale. L’opération consiste à attribuer à chaque point de l’espace une zone de risque propre à

chaque contrat et à chaque garantie. Ainsi, pour chaque contrat, nous allons obtenir un zonier propre à chaque risque. Un zonier permet de capter le signal géographique dans un modèle, ce qui permet de segmenter au mieux les différents profils de risque.

Dans le cadre de cette étude, nous réutiliserons les zoniers des propriétaires occupants. En effet, le signal géographique ne diffère pas entre les propriétaires occupants et les propriétaires non occupants. Les coordonnées géographiques vont également nous permettre d’ajouter à nos contrats des données externes. Ce sont des données de type sociodémographiques, topologiques et géographiques apportant une information supplémentaire sur l’environnement géographique de

l’habitation. Ces données proviennent de prestataires externes à AXA France. Les informations externes intégrées à notre base proviennent des prestataires suivants :

· INSEE (Institut National de la Statistique et des Études Économiques) diffusant des informations gratuites sur les caractéristiques de la population, des ménages et des logements.

· Experian : prestataire proposant des données sociodémographiques plus complètes à des mailles géographiques précises IRIS et mêmes GPS pour les points d’intérêts comme les écoles, hôpitaux, commissariat, banques.

Page 32: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 32

· Mission Risques Naturelles : organisme crée par la FFSA et GEMA permettant de mettre à disposition auprès des compagnies d’assurance plusieurs informations de type topographiques dans le but de les aider à affiner leur appréhension du risque climatique.

· Base Gaspar, Prim.net : base de données recensant l’intégralité des arrêtés Catastrophes

Naturelles au sein des communes. Nous obtenons finalement une base de données qui contient les informations suivantes :

· Les variables explicatives potentielles caractérisant le contrat ainsi que l’assuré ; · La sinistralité observée (le nombre et le coût des sinistres par garantie, la durée

d’exposition du risque) ; · Le zonier propre à chaque garantie : les variables zoniers par garantie vont permettre de

découper le territoire en zone de risque ;

· Les caractéristiques de la population ; · L’environnement géographique de l’habitation.

Une fois la base constituée, il est indispensable de contrôler la qualité des données. La démarche est la suivante :

· Vérifier que le nombre de valeurs manquantes pour les variables présentes dans la base de

modélisation n’est pas trop élevé.

· Contrôler que les variables sont bien renseignées et qu’il n’existe pas de valeurs aberrantes.

· Créer des regroupements pour les variables ayant trop de modalités.

Par exemple pour la variable âge, nous allons créer une variable qui va regrouper les

différents âges par tranche. Ce regroupement rend plus facile le traitement de la variable par

les logiciels de modélisation qui acceptent un nombre limité de modalités.

Page 33: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 33

2.1. Ecrêtement des sinistres

Dans le cadre de la tarification, une hypothèse classique est celle selon laquelle le portefeuille est constitué de risques similaires. Un problème pour que cette hypothèse soit vérifiée est le poids important des sinistres « graves ». Afin de résoudre ce problème, les sinistres observés sont souvent écrêtés et mutualisés afin de permettre un meilleur pouvoir prédictif du modèle. Nous allons donc réaliser un écrêtement pour chaque garantie (Bris de glace, dégâts des eaux, vol, incendie, dommage électrique, responsabilité civile, climatique et catastrophe naturelles). Pour cela, l’objectif est de trouver un seuil d’écrêtement au-delà duquel les sinistres sont considérés comme graves pour chaque garantie. Pour rappel, un sinistre grave correspond à un sinistre de fréquence faible mais également à un risque de sévérité importante (supérieur au 95ème quantile de la distribution de la charge). Afin de déterminer un seuil d’écrêtement, nous étudions les quantiles de distribution de la charge de chaque garantie. Pour chaque risque, nous observons les quantiles extrêmes de la distribution du coût. Nous essayons de détecter un saut dans la distribution de charge. Le saut de la distribution va correspondre généralement au seuil d’écrêtement. La charge de sinistre correspondant à la sur-crête est ensuite mutualisée uniformément sur l’ensemble des contrats sinistrés pour la garantie concernée. L’idée générale est la suivante :

Charge mutualisée = Charge écrêtée × ( 1 + K2.T:.ê50 5L5J;0 KL24T:.ê50 5L5J;0 )

Figure 12 - Exemple pour déterminer un seuil d’écrêtement pour la garantie Dégâts des eaux appartement.

-

20 000

40 000

60 000

80 000

100 000

120 000

140 000

Q90 Q91 Q92 Q93 Q94 Q95 Q96 Q97 Q97,5 Q98 Q98,5 Q99 Q99,5 Q99,6 Q99,7 Q99,8 Q99,9 Q100

Quantiles extrèmes charge DDE Appartement

DDE - Appartement - 2009

DDE - Appartement - 2010

DDE - Appartement - 2011

DDE - Appartement - 2012

Ecrêtement proposé pour le dégât des eaux des appartements: 10 000 €soit le 99,7ème quantile

Page 34: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 34

2.2. Vieillissement des sinistres

Le coût d’un sinistre n’est pas fixe. Lorsqu’un sinistre survient, une évaluation forfaitaire est affectée

au sinistre en fonction de sa nature lors de l’ouverture du dossier dans un premier temps.

L’évaluation du sinistre sera ensuite revue à la baisse ou à la hausse après passage d’un expert.

Il s’agit d’une charge dite dossier/dossier. Ainsi, le montant de la charge peut évoluer au cours du

temps. Il est donc indispensable de considérer les variations potentielles de la charge.

Dans cette optique, nous allons procéder à un vieillissement des sinistres. Cela consiste à estimer les

évolutions du coût des sinistres au cours du temps.

Lors de la constitution de la base, chaque sinistre est vu avec un an de vieillissement, ce qui signifie

que nous allons choisir une date de vison du sinistre un an après sa survenance afin d’avoir une

charge de sinistre la plus proche possible de la vision finale. Par exemple, un sinistre observé au

cours de l’année 2014 aura une charge d’étude égale à celle qui a été constatée en 2015.

Pour obtenir la charge finale des sinistres, nous allons utiliser la méthode de Chain Ladder.

Méthode Chain Ladder

La méthode de Chain Ladder va nous permettre de constituer des triangles de recouvrements afin

d’estimer la charge finale des sinistres.

Le triangle de recouvrement présente l’évolution de la charge d’une année comptable à une autre

pour chaque année de survenance.

Présentation de la méthode Chain Ladder

Chain Ladder est la méthode de provisionnement la plus répandue sur le marché de l’assurance non

vie en raison de sa simplicité de compréhension et de mise en œuvre. Elle s’applique à des triangles

de paiements cumulés ou des triangles de charge, des triangles de provision et des triangles de

charge dossier / dossier.

Cette méthode permet de projeter des valeurs observées jusqu’à extinction de tous mouvements des

sinistres, c’est-à-dire jusqu’à l’ultime.

Notations :

· i : année de survenance des sinistres ; · j : année de développement c’est-à-dire la j-ième année après la survenance ; · UV,X : les charges de sinistres observés, en valeur incrémentale pour l’année de rattachement

i et le k-ième développement ; · YV,X : les paiements cumulés : !",Z = ∑ \",]]̂_`

Page 35: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 35

Figure 13 - Triangle de charges cumulées

Soit le facteur de développement individuel a",Z = :b,cdeMb,c pour i=1……n, j=1….n

Hypothèse de la méthode de Chain Ladder :

Pour j allant de 1 à n, les facteurs de développement a",Z sont indépendants de l’année de

survenance i.

Nous allons alors considérer des coefficients de passage, d’une année à l’autre, comme pour les

années de survenance, et dont l’estimation est donnée par :

af = ∑ Mb,cdeghcdebij∑ Mb,cghcdebij , k = 0, … , D

Grace à ces facteurs, nous obtenons alors la charge ultime par année de survenance :

!m,7n = !",7T" ∗ p aqr7T`Z_7T"

Page 36: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 36

III. Détermination de la Prime Pure à l’aide des

Modèles Linéaires Généralisés (GLM)

Dans cette partie, nous cherchons à modéliser les primes pures des garanties suivantes :

· Bris de glace (BDG) · Dégâts des eaux Appartement et Maison (DDEA et DDEM) · Vol (VOL) · Incendie (INC) · Responsabilité civile (RC) · Évènements climatiques (CLIM) · Catastrophes naturelles (CATNAT)

À noter que pour la modélisation du risque dégât des eaux où les risques diffèrent considérablement entre les maisons et les appartements, nous allons créer deux modèles distincts : DDEA et DDEM. Dans le cadre de ce mémoire, nous présenterons l’étude détaillée de la garantie Dégâts Des Eaux

Appartement (DDEA). L’objectif est de créer un modèle prédictif de la sinistralité future des affaires

nouvelles.

La détermination des primes pures des différentes garanties doit tenir compte des contraintes

opérationnelles liées à l’informatique et au réseau de distribution d’AXA France (Agents généraux).

Actuellement, il n’est pas possible pour l’informatique d’implémenter des modèles autres que

linéaires et notre tarif doit être compréhensible par notre réseau de distribution qui se compose

principalement d’agents généraux. C’est pourquoi l’utilisation des GLM parait indispensable pour

répondre aux deux contraintes citées précédemment. Dans la suite de l’étude, nous développerons

d’autres méthodes de modélisation des primes pures à titre de comparaison.

3.1. Les Modèles Linéaires Généralisés

3.1.1. Modèles linéaires

Pour une meilleure compréhension des modèles linéaires généralisés, nous allons rappeler les

principaux résultats du modèle linéaire gaussien.

Un modèle linéaire a pour but de pouvoir exprimer une certaine variable aléatoire Y" en fonction de

plusieurs variables explicatives : t" (avec i=1,… ,n).

Nous pouvons écrire :

Y" = uv + w βZt",Zy

Z_` + z"

Page 37: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 37

Où :

· Les t",Z sont des nombres connus, non aléatoires ; · Les paramètres β{ du modèle sont inconnus, mais non aléatoires ; · Les ε} sont des variables aléatoires qui suivent une loi normale N(0,~�).

Nous en déduisons donc que les Y" ~ N(Y" = uv + ∑ βZt",ZyZ_` ,~�) avec E(Y") = uv + ∑ βZt",ZyZ_`

Sous forme matricielle, nous avons : Y = X β + z

· Y est le vecteur de dimension n ; · X est une matrice de taille n × p connue ; · β est de dimension p de paramètres inconnus du modèle ; · z est le vecteur de dimension n des erreurs.

Les hypothèses concernant le modèle sont : - (�`): rg(X)=p

- (��) : E(z) = 0, Var(z) = ~2

L’hypothèse (��) signifie que les erreurs sont centrées, de même variance et non corrélées entre

elles.

Le modèle linéaire suppose une normalité dans la distribution des données, ce qui n’est pas le cas

des données assurantielles. Nous sommes donc amenés à utiliser les modèles linéaires généralisés

afin de prendre en considération la distribution des données.

L’intérêt du modèle linéaire généralisé est qu’il permet de s’affranchir de cette hypothèse de

normalité des observations du modèle linéaire gaussien et de l’étendre à la famille exponentielle.

Page 38: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 38

3.1.2. Modèles linéaires généralisés (GLM)

Le cadre général

Dans le cadre des modèles linéaires généralisés, la distribution des Y" n’est pas nécessairement

normale mais doit être dans la famille exponentielle.

Une distribution appartient à la famille de dispersion exponentielle si sa fonction de densité peut

être écrite sous la forme :

a�(S|�, �) = exp �S� − �(�)� + G(S, �)�

Où :

· � est le paramètre réel appelé paramètre naturel

· � est le paramètre de dispersion strictement positif

· �, G sont des fonctions spécifiques à la famille exponentielle

Pour une variable aléatoire Y dont la densité est de la forme exponentielle, alors : E(Y) = b’ (�) et Var(Y) = b’’ ( �) �

La variance de Y apparait comme le produit de deux fonctions :

- la première, b’’(�), qui dépend uniquement du paramètre � est appelé fonction variance - la seconde est indépendante de � et dépend uniquement de

En notant � = E(Y), nous remarquons que le paramètre � est lié à la moyenne �. La fonction variance peut donc être définie en fonction de � , notons alors V(�). Notons que la fonction variance caractérise complètement la loi de la famille exponentielle.

Chacune des lois de la famille exponentielle possède une fonction de lien spécifique, dite fonction de

lien canonique, permettant de relier l'espérance � au paramètre naturel � . Définition

Un GLM suppose une relation plus générale entre les variables explicatives X et la variable réponse Y.

Nous introduisons une fonction lien g qui est monotone.

Un GLM peut s’écrire sous la forme générale :

� = E(Y) = �T`(X′u)

Page 39: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 39

Les modèles linéaires généralisés possèdent trois caractéristiques :

1. Il y a une composante stochastique, qui précise que les observations sont des variables aléatoires

indépendantes, Y" i = 1, . . . , n avec une densité appartenant à la famille de dispersion exponentielle.

2. La composante systématique du modèle attribue à chaque observation un prédicteur linéaire

�" = uv + ∑ t",ZyZ_` βZ 3. Le troisième composant d’un GLM connecte les deux premiers éléments. L’espérance �" de Y" est

liée au prédicteur linéaire �" par une fonction de lien

�" = g(�") = uv + ∑ t",ZyZ_` βZ avec E(Y")= �"

La valeur de η est différente de celle de µ (à l’exception du cas ou la fonction de lien est l’identité).

Estimation des coefficients β

Pour estimer les paramètres du GLM, nous allons utiliser le maximum de vraisemblance. Nous

pourrons ainsi obtenir les estimateurs de régression βv, β`, …,βy et le paramètre de dispersion �

par maximisation de la log-vraisemblance.

Pour des variables aléatoires indépendantes Y" avec i=1….n, la densité de probabilité s’écrit :

a�(S"|�", �) = exp � S"�" − �(�")��"+ G(S" , �)�

La densité de probabilité s’écrit alors :

a�(S|�, �) = p a�(S"|�", �)7"_`

= ∑ exp ( ∑ �b�b T ∑ �(�b)gbiegbie ��b7"_` + ∑ G(S" ,7"_` �))

La log-vraisemblance s’écrit :

L(�(β)│y, �) = ∑ ln a(7"_` S"│�", �) = ∑ Nb�b T ∑ �(�b)gbiegbie ��b + ∑ G(7"_` S" , �)

Page 40: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 40

Pour maximiser la log-vraisemblance, la dérivée doit être annulée :

¶ *(�(u)│S, �)¶ uZ = 0

Or,

¶ *(�(u)│S, �)¶ uZ = w ¶ IDa(S"│�", �)

¶ uZ7

"_`

= w EduZ7

"_` (S"�" − �(�")��"+ G(S" , �))

Nous obtenons finalement :

w �"7

"_` (S" − �") t"Z�¡¡(�")�′(�") = 0

Ces équations ne sont pas linéaires en β. Pour pouvoir les résoudre, nous utilisons en pratique la

méthode itérative de Newton-Raphson.

Principe de méthode de Newton-Raphson :

· Définir une suite (u)i convergente vers la solution ;

· Calcul de la log-vraisemblance ∇*(�(u"), S) ;

· Calcul de la Hessienne �(u") de la log-vraisemblance ;

· Procéder à une récurrence en utilisant la formule au rang i+1 suivante :

β("£`) = β(") - ∇¤(�(¥b)│N,¦)§(¥b)

· Arrêter lorsque la suite tend vers la solution, autrement dit que les valeurs de } n’évoluent plus de manière significative.

Interprétation des ¨

Le u0 représente l’intercept, il s’agit de la classe de référence. Cette classe représente le

regroupement de l’ensemble des variables explicatives de référence.

Les β{ s’interprètent de manière suivante :

· β{ > 0 indique une sinistralité plus importante pour un individu présentant la modalité \Z

· β{ < 0, signifie que l’individu présente un profil moins risqué que celui de la classe de référence

Page 41: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 41

3.1.3. Choix de la loi de la distribution et de la fonction lien

Les modèles GLM sont des modèles paramétriques, où nous supposons en amont une distribution.

Ainsi, nous allons supposer a priori la forme du modèle, c’est-à-dire la structure et la distribution des

données qu'il est censé modéliser.

La densité de la loi choisie au sein de la famille exponentielle doit décrire au mieux la structure des

données. En ce sens, nous choisirons dans la majorité des cas une distribution Gamma pour les

modèles représentant le coût des sinistres et une régression de Poisson pour ceux représentant la

fréquence des sinistres.

Pour une modélisation en prime pure ou coût total, nous devons tenir compte de la structure

particulière des données : dans la plupart des cas, il n’y pas d’indemnisation des sinistres. Dans ces

situations, les distributions gamma ou poisson ne sont pas adaptées.

Nous pourrons alors utiliser le modèle Tweedie qui tient compte du caractère particulier des

données où il y a des contrats avec une charge nulle (contrats qui ne sont pas sinistrés).

Définition du modèle Tweedie

Y ~ CPoi (µ�Tª � (2 - & ), Gamma( - �T ª¦(`T ª), �(2 − &) µªT`))

Avec 1 < & < 2.

Une propriété particulière de la loi de Tweedie est :

V(µ)=��ª

Nous obtenons bien un modèle de Poisson quand & tend vers 1 et un modèle Gamma quand & tend

vers 2.

Un autre choix important qui se propose à nous est celui de la fonction lien.

Un critère important dans le choix de la fonction de lien est de s’assurer que les valeurs ajustées

restent dans des limites raisonnables.

Lors de la construction d’un tarif, la fonction lien qui est la plus couramment utilisée dans un GLM est

la fonction logarithme. Un des principaux avantages de cette fonction est qu’elle permet de faire des

modèles multiplicatifs, ce qui est beaucoup plus adapté pour faire de la tarification.

Pour un GLM avec une fonction lien logarithme, nous avons :

'(¬") = exp(uv) × p exp (u"\")y"_`

Page 42: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 42

3.1.4. Mesures de performance

Pour mesurer la performance d’un modèle GLM, nous allons nous intéresser à plusieurs indicateurs.

· Deviance

La deviance permet de quantifier la qualité de régression. Nous définissons la qualité en comparant

le modèle estimé au modèle dit saturé ou parfait.

Le calcul de la deviance se fait par l’intermédiaire de la log-vraisemblance.

La déviance normalisée est définie par :

D = 2 × ( L(β, ­) − ®(¨¯°±, ­))

Où :

- L(β, �) représente la log-vraisemblance de notre modèle ; - L(β/J³, �) représente la log-vraisemblance maximisée.

Le modèle décrira bien les données lorsque la vraisemblance du modèle estimé est proche du

modèle saturé

· AIC (Akaike Information Criterion)

AIC est un indicateur qui permet de mesurer la qualité d'un modèle. Il est également utilisé pour

comparer deux modèles entre eux. Nous retiendrons le modèle avec le critère d’information Akaike

le plus faible.

´µY = −¶·· + ¶¸

Où :

- LL représente la log-vraisemblance de notre modèle ; - p est le nombre de paramètre à estimer.

· BIC (Bayesian Information Criterion) BIC est analogue au critère AIC. À la différence du critère d'information d'Akaike, la pénalité dépend

de la taille de l'échantillon et pas uniquement du nombre de paramètres.

Nous retiendrons le modèle pour lequel ces critères ont la valeur la plus faible.

¹µY = −¶·· + º»¼(½)¸

Où :

- LL représente la log-vraisemblance de notre modèle ; - p est le nombre de paramètre à estimer ; - n est le nombre d’observations.

Page 43: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 43

· Indice de Gini L'indice de Gini est un indicateur de performance du modèle. Il fournit une mesure de la qualité de la

segmentation du modèle. Il est calculé à partir de la fonction représentée par la courbe de Lorenz.

La courbe de Lorenz a été développée en économétrie, elle permet de mesurer les inégalités de

richesse au sein d’une population. Elle peut être transposée à une donnée de répartition statistique

quelconque.

Dans notre étude, la courbe de gain représente en abscisses la part cumulée des contrats et en

ordonnées la part de charge observée cumulées.

Figure 14 - Illustration pour le calcul de l’indice de gini

La courbe bleue correspond au modèle aléatoire, la courbe rouge au modèle obtenu et la courbe

violette au modèle idéal.

La première bissectrice (courbe bleue) représente un cas d’égalité parfait où nous avons une mutualisation égale de la charge sur l’ensemble des assurés. Soit A l’aire entre la courbe de Lorenz et la bissectrice et B l’aire au-dessus de la courbe de Lorenz. L’indice de Gini est défini de la manière suivante :

G = ´´£¹

Or A + B = 0,5, nous avons donc G=2A ou bien G= 1 – 2B

Nous pouvons représenter la courbe de Lorenz par la fonction y=L(x), ce qui nous permet d’exprimer

l’aire de B grâce à une intégrale :

B = 1 - ∫ *(t) Etv̀

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Ris

qu

e

Part cumulée des assurés

A

B

Page 44: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 44

Nous avons alors l’indice de Gini suivant :

G = 2∫ *(t) Etv̀ – 1

Dans le graphique précédent, le modèle parfait ou saturé est représenté par la courbe en violet.

Néanmoins, il peut être défini par une seconde courbe plus proche de la courbe violette.

Nous allons ainsi normaliser l'indice de Gini standard par l'indice Gini de la distribution parfaite.

Figure 15 - Illustration pour le calcul de l’indice de gini en considérant un modèle saturé

Soit :

· A : aire entre la courbe du modèle obtenu et la bissectrice ;

· B : aire entre la courbe du modèle parfait et la courbe du modèle actuel ;

· C : aire entre la courbe du modèle parfait et la partie supérieure du graphique.

Le Gini standard pour le modèle parfait s’écrit :

¿À = ´£¹´£¹£Y

Et pour le modèle obtenu :

¿µ = ´´£¹£Y

Ainsi, en normalisant le calcul de l'indice Gini, nous considérons le ratio :

Á̃ = ÁÃÁµ

Donc G = ´´£¹

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Ris

qu

e

Part cumulée des assurés

AB

C

Page 45: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 45

· Les résidus

Pour mesurer les performances d'un modèle, nous nous intéressons souvent aux résidus. Cela

revient à considérer une fonction de risque ,(. , . ) qui mesure la distance entre ¬ et sa prédiction ¬Å .

La norme *` est souvent utilisée et correspond à l'erreur quadratique ,(¬, ¬Å ) = |¬ − ¬Å| ou la norme *� correspondant à l'erreur absolue ,(¬, ¬Å ) = [¬ − ¬Å]².

Il existe différents types de résidus :

§ Les résidus de Pearson :

Notons les résidus observés <" = S" − SÆ"

En normalisant ces résidus, on obtient les résidus de Pearson :

<"-0J.4L7 = S" − SÆ"ÇÈP<(SÆ")

§ Les résidus de deviance : La déviance est une mesure de la qualité de l’ajustement fourni par le modèle. Si nous considérons que chaque observation S" contribue à hauteur d’une quantité E" à la déviance c’est-à-dire É = ∑ E"7"_` Nous obtenons les résidus de deviance : E"Ê = O>�D@(S" − SÆ") ÇE"

Page 46: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 46

3.2. Les variables explicatives

La base de données utilisée dans le cadre de notre étude contient plusieurs années d’exercices.

Elle contient 2 millions de lignes et 154 variables. Dans cette partie, nous allons présenter les

variables principales contenues dans la base de modélisation décrite précédemment. L’objectif est de

donner une vue globale de l’ensemble des variables explicatives testées.

3.2.1. Les variables habitation

Ce sont des variables caractérisant l’habitation du client :

· Le type d’habitation

Nous avons trois types d’habitations : appartement, maison et rez-de-chaussée. Cette variable a une importance significative dans la tarification de la majorité des garanties. Dans certaines modélisations où les risques diffèrent considérablement entre les maisons et les appartements, nous allons créer deux modélisations distinctes. Par exemple, pour le risque dégâts des eaux, nous allons avoir une modélisation dégâts des eaux appartement (DDEA) et une modélisation dégâts des eaux maison (DDEM).

· Nombre de pièces Il s’agit d’une variable présente dans la plupart des modèles. Elle permet également de renseigner les assureurs sur la surface d’habitation.

· Ancienneté du logement

Cette variable donne l’information sur l’ancienneté de l’habitation. Elle est discriminante pour la plupart des garanties parce que selon l’année de construction, elle permet de donner des renseignements sur la qualité de l’habitation.

· Présence d’un insert

L'insert est un type de cheminée qui peut fortement impacter la tarification de certaines garanties comme l’incendie.

· Surface des dépendances

Il s’agit des bâtiments non habitables qui peuvent communiquer ou non avec les pièces de l’habitation principale. Nous allons alors regarder si les dépendances influencent ou non la tarification des différentes garanties.

Page 47: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 47

3.2.2. Les variables clients Les informations clients permettent de décrire la situation personnelle et professionnelle du client.

Ces renseignements ne sont pas demandés dans le formulaire de souscription, AXA les récupère par

le biais des fiches de renseignement.

Actuellement, les variables clients ne sont pas tarifaires, l’objectif est de pouvoir tester leur

pertinence dans les modèles de prédiction pour chaque risque.

· Âge du client

La variable âge présente un nombre de modalités élevé. Par conséquent, nous allons procéder à un

retraitement de la variable en regroupant plusieurs modalités entre elles.

L’âge est discriminant pour de nombreuses garanties.

· Statut marital Cette variable nous renseigne sur la situation familiale de l’assuré. Nous avons les modalités

suivantes : célibataire, divorcé/veuf, marié/concubin et non renseigné. Le statut de l’assuré peut

avoir un impact sur certaines garanties comme le vol. Nous remarquons ainsi que les assurés

habitant seuls ont une plus forte probabilité de se faire cambrioler.

· Ancienneté du client

Cette variable donne l’information sur l’ancienneté du client. Elle peut être tarifaire pour certaines

garanties. Compte tenu du nombre de modalités important, nous allons réaliser un regroupement en

tranches d’âge. L’ancienneté peut avoir un impact sur la sinistralité pour certaines garanties.

· La catégorie socioprofessionnelle

Cette variable répertorie les différentes classes de professions. Nous retrouvons une dizaine de

modalités contenant notamment les retraités, les cadres, les étudiants ou bien les agriculteurs.

· Nombre d’enfants

Il s’agit d’une variable qui référence le nombre d’enfants de l’assuré. Les modalités sont :

l’information est indisponible, l’assuré a au moins un enfant ou l’assuré n’a pas d’enfant.

Généralement, nous prenons en considération cette variable pour la garantie Responsabilité Civile

(RC).

En effet, la garantie RC peut être mise en jeu pour un assuré lorsqu’un de ses enfants cause un

dommage à une tierce personne.

· Nombre de contrats

Cette variable répertorie le nombre de contrats souscrit chez AXA France par un assuré.

Ainsi, nous savons le nombre de contrats habitation, auto, épargne, prévoyance et santé.

Page 48: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 48

3.2.3. Les variables caractéristiques du contrat d’assurance Ce sont des variables relatives à la police d’assurance. Elles sont obtenues au cours de la

souscription. Elles renseignent sur la situation géographique mais également sur les caractéristiques

du contrat.

· La région

Il s’agit d’une variable géographique, elle permet d’attribuer une région pour chaque assuré.

AXA France divise la France en cinq régions (l’Ile de France, le Nord-Ouest, l’Ouest, le Sud Est et le

Sud-Ouest). Nous pouvons ainsi capter le signal géographique.

· Options

Cette variable renseigne sur les options souscrites. Les options sont des extensions de garanties qui

permettent une protection supplémentaire pour des risques spécifiques : détention d’un jardin,

d’une véranda, d’une piscine ou de panneaux solaires par exemple. Pour chaque garantie, nous

allons regarder si ces options ont un impact sur la sinistralité.

· Franchise Dans un contrat d’assurance habitation, l’assuré a la possibilité de racheter sa franchise.

Cela signifie, qu’en cas de survenance de sinistre, l’assuré n’a pas à payer une franchise.

Il parait logiquement que la présence ou non d’une franchise ait un impact sur la sinistralité. Cette

variable permet de savoir quelle garantie est la plus impactée par cette option et mesurer techniquement le cout réel d’une telle option.

· Les coordonnées géographiques Elles représentent la transformation des adresses en cordonnées GPS. Ces variables ne sont pas

utiles pour la modélisation mais elles permettent de joindre la base de données aux zoniers de

chaque risque.

3.4.1. Les variables automobiles Ce sont des variables permettant de donner des indications supplémentaires pour les assurés ayant souscrit à un contrat automobile en plus d’un contrat MRH. Les principales variables sont :

· Type du véhicule ;

· Segment des prix du véhicule ;

· Bonus/malus du conducteur ;

· Zone de risque du véhicule.

Page 49: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 49

3.4.2. Les variables externes

Ce sont des variables externes à AXA France qui permettant d’apporter une information

supplémentaire sur l’environnement géographique de l’habitation.

Les principales variables testées sont :

· Densité de population ;

· Nombre de personnes par tranche d’âge ;

· Nombre d’enfants moyen par ménage ;

· Proportion des différentes catégories socioprofessionnelles ;

· Part des résidences principales et secondaires.

Page 50: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 50

3.3. Modélisation de la garantie Dégâts des Eaux Appartements

Afin de ne pas surcharger notre étude, nous allons uniquement présenter en détail la modélisation

de la garantie dégâts des eaux appartement (DDEA). Pour rappel, la même étude a été réalisée pour

l’ensemble des autres garanties : DDEM, INC, VOL, RC, CLIM et BDG.

A noter que le calcul de la prime pour la garantie CATNAT est fixé par la règlementation.

Les assureurs doivent la calculer en fonction de la prime dommage : la prime CATNAT est égale à

12 % de la prime dommage qui est composée des primes DDE, INC, VOL, CLIM et BDG

La prédiction du risque DDEA se fait par l’intermédiaire des modèles linéaires généralisés. Nous utiliserons la base de données et l’ensemble des variables potentiellement explicatives que nous avons décrites dans les parties précédentes. Pour la garantie DDEA, nous allons opter pour une modélisation en Prime Pure. Cela suppose en

pratique de choisir en amont une distribution Tweedie pour décrire la distribution des données et

une fonction de lien logarithme. Il est donc essentiel de s’intéresser aux variables décrivant la

sinistralité comme le nombre de sinistre, le coût des sinistres et l’exposition.

Le choix du modèle Prime Pure s’explique par une fréquence assez faible pour la garantie DDEA.

En effet, comme nous l’avons remarqué dans l’introduction (cf. page 27), la fréquence DDEA est de

l’ordre de 2 % pour les Propriétaires Non Occupants alors qu’elle est de 7 % pour les Propriétaires

Occupants.

Il n’est donc pas nécessaire de procéder à une modélisation fréquence et coût moyen séparée.

Avant de commencer la modélisation, une première étape consiste à scinder la base de données en

deux échantillons :

· Une base d’apprentissage : Nous choisissons aléatoirement 80 % de la base de données d’origine.

· Une base test : Nous choisissons aléatoirement 20 % de la base de données d’origine.

Nous allons calibrer notre modélisation sur la base d’apprentissage. Une fois les paramètres de notre

modèle fixé, nous allons les appliquer à l’échantillon test afin de s’assurer de la robustesse du

modèle en contrôlant que les tendances observées sur la base d’apprentissage ressortent bien sur la

base test.

Nous utiliserons l’outil Emblem pour la tarification qui permet de traiter rapidement un gros volume

de données.

Page 51: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 51

3.3.1. Analyse des variables explicatives

Avant de commencer la modélisation, il est intéressant de réaliser une étude préliminaire sur les

variables explicatives. L’objectif est de pouvoir détecter à priori les variables tarifaires.

Pour cela, nous allons analyser les différentes tendances des variables en fonction de la prime pure

observée.

Cette analyse permet également de s’intéresser aux différentes modalités de chacune des variables.

En effet, pour permettre une meilleure estimation des modalités, il est primordial de s’assurer que

chacune d’entre elles est représentée de manière suffisante et que la part des modalités

manquantes n’est pas trop importante.

Dans le cas où la représentation est insuffisante, nous regroupons les modalités avec une faible

exposition afin d’obtenir une estimation robuste.

Nous proposons un descriptif des variables qui permettent a priori d’expliquer la prime pure pour la

garantie DDEA.

Nombre de pièces

Figure 16 - Prime Pure observée en fonction du nombre de pièces

Nous observons une prime pure croissante avec le nombre de pièces. A noter que l’exposition

devient insuffisante à partir de 8 pièces. Nous allons regrouper les modalités supérieures à 8 au sein d’une même classe : « 8 et plus ».

0

10

20

30

40

50

60

70

80

0

20

40

60

80

100

120

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Exp

osi

tio

n

Pri

me

Pu

re

Nombre de pièces

Page 52: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 52

Ancienneté du logement

Figure 17 - Prime Pure observée en fonction de l’ancienneté du logement

Nous observons une prime pure croissante avec l’ancienneté du logement. En effet, plus le logement

est ancien, plus la prime pure sera élevée. Il existe une modalité « Non renseigné » mais son exposition reste assez faible.

Franchise

Figure 18 - Prime Pure observée en fonction de la présence ou non de la franchise

0

20

40

60

80

100

120

140

160

180

0

5

10

15

20

25

30

5-10ans < 5ans > 10ans NR

Exp

osi

tio

n

Pri

me

Pu

re

Anciennété du logement

0

20

40

60

80

100

120

140

160

23,5

24,5

25,5

26,5

27,5

28,5

Franchise rachetée Franchise normale

Exp

osi

tio

n

Pri

me

Pu

re

Franchise

Page 53: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 53

La présence d’une franchise impacte fortement la prime pure. Lorsque l’option débrayage de la franchise est souscrite, nous constatons une prime pure plus élevée. Les assurés avec l’option franchise débrayée ont tendance à avoir beaucoup plus de sinistres que ceux qui n’ont pas souscrit à cette option.

Présence d’enfants

Figure 19 - Prime Pure observée en fonction du nombre d’enfants

La présence d’au moins un enfant augmente la prime pure. Les enfants peuvent donc impacter la

sinistralité pour la garantie dégât des eaux.

0

20

40

60

80

100

120

23,5

24

24,5

25

25,5

26

26,5

27

Sans Enfant Avec au moins un enfant

Exp

osi

tio

n

Pri

me

Pu

re

Présence d'enfants

Page 54: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 54

Zonier Dégât des Eaux

Figure 20 - Prime Pure observée en fonction de la zone dégât des eaux

Nous observons une prime pure croissante en fonction de la zone géographique.

Nous notons qu’une zone élevée est synonyme d’une plus forte sinistralité.

0

2

4

6

8

10

12

5

10

15

20

25

30

35

40

45

50

55

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Exp

osi

tio

n

Pri

me

Pu

re

Zone dégats des eaux appartement

Page 55: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 55

3.3.2. Analyse des corrélations

Pour capter les liaisons entre les différentes variables, une analyse des corrélations est faite en amont avant de réaliser le modèle de prédiction. Il est possible d’avoir une source d’instabilité à cause des variables trop corrélées entre elles.

La présence de corrélation conduit à des situations de double comptage et à l’impossibilité

d’expliquer les effets d’une variable sur une autre. Afin de prendre en compte cette contrainte, nous allons sélectionner une des deux variables corrélées afin d’éviter une multicolinéarité. En effet, lorsque nous sommes en présence de corrélation entre deux variables, la sélection d’une des deux permet de capturer l’effet de l’autre

variable.

Pour l’analyse des corrélations, nous allons utiliser le V de cramer. Il permet de mettre en évidence

les corrélations entre les variables qualitatives et quantitatives. Le coefficient de corrélation est

compris entre -1 et 1 et nous considérons que si la valeur est supérieure à 0.8, l’information

contenue par les deux variables est pratiquement identique. Dans le cadre de notre étude, nous

allons fixer un seuil à partir duquel nous considérons que les variables sont trop corrélées entre elles.

Corrélation entre les différentes variables

A titre d’exemple, nous observons des corrélations entre les variables suivantes :

· Âge et sexe

· Âge et statut marital

· Nombre d’enfants et statut marital · La catégorie socioprofessionnelle et l’âge :

En pratique, si nous observons une tendance de la prime pure observée à l’inverse de la prime

prédite, nous sommes en présence d’une corrélation.

Figure 21 - Table de corrélation entre les différentes variables

Page 56: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 56

3.3.3. Sélection de variables

Après avoir collecté un maximum de données dans le cadre de notre étude, le but de la modélisation

est de choisir le plus petit nombre de variables pour expliquer au mieux la variable que nous

cherchons à prédire.

Pour sélectionner les variables, nous allons procéder en deux étapes :

Ø Etape 1 : Utilisation des algorithmes de sélection des variables.

Compte tenu du nombre de variables important, nous utiliserons des méthodes pour le choix des

variables explicatives. Il existe trois principales méthodes pour tester la significativité des variables :

· Méthode Forward (ascendante)

C’est un modèle de régression progressive. Pour l’ensemble des variables potentiellement

explicatives, nous procédons de la manière suivante :

construction d’un premier modèle qui ne contient que l’intercept, puis à chaque itération, la variable

qui améliore le plus le critère AIC est intégré au modèle.

· Méthode Backward (descendante)

Le principe est en quelque sorte le procédé inverse de la Forward.

Cette méthode commence avec l’ensemble des variables initiales du modèle, puis elle élimine une à

une les variables les moins significatives.

· Méthde Stepwise

Cette méthode est une combinaison des deux premières. En effet, elle effectue une sélection

Forward tout en laissant la possibilité de faire sortir du modèle à chaque étape de la régression l’une

des variables retenues auparavant par le modèle non significatif. Il faut définir pour une telle

méthode un critère d’entrée et un critère de sortie. Cette méthode est la plus complète mais

nécessite un grand nombre de calculs pour un gain très faible par rapport à aux deux précédentes

méthodes. Dans la suite, nous utiliserons la méthode Forward.

Les variables retenues à l’aide de la méthode Forward sont :

Page 57: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 57

Nous observons sur le graphique suivant, le pourcentage de diminution de l’AIC.

Figure 22 - Pourcentage de de diminution de l’AIC à chaque ajout de variable explicative

L’utilisation d’algorithmes permet d’obtenir une liste exhaustive des variables explicatives parmi la

multitude des variables présentes dans la base de modélisation, cependant il est essentiel de vérifier

la pertinence de ces variables sélectionnées et de tester d’autres variables qui nous semblent a priori

significatives.

Ø Etape 2 : Analyse des variables sélectionnées et ajout de variables non prises en compte.

Nous allons analyser l’ensemble des variables sélectionnées par les différents algorithmes et tenter

de détecter en plus les variables potentiellement oubliées.

C’est également l’occasion de tester les variables considérées comme tarifaires d’un point de vue

opérationnel.

Nous avons notre premier choix de variables. L’objectif à cette étape est d’en ajouter ou d’en

supprimer en fonction de leur significativité en procédant à une série de tests.

Nous proposons de décrire l’ensemble des tests réalisés.

· Comparaison des tendances

Nous comparons la prime pure prédite par rapport à la prime pure observée pour chaque variable. Le but étant de s’assurer pour chaque variable sélectionnée dans le modèle que la prime pure prédite converge bien vers la prime pure observée.

-4,50%

-4,00%

-3,50%

-3,00%

-2,50%

-2,00%

-1,50%

-1,00%

-0,50%

0,00%

Variables ajoutées

Page 58: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 58

Exemple de la variable « ancienneté logement »

Figure 23 - Exemple de la variable ancienneté logement pour la comparaison entre la prime pure prédite et observée

A travers cet exemple, nous observons bien une prime observée proche de la prime prédite pour la variable « Ancienneté logement ». Nous contrôlons également que l’effet capté par cette variable est bien cohérent avec la réalité, c’est-à-dire l’estimation apportée par le modèle est bien vérifiée d’un point de vue opérationnel. Pour la variable « ancienneté logement », nous vérifions bien que la prédiction est cohérente avec la réalité c’est-à-dire plus le logement est ancien, plus la prime pure est élevée.

· Analyse des intervalles de confiance

Nous analysons ensuite les intervalles de confiance autour des estimateurs de chaque modalité d’une variable. Ce test consiste à utiliser les intervalles de confiance afin d’analyser la différence entre la prime pure prédite et la prime pure observée. Nous allons donc définir un seuil d’acception

de l’erreur de prédiction. Cela revient à vérifier en pratique que l’erreur da prédiction de la prime pure sur chaque modalité d’une variable n’est pas trop grande. Par conséquence, on définit un intervalle de confiance de 95 %

0

20

40

60

80

100

120

140

160

180

0

5

10

15

20

25

30

5-10ans < 5ans > 10ans NR

Exp

osi

tio

n

Pri

me

Pu

re

Ancienneté logement

Page 59: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 59

Exemple de la variable « ancienneté logement »

Figure 24 - Exemple de la variable ancienneté logement pour l’analyse des intervalles de confiance

· Analyse de la stabilité dans le temps

Il s’agit de tester la stabilité dans le temps des variables sélectionnées. Pour chaque variable sélectionnée dans le modèle, nous allons vérifier que nous obtenons les mêmes niveaux de prédiction sur chaque année. Nous cherchons à observer la consistance de la prédiction dans le temps.

0

20

40

60

80

100

120

140

160

180

0

10

20

30

40

50

60

5-10ans < 5ans > 10ans NR

Exp

osi

tio

n

Pri

me

Pu

re

Ancienneté du logement

Page 60: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 60

Exemple de la variable « ancienneté logement »

Figure 25 - Exemple de la variable ancienneté logement pour l’analyse de la stabilité dans le temps

Nous observons bien une consistance dans le temps pour la variable « Ancienneté logement ». En effet, pour chaque année, les niveaux de prédiction sont similaires. De plus, pour l’ensemble des

années, nous observons bien des primes observées proches des primes prédites.

· Analyse des indicateurs de régression L’objectif de cette étape est de s’assurer que pour chaque ajout ou suppression d’une variable de notre modèle, nous obtenons les meilleures performances possibles en termes de deviance, AIC, BIC et indice de Gini. En pratique, cela consiste à obtenir la déviance, l’AIC, le BIC les plus petits possibles et un indice de Gini le plus grand possible.

Ces différents tests permettent de confirmer ou non la sélection de variables réalisée lors de l’étape

1 de la sélection des variables. Cette étape nous permet de tester de nouvelles variables que nous pensons être significatives. Nous ajoutons la variable année dans le modèle afin de décorréler les effets du temps des effets propres à chaque variable. Nous cherchons à capturer la sinistralité atypique des années pour qu’elles n’influencent pas les effets des autres variables.

0

20

40

60

80

100

120

140

160

180

-10

0

10

20

30

40

50

60

5-10ans < 5ans > 10ans NR

Exp

osi

tio

n

Pri

me

Pu

re

Ancienneté du logement

annee (2009) (Obs)

annee (2009) (Avg)

annee (2010) (Obs)

annee (2010) (Avg)

annee (2011) (Obs)

annee (2011) (Avg)

annee (2012) (Obs)

annee (2012) (Avg)

annee (2013) (Obs)

annee (2013) (Avg)

expostion

Page 61: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 61

3.3.4. Identification des interactions

A ce stade, nous avons intégré l’ensemble des facteurs significatifs à notre modèle de prédication. La totalité des critères énoncés précédemment nous a permis d’exclure les variables non significatives de notre modélisation. La qualité de notre modèle peut être améliorée en intégrant des interactions potentielles. L’objectif maintenant est de pouvoir identifier les interactions potentielles entre les différentes variables explicatives. A l’inverse des corrélations, les interactions s’observent pendant la modélisation. Une interaction

entre deux facteurs simples existe lorsque le profil de risque d’un facteur varie de manière marginale

entre les différents niveaux de l’autre facteur. L’interaction permet de différencier des populations

aux comportements différents vis-à-vis d’une autre variable.

L’identification des interactions s’effectue de la manière suivante :

Ø Etape 1

Nous listons les variables explicatives susceptibles d’interagir entre elles.

La détermination de ces variables se fait grâce à l’avis d’un expert. La connaissance du portefeuille

permet de les identifier. Pour l’étude DDEA, nous allons tester les interactions entre l’ensemble des variables sélectionnées

dans la partie précédente.

Ø Etape 2

Nous ajoutons une à une ces interactions dans le modèle.

Ø Etape 3 :

Pour chaque ajout d’interaction, nous analysons leur impact sur la modélisation. Pour garder une

interaction dans le modèle, il faut avoir une amélioration des indicateurs de Gini, AIC, BIC et

déviance.

Nous réalisons ainsi les différents tests décrits précédemment :

· Comparaison des tendances ; · Analyse des intervalles de confiance ; · Analyse de la stabilité dans le temps ; · Analyse des indicateurs de régression.

Dans le cadre de notre étude, les interactions testées n’améliorent pas le modèle.

Page 62: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 62

3.3.5. Simplification du modèle

Maintenant que notre modèle final est constitué, l’étape suivante est de simplifier le nombre de

paramètres à estimer. La réduction de ces paramètres va conduire à une amélioration de notre modèle en termes de AIC,

BIC, déviance et l’indice de Gini.

Pour rappel, nous avons un estimateur pour chaque modalité de chaque variable. Dans cette partie,

nous essayerons de voir si une simplification est possible.

La simplification peut être réalisée en trois étapes :

Ø Etape 1

Nous regroupons les modalités qui possèdent des estimateurs proches. Ainsi nous nous retrouvons avec un seul paramètre à estimer pour l’ensemble des modalités regroupées.

Ø Etape 2

Une alternative au regroupement est le lissage de l’ensemble des paramètres à estimer par un ou

plusieurs polynômes. Dans le cas où nous possédons de nombreuses modalités, le lissage par un polynôme permet de diminuer considérablement le nombre de paramètres à estimer. Nous pouvons utiliser des polynômes de degré 1 ou de degré différent sur les variables avec une belle tendance comme les capitaux et le nombre de pièces.

Ø Etape 3

Pour cette étape, il s’agit d’effectuer une combinaison des deux premières étapes.

En effet, nous pouvons regrouper des variables mais également effectuer des lissages par

l’intermédiaire de polynômes. Nous pouvons ainsi réduire considérablement le nombre

d’estimateurs et améliorer par la même occasion la qualité de notre modèle.

Page 63: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 63

3.4. Validation du modèle

A ce stade nous avons obtenu notre modèle final sur la base s’apprentissage. Il est donc essentiel de

réaliser une série de tests pour valider notre modèle.

3.4.1. Validation du modèle sur la base d’apprentissage Dans cette partie, nous allons décrire l’ensemble des tests permettant de valider notre modèle sur la

base d’apprentissage.

a) K-fold

La méthode de validation croisée des K-folds est une technique de validation de modèle. Elle est basée sur le principe d’échantillonnage. Principe du K-fold Nous allons diviser notre base de départ en k–échantillons, puis nous sélectionnons un des k échantillons comme base de validation et les (k-1) autres échantillons comme base d’apprentissage. Nous calibrons notre modèle sur les (k-1) échantillons et nous le validons sur le k-ème. L’opération est répétée K fois et ainsi chacune des K partitions servira de base de validation.

Figure 26 - Illustration des du principe du K-fold avec K=10

Page 64: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 64

Cette technique est appliquée en utilisant k=10 folds. Le graphique suivant donne les résultats obtenus pour l’indice de Gini :

Figure 27 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements pour le GLM

Nous constatons une stabilité du Gini entre les échantillons d’apprentissage et test sur chacun des folds. De plus pour chaque variable retenue dans le modèle, nous allons vérifier la stabilité des coefficients estimés pour les différents modèles calibrés sur chacun des folds.

Exemple de la variable « ancienneté logement »

Figure 28 - Stabilité des coefficients estimés par le GLM sur chacun des folds.

Nous remarquons ainsi une stabilité des coefficients estimés par chaque modèle.

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

1 2 3 4 5 6 7 8 9 10

Gin

i

Numéro de l'échantillon

échantillonapprentisage

échantillontest

0

0,2

0,4

0,6

0,8

1

1,2

5-10ans < 5ans > 10ans NR

Co

eff

icie

nts

Ancienneté logement

Modèle (1)

Modèle (2)

Modèle (3)

Modèle (4)

Modèle (5)

Modèle (6)

Modèle (7)

Modèle (8)

Modèle (9)

Modèle (10)

Page 65: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 65

b) Analyse des résidus sur la base d’apprentissage

L’étude des résidus est indispensable pour la validation de modèle. Cela permet de valider la

pertinence des choix de distributions et de fonction lien. Ainsi, lorsque nos choix sont appropriés par

rapport aux données modélisées, le nuage des résidus standardisés en fonction des valeurs ajustées

doit être centré autour de 0 et ne pas présenter de tendance.

Nous obtenons le graphique de résidus standardisés sur la base d’apprentissage :

Figure 29 - Les résidus de Pearson sur la base d’apprentissage

Nous observons bien que les résidus de Pearson sont symétriques et centrés en 0. Nous observons également les résidus par rapport au critère de déviance. Si nous les représentons graphiquement, il faut qu’ils soient centrés autour de 0, ce qui signifiera que l’erreur de la

modélisation est faible.

Figure 30 - Les résidus par rapport au critère de déviance sur la base d’apprentissage

-1,5

-1

-0,5

0

0,5

1

1,5

2

2,5

3

0 20 40 60 80 100 120 140 160

sid

us

de

Pe

arso

n

Prime pure prédite

0

0,00005

0,0001

0,00015

0,0002

0,00025

0,0003

0,00035

0,0004

0,00045

0 20 40 60 80 100 120 140 160 180 200

sid

us

par

rap

po

rt a

u c

irit

ère

de

de

vian

ce

Prime pure prédite

Page 66: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 66

La grande majorité des résultats se situe autour de 0 et nous ne détectons aucune structure aléatoire.

c) Analyse des tendances sur la base d’apprentissage

Nous regardons comment notre modèle se comporte par rapport aux données. Pour cela, nous allons

comparer les courbes du prédit et de l’observé sur l’ensemble de la base.

Figure 31 - Analyse des tendances sur la base d’apprentissage

Nous constatons que les courbes du prédit et de l’observé sont très proches, ce qui nous conforte dans la validation du modèle. L’ensemble de ces tests nous a permis de valider notre modélisation d’apprentissage. Nous pouvons maintenant appliquer notre modèle à la base test.

0

20000

40000

60000

80000

100000

120000

140000

160000

180000

-20

0

20

40

60

80

Exp

osi

tio

n

Mo

yen

ne

Pri

me

Pu

re

Quantile de prime pure prédite

Expostion

Données

Modèle

Page 67: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 67

3.4.2. Validation du modèle sur la base test

a) Application du modèle à l’échantillon test

Nous avons calibré notre modélisation sur la base d’apprentissage. L’étape suivante consiste à

l’appliquer sur la base test. L’objectif est de s’assurer de la robustesse du modèle en contrôlant que les tendances observées sur la base d’apprentissage ressortent bien sur la base test. En pratique, nous allons figer les paramètres obtenus sur la base d’apprentissage comme des

variables offset et nous allons les appliquer à cet échantillon.

Nous réaliserons l’ensemble des tests suivant pour les variables explicatives :

· Comparaison des tendances ; · Analyse des intervalles de confiance ; · Analyse de la stabilité dans le temps ; · Analyse des indicateurs de régression.

Il s’agit des mêmes tests que pour la sélection de variables, l’idée ici est de vérifier que nous

obtenons bien les mêmes effets que sur la base d’apprentissage pour les variables sélectionnées

dans le modèle.

Pour les résidus et l’analyse de la tendance, il s’agit de la même méthodologie que la base

d’apprentissage.

Page 68: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 68

b) Etude des résidus

Nous obtenons pour les résidus de Pearson:

Figure 32 - Les résidus de Pearson sur la base test

Nous observons bien que les résidus Pearson sont symétriques et centrés en 0 comme sur la base d’apprentissage. Nous observons également les résidus par rapport au critère de déviance.

Figure 33 - Les résidus par rapport au critère de déviance sur la base test

Nous constatons que la grande majorité des résidus sont centrés en 0.

-3

-2

-1

0

1

2

3

4

5

6

0 20 40 60 80 100 120 140 160

sid

us

de

Pe

arso

n

Prime pure prédite

0

0,0001

0,0002

0,0003

0,0004

0,0005

0,0006

0 20 40 60 80 100 120 140 160 180 200

sid

us

par

rap

po

rt a

u c

ritè

re d

e d

evi

ance

Prime pure prédite

Page 69: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 69

c) Analyse des tendances

Comme pour la base d’apprentissage, nous allons comparer les courbes du prédit et de l’observé sur

l’ensemble de la base test.

Figure 34 - Analyse des tendances sur la base test

Comme sur la base d’apprentissage, les courbes du prédit et de l’observé sont très proches. Les différents tests nous permettent de valider notre modèle sur la base test.

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

50000

-20

0

20

40

60

80

100

Exp

osi

tio

n

Mo

yen

ne

Pri

me

Pu

re

Quantile de prime pure prédite

Exposition

Données

modèle

Page 70: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 70

3.4.3. Validation du modèle sur les bases d’apprentissage et de test A ce stade, nous validons notre modèle sur la base test et sur la base d’apprentissage. L’objectif est

de comparer les niveaux d’apprentissage sur les deux bases à travers les différents indicateurs

statistiques.

a) Comparaison du GINI

Le but ici est d’avoir les mêmes niveaux de performance entre la base d’apprentissage et la base test.

Ø GINI sur base d’apprentissage

Figure 35 - Indice de gini pour le GLM sur base d’apprentissage

Ø GINI sur base test

Figure 36 -Indice de gini pour le GLM sur base test

Gains Curve (Actual values)

0

2

4

6

8

10

12

14

16

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Cumulative Exposure

Cu

mu

lati

ve

Ac

tua

l V

alu

e (

Mil

lio

ns

)

Reference

Model (Actual values)1Gini coefficient= 0,3173

Gains Curve (Actual values)

0

500 000

1 000 000

1 500 000

2 000 000

2 500 000

3 000 000

3 500 000

4 000 000

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Cumulative Exposure

Cu

mu

lati

ve

Ac

tua

l V

alu

e

Reference

Model (Actual values)1Gini coefficient= 0,3270

Page 71: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 71

Nous obtenons finalement :

Nous constatons des indices de GINI très proches entre les deux bases.

b) Niveaux d’apprentissage

L’objectif est de contrôler qu’il n’y pas de sur-apprentissage. Pour cela, nous regardons les niveaux

d’apprentissage entre la base d’apprentissage et la base test.

Base d’apprentissage Base test

Les niveaux d’apprentissage sont stables entre les deux bases. Nous en déduisons alors l’absence de

sur-apprentissage pour notre modélisation.

Sans

modèle

Avec

modèleÉvolution en %

Sans

modèle

Avec

modèleÉvolutionen %

Deviance 22 944 430 21 824 320 -4,9% Deviance 5 781 908 5 481 314 -5,2%

AIC 26 253 620 25 133 570 -4,3% AIC 6 620 567 6 320 027 -4,5%

BIC 26 253 630 25 133 900 -4,3% BIC 6 620 577 6 320 311 -4,5%

GINI 0,066 0,317 380,3% GINI 0,064 0,327 410,94%

Page 72: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 72

IV. Autres méthodes de tarification

Dans cette partie, nous allons tester des méthodes alternatives aux GLM pour la tarification. L’objectif est de tarifer la garantie DDEA grâce à des méthodes de Machine Learning et ensuite de pouvoir comparer les résultats obtenus avec ceux du GLM : nous allons tester le Gradient Boosting Machine et le Random Forest. Ces méthodes peuvent être utilisées en tant que modèle de régression pour prédire une certaine variable cible. Cependant, à l’heure actuelle, elles ne peuvent pas être implémentées d’un point de

vue informatique.

4.1. Les Arbres CART (Classification And Regression Tree)

Pour une meilleure compréhension du GBM et du Random Forest, nous allons rappeler dans un

premier temps le principe général des arbres de décision CART.

Afin de décrire le principe des arbres de décision CART, nous allons utiliser les travaux de Leo

Brieman et de Roman Timofeev.

Les arbres de classification et de régression sont des outils non paramétriques de segmentation c’est-à-dire qu’ils ne nécessitent pas d’hypothèse sur la distribution des données. Dans un arbre de décision, nous cherchons à détecter des critères permettant de répartir les

individus en classes homogène par rapport à une variable cible.

La répartition des données entre deux sous-ensembles doit être la plus homogène possible à chaque étape. Afin d’avoir une répartition homogène, l’algorithme procède de la manière suivante : Dans un premier temps, il sélectionne la variable qui permet d’avoir deux sous-ensembles les plus homogènes possibles puis il choisit la façon optimale de découper les individus par rapport à cette variable. A noter que pour une variable continue, nous distinguons { \` ≤ O } et { \` > O } et pour une variable qualitative, nous distinguons { \` = t } et { \` ≠ t }. Nous définissons les notations suivantes :

· Hy : le nœud parent ;

· HÐ : le nœud fils gauche ;

· H8 : le nœud fils droit ; Les étapes de l’algorithme à chaque itération peuvent être représenté par :

Page 73: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 73

Figure 37 - Représentation d’un noeud

Nous allons définir une fonction d’impureté >(H) qui va nous permettre d’avoir des classes

homogènes. Ainsi, l’objectif, est d’avoir une variable qui minimise l’impureté totale des deux nœuds fils : ?>D³cѳc∗Ò(>(H))

La réduction d’impureté peut être représentée de la manière suivante :

Figure 38 - Représentation du concept de réduction d’impureté. Idée d’illustration par M.Gahbich

Nous remarquons ainsi que la réduction d’impureté est plus importante sur la figure de gauche. Nous pouvons réécrire le problème de minimisation de la manière suivante : ?>D³cѳc∗Ó >ÔHÐÕ + Ó >(H8)

La solution de ce problème nous donne le couple d’information qui nous permet de mieux découper

les données. Le couple est de la forme :

· x{ : la variable qui sépare le mieux le jeu de données du nœud parent ;

· x{∗ : la valeur de la variable qui sépare le mieux.

Dans le cas où la fonction d’impureté est représentée par la variance du nœud, le problème de maximisation peut alors se réécrire :

?>D³cѳc∗ ÐCP<Ô¬ÐÕ + 8CP<(¬8)

Page 74: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 74

4.2. Gradient Boosting Machine

4.2.1. Principe Le Gradient Boosting est une technique d’apprentissage statistique qui peut être utilisée pour des problèmes de classification ou de régression. Il repose sur le principe de Boosting qui consiste à utiliser plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif. L’objectif est de construire une séquence de modèles de telle sorte qu’à chaque nouvelle étape, le

nouveau modèle apparaisse comme une meilleure solution que le précédent. Pour avoir une amélioration de la prédiction à chaque étape, le boosting affecte un poids plus important aux individus pour lesquels la valeur a été mal prédite. Le réajustement des poids à chaque étape permet une meilleure prédiction des valeurs difficiles. Le GBM optimise ainsi les performances d’une série de modèles avec un pouvoir prédictif faible afin de créer un modèle robuste. Généralement, les modèles de prédiction faible utilisés sont des arbres de de décision CART. Le but du Gradient Tree Boosting est de réaliser une succession d’arbres de décision où chaque arbre est construit sur l’erreur résiduelle du précédent.

4.2.2. Théorie du Gradient Boosting Pour décrire le Gradient Boosting, nous allons utiliser l’article original de Friedman en reprenant ses

notations.

L’algorithme du Gradient Boosting répond au problème d’estimation d’une fonction donnant une variable cible S en fonction de t = (t`, ….,t7). A partir d’une base d’apprentissage de valeurs (S, t")Ö connues, nous cherchons une fonction Ø∗(t) donnant S en fonction de t telle que, sur la base d’apprentissage, l’espérance d’une fonction de

perte Ù(S, Ø(t)) est minimale : Ø∗(t) = P<�?>DÚ(³)'N,³Ψ(S, Ø(t))

Le boosting approche F∗(x) par une méthode additive de la forme :

Ø(t) = w u/ℎ(t, P/)Þ/_v

avec ℎ(t, P) des fonctions dites « base-learner» choisies comme simples fonctions de t et de P = (Pv, P`, Pß, … ). Les (P/)vÑ/ÑÞ et (u/)vÑ/ÑÞ par itérations successives.

Nous partons d’un premier estimateur Øv(t) et nous poursuivons ensuite pour m=1,2,…,M

(u/, P/) = P<�?>D¥,J w Ψ(S", Ø/T`(t") + uÖ"_` ℎ(t" , P)

et

Page 75: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 75

Ø/(t) = Ø/T`(t) + u/ℎ(t, P/)

Cette résolution pouvant être très complexe, la méthode du Gradient Boosting introduit l’approximation suivante pour une fonction de perte donnée ψ(y, F(x)). Cette approximation passe par deux étapes. Nous trouvons d’abord la fonction h(x, aä) par la méthode des moindres carrés.

P/ = P<�?>DJ,å w[Sç",/ − èℎ(t", P)]�Ö"

Appliquées aux pseudo-résidus :

Sç",/ = − ìíΨÔS" , Ø(t")ÕíØ(t") îÚ(³)_Úïhe(³)

Ensuite, connaissant h(x, aä), nous déterminons la valeur optimale de u/ par :

u/ = P<�?>D¥ w ΨÖ"_` (S" , Ø/T`(t") + uℎ(t", P/))

Cette approximation remplace un problème d’optimisation difficile par deux problèmes, l’un basé sur

un critère des moindres carrés, l’autre étant un simple problème d’optimisation dépendant de la

fonction Ù.

Le Gradient Tree Boosting est un Gradient Boosting dans lequel h(x, a) est le nœud *-terminal d’un

arbre de régression. A chaque itération ?, un arbre de régression découpe le t-espace en * régions (,;/)`Ñ;Ѥ disjointes et prédit une valeur constante dans chacune de ces régions :

ℎ(t, (,;/)`Ñ;Ѥ) = w S;/ççççç¤;_` ð³⋲òóï

Avec : Sç;/ = ôRS@DD@³b ⋲ õóï (Sç"/)

Comme l’arbre prédit une valeur constante Sç;/ sur région ,;/, la solution à l’équation précédente permettant de trouver u/ se réduit à : &;/ = P<�?>Dª w Ψ(S"³b⋲òóï

, Ø/T`(t" + &))

Nous mettons alors à jour l’approximation Ø/T`(t) dans chaque région : Ø/(t) = Ø/T`(t) + ö · &;/ð³⋲òóï

Page 76: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 76

4.2.3. Les hyper-paramètres Afin d’avoir un modèle le plus performant possible et éviter le sur-apprentissage, il existe plusieurs paramètres à fixer et optimiser pour le GBM. Dans la suite, nous allons expliquer comment déterminer l’ensemble de ces paramètres.

Les paramètres clés

· Le nombre d’arbres Le nombre d’arbres ô correspond au nombre d’itérations effectuées par l’algorithme. Le fait d’augmenter le nombre d’itérations conduit à une diminution de l’erreur. Cependant, un nombre d’arbres trop grand risque de conduire à du sur-apprentissage.

· La profondeur de l’arbre Un autre paramètre important à spécifier est la taille (ø) des arbres, qui doit être contrôlée afin d’éviter le sur-apprentissage. Augmenter ø permet de prendre en compte les interactions entre les différentes variables. Nous remarquons également que les grandes valeurs de J entraînent une augmentation du temps de calcul d’une façon considérable. Néanmoins, nous constatons que les plus hautes performances sont atteintes avec des profondeurs d’arbres faibles. En effet, les modèles avec 4 ≤ ø ≤ 8 ont généralement les performances les plus élevées.

· Shrinkage Le paramètre de shrinkage 0 < ö ⩽ 1 permet de contrôler le taux d’apprentissage. Il modifie la mise à jour de l'algorithme par le biais du paramètre ö : Ø/(t) = Ø/T`(t) + ö · &;/ð³⋲òóï

A chaque itération, l’algorithme n’applique qu’une fraction du coefficient ö à Ø/(t) ce qui permet de retarder la vitesse d’apprentissage de l’algorithme Des valeurs petites de ö conduisent à un apprentissage plus long et nécessitent plus d’arbres pour atteindre un niveau de performance optimal. À noter que, en général ö et M sont inversement liés. Ce qui signifie que pour des valeurs élevées de ö, il faut un nombre d’arbres assez faible et inversement pour des valeurs petites de ö. Les petites valeurs (ν ⩽ 0.1) permettent un meilleur apprentissage et donc par conséquent de meilleures performances.

Page 77: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 77

Détermination des paramètres clés Dans le cadre de notre étude, nous allons utiliser le Grid Search pour trouver la valeur à affecter à chaque paramètre du GBM. Nous considérons les paramètres suivants :

· Ã : le nombre d’arbres ;

· · : profondeur de l’arbre ;

· ú : le shrinkage. L’objectif du Grid Search est de trouver les valeurs optimales à affecter aux paramètres ô, * et ö. Cela revient à tester différentes combinaisons entre plusieurs valeurs de ô, * et ö afin de trouver le modèle optimal. En pratique, considérons une série de valeurs pour ô, * et ö :

· ô : Ôô`, ô�, … , ô7Õ ;

· * : (*`, *�, … , *7) ;

· ö : (ö`, ö� … , ö7) .

Pour chaque triplet (ô", *", ö") , le Grid Search calcule l’erreur de prédiction du GBM. Nous choisirons

enfin le triplet qui donne l’erreur de prédiction la plus faible.

Page 78: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 78

4.2.4. Application du GBM à la garantie Dégât des Eaux Appartement Dans cette section, l’objectif est d’appliquer le GBM à la garantie DDEA. Comme pour le GLM, nous allons créer un modèle prédictif de la sinistralité future des affaires nouvelles. Nous utiliserons la base de données et l’ensemble des variables que nous avons utilisées pour la partie GLM. Le périmètre reste identique, nous allons tester une nouvelle méthode de modélisation afin de mesurer ses performances par rapport au GLM. La modélisation sera réalisée avec le logiciel R.

a) Application du GBM à la sélection de variables

Le GBM permet de réaliser une sélection de variables. Grâce à la fonction h2o.varimp() du package

h2o de R, nous pouvons accéder à l’ensemble des variables explicatives.

Sur ce schéma, nous avons les principales variables sélectionnées par le GBM. Précisions que les

variables avec une importance relative inférieure à 5 % ne sont pas affichées afin de ne pas

surcharger le graphique.

Figure 39 - Importance relative des variables pour le GBM

L’importance relative d’une variable mesure le nombre de fois où la variable est sélectionnée pour

partitionner la base d’apprentissage.

Nous définissons un seuil à partir duquel nous considérons que les variables ne sont pas

significatives. Le seuil retenu est 5 %. Les variables retenues sont :

· Le zonier Dégât des eaux appartement ; · Ancienneté du logement ; · Nombre de pièce ; · Âge du souscripteur.

5%

14%

15%

28%

Âge du souscripteur

Nombre de pièces

Ancienneté du logement

Zonier DDEA

Importance relative

Page 79: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 79

Nous remarquons que le GBM sélectionne les mêmes variables que celle que nous avions retenues

pour le GLM.

A noter que la sélection de variables pour le GBM est automatique contrairement au GLM. Nous

avons accès rapidement aux variables explicatives retenues.

b) Création du modèle DDEA grâce au GBM

Pour la création du modèle DDEA, nous avons utilisé la fonction h2o.gbm du package h2o de R.

La création du modèle nécessite de fixer plusieurs valeurs de différents paramètres. Nous retrouvons

les principaux paramètres suivants :

· ntree : le nombre d’arbres ;

· distribution : la fonction de distribution ;

· shrinkage : le taux d’apprentissage ;

· max_depth : la profondeur des arbres.

Le but est d’avoir des paramètres avec des valeurs optimales. Pour cela, nous allons procéder en deux étapes : Etape 1 Nous allons tester plusieurs combinaisons de valeurs de différents paramètres. L’objectif ici est de

pouvoir dresser un premier bilan des valeurs qui apportent une meilleure prédiction. Ainsi, à ce

stade, nous allons pouvoir jauger des paramètres qui influencent le plus la qualité de la prédiction.

Nous pourrons ainsi remarquer :

· s’il est nécessaire ou non d’avoir un nombre importants d’arbre ; · la profondeur des arbres qui apporte de meilleures performances ; · le taux d’apprentissage qui semble être le plus approprié.

Etape 2 :

Après avoir remarqué les valeurs des paramètres apportant les meilleures performances, nous allons utiliser le Grid Search dans le but de trouver les valeurs optimales à affecter aux paramètres ô, * et ö. Une précision importante est que le Grid Search est limité d’un point de vue informatique et par

conséquent, nous ne pouvons pas tester l’ensemble des possibilités. La première étape parait donc être indispensable parce qu’elle nous permet d’avoir une idée des paramètres à tester pour améliorer la qualité de la prédiction.

Page 80: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 80

Suite à ces deux étapes, les paramètres retenus sont :

· ntree : 250 ;

· distribution : Tweedie ;

· Le shrinkage : 0.2 ;

· max_depth : 2.

c) Validation

La validation du modèle s’effectue en deux étapes :

Ø Validation du modèle sur la base d’apprentissage Comme pour la partie GLM, nous allons valider notre modèle grâce à la méthode de validation croisée des K-folds (le principe est décrit page 63). Cette technique est appliquée en utilisant k=10 folds. Le graphique suivant donne les résultats obtenus pour l’indice de Gini :

Figure 40 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements pour le GBM

La stabilité du Gini entre les échantillons d’apprentissage et test sur chacun des folds permet de valider notre modèle sur la base d’apprentissage.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 2 3 4 5 6 7 8 9 10

Gin

i

Numéro de l'échantillon

échantillontrain

échantillontest

Page 81: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 81

Ø Validation du modèle sur la base test L’objectif est d’appliquer notre modèle sur l’échantillon test afin de comparer les niveaux

d’apprentissage entre la base d’apprentissage et la base test. Nous allons vérifier que nous avons

bien la même performance entre les deux bases.

La comparaison des niveaux d’apprentissage s’effectue par le biais de l’indice du gini. Nous obtenons

les résultats suivant :

Ø GINI sur base d’apprentissage

Figure 41 - Indice de gini pour le GBM sur base d’apprentissage

Ø GINI sur base test

Figure 42 - Indice de gini pour le GBM sur base test

Page 82: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 82

Finalement, nous avons :

GINI

Train 0,371 Test 0,365 Différence 1%

Nous constatons que les indices de GINI sont très proches entre les deux bases. Cela nous permet de vérifier qu’il n’y pas de sur-apprentissage et de valider le pouvoir prédictif de notre modèle.

Page 83: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 83

4.3. Random Forest

4.3.1. Principe

Le Random Forest (forêts aléatoires) est une technique d’apprentissage statistique qui peut être

utilisée pour des problèmes de classification ou de régression. Il repose sur le principe de Bagging qui

consiste à agréger plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.

Dans les cas spécifiques des modèles d’arbres de décision (CART), Breiman propose une amélioration

du bagging par l’ajout d’une composante aléatoire. L’objectif est de rendre plus indépendants les

arbres de l’agrégation en ajoutant du hasard dans le choix des variables qui interviennent dans les

modèles.

Une forêt aléatoire est donc un ensemble d’arbres de décisions dans lequel la base d’apprentissage

de chaque arbre est aléatoire. En effet, les différents arbres sont construits et entrainés sur des

sous-échantillons tous différents les uns des autres.

Cette méthode permet de corriger le manque de robustesse dans le cas où un seul arbre de

régression est utilisé pour la prédiction.

L’algorithme du Random Forest peut être décrit en trois étapes :

· Étape 1 :

Pour chaque arbre de décision, nous allons construire un échantillon d’apprentissage pour chaque

arbre en effectuant un tirage aléatoire avec remise sur les observations de la base de départ et en

choisissant aléatoirement les variables considérées.

· Étape 2 :

Construction d’un arbre de décision sur chaque base construite dans l’étape 1.

· Étape 3 :

Agrégation des résultats sur chaque arbre de décision obtenu.

Page 84: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 84

4.3.2. Application du Random Forest à la garantie Dégat des Eaux Appartement

Dans cette section, l’objectif est d’appliquer le Random Forest à la garantie DDEA. L’objectif est de créer un modèle prédictif de la sinistralité future des affaires nouvelles. Nous utiliserons la base de données et l’ensemble des variables que nous avons utilisées pour la partie GLM. La modélisation sera réalisée avec le logiciel R.

a) Application du Random Forest à la sélection de variables

Le Random Forest permet également de réaliser une sélection de variables. Nous pourrons ainsi

accéder à l’ensemble des variables explicatives.

Sur ce schéma, nous avons les principales variables sélectionnées par le Random Forest. Précisions

que les variables avec une importance relative inférieure à 5 % ne sont pas affichées afin de ne pas

surcharger le graphique.

Figure 43 - Importance relative des variables pour le Random Forest

Nous définissons un seuil à partir duquel nous considérons que les variables ne sont pas

significatives. Le seuil retenu est 5 %. Les variables retenues sont :

· Le zonier Dégât des eaux appartement ; · Nombre de pièce ; · Ancienneté du logement.

15%

16%

31%

Ancienneté du logement

Nombre de pièces

Zonier DDEA

Importance relative

Page 85: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 85

b) Création du modèle DDEA grâce au Random Forest

Pour la création du modèle DDEA, nous avons utilisé la fonction h2o.randomForest du package h2o

de R. La méthode utilisée pour la tarification de la garantie DDEA est similaire à celle utilisée pour le

GBM.

Les principaux paramètres à définir pour le Random Forest sont :

· ntree : le nombre d’arbres ;

· mtries : nombre de variables sélectionnées aléatoirement dans chaque échantillon d’apprentissage ;

· max_depth : la profondeur des arbres.

La méthodologie pour la détermination de ces paramètres est similaire à celle utilisée pour le GBM. Nous obtenons les paramètres suivants :

· ntree : 250 ;

· mrties : 10;

· max_depth : 6.

Page 86: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 86

c) Validation

La validation du modèle s’effectue en deux étapes :

Ø Validation du modèle sur la base d’apprentissage La méthode de validation croisée des K-folds (le principe est décrit page 63) va nous permettre de valider notre modèle sur la base d’apprentissage. Cette technique est appliquée en utilisant k=10 folds. Le graphique suivant donne les résultats obtenus pour l’indice de Gini :

Figure 44 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements pour le Random Forest

La stabilité du Gini entre les échantillons d’apprentissage et test sur chacun des folds permet de valider notre modèle sur la base d’apprentissage.

Ø Validation du modèle sur la base test

Nous allons appliquer notre modèle sur l’échantillon test afin de vérifier que nous avons bien les

mêmes niveaux de performance entre la base d’apprentissage et la base test en terme de gini.

Nous pourrons ainsi valider notre modèle sur la base d’apprentissage et vérifier qu’il n’y pas de sur-

apprentissage

Nous obtenons les résultats suivants :

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 2 3 4 5 6 7 8 9 10

Gin

i

Numéro de l'échantillon

échantillontrain

échantillontest

Page 87: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 87

Ø GINI sur base d’apprentissage

Figure 45 - Indice de gini pour le Random Forest sur base d’apprentissage

Ø GINI sur base test

Figure 46 - Indice de gini pour le Random Forest sur base test

Page 88: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 88

Finalement, nous avons :

Gini

Train 0,365

Test 0, 331

Différence 3 %

Nous constatons que les indices de GINI sont assez proches entre les deux bases.

Page 89: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 89

4.4. Comparaison des modèles

Dans cette partie, nous allons donner l’ensemble des résultats des différentes méthodes.

Méthodes Gini Train Gini Test

Gradient Boosting Machine (GBM) 0,371 0,365

Random Forest 0,366 0,331

Modèles linéaires généralisée (GLM) 0,317 0,327

Ce tableau nous indique que les deux techniques de machine Learning présentent les meilleures

performances que le GLM en terme de Gini. En particulier, le GBM est l’algorithme qui donne les

meilleures performances.

Malgré le fait que ces techniques ne soient pas implémentables actuellement dans le système

informatique d’AXA France, il est intéressant de comprendre l’apport de ces nouvelles techniques par

rapport aux approches traditionnelles. Nous pourrons ainsi utiliser le GBM et le Random Forest pour

la sélection de variables. En ce sens, lorsque nous sommes confrontés à de nombreuse variables, ces

techniques permettent de détecter rapidement les variables le plus importantes.

L’utilisation des algorithmes de Machine Learning nous permet également de valider les variables

sélectionnées dans le GLM.

Page 90: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 90

V. Tarif final

Dans cette partie, nous allons déterminer la prime commerciale. Une fois le nouveau tarif obtenu, nous allons l’analyser et le comparer à l’ancien tarif. En ce sens, nous étudierons la distance tarifaire de la nouvelle gamme par rapport à l’ancienne

gamme pour les PNO. Cela revient à analyser l’écart entre les deux tarifs et identifier les éléments à

l’origine de cet écart.

5.1. Prime commerciale

5.1.1. Calcul de la prime commerciale La prime commerciale désigne la prime vendue qui assure un minimum de rentabilité à la compagnie

d’assurance.

Rappelons la composition de la prime commerciale :

· la prime pure (P1) :

Prime minimale requise pour faire face à la sinistralité du portefeuille avec une rentabilité nulle.

· la prime technique (P2) :

Prime pure sécurisée par des chargements additifs et multiplicatifs permettant de faire face à la

charge sinistre des assurés et aux différents frais.

· la prime commerciale (P3) :

Prime vendue avec la prise en compte d’une éventuelle marge.

Avec la prise en compte des différents chargements et de la marge, la prime commerciale s’écrit de la manière suivante :

Pour chaque contrat >, nous avons :

!" = ( " × (1 + $) + % ) × (1 + &)

Avec :

· la prime pure ;

· (1 + $) les chargements multiplicatifs ( $ ≥ 0 ) ;

· % les chargements additifs ( % ≥ 0) ;

· (1 + & ) les chargements globaux ( & ≥ 0 ).

Page 91: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 91

Interprétation

La prime pure est sécurisée par des chargements multiplicatifs et additifs permettant la prise en compte des différents frais (acquisition, gestion de sinistres, administration, réassurance, etc.). Les chargements globaux correspondent à l’intégration de la marge et de la commission des agents. A noter que les frais ne sont pas fixes et dépendent du profil de risque. Dans le cadre de notre étude, nous allons ainsi distinguer les frais entre les maisons et les appartements pour les PNO. La nouvelle structure de la prime commerciale va nous permettre de dissocier les différents niveaux de la prime vendue. Cela nous permettra ainsi d’analyser la contribution de chaque composante (P1, P2 et P3) au tarif final et de pouvoir faire des ajustements si nécessaire sur P2 et P3 sans toucher à P1.

Page 92: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 92

5.1.2. Distribution de la prime commerciale Nous allons présenter les distributions des primes commerciales des appartements et des maisons.

Ø Distribution prime commerciale Appartement

Figure 47 - Distribution prime commerciale Appartement

Ø Distribution prime commerciale Maison

Figure 48 - Distribution prime commerciale Maison

Page 93: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 93

5.2. Étude de la distance tarifaire

Notre but est de comparer les tarifs du nouveau produit et du produit actuel. La comparaison s’effectuera sur l’ensemble des contrats de la base de modélisation (cf. page 30). A noter que le nouveau tarif correspond à la prime commerciale présentée dans la partie précédente. Pour un risque donné, le nouveau tarif donne une meilleure mesure du risque. Pour chaque contrat de notre base, nous allons avoir un tarif issu du nouveau produit PNO et un tarif issu du produit PNO actuel. Tout au long de cette étude, nous désignerons séparément les appartements et les maisons en raison des frais différents qui leur sont appliqués. Donnons de brèves statistiques obtenues à partir de la base de modélisation :

Nouveau Tarif Ancien Tarif Écart relatif

Appartement 95,81 € 99,85 € -4,05%

Maison 229,92 € 153,06 € 50,21%

Nous remarquons que le tarif du nouveau produit est moins élevé en moyenne que l’ancien produit

pour les appartements. Cependant le nouveau produit PNO est plus élevé en moyenne pour les maisons. Intéressons-nous de plus près aux distributions du nouveau tarif et de l’ancien tarif. Pour les appartements, nous avons :

Figure 49 - Comparaison tarif appartement

Nous constatons que les distributions des deux tarifs se superposent pour les appartements.

Page 94: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 94

Pour les maisons, nous avons également :

Figure 50 - Comparaison tarif maison

Nous observons, sur ce graphique que les contrats de l’ancienne gamme sont globalement sous tarifés pour les maisons. Nous nous intéresserons également à l’écart relatif entre le tarif du nouveau produit et le tarif de

l’ancien produit. Pour rappel, l’écart relatif est définit de la manière suivante :

ÉGP<H <@IPH>a = ýRAÈ@PA þP<>a þP<>a FGHA@I − 1

Un écart relatif strictement positif correspondra à un ýRAÈ@PA þP<>a > þP<>a FGHA@I,

Alors que, un écart relatif strictement négatif correspondra à un ýRAÈ@PA þP<>a < þP<>a FGHA@I

Dans un premier temps, tentons de quantifier la proportion du périmètre impactée par des tarifs

élevés.

Proportion concernée par

un écart strictement positif Proportion concernée par

un écart strictement négatif

Appartement 49 % 51 %

Maison 90 % 10 %

Nous constatons que la moitié des appartements et 90 % des maisons voient leur tarif augmenter

strictement avec le nouveau produit. Dans la suite, nous allons tenter d’expliquer cet écart.

Page 95: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 95

Ø Écart relatif Appartement

Figure 51 - Écart relatif Appartement

Constatons que l’écart relatif varie globalement entre -1 et 1 pour les appartements, ce qui signifie qu’il y a autant de clients qui sont impactés par une hausse et par une baisse du tarif.

Ø Écart relatif Maison

Figure 52 - Écart relatif Maison

Pour les maisons, la majorité des contrats voient leur tarif augmenter, l’écart relatif varie globalement de -0,5 à 2,5 %.

Page 96: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 96

5.3. Explication des écarts tarifaires

Dans cette partie, nous allons tenter d’expliquer les écarts tarifaires entre le nouveau produit et le produit actuel. Pour cela, nous allons utiliser des arbres de décisions (rappel théorique page 72) pour expliquer l’écart tarifaire pour les appartements et les maisons. Notre variable à expliquer est l’écart

relatif en pourcentage.

Ø Arbre de décision pour les appartements

Figure 53 - Arbre de décision pour les écarts tarifaires sur les appartements

Deux variables expliquent clairement les écarts tarifaires positifs pour les appartements : le zonier dégâts des eaux appartement et le zonier incendie. Rappelons que le nouveau produit PNO est construit de manière à avoir un modèle par garantie. Pour chaque garantie, il a été déterminé un zonier qui est dans notre cas un maillage territorial français définissant les différentes zones de risque. Les zoniers dégâts des eaux appartement et le zonier incendie font partie de ces garanties. L’arbre de régression nous indique que le nouveau produit affecte des tarifs plus élevés que l’ancien

pour les contrats se situant dans les zones élevées pour l’incendie et le dégât des eaux.

Ancienneté logement = < 5 ans, 5-10 ans, NR no yes

Zonier dégât des eaux appartement < 12

Zonier incendie < 12 Age client = ] 60 – 70 ] ans, ] 70 – 80 ] ans, ] 80 – in] ans

Page 97: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 97

Ø Arbre de décision pour les maisons

Figure 54 - Arbre de décision pour les écarts tarifaires sur les appartements maisons

Plusieurs variables expliquent clairement les écarts tarifaires positifs pour les maisons. Nous retrouvons les variables suivantes : la présence d’un insert, le nombre de pièces, l’âge et le zonier climatique. L’arbre de régression nous indique que le nouveau produit affecte des tarifs plus élevés que l’ancien tarif lorsque :

· La présence d’un insert ;

· Le nombre de pièces est élevé ;

· L’âge est inférieur à 70 ans ;

· La zone climatique est élevée. Notons que les principales variables qui expliquent l’écart observé sont différentes selon le segment

considéré. Ainsi, nous ne retrouvons pas les mêmes variables pour les maisons et les appartements.

Interprétation des écarts

Le zonier de l’ancien produit était beaucoup moins fin. Les écarts de tarifs peuvent donc être justifiés par le fait que les contrats étaient détectés en zone peu risquée avec l’ancien produit. Le nouveau étant plus fin pour chaque garantie, les contrats se retrouvent affectés dans leur vraie zone de risque qui peut être plus élevée. Ils se retrouvent affectés de leurs « vrais » tarifs. L’ancien tarif se trouve alors être une sous-estimation, d’où des écarts important.

Présence d’un insert = Non yes no

Nombre de pièces < 7

Age client = ] 70 – 80 ] ans, ] 80 – in] ans

Zonier climatique < 4

Page 98: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 98

5.4. Analyse de la profitabilité du portefeuille PNO

Après avoir expliqué les écarts tarifaires entre le nouveau produit et le produit actuel, nous allons analyser la profitabilité du portefeuille PNO. L’objectif est d’identifier les clients qui génèrent le plus et le moins de rentabilité. La création d’un modèle Prime Pure par garantie va nous permettre d’utiliser un indicateur de

rentabilité : l’ELR (Expected Loss Ratio)

5.4.1. Définition de l’ELR L’ELR est un indicateur de suivi de la rentabilité d’un portefeuille d’assurance. Il va nous permettre de connaitre la rentabilité générée par chaque contrat présent dans notre portefeuille PNO. Cela nous permettra ainsi de classer les assurés entre eux en fonction de leur rentabilité générée. L’ELR est défini de la manière suivante :

'*, = -."/0 -2.0 345"/é0-."/0 607820 9:520;;0 Où :

· <>?@ A<@ ∶ correspond à l’agrégation des primes pures de l’ensemble des

garanties ;

· <>?@ C@DEA@ FGHA@II@ ∶ il s’agit du tarif vendu pour le produit actuel.

L’utilisation de la prime vendue dans la formule de l’ELR permet d’évaluer la qualité de tarification du

modèle actuel. Dans cette optique, nous allons comparer notre estimation du risque avec le tarif du produit actuel. Cette analyse, nous permettra de dire, si le risque est correctement évalué dans le tarif PNO actuel.

Page 99: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 99

5.4.2. Analyse ELR Nous allons calculer un ELR pour l’ensemble des contrats présents dans la base de modélisation.

Nous obtenons la distribution suivante pour l’ELR :

Figure 55 - Distribution ELR

Nous remarquons qu’il y un certain nombre de contrats où l’ELR est supérieur à 100 %. Un ELR supérieur à 100 % reflète une situation dans lequel l’assureur n’est pas rentable, le tarif vendu est inférieur à la Prime Pure estimée. Ce qui signifie que l’estimation du risque est sous-évaluée dans le tarif actuel. Nous sommes donc en présence de contrats sous tarifés. Regardons de plus près grâce à des arbres de régression les contrats dont l’ELR est supérieur à 100 %. Cela nous permettra d’identifier les segments les moins rentables.

5.4.3. Application des arbres aux ELR Nous allons utiliser des arbres de régression dans le but d’identifier les segments qui génèrent le plus et le moins de rentabilité. Cette analyse, nous permettra également d’identifier les contrats sous tarifés.

Page 100: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 100

Figure 56 - Application des arbres aux ELR

La première information qui ressort de l’arbre est que les appartements sont plus rentables que les

maisons : nous avons un ELR moyen de 41,15 % pour les appartements et un ELR moyen de 85,27 % pour les maisons. Les maisons avec un nombre de pièce supérieur à 6 se situant dans les régions 67 ou 68 (Sud-Est, Sud-Ouest) ou possédant un insert présentent les ELR les plus élevés. Les variables les plus discriminantes sont :

· Le nombre de pièces ;

· La région ;

· La présence d’insert. Concernant les appartements, la variable discriminante est le zonier dégâts des eaux appartements.

Type d’habitation = Appartement yes no

Zonier dégât des eaux appartement < 14 Nombre de pièces < 7

Région < 66

Région < 66

Nombre de pièces < 4

Présence d’un insert = Non

Page 101: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 101

Bilan Cette analyse basée sur l’ELR, nous permet de valider la création de notre nouveau tarif.

En effet, le tarif actuel sous évalue l’estimation du risque et par conséquent, nous avons de

nombreux contrats où la rentabilité espérée est négative, nulle ou très proche de zéro.

Le nouveau tarif qui va être mis en place va donc permettre une meilleure évaluation du risque pour

éviter à l’assureur d’avoir une rentabilité négative.

Une fois le nouveau tarif mis en place, l’ELR va constituer un indicateur de suivi de rentabilité des

affaires nouvelles. Il va nous permettre d’identifier la typologie des contrats les plus risqués et de

classer les assurés en fonction de la rentabilité générée.

L’ELR permettra également de piloter notre portefeuille PNO actuel. En effet, nous pourrons

réajuster les tarifs des assurés sous tarifés par le biais de majorations. À l’échéance les assurés avec

un ELR supérieur à 100 % verront leur tarif augmenter afin d’avoir une meilleure prise en compte de

leur risque.

Page 102: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 102

Conclusion

L’enjeu de ce mémoire était la création d’un nouveau tarif pour l’assurance PNO. En ce sens, nous

avons déterminé la prime pure, la prime technique et la prime commerciale de l’assurance PNO.

Afin d’obtenir la vision la plus correcte possible du risque de notre portefeuille d’assurés, nous avons

mis en place une refonte complète des modèles de prédiction du produit PNO. Nous avons ainsi créé

un modèle par risque visant à prédire les primes pures des garanties suivantes : bris de glace, dégât

des eaux, vol, incendie, responsabilité civile, évènements climatiques et catastrophes naturelles.

Pour tenir compte des contraintes opérationnelles liées à l’informatique et au réseau de distribution

d’AXA France, nous avons utilisé les GLM pour la tarification. En effet, actuellement il n’est pas

possible pour l’informatique d’implémenter des modèles autres que linéaires et notre tarif doit être

compréhensible par notre réseau de distribution qui se compose principalement d’agents généraux.

A noter que pour la modélisation de la garantie dégât des eaux où les risques diffèrent

considérablement entre les maisons et les appartements, nous avons créé deux modèles distincts :

DDEA et DDEM.

Dans le cadre de ce mémoire, nous avons présenté la tarification détaillée de la garantie DDEA.

Nous avons ainsi créé un modèle prédictif de la sinistralité future des affaires nouvelles.

La création d’un modèle prime pure par garantie va nous permettre d’améliorer la qualité de

prédiction du coût d’un contrat et par conséquent d’obtenir une meilleure sélection des risques.

Après la modélisation d’un modèle de prime pure par garantie, nous avons déterminé la prime commerciale avec la prise en compte des différents chargements (additifs, multiplicatifs et globaux) et de la marge. La refonte du produit PNO permet également d’obtenir un tarif qui va dissocier la prime pure, la

prime technique et la prime commerciale. Cela nous permettra ainsi d’analyser la contribution de

chaque composante (P1, P2 et P3) au tarif final et de pouvoir faire des ajustements si nécessaire sur

P2 et P3 sans toucher à P1.

Une fois le nouveau tarif obtenu, nous l’avons analysé et comparé par rapport à l’ancien tarif. En ce

sens, nous avons étudié la distance tarifaire de la nouvelle gamme par rapport à l’ancienne gamme

pour les PNO. Nous avons ainsi remarqué que le tarif du nouveau produit est moins élevé en moyenne que l’ancien produit pour les appartements et plus élevé en moyenne pour les maisons.

Après avoir analysé les écarts tarifaires entre le nouveau produit et le produit actuel, nous avons analysé la profitabilité du portefeuille PNO grâce à l’utilisation d’un indicateur de rentabilité : l’ELR L’utilisation de l’ELR nous a permis de valider la création du nouveau tarif. En effet, nous avons

remarqué que le tarif actuel sous évalue l’estimation du risque et par conséquent, nous avons de nombreux contrats où la rentabilité espérée est négative, nulle ou très proche de zéro. Le nouveau tarif qui va être mis en place va donc permettre une meilleure évaluation du risque pour éviter à l’assureur d’avoir une rentabilité négative.

Page 103: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 103

Une fois le nouveau tarif mis en place, l’ELR va constituer un indicateur de suivi de rentabilité des

affaires nouvelles. Il va nous permettre d’identifier la typologie des contrats les plus risqués et de

classer les assurés en fonction de la rentabilité générée.

L’ELR permettra également de piloter notre portefeuille PNO actuel. En effet, nous pourrons

réajuster les tarifs des assurés sous tarifés par le biais de majorations. À l’échéance, les assurés avec

un ELR supérieur à 100 % verront leur tarif augmenter afin d’avoir une meilleure prise en compte de

leur risque.

Par ailleurs, cette étude nous a également permis de tester à titre de comparaison des techniques

d’apprentissage statistique pour la tarification de la garantie DDEA : le GBM et le Random Forest.

Nous avons remarqué que ces deux techniques présentent de meilleures performances que le GLM.

Malgré le fait que ces techniques ne soient pas implémentables actuellement dans le système

informatique d’AXA France, il était intéressant d’évaluer leur performance en comparaison du GLM.

Cela nous a permis de comprendre l’apport de ces nouvelles techniques par rapport aux approches

traditionnelles. Nous pourrons ainsi utiliser le GBM et le Random Forest pour la sélection de

variables. En ce sens, lorsque nous sommes confrontés à de nombreuse variables, ces techniques

permettent de détecter rapidement les variables les plus importantes.

Page 104: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 104

Lexique

Assurance PNO : Assurance Propriétaire Non Occupant.

Assurance PO : Assurance Propriétaire Occupant.

Coût Moyen : C’est la charge totale des sinistres divisée par le nombre de sinistres.

Fréquence : C’est le nombre de sinistres divisé par la durée d’exposition au risque.

Prime Pure : C’est la charge totale des sinistres divisée par la durée d’exposition au risque.

GBM : Le Gradient Boosting est une technique d’apprentissage statistique qui peut être utilisée pour

des problèmes de classification ou de régression. Il repose sur le principe de Boosting qui consiste à

utiliser plusieurs modèles entre eux dans le but d’obtenir un seul résultat prédictif.

L’objectif est de construire une séquence de modèles de telle sorte qu’à chaque nouvelle étape, le

nouveau modèle apparaisse comme une meilleure solution que le précédent.

Random Forest : Le Random Forest (forêts aléatoires) est une technique d’apprentissage statistique

qui peut être utilisée pour des problèmes de classification ou de régression. Il repose sur le principe

de Bagging qui consiste à agréer plusieurs modèles entre eux dans le but d’obtenir un seul résultat

prédictif.

Indice de Gini : L'indice de Gini est un indicateur de performance du modèle. Il fournit une mesure

de la qualité de la segmentation du modèle. Il est calculé à partir de la fonction représentée par la

courbe de Lorenz.

ELR : L’ELR est un indicateur de suivi de la rentabilité d’un portefeuille d’assurance. Il va nous

permettre de connaitre la rentabilité générée par chaque contrat présent dans notre portefeuille

PNO.

Zone : ensemble de délimitations géographiques présentant un même niveau de risque.

Page 105: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 105

Annexes

Tendances des variables explicatives du modèle dégâts des eaux appartement :

0

10

20

30

40

50

60

70

80

0

20

40

60

80

100

1 2 3 4 5 6 7 8

Exp

osi

tio

n

Pri

me

Pu

re

Nombre de pièces

0

20

40

60

80

100

120

140

160

180

0

5

10

15

20

25

30

5-10ans < 5ans > 10ans NR

Exp

osi

tio

n

Pri

me

Pu

re

Ancienneté logement

exposti

Page 106: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 106

0

5

10

15

20

25

30

35

40

45

50

18

20

22

24

26

28

30

32

34

36

38

]00-20] ans ]20-30] ans ]30-40] ans ]40-50] ans ]50-60] ans ]60-70] ans ]70-80] ans ]80- in] ans NR

Exp

osi

tio

n

Pri

me

Pu

re

Âge du client

0

2

4

6

8

10

12

5

10

15

20

25

30

35

40

45

50

55

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Exp

oso

tio

n

Pri

me

Pu

re

Zonier Dégats des eaux appartements

Page 107: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 107

Bibliographie

AXA Belgium (2013), Assurances & Actuariat IARD, Document interne.

AXA France (2014), Guide technique MRH, Document interne.

Blueprint AGPC (2017), Best Practice du Groupe en matière de tarification, Document interne.

GUYADER Arnaud (2013), Régression linéaire

CHARPENTIER Arthur (2005), Mathématiques de l’assurance non-vie-Tome II : Tarification et

provisionnement, Economica.

CHARPENTIER Arthur (2010), Statistique de l’assurance

TOMAS Julien, Modèles Linéaires & GLM

JEROME H. FRIEDMAN (1999), Stochastic gradient boosting, Department of Statistics Stanford.

University.

MICHAL MALOHLAVA - ARNO CANDEL (2017), Gradient Boosting Machine with H2O.

Club Algo rapport d'études (2016), Institut des Actuaires.

WikiStat, Agrégation de modèles.

WikiStat, Apprentissage de données massives avec H2O.

R. TIMOFEEV (2004), Classification And Regression Trees. Master thesis, Humboldt University.

BREIMAN Leo, Machine Learning, University of California.

LOIRET Camille (2016), Refonte du tarif Multirisque Habitation : construction de micro zoniers et

intégration de la sinistralité passée à l’adresse, ISFA, Mémoire d’actuariat

GAHBICHE Mohamed (2017), Estimation de la Prime Pure Catastrophe Naturelles au travers des

données géographiques, ISFA, Mémoire d’actuariat

Page 108: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 108

Table des figures

Figure 1 - Nombre de contrat PNO par année ...................................................................................... 24

Figure 2 - Cotisations PNO (en K€) par année ....................................................................................... 24

Figure 3 - Répartition des PNO par type de bien .................................................................................. 25

Figure 4 - Comparaison du coût moyen appartement entre les PNO et les PO .................................... 26

Figure 5 - Comparaison du coût moyen maison entre les PNO et les PO ............................................. 26

Figure 6 - Comparaison de la fréquence de sinistralité appartement entre les PNO et les PO ............ 27

Figure 7 - Comparaison de la fréquence de sinistralité maison entre les PNO et les PO...................... 27

Figure 8 - Comparaison de la Prime Pure observée appartement entre les PNO et les PO ................. 28

Figure 9 - Comparaison de la Prime Pure observée maison entre les PNO et les PO ........................... 28

Figure 10 - Décomposition de la Prime Pure observée appartement pour les PNO et les PO ............. 29

Figure 11 - Décomposition de la Prime Pure observée maison pour les PNO et les PO ...................... 29

Figure 12 - Exemple pour déterminer un seuil d’écrêtement pour la garantie Dégâts des eaux

appartement. ......................................................................................................................................... 33

Figure 13 - Triangle de charges cumulées ............................................................................................. 35

Figure 14 - Illustration pour le calcul de l’indice de gini ........................................................................ 43

Figure 15 - Illustration pour le calcul de l’indice de gini en considérant un modèle saturé ................. 44

Figure 16 - Prime Pure observée en fonction du nombre de pièces ..................................................... 51

Figure 17 - Prime Pure observée en fonction de l’ancienneté du logement ........................................ 52

Figure 18 - Prime Pure observée en fonction de la présence ou non de la franchise........................... 52

Figure 19 - Prime Pure observée en fonction du nombre d’enfants ..................................................... 53

Figure 20 - Prime Pure observée en fonction de la zone dégât des eaux ............................................. 54

Figure 21 - Table de corrélation entre les différentes variables ........................................................... 55

Figure 22 - Pourcentage de de diminution de l’AIC à chaque ajout de variable explicative ................. 57

Figure 23 - Exemple de la variable ancienneté logement pour la comparaison entre la prime pure

prédite et observée ............................................................................................................................... 58

Figure 24 - Exemple de la variable ancienneté logement pour l’analyse des intervalles de confiance 59

Figure 25 - Exemple de la variable ancienneté logement pour l’analyse de la stabilité dans le temps 60

Figure 26 - Illustration des du principe du K-fold avec K=10 ................................................................. 63

Figure 27 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements

pour le GLM ........................................................................................................................................... 64

Figure 28 - Stabilité des coefficients estimés par le GLM sur chacun des folds. ................................... 64

Figure 29 - Les résidus de Pearson sur la base d’apprentissage ........................................................... 65

Figure 30 - Les résidus par rapport au critère de déviance sur la base d’apprentissage ...................... 65

Figure 31 - Analyse des tendances sur la base d’apprentissage ........................................................... 66

Figure 32 - Les résidus de Pearson sur la base test ............................................................................... 68

Figure 33 - Les résidus par rapport au critère de déviance sur la base test.......................................... 68

Figure 34 - Analyse des tendances sur la base test ............................................................................... 69

Figure 35 - Indice de gini pour le GLM sur base d’apprentissage ......................................................... 70

Figure 36 -Indice de gini pour le GLM sur base test .............................................................................. 70

Figure 37 - Représentation d’un noeud ................................................................................................ 73

Figure 38 - Représentation du concept de réduction d’impureté. Idée d’illustration par M.Gahbich . 73

Page 109: Page de garde Nassim KHEMLICHE - Institut des actuaires

P a g e | 109

Figure 39 - Importance relative des variables pour le GBM .................................................................. 78

Figure 40 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements

pour le GBM .......................................................................................................................................... 80

Figure 41 - Indice de gini pour le GBM sur base d’apprentissage ......................................................... 81

Figure 42 - Indice de gini pour le GBM sur base test ............................................................................ 81

Figure 43 - Importance relative des variables pour le Random Forest ................................................. 84

Figure 44 - Illustration des résultats du K-fold obtenus sur le modèle dégâts des eaux appartements

pour le Random Forest .......................................................................................................................... 86

Figure 45 - Indice de gini pour le Random Forest sur base d’apprentissage ........................................ 87

Figure 46 - Indice de gini pour le Random Forest sur base test ............................................................ 87

Figure 47 - Distribution prime commerciale Appartement ................................................................... 92

Figure 48 - Distribution prime commerciale Maison ............................................................................ 92

Figure 49 - Comparaison tarif appartement .......................................................................................... 93

Figure 50 - Comparaison tarif maison ................................................................................................... 94

Figure 51 - Écart relatif Appartement ................................................................................................... 95

Figure 52 - Écart relatif Maison ............................................................................................................. 95

Figure 53 - Arbre de décision pour les écarts tarifaires sur les appartements ..................................... 96

Figure 54 - Arbre de décision pour les écarts tarifaires sur les appartements maisons ....................... 97

Figure 55 - Distribution ELR ................................................................................................................... 99

Figure 56 - Application des arbres aux ELR ......................................................................................... 100