Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Mémoire présenté le :
Pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA et l’admission à
l’Institut des Actuaires
Par :
Titre :
Isabelle VIDAL
Prédiction de l’acte de résiliation et tarification de la garantie RC des jeunes
conducteurs
Confidentialité : NON OUI (Durée : 1 an 2 ans)
Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus.
Membre présents du jury de l’Institut
des Actuaires
Entreprise : AXA France.
Nom : Thomas GAUTHRON
Signature :
Membres présents du jury de l’ISFA Directeur de mémoire en entreprise.
Nom : Gérald LUCAS
Signature :
Invités.
Nom :
Signature :
Autorisation de publication et de mise en ligne sur un site de diffusion de documents actuariels
(après expiration de l’éventuel délai de confidentialité)
Signature du responsable entreprise
Secrétariat : Signature du candidat
Bibliothèque :
INSTITUT DE SCIENCE FINANCIERE ET D’ASSURANCES
Université Lyon 1
MEMOIRE D’ACTUAIRE
Prédiction de l’acte de résiliation et tarification de la garantie RC des jeunes conducteurs
ISABELLE VIDAL
TUTEUR ENTREPRISE : GERALD LUCAS
TUTEUR PEDAGOGIQUE : DIDIER RULLIERE
MEMOIRE CONFIDENTIEL
AXA FRANCE
313, Terrasses de l’Arche - 92727 NANTERRE Cedex
: +33 (0)1 47 74 10 01
: www.axa.fr
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 4
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 5
REMERCIEMENTS /
Je tiens à remercier M. Bruno FOUBERT, responsable de la direction de marché « Auto des
particuliers » et M. Thomas GAUTHRON, responsable de l’actuariat « Auto des particuliers » pour m’avoir
donné l’opportunité de réaliser mon mémoire d’actuariat au sein de leur service et pour toute l’attention
qu’ils ont su porter à mon étude.
Je remercie tout particulièrement M. Gérald LUCAS, mon responsable de stage, pour m’avoir
encadrée avec patience et pédagogie. Je le remercie de l’intérêt du sujet sur lequel j’ai travaillé durant
toute mon alternance. Je le remercie de m’avoir guidé tout au long de cette étude et d’avoir toujours été
disponible et de bon conseil pour pouvoir réaliser au mieux ce mémoire.
Je souhaite également remercier l’équipe de l’actuariat « Auto » ainsi que les alternants et
stagiaires du plateau pour l’aide qu’ils m’ont apportée lorsque j’en avais besoin et pour la bonne ambiance
qui régnait chaque jour.
Enfin, je remercie toute l’équipe pédagogique de l’Institut des Science Financière et d’Assurances pour
m’avoir apporté les connaissances théoriques nécessaires à la réalisation de ce mémoire, et plus
particulièrement M. Didier RULLIERE, mon tuteur pédagogique pour les bons conseils qu’il m’a prodigués
et qui m’ont aidé à la réalisation de ce mémoire.
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 6
RESUME /
Dans un contexte où les jeunes conducteurs de moins de 30 ans sont surreprésentés dans les
accidents de la route ainsi que dans les victimes, il est primordial pour AXA France de revoir son tarif sur
cette population. Le but de ce mémoire est donc de refondre la tarification des jeunes conducteurs.
L’autre problème majeur des jeunes conducteurs est leur manque de fidélité. En effet, beaucoup de
changements s’opèrent dans leur vie entre 18 et 25 ans. Il est donc intéressant de commencer par mener
une étude pour prédire l’acte de résiliation de ces jeunes conducteurs souvent sans antécédent
d’assurance.
La première partie de ce mémoire s’articule sur la prédiction de l’acte de résiliation des sans
antécédent d’assurance en empruntant différentes méthodes telles que la régression logistique et les
arbres de décision. Cette étude nous permet de distinguer les clients les plus fragiles en termes de
résiliation et donc de pouvoir prévoir des mesures tarifaires en conséquence. Le modèle construit à partir
de la régression logistique nous confère un taux de bon reclassement de 67% alors qu’il est de 70% par la
méthode des arbres de décision. Cet écart de trois points nous permet de confirmer l’hypothèse que les
modèles d’apprentissage statistique sont plus performants.
La deuxième partie de l’étude est axée sur la tarification de la garantie RC (Responsabilité Civile) des
jeunes conducteurs. Pour cela, nous avons commencé par modéliser la fréquence et le coût moyen
séparément. Nous rappelons que, si l’indépendance est démontrée, alors la prime pure s’obtient par le
produit de ces deux grandeurs. Après avoir sélectionné les variables significatives pour nos deux modèles
par la méthode Forward en utilisant le critère Bayesian Information Criterion, il suffit de valider nos modèles
en analysant nos variables choisies et en testant la robustesse et la stabilité sur une base de validation.
Dans la suite de cette partie, la modélisation de la prime pure directe est faite et est comparée à celle
obtenue par l’approche « fréquence * coût moyen ».
Enfin, une meilleure rentabilité est observée dans le modèle jeunes par rapport au tarif actuel grâce à
l’ajout de nouvelles variables tarifaires et une meilleure segmentation de celles déjà existantes.
Mots clés : résiliation, sans antécédent, jeunes conducteurs, régression logistique, arbres de décision,
scoring de fragilité, tarification, responsabilité civile automobile, fréquence, coût moyen, prime pure
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 7
ABSTRACT /
In an environment where young drivers under 30 years old are overrepresented in road accidents, as
well as victims, it is essential for AXA France to review its tariff on this population. The purpose of this
paper is to recast the pricing of young drivers.
The other major problem of young drivers is their lack of loyalty. Indeed, many changes occur in their
lives between 18 and 25 years old. Therefore, it is interesting to start the study predicting the insurer's
cancellation of these young drivers often without insurance history.
The first part of this thesis is based on the prediction of the non-experienced insurer’s cancellation
through several models such as logistic regression and decision trees. This study allows us to distinguish
the most vulnerable customers in terms of cancellation and then, be able to provide a better renewal
process of the tariff to this segment of risk. The model built from the logistic regression gives us an
accuracy rate of 67%, while the decision tree method returns a higher accuracy rate of 70%. The three
points of difference allows us to confirm the hypothesis that the statistical learning models are more
efficient.
The second part of the study focuses on the pricing of third party liability guarantee for young drivers.
For this, we started with modeling the frequency and severity, as the average cost. As a reminder, if
independence is demonstrated then the pure premium is obtained by the product of these two indicators.
After selecting the significant variables of our two models that came from use the Forward method with the
Bayesian Information criterion, the next step is to validate our models by analyze these variables and test
the robustness and stability over the validation database. In the rest of this section, the modeling of the
pure premium is made and compared with the obtained by the "Frequency *Severity" approach.
Finally, an improved profitability is observed in the young drivers’ model compared to the current tariff
thanks to the addition of new discriminatory factors and a better segmentation of the ones that already
exist.
Key words : cancellation, non-experienced drivers, young drivers, logistic regression, decision trees,
cancellation scoring, pricing, third party liability, frequency, severity, pure premium
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 8
SOMMAIRE /
Remerciements ............................................................................................................................................ 5
Résumé ........................................................................................................................................................ 6
Abstract ........................................................................................................................................................ 7
Sommaire ..................................................................................................................................................... 8
INTRODUCTION ........................................................................................................................................ 11
PRESENTATION DU CONTEXTE ............................................................................................................. 11
1 Présentation de l’entreprise ................................................................................................................ 12
1.1 Le groupe AXA ............................................................................................................................. 12
1.2 Une filiale française : AXA France ................................................................................................ 13
1.3 La direction de marché IARD – Auto du particulier ....................................................................... 13
2 Analyse du sujet ................................................................................................................................. 14
2.1 Panorama de la gamme automobile AXA ..................................................................................... 14
2.2 Le kit 1ère assurance auto ............................................................................................................. 15
2.2.1 Constats et objectifs .............................................................................................................. 15
2.2.2 L’offre « jeunes » ................................................................................................................... 16
2.3 Nécessité d’une nouvelle tarification auto sur les « jeunes » ........................................................ 17
PREMIERE PARTIE ................................................................................................................................... 18
PREDICTION DE L’ACTE DE RESILIATION DES SANS ANTECEDENT D’ASSURANCE ....................... 18
1 Mise en place d’indicateurs du taux de résiliation ............................................................................... 19
2 Constitution de la base de données .................................................................................................... 22
3 Sélection des variables associées à l’acte de résiliation ..................................................................... 25
3.1 Tris à plat, statistiques descriptives .............................................................................................. 25
3.2 Analyse des correspondances multiples ....................................................................................... 28
3.2.1 Principe de l’ACM .................................................................................................................. 28
3.2.2 Sélection et description des axes .......................................................................................... 28
3.2.3 Projection sur le plan formé par les deux premiers axes ........................................................ 30
4 Modélisation par la régression logistique ............................................................................................ 32
4.1 Choix du modèle logistique........................................................................................................... 32
4.2 Sélection des variables pertinentes .............................................................................................. 32
4.3 Validation du modèle et interprétation des coefficients ................................................................. 36
4.3.1 Validation du modèle ............................................................................................................. 36
4.3.2 Analyse des coefficients associés à chaque variable ............................................................ 37
5 Modélisation par arbre de décision ..................................................................................................... 39
5.1 Les points forts de l’arbre de décision .......................................................................................... 39
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 9
5.2 Création du premier arbre ............................................................................................................ 39
5.3 Sélection de l’arbre optimal ......................................................................................................... 40
5.4 Ajout d’une variable discriminante : la banque du conducteur ...................................................... 42
DEUXIEME PARTIE ................................................................................................................................... 45
VARIABLES EXPLICATIVES ET MODELISATION DE LA GARANTIE RC ................................................ 45
1 Constitution de la base de données finale ........................................................................................... 46
1.1 Périmètre de l’étude ..................................................................................................................... 46
1.2 Description des bases de données ............................................................................................... 47
1.3 Modification de la charge RC ........................................................................................................ 48
1.3.1 Mutualisation des charges fixes en RC matérielle ................................................................. 48
1.3.2 Ecrêtement et mutualisation des sinistres graves en RC corporelle ....................................... 50
1.4 Typologie de la base de données finale........................................................................................ 52
1.4.1 Description des variables à expliquer .................................................................................... 52
1.4.2 Quelques chiffres concernant la base de données finale ....................................................... 52
2 Etude sur nos variables tarifaires ........................................................................................................ 53
2.1 Tris à plat ..................................................................................................................................... 53
2.1.1 Evolution des indicateurs selon les variables tarifaires .......................................................... 53
2.1.2 Etude des corrélations ........................................................................................................... 58
3 Présentation des modèles linéaires généralisés ................................................................................. 62
3.1 Les composantes du modèle ........................................................................................................ 62
3.2 Qualité d’ajustement du modèle ................................................................................................... 64
4 Equivalence entre les deux approches de modélisation ...................................................................... 65
5 Choix des paramètres du modèle ....................................................................................................... 70
5.1 Choix d’une loi de probabilité ........................................................................................................ 70
5.1.1 Distribution de la fréquence ................................................................................................... 70
5.1.2 Distribution du coût moyen .................................................................................................... 72
5.2 Choix des variables à expliquer .................................................................................................... 74
5.3 Choix des variables explicatives ................................................................................................... 74
5.3.1 Méthodes de sélection ........................................................................................................... 74
5.3.2 Explication de la fréquence ................................................................................................... 74
5.3.3 Explication du coût moyen ..................................................................................................... 77
6 Lissage et Estimation des coefficients tarifaires .................................................................................. 79
7 Validation des modèles ....................................................................................................................... 82
7.1 Significativité des coefficients ....................................................................................................... 82
7.2 Comparaison entre nos indicateurs observés et modélisés .......................................................... 83
7.3 Analyse des résidus d’un modèle linéaire généralisé.................................................................... 83
7.4 Validation sur une base de « test » ............................................................................................... 85
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 10
8 Modélisation de la prime pure ............................................................................................................. 87
9 Recherche du modele le plus performant ............................................................................................ 92
TROISIEME PARTIE .................................................................................................................................. 94
IMPACT DES NOUVELLES VARIABLES TARIFAIRES ET MISE EN PLACE OPERATIONNELLE DU
MODELE JEUNES ..................................................................................................................................... 94
1 Comparaison du modèle jeunes avec le modèle actuel ...................................................................... 95
1.1 En termes de prime pure .............................................................................................................. 95
1.1.1 Ancienneté de permis ............................................................................................................ 95
1.1.2 Vitesse maximale .................................................................................................................. 96
1.1.3 Règles de tarif ....................................................................................................................... 97
1.1.4 Âge du conducteur principal .................................................................................................. 97
1.2 En termes de ratio de sinistralité................................................................................................... 98
1.2.1 Ancienneté de permis ............................................................................................................ 98
1.2.2 Vitesse maximale .................................................................................................................. 99
1.2.3 Règles de tarif ..................................................................................................................... 100
1.2.4 Âge du conducteur .............................................................................................................. 101
2 Application du scoring de résiliation .................................................................................................. 102
2.1 Suppression des personnes ayant tendance à résilier ................................................................ 102
2.2 Mise en place opérationnelle du scoring de résiliation ................................................................ 102
CONCLUSION ......................................................................................................................................... 103
FIN DE L’ETUDE ET PISTES A APPROFONDIR ..................................................................................... 103
Conclusion................................................................................................................................................ 104
Liste des figures ....................................................................................................................................... 105
Liste des tableaux ..................................................................................................................................... 107
Bibliographie ............................................................................................................................................. 108
ANNEXES ................................................................................................................................................ 109
Liste des annexes ..................................................................................................................................... 110
INTRODUCTION
PRESENTATION DU CONTEXTE
INTRODUCTION : Présentation du contexte
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 12
1 PRESENTATION DE L’ENTREPRISE /
1.1 Le groupe AXA
Le groupe AXA est un des premiers groupes mondial d’assurance et de gestions d’actif. Présent
dans 56 pays, 160 000 collaborateurs d’AXA s’engagent aux côtés de 102 millions de clients. C’est la
première marque mondiale d’assurance selon le classement Interbrand pour la 6ème année consécutive.
Les activités d'AXA sont géographiquement diversifiées, avec une concentration sur les marchés d'Europe,
d'Amérique du Nord et de la région Asie-Pacifique.
Figure 1-1 . Répartition du groupe AXA par pays (en % du chiffre d'affaires 2012)
Le cœur de métier d’AXA est de proposer différentes solutions d’assurance à ses clients (particuliers,
professionnels, entreprises ou institutions).
Le groupe est spécialisé dans plusieurs domaines : assurance de biens, assurance de personnes (santé,
prévoyance, épargne et retraite), gestion d’actif, assistance, banque et protection juridique.
En 2013, AXA a réalisé un chiffre d’affaires de 91,2 milliards d’euros, soit une augmentation de 2% en un
an. Le résultat opérationnel pour l’année passée est de 4 728 millions d’euros.
30%
24% 11%
9%
8%
8%
4% 4% 2%
Répartition géographique des activités d'AXA (en % du chiffre d'affaires 2013)
Région Europe du Nord, centrale et del'Est
France
Etats-Unis
Région Méditerranée et Amérique Latine
Asie (hors Japon)
Japon
R.U. et Irlande
Assurance internationale
Direct Dommages
INTRODUCTION : Présentation du contexte
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 13
1.2 Une filiale française : AXA France
AXA France est la filiale française du groupe AXA. 34 000 collaborateurs mettent tout en œuvre
pour satisfaire au mieux leurs 9 millions de clients.
L’ambition d’AXA France est de devenir la société préférée dans son secteur d’activité, et plus
particulièrement devenir la meilleure société de services. C’est pour cela qu’elle place le client au cœur de
ses actions.
AXA France se positionne en leader sur le marché. En effet, il est :
- 1er en assurance santé, prévoyance avec 15% de parts de marché
- 1er en assurances dommages avec 16% de parts de marché
- 3ème en assurance vie avec 8% de parts de marché
Au 31 décembre 2013, le chiffre d’affaires d’AXA France est de l’ordre de 21,6 milliards d’euros. La
répartition du chiffre d’affaires est la suivante :
Figure 1-2 . Répartition du chiffre d'affaires AXA France (en milliards d'euros)
1.3 La direction de marché IARD – Auto du particulier
La Direction de Marché IARD a pour rôle de définir et de mettre en œuvre les politiques techniques en
matière de produits d’assurances dommages, tant pour les nouveaux produits que pour la maintenance du
portefeuille.
Le service «Auto des Particuliers» conçoit des produits d’assurance automobile destinés uniquement aux
particuliers. Son rôle est essentiellement de créer et de tarifer les différents produits mais également
d’assurer leur suivi et de transmettre au reste du groupe les différents indicateurs de ce suivi (nombre
d’affaires nouvelles, nombre de résiliations, sinistralité d’un segment de population, calcul de chiffre
d’affaires, résultats techniques, etc.…). Les produits d’assurance automobile destinés aux particuliers
représentent 35% du chiffre d’affaires IARD d’AXA France. De ce fait, une étroite collaboration avec le
marketing, les bureaux d’études techniques et la direction financière est nécessaire afin de s’assurer qu’un
produit est adapté au marché et obtiendra une rentabilité suffisante. Il convient également d’être à l’écoute
des agents, notamment en ce qui concerne d’éventuelles demandes émanant des clients.
38%
30%
19%
13%
Répartition du chiffre d'affaires AXA France (en milliards d'euros)
Vie Individuelle
Vie Collectives
Dommages Particuliers etProfessionnels
Dommages Entreprises
INTRODUCTION : Présentation du contexte
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 14
2 ANALYSE DU SUJET /
2.1 Panorama de la gamme automobile AXA
Chez AXA, plusieurs offres commerciales automobiles sont proposées au client :
- Solution référence : formule générique où sont applicables les règles de souscription standard ;
- Bonus 50 > à 6 ans : le conducteur doit être bonus 50 depuis plus de 6 ans ;
- Auto/moto : formule proposée aux détenteurs de véhicule auto et moto ;
- Automobis : offre à destination des couples (mariés ou concubins) âgés de 25 à 60 ans possédant
2 véhicules et sans enfant en âge de conduire ;
- Enseignants : formule destinée aux enseignants de l’enseignement public et de l’enseignement
privé ;
- Forfait 8000 km : formule disponible sous certaines conditions pour les « petits rouleurs » qui font
moins de 8000 kilomètres par an;
- Monospace : offre proposée aux détenteurs de monospace, soucieux de transporter leur famille et
leurs biens en toute tranquillité ;
- Assurance auto pour les pros : offre dédiée aux artisans, commerçants et professions libérales, en
dehors de toute activité de transport rémunéré de voyageurs ou de marchandises ;
- Kit 1ère assurance auto : offre proposée aux sans antécédent d’assurance.
Une synthèse des différentes offres est présentée ci-dessous :
Figure 2-1 . Panorama de la gamme auto
INTRODUCTION : Présentation du contexte
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 15
21000
22000
23000
24000
25000
2004 2005 2006 2007 2008 2009
No
mb
re d
e r
ési
liati
on
Evol du nb de résiliations sur les SA
Nombre de résiliation
27% 22% 21%
27%
43%
55%
0%
20%
40%
60%
1ère année 2ème année 3ème année
Tau
x d
e r
ési
liati
on
Tx de résil. sur les Sans Antécédent
Taux de résiliation Taux de résiliation cumulé
2.2 Le kit 1ère assurance auto
2.2.1 Constats et objectifs
Constats
L’offre jeunes a été mise en place suite à des constatations concernant les affaires nouvelles et les
résiliations des sans antécédent.
Figure 2-2 . Evolution du nombre et de la part d'affaires nouvelles sur les Sans Antécédent
Sur les huit années précédant l’offre jeunes (c’est-à-dire de 2004 à 2011), nous observons une chute du
nombre d’affaires nouvelles des sans antécédent (perte de 25000 affaires nouvelles).
De même, concernant les résiliations, le graphique suivant présente l’évolution du nombre de résiliations et
les taux de résiliations vus à 1, 2 et 3 ans.
Figure 2-3 . Evolution du nombre de résiliation sur les Sans Antécédent // Taux de résiliation sur les Sans Antécédent
Le graphique de gauche montre que le nombre de résiliations baisse de 2000 en moins de 6 ans
sur les sans antécédent. Néanmoins, les taux de résiliations restent importants (27% la première année
comparé à 18% sur le reste du portefeuille). Le motif de résiliation prépondérant sur cette population est le
non-paiement. En effet, le taux de résiliation pour le non-paiement est de 9.5% la première année
(comparé à 1.5% sur le reste du portefeuille).
18,7% 17,9% 16,2% 15,9% 14,7%
14,5% 14,7% 15,0% 14,3% 13,8% 13,6%
0%
5%
10%
15%
20%
0
20000
40000
60000
80000
100000
2004 2005 2006 2007 2008 2009 2010 2011 2012 -Offre
jeunes
2013 2014*
% p
ar r
app
ort
au
to
tal d
es
AN
No
mb
re d
'aff
aire
s n
ou
velle
s
Evolution du nombre et de la part d'affaires nouvelles sur les Sans Antécédent
nb SA part(*) 2014 - 12 mois glissants à fin septembre.
INTRODUCTION : Présentation du contexte
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 16
Objectifs
C’est après toutes ces constatations qu’une nouvelle offre destinée aux jeunes conducteurs a été
mise en production en février 2012 pour principalement :
- Favoriser la vente de contrats « jeunes conducteurs » ;
- Lutter contre les résiliations des jeunes conducteurs ;
- Sensibiliser les jeunes au risque routier.
2.2.2 L’offre « jeunes »
L’offre « Jeunes Conducteurs » ou kit 1ère assurance auto est destinée aux sans antécédent
d’assurance et permet des avantages tarifaires à la souscription grâce à des clauses. Les sans antécédent
d’assurance sont soit les conducteurs avec moins de 12 mois consécutifs d’assurance dans les 24 derniers
mois soit les conducteurs avec 1 an d’antécédent d’assurance et ayant un ou plusieurs accidents
responsables au cours de cette année.
Réduction
« Enfant d’assuré » Clause TA1
Cible : Enfant d’assuré AXA en Auto
Objectif : Fidéliser les parents et les enfants clients AXA
-20% *
Réduction
« Bonus Parental » Clause TA2
Cible : Enfant d’assuré AXA en Auto de moins de 25 ans dont au moins un des parents a un Bonus/Malus** de 50% et sans sinistre dans les 36 derniers mois (tolérance 1 bris de glace), quelle que soit l’ancienneté du contrat.
Objectif : Fidéliser les parents « bons conducteurs » et conquérir leurs enfants
Jusqu’à
-25% *
Réduction
« Conduite accompagnée »
Clauses TDE, THF,
THG
Cible : 18 – 25 ans sans antécédent d’assurance ayant effectué la conduite accompagnée, la conduite supervisée ou la conduite encadrée
Objectif : Reconnaître et récompenser l’expérience de conduite acquise
Jusqu’à
-15% *
* Sur les garanties « Responsabilité civile » et « Dommages tous accidents ».
** Chaque année sans sinistre engageant la responsabilité de l’assuré entraîne une réduction de 5 % de ce
coefficient. Pour calculer le nouveau coefficient, il suffit de multiplier celui de l’année précédente par 0,95.
Le minimum est fixé à 0,50, ce qui correspond à un bonus de 50 %. Le maximum est de 3,50 car le
coefficient augmente de 25% par sinistre responsable.
Ces réductions sont cumulables dans la limite du tarif avec antécédents d’assurance et proposent un tarif
jusqu’à 40% moins cher que celui d’un sans antécédent sans avantage.
Les deux principaux objectifs de cette offre sont de redynamiser la vente de contrats et fidéliser les jeunes.
INTRODUCTION : Présentation du contexte
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 17
Pour les fidéliser et récompenser leur bonne conduite, AXA propose dans son offre un avantage
exclusif avec le bonus accéléré : 10% de réduction minimum sont appliqués automatiquement, sur la prime
TTC des 1ère et 2ème échéances principales pour les assurés ne déclarant aucun sinistre au cours de
chacune des 2 premières années d’assurance (tolérance 1 bris de glace).
Le kit contient un stage « bonne conduite » qui lui permet des réductions sur sa prime ainsi que
l’assistance « Joker ». Si l’assuré n’est pas en état de conduire, elle lui permet de prêter son véhicule sans
franchise prêt de volant ou de se faire ramener en taxi sous certaines conditions.
2.3 Nécessité d’une nouvelle tarification auto sur les « jeunes »
La population des jeunes conducteurs est une cible très prisée par les assureurs automobile.
L’objectif d’AXA France est d’augmenter son développement de 30% sur le segment des 18-30 ans. Pour
séduire cette population très convoitée, AXA France cherche des solutions d’assurances et des services
plus adaptés à leur besoin. C’est dans cette optique que l’offre « jeunes conducteurs » a été mise en place
en février 2012 avec la mise en place de nouveaux avantages tarifaires. Pour continuer dans cette
direction, il est intéressant de mener deux nouvelles études sur cette population dont les caractéristiques
principales sont le fort taux de résiliation et la grande sinistralité.
Les jeunes assurés de moins de 30 ans sont les personnes qui ont le plus de sinistres et dont le
coût des sinistres est le plus élevé. Des études montrent que la sinistralité des jeunes conducteurs est très
fortement liée à son éducation, son mode de vie, ses valeurs et ses ambitions et tout cela est reflété dans
nos variables explicatives telles que les variables véhicules, les variables géographiques et les variables
conducteurs. C’est également la population qui résilie le plus. Beaucoup de changements s’opèrent dans la
vie d’un jeune entre 18 et 25 ans. C’est pourquoi, la population des jeunes conducteurs est une population
à risque aux yeux des assureurs automobiles. Le challenge pour AXA France est de proposer une
protection efficace à ces jeunes conducteurs à un tarif juste. En effet, la sinistralité des jeunes conducteurs
s’améliore très vite au cours du temps. C’est aussi la période où les jeunes commencent à s’installer et à
s’équiper avec d’autres produits d’assurance. C’est donc dans l’intérêt d’AXA d’assurer ces jeunes et de
tout faire pour les garder dans son portefeuille.
Affaire nouvelle 1er
terme : -10%
au minimum
2ème
terme : -10%
au minimum
Année N Année N+1 Année N+2
PREMIERE PARTIE
PREDICTION DE L’ACTE DE RESILIATION
DES SANS ANTECEDENT D’ASSURANCE
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 19
Le marché de l’automobile est un marché extrêmement concurrentiel. Plus les primes sont élevées,
moins les assurés souscrivent ou restent chez AXA. A l’inverse, plus les primes sont faibles, plus les
assurés souscrivent ou restent car le produit est plus attractif par rapport à la concurrence.
Il semble alors intéressant d’observer dans quelle mesure les assurés sont sensibles aux prix et ainsi, de
déterminer les caractéristiques liées à l’acte de résiliation chez les sans antécédents. Nous procéderons de
deux manières :
- Prédiction de l’acte de résiliation par une régression logistique
- Prédiction de l’acte de résiliation par des arbres de décision
1 MISE EN PLACE D’INDICATEURS DU TAUX DE RESILIATION /
Cette première étude fait suite à des observations sur le taux de résiliation des sans antécédent
d’assurance.
Le taux de résiliation a été observé sur les sans antécédent de 2011 avant l’ « offre jeunes » et sur les
sans antécédent de 2012 après l’« offre jeunes ». Nous regardons un an après l’affaire nouvelle de 2011
ou de 2012 si la personne est toujours dans le portefeuille tous motifs de résiliation confondus.
Le graphique suivant représente les taux de résiliation vu un an après.
Figure 1-1 . Taux de résiliation des sans antécédent avant et après l'offre Jeunes
Nous constatons une perte d’environ 3 points sur le taux de résiliation après le lancement de l’offre Jeunes
en février 2012.
30,6% 30,5%
31,6% 31,5% 31,5%
30,9%
31,3%
32,1%
29,7%
30,7%
31,6% 31,6%
31,1%
33,4%
29,0%
28,6%
29,3% 29,2%
28,0%
29,9%
28,6% 28,5%
28,0% 27,9%
28,7%
29,8%
29,0%
31,4%
29,4%
30,4%
29,2% 29,5%
30,8%
29,0%
30,2%
27%
28%
29%
30%
31%
32%
33%
janv. fév. mars avr. mai juin juil. août sept. oct. nov. nov. déc.
Taux de résiliation vu à 1 an
2011 2012 2013
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 20
De plus, nous pouvons nous demander si cette baisse du taux de résiliation n’est pas dû à un effet mix,
c’est-à-dire au fait que la répartition entre les sans antécédent de moins de 30 ans et ceux de plus de 30
ans soit différente d’une année à l’autre. En effet, le taux de résiliation est plus fort chez les sans
antécédent de plus de 30 ans.
Le tableau suivant présente la répartition et les taux de résiliation observés avant la mise en place de l’offre
Jeunes.
Tableau 1-1 . Taux de résiliation observés avant la mise en place de l'offre Jeunes
Avant l’offre « jeunes », les sans antécédent sont répartis comme suit :
- 72% ont moins de 30 ans ;
- 28% ont plus de 30 ans
Le tableau suivant présente la répartition et les taux de résiliation observés après la mise en place de l’offre
Jeunes.
Tableau 1-2 . Taux de résiliation observés après la mise en place de l'offre Jeunes
Après l’offre « jeunes », les sans antécédent sont répartis de la manière suivante :
- 74% ont moins de 30 ans ;
- 26% ont plus de 30 ans
Le taux de résiliation observé en 2012 est de 28.85% avec la répartition des sans antécédent 2012 et le
taux de résiliation observé en 2011 est de 31.39% avec la répartition 2011 et 31.08% avec la répartition
2012.
Finalement, la baisse du taux de résiliation de -2.54 points est expliquée par :
- -0.31 points dû au mix de portefeuille, c’est-à-dire au changement de répartition ;
- -2.23 points dû à l’offre Jeunes
MARS 2011 JANV 2012 Répartition Taux de résiliation
Sans antécédent < 30 ans 72,13% 26,92%
Sans antécédent > 30 ans 27,87% 42,98%
31,39%
MARS 2012 JANV 2013 Répartition Taux de résiliation Taux de résiliation N-1
Sans antécédent < 30 ans 74,12% 25,70% 26,92%
Sans antécédent > 30 ans 25,88% 37,85% 42,98%
28,85% 31,08%
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 21
Enfin, l’écart de résiliation est expliqué par une meilleure sélectivité des sans antécédent (et plus
précisément les enfants d’assurés). Le graphique suivant présente les taux de résiliation des principaux
motifs des résiliations des sans antécédent.
Figure 1-2 . Taux de résiliation des principaux motifs des résiliations des sans antécédent
La baisse du taux de résiliation s’explique donc par la baisse des résiliations compagnie et plus
particulièrement par la baisse des résiliations pour non-paiement.
Dans l’optique de réduire le taux de résiliation chez les sans antécédent, le but de la première étude est
de :
- Observer dans quelle mesure les assurés sont sensibles aux prix ;
- Déterminer les caractéristiques liées à l’acte de résiliation chez les sans antécédent.
En résumé :
L’offre « jeunes conducteurs » a permis de sélectionner les bons risques et de fidéliser les sans antécédent d’assurance grâce aux avantages tarifaires issus de la clause conduite accompagnée (en effet, des conducteurs ayant effectué la conduite accompagnée disposent d’une expérience sur la route de deux ans de plus et sont donc de meilleurs risques) et des clauses enfant d’assuré et bonus parental (les enfants des bons conducteurs sont en majorité de nouveaux bons conducteurs).
Entre les taux de résiliations avant offre jeunes (i.e. mars 2011 à janvier 2012) et après offre jeunes (i.e. mars 2012 à janvier 2013), la diminution est en moyenne de 2,55 points avec une diminution conséquente de 3,61 points pour les mois de novembre et janvier.
Pour continuer dans cette lancée, la mise en place d’un scoring de résiliation à la souscription semble être un choix judicieux.
0%
2%
4%
6%
8%
10%
12%
14%
Principaux motifs des résiliations des SA - Taux de résiliation
Résil échéance Résil Châtel Résil non-paiement Résil vente Résil autres
OFFRE JEUNES
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 22
2 CONSTITUTION DE LA BASE DE DONNEES /
Dans un premier temps, il est nécessaire de constituer la base de données que nous allons utiliser pour
prédire l’acte de résiliation chez les « jeunes ».
Nous décidons de constituer notre base de données sur deux populations de sans antécédent :
- Les sans antécédent de mars 2011 à janvier 2012 avant l’offre « jeunes conducteurs »
- Les sans antécédent de mars 2012 à janvier 2013 après l’offre « jeunes conducteurs »
Il est très important de considérer séparément ces deux populations de sans antécédent car elles sont
différentes.
Les contrats suspendus sont comptés en tant que résiliés. Ils représentent 2,5% de notre base de
données.
Nous découpons la base en deux parties : 70% de cette base constitue notre base d’apprentissage et les
30% complémentaire correspondent à la base de test.
Nous avons donc un taux de résiliation à 32,16% sur 70% de la base et 32,13% sur la base totale.
L’analyse des correspondances multiples suivante démontre bien ce résultat.
Principe de l’ACM
L’analyse des correspondances multiples permet d’identifier des groupes de personnes avec des
caractéristiques communes. Elle permet de voir les oppositions et proximités pouvant exister entre les
modalités d’une même variable d’une part, et entre les modalités de variables différentes d’autre part.
Le tableau d’individus est un tableau disjonctif complet noté 𝑋, c’est-à-dire que chaque ligne correspond à
un individu parmi les 𝑛 et chaque colonne correspond à une modalité parmi les 𝐾 au total pour 𝑝 variables
explicatives. Les observations 𝑥𝑖𝑗 sont codées avec 1 si l’individu 𝑖 a la modalité 𝑗, 0 sinon.
Nous appelons tableau de Burt 𝐵 = 𝑋𝑡𝑋. Le tableau de Burt peut être vu comme une juxtaposition de
tableaux de contingence. C’est une matrice carrée symétrique et si nous considérons les données de 𝑋
comme des observations de variables qualitatives alors le tableau de Burt représente la matrice de
variance de 𝑋 à un facteur multiplicatif près.
L’ACM consiste donc à représenter les modalités de variables qualitatives dans un espace euclidien dans
lequel les distances dues entre deux modalités d’une variable sont préservées au mieux.
Pour plus d’informations sur les ACM, sur la sélection des variables et sur l’interprétation des axes,
voir la rubrique « 3.2 Analyse des correspondances multiples ».
Les variables explicatives sélectionnées étaient les suivantes :
Type de garantie, marque du véhicule, énergie du véhicule, ancienneté du véhicule, sexe du
conducteur, zone RC, segment du véhicule, la carrosserie et la classe de prix.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 23
Les axes d’étude s’expliquent comme suit :
- Axe 1 : la carrosserie, la classe de prix, l’énergie, le segment et la vitesse maximale
- Axe 2 : la classe de prix, l’énergie, les garanties, le segment et la vitesse maximale
Le premier axe oppose deux catégories d’individus.
Du côté gauche de l’axe, nous trouvons :
les véhicules de segment A ;
la classe de prix est inférieure à la classe E ;
la vitesse maximale du véhicule est inférieure à 160 km/h ;
l’énergie utilisée est l’essence ;
la garantie choisie est la garantie RC.
Le côté droit de l’axe est représenté par :
les véhicules de segment M2 et H ;
la classe de prix est supérieure à la classe L ;
la vitesse maximale du véhicule est supérieure à 190 km/h ;
les carrosseries de type « Break, Minibus, Coupé, Cabriolet, 4x4, Monospace, Ludospace ».
Le deuxième axe d’étude oppose les véhicules « moyens » possédant une classe de prix de F à H, dont la
vitesse maximale est comprise entre 160 et 170 km/h et dont le conducteur s’est assuré tous risques aux
véhicules situés aux extrêmes i.e. les véhicules de classe inférieure à E, de segment A et dont la vitesse
maximale est inférieure à 150 km/h et les véhicules de classe supérieure à L, de segment M2 et H et dont
la vitesse est supérieure à 190 km/h.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 24
Figure 2-1 . Analyse des correspondances multiples sur les sans antécédent de 2011 et de 2012
Nous distinguons alors, deux profils de sans antécédent distincts :
- Les sans antécédent de 2011 sont des personnes utilisant des véhicules de segment A et de classe de prix inférieure à E dont la vitesse maximale est inférieure à 160 km/h. Ils utilisent principalement des véhicules « Essence » et ils ont choisi de s’assurer au tiers.
- Les sans antécédent de 2012 sont des personnes utilisant des véhicules de segment M1 et de classe de prix moyenne (classes I, J, K) dont la vitesse maximale est comprise entre 171 et 190 km/h. Ils utilisent des véhicules « Diesel » et ils optent pour le deuxième niveau de garantie IV.
Il semblerait donc que l’ « offre jeunes » ait permis de conquérir des conducteurs ayant des primes plus
élevées (plus de garanties avec des véhicules plus onéreux).
En résumé :
L’offre « jeunes conducteurs » a permis de conquérir de nouveaux conducteurs et le profil de ces nouveaux sans antécédent est différent de celui des sans antécédent ayant effectué leurs affaires nouvelles avant l’offre « jeunes ». Ces nouveaux sans antécédent semblent posséder des véhicules plus onéreux avec des garanties plus importantes que seulement la formule Tiers.
Autres carrosseries
Berlines Camionnettes
Monospaces
Classes A B C D E
Classes F G H
Classes I J K
Classes L à Z5
Diesel
Essence Gar RC
Gar IV
Gar DO
Seg A
Seg B
Seg M1
Seg M2
Seg H + autres
<= 150 km/h >= 190 km/h
151 - 160 km/h
161 - 170 km/h
171 - 180 km/h
181 - 190 km/h
SA 2011
SA 2012
-1,00
-0,50
0,00
0,50
1,00
1,50
2,00
-1,50 -1,00 -0,50 0,00 0,50 1,00 1,50 2,00
AX
E 2
AXE 1 carrosserie classeprix energie garanties segmentveh vitessemax sans_antecedents
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 25
3 SELECTION DES VARIABLES ASSOCIEES A L’ACTE DE
RESILIATION /
Le but de l’étude préliminaire est de savoir avec quelle probabilité un sans antécédent qui rentre
dans le portefeuille en affaire nouvelle va résilier au bout d’une année. Dans ce but, il semble évident de ne
garder que des variables disponibles à la souscription recensées ci-dessous :
Le fractionnement Le nombre de permis au foyer
L’ancienneté de permis La classe de réparation
Le réseau de distribution Le niveau de garantie
La zone RC
Le prélèvement automatique
Le type de garage La situation matrimoniale
Le coefficient agent
La clause TDE
La région AXA
La marque du véhicule
Le segment du véhicule La clause TA1
Le type de population
Le type d’énergie L’alimentation du véhicule
La clause TA2
L’usage du véhicule L’ancienneté du véhicule La vitesse
Le nombre de véhicules au foyer
L’âge du conducteur
La classe de prix
3.1 Tris à plat, statistiques descriptives
Dans un premier temps, nous avons effectué des tris à plat pour détecter les modalités avec les
taux de résiliation les plus élevés et les moins élevés.
Nous représentons dans le tableau suivant les 15 modalités avec le taux de résiliation le plus faible.
Bonus parental 12,10% Fractionnement annuel 19,61%
Conduite accompagnée 13,53% Ancienneté de permis inférieure à 1 an 20,47%
Nombre de permis au foyer supérieur à 3
13,72% Ancienneté de véhicule inférieure à 5
ans 23,30%
Nombre de véhicules au foyer supérieur à 3
14,51% Zone RC 1 & 2 23,79%
Etudiants 15,24% Segment A 23,96%
Enfant d’assuré 16,03% Coefficient agent inférieur à 0,66 24,16%
Age inférieur à 20 ans 18,37% Personnes célibataires 25,43%
Garantie Dommage 18,63%
Tableau 3-1 . Modalités ayant le taux de résiliation le moins élevé
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 26
Nous constatons que les personnes qui résilient le moins sont des personnes qui ont les clauses « enfant
d’assuré », « bonus parental » et « conduite accompagnée ». Ce sont également des personnes qui ont le
profil des sans antécédent majoritaires c’est-à-dire des étudiants célibataires avec une ancienneté de
permis inférieure à 1 an. Le nombre de permis et de véhicules au foyer supérieur à 3 indique sûrement un
étudiant vivant encore chez ses parents.
Nous représentons dans le tableau suivant les 15 modalités avec le taux de résiliation le plus élevé.
Segment H 50,06% Ancienneté de permis entre 1 et 4 ans 43,85%
Segment M2 47,72% Age entre 51 et 60 ans 42,58%
Alimentation INS GNV HES 46,79% Situation matrimoniale autre que
célibataire et marié 42,45%
Ancienneté de permis entre 5 et 14 ans
46,01% Personnes mariées 42,10%
Classe de prix supérieure à L 45,47% Usage privé 41,57%
Age entre 41 et 50 ans 45,37% Non enfant d’assuré 41,51%
Vitesse maximale supérieure à 190 km/h
45,24% Ancienneté de permis supérieure à 15
ans 41,25%
Age entre 26 et 30 ans 44,67%
Tableau 3-2 . Modalités ayant le taux de résiliation le plus élevé
Les contrats les plus résiliés sont ceux qui possèdent un gros véhicule onéreux, qui ne disposent pas de
clauses du kit 1ère assurance auto, qui ne sont pas célibataires et dont l’âge est supérieur à 26 ans. En
d’autres termes, ce sont des profils de sans antécédent rares.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 27
Par la suite, nous avons effectué des tris à plat sur chaque variable définie au-dessus. Ces analyses sont
liées aux deux tableaux précédents et nous permettent de nous faire une idée sur les variables liées à
l’acte de résiliation chez les sans antécédent.
Un exemple est donné en dessous avec une variable significative qui est la clause « enfant d’assuré ». Les
autres graphiques se situent en Annexe 1.
Figure 3-1 . Exemple de tri à plat avec la clause "enfant d'assuré"
L’axe des abscisses représente les modalités de la variable, celui des ordonnées primaires représente le
taux de résiliation et enfin, l’axe des ordonnées secondaires représente le pourcentage d’années police.
Les conclusions de ces tris à plat sont les suivantes :
- Le fait de disposer d’une des trois clauses fait diminuer le taux de résiliation ;
- Plus l’ancienneté de permis est importante, plus le taux de résiliation augmente ;
- Le prélèvement automatique est lié à la résiliation ;
- Le taux de résiliation augmente avec le segment du véhicule ;
- Le taux de résiliation augmente avec l’ancienneté de permis, l’ancienneté du véhicule et la zone
RC ;
- Enfin, les étudiants, les personnes assurées tous risques, les personnes en fractionnement annuel
et les personnes de moins de 20 ans sont les personnes qui résilient le moins dans leurs catégories
respectives.
63,22%
36,78%
41,41%
16,26%
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
45,00%
TA1 NON TA1 OUI
Par
t d
es
con
trat
s
Tau
x d
e r
ési
liati
on
ob
serv
é
Enfant d'assuré
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 28
3.2 Analyse des correspondances multiples
3.2.1 Principe de l’ACM
Avant d’opter pour une modélisation, il semble intéressant de dissocier la population de sans
antécédent qui résilie et celle qui ne résilie pas en plus des statistiques descriptives ci-dessus.
Pour comprendre le principe de l’ACM, voir dans la rubrique « 2 Constitution de la base de données ».
3.2.2 Sélection et description des axes
Nous avons sélectionné 15 variables explicatives parmi les variables citées ci-dessus et la variable à
expliquer est l’acte de résiliation avec comme modalités :
- 0 si la personne n’a pas résilié au bout d’un an dans le portefeuille ;
- 1 si la personne a résilié.
Pour sélectionner le nombre d’axes à garder pour notre étude, nous avons utilisé le critère de J.P.
Benzécri. Le pourcentage cumulé d’inertie des deux premières valeurs propres doit être supérieur à 70%.
Figure 3-2 . Inertie des axes de l'ACM
Le pourcentage cumulé des deux premiers axes est de 80,68% donc nous conservons seulement deux
axes.
Pour déterminer les variables significatives qui vont rentrer en jeu dans notre interprétation, nous étudions
les contributions à l’inertie. Nous sélectionnons les variables qui ont au moins deux modalités dont l’inertie
par axe est supérieure à l’inertie moyenne :
𝐼𝑛𝑒𝑟𝑡𝑖𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 = 1
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑑𝑎𝑙𝑖𝑡é𝑠
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Po
urc
en
tage
de
l'in
ert
ie t
ota
le
Axe
Inertie des axes de l'ACM
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 29
Le tableau suivant représente les variables et les modalités qui sont représentatives pour l’analyse des
correspondances multiples. La contribution et la coordonnée pour les deux axes sont également indiquées.
Variables Modalités Axe 1 Axe 2
Coordonnée Contribution Coordonnée Contribution
Enfant d'assuré NON 0,60 5,60% 0,04 0,04%
OUI -1,03 9,63% -0,06 0,07%
Profession
autres professions 0,60 1,57% 0,45 1,60%
salariés 0,39 2,01% -0,21 1,06%
étudiants -1,04 8,09% 0,11 0,17%
Garanties
DO -0,49 0,91% 1,28 11,35%
IV -0,20 0,23% -0,07 0,06%
RC 0,20 0,62% -0,29 2,33%
Ancienneté de permis
<= 1 an -0,72 6,40% -0,14 0,45%
1 - 4 ans 0,29 0,35% -0,35 0,96%
5 - 14 ans 0,90 3,70% 0,03 0,01%
>= 15 ans 1,00 3,62% 0,84 4,80%
Fractionnement
annuel -0,56 2,15% 0,88 9,86%
mensuel 0,20 0,68% -0,43 5,96%
semestriel 0,35 0,15% 1,18 3,05%
Bonus parental NON 0,42 3,28% 0,00 0,00%
OUI -1,29 10,11% 0,00 0,00%
Alimentation du véhicule
ELC+GPL+CAR -0,03 0,00% -0,56 1,03%
IDS 0,12 0,11% 0,66 6,06%
INJ -0,13 0,22% -0,25 1,63%
INS+GNV+HES+HGO 0,64 0,60% -0,25 0,18%
Prélèvement automatique
NON -0,33 1,00% 0,80 10,68%
OUI 0,19 0,56% -0,45 5,97%
Age du conducteur
<= 20 ans -0,94 8,74% -0,03 0,01%
21 - 25 ans 0,12 0,08% -0,46 2,13%
26 - 30 ans 0,70 1,41% -0,18 0,17%
31 - 40 ans 0,95 3,04% 0,19 0,23%
41 - 50 ans 1,02 2,04% 0,57 1,19%
>= 61 ans 1,00 1,37% 1,08 3,01%
Ancienneté du véhicule
<= 5 ans -0,19 0,13% 1,33 11,61%
6 - 7 ans -0,03 0,00% 0,61 1,37%
8 - 9 ans -0,02 0,00% 0,28 0,42%
<= 10 ans 0,05 0,04% -0,40 5,01%
Acte de résiliation
NON RESILIATION -0,22 0,07
RESILIATION 0,47 -0,15
Tableau 3-3 . Coordonnées et contributions à l'inertie des variables
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 30
Dans notre cas, l’inertie moyenne est de 1 64⁄ = 1,56%.
L’axe 1 nous renseigne sur le conducteur c’est-à-dire la présence des clauses « enfant d’assuré » et
« bonus parental », la profession, l’ancienneté de permis et l’âge du conducteur.
L’axe 1 oppose deux catégories d’individus.
- Du côté gauche de l’axe, nous retrouvons des étudiants de moins de 20 ans avec une ancienneté
de permis inférieure à 1 an et disposant des clauses « enfant d’assuré » et « bonus parental ».
- De l’autre côté, nous apercevons des personnes non étudiantes âgées de plus de 26 ans dont
l’ancienneté de permis et supérieure à 5 ans. Cette population ne dispose pas des clauses « enfant
d’assuré » et « bonus parental ».
L’axe 2 nous renseigne sur le contrat c’est-à-dire le niveau de garantie, le fractionnement, l’alimentation du
véhicule, le prélèvement automatique et l’ancienneté du véhicule.
- En haut de l’axe, nous trouvons des personnes assurées tous risques qui payent annuellement ou
semestriellement mais pas en prélèvement automatique et dont l’ancienneté de véhicule est
inférieure à 10 ans.
- En bas de l’axe, nous avons des personnes assurées au Tiers et Tiers étendu qui payent en
prélèvement automatique mensuellement. L’ancienneté de véhicule de ces personnes est
supérieure à 10 ans.
3.2.3 Projection sur le plan formé par les deux premiers axes
Après avoir interprété les axes de l’analyse des correspondances multiples, nous pouvons dresser
un profil pour chaque catégorie d’individus : les personnes qui résilient et celles qui ne résilient pas.
Le graphique suivant présente les modalités des variables sélectionnées dans le plan factoriel. Le groupe
des résiliés figure en rouge alors que le groupe des non résiliés figurent en vert. Il est intéressant de
remarquer que nous arrivons aux mêmes conclusions qu’avec les statistiques descriptives précédentes.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 31
Figure 3-3 . Analyse des correspondances multiples sur les sans antécédent qui résilient et ceux qui ne résilient pas
En résumé :
L’étude des tris à plat et l’analyse des correspondances multiples permettent de dissocier deux catégories de profils : ceux qui ont plus tendance à résilier et ceux qui restent dans le portefeuille un an après tous motifs de résiliation confondus. Les mauvais risques du portefeuille i.e. ceux qui résilient un an après l’affaire nouvelle semblent être les « faux » sans antécédent.
On définit les « faux » sans antécédent comme étant des personnes âgées de plus de 26 ans, non célibataires, non étudiants donc étant déjà dans la vie active et fractionnant mensuellement. Ils sont détenteurs de gros véhicules onéreux et ayant une vitesse élevée.
TA1 NON
TA1 OUI
csp autre
salariés
étudiants
DO
IV RC ancp -1an
ancp 1-4ans
ancp 5-14ans
ancp +15ans annuel
mensuel
semestriel
TA2 NON
TA2 OUI
ELC+GPL+CAR
IDS
INJ INS+GNV+HES+HGO
prelauto NON
prelauto OUI
<=20ans
21-25ans
26-30ans
31-40ans
41-50ans
>=51ans
ancv -5 ans
ancv 6-7ans
ancv 8-9ans
ancv +10ans
NON RESILIATION
RESILIATION
-1,0
-0,5
0,0
0,5
1,0
1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Axe
2
Axe 1
ACM: Profil des résiliés et des non résiliés
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 32
4 MODELISATION PAR LA REGRESSION LOGISTIQUE /
La première méthode pour modéliser l’acte de résiliation chez les sans antécédent est d’utiliser la
régression logistique.
4.1 Choix du modèle logistique
Le but est donc de modéliser l’acte de résiliation à 2 modalités : 1 ou 0, résiliation ou non résiliation, à
partir de variables explicatives.
Soit 𝑍 l’évènement « acte de résiliation » qui est notre variable à expliquer, nous disposons alors de deux
probabilités :
- 𝑃(𝑍 = 1) correspond à la probabilité que l’acte de résiliation survienne ;
- 𝑃(𝑍 = 0) correspond à la probabilité qu’il ne survienne pas.
L’idée est de modéliser les probabilités de résilier ou non conditionnellement aux variables explicatives
sélectionnées :
𝜋(𝑥) = 𝑃(𝑍 = 1|𝑋 = 𝑥) 𝑒𝑡 1 − 𝜋(𝑥) = 𝑃(𝑍 = 0|𝑋 = 𝑥)
Notre modèle s’écrit alors :
𝑔(𝜋(𝑥)) = 𝑋. 𝛽
Avec g une fonction lien à définir, 𝛽 le vecteur des coefficients de régression et 𝑋 le vecteur des variables
explicatives. Pour choisir notre fonction lien, il faut s’apercevoir que 𝜋(𝑥) est borné entre 0 et 1 et que 𝑋. 𝛽
peut prendre des valeurs sur tout 𝑅. La régression logistique consiste à modéliser la transformation
𝑙𝑜𝑔𝑖𝑡 de 𝜋(𝑥) par une fonction linéaire de nos 𝑝 variables explicites :
𝑙𝑜𝑔𝑖𝑡 (π (𝑥)) = ln π (𝑥)
1 − π (𝑥)= 𝛽0 + ∑ 𝛽𝑗𝑥𝑗
𝑝
𝑗=1
Ce modèle s’écrit également :
π (𝑥) =exp(𝛽0 + ∑ 𝛽𝑗𝑥𝑗
𝑝𝑗=1 )
1 + exp (𝛽0 + ∑ 𝛽𝑗𝑥𝑗)𝑝𝑗=1
4.2 Sélection des variables pertinentes
Grâce aux analyses univariées précédentes, nous avons déjà une idée sur les variables qui peuvent
rentrer en jeu dans la prédiction de l’acte de résiliation. Pour confirmer ces hypothèses, nous allons
sélectionner nos variables grâce à la méthode Forward.
La méthode Forward consiste à intégrer les variables une par une dans le modèle si elles s’avèrent
significatives. Nous arrêtons d’intégrer des variables dans le modèle lorsque le fait d’intégrer une variable
en plus n’apporte rien au modèle.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 33
Nous avons utilisé deux critères pour sélectionner nos variables :
- Critère AIC (Akaike Information Criterion) :
𝐴𝐼𝐶 = 2. 𝑘 − 2. log (𝐿)
- Critère BIC (Bayesian Information Criterion) :
𝐵𝐼𝐶 = −2. log(𝐿) + log(𝑛) . 𝑘
Où 𝐿 est la vraisemblance du modèle et est définie comme suit :
Soit un échantillon (𝑌1; 𝑌2; … ; 𝑌𝑛) où 𝑌𝑖 ~ 𝐵𝑒𝑟𝑛𝑜𝑢𝑖𝑙𝑙𝑖(𝜋(𝑥𝑖)), la vraisemblance de cet échantillon est égale
à :
𝐿 = ∏ 𝑃(𝑌𝑖 = 𝑦𝑖)
𝑛
𝑖=1
= ∏ 𝜋(𝑥𝑖)𝑦𝑖 (1 − 𝜋(𝑥𝑖))1−𝑦𝑖
𝑛
𝑖=1
Nous décidons de sélectionner au maximum 20 variables pour chaque critère. Nous remarquons
que par critère BIC, la méthode Forward estime que le modèle est stable avec seulement 17 variables.
Figure 4-1 . Sélection des variables par critère AIC
88000,00
90000,00
92000,00
94000,00
96000,00
98000,00
100000,00
102000,00
Sélection des variables par critère AIC
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 34
Figure 4-2 . Sélection des variables par critère BIC
Les variables sélectionnées par chacun des deux critères se ressemblent fortement et cela conforte
nos analyses univariées. Nous remarquons que les cinq variables explicatives (enfant d’assuré, type de
population, niveau de garantie, ancienneté de permis et fractionnement) sont celles qui expliquent le plus
notre acte de résiliation.
Pour sélectionner notre modèle, nous allons nous baser sur plusieurs critères. Le tableau ci-dessous
recense les critères qui nous ont permis de sélectionner le meilleur modèle. Les critères ont été calculés
sur les modèles avec seulement 17 variables pour chaque critère.
Critères AIC Taux de paires
concordantes Courbe ROC
Taux de bon reclassement
Taux de bon reclassement sur une base
de test
Critère AIC 93370 73,10% 73,30% 67,10% 66,82%
Critère BIC 93421 73,10% 73,20% 67% 66,94%
Tableau 4-1 . Critères de sélection du modèle optimal
Nous rappelons la définition des différents critères :
- AIC (Akaike Information Criterion) à minimiser ;
- Taux de paires concordantes : nous considérons toutes les paires d’observations ayant des valeurs
observées de 𝑍 différentes, soit 1 ou 0. Une paire est dite concordante si l’observation "𝑌 = 1" a
une probabilité plus grande que celle de l’observation "𝑌 = 0". Le but est de maximiser ce critère ;
90000,0091000,0092000,0093000,0094000,0095000,0096000,0097000,0098000,0099000,00
100000,00101000,00
Sélection des variables par critère BIC
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 35
- Courbe ROC : le but est de se rapprocher au maximum de 100%, ce qui signifie que le modèle est
de mieux en mieux ;
- Taux de bon reclassement : il est défini comme étant la part d’observations dont la variable à
expliquer est bien prédite. Le but est de le maximiser.
En comparant les deux modèles, l’un d’entre eux semble légèrement meilleur que l’autre. Nous choisissons
de conserver le modèle sélectionné avec le critère AIC.
La régression logistique s’effectue donc avec les 17 variables sélectionnées par le critère AIC. Nous
cherchons alors combien de variables nous allons garder dans notre régression logistique. Plus de
variables seront intégrées au modèle, plus celui-ci sera robuste mais plus sa prédiction sera faible sur un
autre échantillon de données et inversement. Nous regardons tous les critères pour sélectionner le nombre
de variables à prendre en compte.
Modèle testé Taux de paires concordantes
Aire sous la courbe
ROC AIC
Taux de bon reclassement
Taux de bon reclassement sur la base de
test
Avec les 17 variables les plus pertinentes
73,10% 73,30% 93370 67,10% 66,82%
Avec les 16 variables les plus pertinentes
73,10% 73,20% 93400 67,10% 66,94%
Avec les 15 variables les plus pertinentes
73% 73,20% 93482 67% 67,02%
Avec les 14 variables les plus pertinentes
73% 73,10% 93543 67% 66,87%
Avec les 13 variables les plus pertinentes
72,90% 73% 93619 66,90% 66,94%
Tableau 4-2 . Sélection du nombre de variables pour notre modèle
Le modèle avec les 15 variables semble meilleur que tous les autres. En effet, c’est le seul qui
appréhende aussi bien la base d’apprentissage et la base de validation. Nous décidons donc de conserver
ce modèle.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 36
4.3 Validation du modèle et interprétation des coefficients
4.3.1 Validation du modèle
Après avoir présélectionné notre modèle pour la régression logistique, il faut à présent s’assurer
que le modèle et les variables soient significatifs. Le tableau suivant propose plusieurs tests pour juger de
la significativité du modèle.
Test Khi 2 DF Pr > Khi 2
Likelihood ratio 12 790,84 49 < 0,0001
Score 11 385,42 49 < 0,0001
Wald 9 718 49 < 0,0001
Tableau 4-3 . Test de l'hypothèse nulle globale : Beta=0
La dernière colonne du tableau précèdent nous renseigne sur le caractère significatif du modèle. Nous
pouvons conclure alors que le modèle que nous avons sélectionné est globalement bon. En effet, les trois
tests rejettent l’hypothèse nulle du modèle. Concernant les variables, le tableau suivant nous donne les
informations nécessaires pour juger nos variables présélectionnées.
Variables DF Khi 2 de Wald Pr > Khi 2
Enfant d’assuré 1 214,06 < 0,0001
Type de population 2 481,70 < 0,0001
Niveau de garantie 2 313,58 < 0,0001
Ancienneté de permis 3 571,31 < 0,0001
Fractionnement 2 530,59 < 0,0001
Segment du véhicule 4 311,64 < 0,0001
Bonus parental 1 261,71 < 0,0001
Coefficient agent 7 112,38 < 0,0001
Alimentation 3 111,02 < 0,0001
Région AXA France 4 111,79 < 0,0001
Prélèvement automatique 1 77,21 < 0,0001
Age du conducteur 5 83,69 < 0,0001
Zone RC 9 90,46 < 0,0001
Ancienneté du véhicule 3 79,62 < 0,0001
Nombre de permis au foyer 2 64,04 < 0,0001
Tableau 4-4 . Test de nullité des coefficients
L’hypothèse nulle des coefficients est rejetée pour chacune de nos 15 variables. Elles sont donc toutes
significatives.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 37
4.3.2 Analyse des coefficients associés à chaque variable
Pour chacune de nos 15 variables explicatives, nous observons sur les graphiques suivants les
coefficients associés à chacune des modalités. Le reste des graphiques se situe en Annexe 3. Dans la
suite, nous rappelons que nous avons modélisé l’acte de ne pas résilier.
Figure 4-3 . Coefficients liés au niveau de garantie
Pour pouvoir interpréter les résultats nous calculons les rapports de côte (Odds Ratio) pour chaque
modalité de chaque variable.
Sur le graphique, nous observons que le taux de non résiliation augmente avec le niveau de garantie.
Une personne sans les clauses de l’offre « jeunes conducteurs » aura tendance à plus résilier que
quelqu’un qui les possède. Un enfant d’assuré résilie 1,5 fois moins et une personne possédant la clause
« bonus parental » résilie 1,7 fois moins.
Concernant les variables du véhicule, plus le segment du véhicule est important, plus la probabilité de
résilier est importante. A contrario, la probabilité de résiliation est plus importante pour les véhicules
récents que pour les vieux véhicules. En effet, nous avons vu que les sans antécédent de moins de 30 ans
qui possèdent en général un vieux véhicule résiliaient moins que les sans antécédent de plus de 30 ans qui
ont tendance à conduire des véhicules neufs.
Les personnes fractionnant annuellement ont 1,7 fois plus de chance de ne pas résilier que celles qui
fractionnent semestriellement et 2,3 fois plus que celles qui fractionnent mensuellement.
Au final, nous retrouvons les résultats que nous avions constatés dans nos analyses descriptives.
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
-0,05
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
RC IV DO
Co
eff
icie
nts
Garanties
Part Coefficients
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 38
En résumé :
Premièrement, l’acte de résiliation est modélisé par une régression logistique. La sélection des variables qui sont susceptibles de rentrer dans le modèle est faite par la méthode Forward grâce aux critères AIC et BIC. Les variables obtenues grâce au critère AIC sont retenues. Nous privilégions ce critère suite à l’étude de divers indicateurs tels que le taux de paires concordantes, la courbe ROC et les taux de bon reclassement sur la base d’apprentissage et sur la base de test.
Ces critères sont à nouveau analysés pour sélectionner le nombre de variables à prendre en compte. Au final, le modèle contient 15 variables de type conducteurs, géographiques et véhicules. Les variables les plus discriminantes en termes de résiliation sont :
- Enfant d’assuré : une personne disposant de la clause résilie moins; - Profession du conducteur : les étudiants résilient le moins en comparaison avec les salariés ; - Niveau de garantie : le taux de résiliation diminue avec le niveau de garantie ; - Ancienneté de permis : les personnes avec une ancienneté de permis inférieure à un an résilient le
moins ; - Fractionnement : le fractionnement mensuel est lié à l’acte de résiliation ; - Segment du véhicule : posséder un gros véhicule est synonyme de résiliation chez les sans
antécédent.
Le modèle est validé par le test de Khi 2. Le modèle est globalement bon et les variables sont toutes significatives.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 39
5 MODELISATION PAR ARBRE DE DECISION /
La deuxième méthode consiste à modéliser l’acte de résiliation par des arbres de décision. Dans la
littérature, les arbres de décision se sont montrés plus performants que les régressions.
5.1 Les points forts de l’arbre de décision
Le point fort de la méthode est sa simplicité. En effet, il s’agit d’effectuer une classification de nos
individus sous forme d’un arbre de décision. La finalité de cette méthode repose sur la répartition des
individus en groupes homogènes du point de vue de la variable à prédire.
Le but de l’arbre de décision est de déterminer les meilleures modalités à placer à chaque nœud pour que
l’arbre soit le plus petit possible et pour que ces prédictions soient bonnes : plus l’arbre est petit, plus la
prédiction sera facile à obtenir. Il est important de connaître sa classe de départ c’est-à-dire si cet individu
a résilié ou non car les arbres de décision travaillent sur la classification en mode supervisée. La
classification supervisée consiste à classer des individus par groupes sachant qu’on connait au préalable
leur classe de départ individuellement.
L’arbre de décision est composé de nœuds. Chaque nœud est indiqué par une ou plusieurs
modalités d’une même variable. Enfin, les nœuds terminaux sont appelés des feuilles.
Plusieurs algorithmes sont connus pour construire des arbres de décision tels qu’ID3, C4.5, CART et
CHAID.
Nous choisissons d’opter pour l’algorithme de CART qui a les avantages suivant :
- Règles de décision simples ;
- Modèle robuste vis-à-vis des valeurs aberrantes et extrêmes ;
- Il n’est pas nécessaire de disposer d’hypothèses sur les variables. De plus, elles peuvent être
discrètes ou continues ;
- Il s’agit d’un arbre binaire : deux nœuds fils pour chaque nœud parent.
5.2 Création du premier arbre
Nous utilisons la fonction 𝑟𝑝𝑎𝑟𝑡 de 𝑅 pour construire nos arbres de décision. Pour créer notre
premier arbre, nous utilisons la méthode par défaut de l’ordinateur définie comme suit :
𝑎𝑟𝑏𝑟𝑒𝑑é𝑓𝑎𝑢𝑡 ← 𝑟𝑝𝑎𝑟𝑡(𝑎𝑐𝑡𝑒𝑟é𝑠𝑖𝑙𝑖𝑎𝑡𝑖𝑜𝑛~. , 𝑑𝑎𝑡𝑎 = 𝑑𝑜𝑛𝑛é𝑒𝑠)
Grâce à cette écriture, nous indiquons que nous souhaitons modéliser l’acte de résiliation grâce à toutes
les autres variables de notre base de données. En utilisant la méthode par défaut, nous ne trouvons pas
forcément la solution désirée. En effet, la fonction 𝑟𝑝𝑎𝑟𝑡 ne construit pas l’arbre le plus complet possible
mais cela peut s’avérer efficace sur une base de données importante puisque le but est de construire un
arbre qui pourra s’ajuster à une autre base que la base de données d’apprentissage.
Si aucune option de classification n’est définie dans les paramètres de la fonction, le critère de sélection
par défaut est le critère de Gini.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 40
L’arbre obtenu par cette méthode est le suivant :
Figure 5-1 . Arbre de décision à 5 classes *
(*) La classe « 0 » signifie que l’individu ne résilie pas et la classe « 1 » signifie que l’individu résilie. Le premier
pourcentage de chaque classe représente la part observée d’individus qui ne résilie pas alors que le deuxième
représente la part d’individus qui résilie réellement.
Cet arbre nous confère un taux de bon reclassement de 69,57% sur notre base d’apprentissage et
de 69,68% sur notre base de test.
5.3 Sélection de l’arbre optimal
En réalité, la fonction 𝑟𝑝𝑎𝑟𝑡 peut être plus précise en lui définissant des paramètres.
𝐴𝑟𝑏𝑟𝑒𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ← 𝑟𝑝𝑎𝑟𝑡(𝑎𝑐𝑡𝑒𝑟é𝑠𝑖𝑙𝑖𝑎𝑡𝑖𝑜𝑛~. , 𝑑𝑎𝑡𝑎 = 𝑑𝑜𝑛𝑛é𝑒𝑠, 𝑐𝑜𝑛𝑡𝑟𝑜𝑙 = 𝑟𝑝𝑎𝑟𝑡. 𝑐𝑜𝑛𝑡𝑟𝑜𝑙(𝑚𝑖𝑛𝑠𝑝𝑙𝑖𝑡 = 𝑥, 𝑐𝑝 = 0))
Le paramètre 𝑚𝑖𝑛𝑠𝑝𝑙𝑖𝑡 = 𝑥 représente le nombre minimal d’observations dans un nœud pour lequel la
coupe est calculée. Ce paramètre va être choisi de telle sorte qu’on ait de 1% à 6% d’observations par
nœud.
La deuxième étape après la sélection de l’arbre et des paramètres de classification est la simplification de
l’arbre, aussi appelée élagage. Pour choisir le bon nombre de feuilles, nous procédons par validation
croisée. En effet, si l’arbre est trop complexe et trop spécifique aux données de la base d’apprentissage
alors il ne s’adaptera pas bien sur une autre base de données indépendante.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 41
Le but est de déterminer l’arbre de décision qui prédit le mieux l’acte de résiliation sur notre base
d’apprentissage mais qui le prédit aussi bien sur une autre base.
Le processus d’élagage de CART via la fonction 𝑝𝑟𝑢𝑛𝑒 de 𝑅 va nous permettre de retenir l’arbre pour
lequel le taux d’erreur estimé est le plus bas possible.
Ensuite, afin d’évaluer les performances de nos différents arbres sur la base d’apprentissage et sur la base
de test, nous utilisons la fonction 𝑝𝑟𝑒𝑑𝑖𝑐𝑡 de 𝑅 pour estimer les probabilités d’appartenance aux classes
pour chaque observation. Par la suite, nous attribuons chaque observation à sa classe : les personnes qui
résilient et celles qui ne résilient pas. Nous construisons ensuite notre matrice de confusion qui nous aide à
déterminer le taux de bon reclassement pour valider la qualité de la prédiction.
Le tableau suivant détaille tous nos arbres de décision construits avec leur taux de bon reclassement
respectif sur les bases d’apprentissage et de test.
Nombre d’observations par
nœud Nombre de classes
Taux de bon reclassement sur la
base d’apprentissage
Taux de bon reclassement sur la
base de test
Méthode par défaut 5 69,57 % 69,68 %
1% d’observations 21 70,52 % 70,06 %
2% d’observations 15 70,29 % 70,21 %
3% d’observations 11 70,18 % 70,13 %
4% d’observations 9 70,02 % 70,01 %
5% d’observations 8 69,95 % 70,14 %
6% d’observations 7 69,85 % 70,12 %
Tableau 5-1 . Validation de la qualité des arbres de décision
Nous avons en moyenne un taux de bon reclassement de 70%. Pour la suite de notre étude, nous
décidons de garder trois arbres de décisions : un à 5 classes, un à 7 classes et un autre à 8 classes qui ont
des taux de bon reclassement satisfaisants sur la base d’apprentissage et meilleurs sur la base de test.
Nous créons trois nouvelles variables contenant les probabilités de ne pas résilier dont nous nous servirons
dans la suite de notre étude.
L’arbre qui semble le mieux appréhender nos données et qui pourra s’ajuster correctement à un autre
échantillon est le suivant :
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 42
Figure 5-2 . Arbre de décision optimal, à 8 classes
Monter dans la première branche permet de valider l’information disponible dans la case commune
précédente. Le pourcentage indiqué dans chaque bulle est le taux de résiliation observé.
5.4 Ajout d’une variable discriminante : la banque du conducteur
La banque du conducteur est connue lorsque celui-ci est en prélèvement automatique avec son
assurance automobile.
Les variables extraites pour mieux prédire l’acte de résiliation des sans antécédent au bout d’un an sont les
suivantes :
- La banque du conducteur à l’affaire nouvelle ;
- La banque du conducteur au premier terme, un an après l’affaire nouvelle ;
- Le fait que la personne change de banque ou non durant sa première année de contrat auto.
Les tableaux suivants récapitulent les taux de résiliation selon les trois variables expliquées
précédemment.
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 43
Tableau 5-2 . Taux de résiliation observé des sans antécédent au bout d'un an selon les variables relatives à la banque de l'assuré
En observation, les sans antécédent qui résilient le plus sont des personnes qui, au terme anniversaire,
sont à la banque postale (avec 43% de résiliation), au Crédit Lyonnais (34%) ou encore au CIC ou à la
Caisse d’Epargne (33%).
On pourrait imaginer que des personnes qui sont capables de changer de banque en un an, seraient aussi
capables de résilier leur assurance auto pour une autre compagnie qu’AXA. Le taux de résiliation pour ces
personnes-là est de 27.7% soit le moins élevé parmi les personnes qui ne changent pas de banque en un
an (28.2%) ou qui ne sont pas en prélèvement automatique (35%).
Le but de l’étude est de prédire un score de résiliation le jour de l’affaire nouvelle du sans antécédent.
Nous décidons d’intégrer la variable « banque du conducteur à l’affaire nouvelle » dans l’arbre de décision
et il s’avère que celle-ci est plus discriminante que le segment du véhicule ou le nombre de permis au
foyer.
Figure 5-11 . Arbre de décision à 8 classes prenant en compte la banque de l'assuré
Banque de l'assuré
à l'affaire nouvelle
Taux de
résiliation
observé
Banque de l'assuré
au terme
anniversaire
Taux de
résiliation
observé
Changement de
banque
Taux de
résiliation
observé
AXA Banque 17,5% AXA Banque 14,9% Oui 27,7%
Non renseignée 25,7% HSBC 25,2% Non 28,2%
HSBC 28,0% Crédit du Nord 26,3%
Crédit Agricole 30,5% Crédit Agricole 27,9%
BNP Paribas 30,7% Crédit Mutuel 28,3%
Crédit du Nord 31,0% Banque Populaire 28,5%
Crédit Mutuel 31,6% BNP Paribas 28,9%
Banque Populaire 32,0% Société Générale 30,0%
Autres 32,8% Autres 31,2%
Société Générale 33,2% Non renseignée 31,3%
CIC 36,2% CIC 33,1%
Caisse d'Epargne 37,0% Caisse d'Epargne 33,2%
Crédit Lyonnais 37,4% Crédit Lyonnais 33,8%
La banque postale 46,6% La banque postale 42,9%
35,0%Pas de prélèvement
auto. avant et après
PREMIERE PARTIE : Prédiction de l’acte de résiliation des sans antécédent d’assurance
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 44
Les taux de bon reclassement sont légèrement meilleurs que ceux précèdents avec 69.98% sur la base
d’apprentissage et 70.12% sur la base de test.
Cependant dans un processus opérationnel où le scoring de résiliation serait intégré dans le calcul
de la prime du client, il est nécessaire de connaitre toutes les informations permettant de déterminer ce
scoring en amont du paiement. C’est pour cette raison que nous gardons l’arbre de décision en figure 5-2.
La résiliation des sans antécédent est une variable qui peut s’avérer discriminante de sa sinistralité
aujourd’hui. C’est dans cette optique que nous créons cette variable que nous utiliserons comme variable
explicative dans la tarification de la garantie RC des jeunes conducteurs.
En résumé :
Dans un deuxième temps, l’acte de résiliation est modélisé à l’aide des arbres de décision. Ceux-ci se sont montrés plus performants que les régressions dans la littérature et il est une fois de plus démontré ici que c’est le cas. L’algorithme utilisé pour la modélisation est celui de CART. Le résultat de cet algorithme est un arbre binaire c’est-à-dire que deux nœuds fils sont issus de chaque nœud parent.
L’arrêt d’un arbre de décision se fait lorsqu’un certain pourcentage est atteint dans chaque case finale. Les arbres de décisions retenus sont ceux à 5, 7 et 8 classes.
Les variables les plus discriminantes et qui interviennent dans la modélisation sont semblables à celles obtenues par la régression logistique : la clause « enfant d’assuré », l’ancienneté de permis, le fractionnement, le niveau de garantie, le segment du véhicule et le nombre de permis au foyer. Le taux de bon reclassement issu de cette modélisation est de 70% soit 3 points de plus que par la régression logistique.
La variable contenant les probabilités de résiliation est créée et sera intégrée dans la modélisation du prix de la garantie RC en tant que facteur explicatif.
DEUXIEME PARTIE
VARIABLES EXPLICATIVES ET
MODELISATION DE LA GARANTIE RC
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 46
1 CONSTITUTION DE LA BASE DE DONNEES FINALE /
La deuxième étape de cette étude est de tarifer la garantie RC pour les jeunes conducteurs. Nous
décidons de nous baser sur un champ plus vaste en considérant comme jeunes conducteurs les sans
antécédent ainsi que les assurés de moins de 30 ans. Nous aurons besoin de plusieurs types de
variables :
- Les variables conducteurs ;
- Les variables géographiques ;
- Les variables véhicules ;
- Les variables relatives aux sinistres.
1.1 Périmètre de l’étude
Nous nous sommes basés sur le périmètre suivant :
- Les 5 années de 2008 à 2012 ;
- Les 5 régions AXA France : Ile-de-France, Nord-est, Ouest, Sud-est et Sud-ouest ;
- Les véhicules à quatre roues standard hors véhicules spéciaux : voiturettes, collection et camping-
cars ;
- Les personnes physiques, hors sociétés ;
- Les contrats non temporaires ;
- Le produit Auto 4 roues standard ;
- Tous les sans antécédent de n’importe quel âge ;
- Les jeunes de moins de 30 ans avec antécédents ;
- La garantie Responsabilité Civile : 63% des sans antécédent sont en niveau 1 et 40% de la base
sont en niveau 1.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 47
1.2 Description des bases de données
Base sinistres
Nous commençons par récupérer les données sur les sinistres. A chaque mouvement du sinistre, il y a
création d’une image avec une date d’observation uniquement dans la table où il y aura un changement.
Nous avons eu recours à 4 tables sinistres pour créer notre base sinistre :
- La table SINIFIX correspond aux sinistres fixes. Nous y récupérons la date de survenance du
sinistre.
- La table UPAGR correspond aux agrégats par Unité de Prestations (UP). Nous y récupérons
l’information suivante (charge totale du sinistre par UP (RCA : RC matérielle ou RCORP : RC
corporelle)) et nous ne conservons que les sinistres RCA et RCORP.
- La table SINAGR correspond aux agrégats sinistres. Nous récupérons le montant des charges de
sinistres.
- La table SINIMAG correspond aux sinistres images. Nous obtenons des variables qui vont expliquer
le sinistre comme par exemple la nature du sinistre ou encore le niveau de responsabilité qui nous
permettra par la suite de distinguer la charge matérielle responsable et non responsable.
Nous décidons de garder les sinistres avec un vieillissement d’un an. Si le sinistre est clos moins d’un an
après la date d’ouverture alors nous conservons l’image la plus récente. Si le sinistre est clos plus d’un an
après la date d’ouverture, nous gardons l’image la plus proche de la date d’anniversaire de la survenance
du sinistre.
Enfin, nous nous sommes arrangés pour n’avoir qu’une ligne par sinistre. Cela signifie que lorsque deux
UP sont ouvertes sur le même sinistre, les caractéristiques de ces deux UP seront sur la même ligne.
La base « sinistres » est à présent complète.
Base véhicules
Dans cette base, nous récupérons les caractéristiques du véhicule à partir du fichier des véhicules
fourni par SRA (Sécurité et Réparation Automobile). Nous retrouvons des caractéristiques techniques
comme le poids total en charge, la vitesse maximale, la puissance et des caractéristiques commerciales
comme le modèle, la classe de prix, la marque. La caractéristique unique d’un véhicule est son code GTA.
Elle nous permet de relier le fichier des véhicules au fichier des assurés.
Nous définissons les classes de prix et de réparation des véhicules comme suivant : les véhicules avec
une classe A correspondent aux véhicules les moins onéreux alors que les véhicules les plus chers ont une
classe Z.
Base « assurés »
La première étape est d’extraire la base RT : Résultats techniques. Elle regroupe les
caractéristiques des assurés. Des modifications ont été apportées à cette base comme la création de
nouvelles variables déjà présentes dans la tarification actuelle.
Dans un deuxième temps, il a fallu supprimer les groupements. Ce sont par exemple les entreprises qui
assurent leurs salariés collectivement.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 48
Clause « Bonus parental » de l’offre jeunes
La clause « bonus parental » est obtenue lorsque le sans antécédent est un enfant d’assuré AXA de moins
de 25 ans dont un des parents a un contrat Auto avec un Bonus/Malus de 50% et sans sinistre dans les 36
derniers mois (tolérance 1 bris de glace), cette clause a été mise en place le 13 février 2012 avec l’offre
« jeunes conducteurs ». Il a donc été nécessaire de reconstituer la clause sur les années 2008 à 2012.
Il existe une variable « contrat associé » dans la base des résultats techniques qui représente le numéro
de contrat associé au contrat en cours.
Tout d’abord, nous établissons notre base contenant seulement tous les sans antécédent ainsi que les
personnes ayant moins de 30 ans. Par la suite, nous regardons si les contrats associés des sans
antécédent sont bonus 50 et sans sinistre depuis les 36 derniers mois. Ces contrats-là possèderont
dorénavant la clause « Bonus parental ».
Mise en place de variables en quarts d’années
Actuellement, les contrats sont tarifés en prenant en compte l’âge entier du conducteur, ce qui ne nous
permet pas de savoir le temps qui s’est écoulé depuis leur dernier anniversaire. Nous proposons alors de
prendre en compte l’âge du conducteur, l’ancienneté du véhicule et l’ancienneté de permis en quarts
d’années.
Il est important de remarquer que l’âge est un des facteurs les plus importants dans la tarification. Une
segmentation plus fine des trois variables précédentes dans la tarification pourrait permettre à l’assuré de
payer une prime plus adéquate à son risque.
1.3 Modification de la charge RC
Il est nécessaire de retraiter la répartition des charges de sinistres du portefeuille correspondant aux
charges Responsabilité Civile matérielle et corporelle.
1.3.1 Mutualisation des charges fixes en RC matérielle
Le but est de mutualiser les montants fixes issus des conventions IRSA-IDA et des coûts
d’ouverture des sinistres. En effet, ces montants ne constituent pas des montants « réels » et peuvent
biaiser notre étude par la suite. Nous pouvons remarquer sur les graphiques suivants qu’une loi de
probabilité peut être facilement adaptée à notre répartition de charge après mutualisation des charges
fixes.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 49
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
10
0
40
0
70
0
10
00
13
00
16
00
19
00
22
00
25
00
28
00
31
00
34
00
37
00
40
00
43
00
46
00
49
00
Répartition de la charge RC matérielle après mutualisation
Nombre de sinistres RC matériels par montant de charge
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
10
0
40
0
70
0
10
00
13
00
16
00
19
00
22
00
25
00
28
00
31
00
34
00
37
00
40
00
43
00
46
00
49
00
Répartition de la charge RC matérielle avant mutualisation
Nombre de sinistres RC matériels par montant de charge
Figure 1-1 . Répartition de la charge RC matérielle avant et après mutualisation des charges fixes
Pour des raisons de simplification et de rapidité de gestion de sinistres, différents assureurs
automobiles ont mis en place les conventions IRSA (Indemnisation Règlement des Sinistres Automobiles)
– IDA (Indemnisation Directe de l’Assuré). Le principe est de se faire indemniser par son propre assureur
et non par l’assureur adverse. Ainsi, les assurés sont indemnisés plus rapidement selon un barème
forfaitaire de responsabilité.
Degré de responsabilité
≤ 2010 2011 – 2012 ≥ 2013
100% 1204 € 1236 € 1242 €
50% 602 € 618 € 621 €
Tableau 1-1 . Barème forfaitaire de responsabilité des conventions IRSA-IDA
De même, lorsqu’un sinistre est ouvert, le montant que nous lui attribuons est forfaitaire. Les coûts
d’ouverture des sinistres sont recensés ci-dessous :
Degré de responsabilité
2008 - 2011 2012 2013
100% 1366 € 1414 € 1435 €
50% 683 € 707 € 717,5 €
Tableau 1-2 . Coûts d’ouverture des sinistres par responsabilité
La somme de ces montants est ensuite répartie selon la part de prime de l’assuré. Le choix de la
répartition a été obtenu par la méthode des moindres carrés. En effet, nous avions imaginé plusieurs
répartitions possibles comme par exemple répartir sur tout le portefeuille ou seulement sur les sinistrés.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 50
La méthode des moindres carrés permet de comparer des données expérimentales à un modèle
mathématique sensé décrire ses données. Le but est donc de choisir la méthode qui minimise l’erreur.
Finalement, la répartition de la charge totale fixe s’est faite seulement sur les sinistrés. Cela peut
s’expliquer par le fait que la fréquence des sinistres RC matérielle est relativement importante. En effet, la
fréquence des sinistres RC matérielle est douze fois plus importante que celle des sinistres RC corporelle.
1.3.2 Ecrêtement et mutualisation des sinistres graves en RC corporelle
L’hypothèse classique en tarification automobile est celle selon laquelle les risques du portefeuille
sont similaires. La présence des sinistres graves perturbe cette hypothèse. Pour résoudre ce problème, les
sinistres graves sont souvent écrêtés jusqu’à un seuil maximum qu’il faut calculer.
Le choix de ce plafond est obtenu par la méthode suivante : nous choisissons le montant à partir duquel la
sur-crête représente 1% du nombre de sinistres et/ou 50% de la charge totale RC corporelle.
Nous commençons à chercher ce seuil pour chaque année de 2008 à 2012.
Année d’étude Nombre d’années polices Montant à partir duquel la sur-crête représente 1% du nombre
de sinistres
2008 608 086,43 213 989,91 €
2009 608 602,65 208 860,53 €
2010 569 577,67 234 141,00 €
2011 514 474,18 229 370,05 €
2012 484 104,85 202 670,00 €
Montant moyen sur les cinq années : 217 864,09 €
Tableau 1-3 . Montants par année à partir desquels la sur-crête représente 1% du nombre de sinistres
Par la suite, nous avons testé plusieurs montants de seuil en tenant compte du montant moyen
trouvé précédemment mais aussi le montant qui est utilisé actuellement dans la tarification, à savoir
150 000 €.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 51
Seuil d’écrêtement Pourcentage du nombre de
sinistres RC corporels supérieur au seuil
Pourcentage de la charge totale RC corporelle supérieure
au seuil
150 000 € 1,44 % 55,14 %
200 000 € 1,12 % 51,61 %
220 000 € 0,97 % 49,60 %
230 000 € 0,91 % 48,65 %
240 000 € 0,88 % 48,30 %
Tableau 1-4 . Pourcentages par année du nombre de sinistre et du total de la charge RC corporelle supérieur au seuil
Enfin, nous décidons de garder deux montants : celui qui est déjà utilisé dans la tarification actuelle
150 000€ et celui que nous avons trouvé sur notre base de données 220 000€.
La charge résiduelle, appelée la sur-crête, est répartie sur tout le portefeuille selon la relation suivante :
𝑀𝑢𝑡𝑢𝑎𝑙𝑖𝑠𝑎𝑡𝑖𝑜𝑛 = 𝐸𝑐𝑟ê𝑡𝑒 + 𝑆𝑢𝑟 − 𝑐𝑟ê𝑡𝑒
𝑃𝑎𝑟𝑡 𝑑𝑒 𝑝𝑟𝑖𝑚𝑒
Le choix de répartir sur tout le portefeuille provient de l’étude faite par la méthode des moindres carrés
pour comparer plusieurs répartitions possibles. La fréquence des sinistres RC corporelle est de l’ordre de
1%, il est donc plus judicieux de répartir sur tout le portefeuille.
En résumé :
Les montants de la charge sinistre RC matérielle fixe issue des conventions IRSA-IDA et des coûts d’ouverture des sinistres sont répartis sur les sinistrés selon la part de prime.
L’écrêtement de la charge RC corporelle a été écrêté à 150 000 € (écrêtement dans le tarif actuel) et à 220 000 € (seuil à partir duquel la sur-crête représente 1% du nombre de sinistres et/ou 50% de la charge totale RC corporelle) et la mutualisation de ces montants est faite sur tout le portefeuille selon la part de prime.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 52
1.4 Typologie de la base de données finale
1.4.1 Description des variables à expliquer
Les variables décrivant la sinistralité sont les suivantes :
Le nombre de sinistres
Cette variable recense le nombre de sinistres déclarés par l’assuré et non pas le nombre de
sinistres réels que l’assuré a pu subir ou causer.
Le coût des sinistres
Il s’agit du montant des sinistres vus avec un vieillissement d’un an.
Les indicateurs expliquant les sinistres
Trois indicateurs rentrent en jeu dans la tarification des garanties en assurance automobile. Ce sont
ces trois indicateurs que nous allons modéliser dans la suite de l’étude. Ils sont calculés comme suit :
La fréquence de sinistres
𝐹𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑑𝑒 𝑠𝑖𝑛𝑖𝑠𝑡𝑟𝑒𝑠 =𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑠𝑖𝑛𝑖𝑠𝑡𝑟𝑒𝑠
𝐴𝑛𝑛é𝑒𝑠 𝑝𝑜𝑙𝑖𝑐𝑒
Le coût moyen
𝐶𝑜û𝑡 𝑚𝑜𝑦𝑒𝑛 = 𝐶ℎ𝑎𝑟𝑔𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑠𝑖𝑛𝑖𝑠𝑡𝑟𝑒𝑠
La prime pure
Elle représente le montant attendu des sinistres pour la période d’assurance étudiée. Elle est
calculée de la façon suivante :
𝑃𝑟𝑖𝑚𝑒 𝑝𝑢𝑟𝑒 = 𝐶ℎ𝑎𝑟𝑔𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
𝐴𝑛𝑛é𝑒𝑠 𝑝𝑜𝑙𝑖𝑐𝑒= 𝐹𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 ∗ 𝐶𝑜û𝑡 𝑚𝑜𝑦𝑒𝑛
1.4.2 Quelques chiffres concernant la base de données finale
Nous présentons ci-dessous quelques chiffres clés de notre base de données :
- 2,78 millions d’années police ;
- 333 578 sinistres matériels, soit une fréquence de 11,98% ;
- 27 898 sinistres corporels dont 87% d’entre eux ont également conduit à l’ouverture de sinistres
matériels, soit une fréquence de 1% ;
- 283,4 millions de charge RC matérielle avant mutualisation des charges matérielles fixes;
- 319,2 millions de charge RC matérielle après mutualisation, dû aux sinistres négatifs passés à zéro;
- 281,5 millions de charge RC corporelle avant et après écrêtement et mutualisation.
Par la suite, cette base est divisée en deux parties. La première partie est notre base d’apprentissage et
représente 70% de notre base totale. Les 30% restants nous serviront de base de test pour valider notre
modèle construit sur la base d’apprentissage.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 53
2 ETUDE SUR NOS VARIABLES TARIFAIRES /
2.1 Tris à plat
2.1.1 Evolution des indicateurs selon les variables tarifaires
Tout d’abord, il est intéressant d’effectuer des statistiques descriptives sur les variables les plus
susceptibles d’intervenir dans nos modèles de fréquence, de coût moyen et de prime pure.
Dans toute la suite des statistiques descriptives, les années polices seront représentées par des
histogrammes bleus. Nous observerons également (avec la charge de sinistres écrêtée à 150 000 €) :
- La prime pure sur la courbe bleue claire
- La fréquence de sinistres sur la courbe bleue foncée
- Le coût moyen de sinistres sur la courbe rouge
Dans un souci de confidentialité, les tris à plats sont donnés en base 100. Tous les tris à plat sont
présentés en Annexe 4.
Le coefficient réduction majoration
Le coefficient réduction majoration correspond à un bonus ou un malus appliqué à la cotisation d’un
automobiliste en fonction qu’il commette ou non un accident responsable. Le coefficient de départ est fixé à
1.
Figure 2-1 . Evolution de la prime pure selon le coefficient réduction / majoration
0
20
40
60
80
100
120
140
160
180
0%
2%
4%
6%
8%
10%
12%
14%
16%
50 51-54 55-57 58-60 61-64 65-68 69-72 73-76 77-80 81-85 86-90 91-95 96-100 >=101
Pri
me
pu
re
Coefficient réduction/majoration
%Ap Prime pure
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 54
Figure 2-2 . Evolution de la fréquence et du coût moyen selon le coefficient réduction / majoration
Nous remarquons que notre population est principalement caractérisée par un Bonus/Malus à 100 qui
est le coefficient de départ pour les sans antécédent. Les sans antécédent de notre population
représentent 13% de notre base de données.
Nous remarquons également que nos trois indicateurs (prime pure, fréquence et coût moyen) évoluent
dans le même sens que le coefficient réduction-majoration, ce qui est cohérent avec le principe de ce
coefficient.
Ancienneté de permis
Nos trois indicateurs diminuent avec l’ancienneté de permis puis augmentent lorsque l’ancienneté de
permis est supérieure à 13 ans. La fréquence de sinistre la plus importante se trouve chez les sans
antécédent d’assurance. En effet, ce sont eux qui représentent le risque le plus élevé dans toute la
population.
La zone RC
La variable zone RC contient les modalités de 1 à 13 qui correspondent à des zones de risque
différentes. Les zones de 1 à 4 regroupent les petites villes : elles sont qualifiées de zones rurales, les
zones 5 à 9 sont représentées par des villes moyennes et enfin nous retrouvons les grandes
agglomérations comme Paris ou Marseille dans les zones 10 à 13. Les zones 5 à 13 sont appelées zones
urbaines.
Selon la répartition précédente, nous avons 43% de personnes habitant des petites villes, 47% de
personnes vivant dans des villes moyennes et 10% de personnes résidant dans de grandes
agglomérations telles que Paris, Marseille ou Lyon.
De même que précédemment avec le coefficient réduction-majoration, les trois indicateurs augmentent
avec la zone.
0% 3% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 15% 5%
0
20
40
60
80
100
120
140
160
0
20
40
60
80
100
120
140
Fré
qu
en
ce
Co
ût
mo
yen
Coefficient réduction/majoration
Coût moyen Fréquence
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 55
L’ancienneté du véhicule
La fréquence de sinistre et la prime pure diminuent avec l’ancienneté du véhicule. De même, le coût
moyen diminue avec l’ancienneté du véhicule, cette tendance devient plus chaotique à partir de 18 ans
d’ancienneté.
Nous remarquons que 50% des jeunes ont un véhicule âgé de moins de 10 ans et 20% ont un véhicule de
moins de 4 ans. Sur cette dernière population, la fréquence de sinistres et le coût moyen sont les plus
importants. Il en est de même pour la prime pure. Comme nous l’avons vu précédemment, le véhicule chez
les jeunes n’est pas seulement considéré comme un moyen de transport mais aussi comme un moyen
d’expression. Les jeunes qui choisissent des véhicules neufs ont donc plus d’accidents et le coût moyen
est alors plus élevé.
Segment du véhicule
Le segment du véhicule caractérise le véhicule du conducteur de la manière suivante :
- Segment A : voitures urbaines ou « minis/petites citadines » (exemple : Twingo)
- Segment B : voitures citadines/polyvalentes ou « sous compactes » (exemple : Clio)
- Segment M1 : voitures compactes ou monospaces compacts (exemple : Mégane)
- Segment M2 : voitures familiales ou intermédiaires (exemple : Laguna)
- Segment H : grosses voitures (exemple : Espace)
- Autres segments : autres véhicules de type camionnette
Les citadines et les compactes / monospaces sont les véhicules les plus utilisés par les jeunes avec
75% de la population totale.
La fréquence de sinistre la plus élevée est pour les véhicules de types familiaux. Globalement, les
personnes possédant de petits véhicules ont moins d’accidents que ceux avec un gros véhicule. Le coût
moyen évolue dans le même sens que la fréquence jusqu’au segment M2 puis en sens inverse. Encore
une fois, nous remarquons que la possession de gros véhicules chez les jeunes est liée à plus d’accidents
et un coût moyen important. Enfin, la prime pure évolue avec le segment.
Option kilomètres limités
L’option « Kilométrage limité – 8000 km » est une option qui génère une réduction de 20% sur la prime
« Responsabilité civile ». Elle est prise en option par les assurés qui s’engagent à faire moins de 8000
kilomètres par an.
Seulement 8% des jeunes prennent l’option kilomètre limité. Cette population a une sinistralité moins
importante en termes de fréquence que ceux qui n’ont pas l’option. En effet, ceux-ci ont une fréquence
moins élevée de 6 points. Cependant, cette option est interdite aux sans antécédent, c’est pour cela que
nous observons une sinistralité moindre.
Le coût moyen quant à lui est 1.5 points moins élevé pour les personnes qui ont pris l’option. De même, la
prime pure est moins élevée de 45%.
Tarif AXA France
Chez AXA, un assuré est catégorisé selon 5 règles de tarif :
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 56
- Règle tarifaire « sans antécédent » : assuré ne pouvant justifier 12 mois consécutifs d’assurance
personnelle dans les 24 derniers mois ;
- Règle tarifaire « descente rapide » : assuré n’ayant subi aucun sinistre dans les 36 derniers mois
(tolérance 1 bris de glace) ;
- Règle tarifaire « excellence privilège » : assuré n’ayant subi aucun sinistre durant les 36 derniers
mois et ayant un coefficient « bonus-malus » inférieur ou égal à 0,62 ;
- Règle tarifaire « standard » : tout assuré non éligible aux 4 règles précédentes.
Les sans antécédent représentent 13% de notre population. C’est la population qui a le plus de
sinistres en termes de fréquence et également celle dont le coût des sinistres est le plus important par
rapport aux autres règles de tarif. La règle de tarif la plus représentée sur notre population est la règle
tarifaire « descente rapide » où nous avons 53% de notre périmètre. La fréquence de sinistre la moins
élevée ainsi que le coût moyen le moins élevé sont assimilés à la règle « excellence » qui cible les très
bons conducteurs : elle représente 9% de la population.
Arbre de décision à 8 classes
L’étude préliminaire pour prédire l’acte de résiliation chez les sans antécédent par arbre de décision
nous a permis de créer une nouvelle variable contenant les probabilités de non résiliation. Cette variable
contient huit modalités dont les probabilités varient entre 41,55% (ce qui signifie que la personne a deux
chances sur cinq de ne pas résilier) et 83,74% (ce qui signifie que la personne ne résilie pas à 83,74%).
Figure 2-3 . Evolution de la prime pure selon la probabilité de non-résiliation sur les sans antécédent
0
20
40
60
80
100
120
140
160
180
200
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
41,55% 45,43% 52,92% 53,22% 59,05% 65,65% 69,28% 83,74%
Pri
me
pu
re
Probabilité de non-résiliation
%Ap Prime pure
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 57
Figure 2-4 . Evolution de la fréquence et du coût moyen selon la probabilité de non-résiliation sur les sans antécédent
Nous remarquons que nos trois indicateurs n’évoluent pas avec la probabilité de résiliation. Les
personnes qui ont le plus de sinistres en termes de fréquence sont les personnes qui ont plus de 70% de
chance de ne pas résilier. Elles représentent 11% de notre population. Cette population a une fréquence
de sinistre plus élevée de 10 points que les personnes qui résilient le plus. Il est donc intéressant de
remarquer que les personnes qui résilient le plus ne font pas partie des personnes les plus sinistrées et
donc que ce n’est pas la cause de leur résiliation pour la majorité. En effet, nous avions remarqué
précédemment que la cause de résiliation première était le non-paiement.
Durée de détention
Cette variable nous informe sur la durée de détention du véhicule actuel par l’assuré.
Tous les sans antécédent se retrouvent dans le premier bâton correspondant à une durée de
détention nulle. C’est encore une fois cette population qui est la plus risquée en termes de fréquence de
sinistre, de prime pure et de coût moyen.
Plus généralement, les trois indicateurs diminuent avec l’augmentation de la durée de détention. Nous
observons une augmentation pour les personnes possédant un véhicule depuis plus de dix ans.
Nombre de véhicules au foyer
La majorité du périmètre dispose d’un seul véhicule au foyer alors que 29% de la population en
possèdent deux et seulement 9% ont trois véhicules ou plus.
Posséder deux véhicules au sein du foyer semble améliorer nos indicateurs. En effet, c’est sur cette
population que la fréquence de sinistre, le coût moyen et la prime pure sont les moins élevés.
6% 9% 7% 1% 39% 27% 2% 9%
0
20
40
60
80
100
120
140
160
180
200
0
20
40
60
80
100
120
41,55% 45,43% 52,92% 53,22% 59,05% 65,65% 69,28% 83,74%
Fré
qu
en
ce
Co
ût
mo
yen
Probabilité de non-résiliation
Coût moyen Fréquence
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 58
Type de population
Avec 67%, plus de deux tiers de notre population sont des salariés. L’autre catégorie socio-
professionnelle la plus représentée est les étudiants. Comparés aux salariés, ils ont une fréquence de
sinistre plus élevée de 2 points.
Fractionnement
Il est intéressant de remarquer que les jeunes conducteurs préfèrent fractionner leur prime
mensuellement puisque le fractionnement mensuel représente 63% de la population. Les personnes
fractionnant annuellement représentent 32% de la population. Les 5% restants fractionnent
semestriellement ou trimestriellement leur paiement.
Les assurés fractionnant mensuellement leur paiement ont une fréquence de sinistres plus élevée de 19%
par rapport à ceux qui ont un fractionnement annuel. De même, le coût moyen est plus élevé de 2,5 points.
2.1.2 Etude des corrélations
Le but de cette partie est de trouver les corrélations entre les facteurs pris deux à deux. En effet,
nous souhaitons une tarification avec un nombre restreint de variables explicatives. Si nous observons
deux variables fortement corrélées, l’idée sera de retirer, malgré la perte d’informations, la variable la
moins pertinente du modèle ou de les croiser afin d’obtenir une nouvelle variable.
Soit le tableau de contingence de deux variables explicatives 𝑋 et 𝑌 :
Y X
𝑌1 … 𝑌𝑗 … 𝑌𝐽 Total
𝑋1
…
𝑋𝑖
…
𝑋𝐼
𝑛𝑖𝑗
𝑛𝑖∙
Total 𝑛∙𝑗 𝑛
Où 𝑛𝑖𝑗 représente le nombre de personnes ayant les modalités 𝑋𝑖 et 𝑌𝑗 .
Nous commençons par poser les hypothèses :
𝐻0: 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 é𝑡𝑢𝑑𝑖é𝑒𝑠 𝑠𝑜𝑛𝑡 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠
𝐻1: 𝑙𝑒𝑠 𝑑𝑒𝑢𝑥 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 é𝑡𝑢𝑑𝑖é𝑒𝑠 𝑛𝑒 𝑠𝑜𝑛𝑡 𝑝𝑎𝑠 𝑖𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑡𝑒𝑠
Pour tester ces hypothèses et l’indépendance entre les variables, le test du 𝜒2 est le test le plus
couramment utilisé. Il consiste à mesurer l’écart entre les valeurs observées et les valeurs attendues.
Sous l’hypothèse nulle, la valeur attendue est définie comme suit :
𝐴𝑖𝑗 =𝑛𝑖∙ ∗ 𝑛∙𝑗
𝑛
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 59
Nous calculons la statistique du 𝜒2 définie par :
𝜒2 = ∑(𝑛𝑖𝑗 −
𝑛𝑖∙ ∗ 𝑛∙𝑗
𝑛)²
𝑛𝑖∙ ∗ 𝑛∙𝑗
𝑛𝑖,𝑗
Sous 𝐻0, la statistique suit une loi du 𝜒2 à (𝐼 − 1) ∗ (𝐽 − 1) degrés de liberté.
Enfin, pour pouvoir interpréter la force des résultats, nous transformons le 𝜒2 en mesure d’association du
V de Cramer. D’autres mesures d’associations existent telles que le coefficient phi ou le coefficient de
contingence mais nous utiliserons le V de Cramer car c’est la mesure d’association la plus utilisée dans la
direction de marché IARD d’AXA France. Un autre avantage de cette mesure d’association est qu’elle a la
possibilité d’annuler l’effet du nombre de modalités.
Le V de Cramer se calcule en prenant la racine carrée du rapport entre le 𝜒2 et le 𝜒2𝑚𝑎𝑥𝑖𝑚𝑎𝑙 :
𝑉 = √𝜒2
𝜒2𝑚𝑎𝑥𝑖𝑚𝑎𝑙
= √𝜒2
𝑛 ∗ min(𝐼 − 1; 𝐽 − 1)
Cet indicateur varie entre 0 et 1 et s’interprète de la façon suivante :
- Plus le V de Cramer est proche de 0, plus l’indépendance est importante entre les deux variables
en question ;
- Plus le V de Cramer est proche de 1, plus les variables sont corrélées.
Pour analyser les corrélations entre nos variables, nous calculons le V de Cramer et nous choisissons
de regarder les corrélations qui ont un coefficient supérieur à 0,5 ce qui signifie que les deux variables qui
rentrent en jeu sont corrélées. Cela signifie que les deux variables apportent le même niveau d’information.
Il est donc nécessaire de les étudier de plus près et de décider s’il est nécessaire de ne garder qu’une
seule des deux variables ou de garder les deux en effectuant un croisement.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 60
Le tableau suivant présente les corrélations les plus importantes :
1ère variable 2ème variable V de Cramer
Enfant d’assuré Arbre de décision à 8 classes 1
Formule Niveau de garantie 1
Fractionnement Prélèvement automatique 1
CTP Origine distribution 0,887
Fractionnement Arbre de décision à 8 classes 0,791
Ancienneté du véhicule Valeur à neuf 0,785
Energie du véhicule Alimentation du véhicule 0,761
Genre Série limitée 0,709
Genre Groupe SRA 0,706
Nombre de véhicule au foyer Nombre de permis au foyer 0,694
Genre Carrosserie 0,648
Bonus parental Régression logistique 0,634
Enfant d’assuré Bonus parental 0,632
Bonus parental Arbre de décision à 8 classes 0,632
Vitesse maximale Groupe SRA 0,604
Enfant d’assuré Régression logistique 0,589
Série limitée Groupe SRA 0,577
Niveau de garantie Arbre de décision à 8 classes 0,559
Enfant d’assuré Age du conducteur 0,549
Enfant d’assuré Ancienneté de permis 0,548
Ancienneté du véhicule Niveau de garantie 0,546
Segment du véhicule Vitesse maximale 0,54
Prélèvement automatique Encaissement 0,518
Prélèvement automatique Arbre de décision à 8 classes 0,518
Zone de risque Vol Zone RC 0,503
Tableau 2-1 . Corrélations entre les variables tarifaires selon le V de Cramer
Le genre du véhicule est très fortement corrélé aux variables véhicules suivantes : la série limitée, le
groupe SRA et la carrosserie. Nous décidons de ne pas garder cette variable qui apporte la même
information que les 3 autres variables.
Les variables contenant les probabilités de résiliation i.e. « Régression logistique » et « Arbre de décision
à 8 classes » sont très corrélées voire dépendantes des variables suivantes : la clause enfant d’assuré, le
fractionnement, la clause bonus parental, le niveau de garantie et le prélèvement automatique. En effet,
cela se comprend car la variable contenant les probabilités de résiliation issues de l’arbre de décision à 8
classes a été calculée grâce à quatre facteurs : la clause enfant d’assuré, l’ancienneté de permis, le
fractionnement et le niveau de garantie.
Les variables série limitée, vitesse maximale et groupe SRA nous apportent la même information selon le
V de Cramer. Nous décidons de ne garder que la variable vitesse maximale qui est un indicateur important
pour déterminer la catégorie du véhicule.
La variable énergie du véhicule est corrélée avec la variable alimentation du véhicule. En effet, certaines
alimentations ne peuvent exister qu’avec certains types d’énergie. Nous garderons la variable qui
expliquera le mieux notre modèle.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 61
De plus, concernant les variables dépendantes, le facteur « formule » contient toutes les formules
proposées par AXA France splittées par les trois niveaux de garantie. Il est logique que ces deux variables
soient dépendantes. Par la suite, nous privilégierons la variable « niveau de garantie » à la variable
« formule ». Cette dernière contient respectivement 33%, 23% et 33% de la population dans les formules
référence de niveaux 1, 2 et 3. Les 18 autres modalités contiennent à elles toutes seulement 11%. De
même, la variable prélèvement automatique est splittée par fractionnement. Le facteur « fractionnement »
étant mieux rempli, nous conserverons cette variable.
Enfin, les deux clauses de l’offre « jeunes conducteurs » : enfant d’assuré et bonus parental sont corrélées
d’après le V de Cramer. En effet, un assuré ne peut obtenir la clause bonus parental seulement s’il
possède la clause enfant d’assuré. Le croisement entre ces deux variables est cohérent et nous
privilégierons cette nouvelle variable dans nos modèles.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 62
3 PRESENTATION DES MODELES LINEAIRES GENERALISES /
Les méthodes les plus utilisées par les compagnies d’assurance pour modéliser le prix du risque sont
les modèles linéaires généralisés. En effet, les méthodes de régression sont très limitées. En assurance,
nous cherchons à expliquer le nombre de sinistres ainsi que leurs montants, ce qui n’est pas possible avec
une régression simple qui ne permet pas d’expliquer une variable qualitative. De plus, dans le modèle
classique, il n’est pas possible de construire un modèle à coefficients correcteurs c’est-à-dire des
coefficients qui tiennent compte des caractéristiques propres aux assurés.
3.1 Les composantes du modèle
Le modèle linéaire généralisé est un modèle explicatif qui présente trois composantes :
La composante aléatoire
Soit 𝑌 = (𝑌1, 𝑌2, … 𝑌𝑛) le vecteur à expliquer.
Les variables à expliquer 𝑌1, 𝑌2, … , 𝑌𝑛 doivent être indépendantes et dont les lois appartiennent à une famille
de lois spécifiques aux modèles linéaires généralisés.
La densité 𝑓𝑌𝑖d’une des composantes du vecteur 𝑌 appartient à la famille exponentielle, c’est-à-dire qu’elle
est de la forme :
𝑓(𝑦, 𝜃, 𝜙) = exp {𝑦. 𝜃 − 𝑏(𝜃)
𝑎(𝜙)+ 𝑐(𝑦, 𝜙)}
𝑦 𝜖 𝑆, le support, un sous ensemble de ℝ ou de ℕ ;
𝜃 est le paramètre canonique ou paramètre de la moyenne ;
𝜙 est le paramètre de dispersion ;
𝑎 est définie de ℝ dans ℝ∗ ;
𝑏 𝜖 𝒞2(ℝ) et est définie de ℝ dans ℝ ;
𝑐 est définie de ℝ dans ℝ.
Pour une variable 𝑌 dont la loi peut s’écrire sous la forme exponentielle ci-dessus, nous obtenons :
𝜇 = 𝔼(𝑌) = 𝑏′(𝜃)
𝜎² = 𝕍𝑎𝑟(𝑌) = 𝑏′′(𝜃). 𝑎(𝜙)
La composante déterministe
Pour chaque 𝑌𝑖 , 𝑖 = 1, … , 𝑛, nous disposons de la valeur d’un p-uplet (𝑋1, … , 𝑋𝑝).
Les vecteurs {𝑋1 = (𝑋11, … , 𝑋1𝑥); … ; 𝑋1 = (𝑋𝑝1, … , 𝑋𝑝𝑥)} sont les vecteurs explicatifs.
La fonction lien
Nous définissons 𝑔 la fonction de lien comme déterministe, strictement monotone, définie sur ℝ et
telle que :
𝑔(𝔼(𝑌)) = 𝛽0 + 𝛽1. 𝑋1 + ⋯ + 𝛽𝑝. 𝑋𝑝
Où 𝛽0, 𝛽1, … , 𝛽𝑝 sont les coefficients de régression.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 63
Chacune des lois de la famille exponentielle possède une fonction spécifique pour lien, appelée fonction de
lien canonique qui associe la moyenne 𝜇𝑖 au paramètre 𝜃𝑖. La fonction lien canonique est telle que :
= 𝑔(𝜇𝑖) = 𝜃𝑖 ⇔ 𝑔−1(. ) = 𝑏′(. )
Le tableau suivant présente les fonctions liens canoniques pour les principales lois utilisées en assurance :
Loi de probabilité Nom du lien Fonction de lien
canonique
Normale Lien identité 𝑔(𝜇) = 𝜇
Gamma Lien inverse 𝑔(𝜇) =1
𝜇
Poisson Lien log 𝑔(𝜇) = log(𝜇)
Binomiale Lien logit 𝑔(𝜇) = log (𝜇
1 − 𝜇)
Remarque : Le choix de la fonction lien canonique comme fonction lien fait intervenir des simplifications
importantes dans la procédure d’estimation des paramètres 𝛽 mais cela ne veut pas dire qu’on soit obligé
de choisir la fonction lien canonique.
Estimation des paramètres dans les modèles linéaires généralisés
Les paramètres 𝛽𝑖 sont estimés par la méthode du maximum de vraisemblance. Les estimateurs du
maximum de vraisemblance de (𝛽0, … , 𝛽𝑝) sont notées (𝛽0̂, … , 𝛽�̂�) et �̂� pour 𝜙. Les valeurs ajustées seront
notées :
𝑦�̂� = 𝑔−1(𝛽0̂ + 𝛽1̂. 𝑋1𝑖 + ⋯ + 𝛽�̂�. 𝑋𝑝𝑖)
Les équations de vraisemblance s’écrivent de la forme suivante :
𝑙(𝜃(𝛽), 𝑦, 𝜙) = ∑ ln (𝑓𝑌𝑖(𝑦𝑖, 𝜃, 𝜙))
𝑛
𝑖=1= ∑
(𝑦𝑖 . 𝜃𝑖 − 𝑏(𝜃𝑖))
𝑎(𝜙)
𝑛
𝑖=1+ ∑ 𝑐(𝑦𝑖 , 𝜙)
𝑛
𝑖=1
Et nous résolvons :
𝑙(𝜃(𝛽), 𝑦, 𝜙)
𝛽𝑗
= 0 ∀𝑗 𝜖{1, … , 𝑝}
ln (𝑓𝑌𝑖(𝑦𝑖, 𝜃, 𝜙))
𝛽𝑗
= ln (𝑓𝑌𝑖
(𝑦𝑖, 𝜃, 𝜙))
𝜃𝑖
× 𝜃𝑖
𝜕𝜇𝑖×
𝜕𝜇𝑖
𝛽𝑗
∀ 𝑖, 𝑗
ln(𝑓𝑌𝑖
(𝑦𝑖,𝜃,𝜙))
𝜃𝑖
=𝑦𝑖−𝑏′(𝜃𝑖)
𝑎(𝜙)=
𝑦𝑖−𝜇𝑖
𝑎(𝜙)
𝜃𝑖
𝜕𝜇𝑖=
1
𝑏′′(𝜃𝑖) car 𝜇𝑖 = 𝑏′(𝜃𝑖)
𝜕𝜇𝑖
𝛽𝑗
=𝜕𝜇𝑖
𝑖
∗ 𝑖
𝛽𝑗
=𝜕𝜇𝑖
𝑖
∗ 𝑥𝑖𝑗
=1
𝑔′(𝜇𝑖)× 𝑥𝑖
𝑗 car 𝑔(𝜇𝑖) =
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 64
Nous obtenons donc :
∀𝑗 𝜖{1. . . 𝑝} 𝑙(𝜃(𝛽), 𝑦, 𝜙)
𝛽𝑗
= 0 ⇔ ∀𝑗 𝜖{1. . . 𝑝} ∑𝑦𝑖 − 𝜇𝑖
𝑎(𝜙). 𝑏′′(𝜃𝑖)×
1
𝑔′(𝜇𝑖)× 𝑥𝑖
𝑗
𝑛
𝑖=1
= 0
Ces équations sont non linéaires en 𝛽 donc la solution demande l’utilisation de méthodes numériques telles
que :
La méthode du score, faisant intervenir la matrice d’information de Fisher ;
La méthode de Newton-Raphson, faisant intervenir la matrice hessienne. Nous choisissons cette
méthode car c’est elle qui est implémentée dans le logiciel Emblem, utilisé pour la modélisation.
3.2 Qualité d’ajustement du modèle
L’idée est de comparer le modèle que nous avons estimé avec le modèle saturé. Le modèle saturé
est le modèle qui possède autant de paramètres que d’observations et qui poursuit une description exacte
des données.
Le modèle décrit bien les données si la vraisemblance de notre modèle est environ égale à la
vraisemblance du modèle saturé.
ℒ ≈ ℒ𝑆𝐴𝑇𝑈𝑅𝐸
Ceci suggère la statistique du rapport de vraisemblance 𝜆 =ℒ𝑆𝐴𝑇𝑈𝑅𝐸
ℒ comme mesure de la qualité du
modèle. De manière équivalente, nous pouvons définir log(𝜆) = 𝑙𝑆𝐴𝑇𝑈𝑅𝐸 − 𝑙 avec 𝑙 la log-vraisemblance.
La déviance standardisée
La déviance standardisée est définie comme : 𝐷 = 2. log(𝜆)
Nous pouvons montrer que la déviance standardisée suit une loi du 𝜒2 à 𝑛 − 𝑝 − 1 degrés de liberté.
La déviance est définie comme : 𝐷∗ = 𝜙. 𝐷 avec 𝜙 le paramètre de dispersion de la famille exponentielle.
La statistique de Pearson
Le 𝜒2 de Pearson standardisé est définie par :
𝜒2 = ∑(𝑦𝑖 − 𝜇𝑖)²
𝑉𝑎𝑟(𝑦𝑖)
𝑛
𝑖=1= ∑
(𝑦𝑖 − 𝜇𝑖)²
𝑎(𝜙). 𝑏′(𝜃)
𝑛
𝑖=1
Comme pour la déviance, le 𝜒2 de Pearson standardisé suit une loi du 𝜒2 à 𝑛 − 𝑝 − 1 degrés de liberté.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 65
4 EQUIVALENCE ENTRE LES DEUX APPROCHES DE
MODELISATION /
Deux façons sont disponibles pour modéliser la prime pure : l’approche « prime pure » et l’approche
« fréquence * coût moyen ». Pour pouvoir utiliser la deuxième approche, l’indépendance entre la fréquence
et le coût moyen d’un sinistre doit être vérifiée et nous pourrons confirmer l’équivalence entre les deux
approches. La démonstration est faite juste après :
Nous notons 𝑋 la charge annuelle de sinistre. Par définition, au cours d’un exercice, le somme des
primes pures versées par les assurés doit recouvrir totalement la charge annuelle de sinistre.
La charge annuelle de sinistre peut se décomposer de la manière suivante :
𝑋 = ∑ 𝑍𝑖
𝑁
𝑖=1
𝑍1, 𝑍2, … 𝑍𝑁 correspondent aux montants aléatoires des sinistres ;
𝑁 correspond au nombre de sinistres.
En passant à l’espérance, nous obtenons l’égalité suivante :
𝔼(𝑋) = 𝔼 (∑ 𝑍𝑖
𝑁
𝑖=1) = ∑ 𝔼(𝑍𝑖
𝑁
𝑖=1)
Les deux hypothèses suivantes :
Les 𝑁 montants de sinistres sont des variables aléatoires indépendantes et identiquement
distribuées;
La distribution commune des montants de sinistres ne dépend pas de 𝑁.
Doivent être vérifiées pour pouvoir obtenir l’égalité suivante :
𝔼(𝑋) = 𝔼(𝑁) ∗ 𝔼(𝑍)
⇔ 𝑃𝑟𝑖𝑚𝑒 𝑝𝑢𝑟𝑒 = 𝐹𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 ∗ 𝐶𝑜û𝑡 𝑚𝑜𝑦𝑒𝑛
Dans la tarification, l’hypothèse concernant l’indépendance entre la fréquence et le coût moyen est le plus
souvent supposée sans pour autant qu’elle soit vérifiée. Dans notre cas, pour le démontrer, nous
commençons à calculer la fréquence et la charge observée de chaque assuré.
Pour rappel, la base est composée de 336780 sinistres. L’étude de la dépendance est donc faite sur ces
observations.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 66
Nous commençons par représenter les données dans le graphique suivant afin d’observer une éventuelle
corrélation.
Figure 4-1 . Représentation graphique des données : Fréquence x Charge
Les observations que l’on peut tirer de ce graphique sont les suivantes :
- Pour une fréquence faible, nous pouvons avoir une charge faible ou élevée ;
- Pour une charge de sinistre faible, nous pouvons avoir une fréquence faible ou élevée ;
- Cependant, nous n’observons pas de fréquences élevées pour une charge de sinistre élevée.
Afin de nous rendre compte du degré de dépendance des variables, nous allons évaluer les différents
coefficients que sont le coefficient de corrélation de Pearson, le tau de Kendall et le rho de Spearmann,
résumés dans le tableau suivant :
Coefficient Valeur
Corrélation de Pearson 0,02
Tau de Kendall -0,03
Rho de Spearmann -0,15
Le coefficient de corrélation de Pearson montre une corrélation linéaire très faible entre les deux variables.
Le tau de Kendall montre également une dépendance assez faible. Enfin, le rho de Spearmann est moins
concluant mais conduit à un taux de dépendance relativement faible.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 67
Afin de détecter une éventuelle dépendance, nous traçons le diagramme de dispersion et le graphe des
rangs.
Figure 4-2 . Diagramme de dispersion et graphe des rangs
L’indépendance entre la fréquence et la charge sinistres montrerait une uniformisation des points dans le
graph des rangs précédent. Or, dans notre cas, les points ne sont pas répartis uniformément. En effet, on
peut remarquer que la densité des points est plus forte à certains endroits qu’à d’autres. Nous pouvons
quand même supposer une dépendance faible entre nos deux variables.
Par la suite, nous allons chercher le type de dépendance qui entre en jeu. Pour cela, il nous faut d’abord
estimer la copule empirique :
∁𝑛(𝑢, 𝑣) =1
𝑛∗ ∑ 1
{𝑅𝑖𝑛
≤𝑢,𝑆𝑖𝑛
≤𝑣}
𝑛
𝑖=1
où u et v appartiennent à (0,1).
Nous avons ici : (𝑅𝑖
𝑛,
𝑆𝑖
𝑛) = (𝐹𝑛(𝑋𝑖), 𝐺𝑛(𝑌𝑖)) où Xi et Yi sont respectivement : la fréquence de sinistres et la
charge sinistres.
La fonction copule Cn est par définition la fonction de répartition d’un couple de variables aléatoires à
marginales uniformes et de loi jointe Cn
∀ (𝑢, 𝑣) ∈ [0,1] ∁𝑛(𝑢, 𝑣) =1
𝑛∗ ∑ 1
{𝑅𝑖𝑛
≤𝑢,𝑆𝑖𝑛
≤𝑣}
𝑛
𝑖=1
Le nombre de nos données étant important pour la suite de l’étude, on ajuste la copule à un échantillon pris
aléatoirement dans la base et on réitère l’opération plusieurs fois afin de balayer la base. A chaque fois, les
résultats sont identiques. Pour estimer au mieux la dépendance qu’il peut exister entre la fréquence et la
charge sinistres, nous décidons de comparer graphiquement la copule empirique à la copule indépendante.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 68
Le tracé de la copule empirique en 2D et en 3D nous donne les graphiques suivants :
Figure 4-3 . Représentation en 2D de la copule empirique vs la copule indépendante
Les graphiques de gauche représentent l’image de copule c’est-à-dire que la fonction utilisée créée une
grille de rectangles colorés correspondant aux valeurs de z. Elle nous permet d’afficher les données en
trois dimensions sur un plan en deux dimensions.
Les graphiques de droite représentent les lignes de niveaux des fonctions de répartition de la copule
empirique et de la copule indépendante.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 69
Figure 4-4 . Représentation en 3D de la copule empirique vs la copule indépendante
Les deux graphiques précédents montrent une faible dépendance entre la fréquence et la charge.
L’hypothèse d’indépendance n’est pas en parfaite adéquation avec les données mais celle-ci est un choix
acceptable en première approche. Une étude un peu plus poussée pour montrer quel type de dépendance
il existe entre ces deux variables peut être une piste d’amélioration.
Dans la suite du mémoire, nous décidons de comparer les deux modèles de prime pure trouvés par les
deux approches.
Nous commençons par modéliser séparément la fréquence et le coût moyen. En effet, cette approche
possède deux intérêts. Les lois associées à ces deux grandeurs sont usuelles et facilement modélisables.
De plus, les variables qui expliquent la fréquence peuvent différer des variables qui vont expliquer le coût
moyen.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 70
5 CHOIX DES PARAMETRES DU MODELE /
5.1 Choix d’une loi de probabilité
5.1.1 Distribution de la fréquence
Nous commençons par tester l’adéquation de la fréquence de sinistres à des lois usuelles. Les lois
les plus utilisées pour modéliser la fréquence sont la loi de Poisson et la loi binomiale négative. Le but de
cette partie sera de déterminer la loi qui s’ajuste le mieux à notre fréquence.
Test d’adéquation du 𝜒2
Pour tester l’adéquation de la fréquence à une distribution discrète, nous utilisons le test d’adéquation du
𝜒2.
Soit 𝑁 le nombre de sinistres. Nous testons les lois sur cette variable
Nous posons les hypothèses de test :
𝐻0: 𝑁 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝑑𝑒 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 𝑜𝑢 𝑢𝑛𝑒 𝑙𝑜𝑖 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑒 𝑁é𝑔𝑎𝑡𝑖𝑣𝑒
𝐻1: 𝑁 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑎𝑢𝑡𝑟𝑒 𝑙𝑜𝑖
Nous calculons ensuite la statistique de test du 𝜒2 :
𝑇 = ∑(𝑇𝑘 − 𝑂𝑘)²
𝑇𝑘
𝐾
𝑘=0
𝐾 représente le nombre de sinistres au cours des 5 années ;
𝑂𝑘 correspond au nombre d’assurés ayant eu 𝑘 sinistres durant ces 5 années;
𝑇𝑘 représente le nombre attendu d’assurés ayant eu 𝑘 sinistres durant ces 5 années en suivant une
loi de Poisson ou une loi Binomiale Négative.
Sous l’hypothèse nulle, cette statistique suit une loi du 𝜒2 à (𝑙 − 𝑚 − 1) degrés de liberté où 𝑙 est le nombre
de cas possibles (𝑙 = 9 pour 9 cases de sinistres) et 𝑚 est le nombre de paramètres estimés dans notre loi.
Si la somme (des carrés des écarts normalisés) multipliée par le nombre d'observations est inférieure au
𝜒2, nous acceptons l'hypothèse que le modèle adéquat suit bien la loi de probabilité proposée. Dans le cas
contraire nous rejetons ce modèle.
Nous choisissons 5% et 1% comme probabilité de rejeter à tort l'hypothèse que le modèle adéquat suit
bien la loi de probabilité proposée.
Adéquation à une loi de Poisson
Nous supposons que le nombre de sinistres suit une loi de Poisson de paramètre �̂� =22,84%. Pour
estimer le paramètre de la loi de Poisson 𝜆, nous avons utilisé la méthode des moments.
Nous rappelons que si le paramètre à estimer est l’espérance de la loi, alors nous pouvons estimer ce
paramètre par la moyenne empirique de l’échantillon :
�̂� = 𝑁 =1
𝑛∑ 𝑁𝑖
𝑛
𝑖=1
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 71
Il faut noter que ce taux devrait correspondre à notre fréquence de sinistre. Or, nous avons passé notre
base à la maille contrat, les sinistres sont donc comptabilisés par numéro de contrat et non plus par
intervalle de risque. Ceci explique notre écart avec notre réelle fréquence qui est de 12,11%.
La loi de Poisson est définie par : 𝑃(𝑁 = 𝑘) =𝑒−𝜆.𝜆𝑘
𝑘 ! avec 𝔼(𝑁) = 𝜆 et 𝕍(𝑁) = 𝜆.
La table suivante présente le nombre de contrats observés et attendus par la loi de Poisson par rapport au
nombre de sinistres.
Nombre de sinistres
Nombre de contrats observés 𝑂𝑘
Nombre de contrats attendus 𝑇𝑘
0 1201310 1175206
1 224428 268421
2 41981 30654
3 7547 2334
4 1230 133
5 213 6
6 37 0
7 7 0
8 1 0
La statistique du 𝜒2 est de 56610. Nous rejetons 𝑯𝟎 au seuil :
5% : en effet, le quantile d’ordre 95% de la loi du 𝜒2 à 7 degrés de libertés est de 14,07.
1% : en effet, le quantile d’ordre 99% de la loi du 𝜒2à 7 degrés de libertés est de 18,47.
Remarque : La validité du test du 𝜒2 peut être remise en cause lorsque des valeurs attendues sont
inférieures à 5. Nous avons regroupé les sinistres supérieurs à 5 mais la conclusion est la même : la loi de
poisson ne s’ajuste pas à notre fréquence.
Adéquation à une loi Binomiale Négative
La seconde étape est de tester l’adéquation de la loi Binomiale Négative à la fréquence de sinistres.
La loi binomiale négative est le résultat du « mélange » entre une loi de poisson et d’une loi de gamma.
Elle est définie de la manière suivante :
𝑃(𝑁 = 𝑘) =Γ(𝑘+𝜈)
Γ(𝑘+1).Γ(𝜈). (
𝜈
𝜈+𝜆)
𝜈. (
𝜆
𝜈+𝜆)
𝑘 ;
𝔼(𝑁) = 𝜆 ;
𝕍(𝑁) = 𝜆. (1 +𝜆
𝜈).
Pour estimer les paramètres de la loi Binomiale Négative, nous utilisons également la méthode des
moments.
De la même manière que pour la loi de Poisson, nous estimons l’espérance de la loi par la moyenne
empirique de l’échantillon et la variance par la variance empirique de l’échantillon :
𝔼(𝑁) = 𝑁 =1
𝑛∑ 𝑁𝑖
𝑛
𝑖=1
𝕍(𝑁) = 𝑆𝑁2 =
1
𝑛 − 1∑ (𝑁𝑖
𝑛
𝑖=1− 𝑁)²
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 72
Nous obtenons les estimateurs suivants :
�̂� = 𝑁 𝑒𝑡 �̂� =𝑁²
𝑆𝑁2 − 𝑁
Les paramètres sont donc estimés par les valeurs suivantes : �̂� =0,2284 et �̂�=1,0599.
La table suivante présente le nombre de contrats observés et attendus par la loi de Poisson par rapport au
nombre de sinistres.
Nombre de sinistres
Nombre de contrats observés 𝑂𝑘
Nombre de contrats attendus 𝑇𝑘
0 1201310 1200821
1 224428 225646
2 41981 41203
3 7547 7451
4 1230 1341
5 213 241
6 37 43
7 7 8
8 1 1
La statistique du 𝜒2 est de 36. Nous rejetons 𝑯𝟎 au seuil :
5% : en effet, le quantile d’ordre 95% de la loi du 𝜒2 à 6 degrés de libertés est de 12,59.
1% : en effet, le quantile d’ordre 99% de la loi du 𝜒2 à 6 degrés de libertés est de 16,81.
Remarque : même si le test du 𝜒2rejette l’adéquation, la loi Binomiale Négative s’ajuste beaucoup mieux à
nos données que la loi de Poisson.
Pour notre modélisation nous choisirons d’utiliser la loi de Poisson. En effet, AXA utilise traditionnellement
cette loi dans toutes ses modélisations.
5.1.2 Distribution du coût moyen
Pour tester l’adéquation d’une loi usuelle aux coûts des sinistres, nous testons les lois suivantes :
- Loi gamma : loi la plus utilisée dans la modélisation des coûts des sinistres ;
- Loi log normale : la loi log normale ne fait pas partie de la famille exponentielle donc elle n’est pas
modélisable par des modèles linéaires généralisés. En revanche, il est possible de modéliser le
logarithme des coûts de sinistre par une loi normale ;
Test d’adéquation de Kolmogorov-Smirnov
Ce test permet de tester l’hypothèse 𝐻0 selon laquelle certaines lois usuelles choisies
consciemment s’ajustent convenablement à nos données observées. Ici, les calculs se font sur les
fonctions de répartition.
Soit 𝑍 le coût moyen des sinistres où 𝐹 est la fonction de répartition.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 73
Le test est le suivant :
𝐻0: 𝑍 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑙𝑜𝑖 𝐹0 𝑐𝑜𝑛𝑛𝑢𝑒
𝐻1: 𝑍 𝑠𝑢𝑖𝑡 𝑢𝑛𝑒 𝑎𝑢𝑡𝑟𝑒 𝑙𝑜𝑖 𝑞𝑢𝑒 𝐹0
De plus, si (𝑍1, … , 𝑍𝑛) est un 𝑛 −échantillon de 𝑍, nous notons 𝐹𝑛 la fonction de répartition empirique
associée à cet échantillon définie par :
𝐹𝑛(𝑥) =1
𝑛∑ 𝕝]−∞;𝑥]
𝑛
𝑖=1(𝑍𝑖)
La statistique du test de Kolmogorov-Smirnov est calculée par :
𝐷𝑛 = sup𝑥 ∈ ℝ
|𝐹𝑛(𝑥) − 𝐹0(𝑥)|
Nous acceptons 𝐻0 au seuil 𝛼 lorsque la valeur observée 𝐷𝑛 est inférieure au quantile d’ordre 1 − 𝛼. Si le
cas contraire se présente, nous rejetons 𝐻0.
Adéquation à des lois usuelles
La figure suivante présente la répartition des coûts observés superposés des lois usuelles précédemment
citées.
Tableau 5-1 . Adéquation des lois Gamma et log normale aux coûts des sinistres
Visuellement, la loi log normale s’ajuste beaucoup mieux aux données que les autres lois.
Le test de Kolmogorov Smirnov donne les résultats suivants :
- Pour la loi log normale, la statistique de test est égale à 0,00761917 supérieure au quantile d’ordre
95% qui est de 0,0032993 et au quantile d’ordre 99% qui est de 0,00275279 donc nous rejetons 𝐻0
pour ces deux seuils ;
- Pour la loi Gamma, la statistique de test est égale à 0,03312982 supérieure au quantile d’ordre 95%
qui est de 0,0032993 et au quantile d’ordre 99% qui est de 0,00275279 donc nous rejetons 𝐻0 pour
ces deux seuils.
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0 750 1500 2250 3000
Adéquation des lois aux coûts des sinistres
Pourcentage de charge observée Loi lognormale Loi gamma
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 74
Ce test rejette les deux lois : log normale et gamma. Cependant, comme vu précédemment sur le
graphique, nous remarquons que la statistique du test est très proche du seuil de 95% pour la loi log
normale. Celle-ci s’ajuste mieux à nos données que la loi gamma.
Pour la modélisation des coûts des sinistres, nous choisirons d’utiliser la loi Gamma avec la fonction lien
log. En effet, AXA utilise traditionnellement cette loi dans toutes ses modélisations.
De plus, la modélisation par une loi log normale ne se pas fait implicitement. En effet, cette loi ne fait pas
partie de la famille exponentielle mais il est possible de modéliser le logarithme des coûts par une loi
normale qui elle fait partie de la famille exponentielle. De cette manière, un écart se forme en moyenne
entre le coût réel des sinistres et l’estimation des coûts. Nous décidons donc de conserver la loi Gamma.
5.2 Choix des variables à expliquer
Nous nous intéressons entre autres dans le cadre de ce mémoire à comparer les deux approches
« prime pure » et « fréquence * coût moyen ». Nous disposons alors de trois variables à expliquer : la
prime pure, la fréquence et le coût moyen. En supposant que la fréquence de sinistre est indépendante du
coût moyen des sinistres, nous n’aurons plus qu’à multiplier ces deux indicateurs pour trouver notre
nouveau modèle de prime pure.
5.3 Choix des variables explicatives
5.3.1 Méthodes de sélection
Plusieurs méthodes de sélection des variables sont utilisées dans la littérature, telles que les
méthodes BACKWARD, FORWARD et STEPWISE. Ici, nous avons privilégié la méthode FORWARD.
La méthode Forward consiste à intégrer les variables une par une dans le modèle si elles s’avèrent
significatives. Nous arrêtons d’intégrer des variables dans le modèle lorsque l’ajout de variables
supplémentaires n’améliore plus le modèle.
Nous allons donc sélectionner nos variables explicatives en utilisant la méthode Forward avec le critère
BIC (Bayesian Information Criterion) qui permet d’obtenir le modèle le plus vraisemblable possible par
rapport à nos données.
5.3.2 Explication de la fréquence
Les résultats de la procédure Forward pour la fréquence RC sont donnés dans la figure ci-dessous.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 75
Figure 5-1 . Explication de la fréquence par la méthode FORWARD
Le coefficient réduction-majoration apparait comme étant le facteur le plus influent de la sinistralité.
En effet, il traduit à la fois l’expérience de conduite et la sinistralité. Dans nos modèles linéaires
généralisés, les coefficients de cette variable ont été forcés en « offset » de telle sorte qu’un assuré ayant
un bonus de 50 ait un coefficient de 0,5 soit une prime deux fois moins chère qu’un assuré ayant un bonus
de 100 et un coefficient de 1.
Deux variables concernant la zone de risque correspondant à la garantie RC apparaissent dans la
sélection de variables. En effet, un nouveau zonier est en train d’être mis en place en remplacement de
l’ancien zonier.
Le RM, l’ancienneté du véhicule, la zone RC et l’ancienneté de permis influencent très fortement la
fréquence de sinistre. Ce résultat était prévisible dans le sens où l’expérience, le lieu de conduite et
l’ancienneté du véhicule sont des facteurs déterminants dans la sinistralité. Les jeunes conducteurs étant
victimes de leur inexpérience, ce sont eux qui se retrouvent le plus souvent dans les accidents de la route.
Les variables « classe de prix », « option kilomètres limités », « tarif AXA France », « fractionnement »
apparaissent ensuite comme influentes de la sinistralité. En effet, chez les jeunes conducteurs, plus le prix
du véhicule est important plus la fréquence de sinistres est importante. L’influence du facteur « tarif AXA
France » s’explique par la classe des sans antécédent d’assurance. De même, les assurés qui fractionnent
leur paiement mensuellement sont souvent des jeunes sans antécédent. Enfin, nous pouvons supposer
que plus un conducteur détient son véhicule depuis longtemps plus sa sinistralité sera moindre.
-0,10%
0,00%
0,10%
0,20%
0,30%
0,40%
0,50%
0,60%
1425000
1430000
1435000
1440000
1445000
1450000
1455000
1460000
1465000
1470000
1475000C
oe
ff. r
édu
ctio
n/m
ajo
rati
on
An
cie
nn
eté
du
vé
hic
ule
Zon
e R
C (
no
uve
lle)
An
cie
nn
eté
de
per
mis
Cla
sse
de
pri
x
Op
tio
n k
ilom
ètr
es li
mit
és
Tari
f A
XA
Fra
nce
Frac
tio
nn
em
en
t
Du
rée
de
dét
en
tio
n
No
mb
re d
e v
éh
icu
les
au f
oye
r
Pro
fess
ion
Segm
ent
du
véh
icu
le
Zon
e R
C (
anci
enn
e)
Usa
ge
Ind
ice
clie
nt
Form
ule
Ass
ista
nce
Ener
gie
du
véh
icu
le
Gen
re d
u v
éh
icu
le
Situ
atio
n m
atri
mo
nia
le
Bo
nu
s p
are
nta
l
Jeu
ne
Per
mis
Co
nd
uit
e ac
com
pag
née
Arb
re d
e d
éci
sio
n à
8 c
lass
es
Ré
gio
ns
AX
A F
ran
ce
Explication de la fréquence par la méthode FORWARD
Critère BIC Décroissance relative
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 76
Les variables « nombre de véhicules au foyer » et « usage » sont mal renseignées et contiennent environ
15% de non renseignés. Nous décidons de les éliminer de notre modèle. De plus, la population étant très
mal répartie dans la variable « formule », nous décidons d’opter pour la variable « niveau de garantie »
corrélée avec celle-ci.
Cependant, nous ajoutons à notre modèle la variable contenant les probabilités de résiliation issues de
l’arbre de décision à 8 classes. Cette variable améliore notre modèle et permet de lier notre précédente
étude à celle-ci. Nous pouvons supposer que les résiliés sont les personnes qui ont la plus grande
sinistralité. Nous ajoutons également les clauses de l’offre « jeunes conducteurs », la variable « conduite
accompagnée » et le croisement entre les variables « enfant d’assuré » et « bonus parental ». Ces ajouts
améliorent notre modèle et les coefficients sont significatifs. Il est évident que ces facteurs influent sur la
sinistralité. Une personne qui a effectué la conduite accompagnée a deux ans d’expérience de conduite de
plus qu’une personne ayant eu son permis sans passer par la conduite accompagnée. De plus, une
personne disposant de la clause « bonus parental » aura plus de chance de ne pas avoir d’accident. En
effet, la bonne conduite des parents influe sur la conduite de leurs enfants.
Voici donc les variables que nous allons utiliser pour construire notre modèle de fréquence :
- Bonus/Malus
- Ancienneté du véhicule (en âge entier)
- Zone de risque RC
- Ancienneté de permis (en âge entier)
- Classe de prix du véhicule
- Option kilomètres limités
- Tarif AXA France
- Fractionnement
- Durée de détention
- Profession
- Segment du véhicule
- Niveau de garantie
- Arbre de décision à 8 classes
- Conduite accompagnée
- Enfant d’assuré * Bonus parental
Ajouter les variables qui suivent dans la procédure Forward ne nous apporterait pas plus d’informations et
le modèle ne s’adapterait pas aussi bien sur notre base de test, nous décidons donc de nous arrêter là.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 77
5.3.3 Explication du coût moyen
Les résultats de la procédure Forward pour le coût des sinistres RC sont donnés dans la figure ci-
dessous.
Figure 5-2 . Explication du coût moyen par la méthode FORWARD
Pour les mêmes raisons que pour la fréquence, les variables « bonus/malus », « classe de prix »,
« ancienneté du véhicule », « ancienneté de permis » et « zone de risque RC » sont significativement
influentes sur le coût des sinistres. Cependant, le nouveau zonier RC est un zonier de fréquence ajusté au
coût moyen. Il s’adapte très mal sur le coût moyen des jeunes conducteurs. Nous décidons de le remplacer
par la variable « région AXA France » moins splittée que le zonier.
Les variables « ancienneté du véhicule » et « ancienneté de permis » sortent en quarts d’années. Nous
pouvons supposer que pour le coût des sinistres, le risque n’évolue pas seulement par année mais plus
précisément par quarts d’année.
Un nouveau facteur ressort comme étant influent sur la gravité des sinistres : la « vitesse maximale ». En
effet, un véhicule ayant une vitesse importante au moment de l’accident aura une conséquence sur la
gravité de l’accident. De plus, plus la vitesse maximale du véhicule est grande, plus le véhicule est puissant
et donc difficilement « maîtrisable » par un jeune conducteur sans antécédent.
La formule souscrite par l’assuré intervient ensuite comme influente. Cependant, cette variable contient
respectivement 33%, 23% et 33% de la population dans les formules référence de niveaux 1, 2 et 3. Les 18
autres modalités contiennent à elles toutes seulement 11%. Nous décidons de remplacer ce facteur par la
variable « niveau de garantie ».
-0,01%
0,04%
0,09%
0,14%
0,19%
0,24%
2965000
2970000
2975000
2980000
2985000
2990000
Explication du coût des sinistres par la méthode FORWARD
BIC Décroissance relative
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 78
Les deux facteurs suivants rentrant en jeu dans l’explication du coût des sinistres sont les variables
contenant les probabilités de résiliation obtenues par la régression logistique et par les arbres de décision à
8 classes. Nous décidons de ne garder que la variable « arbre de décision à 8 classes pour être cohérents
avec notre choix de variables pour la fréquence de sinistres.
La « situation matrimoniale » du conducteur explique également la gravité des sinistres. Les jeunes
conducteurs sans antécédent d’assurance victimes de leur inexpérience et donc surreprésentés dans les
accidents de la route sont en majorité célibataires.
Enfin, nous choisissons d’intégrer les variables « carrosserie » et « segment du véhicule » avant de
remarquer qu’ajouter plus de variables ne nous permettrait pas d’obtenir plus d’informations. Nous
remarquons que croiser ces deux variables liées au véhicule améliore notre modèle considérablement.
Voici donc les variables que nous allons utiliser pour construire notre modèle de coût moyen :
- Bonus/Malus
- Classe de prix du véhicule
- Ancienneté du véhicule
- Ancienneté de permis (en quarts d’années)
- Régions AXA France
- Vitesse maximale
- Situation matrimoniale
- Carrosserie*Segment
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 79
6 LISSAGE ET ESTIMATION DES COEFFICIENTS TARIFAIRES /
Pour finaliser notre modèle de fréquence et de coût moyen, il faut s’assurer que les coefficients sont
cohérents et significatifs. En effet, pour la vitesse maximale dans le modèle de coût moyen, il est logique
que les coefficients augmentent avec la vitesse. Cependant, les observations ne reflètent pas toujours la
théorie et nous devons par conséquent ajuster les coefficients.
Initialement, nous obtenions un coefficient plus petit pour la vitesse comprise entre 141 et 150 km/h que
pour une vitesse maximale inférieure à 140 km/h. Nous devons donc lisser ce coefficient ce qui signifie
l’ajuster avec un polynôme d’un degré que nous définissons.
Figure 6-1 . Lissage des coefficients pour la variable vitesse maximale – avant lissage
0%
5%
10%
15%
20%
25%
30%
0,99
1,09
1,19
1,29
1,39
1,49
1,59
Lissage des coefficients pour la variable vitesse maximale - avant lissage
Weight
Coefficients tarifaires
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 80
Figure 6-2 . Lissage des coefficients pour la variable vitesse maximale – après lissage
Modèle de fréquence
Les remarques suivantes peuvent être faites concernant les coefficients associés au modèle de fréquence :
- Coefficient bonus-malus : coefficient compris entre 0,5 et 3,5 ;
- Conduite accompagnée : les personnes ayant fait la conduite accompagnée représentent un risque
moins important donc ils ont un coefficient plus faible de 12,5% ;
- Ancienneté du véhicule : les coefficients diminuent avec l’ancienneté du véhicule. Nous retrouvons
le même phénomène avec l’ancienneté de permis ;
- Niveau de garantie : les coefficients sont croissants avec le niveau de garantie. Cela peut
s’expliquer par le fait que ce sont plutôt des gros véhicules qui s’assurent en niveau 3 et donc ils ont
une fréquence de sinistres plus importante car plus averses au risque ;
- Option kilométrage limité : un assuré étant en kilométrage limité représente un risque moins
important donc comme la conduite accompagnée, son coefficient est diminué de 30% ;
- Fractionnement : les assurés fractionnant autrement qu’annuellement sont des personnes plus
averses au risque, leur coefficient est majoré de 11% ;
- Profession : les étudiants et les fonctionnaires possèdent les coefficients les plus faibles. En effet,
comme nous pouvons nous y attendre depuis les tris à plat, chez les jeunes conducteurs, ce sont
les étudiants qui représentent le risque le plus faible.
- Durée de détention : les coefficients diminuent avec la durée de détention. Plus longtemps le
véhicule est détenu par l’assuré, plus il est maîtrisé par celui-ci.
0%
5%
10%
15%
20%
25%
30%
0,99
1,09
1,19
1,29
1,39
1,49
1,59
Lissage des coefficients pour la variable vitesse maximale - après lissage
Weight
Coefficients tarifaires
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 81
- Probabilités de résiliation : les personnes capables de résilier avec une probabilité supérieure à 50
% représentent un risque plus élevé de 5% en terme de fréquence ;
- Zone de risque : les coefficients sont croissants avec la zone de risque. Ici encore, il a fallu lisser les
coefficients pour obtenir des résultats cohérents : le risque le plus élevé se trouvant en zone 17 ;
- Classe de prix : il s’agit d’une variable très discriminante où l’on constate que plus la classe de prix
du véhicule est importante, plus les coefficients sont élevés ;
- Enfant d’assuré * Bonus parental : il a fallu commencer par forcer le coefficient « enfant d’assuré =
non » et « bonus parental = oui ». En effet, ce cas ne peut pas exister. Une personne seulement
« enfant d’assuré » représente un risque moins élevé de 1% et un assuré disposant des deux
clauses voit sa fréquence de sinistre diminuée d’environ 8%.
Modèle de coût moyen
Les mêmes remarques peuvent être faites concernant les variables également modélisées pour le coût
moyen de sinistre. De plus, deux variables viennent se rajouter au modèle de coût moyen : la vitesse
maximale et la situation matrimoniale.
- Situation matrimoniale : comme nous avons pu le voir précédemment, les célibataires sont souvent
les sans antécédent d’assurance. Il est logique que cette population-là représente un risque plus
élevé de 6% ;
- Vitesse maximale : comme pour la classe de prix, plus la vitesse maximale du véhicule augmente,
plus le risque est important.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 82
7 VALIDATION DES MODELES /
Pour valider le modèle trouvé sur la base d’apprentissage, trois moyens s’offrent à nous : la
vérification entre la moyenne modélisée et les observations, l’analyse des résidus et le test de notre
modèle sur une autre base que celle où nous avons construit notre modèle.
7.1 Significativité des coefficients
Une fois que le modèle a été adapté à la base de données, il est intéressant de regarder les paramètres
estimés pour le modèle ajusté. Le tableau suivant présente quelques variables du modèle accompagnées
de plusieurs indicateurs :
Nombre de paramètres
Nom Valeur Erreur
standard
Erreur standard
(%) Poids Poids(%) Exp(Valeur)
1 Moyenne -2,0743 0,01617 0,8 1 950 109 100% 0,1256
- conduite accompagnée (NON) 1 924 919 99%
2 conduite accompagnée (OUI) -0,1411 0,01857 13,2 25 190 1% 0,8684
- option kilomètres limités (NON) 1 787 493 99%
3 option kilomètres limités (OUI) -0,3650 0,01130 3,1 162 616 1% 0,8512
- tarif (descente rapide) 1 033 455 53%
4 tarif (sans antécédent) 0,0807 0,01019 12,6 246 990 13% 1,0841
5 tarif (standard) 0,0822 0,00577 7,0 485 231 25% 1,0856
6 tarif (excellence) 0,1408 0,01160 8,2 184 432 9% 1,1512
7 profession (fonctionnaires) -0,0622 0,01008 16,2 136 592 7% 0,9396
- profession (salariés) 1 309 755 67%
8 profession (étudiants) -0,0701 0,00707 10,1 336 722 17% 0,9323
9 profession (autres CSP) 0,0547 0,00895 16,4 167 040 9% 1,0562
La significativité des coefficients s’observe par rapport à un niveau de base. Pour chaque variable, la
modalité de base est la modalité la plus représentée. Il est affiché en bleu pour chaque variable dans le
tableau. L’individu possédant chacune de ces modalités est considéré comme l’individu de base. Celui-ci a
pour risque l’exponentielle de la valeur de la moyenne. Dans le tableau précédent, la valeur de la moyenne
est de -2.07 (modèle de fréquence en utilisant une structure d'erreur poisson avec une fonction de lien log)
ce qui équivaut à une fréquence de 12,6%.
Pour chaque estimation de paramètre, l’«erreur standard» de l'estimation est également affichée. Le
«pourcentage d'erreur standard" est calculé comme l'erreur-type divisée par la valeur (estimation du
paramètre), exprimé en pourcentage. Plus le pourcentage d'erreur standard est élevé, moins la différence
statistique existe entre ce paramètre et le niveau de base. Il existe un code couleur aidant à l’interprétation.
Si le pourcentage est inférieur à 50% il sera de couleur vert, entre 50% et 75% de couleur gris et au-delà
de 75% de couleur rouge.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 83
Les chiffres de l’ «erreur standard» peuvent être utilisés pour aider à la simplification du modèle. Si toutes
les erreurs standards sont supérieures à 75% alors les modalités de la variable ne sont pas significatives.
7.2 Comparaison entre nos indicateurs observés et modélisés
Cette première étape consiste à vérifier l’écart entre la moyenne modélisée et les observations. Le
but étant de se rapprocher le plus possible de la tendance des observations pour chaque variables.
- La moyenne modélisée est représentée par la courbe bleue;
- Les observations sont représentées par la courbe rose ;
- Enfin, les bâtons bleu clair correspondent aux pourcentages d’années police.
Figure 7-1 . Ajustement de la fréquence modélisée aux observations
Pour la variable « vitesse maximale », nous observons que la fréquence modélisée s’ajuste bien à nos
données alors que cette même variable n’est pas prise en compte dans la modélisation.
Nous concluons que le modèle est correct sans pour autant avoir besoin d’inclure cette variable.
7.3 Analyse des résidus d’un modèle linéaire généralisé
La première étape est d’analyser graphiquement les résidus issus du modèle. Un résidu est une
mesure de distance entre les valeurs observées et les valeurs prédites. Cette analyse va permettre de
vérifier si des observations sont mal expliquées.
Différents types de résidus peuvent être calculés :
- Les résidus classiques : 𝑟𝑖 = 𝑦𝑖 − 𝜇�̂� représentent la différence entre les valeurs observées et les
valeurs prédites ;
0%
5%
10%
15%
20%
25%
30%
0,07
0,08
0,09
0,1
0,11
0,12
0,13
0,14
0,15
0,16
<=140 141-150151-160161-170171-180181-190191-200201-220 >=221
Ajustement de la fréquence modélisée aux observations
Weight
Fréquence modélisée
Fréquence observée
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 84
- Les résidus de Pearson : 𝑟𝑖𝑃𝑒𝑎𝑟𝑠𝑜𝑛 =
𝑦𝑖−𝜇�̂�
√𝑉𝑎𝑟(𝜇�̂�) mesurent l’écart entre les valeurs observées et les
valeurs prédites pondérées par leur précision estimée par l’écart-type ;
- Les résidus de Déviance : 𝑟𝑖𝐷é𝑣𝑖𝑎𝑛𝑐𝑒 = 𝑠𝑖𝑔𝑛𝑒(𝑦𝑖 − 𝜇�̂�) ∗ √𝑑𝑖 où 𝐷 = ∑ 𝑑𝑖𝑖 est la déviance
standardisée et 𝑑𝑖 est la contribution de l’observation à la déviance.
Pour que l’erreur de modélisation soit faible, ce qui signifie que notre modèle est acceptable, il faut que
tous les résidus soient centrés en 0 en ne possédant pas de structure non aléatoire.
Figure 7-2 . Contour des résidus de Déviance correspondants au modèle de fréquence
Le contour montre les résidus calculés observation par observation. Dans un modèle de fréquence, la
plupart des observations auront une fréquence nulle, et certaines auront une fréquence importante (les
images sur lesquelles il est survenu un sinistre).
La plupart des résidus sont centrés autour de 0 et nous ne détectons pas de structure non aléatoire. Les
points les plus éloignés de 0 se justifient par le fait que nous possédons des sinistres sur des années
police très restreintes.
Les résidus pour le coût moyen se comportent de la même manière que pour la fréquence de sinistre. Les
points les plus éloignés du 0 sont les sinistres dont la charge est proche du seuil d’écrêtement.
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
3,5
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
Stu
de
nti
zed
Sta
nd
ard
ize
d D
evi
ance
Re
sid
ual
s
Fitted Value
Contour des résidus pour le modèle de fréquence > 1> 3> 1,022> 2,043> 3,064> 4,085> 5,106> 6,127> 7,148> 8,169> 9,190> 10,211> 11,232> 12,253> 13,274> 14,295> 15,316> 16,337> 17,358> 18,379> 19,400> 20,422> 21,443> 22,464> 23,485> 24,506> 25,527> 26,548> 27,569> 28,590> 29,611> 30,632> 31,653> 32,674> 33,695> 34,716> 35,737> 38,800
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 85
7.4 Validation sur une base de « test »
La deuxième étape est de tester notre modèle sur la base de test contenant 30% de notre base totale.
Pour cela, nous fabriquons des intervalles de confiance autour de nos indicateurs modélisés et nous
vérifions que les observations se situent bien dans l’intervalle de confiance.
Soient 𝑌1, … , 𝑌𝑛 𝑛 variables aléatoires indépendantes et identiquement distribuées d’espérance 𝔼(𝑌) et
d’écart-type 𝜎(𝑌).Quand 𝑛 est suffisamment grand, le théorème central limite permet d’écrire :
√𝑛 (�̅� − 𝔼(𝑌)
𝜎(𝑌)) → 𝑁(0,1) 𝑎𝑣𝑒𝑐 �̅� =
1
𝑛∑ 𝑌𝑖
𝑛
𝑖=1
.
Cette écriture est équivalente à :
ℙ (|√𝑛.�̅� − 𝔼(𝑌)
𝜎(𝑌)| ≤ 𝑞
1−𝛼2
) = 1 − 𝛼
Où 𝑞1−𝛼
2 est le quantile de la loi normale centrée réduite.
D’où, nous pouvons alors construire l’intervalle de confiance au niveau de confiance 1 − 𝛼 suivant :
𝐼𝐶 = [𝔼(𝑌) ∓ 𝑞1−
𝛼2
𝜎(𝑌)
√𝑛]
- 𝔼(𝑌) : moyenne des coefficients ajustés ;
- 𝜎(𝑌) : écart-type empirique.
Nous représentons dans le graphique suivant le coût moyen modélisé pour la variable classe de prix
encadré d’un intervalle de confiance à 5% et le coût moyen observé.
En effet, la légende du graphique est la suivante :
- Les bâtons bleus clairs représentent le pourcentage d’années police ;
- La courbe bleue correspond au coût moyen modélisé ;
- La courbe rose en pointillés représente le coût moyen observé ;
- Enfin, les courbes rouge et verte représentent respectivement la borne supérieure et la borne
inférieure.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 86
Figure 7-3 . Comparaison du coût moyen observé et prédit sur la variable classe de prix
Pour la classe de prix, nous observons que les valeurs du coût moyen observé se situent dans l’intervalle
de confiance à 5% du coût moyen modélisé. Seules les classes A et P se trouvent un peu éloignées. Cela
s’explique par des cases tarifaires plus petites et au lissage préalable de nos coefficients.
Finalement, nous constatons que notre modèle s’ajuste plutôt bien sur notre base de test sur l’ensemble
des variables tarifaires, ce qui nous permet de valider la robustesse de notre modèle.
0%
2%
4%
6%
8%
10%
12%
500 €
700 €
900 €
1 100 €
1 300 €
1 500 €
1 700 €
1 900 €
2 100 €
2 300 €
2 500 €
A B C D E F G H I J K L M N O P Q R S
Comparaison du coût moyen observé et prédit sur la variable classe de prix
Weight Sum
CM modelise
CM obs
Borne Inf
Borne sup
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 87
8 MODELISATION DE LA PRIME PURE /
Le principe de cette partie est de modéliser la prime pure directement dans le but de comparer cette
nouvelle modélisation avec celle obtenue par une approche indirecte « fréquence * coût moyen ».
Distribution et fonction de lien
La loi gamma est compatible et classiquement utilisée pour modéliser la prime pure. Nous choisissons
cette distribution pour élaborer notre modèle. Le lien logarithmique est retenu pour faire la liaison entre la
partie déterministe et la partie aléatoire. Nous obtenons donc un modèle multiplicatif : la prime pure d’un
assuré quelconque est un pourcentage de la prime pure de l’assuré de référence.
Sélection des variables tarifaires
La sélection des variables a été effectuée selon la procédure Forward comme précédemment. Les
résultats sont donnés dans la figure ci-dessous :
Figure 8-1 . Explication de la prime pure par la méthode FORWARD
Les variables intervenant le plus dans l’explication de la prime pure sont des variables qui déjà
intervenaient dans les modèles de fréquence et de coût moyen. Les variables les plus influentes sont une
fois de plus le coefficient bonus/malus, l’ancienneté du véhicule, la classe de prix, l’ancienneté de permis,
la zone de risque RC, l’option « kilomètres limités » et les probabilités de résiliation issues de l’arbre de
décision à 8 classes.
0,00%
0,20%
0,40%
0,60%
0,80%
1,00%
1,20%
1,40%
16000000
16100000
16200000
16300000
16400000
16500000
16600000
16700000
16800000
16900000
Co
eff
. réd
uct
ion
/maj
ora
tio
n
An
cie
nn
eté
du
vé
hic
ule
Cla
sse
de
pri
x
An
cie
nn
eté
de
per
mis
Zon
e d
e ri
squ
e R
C
Op
tio
n k
ilom
ètr
es li
mit
és
Arb
re d
e d
éci
sio
n à
8 c
lass
es
Ré
gio
ns
AX
A F
ran
ce
Du
rée
de
dét
en
tio
n
Ass
ista
nce
Typ
e d
e p
op
ula
tio
n
Tari
f A
XA
Fra
nce
Vit
ess
e m
axim
ale
Niv
eau
de
gar
anti
e
Situ
atio
n m
atri
mo
nia
le
Mar
qu
e d
u v
éh
icu
le
Pré
lève
men
t au
tom
atiq
ue
Pu
issa
nce
du
vé
hic
ule
Explication de la prime pure par la méthode FORWARD
BIC Décroissance relative
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 88
Comme pour le coût moyen, les facteurs « ancienneté de permis » et « ancienneté du véhicule » sont en
quarts d’années. Une segmentation plus fine permet de mieux représenter le risque.
Le facteur assistance intervient comme étant influent sur la prime pure. Elle contient quatre modalités : le
remorquage, l’assistance 0 kilomètre, l’assistance 30 kilomètres et l’assistance enrichie. Certaines
garanties n’existant plus, nous n’utiliserons pas ce facteur comme variable tarifaire.
Nous rajoutons les variables correspondant aux clauses de l’offre jeunes conducteurs. Les facteurs
« conduite accompagnée » et « bonus parental » sont significatifs et améliorent le modèle, nous décidons
de les intégrer à notre modèle. Cependant, le facteur « enfant d’assuré » n’est pas significatif, sûrement à
cause de la forte corrélation avec l’ « arbre de décision à 8 classes ».
Voici donc les variables que nous allons utiliser pour construire notre modèle de prime pure :
- Bonus/Malus
- Ancienneté du véhicule (en quarts d’années)
- Classe de prix du véhicule
- Ancienneté de permis (en quarts d’années)
- Zone de risque RC
- Option « kilomètres limités »
- Arbre de décision à 8 classes
- Régions AXA France
- Durée de détention
- Type de population
- Tarif AXA France
- Vitesse maximale
- Situation matrimoniale
- Conduite accompagnée
- Bonus parental
Lissage des coefficients
Certains coefficients de certaines variables n’étant pas cohérents entre eux, un lissage des coefficients est
nécessaire. Ce lissage a été effectué sur les variables suivantes :
- Classe de prix : le risque est plus élevé lorsque la classe de prix augmente. Les coefficients
augmentent avec la classe de prix ;
- Zone de risque RC : plus la zone de risque est élevée, plus on se rapproche des grandes
métropoles, le risque devient alors plus important. Les coefficients augmentent avec la zone de
risque ;
- Durée de détention : plus la durée de détention est importante, plus le véhicule est « maîtrisé » par
le conducteur. Les coefficients diminuent avec la durée de détention ;
- Ancienneté de permis : plus l’ancienneté de permis augmente, plus le conducteur a de l’expérience.
Il est logique que les coefficients diminuent avec l’ancienneté de permis.
- Ancienneté du véhicule : plus le véhicule est récent, plus le risque pour un jeune conducteur est
important. Les coefficients diminuent avec l’ancienneté du véhicule.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 89
Validation du modèle
Significativité des coefficients
Une fois que le modèle a été adapté à la base de données, il est intéressant de regarder les paramètres
estimés pour le modèle ajusté. Le tableau suivant présente quelques variables du modèle accompagnées
de plusieurs indicateurs :
Nombre de paramètres
Nom Valeur Erreur
standard
Erreur standard
(%) Poids Poids(%) Exp(Valeur)
1 Moyenne 5,2768 0,00203 0 1 950 112 100% 195,7345
- situation matrimoniale (AU) 996 919 51%
2 situation matrimoniale (CE) 0,0915 0,00166 1,8 953 193 49% 1,0958
- conduite accompagnée (NON) 1 924 922 99%
3 conduite accompagnée (OUI) -0,1611 0,00737 4,6 25 190 1% 0,8512
- option kilomètres limités (NON) 1 787 496 92%
4 option kilomètres limités (OUI) -0,334 0,00285 0,9 162 616 8% 0,7161
5 régions AXA (Ile-de-France) 0,1903 0,00287 1,5 211 026 11% 1,2096
6 régions AXA (Nord-est) 0,1254 0,00212 1,7 470 893 24% 1,1336
- régions AXA (Ouest) 569 815 29%
7 régions AXA (Sud-est) 0,2377 0,00232 1 408 969 21% 1,2683
8 régions AXA (Sud-ouest) 0,1457 0,00244 1,7 289 410 15% 1,1569
Tableau 8-1 . Significativité des coefficients de tarif
Dans le tableau précédent, la valeur de la moyenne est de 5.28 (modèle de prime pure en utilisant une
structure d'erreur gamma avec une fonction de lien log) ce qui équivaut à une prime pure de 196€.
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 90
Comparaison entre nos indicateurs observés et modélisés
- La prime pure modélisée est représentée par la courbe bleue;
- Les observations sont représentées par la courbe rose ;
- Enfin, les bâtons bleu clair correspondent aux pourcentages d’années police.
Figure 8-2 . Ajustement de la prime pure modélisée aux observations
Pour la variable « segment du véhicule », nous observons que la prime pure modélisée s’ajuste bien à nos
données alors que cette même variable n’est pas prise en compte dans la modélisation.
Nous concluons que le modèle est correct sans pour autant avoir besoin d’inclure cette variable.
Analyse des résidus
Figure 8-3 . Résidus du modèle de prime pure
Cet histogramme illustre la propagation des résidus, montrant le pourcentage d’observations pour lequel
les résidus se situent dans les limites indiquées sur l’axe horizontal. Les résidus sont concentrés à 85%
autour de 0.
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
150
170
190
210
230
250
270
0/autres A B M1 M2 H
Ajustement de la prime pure modélisée aux observations
Weight
Prime pure observée
Prime pure modélisée
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
-3,6€ <> -1,1€ -1,1€ <> 1,4€ 1,4€ <> 3,9€ 3,9€ <> 6,4€ 6,4€ <> 8,9€ 8,9€ <> 11,4€ 11,4€ <> 13,9€
13,9€ <> 16,4€
16,4€ <> 19€ > 19€
Ecarts en €
Résidus du modèle de prime pure
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 91
Validation sur la base « test »
La légende du graphique est la suivante :
- Les bâtons bleus clairs représentent le pourcentage d’années police ;
- La courbe bleue correspond au coût moyen modélisé ;
- La courbe rose en pointillé représente le coût moyen observé ;
- Enfin, les courbes rouge et verte représentent respectivement la borne supérieure et la borne
inférieure.
Figure 8-4 . Comparaison de la prime pure observée et prédite sur la variable vitesse maximale
Pour la vitesse maximale, nous observons que les valeurs de la prime pure observée se situent dans
l’intervalle de confiance à 5% de la prime pure modélisée.
Finalement, nous constatons que notre modèle s’ajuste plutôt bien sur notre base de test sur l’ensemble
des variables tarifaires, ce qui nous permet de valider la robustesse de notre modèle.
0%
5%
10%
15%
20%
25%
0 €
200 €
400 €
600 €
800 €
1 000 €
1 200 €
1 400 €
<=140 141-150 151-160 161-170 171-180 181-190 191-200 201-220 >=221
Comparaison de la prime pure observée et prédite sur la variable vitesse maximale
Weight Sum
PP modelise
PP obs
borne inf
borne sup
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 92
9 RECHERCHE DU MODELE LE PLUS PERFORMANT /
L’objectif de cette partie est la comparaison des modèles de prime pure issus de la modélisation de
la fréquence et du coût moyen et de la modélisation de la prime pure directe.
Pour faire une telle comparaison, nous regardons variable par variable l’écart entre les primes pures
« directe » et « fréquence * coût moyen » et les observations.
Par la méthode des moindres carrés, l’erreur liée au modèle de prime pure est légèrement inférieure à celle
liée au modèle de « fréquence * coût moyen » :
Erreur par la méthode des moindres carrés
Modèle de prime pure directe 30 247 373,49
Modèle de prime pure « fréquence * coût moyen » 30 247 733,82
Les graphiques suivants montrent, à la maille variables, que le modèle de prime pure est plus performant
que le modèle « fréquence*coût moyen ».
Dans la suite de cette partie :
- les bâtons bleus clair représentent les années police ;
- la courbe orange représente la prime pure observée ;
- la courbe bleue foncée représente la prime pure modélisée par une approche « fréquence*coût
moyen » ;
- la courbe verte foncée représente la prime pure directe.
Figure 9-1 . Comparaison entre les modèles de prime pure et de fréquence*coût moyen sur la variable âge du
conducteur
L’âge du conducteur n’est pas une variable tarifaire dans les deux modèles jeunes « prime pure » et
« fréquence*coût moyen ».
125
175
225
275
325
375
425
0%
2%
4%
6%
8%
10%
12%
18 19 20 21 22 23 24 25 26 27 28 29 30
Age du conducteur
Weight Sum
PP obs
PP modelise
PP FC modelise
DEUXIEME PARTIE : Variables explicatives et modélisation de la garantie RC
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 93
Par la méthode des moindres carrés, l’erreur associée aux deux modèles est calculée.
Erreur calculée par la méthode des moindres carrés
Modèle de prime pure 119
Modèle de fréquence*coût moyen 146
L’erreur est plus faible pour le modèle de prime pure. Pour cette variable, ce modèle est retenu.
Figure 9-2 . Comparaison entre les modèles de prime pure et de fréquence*coût moyen sur la variable vitesse
maximale
Ici, la vitesse maximale est incluse dans les deux modèles de prime pure. De même que précédemment,
l’erreur associée aux deux modèles est calculée par la méthode des moindres carrés ordinaires.
Erreur calculée par la méthode des moindres carrés
Modèle de prime pure 74
Modèle de fréquence*coût moyen 83
L’erreur est plus faible pour le modèle de prime pure. Pour cette variable, ce modèle est retenu.
L’exercice a été fait sur plusieurs variables, tarifaires et non tarifaires. Sauf exception, la conclusion est la
même et par la suite, nous décidons de retenir le modèle de prime pure.
Globalement, les deux modèles se valent pour tarifer la garantie RC des jeunes conducteurs. Il
semble donc, en termes de rapidité et d’efficacité, qu’il faille privilégier un modèle à une seule modélisation.
Pour la suite de l’étude et la mise en place opérationnelle du nouvel algorithme tarifaire, le modèle de
prime pure directe est retenu. Le changement le plus important dans le nouvel algorithme tarifaire consacré
aux sans antécédent d’assurance est la mise en place de l’ancienneté de permis en quarts d’années.
L’impact sur les premiers quarts d’années est relativement important et est donc à prendre en compte.
125 €
175 €
225 €
275 €
325 €
375 €
425 €
0%
5%
10%
15%
20%
25%
30%
Vitesse maximale
Weight Sum
PP obs
PP modelise
PP FC modelise
TROISIEME PARTIE
IMPACT DES NOUVELLES VARIABLES
TARIFAIRES ET MISE EN PLACE
OPERATIONNELLE DU MODELE JEUNES
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 95
1 COMPARAISON DU MODELE JEUNES AVEC LE MODELE
ACTUEL /
La dernière étape de ce mémoire est de regarder le changement que le modèle « jeunes » apporte vis-à-
vis du modèle de tarification Clic&Go (produit internet Auto AXA).
1.1 En termes de prime pure
L’objectif de cette partie est de comparer le modèle de prime pure modélisé sur les jeunes
conducteurs vis-à-vis du tarif web actuel d’AXA France. En effet, un des buts de l’étude était de voir si le
tarif était assez segmenté sur la vision « jeunes conducteurs ».
Dans les graphiques de cette partie, la légende est la suivante :
- Les bâtons bleus clairs représentent les années police ;
- La courbe rose pointillée représente la prime pure observée ;
- La courbe bleue pleine correspond à la prime pure modélisée ;
- La courbe bleue claire correspond au tarif actuel.
1.1.1 Ancienneté de permis
Figure 1-1 . Comparaison du tarif actuel et de la prime pure du modèle jeunes sur la variable ancienneté de permis
en quarts d'années
Afin d’obtenir un modèle encore plus segmenté, la mise en place opérationnelle de l’ancienneté de permis
en quarts d’années est judicieuse.
125 €
175 €
225 €
275 €
325 €
375 €
425 €
475 €
0%
1%
1%
2%
2%
3%
3%
4%
4%
Ancienneté de permis en quarts d'années
Weight Sum
PP observée
PP modélisée
PP TA modélisée
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 96
Il semble que le tarif actuel sur les premières anciennetés de permis est sous-estimé. Les jeunes avec une
petite ancienneté de permis sont plus risqués et nécessitent donc un tarif plus élevé. La mise en place d’un
tarif en quarts d’années permettrait de s’adapter au risque des jeunes conducteurs. En effet, le
changement de comportement d’un jeune conducteur se fait plus à un niveau trimestriel qu’à un niveau
annuel. Sur les quatre premiers trimestres qui suivent l’obtention du permis, la différence de prime pure est
déjà conséquente entre un conducteur ayant 0 mois d’ancienneté et 3 mois d’ancienneté.
Cette différence peut s’expliquer par le fait qu’un jeune ayant 3 mois d’ancienneté a pu acquérir de
l’expérience sur le véhicule de ses parents et est donc moins risqué.
Le tarif en quarts d’année est compréhensible et permet donc une segmentation plus appropriée.
Le graphique précèdent permet de se rendre compte que le tarif actuel d’AXA est sous-tarifé sur les petites
anciennetés de permis et sur-tarifé sur les grandes anciennetés de permis.
1.1.2 Vitesse maximale
Figure 1-2 . Comparaison du tarif actuel et de la prime pure du modèle jeunes sur la variable vitesse maximale
Les jeunes conducteurs conduisant des véhicules puissants sont plus risqués. Le modèle actuel sous-
tarifie cette population. A contrario, il semble que nous soyons au-dessus du juste tarif sur les petites
vitesses sur les jeunes conducteurs.
100 €
150 €
200 €
250 €
300 €
350 €
400 €
0%
5%
10%
15%
20%
25%
<=140 141-150 151-160 161-170 171-180 181-190 191-200 201-220 >=221
Vitesse maximale
Weight Sum
PP observée
PP modélisée
PP TA modélisée
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 97
1.1.3 Règles de tarif
Figure 1-3 . Comparaison du tarif actuel et de la prime pure du modèle jeunes sur la variable règle de tarif
L’étude sur les jeunes a permis de se rendre compte que le tarif actuel était trop élevé par rapport au
risque supporté sur les règles de tarif « descente rapide » et « excellence ». Alors que le tarif des sans
antécédent et des sinistrés est trop bas par rapport au risque encouru.
1.1.4 Âge du conducteur principal
Figure 1-4 . Comparaison du tarif actuel et de la prime pure du modèle jeunes sur la variable âge du conducteur
100 €
150 €
200 €
250 €
300 €
350 €
0%
10%
20%
30%
40%
50%
Sans antécédent Standard Descente rapide Excellence
Règles de tarif AXA France
Weight Sum
PP observée
PP modélisée
PP TA modélisée
125 €
175 €
225 €
275 €
325 €
375 €
0%
2%
4%
6%
8%
10%
12%
18 19 20 21 22 23 24 25 26 27 28 29 30
Âge du conducteur principal
Weight Sum
PP observée
PP modélisée
PP TA modélisée
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 98
Actuellement, le tarif confère une prime pure quasi flat sur les âges de 18 à 30 ans. La segmentation du
tarif « jeunes » permet de faire payer plus cher les 18 – 24 ans et de faire payer moins cher ceux de plus
de 25 ans qui représentent un risque moins élevé.
1.2 En termes de ratio de sinistralité
Le ratio de sinistralité (aussi appelé ratio sinistres à primes et abrégé S/C) désigne le ratio du total des
charges sinistres divisé par le total des primes acquises.
Cet indicateur nous permet de savoir si le tarif couvre le risque. Lorsque ce taux est inférieur à 1, cela
traduit la « rentabilité » du segment de population.
Dans les graphiques de cette partie, la légende est la suivante :
- Les bâtons bleus clairs représentent les années police ;
- La courbe bleue correspond au S/C du tarif jeunes;
- La courbe orange représente le S/C du tarif actuel.
Au global, nous passons d’un S/C à 100% avec le tarif actuel à 99% avec le tarif jeunes. Il y a donc une
amélioration d’un point dû principalement à un redressement technique. Pour autant, le S/C ne change pas
de manière significative.
1.2.1 Ancienneté de permis
Figure 1-5 . Comparaison des résultats techniques du tarif actuel et du tarif jeunes sur la variable ancienneté de
permis en quarts d'années
Une segmentation plus fine de l’ancienneté de permis permet de faire baisser le S/C sur les premières
anciennetés de permis.
65
85
105
125
145
165
185
0%
1%
1%
2%
2%
3%
3%
4%
4%
0
0.5 1
1.5 2
2.5 3
3.5 4
4.5 5
5.5 6
6.5 7
7.5 8
8.5 9
9.5 10
10
.5 11
11
.5 12
12
.5 13
Ancienneté de permis en quarts d'années
Weight Sum
S/C Prime pure
S/C Tarif actuel
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 99
Ancienneté de permis 0 an 1 an 2 ans 3 ans 4 ans 5 ans >= 6 ans
S/C Tarif actuel Clic & Go 143 135 121 113 97 101 84
S/C Tarif jeunes 95 105 101 102 92 102 101
Sur les jeunes conducteurs, le S/C avec le tarif actuel est de 143% à comparer avec celui du nouveau tarif
jeunes qui est de 95% sur la première année d’ancienneté. L’amélioration est constatée et est considérable
sur les 5 premières anciennetés de permis.
1.2.2 Vitesse maximale
Figure 1-6 . Comparaison des résultats techniques du tarif actuel et du tarif jeunes sur la variable vitesse maximale
L’augmentation du tarif sur les véhicules puissants (i.e. dont la vitesse maximale est importante et est
supérieure à 200 km/h) permet de faire baisser le S/C de manière considérable. En effet, nous observons
une amélioration de 13 points entre le tarif actuel (S/C : 114%) et le tarif jeunes (S/C : 101%). Le S/C reste
constant sur les vitesses maximales moyennes et reste élevé sur les faibles vitesses. En effet, le tarif
jeunes proposait de baisser le tarif de cette population dû à leur faible risque de sinistralité. Il est donc
normal que le S/C passe de 87% à 104%.
80
85
90
95
100
105
110
115
120
125
130
0%
5%
10%
15%
20%
25%
<=140 141-150 151-160 161-170 171-180 181-190 191-200 201-220 >=221
Vitesse maximale
Weight Sum
S/C Prime pure
S/C Tarif actuel
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 100
1.2.3 Règles de tarif
Figure 1-7 . Comparaison des résultats techniques du tarif actuel et du tarif jeunes sur la variable règle de tarif
Le tarif jeunes permet de rétablir la rentabilité sur l’ensemble des segments de tarif (sans antécédent,
standard, descente rapide, excellence). Le S/C des sans antécédent était beaucoup trop élevé (113%), le
tarif jeune l’améliore de 14 points.
Concernant le S/C du tarif excellence, il se dégrade de 26 points par rapport au tarif actuel. Les primes de
cette population s’avèrent plus faibles avec le tarif actuel qu’avec le nouveau tarif jeunes. La population en
règle de tarif « excellence » obtient un tarif plus faible avec le modèle jeunes que le tarif actuel. En effet,
dans le nouveau modèle, les personnes ayant cette règle de tarif sont de bons risques et bénéficient des
avantages de chaque variable, ce qui fait une prime plus faible et donc un S/C qui augmente par rapport au
tarif actuel Clic&Go.
70
75
80
85
90
95
100
105
110
115
120
0%
10%
20%
30%
40%
50%
Sans antécédents Standard Descente rapide Excellence
Règles de tarif AXA France
Weight Sum
S/C Prime pure
S/C Tarif actuel
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 101
1.2.4 Âge du conducteur
Figure 1-8 . Comparaison des résultats techniques du tarif actuel et du tarif jeunes sur la variable âge du conducteur
Enfin, sur l’âge du conducteur, la nouvelle segmentation du tarif des jeunes conducteurs a permis de
rééquilibrer le S/C sur chaque tranches d’âge. Sur les premiers âges, là où le risque est le plus élevé, le
S/C était en moyenne à 116% et s’améliore en descendant à 98%, soit une baisse de 18 points.
Sur la tranche d’âge 25-30 ans, le S/C se dégrade de 14 points en passant de 87% à 101%.
80
90
100
110
120
130
140
150
160
170
180
0%
2%
4%
6%
8%
10%
18 19 20 21 22 23 24 25 26 27 28 29 30
Âge du conducteur principal
Weight Sum
S/C Prime pure
S/C Tarif actuel
TROISIEME PARTIE : Impact des nouvelles variables tarifaires et mise en place opérationnelle du modèle jeunes
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 102
2 APPLICATION DU SCORING DE RESILIATION /
2.1 Suppression des personnes ayant tendance à résilier
La première partie de l’étude sur la création d’un scoring de résiliation sur les sans antécédent d’assurance
a permis d’intégrer dans le modèle de tarification des jeunes conducteurs une nouvelle variable. Celle-ci
s’est montrée discriminante et est actuellement tarifaire dans le modèle jeunes.
Il est donc intéressant de regarder dans quelle mesure la suppression à court, moyen ou long terme des
sans antécédent qui ont le plus tendance à résilier influe sur les indicateurs de rentabilité.
2.2 Mise en place opérationnelle du scoring de résiliation
La résiliation est calculée à partir de plusieurs variables relatives au conducteur et au véhicule. La
construction de la variable peut être scindée en trois étapes :
- La détermination de poids à chaque caractéristique du conducteur : ces poids seront le reflet de
l’influence de la résiliation par catégorie de conducteur.
- Le calcul du score : il résulte de l’addition de tous les poids à chaque type de caractéristique du
conducteur.
- La détermination de tranche de score : le score peut prendre plusieurs valeurs, il est donc
nécessaire de les regrouper par tranches pour ensuite appliquer le coefficient tarifaire
correspondant.
Les tables contenant les poids pour chaque caractéristique assuré / véhicule sont présentées ci-dessous :
Figure 2-1 . Poids associés à chaque caractéristique conducteur et véhicule
Enfin, nous établissons les tranches à qui nous attribuerons les coefficients tarifaires.
Figure 2-2 . Coefficients tarifaires associés à chaque tranche tarifaire
CONCLUSION
FIN DE L’ETUDE ET PISTES A
APPROFONDIR
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 104
CONCLUSION /
Afin de mieux comprendre le comportement des jeunes conducteurs, nous avons mis en place deux
études : l’une sur la résiliation et l’autre sur la tarification. En effet, avec une grande sinistralité et un fort
taux de résiliation, les jeunes conducteurs posent souvent des problèmes de rentabilité aux assureurs.
Etudier ces deux phénomènes nous a permis de comprendre les facteurs qui rentrent en compte dans la
résiliation et dans la sinistralité.
La première étude concernait la prédiction de l’acte de résiliation. Il était intéressant de cibler la population
la plus fragile en termes de résiliation chez les sans antécédent d’assurance. Grâce à une régression
logistique et à une modélisation par arbre de décision, nous avons pu obtenir des probabilités de résiliation
avec deux méthodes différentes et avec des taux de bon reclassement respectivement de 67% et 70%.
Nous pouvons conclure que les méthodes de modélisation non paramétriques semblent plus robustes.
La tarification de la garantie RC des jeunes conducteurs était le sujet de la deuxième étude. La création de
la base de données et les premières études statistiques nous ont permis de comprendre quels facteurs
rentraient en jeu dans l’explication de la fréquence, du coût moyen et de la prime pure.
La première étape est d’expliquer la prime pure par l’approche « Fréquence * Coût moyen » grâce à la
théorie des modèles linéaires généralisés.
Grâce à des méthodes de sélection de variables pas à pas, nous avons pu déterminer les variables qui
apportaient le plus d’informations au modèle. Par la suite, des études ont été menées pour savoir quelles
variables choisir pour les modèles de fréquence et de coût moyen. En effet, la détermination d’une nouvelle
structure tarifaire s’obtient de manière itérative. Nous partons d’un modèle de départ puis nous ajoutons de
nouvelles variables ou des croisements afin de déterminer le modèle le plus robuste sur notre base de
données ainsi que sur une base de validation.
Dans un deuxième temps, nous avons voulu comparer deux méthodes de modélisation. Nous
avons donc modélisé directement la prime pure afin de pouvoir la comparer à la modélisation obtenue par
une approche « Fréquence * Coût moyen ». Le but étant de sélectionner le modèle le plus robuste et de
positionner le nouveau tarif proposé par l’algorithme retenu par rapport au tarif actuel.
Finalement, avant une mise en place opérationnelle du nouveau tarif, il a fallu regarder sa rentabilité
et comparer le nouveau modèle jeunes avec le tarif actuellement en place du produit net d’AXA en terme
de prime pure et de ratio sinistres à primes. L’intégration de nouvelles variables et une meilleure
segmentation permet d’être davantage rentable sur nos jeunes conducteurs.
Enfin, comme nous avons pu le voir dans l’étude sur les résiliations, de nombreuses améliorations
peuvent être apportées au modèle comme, par exemple, l’utilisation des arbres de décision pour la
tarification.
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 105
LISTE DES FIGURES /
FIGURE 1-1 . REPARTITION DU GROUPE AXA PAR PAYS (EN % DU CHIFFRE D'AFFAIRES 2012) .......................... 12
FIGURE 1-2 . REPARTITION DU CHIFFRE D'AFFAIRES AXA FRANCE (EN MILLIARDS D'EUROS).............................. 13
FIGURE 2-1 . PANORAMA DE LA GAMME AUTO ................................................................................................. 14
FIGURE 2-2 . EVOLUTION DU NOMBRE ET DE LA PART D'AFFAIRES NOUVELLES SUR LES SANS ANTECEDENT ....... 15
FIGURE 2-3 . EVOLUTION DU NOMBRE DE RESILIATION SUR LES SANS ANTECEDENT // TAUX DE RESILIATION SUR
LES SANS ANTECEDENT ......................................................................................................................... 15
FIGURE 1-1 . TAUX DE RESILIATION DES SANS ANTECEDENT AVANT ET APRES L'OFFRE JEUNES ......................... 19
FIGURE 1-2 . TAUX DE RESILIATION DES PRINCIPAUX MOTIFS DES RESILIATIONS DES SANS ANTECEDENT ............ 21
FIGURE 2-1 . ANALYSE DES CORRESPONDANCES MULTIPLES SUR LES SANS ANTECEDENT DE 2011 ET DE 2012 . 24
FIGURE 3-1 . EXEMPLE DE TRI A PLAT AVEC LA CLAUSE "ENFANT D'ASSURE"..................................................... 27
FIGURE 3-2 . INERTIE DES AXES DE L'ACM ..................................................................................................... 28
FIGURE 3-3 . ANALYSE DES CORRESPONDANCES MULTIPLES SUR LES SANS ANTECEDENT QUI RESILIENT ET CEUX
QUI NE RESILIENT PAS ............................................................................................................................ 31
FIGURE 4-1 . SELECTION DES VARIABLES PAR CRITERE AIC ............................................................................ 33
FIGURE 4-2 . SELECTION DES VARIABLES PAR CRITERE BIC ............................................................................ 34
FIGURE 4-3 . COEFFICIENTS LIES AU NIVEAU DE GARANTIE .............................................................................. 37
FIGURE 5-1 . ARBRE DE DECISION A 5 CLASSES *............................................................................................ 40
FIGURE 5-2 . ARBRE DE DECISION OPTIMAL, A 8 CLASSES ............................................................................... 42
FIGURE 1-1 . REPARTITION DE LA CHARGE RC MATERIELLE AVANT ET APRES MUTUALISATION DES CHARGES FIXES
............................................................................................................................................................ 49
FIGURE 2-1 . EVOLUTION DE LA PRIME PURE SELON LE COEFFICIENT REDUCTION / MAJORATION ........................ 53
FIGURE 2-2 . EVOLUTION DE LA FREQUENCE ET DU COUT MOYEN SELON LE COEFFICIENT REDUCTION /
MAJORATION ......................................................................................................................................... 54
FIGURE 2-3 . EVOLUTION DE LA PRIME PURE SELON LA PROBABILITE DE NON-RESILIATION SUR LES SANS
ANTECEDENT ........................................................................................................................................ 56
FIGURE 2-4 . EVOLUTION DE LA FREQUENCE ET DU COUT MOYEN SELON LA PROBABILITE DE NON-RESILIATION SUR
LES SANS ANTECEDENT ......................................................................................................................... 57
FIGURE 4-1 . REPRESENTATION GRAPHIQUE DES DONNEES : FREQUENCE X CHARGE ....................................... 66
FIGURE 4-2 . DIAGRAMME DE DISPERSION ET GRAPHE DES RANGS .................................................................. 67
FIGURE 4-3 . REPRESENTATION EN 2D DE LA COPULE EMPIRIQUE VS LA COPULE INDEPENDANTE ...................... 68
FIGURE 4-4 . REPRESENTATION EN 3D DE LA COPULE EMPIRIQUE VS LA COPULE INDEPENDANTE ...................... 69
FIGURE 5-1 . EXPLICATION DE LA FREQUENCE PAR LA METHODE FORWARD .................................................. 75
FIGURE 5-2 . EXPLICATION DU COUT MOYEN PAR LA METHODE FORWARD ..................................................... 77
FIGURE 6-1 . LISSAGE DES COEFFICIENTS POUR LA VARIABLE VITESSE MAXIMALE – AVANT LISSAGE .................. 79
FIGURE 6-2 . LISSAGE DES COEFFICIENTS POUR LA VARIABLE VITESSE MAXIMALE – APRES LISSAGE .................. 80
FIGURE 7-1 . AJUSTEMENT DE LA FREQUENCE MODELISEE AUX OBSERVATIONS ................................................ 83
FIGURE 7-2 . CONTOUR DES RESIDUS DE DEVIANCE CORRESPONDANTS AU MODELE DE FREQUENCE ................ 84
FIGURE 7-3 . COMPARAISON DU COUT MOYEN OBSERVE ET PREDIT SUR LA VARIABLE CLASSE DE PRIX............... 86
FIGURE 8-1 . EXPLICATION DE LA PRIME PURE PAR LA METHODE FORWARD................................................... 87
FIGURE 8-2 . AJUSTEMENT DE LA PRIME PURE MODELISEE AUX OBSERVATIONS ................................................ 90
FIGURE 8-3 . RESIDUS DU MODELE DE PRIME PURE ........................................................................................ 90
FIGURE 8-4 . COMPARAISON DE LA PRIME PURE OBSERVEE ET PREDITE SUR LA VARIABLE VITESSE MAXIMALE .... 91
FIGURE 9-1 . COMPARAISON ENTRE LES MODELES DE PRIME PURE ET DE FREQUENCE*COUT MOYEN SUR LA
VARIABLE AGE DU CONDUCTEUR ............................................................................................................. 92
FIGURE 9-2 . COMPARAISON ENTRE LES MODELES DE PRIME PURE ET DE FREQUENCE*COUT MOYEN SUR LA
VARIABLE VITESSE MAXIMALE ................................................................................................................. 93
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 106
FIGURE 1-1 . COMPARAISON DU TARIF ACTUEL ET DE LA PRIME PURE DU MODELE JEUNES SUR LA VARIABLE
ANCIENNETE DE PERMIS EN QUARTS D'ANNEES ........................................................................................ 95
FIGURE 1-2 . COMPARAISON DU TARIF ACTUEL ET DE LA PRIME PURE DU MODELE JEUNES SUR LA VARIABLE
VITESSE MAXIMALE ................................................................................................................................ 96
FIGURE 1-3 . COMPARAISON DU TARIF ACTUEL ET DE LA PRIME PURE DU MODELE JEUNES SUR LA VARIABLE REGLE
DE TARIF ............................................................................................................................................... 97
FIGURE 1-4 . COMPARAISON DU TARIF ACTUEL ET DE LA PRIME PURE DU MODELE JEUNES SUR LA VARIABLE AGE
DU CONDUCTEUR .................................................................................................................................. 97
FIGURE 1-5 . COMPARAISON DES RESULTATS TECHNIQUES DU TARIF ACTUEL ET DU TARIF JEUNES SUR LA
VARIABLE ANCIENNETE DE PERMIS EN QUARTS D'ANNEES ......................................................................... 98
FIGURE 1-6 . COMPARAISON DES RESULTATS TECHNIQUES DU TARIF ACTUEL ET DU TARIF JEUNES SUR LA
VARIABLE VITESSE MAXIMALE ................................................................................................................. 99
FIGURE 1-7 . COMPARAISON DES RESULTATS TECHNIQUES DU TARIF ACTUEL ET DU TARIF JEUNES SUR LA
VARIABLE REGLE DE TARIF ................................................................................................................... 100
FIGURE 1-8 . COMPARAISON DES RESULTATS TECHNIQUES DU TARIF ACTUEL ET DU TARIF JEUNES SUR LA
VARIABLE AGE DU CONDUCTEUR ........................................................................................................... 101
FIGURE 2-1 . POIDS ASSOCIES A CHAQUE CARACTERISTIQUE CONDUCTEUR ET VEHICULE ............................... 102
FIGURE 2-2 . COEFFICIENTS TARIFAIRES ASSOCIES A CHAQUE TRANCHE TARIFAIRE ........................................ 102
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 107
LISTE DES TABLEAUX /
TABLEAU 1-1 . TAUX DE RESILIATION OBSERVES AVANT LA MISE EN PLACE DE L'OFFRE JEUNES ......................... 20
TABLEAU 1-2 . TAUX DE RESILIATION OBSERVES APRES LA MISE EN PLACE DE L'OFFRE JEUNES ......................... 20
TABLEAU 3-1 . MODALITES AYANT LE TAUX DE RESILIATION LE MOINS ELEVE .................................................... 25
TABLEAU 3-2 . MODALITES AYANT LE TAUX DE RESILIATION LE PLUS ELEVE ...................................................... 26
TABLEAU 3-3 . COORDONNEES ET CONTRIBUTIONS A L'INERTIE DES VARIABLES ................................................ 29
TABLEAU 4-1 . CRITERES DE SELECTION DU MODELE OPTIMAL......................................................................... 34
TABLEAU 4-2 . SELECTION DU NOMBRE DE VARIABLES POUR NOTRE MODELE ................................................... 35
TABLEAU 4-3 . TEST DE L'HYPOTHESE NULLE GLOBALE : BETA=0 .................................................................... 36
TABLEAU 4-4 . TEST DE NULLITE DES COEFFICIENTS ....................................................................................... 36
TABLEAU 5-1 . VALIDATION DE LA QUALITE DES ARBRES DE DECISION .............................................................. 41
TABLEAU 5-2 . TAUX DE RESILIATION OBSERVE DES SANS ANTECEDENT AU BOUT D'UN AN SELON LES VARIABLES
RELATIVES A LA BANQUE DE L'ASSURE .................................................................................................... 43
TABLEAU 1-1 . BAREME FORFAITAIRE DE RESPONSABILITE DES CONVENTIONS IRSA-IDA ................................. 49
TABLEAU 1-2 . COUTS D’OUVERTURE DES SINISTRES PAR RESPONSABILITE ..................................................... 49
TABLEAU 1-3 . MONTANTS PAR ANNEE A PARTIR DESQUELS LA SUR-CRETE REPRESENTE 1% DU NOMBRE DE
SINISTRES ............................................................................................................................................. 50
TABLEAU 1-4 . POURCENTAGES PAR ANNEE DU NOMBRE DE SINISTRE ET DU TOTAL DE LA CHARGE RC
CORPORELLE SUPERIEUR AU SEUIL ......................................................................................................... 51
TABLEAU 2-1 . CORRELATIONS ENTRE LES VARIABLES TARIFAIRES SELON LE V DE CRAMER .............................. 60
TABLEAU 5-1 . ADEQUATION DES LOIS GAMMA ET LOG NORMALE AUX COUTS DES SINISTRES ............................ 73
TABLEAU 8-1 . SIGNIFICATIVITE DES COEFFICIENTS DE TARIF .......................................................................... 89
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 108
BIBLIOGRAPHIE /
Ouvrages
- Gilbert SAPORTA [2006] Probabilités, analyse des données et statistique – Edition Technip - Corinne HAHN et Sandrine MACE [2012] Méthodes statistiques – Edition Pearson
Mémoires
- Solange Hamel [Mémoire AXA France 2006] Prédiction de l’acte de résiliation de l’assuré en assurance automobile de particulier
- Vincent De Faria [Mémoire AXA France 2007] Tarification du risque corporel du conducteur en assurance automobile de particulier
- Gérald Lucas [Mémoire AXA France 2010] Tarification de la garantie dommage en assurance automobile
- Mohamed Almechatt [Mémoire AXA France 2012] Etude sur la tarification de la garantie RC en assurance automobile du particulier
- Marion Kremser [Mémoire AXA France 2012] Tarification de la garantie dommage en assurance automobile
Aides des logiciels pour le modèle linéaire généralisé et la tarification
- Aide et documentation SAS
- Aide et documentation d’Emblem et Radar, logiciels de tarification du Cabinet Towers Watson
ANNEXES
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 110
LISTE DES ANNEXES /
ANNEXE 1 . STRUCTURE DES CONTRATS ET TAUX DE RESILIATION OBSERVES................................................. 111
ANNEXE 2 . LISTE DES VARIABLES SELECTIONNEES PAR LES CRITERES AIC ET BIC ........................................ 114
ANNEXE 3 . COEFFICIENTS ESTIMES DU MODELE .......................................................................................... 115
ANNEXE 4 . STATISTIQUES DESCRIPTIVES - FREQUENCE, COUT MOYEN, PRIME PURE ...................................... 117
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 111
Annexe 1 . Structure des contrats et taux de résiliation observés
Variable Modalité Part Taux de résiliation
Enfant d'assuré Non 63% 41,5%
Enfant d'assuré Oui 37% 16,0%
Profession Autres 17% 39,8%
Profession Salariés 53% 39,2%
Profession Etudiants 30% 15,2%
Garanties DO 15% 18,6%
Garanties IV 25% 26,5%
Garanties RC 60% 37,8%
Ancienneté de permis <1 an 50% 20,5%
Ancienneté de permis 1-4 ans 17% 43,8%
Ancienneté de permis 5-14 ans 19% 46,0%
Ancienneté de permis >15 ans 15% 41,2%
Fractionnement Annuel 27% 19,6%
Fractionnement Mensuel 68% 36,8%
Fractionnement Semestriel 5% 36,9%
Segment A 8% 24,0%
Segment B 49% 26,0%
Segment M1 27% 36,4%
Segment M2 9% 47,7%
Segment H / Autres 7% 50,1%
Bonus parental Non 75% 38,6%
Bonus parental Oui 25% 12,1%
CTP <0,66 12% 24,2%
CTP 0,67-0,68 16% 28,9%
CTP 0,69 7% 28,6%
CTP 0,7 14% 35,6%
CTP 0,71-0,72 15% 31,9%
CTP 0,73-0,75 16% 34,9%
CTP >0,76 10% 36,7%
CTP Non renseigné 9% 35,8%
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 112
Alimentation ELC / GPL / CAR 7% 37,5%
Alimentation IDS 30% 31,0%
Alimentation INJ 57% 30,6%
Alimentation INS / GNV / HES /HGO 6% 46,8%
Région Ile de France 18% 35,1%
Région Nord-est 21% 32,7%
Région Ouest 23% 27,3%
Région Sud-est 24% 34,7%
Région Sud-ouest 15% 31,3%
Âge du conducteur <20 ans 40% 18,4%
Âge du conducteur 21-25 ans 22% 37,0%
Âge du conducteur 26-30 ans 12% 44,7%
Âge du conducteur 31-40 ans 14% 45,4%
Âge du conducteur 41-50 ans 8% 42,6%
Âge du conducteur >51 ans 5% 37,6%
Zone de risque RC Zone 1-2 9% 23,8%
Zone de risque RC Zone 3 10% 25,6%
Zone de risque RC Zone 4 14% 27,3%
Zone de risque RC Zone 5 10% 30,7%
Zone de risque RC Zone 6 14% 32,9%
Zone de risque RC Zone 7 10% 34,6%
Zone de risque RC Zone 8 8% 38,8%
Zone de risque RC Zone 9 7% 37,1%
Zone de risque RC Zone 10 8% 38,6%
Zone de risque RC Zone 11-12-13 8% 38,0%
Ancienneté de véhciule <5 ans 14% 23,3%
Ancienneté de véhciule 6-7 ans 8% 27,4%
Ancienneté de véhciule 8-9 ans 11% 28,3%
Ancienneté de véhciule >10 ans 67% 35,2%
Nombre de permis au foyer 1 permis 73% 35,4%
Nombre de permis au foyer 2 permis 15% 31,6%
Nombre de permis au foyer >3 permis 12% 13,7%
Réseau de distribution Agents 88% 31,6%
Réseau de distribution Conseil / Courtage 12% 35,9%
Type de garage Autres 90% 32,4%
Type de garage Individuel clos 10% 30,0%
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 113
Usage Privé 18% 41,6%
Usage Privé - Trajet 82% 30,0%
Nombre de véhicules au foyer 1 véhicule 75% 34,9%
Nombre de véhicules au foyer 2 véhicules 13% 32,4%
Nombre de véhicules au foyer >3 véhicules 12% 14,5%
Situation matrimoniale Concubin 21% 37,5%
Situation matrimoniale Célibataire 54% 25,4%
Situation matrimoniale Marié 15% 42,1%
Situation matrimoniale Autres 9% 42,4%
Marque Autres 19% 34,7%
Marque Citroën 10% 30,7%
Marque Ford 5% 33,0%
Marque Opel 5% 32,5%
Marque Peugeot 23% 29,1%
Marque Renault 31% 33,2%
Marque Volkswagen 7% 32,2%
Energie Diesel 52% 33,8%
Energie Essence 48% 30,3%
Vitesse maximale <150 km/h 14% 35,7%
Vitesse maximale 151-160 km/h 21% 28,4%
Vitesse maximale 161-170 km/h 28% 26,5%
Vitesse maximale 171-180 km/h 17% 34,2%
Vitesse maximale 181-190 km/h 10% 35,0%
Vitesse maximale >190 km/h 10% 45,2%
Classe de prix A / B / C / D 16% 29,0%
Classe de prix E 10% 26,5%
Classe de prix F 13% 27,3%
Classe de prix G 12% 27,6%
Classe de prix H 11% 28,2%
Classe de prix I 10% 32,0%
Classe de prix J 8% 36,7%
Classe de prix K 7% 40,7%
Classe de prix >L 13% 45,5%
Prélèvement automatique Non 36% 25,7%
Prélèvement automatique Oui 64% 35,7%
Conduite accompagnée Non 89% 34,4%
Conduite accompagnée Oui 11% 13,5%
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 114
Annexe 2 . Liste des variables sélectionnées par les critères AIC et BIC
Variables sélectionnées par le critère AIC
Variables sélectionnées par le critère BIC
Etapes de sélection Variables AIC Différence
Etape 0 Enfant d'assuré 100096,85
Etape 1 Profession 98046,61 -2,0%
Etape 2 Niveau de garantie 96865,75 -1,2%
Etape 3 Ancienneté de permis 95829,67 -1,1%
Etape 4 Fractionnement 94938,28 -0,9%
Etape 5 Segment 94607,67 -0,3%
Etape 6 Bonus parental 94306,47 -0,3%
Etape 7 CTP 94128,82 -0,2%
Etape 8 Alimentation 93949,22 -0,2%
Etape 9 Région AXA 93861,01 -0,1%
Etape 10 Prélèvement automatique 93764,36 -0,1%
Etape 11 Âge du conducteur 93688,57 -0,1%
Etape 12 Zone de risque RC 93619,32 -0,1%
Etape 13 Ancienneté du véhicule 93542,68 -0,1%
Etape 14 Nombre de permis au foyer 93481,76 -0,1%
Etape 15 Nombre de véhicules au foyer 93400,48 -0,1%
Etape 16 Conduite accompagnée 93369,90 0,0%
Etape 17 Vitesse maximale 93321,87 -0,1%
Etape 18 Situation matrimoniale 93310,90 0,0%
Etapes de sélection Variables BIC Différence
Etape 0 Enfant d'assuré 100115,54
Etape 1 Profession 98083,99 -2,0%
Etape 2 Niveau de garantie 96921,82 -1,2%
Etape 3 Ancienneté de permis 95913,78 -1,0%
Etape 4 Fractionnement 95041,08 -0,9%
Etape 5 Bonus parental 94746,07 -0,3%
Etape 6 Segment 94455,99 -0,3%
Etape 7 Alimentation 94315,12 -0,1%
Etape 8 CTP 94192,19 -0,1%
Etape 9 Prélèvement automatique 94114,70 -0,1%
Etape 10 Région AXA 94054,05 -0,1%
Etape 11 Nombre de permis au foyer 94003,33 -0,1%
Etape 12 Nombre de véhciules au foyer 93946,34 -0,1%
Etape 13 Ancienneté du véhicule 93909,93 0,0%
Etape 14 Âge du conducteur 93880,23 0,0%
Etape 15 Conduite accompagnée 93854,50 0,0%
Etape 16 Energie 93841,26 0,0%
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 115
Annexe 3 . Coefficients estimés du modèle
0%
10%
20%
30%
40%
50%
60%
70%
0,0
0,1
0,2
0,3
0,4
0,5
RC IV DO
Niveau de garanties
0%
10%
20%
30%
40%
50%
60%
-0,6
-0,5
-0,4
-0,3
-0,2
-0,1
0,0
Autre Salariés Etudiants
Profession
0%
10%
20%
30%
40%
50%
60%
-0,2
-0,1
0,0
0,1
0,2
0,3
0,4
0,5
<1 an 1-4 ans 5-14 ans >=15 ans
Ancienneté de permis
0%
20%
40%
60%
80%
-0,4
-0,2
0,0
0,2
0,4
0,6
Annuel Mensuel Semestriel
Fractionnement
0%
10%
20%
30%
40%
50%
60%
-0,2-0,10,00,10,20,30,40,5
A B M1 M2 H /Autres
Segment
0%
20%
40%
60%
80%
-0,6
-0,5
-0,4
-0,3
-0,2
-0,1
0,0
Non Oui
Bonus parental
0%
5%
10%
15%
20%
-0,1-0,10,00,10,10,20,20,30,3
CTP (Coefficient technique portefeuille)
0%10%20%30%40%50%60%70%
-0,10,00,10,10,20,20,30,3
Alimentation
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 116
0%5%10%15%20%25%30%
-0,1-0,10,00,10,10,20,20,3
Région AXA France
0%
10%
20%
30%
40%
50%
60%
70%
-0,4
-0,3
-0,3
-0,2
-0,2
-0,1
-0,1
0,0
Non Oui
Prélèvement automatique
0%
10%
20%
30%
40%
50%
-0,1
0,0
0,1
0,2
0,3
0,4
<=20ans
21-25ans
26-30ans
31-40ans
41-50ans
>=51ans
Âge du conducteur
0%
5%
10%
15%
20%
0,0
0,1
0,1
0,2
0,2
0,3
0,3
Zone de risque RC
0%
20%
40%
60%
80%
-0,3
-0,2
-0,2
-0,1
-0,1
0,0
0,1
<5 ans 6-7 ans 8-9 ans >=10 ans
Ancienneté du véhicule
0%
20%
40%
60%
80%
-0,2
-0,1
-0,1
0,0
0,1
0,1
0,2
1 2 >=3
Nombre de permis au foyer
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 117
Annexe 4 . Statistiques descriptives - Fréquence, coût moyen, prime pure
Dans un souci de confidentialité, les tris à plats sont donnés en base 100.
Antécédents du véhicule
Assistance souscrite
Carrosserie
Fractionnement
Durée de détention
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Neuf 8% 103 107 110
Occasion 92% 100 100 99
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Allo remorquage 10% 84 93 77
Assistance 0 km 64% 112 104 115
Assistance 30 kms 3% 85 92 78
Non souscrite 10% 81 101 82
Assistance enrichie 14% 71 89 63
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
4X4 2% 99 139 136
Autres 1% 99 88 86
Berlines 75% 102 99 100
Breack 5% 101 99 99
BUS 1% 90 114 101
Cabriolet 2% 112 120 133
Coupé 2% 109 128 138
Camionnette 8% 82 106 86
Ludospace 1% 75 109 81
Monospace 4% 97 94 90
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Annuel 32% 88 99 86
Mensuel 63% 105 101 105
Semestriel / Trimestriel 5% 112 109 120
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
0 an 22% 141 105 147
1 an 18% 110 103 113
2 ans 16% 93 102 94
3 ans 12% 85 96 81
4 ans 9% 78 99 77
5 ans 12% 78 93 72
6-7 ans 7% 70 89 61
8-9 ans 3% 69 92 62
10 ans et plus 1% 73 104 76
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 118
Energie du véhicule
Option kilomètres limités
Niveau de garantie
Bonus parental
Régions AXA France
Segment du véhicule
Situation matrimoniale
Enfant d’assuré
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Diesel 60% 105 103 107
Essence 40% 93 97 89
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Non 92% 104 101 104
Oui 8% 56 100 55
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
1 36% 96 93 88
2 25% 96 98 93
3 39% 107 109 115
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Non 95% 98 100 98
Oui 5% 131 110 143
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Ile-de-France 11% 127 100 126
Nord-est 24% 100 100 99
Ouest 29% 89 92 81
Sud-est 21% 108 112 119
Sud-ouest 15% 92 102 93
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
A 6% 96 86 82
B 42% 98 96 94
M1 33% 103 104 106
M2 11% 111 105 116
H 4% 102 120 121
Autres 5% 72 116 83
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Célibataire 49% 105 105 109
Autres 51% 95 97 91
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Non 91% 96 99 95
Oui 9% 134 111 147
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 119
Règle de tarif AXA France
Profession
Usage du véhicule
Zone de risque RC
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Excellence 9% 64 87 56
Sans antécédent 13% 157 108 167
Standard 25% 108 105 112
Descente rapide 53% 89 98 86
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Agriculteurs 2% 67 113 76
Artisans commerçants 4% 105 106 110
Autres 3% 109 101 109
Chef d'entreprise 0% 133 93 122
Fonctionnaires 7% 86 97 83
Médical / Para-médical / Libéral 0% 110 96 104
Retraités 0% 106 113 119
Salariés 67% 100 101 100
Etudiants 17% 108 99 106
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
Privé 10% 95 108 101
Privé-trajet 84% 100 100 99
Professionnel 5% 99 107 105
Tournées 0% 139 94 129
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
1 1% 77 90 69
2 12% 75 98 72
3 14% 82 104 84
4 17% 87 103 89
5 10% 99 97 95
6 14% 105 100 104
7 9% 112 98 109
8 7% 113 98 110
9 6% 122 102 123
10 5% 137 98 134
11 4% 139 103 142
12 1% 133 127 166
13 1% 148 135 199
CONCLUSION : Fin de l’étude et pistes à approfondir
Isabelle VIDAL – Etudes sur les jeunes conducteurs
Direction de marché IARD – Auto des particuliers 120
Ancienneté du véhicule
Ancienneté de permis
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
0 3% 126 110 137
1 3% 118 112 131
2 4% 114 108 123
3 4% 117 107 124
4 5% 113 116 129
5 5% 112 111 123
6 6% 111 110 121
7 6% 108 101 108
8 7% 106 104 109
9 7% 104 105 108
10 6% 102 96 97
11 6% 98 97 94
12 6% 96 94 90
13 5% 95 87 82
14 5% 91 84 75
15 4% 88 86 76
16 4% 85 91 77
17 3% 81 92 74
18 2% 76 87 66
19 2% 73 92 66
20 2% 67 95 63
21 1% 66 101 66
22 1% 61 93 56
23 1% 59 88 52
>= 24 1% 38 96 36
Modalités Part du portfeuille Fréquence Coût moyen Prime pure
0 6% 181 105 189
1 7% 135 109 145
2 8% 121 106 127
3 8% 109 107 116
4 8% 100 105 104
5 8% 96 99 94
6 8% 93 101 93
7 8% 88 93 81
8 8% 83 93 76
9 8% 80 94 75
10 8% 78 94 73
11 7% 76 94 70
12 4% 72 94 68
>= 13 2% 110 110 119