64
UNIVERSITÉ DU QUÉBEC À MONTRÉAL ÉCOLE DES SCIENCES DE LA GESTION VALIDATION DE LA PERFORMANCE D’UN MODÈLE DE NOTATION COMPORTEMENTALE DE CARTES DE CRÉDIT . RAPPORT DE STAGE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN FINANCE APPLIQUÉE PAR: ENYONAM ADOSSI DIRECTEUR DE STAGE : JEAN-PIERRE GUEYIE AOÛT 2014

RAPPORT STAGE vfinale CORRvf EADOSSI - ESG … · COMPORTEMENTALE DE CARTES DE CRÉDIT . RAPPORT DE STAGE ... Grille de pointage du modèle NCE- Entreprise agricole ... notation de

Embed Size (px)

Citation preview

UNIVERSITÉ DU QUÉBEC À MONTRÉAL

ÉCOLE DES SCIENCES DE LA GESTION

VALIDATION DE LA PERFORMANCE D’UN MODÈLE DE NOTATION

COMPORTEMENTALE DE CARTES DE CRÉDIT

.

RAPPORT DE STAGE

PRÉSENTÉ

COMME EXIGENCE PARTIELLE

DE LA MAÎTRISE EN FINANCE APPLIQUÉE

PAR: ENYONAM ADOSSI

DIRECTEUR DE STAGE : JEAN-PIERRE GUEYIE

AOÛT 2014

REMERCIEMENTS

Je tiens à remercier dans un premier temps, mon directeur de stage Mr Jean-Pierre

Gueyie pour ses conseils et sa disponibilité qui m’ont permis de mener à bien ce

projet de fin de maîtrise tout au long de la session.

J’aimerais aussi exprimer ma gratitude et adresser mes remerciements à toute l’équipe

de la direction de modélisation Crédit et celle de Validation en Modélisation à

Desjardins pour leur confiance et le soutien qu’ils ont pu me prodiguer au cours de

ces derniers mois. Ces personnes m’ont permis de vivre une expérience enrichissante

durant la réalisation de ce travail.

Enfin, le plus grand merci à mes chers parents, mon mari pour leur amour

inconditionnel, leur patience et soutien tout au long de ces années d’études. Sans eux,

je n’aurai probablement pas trouvé la force pour y parvenir. Merci à vous tous qui de

près ou de loin avez contribué à ma réussite.

i

TABLE DES MATIÈRES LISTE DES TABLEAUX ............................................................................................. ii

LISTE DES FIGURES ................................................................................................. iii

LISTE DES ÉQUATIONS .......................................................................................... iv

LISTE DES ABRÉVIATIONS ..................................................................................... v

INTRODUCTION ........................................................................................................ 1

CHAPITRE I ................................................................................................................. 3

REVUE DE LA LITTÉRATURE ................................................................................. 3

1.1 Définition du credit scoring ........................................................................ 3

1.2 Historique des techniques de modélisation de la notation de crédit ........... 4

1.3 Importance de la réglementation............................................................... 10

1.4 Méthodes d’évaluation de la performance d’un modèle de notation ........ 11

CHAPITRE II ............................................................................................................. 18

DONNÉES ET MÉTHODOLOGIE ........................................................................... 18

2.1. Définition du défaut .................................................................................. 18

2.2. Description et traitement des données d’analyse ...................................... 19

2.3. Méthodologie ............................................................................................ 26

CHAPITRE III ............................................................................................................ 36

DISCUSSION DES RÉSULTATS ............................................................................. 36

3.1. Analyse des taux de défaut selon les strates d’engagement...................... 36

3.2. Analyse des taux de défaut selon les niveaux de risque ........................... 38

3.3. Écart entre les taux de défaut observés et les probabilités de défaut prédites ................................................................................................................. 39

3.4. Fiabilité : évaluation quantitative de la performance du modèle BHV .... 43

CONCLUSIONS ET AVENUES DE RECHERCHE ................................................ 50

BIBLIOGRAPHIE ...................................................................................................... 53

ii

LISTE DES TABLEAUX

Tableau 1 – Matrice de confusion ............................................................................... 12

Tableau 2 – Échelle d’efficacité d’un modèle donné par L’AUC .............................. 16

Tableau 3 – Échelle d’efficacité d’un modèle donné par la statistique K-S ............... 17

Tableau 4 – Date d’observation et période de performance par image ...................... 21

Tableau 5 – Volumétrie des dossiers et exclusion de comptes ................................... 24

Tableau 6 – Base de données finale ............................................................................ 25

Tableau 7 – Grille de pointage du modèle BHV ......................................................... 30

Tableau 8 – Grille de pointage du modèle NCE- Entreprise agricole......................... 34

Tableau 9 – Grille de pointage du modèle NCE- Entreprise commerciale/industriel. 34

Tableau 10 – Distribution des clients selon les strates d’engagement ........................ 37

Tableau 11 – Taux de défaut par niveau de risque...................................................... 39

Tableau 12 – Écart entre probabilités de défaut prédites et taux de défaut observés

pour tous les segments d’engagement. ........................................................................ 40

Tableau 13 – Écart entre probabilités de défaut prédites et taux de défaut observés

pour les moins de 500 000 et 500 000 à 2 500 000 ..................................................... 41

Tableau 14 – MSE par niveau de risque pour chaque segment d’engagement ........... 42

Tableau 15 – MSE par niveau de risque pour les 2 grands segments ......................... 42

Tableau 16 – Performance AUROC et KS pour le modèle BHV sur différents

segments de montants d’engagement .......................................................................... 44

Tableau 17 – Performance pour les modèles le BHV et NCE sur tous les segments

d’engagements............................................................................................................. 45

iii

LISTE DES FIGURES

Figure 1 – Exemple de la courbe ROC ....................................................................... 14

Figure 2 – Fenêtre de performance ............................................................................. 20

Figure 3 – Évolution du taux de défaut des dossiers BHV sur la période d’observation

..................................................................................................................................... 21

Figure 4 – Cadre de manipulation des données .......................................................... 23

Figure 5 – Évolution du taux de défaut par segment d’engagements ......................... 36

Figure 6 – Distribution des dossiers selon les segments d’engagements .................... 37

Figure 7 – Courbe AUROC sur 12 mois- Modèles BHV et NCE sur engagements de

250 000 ou moins ........................................................................................................ 46

Figure 8 – Courbe AUROC sur 12 mois- Modèle BHV et NCE sur engagements de

250 000 à 750 000 ....................................................................................................... 47

Figure 9 – Courbe AUROC sur 12 mois- Modèle BHV et NCE sur engagements de

750 000 à 1 750 000 .................................................................................................... 48

Figure 10 – Courbe AUROC sur 12 mois- Modèle BHV et NCE sur engagements de

1 750 000 à 2 500 000 ................................................................................................. 49

iv

LISTE DES ÉQUATIONS

Équation 1 – Fonction de distribution du pointage ..................................................... 13

Équation 2 – Fonction «Accuracy» (AC) ................................................................... 13

Équation 3 – Sensibilité et spécificité de l’AUC ........................................................ 15

Équation 4 – AUC ....................................................................................................... 15

Équation 5 – Le test de Kolmogorov-Smirnov (KS) .................................................. 17

Équation 6 – Montant d’engagement par type de produit ........................................... 28

Équation 7 – Limite SCD total (3 produits SCD) ....................................................... 28

Équation 8 – Engagement total pour NdC non valide et NdC valide sans score NCE29

Équation 9 – Engagement total pour NdC valide et score NCE disponible................ 29

Équation 10 – Calibrage des pointages ....................................................................... 31

Équation 11 – Calibrage des pointages ....................................................................... 31

Équation 12 – PD prédite pour un compte .................................................................. 32

Équation 13 – PD prédite pour un niveau de risque donné ......................................... 32

Équation 14 – Calcul du MSE par niveau de risque ................................................... 40

v

LISTE DES ABRÉVIATIONS

AIRB Advanced Internal Rating-Based

AMF Autorité des Marchés Financiers

AR Accuracy Ratio

AUC Area Under Curve

AUROC Area Under Receiver Operating Characteristic

BHV Modèle de notation comportementale des cartes de crédits

BSIF Bureau du Surintendant des Institutions Financières

CAP Cumulative Accuracy Profiles

FICO Fair Isaac Corporation

KS Kolmogorov-Smirnov

MSE Mean Square Error

NCE Modèle de Notation Comportementale pour Entreprises dans le Réseau

NI Notation Interne

PD Probabilité de Défaut

ROC Receiver Operating Characteristic

SCD Service de Carte Desjardins

SPID Strategic Portfolio IDentification (Regroupement de comptes)

TD Taux de Défaut

1

INTRODUCTION

Le risque de crédit, qui est l’un des plus importants lorsqu’on parle de risques

financiers, a pris de l’ampleur au cours des dernières années. Il faut dire que

l’instabilité des marchés financiers et de certaines institutions financières a favorisé

une plus grande prise en compte (évaluation et gestion) de ce risque. La mise en place

dans les années 2000 des accords de Bâle II permet aux institutions financières qui

répondent à certaines exigences de pouvoir développer à l’interne leurs propres

modèles de notation de crédit tout en respectant les normes préétablies. Un des

éléments importants dans le processus de gestion des modèles de crédit est l’étape de

validation du modèle.

Dans cette logique, notre projet s’inscrit dans le cadre de la validation du modèle de

notation comportementale utilisé par une institution financière de la place pour la

gestion du risque de crédit des cartes de crédit. Le modèle comportemental BHV

évalue le risque des détenteurs particuliers et entreprises des Services des Cartes

Desjardins. Il est utilisé lors de prises de décisions d’octroi, d’augmentation de

limites ou encore lors de la mise en place de stratégies de délinquance.

L’objectif de notre analyse dans ce projet est d’évaluer la possibilité d’utiliser ce

modèle sur un échantillon autre que celui pour lequel il a été initialement développé.

En effet, nous validerons dans ce projet la performance du modèle BHV suite à un

ajustement du périmètre d’utilisation.

Notre étude s’articule autour de trois grandes parties divisées en chapitre. Le chapitre

1 couvre la revue de littérature qui permet de comprendre les modèles de notation de

crédit, souvent appelés «credit scoring models» ou encore «behavior scoring

models», les différentes techniques de modélisation ainsi que l’importance de la

réglementation dans le processus de développement et de validation des modèles de

2

notation. Par ailleurs, nous présenterons les outils de mesure de performance que

nous utiliserons dans notre analyse de fiabilité du modèle. Dans le chapitre 2, nous

procéderons à la description de nos données ainsi que de la méthodologie suivie.

Enfin, dans le chapitre 3 nous discuterons des différents résultats obtenus.

Tous nos calculs et analyses ont été faits et obtenus avec les procédures des logiciels

SQL, SAS1, MS Excel et Visio.

1 Statistical Analysis System, est un langage propriétaire de programmation, utilisé généralement dans la statistique ou encore dans l’industrie du risque de crédit.

3

CHAPITRE I

REVUE DE LA LITTÉRATURE

Au cours des dernières années, les modèles de notation de crédit ont fait l’objet de

plusieurs études. Cependant, très peu d’articles ont été consacrés à l’évaluation de la

performance des modèles de notation comportementale.2 Dans cette section, nous

aborderons quatre points qui nous permettrons d’avoir une meilleure compréhension

de la notation de crédit (credit scoring) et de la notation comportementale (behavior

scoring), des différentes techniques développées dans la littérature, du rôle de la

réglementation dans le processus de développement et de validation, et finalement

des différents outils permettant d’évaluer la performance d’un modèle de notation de

crédit.

1.1 Définition du credit scoring

Bien que la définition donnée au credit scoring puisse être différente d’un auteur à un

autre, cette méthode est considérée par la plupart comme étant une technique de

gestion de risque, qui permet de prédire la probabilité de défaut, un des paramètres

très importants dans le calcul du capital réglementaire de Bâle. C’est donc un outil de

gestion de risque de crédit qui permet d’évaluer le niveau de risque de chaque client

ou d’une institution financière.

Selon Thomas [1] la notation de crédit est essentiellement un moyen de reconnaître

les différents groupes dans une population quand on ne peut observer les

2 La notation comportementale est encore appelée «behavior scoring».

4

caractéristiques qui les séparent mais seulement celles qui les lient. Il soulève la

nuance entre la notation de crédit et la notation comportementale. Alors que la

notation de crédit permet de prendre la décision d’accorder ou de ne pas accorder un

prêt, la notation comportementale permet de gérer le comportement de prêt des clients

existants. Il assure en quelque sorte un suivi de leurs cotes de risque.

Schreiner [2] définit la notation de crédit comme étant l’utilisation de la connaissance

de la performance et des caractéristiques de prêts passés pour prédire la performance

des prêts futurs. Il utilise une technique qui attribue des scores aux emprunteurs

comme un moyen d'évaluer la performance de leurs futurs prêts. Caire et Kossman

[3] considèrent que la notation de crédit n’approuve ni ne rejette une application de

crédit mais permet de prédire la perte telle que définie par l’institution financière.

1.2 Historique des techniques de modélisation de la notation de crédit

On constate à travers la littérature que l’objectif et l’élément important d’un système

de notation se résume à déterminer le meilleur outil de classification ou encore de

discrimination.

Avant même qu’Anderson [4] ne présente la notation de crédit comme étant un

recours aux modèles statistiques en vue de transformer des données qualitatives et

quantitatives en indicateurs numériques, plusieurs auteurs ont proposé différentes

techniques de modélisation. Le pionner à avoir introduit le concept est David Durand

[5]. Il a utilisé l’approche de classification développée par Fisher en 1936 [24] pour

examiner différents dossiers de «bon et mauvais» prêts. Son étude publiée par The

National Bureau of Economic Research, s’est basée sur un vaste échantillon composé

de 7200 clients de 37 institutions financières. À l’aide de l’analyse discriminante

5

(technique statistique visant à expliquer ou identifier décrire, expliquer et prédire

l’appartenance à des groupes prédéfinis (modalité de bons ou mauvais) d’un

ensemble d’observations (demandeurs de crédit) à partir d’une série de variables

prédictives (revenus, âge etc..), l’auteur a pu identifier des facteurs de risque de crédit

dans le financement de la consommation. De plus, il est important de noter qu’il n’a

pas fait usage d’informations comportementales.

Quelques années plus tard, Myers et Forgy [6] ont construit des cartes de pointage à

partir de données d’une seule institution financière en utilisant plusieurs approches

techniques. De l’analyse discriminante à la régression multiple en passant par la

régression simple. Les auteurs étaient à la recherche d’une carte avec un meilleur

pouvoir prédictif. C’est ainsi qu’ils ont incorporé un nouvel élément dans leur

processus, l’échantillon de validation.

Dans une plus récente étude empirique, Kao & al [7], propose un modèle bayésien à

variable latente de classification et d’arbre de régression pour notation de crédit et

comportementale. Cette approche permet de répondre à trois principaux défis

auxquels font face des banques émettrices de carte de crédit : prévision plus précise

du type de demandeur, détermination du niveau de limite basée sur l’utilisation et le

comportement de remboursement des clients actuels, et l’amélioration du processus

de décision d’octroi de crédit. La technique permet de conclure que les variables

démographiques généralement utilisées par les banques ont un pouvoir explicatif très

faible. En outre, ce modèle très différent du modèle de notation binaire classique

permet d’obtenir un taux de performance de près de 92% comparativement aux

modèles paramétriques présentés par Altman et Saunders [18] à savoir l’analyse

discriminante, la régression logistique qui vise à prédire une variable binaire (tel que

le défaut qui prend la valeur 0 ou 1) à partir de variables explicatives, régression

adaptée multivariée ainsi que les modèles non paramétriques, le réseau de neurones

6

(utilisée généralement lorsque la relation entre la variables dépendante et

indépendantes ne sont pas linéaire) [29]. L’approche a aussi le taux de mauvaise

classification le plus bas. L’ensemble des notions conceptuelles et statistiques

concernant la méthodologie des modèles de notation de crédit sont décrites plus

amplement dans [28] par Kiefer et al.

Ogler fut l’un des quelques auteurs à avoir développé des modèles de notation pour

évaluer les prêts commerciaux dans la littérature [8] . FICO, encore connu sous le

nom de Fair & Isaac Corporation est le leader pour développer ces modèles internes

depuis l’apparition de leur première carte de pointage qui avait permis de réduire les

mauvais comptes de 50% dans les années 60. La plupart des modèles de notation

comportementale externes tel que celui étudié dans le présent document ont été

développés par FICO.

Il est important de soulever que la plus part des modèles de notation de crédit sont

généralement développés, en utilisant des échantillons constitués uniquement de

demandeurs dont les applications ont été acceptées en excluant donc les

caractéristiques de ceux refusés. Un échantillon non représentatif est donc utilisé,

créant ainsi un problème de biais de sélection. On parle souvent de ‘’biais de rejet’’.

Cette façon de procéder, pourrait selon certains auteurs conduire à l’obtention de

paramètres biaisés et donc pourrait aussi impacter la performance du modèle de

notation. Banasik et al se sont penchés sur ce sujet. En effet, dans leur article [25], les

auteurs ont analysé la capacité prédictive (accuracy) des modèles de notation de

crédit basés uniquement sur des applications acceptées et ont vérifié s’il y aurait un

gain ou amélioration de la performance en utilisant des techniques économétriques de

sélections. Pour pallier au biais de rejet, la méthodologie généralement utilisée est

l’inférence des rejets, connue sous ‘’reject inference’’. Il s’agit d’intégrer les dossiers

refusés dans le bassin des applications utilisées pour le développement du modèle de

7

notation afin d’avoir une population plus représentative de la réalité. Il existe un

ensemble de techniques, notamment la repondération «re weighting» ou encore

l’augmentation, l’extrapolation des paramètres obtenus par les dossiers acceptés sur

les rejetés, l’ajout d’informations supplémentaires du bureau de crédit et bien

d’autres. Siddiqi [16] décrit chacune de ces techniques ainsi que les différentes

étapes de leurs méthodologies. La méthode d’augmentation par exemple, consiste à

ajuster le poids du modèle d’acceptation initialement basé sur l’ensemble des

acceptés et refusés par une estimation de la probabilité d’acceptation (celle d’être

inclus dans la population connue). Ceci est fait de façon à ce que les informations des

demandeurs approuvés sont utilisées pour déterminer le nouveau modèle en

pondérant chaque accepté par un poids inverse de la probabilité afin d’être plus

représentatif de la population totale. Une autre méthode est la reclassification. Elle

consiste à appliquer le modèle de notation construit à partir des dossiers acceptés sur

ceux refusés afin de déterminer les «bons refusés». Par la suite, les bons sont rajoutés

à l’échantillon de bons acceptés et un nouveau modèle est construit sur l’ensemble du

nouvel échantillon «bons refusés» et «bons acceptés». Dans l’article [25], Banasik et

al ont utilisé la régression logistique pour construire deux types de modèles à savoir,

un modèle composé de toutes les applications (refusées et acceptées) et un autre

composé que d’applications acceptées. Par ailleurs, ils ont analysé la prédiction de la

performance en se basant sur la courbe ROC et le pourcentage de tous les cas

correctement classifiés. De plus, les approches telle que celle du «weight of

evidence3» pour transformer les variables explicatives, celle de variables binaires

ainsi que celle du modèle probit bivarié4 ont été utilisées afin de pouvoir comparer la

prédiction de la performance sur les deux types de modèles. Les résultats obtenus,

démontrent que la valeur ajoutée en incorporant le comportement des applications

3 Approche qui permet de remplacer la variable prédictive par le «weight of evidence» correspondant. Le calcul du weight of evidence est décrit par Siddiqi dans [16] . 4 C’est un modèle à deux équations utilisé lorsque deux variables qualitatives dichotomiques doivent être expliquées simultanément. Il permet donc de dériver la probabilité de deux événements simultanés.

8

rejetées dans le modèle de notation est très modeste basé sur le seuil fixé par les

données utilisées. L’approche de repondération utilisée par Banasik et al dans [26]

démontre aussi qu’empiriquement, la performance du modèle n’est pas améliorée.

Dans une étude plus récente, Barakova et al [27] ont utilisé une toute autre approche

basée sur l’utilisation de données supplémentaires du bureau de crédit pour un

échantillon de cartes de crédit pour un modèle de notation de crédit. Ils ont pu

montrer que l’impact sur le pouvoir discriminant du modèle est certes minime, mais

le fait de juste considérer les dossiers acceptés dans le système de notation, sous-

estime le risque de délinquance des clients. De plus, la validation de ces systèmes de

notation tend à une sous-estimation de la détérioration de la performance du système

de notation.

Un autre aspect souvent omis dans les modèles de notation de crédit développés par

les institutions financières est l’horizon de défaut. Autrement dit, le moment de

l’évènement défaut (ou encore le temps de survie du client) n’est aucunement

considéré dans des modèles de notation de crédit utilisés par les institutions

financières. Mavri et al [30] ont proposé un modèle dynamique en deux étapes,

permettant non seulement d’estimer le risque de demandeurs de cartes de crédit mais

aussi la probabilité de défaut sur un temps prédéfini. Le modèle prend donc en

compte la variabilité des différentes variables associées à la modélisation d’un

modèle de notation de crédit. En se basant sur 350 données, les auteurs déterminent

dans un premier temps, à l’aide d’une régression logistique les variables significatives

permettant de dériver le niveau de risque (probabilité) et ainsi classer les clients en

«bons» ou «mauvais» emprunteurs5. Par la suite, ils appliquent l’analyse de survie

(Kaplan-Meyer) sur le groupe des bons demandeurs. Cette analyse représente un

ensemble de techniques statistiques d'analyse de données, où la variable de résultat

5 La mesure de performance ROC a été utilisé pour mesurer l’adéquation de la classification des bons et mauvais.

9

est le temps jusqu'à ce qu’un événement se produise dans ce cas, le défaut. L’analyse

a permis de démontrer qu’en moyenne, le temps de survie des demandeurs approuvés

est de 15,1 années. Cet élément est pertinent dans la mesure où, elle permet

d’incorporer une information supplémentaire favorisant une meilleure gestion de

crédit des institutions financières notamment dans le cas des cartes de crédit.

.

Rappelons que l’objectif principal de ce rapport est de mesurer la validité d’un

modèle de notation de crédit, et donc de s’assurer que le modèle de crédit est adéquat

sur périmètre sur lequel il sera évalué. Dans son article ‘’How good is your credit-

scoring model?’’ [31], Fensterstock confirme que la partie la plus importante de

l’évaluation de la performance d’un système de notation est la validation ou

revalidation des modèles existants, tel que nous nous proposons de réaliser pour le

modèle BHV. En effet, l’auteur s’est proposé de répondre à la question, en reportant

les résultats de l’enquête prévisionnelle de la fondation ‘’Equipment Leasing and

Finance’’ et en y incorporant des recommandations destinées à l’industrie de crédit.

Fensterstock soulève dans un premier temps, l’impact que pourrait engendrer

l’utilisation d’un modèle sur une population autre que celle pour laquelle, elle aurait

été développée. On constate que plus de 20% des répondants prennent ce risque en

évaluant des segments avec des modèles de notation de crédit qui ne leurs sont pas

destinés. Ce risque est d’autant plus élevé, si aucune validation n’est effectuée au

préalable sur le modèle afin de connaître la performance, les limites et risques de ce

dernier. De plus, il est recommandé que les compagnies utilisent des données récentes

dans leurs modèles afin d’optimiser les résultats. Par ailleurs, il est recommandé voire

nécessaire que la validation des modèles se fasse sur une base régulière6 afin de

prendre en compte les variations dans le cycle économique, détecter des lacunes liées

6 Généralement chaque année pour les modèles réglementaires. Fensterstock propose entre 18 et 24 mois [31].

10

au système et enfin, permettre une meilleure gestion des décisions de crédit. Les

institutions financières devraient implémenter un système d’évaluation de la

performance pour s’assurer de l’adéquation des paramètres estimés par les modèles.

Un système d’évaluation adéquat selon Fensterstock, devrait adresser deux types

d’exigence à savoir le ‘’front-end’’ (il permet à l’institution de mesurer l'évolution de

la population au moment de l’application du client en donnant un signal sur la

détérioration de la performance du modèle) et le ‘’back end’’ (il fournit une mesure

de la qualité du portefeuille). Les résultats et recommandations de cet article,

corroborent les exigences prévues par les instances règlementaires.

1.3 Importance de la réglementation

Les modèles de notation de crédit sont autorisés par la réglementation, notamment

Bâle II, à jouer un rôle dans l’estimation des paramètres de risque aussi longtemps

qu’un certain jugement humain non capté par le modèle est pris en compte pour

attribuer la note finale à l’emprunteur. En effet, en vue de minimiser les risques

financiers dans le système bancaire, le Comité de Bâle a créé un cadre réglementaire

concernant les fonds propres. En plus d’exiger un montant minimal de fonds propres,

le Comité de Bâle cherche à «récompenser» les institutions financières ayant les

meilleures pratiques en matière de mesure et contrôle du risque de crédit. Par le biais

de la méthode notation interne (NI) avancée, le Comité de Bâle offre ainsi la

possibilité d’utiliser des outils de gestion de risque tel que le modèle BHV pour

déterminer les probabilités de défaut des comptes du portefeuille, paramètres

importants dans le calcul des fonds propres et du capital économique. Par ailleurs, il

est requis par l’AMF, ainsi que par le BSIF, que l’institution procède à la validation

réglementaire de ces modèles et à celle de la définition de défaut utilisée pour

construire les différents scores et indicateurs de risques, afin de s’assurer qu’elles

11

s’alignent sur celles exigées par les autorités [9] . La banque devra donc vérifier la

calibration du modèle ainsi que son pouvoir discriminant. Tel que l’indique l’autorité

dans ses lignes directrices: ‘’Au titre des normes minimales à respecter pour être

autorisées par l’Autorité à utiliser l’approche NI, les entités financières devront faire

la démonstration de la validité de leurs systèmes de notation’’.

1.4 Méthodes d’évaluation de la performance d’un modèle de notation

Avant l’implantation ou l’utilisation opérationnelle d’un modèle de risque de crédit, il

est très important d’évaluer sa capacité à distinguer les bons emprunteurs (non-

défaillants) des mauvais (défaillants). Cette capacité encore appelée pouvoir

discriminant s’inscrit dans la procédure de la validation et permet de s’assurer de la

fiabilité du modèle. Elle peut être mesurée à l’aide de tests de performance. Il existe

plusieurs indicateurs statistiques que l’on peut nommer: la courbe de caractéristiques

d'efficacité (ROC), le Profil de Précision Cumulatif (CAP) et son indice le ratio de

précision (AR), le graphique des gains (Gains Chart), l’entropie conditionnelle, la

divergence de Kullback-Leibler, ainsi que le Score de Brier. Tel que le préconisent

les accords de Bâle II dans leur document de travail, nous appliquerons la méthode

ROC, son indice AUC7 ainsi que l’indice KS sur notre échantillon d’analyse, pour

l’évaluation du pouvoir de discrimination de notre modèle BHV.

7 Il représente l’aire sous la courbe ROC que nous présenterons plus bas.

12

1.4.1 «L’accuracy» (AC)

Chaque emprunteur peut être caractérisé par deux variables aléatoires :

• le pointage (score) dénoté S attribué à chaque emprunteur

• la variable binaire de Bernoulli dénotée B qui nous donne l’état de

l’emprunteur : B = � 1,sil�emprunteurfaitdéfaut�d�0, sil�emprunteurnefaitpasdéfaut�nd�

Nous avons donc quatre possibilités d’états selon les prédictions et les défauts réels.

Ces états sont définis par la matrice de confusion représentée dans le tableau 1.

Tableau 1 – Matrice de confusion

Défauts Non-Défauts

Défauts prédits (sous le seuil S) Les vrais défauts (vrais positifs) (TP)

Les faux défauts (faux positifs) (FP) erreur de type II

Non Défauts prédits (au-dessus du seuil S)

Les faux non défauts (faux négatifs) (FN) erreur de type I

Les vrais non défauts (vrais négatifs) (TN)

Nd Nnd où Nd et Nnd représentent respectivement les nombres de défauts et non défauts

totaux.

Tel que l’indiquent Tasche [19] et Hong [20] , les fonctions de distribution

conditionnelle du score S pour une valeur de B sont respectivement �� et ���. Nous

pouvons donc écrire l’équation suivante qui représente la fonction de distribution du

pointage S :

13

Équation 1 – Fonction de distribution du pointage

���� = ������ + �1 − ��������, où � représente la probabilité de défaut � = P[B = d].

La statistique « accuracy » est obtenue selon [20] tel que suit :

Équation 2 – Fonction «Accuracy» (AC)

AC = ������ + �1 − ��[1 − ������] = 2������ − ���� + �1 − ��.

À partir des informations ci-haut, nous pouvons déterminer la statistique AUC ainsi

que la courbe ROC dans la sous-section suivante.

1.4.2 La courbe ROC et l’aire sous la courbe (AUROC)

La courbe ROC est un outil visuel qui peut être facile à tracer si nous disposons de

deux échantillons représentatifs de scores pour des emprunteurs solvables (non

défaut) et non solvables (en défauts). Cette courbe représente le taux de vrais défauts

(vrais positifs), ceux qui sont prédits correctement en fonction du taux des fausses

alarmes, la probabilité de classer une entreprise non défaut par exemple. Le taux des

vrais défauts est encore connu sous le nom de la sensibilité de la courbe ROC et est

représenté sur l’axe des ordonnés du graphique du ROC. Par ailleurs, les non défauts

prédits correctement (vrais négatifs) représentent l’élément de la courbe ROC nommé

spécificité.

14

L’approche de la courbe ROC fut développée initialement pour détecter des signaux

électriques associés aux radars pendant la Seconde Guerre mondiale [11]. Elle a été

largement utilisée aussi en médecine.

Sobehart et Keenan [12] et [13] ont montré dans leur étude comment mesurer

précisément le défaut en utilisant la courbe ROC et ses indices. Les auteurs ont

présenté l’approche mathématique de la courbe ROC et de l’aire sous cette courbe. Ils

ont pu démontrer que l’espace se situant sous cette courbe est un indicateur de la

qualité d’un modèle de prédiction.

Le principe de construction de cette courbe est donné par Stein pour Moody’s KMV

[14]. La figure 1 illustre un exemple de la courbe ROC.

Figure 1 – Exemple de la courbe ROC

0

0,2

0,4

0,6

0,8

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Sen

sibi

lité

1-Spécificité

Courbe ROC

Modèle de notation

Modèle parfait

Modèle aleatoire

15

Cette figure montre clairement qu’un modèle parfait n’enregistrera que des

déplacements verticaux, jusqu’à l’identification de tous les emprunteurs en défaut. Le

modèle aléatoire, quant à lui, est équivalent à déterminer l’état de défaut en tirant une

pièce de monnaie à pile ou face.

Équation 3 – Sensibilité et spécificité de l’AUC

'(��� = )*�+�,� et 1 − '���� = -*�+�

,�� ,

où :

� ./��� représente les entreprises en défaut, prédites correctement avec 01 le

nombre total de défauts;

� �/��� représente les fausses alarmes, les non-défauts classés incorrectement

défauts et 021 le nombre total de non-défauts;

� � est la valeur de seuil du pointage donné.

Équation 4 – AUC

345 = 6 '([1 − '����]171 − '����89: , et 345 ∈ [0.5, 1].

où :

� '( représente la sensibilité, le taux des entreprises réellement en défaut (les

vrais positifs);

� 1 − '� = 1- spécificité représente, le taux des entreprises non défaut (les faux

négatifs).

16

Le meilleur modèle de notation, celui qui possède un pouvoir discriminant

appréciable, se rapprochera le plus de l’AUC maximale égale à 1. Cette aire

correspond à la probabilité de distinguer un positif d’un négatif. Une valeur d’AUC

de 0.5 représente le modèle aléatoire tandis que celle égale à 1 représente le modèle

parfait.

Dans le cadre d’une saine gestion de risque de crédit notamment pour les modèles de

notation, les institutions financières dont la nôtre, adoptent l’échelle de l’indice AUC

défini par Hosmer et Lemeshow [15] tel que le montre le tableau 2.

Tableau 2 – Échelle d’efficacité d’un modèle donné par L’AUC

AUC Appréciation de la qualité du modèle

[0.5 , 0.7[ Non concluant

[0.7 , 0.9[ Bien

[0.9 , 1.0[ Excellent

Notons que cet indice de mesure du pouvoir discriminant des modèles de notation reste un indicateur subjectif. Bien d’institutions suggèrent de considérer aussi les éléments stratégiques et opérationnels dans la prise de décision.

De plus, l’inconvénient de cette mesure est qu’elle ne tient pas compte de coûts liés à

la mauvaise classification [21]. Hand soulève cette problématique dans plusieurs de

ces études notamment [21] et propose des pistes de solutions qui seront repris par

bien d’autres auteurs.

17

1.4.3 La statistique de Kolmogorov-Smirnov

En statistique, le test de Kolmogorov-Smirnov (KS-test) permet de déterminer si deux

échantillons suivent une loi identique. Dans le cadre d’un modèle de notation, on

utilise cet indicateur non paramétrique pour mesurer la distance maximale entre les

distributions cumulatives des scores des comptes en défaut et les non défauts. Plus la

distance de séparation est grande, meilleure est la capacité prédictive ou

discriminante des pointages entre les deux groupes. Il se calcule selon l’équation 5.

Équation 5 – Le test de Kolmogorov-Smirnov (KS)

<' = Max | M(x)-B(x) |; > ∈ [L, H], où B(x) et M(x) représentent les fonctions de distributions cumulatives empiriques des

«bons» et «mauvais» emprunteurs respectivement. L et H quant à eux, représentent

un seuil minimum et maximum d’un pointage donné [23] .

Son échelle d’efficacité (donné par [17]) est presque similaire à celle de l’AUROC et

son interprétation, tout comme celle de l’AUROC, doit tenir compte aussi des besoins

d’affaires de l’institution financière.

Tableau 3 – Échelle d’efficacité d’un modèle donné par la statistique K-S

KS (en %) Appréciation de la qualité du modèle

[0 , 20] Non concluant ]20 , 40] Moyen ]40 , 50] Bien ]50 , 60] Très bien ]60 , ...] Excellent

18

CHAPITRE II

DONNÉES ET MÉTHODOLOGIE

À travers cette section, nous décrirons dans un premier temps, les données utilisées

dans ce projet et présenterons les principaux processus de manipulation de données

ainsi que la définition du défaut utilisée dans ce modèle. Plus tard, nous aborderons

les différentes étapes de la méthodologie utilisée dans le cadre de l’application du

modèle BHV sur différents segments de montants d’engagements.

2.1. Définition du défaut

Au cours de l’évaluation d’un modèle de risque de crédit, un des critères très

importants à valider est la définition du défaut. En effet, celle-ci doit être similaire

pour tous les paramètres et conforme à celle des autorités réglementaires (AMF,

BSIF, Bâle). Il est important de souligner que ce modèle avait été initialement conçu

par FICO en 2009 et implanté en 2010. L’institution financière n’a pas fait de

nouveau développement mais un simple recalibrage8 en 2013 à l’interne pour

s’assurer de la robustesse du modèle BHV. Par ailleurs pour cette analyse, la

définition du défaut considérée s’aligne avec celle utilisée lors du développement et

en vigueur dans les opérations de la compagnie. En effet, un compte est considéré

comme «mauvais» ou encore «en défaut», lorsque sur une période de 12 mois, l’un

des évènements suivants se matérialise :

8 Réajuster les paramètres du modèle existant afin de rétablir la qualité de prévision à travers l’augmentation des pointages (scores).

19

� Un retard de 90 jours et plus sur au moins une carte ou un compte, même

si les autres cartes sont à jours;

� Une radiation;

� Une faillite. Cette définition est en conformité avec les paragraphes 452 et 453 de l'Accord de

Bâle II. Cependant, une modification a été apportée aux comptes qualifiés de bons

afin d’être en accord avec les stratégies et définitions opérationnelles. En effet, les

comptes indéterminés9 qui étaient exclus lors de la conception du modèle, sont

considérés comme «bons» lors de la validation. Ceci dit, cette approche avait été

utilisée lors du recalibrage du modèle BHV et est conforme à celle utilisée dans

d’autres projets de l’institution.

2.2. Description et traitement des données d’analyse

Pour réaliser ce projet de validation, nous avons reçu une base de données interne

constituée de données de suivi du modèle récemment calibré10. Cette base est

constituée de 1 260 328 dossiers de clients qui représentent quatre cohortes

mensuelles distinctes à savoir les images de Décembre 2011, Mars 2012, Juin 2012 et

finalement Septembre 2012. Le choix de ces groupes se justifie par le fait que l’on

voulait avoir des données récentes avec des performances de 12 mois tel que le

montrent le tableau 4 et la figure 2. Il s’agit d’observer le client à une date X et

d’évaluer 12 mois (1 an) plus tard si ce dernier à fait défaut ou pas (si un des

évènements de défauts présentés plus haut s’est réalisé) et utiliser la mesure de

performance AUROC pour évaluer si le modèle a bien prédit les défauts 12 mois

9 Comptes ayant plus de 5 retards d’un (1) jour ou des retards de 89 jours et moins. 10 Pour des raisons de confidentialité, certaines données de la base ont été légèrement modifiées

20

après l’observation. Chaque image est composée de comptes d’entreprises détentrices

de cartes de crédit et ayant des scores (ou encore pointages) valides. De plus, les

comptes inactifs11 ont été au préalable exclus en amont. Pour chacune des 1 260 328

observations, nous disposons de 30 variables mais n’en énumérons que quelques-

unes:

� Le numéro de la carte de crédit;

� FIID : les 6 premiers chiffres de la carte;

� Le SPID auquel le compte est associé;

� La date d’observation;

� L’indicateur défaut BHV;

� Le pointage comportemental brut BHV : c’est-à-dire le score non calibré

ou non aligné;

� Le pointage comportemental NCE;

� Les soldes et limites de carte et prêts.

Figure 2 – Fenêtre de performance

Fenêtre de performance

12 mois Date d’observation défaut ou non-défaut

11 Comptes qui se caractérisent par une absence d’activité ou encore présence d’un plan de paiement différé non échu. Leur pointage n’est pas significatif (inférieur à 100).

21

Tableau 4 – Date d’observation et période de performance par image

Cohortes Dates d'observation Périodes de performance

T4-2011 01 Décembre 2011 du 02 Décembre 2011 au 01 Décembre 2012

T1-2012 01 Mars 2012 du 02 Mars 2012 au 01 Mars 2013

T2-2012 01 Juin 2012 du 02 Juin 2012 au 02 Juin 2013

T3-2012 01 Septembre 2012 du 02 Septembre 2012 au 02 Septembre 2013

Figure 3 – Évolution du taux de défaut des dossiers BHV sur la période

d’observation

Par la suite, cette base a subi plusieurs traitements avant que l’on obtienne la base

finale d’analyse. La figure 4 nous montre le cadre de tous les traitements. Pour

chaque image, la base principale a été fusionnée avec une des tables de

l’environnement de données interne à la coopérative. Cette fusion permet de

0,75%

0,80%

0,85%

0,90%

0,95%

1,00%

T4-2011 T1-2012 T2-2012 T3-2012

Évolution du taux de défauts Décembre 2011 à Septembre-2012

Taux dedéfautsobservés

22

récupérer la variable ‘’numéro de compte’’12. En outre, lors de cette fusion, seuls les

comptes considérés opérationnels ou potentiellement opérationnels sont conservés.

Ce filtre permet d’exclure 0,03 % de dossiers. Le tableau 4 nous permet de voir le

détail des comptes et exclusions pour chaque trimestre. Il est important d’avoir cette

volumétrie car ceci nous permet de noter la quantité d’éléments qui ne feront pas

partie de l’analyse. Certaines exclusions ou filtres peuvent avoir de gros impacts dans

l’analyse de la performance.

12 Cette variable est unique à chaque client.

23

Figure 4 – Cadre de manipulation des données

Les traitements effectués pour construire les variables intervenant dans ce projet sont

un autre élément très important à évaluer dans un processus de validation. Cette étape

24

de la validation permet notamment de juger de la qualité des données et de leur

suffisance en termes de quantité. Dans notre cas, nous considérons qu’il n’y a pas

d’omission de variables ni de traitements qui nécessiteraient d’une recommandation

sur la base de données reçue. Cependant, nous soulignerons qu’il n’y a pas de

traitements appliqués aux doublons sur les données globales qui nous ont été

fournies. En effet, le fait de regrouper quatre trimestres pour former une base globale

engendre nécessairement des doublons sur le résultat présenté globalement.

Tableau 5 – Volumétrie des dossiers et exclusion de comptes

Cohortes Nombre de dossiers Dossiers exclus Proportion d'exclusion

T4-2011 257862 82 0,032%

T1-2012 258018 86 0,033%

T2-2012 350092 110 0,031%

T3-2012 394356 108 0,027%

Total 1260328 386 0,031%

Dans un deuxième temps, la table (requête) crée à partir du logiciel SAS a été

fusionnée avec un autre environnement de données dans le logiciel SAS afin de

récupérer d’autres variables à savoir : le pointage d’un autre modèle de notation

comportementale de la compagnie (le modèle appelé NCE), les soldes des prêts

ouverts, les montants autorisés des marges de crédit ouvertes ainsi qu’un indicateur

permettant de détecter si le client est emprunteur ou non. Ces variables seront

nécessaires lors de l’analyse de la performance du modèle BHV appliqué aux

différents segments considérés dans cette étude. Nous obtenons ainsi notre base de

données finale. Le tableau 6 présente sommairement les données finales utilisées dans

nos analyses.

25

Tableau 6 – Base de données finale

Cohortes Nombre de dossiers BHV Dossier NCE Emprunteurs Limite SCD >

500K$

Total Défauts TD en Nombre % des

dossiers Nombre % des

dossiers Nombre % des

dossiers T4-2011 257780 2243 0,87 209380 81,22 75182 29,17 3546 1,38

T1-2012 257932 2171 0,84 210160 81,48 74938 29,05 3792 1,47

T2-2012 349982 3243 0,93 219830 62,81% 78390 22,40 3996 1,14

T3-2012 394248 3833 0,97 227984 57,83 80474 20,41 4172 1,06

Total 1259942 11490 0,91 867354 68,84 308984 24,52 15506 1,23

Les proportions des dossiers et taux de défaut sont en pourcentage (%).

Tel qu’on peut noter, la base de données finale est composée des 4 images en panel.

Le taux de défaut moyen de 0,91% est inférieur à l’historique des TD trimestriels

réglementaires sur la période de décembre 2006 à décembre 2011 (1,06%)13. On

remarque aussi que la proportion de dossiers exclusivement SCD ayant des limites

supérieures à 500 000 $ est très faible. Elle représente seulement 1,23% des dossiers.

Il faut rappeler qu’en effet, le modèle a été conçu pour un segment ayant des

montants d’engagement inférieurs à 500 000 $.

Avant d’entamer la section consacrée à la méthodologie, nous avons exploré les

différentes variables rentrant dans l’analyse afin de nous assurer de la qualité de nos

données. En effet, cette étape permet de déceler la présence ou pas de données

aberrantes (extrêmes) ou manquantes réelles. Après avoir effectué une analyse

exploratoire de variables, nous ne notons aucune présence de valeurs extrêmes ni de

données manquantes. Néanmoins, il faudrait signaler que les valeurs manquantes

(«missing») donnée par SAS représentent tout simplement des dossiers de clients du

13 Obtenue de l’entrepôt de données de SCD.

26

SCD qui n’ont pas de lien au niveau du réseau des caisses. En d’autres mots, des

entreprises détenant des cartes mais pas de prêts au niveau du réseau.

2.3. Méthodologie

Dans cette section, nous présenterons les objectifs, les différentes hypothèses, les

critères de succès et les différentes étapes de la méthodologie adoptée.

2.3.1 Objectifs et hypothèses

Rappelons que l’objectif de ce projet est d’analyser la performance du modèle BHV

sur un tout autre périmètre que celui pour lequel il a été développé à l’origine. Afin de

justifier l’utilisation de ce modèle sur des montants d’engagement pouvant aller

jusqu’à 2 500 000$, le modèle BHV actuel devrait afficher un pouvoir discriminant

qualifié de «bien» ou «mieux» basé sur l’appréciation de l’institution financière. De

plus, il devrait être plus performant qu’un modèle alternatif existant dans l’institution.

Plusieurs hypothèses ont été considérées. L’hypothèse usuelle de représentativité des

données actuelles pour prédire le futur est l’hypothèse centrale à ce projet. Nous

jugeons cette hypothèse adéquate considérant les données d’analyse utilisées. Par

ailleurs, nous utiliserons le critère de performance AUROC pour comparer la

performance du modèle BHV et d’un modèle de référence. La macro «roc.sas»14

permet de calculer l’AUROC des deux modèles et calcule, pour chaque paire, la

statistique T qui permet de tester la significativité de l’écart entre ces deux AUROC

potentiellement corrélées ([22] p.281). Cette statistique T, asymptotiquement non

14 http://support.sas.com/kb/25/017.html

27

biaisée (consistent), est basée sur l’hypothèse nulle d’égalité des deux AUROC

comparées. Elle est distribuée asymptotiquement selon une distribution χ2 à un degré

de liberté :

.

De plus, la comparaison de deux modèles suppose aussi que les scores de ces

modèles sont dérivés du même identifiant défaut si aucun autre identifiant n’est

choisi.

Dans la validation d’un modèle de risque financier, il faut soulever l’impact potentiel

sur l’adéquation des résultats du modèle dans le cas où les hypothèses s’avéraient

fausses. Ainsi, dans la mesure où l’on relâcherait l’hypothèse que les pointages du

modèle de référence (‘’benchmark’’) le NCE sont associés à un même identifiant

défaut que le modèle à valider le BHV, le pouvoir discriminant de ces deux modèles

serait affecté puisque la performance d’un modèle est reliée à l’identifiant choisi.

L’objectif de notre projet étant de valider la performance du score NCE sur la

population BHV, nous éliminerons cette problématique.

2.3.2 L’AUROC : la mesure de performance par ‘’excellence’’.

Tel que décrite à la section 1.4, l’AUROC (l’aire sous la courbe ROC) est une mesure

utilisée dans l’industrie du risque de crédit lorsqu’il vient à la validation de la

performance des modèles de notation de crédit. La section 1.4.2 de cette étude,

présente en détail la méthodologie, les différentes étapes de détermination de

l’AUROC ainsi que son interprétation dans la prise de décision.

28

2.3.3 Calcul du montant d’engagement

Le montant d’engagement doit être déterminé car la base de données finale ne

contient que les montants pour chaque produit du SCD et les autres produits de prêts

dans tout le réseau. Sachant qu’un même client peut avoir plusieurs cartes ou comptes

de prêts, nous avons calculé les montants pour chacune des observations. De plus, il

existe trois types de numéro de compte (NdC) dans la base de données. Le montant

d’engagement est donc calculé selon le type de numéro de compte. Lorsque le NdC

n’est pas valide ou est valide mais les dossiers du SCD n’ont pu être appariés avec

ceux du réseau (le modèle NCE), l’engagement total est calculé selon l’équation 8 ci-

dessous. Lorsque le NdC est valide et l’entreprise détient des produits du réseau (des

prêts), le montant d’engagement est calculé selon l’équation 9 ci-après. Ainsi, ces

différentes équations nous permettent de dériver le montant d’engagement à utiliser

dans l’analyse de la performance du modèle comportemental.

Équation 6 – Montant d’engagement par type de produit

AB2C_E2FGHI�_JKL_M = ma x O'BP1(GHI�QRST ; UVWVC(GHI�QRSTX, où Soldeprod_SCD_k et Limiteprod_SCD_k représentent respectivement le solde et la limite

du produit k (accordD, VISA et autres).

Équation 7 – Limite SCD total (3 produits SCD)

UVWVC('5Y = Z AB2C_E2FGHI�_JKL_M.[

M\9

La limite SCD ou encore le montant d’engagement total du Service des Cartes est

donc la somme des trois produits SCD disponibles.

29

Équation 8 – Engagement total pour NdC non valide et NdC valide sans score NCE

E2F_.BC = UVWVC('5Y.

Équation 9 – Engagement total pour NdC valide et score NCE disponible

E2F)I] = UVWVC('5Y + Z AB2C_/^êCH`+�

M\9+ Z AB2C_A5H`+

[

M\9.

Dans l’équation 9, les montants des prêts et marges de crédits ouverts dans le réseau

sont rajoutés au montant d’engagement SCD. Le but de cet ajout, est de pouvoir

obtenir le montant supérieur à 500 000$ pour valider l’application du modèle sur un

segment supérieur. En effet, tel que mentionné dans la section de données, seulement

1 % de comptes SCD de notre base de données ont une limite supérieure à 500 000$.

Une fois les montants d’engagement calculés, ces derniers sont divisés en quatre

strates à savoir 250 000$ ou moins, 250 000$ à 750 000$, 750 000$ à 1 750 000$, et

finalement 1 750 000$ à 2 500 000$ pour avoir une analyse plus granulaire de la

performance et de l’évolution du défaut dans chaque strate.

2.3.4 Strate de risque du modèle BHV et probabilité de défaut

Le modèle comportemental de carte de crédit BHV comme tous les modèles de

notation, dispose d’une échelle de scores (pointages). À chaque client-entreprise, on

affecte un pointage déterminé par le modèle initial. Ce score est une variable présente

dans notre base de données. Nous pouvons donc segmenter notre échantillon

d’analyse par strates de risque c’est à dire que chaque échelle de pointage

30

représentera un niveau de risque15. Cette stratification nous permettra d’analyser la

dynamique des différents dossiers (montant d’engagements) par strate de risque mais

aussi facilitera l’évaluation de la performance du modèle qui se fait selon le pointage.

Le tableau 7 illustre la grille de pointage du modèle BHV.

Tableau 7 – Grille de pointage du modèle BHV

Pointages BHV Niveau de risque

558 ou moins 10 559 - 593 9 594 - 617 8 618 - 638 7 639 - 656 6 657 - 670 5 671 - 682 4 683 - 693 3 694 - 705 2

705 ou plus 1

Il est important de mentionner que les modèles de notation calibrés en pointage

continu tel que le modèle BHV, peuvent subir des pertes de précision au fil du temps.

Par ailleurs, nous avons souligné précédemment que les scores disponibles dans notre

base de données ne représentent pas tout à fait le plus récent calibrage du modèle.

Autrement dit, ces scores ne sont pas représentatifs du risque réel des entreprises. Il

faudrait donc réajuster les pointages selon le plus récent calibrage en affectant les

paramètres obtenus lors de ce réajustement à nos pointages obtenus. On parle dans ce

cas de réalignement de pointage. Nous utiliserons donc des scores alignés (calibrés).

Néanmoins, il faut noter que ce processus obtenu par l’équation 10 n’est appliqué

15 Un score faible correspond à niveau de risque très élevé, entreprise plus risquée.

31

qu’à certains groupes de comptes. Les autres groupes non affectés conservent leurs

scores initiaux tels que donnés par la base de données principale.

Équation 10 – Calibrage des pointages

'aB^(bV2cP =∝ +e ∗ 'aB^(g� + h,

où α et β respectivement 150.647 et 0,769 sont des paramètres d’ajustement obtenus

lors du processus de calibrage le plus récent. 'aB^(g� représente le pointage

disponible dans notre base de données et 'aB^(bV2cP représente le pointage final que

nous considèrerons dans l’évaluation de la performance.

Une fois les pointages obtenus, nous pouvons calculer les taux de défauts de chaque

strate de montant d’engagement et de chaque strate de pointage. L’indicateur de

défaut (badBHV) présent dans la base de données prend les valeurs discrètes 1

(défaut) ou 0 (pas de défaut). Le taux de défaut réellement observé sur nos différents

segments est calculé afin d’être comparé avec la probabilité de défaut prédite. Alors

que le taux de défaut observé est calculé simplement en faisant le rapport entre le

nombre de défauts et nombre total de dossiers (défauts/Nb dossiers), la probabilité

prédite est obtenue par une méthode proposée par Siddiqi [16] (équation 11). Selon

l’auteur, la relation entre la chance («odds») en d’autres mots, la probabilité d’être en

défaut et le pointage, est une relation de transformation linéaire donnée ci bas :

Équation 11 – Calibrage des pointages

/BV2CcF(gij = kbb�(C + �caCB^ ∗ l n�B11�� (1),

/BV2CcF(gij + �1B = kbb�(C + �caCB^ ∗ l n�2 ∗ B11�� (2).

32

Selon Siddiqi, le �1B représente le point pour doubler la chance («point to double the

odds»). En faisant des transformations avec l’équation 11 (2), le modélisateur peut

déterminer les paramètres kbb�(Cet�caCB^ pour une «odds» et un score fixé et

obtenir les trois équations ci bas :

�1B = �caCB^ ∗ l n�2 ∗ B11�� �caCB^ = �1B/ln�2�

kbb�(C = /BV2CcF(gij − {�caCB^ ∗ l n�B11��}. De la même façon, nous pouvons en déduire «l’odd» qui nous permettra de calculer

les PD prédites selon l’équation suivante :

B11�o = (>� p/BV2CcF(gij − kbb�(C�caCB^ q.

Équation 12 – PD prédite pour un compte

/Yo = 11 + B11�o

.

Ainsi, nous déduisons la PD d'une strate de risque du modèle BHV ayant N comptes à

l'aide de l'équation suivante :

Équation 13 – PD prédite pour un niveau de risque donné

/Y+]Hr]`_stu = 10Z/Yo

,

o\9.

33

2.3.5 Réplication des pointages du modèle comparatif NCE

Dans l’évaluation de la performance d’un modèle, il est judicieux d’avoir un modèle

comparable (modèle de référence) ou encore un «benchmark» comme un critère

d’évaluation. En effet, en comparant le modèle analysé avec cette référence, l’analyse

permettrait d’avoir une meilleure évaluation quant au caractère discriminant du

modèle choisi par rapport à l’étalon choisi.

C’est dans cette optique que le modèle de notation comportementale pour entreprises

du réseau (NCE) a été choisi comme référence. Ce modèle avait été conçu aussi par

une firme externe en 2009, et a subi quelques améliorations à l’interne de l’institution

depuis sa conception. Les pointages de ce modèle sont répliqués et extraits par un

programme SAS qui permet de se connecter à l’environnement interne 2 tel

qu’illustré à la figure 4. Il faut noter que pour ce modèle, il existe deux types de

pointages représentant les deux secteurs principaux des clients-entreprises (agricole et

commercial/industriel). Il est important de préciser que le choix de ces deux secteurs

est fait suivant des règles d’affaires préétablies par des équipes de stratégies de

l’institution financière. En effet, pour tous ses portefeuilles de crédit pour entreprises,

la coopérative regroupe ses prêts suivant ces deux groupes selon le type d’activité

ainsi que les risques associés à ces dernières. On constate que les entreprises à

l’intérieur de chacune des deux groupes, ont des types de risques similaires. On peut

noter selon les tableaux 8 et 9 que les strates du niveau de risque sont différentes non

seulement au sein du même modèle (NCE) mais aussi par rapport au modèle du SCD.

34

Tableau 8 – Grille de pointage du modèle NCE- Entreprise agricole

Pointages Niveau de risque 218 ou moins 16

218 - 363 15 363 - 476 14 476 - 540 13 540 - 597 12 597 - 638 11 638 - 686 10 686 - 727 9 727 - 776 8 776 - 829 7 829 - 873 6 873 - 925 5 925 - 991 4

991 ou plus 3

Tableau 9 – Grille de pointage du modèle NCE- Entreprise commerciale/industriel

Pointages Niveau de risque 216 ou moins 16

216 - 407 15 407 - 491 14 491 - 543 13 543 - 605 12 605 - 650 11 650 - 717 10 717 - 768 9 768 - 835 8 835 - 898 7 898 - 963 6 963 - 1032 5 1032 - 1140 4 1140 ou plus 3

35

2.3.6 Évaluation de la performance des différents segments

Le but principal des étapes précédentes de la méthodologie est de pouvoir récupérer

les scores des différents modèles pour les différentes strates d’engagements afin de

valider la performance selon les deux indicateurs présentés (AUROC et KS).

Nous avons procédé à la validation du pouvoir discriminant du modèle selon

l’engagement pour chaque image traitée en appliquant les mesures AUROC et KS sur

nos différents segments. Les deux mesures seront validées aussi bien au niveau du

modèle BHV que du modèle NCE. La p-value obtenue nous permettra de conclure

sur la différence significative du modèle «behavior» par rapport au modèle

benchmark.

36

CHAPITRE III

DISCUSSION DES RÉSULTATS

3.1. Analyse des taux de défaut selon les strates d’engagement

On peut noter un taux de défaut relativement stable tout au long des quatre périodes

considérées quel que soit la strate de montant d’engagements. Ce taux demeure très

élevé pour les engagements de 250 000$ ou moins. La plus forte concentration de

dossiers de prêts se retrouve aussi dans ce segment tel que l’indique le tableau 10

(plus de 75% des dossiers d’entreprises). Nous remarquons donc qu’au-delà de

500 000$ d’engagement, le taux de défaut est sensiblement faible par rapport à la

moyenne de 0.91% des quatre trimestres (figure 5).

Figure 5 – Évolution du taux de défaut par segment d’engagements

On peut donc dire que le taux de défaut diminue avec l’augmentation des montants

d’engagement. Ce constat permet de noter qu’un changement de périmètre (le

0,0%

0,2%

0,4%

0,6%

0,8%

1,0%

1,2%

T4-2011 T1-2012 T2-2012 T3-2012 GLOBAL

Taux

de

défa

ut

Segments d'engagements

250Kou moins 250K-750K 750K-1750K 1750K-2500K

37

passage de montant d’engagement de 500 000$ à des montants pouvant aller à

2 500 000$) ne devrait donc pas avoir un impact négatif sur le taux de défauts du

segment entreprise des cartes de crédit.

Tableau 10 – Distribution des clients selon les strates d’engagement

Strates des montants

d’engagement T4-2011 T1-2012 T2-2012 T3-2012

250 000 ou moins 70,70% 70,53% 77,60% 79,70%

250 000,01 à 750 000

18,11% 18,19% 13,74% 12,40%

750 000,01 à 1 750 000

8,64% 8,66% 6,60% 5,98%

1 750 000,01 à 2 500 000 2,55% 2,62% 2,06% 1,92%

Les montants d’engagements sont en $ CAD.

Figure 6 – Distribution des dossiers selon les segments d’engagements

76%

15%

7%

2%

250K ou moins 250000,01 à 750K750000,01 à 1750K 1750000,01 à 2500K

38

3.2. Analyse des taux de défaut selon les niveaux de risque

L’assignation de pointage ou encore de score à chaque client nous permet d’analyser

le comportement de groupes clients pour chaque niveau de risque du modèle BHV.

Rappelons qu’un score faible est synonyme d’un niveau de risque élevé. Il n’est donc

pas étonnant de constater un fort taux de défaut pour la plus faible strate, celle de 558

ou moins. Les entreprises détenant un faible score sont celles ayant une probabilité de

défaut plus élevée par rapport à l’institution financière. Par ailleurs, lorsque l’on

combine le pointage et le montant d’engagement, on réalise que les taux de défaut

même s’ils diminuent avec l’augmentation du montant d’engagement, restent tout de

même très élevés pour des niveaux de pointage bas. Dans le tableau 11, nous

illustrons les taux de défauts selon les montants d’engagement et les niveaux de

risque. Les pointages moyens regroupent près de 50% des dossiers mais les TD sont

relativement bas (moins de 1%).

39

Tableau 11 – Taux de défaut par niveau de risque

250 000 ou moins

250 000,01 à

750 000

750 000,01 à

1 750 000

1 750 000,01 à

2 500 000

Pointage BHV

% dossiers

TD %

dossiers TD

% dossiers

TD %

dossiers TD

558 ou moins

6,08 8,41 3,31 8,05 3,25 7,85 2,68 5,38

559 à 593 8,81 2,70 5,92 2,28 5,75 2,03 5,31 1,64 594 à 617 11,05 1,27 9,02 0,84 8,81 0,98 8,35 0,45 618 à 638 12,63 0,63 11,88 0,44 11,60 0,43 11,62 0,33 639 à 656 14,27 0,31 13,02 0,26 13,83 0,17 13,33 0,06 657 à 670 16,17 0,20 14,47 0,14 17,30 0,11 19,03 0,12 671 à 682 13,80 0,12 16,98 0,06 20,14 0,06 21,59 0,05 683 à 693 8,82 0,08 12,01 0,02 10,57 0,02 10,42 0,00 694 à 705 5,25 0,05 9,03 0,04 5,94 0,04 5,00 0,08 706 ou plus 3,12 0,05 4,35 0,05 2,81 0,04 2,67 0,00

Total

1,07

0,60

0,57

0,35

Les proportions de dossiers et taux de défaut sont en pourcentage (%). Les montants d’engagements sont en $ CAD.

L’évolution des TD selon les différentes strates de risque corrobore notre analyse

précédente. Les taux de défauts diminuent à mesure que les montants d’engagement

augmentent.

3.3. Écart entre les taux de défaut observés et les probabilités de défaut prédites

Après avoir observé dans les sous-sections précédentes l’évolution des TD, nous

avons validé l’écart entre ces taux de défaut observés et les probabilités de défaut

40

prédites par le modèle BHV. L’analyse de ces écarts permet d’évaluer le

comportement du modèle BHV sur les montants d’engagement élevés. Plus

spécifiquement, le MSE ou encore l’erreur quadratique moyenne qui est obtenue par

l’équation ici-bas :

Équation 14 – Calcul du MSE par niveau de risque

�%1(1B��V(^�� ∗ �/Y − .Y�^2.

Tableau 12 – Écart entre probabilités de défaut prédites et taux de défaut observés pour tous les segments d’engagement.

250 000 ou moins 250 000,01 à 750 000 750 000,01 à 1 750 000

1 750 000,01 à 2 500 000

Strates du pointage BHV

TD PD Écart TD PD Écart TD PD Écart TD PD Écart

558 ou moins

8,41 11,33 2,92 8,05 10,11 2,06 7,85 10,07 2,21 5,38 9,67 4,29

559 à 593 2,70 2,97 0,27 2,28 2,91 0,63 2,03 2,88 0,85 1,64 2,91 1,27

594 à 617 1,27 1,13 -0,13 0,84 1,12 0,28 0,98 1,12 0,14 0,45 1,13 0,67

618 à 638 0,63 0,53 -0,10 0,44 0,53 0,09 0,43 0,52 0,09 0,33 0,53 0,20

639 à 656 0,31 0,27 -0,05 0,26 0,27 0,01 0,17 0,27 0,10 0,06 0,26 0,21

657 à 670 0,20 0,15 -0,05 0,14 0,15 0,02 0,11 0,15 0,05 0,12 0,15 0,03

671 à 682 0,12 0,10 -0,02 0,06 0,10 0,04 0,06 0,10 0,04 0,05 0,10 0,05

683 à 693 0,08 0,07 -0,01 0,02 0,07 0,04 0,02 0,07 0,05 0,00 0,07 0,07

694 à 705 0,05 0,05 -0,01 0,04 0,05 0,01 0,04 0,05 0,01 0,08 0,05 -0,03 706 ou plus

0,05 0,03 -0,02 0,05 0,03 -0,02 0,04 0,03 -0,01 0,00 0,03 0,03

Total 1,07 1,23 0,16 0,60 0,76 0,16 0,57 0,75 0,18 0,35 0,67 0,31

Les TD, PD et écarts sont en pourcentage (%). Les montants d’engagements sont en $ CAD.

41

Les écarts sont plus importants pour la strate de «558 ou moins» du BHV et ce, quel

que soit le montant d’engagement. En outre, on remarque que pour la plus petite

strate d’engagement (250 000 ou moins), les TD observés sont légèrement supérieurs

aux PD prédites (écarts négatifs). Le tableau 13 nous permet de conclure que cette

remarque est spécifique aux engagements inférieurs à 500 000, ceux pour lesquels le

modèle a été initialement conçu.

Tableau 13 – Écart entre probabilités de défaut prédites et taux de défaut observés pour les moins de 500 000 et 500 000 à 2 500 000

500 000 ou moins 500 000 à 2 500 000 Pointage BHV

TD observé

PD prévu Écart TD

observé PD prévu Écart

558 ou moins 8,37 11,25 2,88 7,74 10,00 2,27 559 - 593 2,66 2,96 0,31 2,09 2,89 0,79 594 - 617 1,23 1,13 -0,10 0,78 1,12 0,34 618 - 638 0,61 0,53 -0,08 0,43 0,53 0,10 639 - 656 0,31 0,27 -0,04 0,17 0,27 0,10 657 - 670 0,19 0,15 -0,04 0,12 0,15 0,03 671 - 682 0,11 0,10 -0,01 0,06 0,10 0,04 683 - 693 0,07 0,07 0,00 0,02 0,07 0,05 694 - 705 0,05 0,05 -0,01 0,03 0,05 0,02 706 ou plus 0,05 0,03 -0,02 0,02 0,03 0,01 Les TD observés et PD prévus sont en pourcentage (%).

Le risque réel des engagements compris entre 500 000 et 2 500 000 seraient donc

surestimé. On parle souvent dans ces cas de conservatisme. Les institutions

financières tiennent compte de cet aspect appelé «marge de conservatisme» dans leur

processus de validation.

42

Tableau 14 – MSE par niveau de risque pour chaque segment d’engagement

Pointage BHV 250 000 ou moins

250 000,01 à 750 000

750 000,01 à 1 750 000

1 750 000,01 à 2 500 000

558 ou moins 0,0000520 0,0000140 0,0000159 0,0000493 559 à 593 0,0000006 0,0000024 0,0000041 0,0000085 594 à 617 0,0000002 0,0000007 0,0000002 0,0000038 618 à 638 0,0000001 0,0000001 0,0000001 0,0000005 639 à 656 0,0000000 0,0000000 0,0000001 0,0000006 657 à 670 0,0000000 0,0000000 0,0000000 0,0000000 671 à 682 0,0000000 0,0000000 0,0000000 0,0000000 683 à 693 0,0000000 0,0000000 0,0000000 0,0000000 694 à 705 0,0000000 0,0000000 0,0000000 0,0000000 706 ou plus 0,0000000 0,0000000 0,0000000 0,0000000 Total 0,0000530 0,0000172 0,0000205 0,0000627

Tableau 15 – MSE par niveau de risque pour les 2 grands segments

Pointage BHV 500 000 ou moins 500 000 à 2 500 000 558 ou moins 0,0000475 0,0000163 559 - 593 0,0000008 0,0000035 594 - 617 0,0000001 0,0000010 618 - 638 0,0000001 0,0000000 639 - 656 0,0000000 0,0000003 657 - 670 0,0000000 0,0000000 671 - 682 0,0000000 0,0000000 683 - 693 0,0000000 0,0000000 694 - 705 0,0000000 0,0000000 706 ou plus 0,0000000 0,0000000 Total 0,0000485 0,0000210

43

Certes nous remarquons selon les résultats des tableaux 14 et 15 que les erreurs

quadratiques moyennes sont très faibles mais on note aussi que lorsque l’on regroupe

les montants d’engagements en seulement 2 sous strates, le MSE peut être un

mauvais indicateur. En effet, le tableau 15 semble montrer que le modèle BHV sur le

montant d’engagement inférieur à 500 000$ aurait un MSE supérieur que celui des

engagements compris entre 500 000$ et 2 500 000. Le tableau 14 nous illustre de

manière granulaire que l’erreur sur les PD prédites donnée par le MSE sur les

engagements compris entre 1 750 000$ et 2 500 000$ est légèrement supérieure à

celle de 250 000 et moins et nettement plus élevée que celles des deux strates

intermédiaires d’engagements. Ce constat permet de dire qu’en validation de modèle,

il est important d’évaluer chaque strate de données, d’effectuer des analyses sur

différents segments avant de conclure sur la performance d’un modèle.

3.4. Fiabilité : évaluation quantitative de la performance du modèle BHV

Dans cette dernière section, nous présenterons les résultats sur le pouvoir

discriminant du modèle sur les différents montants d’engagement et ceux obtenus en

le comparant au modèle de référence.

Les deux critères présentés dans la revue de littérature le KS et l’AUROC, sont ceux

retenus pour l’évaluation du pouvoir discriminant de notre modèle BHV sur les

différents montants d’engagement.

Les résultats obtenus aussi bien en AUROC qu’en KS montrent une bonne

adéquation de la performance du modèle sur les différents périmètres. On peut noter

44

les coefficients AUROC supérieurs à 80 % qui signifient que le modèle affiche un

pouvoir discriminant jugé de «bien» pour toutes les strates d’engagement et ce sur les

quatre trimestres étudiés.

Tableau 16 – Performance AUROC et KS pour le modèle BHV sur différents segments de montants d’engagement

Segments d'engagement

T4-2011 T1-2012 T2-2012 T3-2012 Total des 4

images

AUROC KS AUROC KS AUROC KS AUROC KS AUROC KS

250 000 ou moins

87,83 60,31 88,08 61,18 86,10 57,30 86,27 57,39 86,80 58,47

250 000.01 à 750 000

89,12 64,20 88,90 62,62 89,85 65,38 87,88 59,74 88,93 62,02

750 000.01 à 1 750 000

88,21 61,07 91,30 69,53 90,59 70,57 87,35 62,17 89,32 64,89

1 750 000.01 à 2 500 000 88,74 69,33 89,33 66,96 86,08 62,98 90,47 70,43 88,66 63,48

Les résultats sont en pourcentage (%) et montant d’engagements en $.

Il faut noter que l'AUROC et le KS peuvent donner des résultats légèrement

différents même si la conclusion globale de l’évaluation demeure identique. En effet,

dans notre cas, on peut voir que la cohorte de Mars 2012 affiche la performance la

plus élevée en termes d'AUROC (> 90%) et c'est l'image de Juin 2012 qui affiche la

performance la plus élevée en termes de KS (>70%). Il est donc nécessaire, dans la

mesure du possible, de recourir à différentes mesures de performance lorsqu'on

effectue une validation d'un modèle pour prendre de meilleures décisions.

De plus, le tableau 17 présente conjointement le pouvoir discriminant des deux

modèles BHV et NCE. Le modèle BHV affiche une meilleure performance

significative par rapport au NCE quel que soit le montant d’engagement considéré sur

une fenêtre de performance de 12 mois. Il faut cependant rappeler que la comparaison

45

se fait sous l’hypothèse que le même identifiant défaut est utilisé pour les deux

modèles. Autrement dit, un client faisant défaut sur sa carte de crédit est considéré en

défaut sur un prêt de marge par exemple. Cette hypothèse peut sembler forte mais

actuellement, l’institution ne détient pas un identifiant défaut commun pour les deux

types de modèles et le but premier est de valider la performance du BHV sur les

défauts BHV et comparer cette performance à celle d’un modèle similaire.

Tableau 17 – Performance pour les modèles le BHV et NCE sur tous les segments d’engagements

Intervalle de confiance à 95%

Strate engagement Modèle AUROC De À p-value

250 000 ou moins BHV 87,61 85,79 89,43

0,0001 NCE 79,88 77,23 82,52 Écart 7,73 8,56 6,91

250 000.01 à 750 000 BHV 87,35 85,89 88,82

0,0001 NCE 80,13 78,10 82,16 Écart 7,22 7,79 6,66

750 000.01 à 1 750 000

BHV 89,03 87,51 90,56

0,0001 NCE 78,47 76,10 80,84

Écart 10,56 11,41 9,72

1 750 000.01 à 2 500 000

BHV 88,53 84,86 91,22 0,0004 NCE 77,56 71,14 83,98

Écart 10,97 13,72 7,24 Les résultats de performance sont en pourcentage (%).

Finalement, nous présentons les courbes AUROC afin de complémenter le tableau 17

pour la performance du modèle BHV par rapport au modèle NCE sur les différents

segments d’engagement considérés. Les figures 7 à 10 montrent que le modèle BHV

est nettement plus performant que le NCE pour les observations centrales, le

comportement pour les meilleurs et pires emprunteurs étant sensiblement similaire

entre les deux modèles. Cette information est importante dans la mesure où

46

généralement les stratégies bancaires sont normalement dirigées vers les meilleurs et

pires emprunteurs.

Figure 7 – Courbe AUROC sur 12 mois- Modèles BHV et NCE sur engagements de 250 000 ou moins

0

0,2

0,4

0,6

0,8

1

0 0,2 0,4 0,6 0,8 1

250 000 ou moins

BHV

NCE

47

Figure 8 – Courbe AUROC sur 12 mois- Modèle BHV et NCE sur engagements de 250 000 à 750 000

0

0,2

0,4

0,6

0,8

1

0 0,2 0,4 0,6 0,8 1

250 000 à 750 000

BHV

NCE

48

Figure 9 – Courbe AUROC sur 12 mois- Modèle BHV et NCE sur engagements de 750 000 à 1 750 000

0

0,2

0,4

0,6

0,8

1

0 0,2 0,4 0,6 0,8 1

750 000 à 1 750 000

BHV

NCE

49

Figure 10 – Courbe AUROC sur 12 mois- Modèle BHV et NCE sur engagements de 1 750 000 à 2 500 000

0

0,2

0,4

0,6

0,8

1

0 0,2 0,4 0,6 0,8 1

1 750 000 à 2 500 000

BHV

NCE

50

CONCLUSIONS ET AVENUES DE RECHERCHE

Le risque de crédit est l’un des risques les plus importants pour les institutions

financières. De ce fait, il devient important pour elles non seulement de mettre en

place des modèles qui permettent de le quantifier, mais surtout de s’assurer de la

performance de ces modèles. Ce dernier rôle dans la gestion du risque financier

s’insère dans ce que l’on appelle l’étape de validation de modèle.

À travers ce projet, nous avons étudié l’utilisation du modèle de notation de crédit

(encore appelé «credit scoring») sur une population différente de celle du

développement du modèle. Il s’agit de montrer que le modèle comportemental BHV

conçu initialement par une firme externe pour permettre de mieux discriminer les

bons emprunteurs des mauvais pourrait être utilisé pour des montants d’engagement

supérieurs et ce, tout en maintenant un bon pouvoir discriminant. Le modèle attribue

différents pointages (scores) à chacun des emprunteurs afin de représenter son niveau

de risque pour l’institution.

Dans un premier temps, nous avons dans notre méthodologie déterminé les montants

d’engagements pour chaque client-entreprise, et stratifié ces derniers afin d’avoir non

seulement une vue granulaire du comportement du modèle BHV sur chaque strate de

montant d’engagement, mais aussi sur chaque strate de niveau de risque associé à ce

montant d’engagement. Ainsi, nous avons pu constater l’évolution du taux de défaut à

l’intérieur de chaque segment d’engagement. Ces TD diminuent avec l’augmentation

du montant d’engagement pour les niveaux de pointage faibles, et se stabilisent pour

les niveaux moyens et élevés. Par la suite, les TD sont comparés à la PD prédite afin

de montrer le degré de conservatisme de l’institution dans la gestion du risque pour

chaque strate d’engagement. Nous remarquons que les écarts entre les TD observés et

51

les PD prédites sont moins importants pour les niveaux de pointage moyen et élevé

du modèle BHV.

La dernière étape et non la moindre, nous a permis d’analyser la fiabilité du modèle

sur chaque strate de montant d’engagement. Dans ce processus de validation de la

performance, nous avons fait usage des deux outils les plus utilisés dans l’analyse du

pouvoir discriminant d’un modèle de notation à savoir l’AUROC et le KS. Les

coefficients AUROC et KS élevés nous ont montré que le pouvoir discriminant du

modèle BHV demeure adéquat quel que soit le montant d’engagement considéré

selon l’appréciation adoptée par l’institution. D’autre part, le modèle BHV affiche

une performance supérieure à celle du modèle de référence.

Nous comprenons donc que dans l’éventualité d’une utilisation du modèle BHV sur

des montants d’engagement allant jusqu’à 2 500 000$, la performance du modèle ne

devrait aucunement être affectée.

Néanmoins, il faut noter qu’une hypothèse utilisée pour permettre la comparaison

entre les deux modèles pourrait en réalité être fausse et dans ce cas, la performance

des deux modèles serait affectée. On pourrait donc pour faire suite à ce projet, faire

une analyse plus complète. Dans un premier temps, en déterminant un identifiant

défaut unique qui regroupe tous les produits de prêts et donc prendrait en compte

équitablement les deux modèles BHV et NCE dans l’analyse comparative de

performance.

En outre, une autre contribution future pourrait être l’utilisation des statistiques de

performance qui tiendraient compte du coût de mauvaise classification, ce que ne font

ni le KS, ni l’AUROC. Hand [21] dans son article, a élaboré une approche alternative

à l’AUROC. Cette dernière permettrait de tenir compte du coût de mauvaise

classification dans les méthodes d’évaluation. L’approche de Hand même si elle a été

proposée dans ses écrits de 2009 et 2010, reste d’actualité d’autant plus que depuis sa

52

proposition, nous n’avons pas trouvé de travaux empiriques qui auraient essayé de

l’implémenter. Quelques auteurs ont repris l’étude de Hand sans apporter de plus-

value. Par ailleurs, en septembre 2012, Anagnostopoulos et al16 ont proposé la

‘’mesure H’’ (hmesure) [32] qui met en pratique l’article de Hand. Cette mesure

pourrait être une piste de solution à cette critique de l’AUROC tant soulevée mais

jamais abordée sur les modèles de notation de crédit.

Enfin, dans la mesure où le modèle BHV serait appliqué aux segments supérieurs à

500 000$, nous recommanderons une validation du processus de cette implantation

afin de s’assurer d’une part que l’hypothèse de représentativité est bel et bien

maintenue, mais aussi que le modèle est adéquatement déployé dans l’environnement

opérationnel.

16 http://cran.r-project.org/web/packages/hmeasure/vignettes/hmeasure.pdf, consulté le 30 Juillet 2014.

BIBLIOGRAPHIE

[1] Thomas, L.C. (2000). A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers. International Journal of Forecasting, 16, 149-172. [2] Schreiner, M. (2000). Credit scoring for microfinance: Can it work? Journal of Microfinance, 2 (2), 105–118.

[3] Caire, D. et Kossmann, R. (2003). Credit scoring: Is it right for your bank? Bannock Consulting.

[4] Anderson, R. (2007). The credit scoring toolkit, Oxford University press, p 6.

[5] Durand, D. (1941). Risk elements in consumer instalment financing, NBER.

[6] Myers, J.H. et Forgy, E.W. (1963). The development of numerical credit evaluation systems. Journal of the American Statistical Association, 58 (303), 799-806.

[7] Kao, L.J., Chiu, C.C. et Chiu, F.Y. (2012). A Bayesian latent variable model with classification and regression tree approach for behavior and credit scoring. Knowledge-Based System, 36, 245-252.

[8] Ogler, Y. (1970). A credit scoring model for commercial loan, Journal of Money, Credit & Banking, 2 (4), 435-445.

[9] Autorité des Marchés Financiers (2013), Ligne directrice sur les normes relatives à la suffisance du capital de base, Coopératives des services financiers.

[10] Bank for International Settlements (2005). Studies on the validation of internal rating systems. Working Paper 14.

[11] Peterson, W.W., Birdsall, T.G., et Fox, W. (1954). The theory of signal detectability. Transactions IRE Profession Group on Information Theory, Vol. 4 (4), 171- 212.

[12] Sobehart, J.R. et Keenan, S.C. (2001). Measuring default accurately. Credit Risk Special Report, Risk 14, 31–33.

[13] Sobehart, J.R., and Keenan, S.C. (2007). Understanding performance measures for validating default risk models: a review of performance metrics. Journal of Risk Model Validation, 1 (2), 61–79.

[14] Stein, R.M. (2007). Benchmarking default prediction models: pitfalls and remedies in model validation. Journal of Risk Model Validation, 1, 77–113.

[15] Hosmer, D.W., and Lemeshow, S. (2000). Assessing the fit of the model. Applied Logistic Regression, chap 5, John Wiley & Sons Second Edition.

[16] Siddiqi, N. (2006). Credit risk scorecards: developing and implementing intelligent credit scoring, John Wiley & Sons, New Jersey.

[17] Mays, E. (2001). Handbook of credit scoring, The Glenlake Publishing Company Ltd.

[18] Altman, E.I. et Saunders, A. (1998). Credit risk measurement: Developments over the last 20 years. Journal of Banking and Finance, 21, 1721-1742.

[19] Tasche, D. (2006). Validation of internal rating systems and PD estimates, arXiv: physics/0606071. [20] Hong, C.S. (2009). Optimal threshold from ROC and CAP curves. Communications in Statistics - Simulation and Computation, 38(10), 2060-2072. [21] Hand, D.J. (2009). Measuring classifier performance: A coherent alternative to the area under the ROC curve. Machine Learning, 77, 103–123.

[22] Engelmann, B. et Rauhmeier, R. (2006). Estimation, validation, and stress testing, The Basel II Risk Parameters, p 281.

[23] Rezáč M. et Rezáč F. (2011), How to measure the quality of credit scoring models. Finance a úvěr-Czech Journal of Economics and Finance, 61(5), 486-507.

[24] Fisher, R. A (1936), The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, 179-188.

[25] Banasik, A J, Crook, J et Thomas, L (2003). Sample selection bias in credit scoring model. Journal of the Operational Research Society, 54, 822-832.

[26] Crook, J, Banasik, A J (2004). Does reject inference really improve the performance of application scoring models. Journal of Banking and Finance, 28, 857-874.

[27] Barakova, I, Glennon, D, Palvia, A (2013). Sample selection bias in acquisition Credit Scoring Models: an evaluation of the supplemental-data approach. Journal of credit risk, 9(3), 77-117.

[28] Glennon, D., Larson, C.E., Kiefer, N.M. et Choi, H. (2008). Development and validation of credit-scoring models, Journal of Credit Risk, 4, 1-61.

[29] West D. (2000). Neural network credit scoring models, Computers and Operations Research, 27, 1131-1152.

[30] Mavri M., Angelis, V., Ioannou, G., Gaki, E. et Koufodontis, I (2008). A two-stage dynamic credit scoring model, based on customers’ profile and time horizon, Journal of Financial Services Marketing, 13 (1), 17-27.

[31] Fensterstock A. (2010). How good is your credit-scoring model? Journal of Equipment Lease Financing, 28 (1), 1D-13D.

[32] Anagnostopoulos, C., Hand D.J., Adams, N.M (2012). Measuring classification performance: the hmeasure package, http://cran.r-project.org/web/packages/hmeasure/vignettes/hmeasure.pdf, consulté le 30 Juillet 2014.