69
République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université de L’Arbi Ben M’hidi Oum El Bouaghi Faculté de Science Exacts et S.N.V Département de Mathématiques et Informatique Mémoire de fin d’étude en vue de l’obtention du diplôme de Master en Informatique Spécialité : Vision Artificiel Membres de Jury Présenté par Encadreur : Dr. Hidouci Adenane Asma REMACHE Examinateur : Dr. Tenachi Abd-ed Daim Examinateur : Dr. Hamza Lamia Année Universitaire : 2018/2019

Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université de L’Arbi Ben M’hidi Oum El Bouaghi

Faculté de Science Exacts et S.N.V

Département de Mathématiques et Informatique

Mémoire de fin d’étude en vue de l’obtention du diplôme de Master

en Informatique

Spécialité : Vision Artificiel

Membres de Jury Présenté par

Encadreur : Dr. Hidouci Adenane Asma REMACHE

Examinateur : Dr. Tenachi Abd-ed Daim

Examinateur : Dr. Hamza Lamia

Année Universitaire : 2018/2019

Page 2: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Dédicaces

A mes chers parents

Que nulle dédicace ne puisse exprimer ce que je leurs dois pour leur

bienveillance, leur affection et leur soutien .. . Trésors de bonté, de

générosité et de tendresse, en témoignage de mon profond amour et ma

grande reconnaissance << Que Dieu vous garde >>

A mes chers frères

En témoignage de mes sincères reconnaissances pour les efforts qu’ils ont

consenti pour l’accomplissement de mes études. Je leur dédicace ce modeste

travail en témoignage de mon grand amour et ma gratitude infinie.

A tous, ,A ma famille et mes amis

Pour leur aide et leur soutien moral durant l’élaboration du travail de

fin d’études.

Remache Asma

Page 3: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Remerciments

Avant tout, je remercie Allah pour toute l’aide,, la

patience et la volonté qu’il m’ a donnée durant toutes

ces années d’étude.

Je remercie en particulier Mr Hidouci pour toute sa

disponibilité et ses conseils qu’il n’a cessés de me donner

durant toute la période de notre travail.

Je remercie égalent Mr Tenachi et M

me Hamza

pour avoir accepté de juger ce travail.

Je tiens à remercier également l’ensemble des

enseignants et du personnel de mon département

Informatique pour avoir contribuer à ma formation.

Page 4: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Résumé

Le système bancaire du pays est l’un des secteurs moteurs de son économie. Pour une banque,

le crédit est l’activité qui génère le plus de gain et il génère le plus de perte en cas de son non

remboursement. Aujourd’hui, les banques évoluent dans un environnement où la concurrence

est de plus en plus importante. Pour faire face aux différentes perturbations du système

financier et assurer la rentabilité de son activité, la banque doit être en mesure d’assurer une

bonne gestion des risques de crédit par des techniques efficaces : prévoir et gérer efficacement

le risque de crédit et en même temps répondre avec confiance aux nouvelles demandes de

crédit tout en préservant sa rentabilité. L’objectif de la banque est donc de disposer d’un

modèle de gestion de ce risque avec le plus de précision possible.

Dans le cadre de ce mémoire, nous proposons la construction d’un modèle de crédit scoring.

Le crédit scoring est une méthode qui évalue le niveau du risque associé à un dossier de crédit

et de prévoir la solvabilité du demandeur de ce crédit. A partir des caractéristiques de ce

client, il sera classé par le modèle comme : Bon Payeur ou Mauvais Payeur. A cet effet, nous

avons utilisé deux méthodes : la Régression Logistique et les Réseaux de Neurones. Pour la

validation et la comparaison de la qualité des modèles obtenus, nous avons utilisé la matrice

de classement ou de confusion et la courbe ROC.

Mots-clés :

Crédit scoring

apprentissage

régression logistique

régression linéaire

réseaux de neurones.

Page 5: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Summary

The country's banking system is one of the driving forces of its economy. For a bank, loans

are the activity that generates the most profit, but it could also generate the most losses when

those loans go into default. Nowadays, banks operate in an environment where competition is

increasingly important. In order to cope with the various disruptions in the financial system

and ensure the profitability of its financial activities, the bank must be able to control the risks

of any loan failed to be recollected by following certain efficient techniques: effectively

predict and manage loan risks, but at the same time confidently respond to any new loan

applications while maintaining profitability. The bank's ultimate objective is to have a

managerial model of risks with the utmost possible accuracy.

This research paper suggests the construction of a credit-scoring model. Credit scoring is a

method that assesses the level of risks associated with a loan application and to predict the

creditworthiness of the applicant. Based on his financial characteristics, the customer is to be

considered by the suggested model as either: Good Payer or Bad Payer. for this purpose, we

have used two methods: Logistic Regression and the Artificial Neural Networks. For the

validation and comparison of the quality of the obtained models, we used the confusion

matrix and the ROC curve.

Keyword :

Credit scoring

learning

logistic regression

linear regression

neural networks.

Page 6: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Table Des Matieres Introduction Générale.

Chapitre 1. Notions fondamentales et Risques bancaires.

Introduction.

1. Notions fondamentales……………………………………………………..03

1.1. Définition de la banque………………………………………………....03

1.2. Rôle et activité de la banque…………………………………………....03

1.2.1. La collecte des dépôts…………………………………………………..03

1.2.2. La distribution des crédits……………………………………………....03

1.3. La classification des banques…………………………………………...04

1.3.1. Les banques de dépôts…………………………………………………..04

1.3.2. Les banques d’investissement. …………………………………………04

1.3.3. les banques d’affaires……………………………………………………04

1.4. Les ressources de la banque……………………………………………..04

1.4.1. Les ressources de la clientèle…………………………………………...04

1.4.2. Les ressources hors clientèle……………………………………………05

2. Le risque bancaire……………………………………………………….05

2.1. Définition………………………………………………………………..05

2.2. Types de risques………………………………………………………...05

2.2.1. Risques opérationnels…………………………………………………..06

2.2.2. Risques de marché. ……………………………………………………..06

2.2.3. Risques de crédit………………………………………………………..07

2.2.4. Les conséquences du risque de crédit sur l’activité bancaire…………..08

3. Maîtrise et gestion du risque de crédit………………………………..09

3.1. Maîtrise du risque………………………………………………………..09

3.2. Outils de gestion de risque……………………………………………….10

3.2.1. Les normes de gestion…………………………………………………..10

3.2.2. Evaluation du risque…………………………………………………..12

3.2.2.1. Cas d’un particulier…………………………………………………..12

3.2.2.2. Cas d’une entreprise………………………………………………….12

3.2.3. Méthodes de gestion de risques…………………………………………13

3.2.3.1. L’approche de l’analyse financière……………………………….13

3.2.3.2. L’approche : crédit scoring. ………………………...……………13

4. Conclusion. ……………………………………………………………..14

Page 7: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le crédit scoring

Introduction…………………………………………………………………..15

2.1. Définition……………………………………………………………….15

2.2. Principe…………………………………………………………………15

2.3. Les étapes de construction d’un modèle de score………………………16

2.3.1. Le choix des variables…………………………………………………16

2.3.2. Le choix des données de l’échantillon…………………………………16

2.3.3 Le choix de la méthode de construction du score……………………...16

2.3.4. La construction d’une règle de décision………………………………..17

2.3.5. La validation du modèle………………………………………………...17

2.4. Exemples de modèle de scoring…………………………………...……18

2.4.1. Le modèle d’ALTMAN……………………………………………….18

2.4.2. Le modèle de CONAN HOLDER…………………………………….19

2.5. Avantages et limites du crédit scoring…………………………………..20

2 .5.1. Les avantages du crédit scoring……………………………………….20

2.5.2. Les limites des modèles de score……………………………………….21

2.6. Conclusion………………………………………………………………..21

Chapitre 3. Les techniques utilisées pour le scoring

3.1. .

3.1.1. Présentation……………………………………………………………22

3.1.2. Le modèle………………………………………………………………22

3.1.3. L’estimation des coefficients………………………………..…………23

3.1.4. Les indicateurs de performance………………………………………..23

3.2. La régression logistique. ……………………………………………...24

3.2.1. Présentation…………………………………………………………….24

3.2.2. Le modèle………………………………………………………………24

3.2 .3. L’estimation des paramètres……………………………………………25

3.3. L’analyse discriminante. ………………………………………………27

3.3.1. Présentation…………………………………………………………….27

3.3.2. Le modèle………………………………………………………………27

3.3.3. La fonction discriminante du classifieur Bayésien……………………27

3.3.4. Le calcul des coefficients………………………………………………28

3.3.5. La règle de décision……………………………………………………28

3.4. Les Réseaux de Neurones. …………………………………………..30

3.4.1. Présentation…………………………………………………………….30

3.4.2. Fonction de transfert……………………………………………………31

3.4.3. L’apprentissage…………………………………………………………31

Page 8: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

3.4.4. Rétro-propagation de l’erreur………………………………………….32

3.4.5. Conclusion……………………………………………………………..33

3.5. Les arbres de décision………………………………………………... 34

3.6. Les Supports Vectors Machines. ……………………………………. 36

3.7. Comparaison des différentes techniques……………………………. 38

3.8. Conclusion………………………………………………………………39

Chapitre 4. La Construction du Modèle de scoring.

4.1. Présentation du langage PYTHON………………………………………40

4.1.1. Principales caractéristiques du langage Python…………………………40

4.1.2. Environnement de développement pour Python…………………………40

4.1.3. Principaux modules utilisés dans nos programmes……………………..42

4.2. La construction du Modèle………………………………………………..43

4.2.1. Choix et description des données de l’échantillon……………………...43

4.2.1.1. Description quantitative des données…………………………………44

4.2.1.2. Prise en compte des dopnnées manquantes…………………………..45

4.2.1.3. Visualisation des données…………………………………………….45

4.2.2. Variables explicatives et Variable à expliquer…………………………47

4.2.3. Méthode Utilisée………………………………………………………..48

4.2.3.1. Régression Logistique……………………………………………... …48

4.2.3.2. Réseaux de Neurones…………………………………………………50

4.2.4. Utilisation du modèle…………………………………………………...52

Conclusion. …………………………………………………...........54

Page 9: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Liste Des Figures

Fig.1 : Rôle d’intermédiation d’une Banque………………………………….……….05

Fig. 2 : Importance des différents risques……………………………………………..07

Fig.3 : Mécanisme de déroulement de gestion du risque de crédit..………….….……09

Fig.4 : Surveillance prudentielle……………………………………………….……..10

Fig.5 : Mesures énoncées par Bale I, Bale II et Bale III. ……………….…….…….12

Fig.6 : Exemple de matrice de confusion……………………………………….…….17

Fig.7 : Exemple de la courbe ROC……………………………………………….…..18

Fig.8: Règle de décision pour le modèle d'Altman……………………………......19

Fig.9 : Règle de décision pour le modèle Conan et Holder……………………......20

Fig.10 : Récapitulatif des avantages et inconvénients des techniques de scoring….…..22

Fig.11 : Exemple de perceptron multicouche…………………………………………..30

Fig12 : Exemple de deux classes linéairement séparables par SVM……………….….36

Fig.13 : la page de l’environnement Spyder pour Python………………………………41

Fig.14 : la page de l’environnement Jupiter pour Python……………………………….41

Fig.15 : Extrait des données de l’échantillon……………………………………………43

Fig.16 : Liste des variables……………………………………………………………..44

Fig.17 : Visualisation de la variable ‘Loan_status’........................................................46

Fig.18 : Représentation de la matrice des coefficients de corrélation....………………..47

Fig.19: Entrée des données pour le modèle…………………………………………..53

Fig.20: Visualisation du résultat Entrée ……………………………………………...53

Page 10: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Introduction Générale

Dans tous les pays, le système financier est l'un des indicateurs les plus importants de son

développement économique et social ; il constitue le nerf principal de sa croissance

économique.

La banque est devenue l’un des acteurs essentiels au bon fonctionnement de cette économie.

Son activité est caractérisée par sa diversité qui consiste en en la collecte des dépôts, la

distribution des crédits, l’animation des marchés financiers et la gestion des moyens de

paiement.

Le développement de ces établissements de crédits et la diversification de leurs activités a fait

que le métier bancaire est inséparable du risque et que son environnement est devenu très

instable et très vulnérable face aux fluctuations de la sphère monétaire. C’est ainsi que les

banques sont de plus en plus menacées par une multitude de risques qui peuvent nuire à son

activité et même remettre en cause sa position sur le marché financier. Parmi les différents

types de risque, le risque de crédit est le plus important ; le crédit constitue le principal

produit et le plus rentable pour une banque.

La maîtrise de ce risque est devenue un enjeu important pour les banques; celles-ci sont

soumises à une règlementation prudentielle internationale (Bale I, Bale II et Bale III) pour

limiter les effets néfastes des différents risques. Dans le cadre de cette règlementation, une

banque doit disposer d’outils efficaces pour lui permettre de bien procéder à la sélection de

ses clients (demandeurs de crédit) et leur répartition en bons ou mauvais payeurs.

Depuis, les banques et les organismes de crédit ont développé des méthodes de notation de la

solvabilité des clients et de leur capacité à rembourser le crédit.

Le crédit scoring est un de ces outils d’aide à la prise de décision utilisés par la banque pour

lui permettre d’évaluer le risque de non remboursement des prêts. En effet, à partir

d’informations décrivant le profil du client, un modèle de crédit scoring permet de

pronostiquer le risque de défaut de celui-ci.

Page 11: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Les méthodes et techniques utilisées pour la construction d’un tel modèle sont nombreuses et

seules les performances obtenues justifient le choix d’une méthode donnée.

Page 12: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 1

Notions

Fondamentales Et

Risques Bancaires

Page 13: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 3

Introduction.

Ce premier chapitre sera consacré à la présentation d’un certain nombre d’éléments et notions

fondamentales : la définition de la notion de banque, son rôle et activité ainsi que ses

ressources. Dans le cadre de son activité, la banque est sujette à différents risques ; ceux-ci

seront brièvement définis et finalement, on présentera les approches pour l’identification et le

contrôle des risques.

1. Notions fondamentales.

1.1. Définition de la banque.

Une banque, aussi appelée établissement de crédit, est une entité dont l'activité consiste à

recevoir des fonds (remboursables) du public et à octroyer des crédits. C’est une entreprise,

juridiquement régie par le code monétaire et financier, sa fonction principale consiste à

assurer des services financiers à ses clients.

1.2. Rôle et activité de la banque.

La banque joue un rôle d’intermédiaire entre les détenteurs et les demandeurs de capitaux.

Son activité principale consiste à collecter les capitaux disponibles pour son propre compte et

les utiliser sous sa responsabilité à des opérations de crédit. Elle peut également effectuer

d’autres opérations de banque : les services bancaires de paiement, les opérations de change

etc ...

1.2.1. La collecte des dépôts.

Les dépôts bancaires sont des fonds reçus du public sous forme de dépôts (à vue ou à

terme) avec le droit de disposer pour son propre compte mais à charge de les restituer.

Les déposants sont des particuliers ou des entreprises ; les fonds déposés dans les différents

comptes constituent l’essentiel des ressources de la banque.

1.2.2. La distribution des crédits.

Les fonds recueillis par la banque auprès des déposants : les dépôts (à vue ou à terme)

constituent des ressources importantes utilisés par la banque pour accorder des crédits (sous

son entière responsabilité) aux différents agents économiques pour les besoins

d’investissement.

Page 14: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 4

1.3. La classification des banques.

Le développement de l’économie mondiale, les tendances politiques et la spécialisation des

secteurs économiques ont rendu nécessaire l’organisation de la profession bancaire et sa

spécialisation. De manière générale, on distingue trois catégories essentielles: les banques de

dépôts, les banques d’investissement et les banques d’affaires.

1.3.1. Les banques de dépôts.

L’activité principale de ce type de banque consiste à effectuer des opérations de crédits et à

recueillir les dépôts de fonds à vue et à terme. Au quotidien, elles gèrent les comptes des

particuliers et des entreprises. Elles sont garantes de la sécurité des transactions financières.

1.3.2. Les banques d’investissement.

Les banques d’investissement sont des banques dont l’activité consiste à accorder des crédits

dont la durée est supérieure à deux ans.

1.3.3. les banques d’affaires.

En plus de l’octroi des crédits, Les banques d’affaires participent à la prise et la gestion de

participations dans des affaires existantes ou en formation. Les opérations de financement

engagées par ce type de banques immobilisent des capitaux pour une longue période.

1.4. Les ressources de la banque.

Il ya deux catégories de ressources : les ressources clientèles et les ressources hors clientèle.

1.4.1. Les ressources de la clientèle.

Ces ressources sont principalement formées par :

les dépôts (à vue et à terme) sont des liquidités placées en banque par les clients. Les

dépôts à vue peuvent être restitués à la demande ; les dépôts à terme ne peuvent être

restitués avant délai.

Les bons de caisse (nominatifs ou anonymes) sont des titres émis par la banque contre

un placement de fond à rembourser à une échéance définie avec payement d’un

intérêt.

Page 15: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 5

Les bons d’épargne sont des titres émis par la banque pour la collecte de ressources ;

ils sont payés en plus des intérêts produits à leur échéance.

1.4.2. Les ressources hors clientèle.

Ces ressources sont formées principalement par le marché interbancaire, les réescomptes, les

avances de la banque centrale ou les fonts d’assainissement du trésor.

Fig. 1 : Rôle d’intermédiation d’une Banque. [1]

2. Le risque bancaire.

2.1. Définition.

Le risque est défini comme étant la possibilité de survenance d'un événement ayant des

conséquences négatives. C’est donc une exposition à un danger potentiel associé à un

événement parfaitement descriptible, dont on sait qu’il est susceptible de se produire.

En finance, le risque se définit comme étant l’incertitude sur la valeur future d’une donnée

actuelle (actif financier). Il correspond à une possibilité de perte monétaire due à une

incertitude que l’on peut quantifier. [2]

2.2. Types de risques.

Pour jouer son rôle d’intermédiaire entre les détenteurs et les demandeurs de capitaux et

assurer à ses clients ses services, la banque est exposée à différents risques.

Page 16: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 6

Ces risques peuvent être classés en trois grandes catégories : les risques opérationnels, les

risques de crédit et les risques de marché. Le risque de crédit est de loin le plus important et le

plus dangereux auquel est exposée une banque ; c’est pourquoi, on s’intéressera beaucoup

plus à ce type de risque.

2.2.1. Risques opérationnels.

Selon le comité de Bâle ; le risque opérationnel est le risque de pertes qui résultent d’une

inadaptation ou d’une défaillance des processus internes, du personnel et des systèmes

d’information ou d’événements extérieurs. Ceci recouvre les erreurs humaines, les fraudes et

malveillances, les défaillances des systèmes d'informations, etc… Il comprend notamment :

Le risque lié au système d'informations: Ce risque se traduit par une défaillance

matérielle au niveau des moyens nécessaires à l'exercice de son activité, (par

exemple une panne informatique résultant d'une défaillance technique ou d'un acte de

malveillance)

Le risque lié aux processus internes : Ce risque est du au non respect des procédures,

aux erreurs provenant de l'enregistrement des opérations, les rapprochements et les

confirmations. (par exemple un double encaissement de chèque ou le versement du

montant d'un crédit avant la prise effective de la garantie prévue)

Le risque lié aux personnes : Ce risque est du au facteur humain (qualité du

personnel, manque de formation, vigilance…)

Le risque lié aux événements extérieurs : Ce risque peut être à l' origine de risque

politique, catastrophe naturelle, environnement réglementaire.

le risque juridique qui se définit comme étant la perte résultant de l'application

imprévisible d'une loi ou d'une réglementation, pouvant induire des jugements

défavorables.

2.2.2. Risques de marché.

C’est le risque de pertes sur les positions du bilan et hors-bilan suite à des variations des prix

du marché ; il recouvre : Les risques relatifs aux taux d’intérêt et titres de propriété et Les

risques de change liés aux transactions en devises.

Page 17: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 7

2.2.3. Risques de crédit.

Le risque de crédit ou risque de contrepartie est le risque que l’emprunteur ne peut pas

rembourser sa dette en partie ou en totalité à l’échéance fixée. Le créancier risque alors de

perdre définitivement sa créance.

Le risque de crédit est de loin le plus important et le plus dangereux auquel est exposée une

banque. Il présente un caractère aléatoire et imprévisible : la banque, en l’octroyant s’attend à

son remboursement, mais il n’y a aucune certitude de remboursement ultérieur dans les délais.

Une dette non remboursée constitue une perte économique pour la banque. La maitrise et

l’appréciation de ce risque constitue alors l’une des préoccupations majeures de la banque

lors de la prise de décision d’octroi du crédit. La banque sera amenée à accorder un crédit que

si la probabilité de son remboursement est forte. Elle doit lui accorder une attention

particulière et le gérer de manière efficiente pour se prémunir de ses conséquences négatives.

Fig. 2 : Importance des différents risques. [1]

Le risque de crédit comprend :

Le risque de défaut de clients : celui-ci se trouve dans l’incapacité (ou refuse)

d’honorer ses engagements envers ses créanciers à l’échéance (par exemple,

l'emprunteur se trouve en faillite juridique).

Page 18: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 8

Le risque de dégradation du crédit : c’est le risque du à la dégradation de la situation

financière de l’emprunteur faisant augmenter la probabilité de défaut.

Le risque du taux de recouvrement qui présente une source d'incertitude pour la

banque dans la mesure où il dépend des facteurs tels que : les procédures judiciaires et

de la valeur des garanties…

Le risque de crédit (ou de contrepartie) revêt trois formes :

Le risque de contrepartie rattaché à l’emprunteur et il concerne les crédits accordés

aux clients ou les placements sur les marchés financiers.

le risque de contrepartie sur le prêteur ; il est relatif aux garanties potentielles de

financement accordées à la banque pour assurer le financement de son activité (en cas

de difficultés d’approvisionnement sur les marchés).

le risque de contrepartie sur produits dérivés, il est composé du risque courant qui

représente la perte en cas de défaut et du risque potentiel représentant une perte

supplémentaire pour la couverture d’un défaut futur.[3] ;[4]

L’identification du risque de contrepartie est une étape essentielle pour la banque afin qu’elle

puisse mettre en œuvre les moyens appropriés pour sa quantification et sa gestion. Ce risque

étant le plus important pour la banque ; celle-ci est appelée à mettre en place des procédures

pour son identification, sa quantification et l’étude de sa solvabilité.

2.2 .4. Les conséquences du risque de crédit sur l’activité bancaire

Le risque de crédit (ou de contrepartie) engendre des conséquences négatives sur l’activité

bancaire ; on peut citer :

Les pertes liées au non remboursement des créances provoquent une dégradation du

résultat de la banque.

Possibilité de remise en cause de la solvabilité de la banque.

Une dégradation des résultats de la banque engendre une baisse de son rating car ce

dernier est un indicateur de solvabilité.

Page 19: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 9

La dégradation de la relation banque-client : la banque est amenée à augmenter ses

taux de prêts pour pouvoir absorber les pertes enregistrées, ce qui détournera ses

clients.

Un risque systémique : le défaut d’une banque se propage à d’autres et provoque par

effet de contagion une crise systémique. Dans ce contexte, la stabilité globale du

système financier sera compromise.

Au vue de ces conséquences désastreuses pouvant être induites par le risque de crédit sur la

banque et tout le système bancaire et financier, la mise en place d’une réglementation,

l’observation de règles prudentielles et le contrôle de l’activité bancaire sont nécessaires.

3. Maîtrise et gestion du risque de crédit.

La complexité croissante des instruments financiers et le rôle d’intermédiaire que joue la

banque dans ce système financier fait que celle-ci doit se prémunir contre les risques liés à

son activité.

3.1. Maîtrise du risque.

La maîtrise du risque doit conduire à l’amélioration du processus de décision pour un meilleur

rendement. Elle repose sur :

L’identification du risque,

L’évaluation et la quantification des coûts qui lui sont associés,

L’adoption de techniques efficaces de gestion du risque et le suivi permanent.

Fig 3 : Mécanisme de déroulement de gestion du risque de crédit. [5]

Page 20: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 10

3.2. Outils de gestion de risque.

Les outils de gestion correspondent à l'ensemble des techniques et dispositifs

organisationnels mis en place par la banque pour identifier, quantifier et surveiller les risques

auxquels elle est confrontée.

Toute opération de crédit est contrôlée et couverte par l’organe chargé de la définition des

normes prudentielles (conseil de la monnaie et du crédit) et l’organe chargé du suivi et du

contrôle (la commission bancaire) [9] et des procédures internes à la banque.

Fig.4 : Surveillance prudentielle. [1]

3.2.1. Les normes de gestion.

Pour limiter la prise de risques et ses effets néfastes qui peuvent mettre en péril les

établissements de crédit, qui à leur tour peuvent compromettre la sécurité du système

financier, une réglementation prudentielle internationale est mise en place. Toutes les banques

sont tenues de se conformer aux règles prudentielles de gestion et dont le but est de doter les

établissements financiers d’un moyen de contrôle des risques.

Ces règles sont dérivées des recommandations prudentielles internationales (Bale I, Bale II,

Bale III), adoptées universellement et ayant pour objectif :

Le renforcement de la structure financière des établissements de crédits,

La sécurité des déposants,

La surveillance et le suivi (continu) des risques de banques.

Page 21: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 11

Ces règles ont imposé aux autorités de contrôle des ratios de solvabilité des établissements de

crédits ; il y a le ratio de COOKE (Bale I) et le ratio de McDounough (Bale II) qui vient

modifier celui de COOK pour prendre en compte la qualité de l'emprunteur par l'intermédiaire

d'un système de notation interne propre à chaque établissement (Internal Rating Based). Ces

ratios définissent un niveau minimal de capital dont doit disposer l’établissement de crédit

pour pouvoir faire face aux risques liés aux divers postes de son actif. Cette mesure répond à

un double objectif :

Renforcer la solidité et la stabilité du système bancaire ;

atténuer les inégalités concurrentielles entre les banques.

Les nouvelles règles (Bâle III) constituent une évolution des standards prudentiels bancaires

et complètent les accords de Bâle II. Ces nouvelles règles permettent :

Le renforcement de la qualité et de la quantité de fonds propres minimaux que les

établissements doivent détenir,

La mise en œuvre des exigences minimales en termes de gestion du risque de

liquidité (ratios quantitatifs),

Le renforcement des exigences relatives aux établissements considérés comme

systémiques. [6]

Les deux ratios (Bale I et Bale II) sont donnés par les formules :

(*) atio de C

(*) atio de c ounough

Page 22: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 12

Fig 5 : Mesures énoncées par Bale I, Bale II et Bale III. [1]

3.2.2. Evaluation du risque.

La politique de crédit repose sur le principe que tout engagement porteur de risques de crédit

s’appuie sur une connaissance approfondie du client et de son activité. L'évaluation de ce

risque de crédit varie selon le type du client de la banque.

3.2.2.1. Cas d’un particulier.

Pour le cas du particulier, l'évaluation porte essentiellement sur l'étude du dossier du client,

cette étude porte sur :

L’identité du client (état civil,…),

Ses capacités d’endettement,

l'état du compte du client pour apprécier le niveau de ces engagements actuels,

L'étude des engagements du client au niveau de son employeur et au niveau des autres

banques,

Les garanties (Engagement de domiciliation et caution salariale).

3.2.2.2. Cas d’une entreprise.

Pour une entreprise qui sollicite un crédit bancaire, elle doit fournir à la banque les moyens

d'appréciation de sa situation financière et s'assurer que le crédit sollicité est nécessaire à la

Page 23: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 13

bonne marche de l'entreprise et qu'il ne sera pas détourné et que la banque ait de très grandes

chances d’être remboursée.

3.2.3. Méthodes de gestion de risques.

En ce qui est des méthodes de gestion, le cas des particuliers présente une certaine différence

par rapport aux entreprises. Le marché de l’endettement des particuliers est en croissance

continue, la réponse aux demandes de crédits des particuliers exige une certaine forme de

célérité. Le volume de la demande et le faible montant des crédits demandés a amené les

banques à automatiser leur traitement et utiliser des méthodes telles que le crédit scoring

permettant de fournir des réponses rapides.

Pour les entreprises, deux approches sont utilisées : l’approche de l’analyse financière et

l’approche de crédit scoring.

3.2.3.1. L’approche de l’analyse financière.

L’analyse financière est une démarche qui s’appuie sur l’étude des informations comptables

et financières fournies par l’entreprise pour permettre à la banque d’établir un diagnostic

financier de l’entreprise et d’apprécier ses performances notamment ses capacités de

solvabilité.

Cette analyse s’effectue essentiellement à partir des informations comptables : le bilan et le

compte de résultats ainsi que d’autres informations provenant des organismes : des cabinets

d’audit, la centrale des impayés, la centrale des risques et la centrale des bilans de la Banque

d’Algérie.

Cette analyse, basée sur une multitude de ratios décrivant son activité, est un diagnostic

financier de la santé de l’entreprise. L’inconvénient est que l’élaboration du diagnostic

financier nécessite beaucoup de temps et un personnel qualifié ce qui entraine des surcouts.

3.2.3.2. L’approche : crédit scoring.

Actuellement, le crédit scoring est l’un des modèles de prévision des risques les plus usités

dans la micro finance. C’est un outil d’aide à la décision ; il permet de prévoir la défaillance

d’un demandeur de crédit. Il permet d’associer à chaque demande de crédit une note

proportionnelle à la probabilité qu’a l’emprunteur pour rembourser son crédit.

Page 24: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre1: Notions Fondamentales Et Risques Bancaires.

Page 14

Un modèle de score est un outil de mesure du risque basé sur l’utilisation des techniques

statistiques pour l’étude des données historiques qui décrivent des caractéristiques des

emprunteurs et leur attribuer un score. Ce score est une note exprimée (de manière

synthétique) permettant de mesurer le risque de défaut d’une entreprise et de la classer dans

l’une des deux classes : entreprises saines ou entreprises défaillantes.

Cette technique de crédit scoring sera plus amplement décrite dans le chapitre suivant. On

décrira son principe et les méthodes utilisées.

4. Conclusion.

La banque est l’acteur principal des marchés de capitaux ; dans le cadre de ses activités, elle

est exposée à une diversité de risques qu’elle doit maitriser et gérer pour assurer correctement

son rôle dans le financement de l’économie du pays. Le risque relatif aux crédits accordés

par la banque demeure le plus important et le plus fréquent, c’est pourquoi la mise en place

d’outils et instruments pour le gérer et le maîtriser afin d’assurer la continuité de son activité.

Page 25: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2.

Le Credit Scoring

Page 26: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le Crédit Scoring

Page 15

Introduction.

L’évaluation du risque de crédit revient à se poser la question de la solvabilité du client. Pour

la prise de décision d’octroi de crédit, il est indispensable que le décideur dispose d’outils

d’appréciations quantitatives qui vont lui permettre d’évaluer cette solvabilité afin d’assurer

une probabilité minimale de défaillance du client.

Dans le chapitre précédent, nous avons présenté une approche classique d’évaluation :

l’approche financière et ses limitations. Dans ce chapitre, on présentera l’approche du crédit

scoring

2.1. Définition du crédit scoring.

Le crédit scoring est un outil d’aide à la décision. C’est une méthode basée sur l’utilisation

des techniques statistiques pour prédire la probabilité de défaillance d’un demandeur de prêt.

Elle vise à associer à chaque demande de crédit une note proportionnelle à la probabilité de

l’emprunteur de faire défaut. [7]

2.2. Principe.

A partir des données historiques relatives à une population de clients ayant contracté un prêt,

on étudie certains paramètres ou critères qui caractérisent ces emprunteurs afin de déterminer

les effets possibles sur leur chance de faire défaut. On calcule une valeur chiffrée (un score)

qui décrit d’une manière « synthétique » la situation d’un client, mesure son risque de défaut

et permettre de le classer dans l’une des deux classes : bon payeur – mauvais payeur. [8]

La méthode de scoring consiste à calculer une combinaison linéaire d’un certain nombre de

paramètres retenus comme les plus significatifs dans la discrimination entre les emprunteurs

défaillants et emprunteurs non défaillants. Cette fonction score se présente sous la forme

suivante :

F(score) = α1 R1 + α2 R2 + α3 R3 + … + αP RP

avec : Ri ; i =1,2, …, p les paramètres choisis

et αi ; i =1,2, …, p sont les p coefficients estimés.

Les fonctions scores sont relativement nombreuses, elles présentent plusieurs

atouts pour le secteur bancaire :

la simplicité. l’utilisation du score est obtenu à partir d’un certain nombre

d’informations synthétisées et offre une rapidité dans la prise de décision, ce qui constitue un

double avantage : une charge de travail réduite et une réponse rapide pour le client.

Page 27: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le Crédit Scoring

Page 16

l’homogénéité. le crédit scoring donne la même décision quelque soit l’agence ou le

temps de la prise de décision. [9]

2.3. Les étapes de construction d’une fonction score.

La construction d’une fonction score repose sur les étapes principales suivantes

2.3.1. Choix des variables :

En premier lieu, on détermine la variable Y à expliquer (ou à prédire). On parle également

de critère à modéliser. La variable Y est généralement binaire à deux modalités ; chaque

modalité définit une classe (ou groupe).

En deuxième lieu, on choisit les variables explicatives X = (X1; … ; Xp). Les p variables

explicatives. Ces variables Xi ; i = 1 … p, peuvent être quantitatives ou qualitatives. Ces

variables doivent être les plus pertinentes qui discriminent au mieux les deux classes.

2.3.2. Choix des données et de l'échantillon :

Il convient de disposer d’un échantillon constitué de deux populations d’emprunteurs : la

première regroupe ceux ayant fait défaut, et la seconde ceux qui n’ont pas fait défaut. Cet

échantillon est de taille n (nombre d'individus) ; il doit être représentatif de la population et

sur lequel sont mesurées les p variables explicatives X1; … ; X p et la variable à expliquer Y.

Ces données serviront pour la classification et la séparation entre les deux groupes. Il convient

de signaler que l’une des conditions requises pour la construction d’une fonction score est que

les variables retenues ne soient pas corrélées. Des variables liées apportent la même

information et sont donc redondantes.

2.3.3. Choix de la méthode de construction du score.

Une fonction score F(X) donne une note à un individu en fonction de ses valeurs sur X = (X1;

… ; Xp).

Un modèle de scoring est d’autant meilleur que s’il arrive à discriminer au mieux une

population en classes bien distinctes en affectant un score élevé aux éléments ayant une faible

probabilité de défaut et un score faible à ceux ayant une forte probabilité de défaut. De plus,

un score est d’autant plus fiable que le classement qu’il reproduit est proche de la réalité.

A partir des échantillons et de l’ensemble des variables retenues et l’utilisation d’une

technique de discrimination, on procède à l’affectation de chaque individu à son groupe.

Cette affectation doit être la plus efficace possible.

Actuellement, les techniques de scoring les plus utilisées sont construites par des méthodes

relevant le plus souvent du domaine de data mining et de l’intelligence artificielle. Nous

Page 28: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le Crédit Scoring

Page 17

citerons: la régression linéaire, la régression logistique, l’analyse discriminante, les réseaux

de neurones, les arbres de décision, etc…

2.3.4. Construction d'une règle de décision.

Après avoir obtenu cette évaluation chiffrée, il suffit d’intégrer le score obtenu dans une grille

de risque préalablement graduée, laquelle permettra l’interprétation du chiffre obtenu qui

aidera à la prise de décision finale du prêteur.

Si la variable Y est binaire, ses deux modalités forment deux classes (groupes) d'individus et

on peut fixer un seuil s pour obtenir la règle suivante :

F(X) ≤ s ==>l'individu est affecté à la classe 1

F(X) > s ==> l'individu est affecté à la classe 2

2.3.5. Validation du modèle.

Dans cette étape, on procèdera à l’appréciation de la qualité prédictive de la fonction score

identifiée.

Les méthodes de validation sont destinées à mesurer la capacité du modèle pour la prise de

décision quant à son utilisation ou à son rejet. Ces méthodes de validation s’appuient sur des

tests de robustesse appliqués sur un échantillon témoin non utilisé pour la construction du

modèle. La validation du modèle est une étape décisive qui permet de vérifier la conformité

des coefficients du modèle de score et évaluer ses performances et sa capacité de prédiction.

Le plus souvent, la robustesse des modèles est vérifiée à travers : la matrice de confusion (ou

de classement correcte) et la surface sous la courbe de ROC.

la matrice de confusion.

Fig.6 : Exemple de matrice de confusion. 2 groupes notés : POSITIF ; NEGATIF. [18]

Prédiction

POSITIF NEGATIF

Réel

POSITIF 95

(vrais positifs)

5

(faux négatifs)

NEGATIF 3

(faux positifs)

97

(vrais négatifs)

Page 29: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le Crédit Scoring

Page 18

Cette matrice permet de calculer certains paramètres pour évaluer la capacité prédictive du

modèle. Celle-ci est d’autant meilleure que l’Accuracy, la Precision et recall sont élevés.

Accuracy = TP+TN/Total des effectifs ; le taux des bien classés,

Erreur = 1 - accuracy

Precision = TP/TP+FP, le taux des vrais positifs par rapport au total prédit positifs

Recall = TP/TP+FN, taux des vrais positifs par rapport au total des positifs de la classe.

Spécificité = TN/(TN+FP), le taux des vrais négatifs

F1.score = 2*( precision *recall) / (precision+recall)

La courbe ROC.

La courbe ROC représente l'évolution du taux de vrais positifs en fonction taux de faux

positifs (1 – spécificité).

L'aire sous la courbe ROC (AUC) est un indicateur de la qualité de la prédiction : plus la

courbe est au-dessus la première bissectrice, meilleure est la prédiction.

Fig.7 : Exemple de la courbe ROC. [19]

2.4. Exemples de modèles de scoring.

Parmi les modèles les plus classiques, on citera :

2.4.1. Le modèle d'Altman (1968).

Ce modèle est développé en utilisant un échantillon de 66 entreprises réparties en deux

classes de 33 chacune : une classe pour des entreprises considérées comme défaillantes,

l’autre classe pour celles considérées comme saines. Le modèle utilise la technique statistique

de l’analyse discriminante multi-variée. Il détermine une fonction de score qui est une

combinaison linéaire de cinq ratios financiers considérés comme les plus pertinents pour

discriminer au mieux les deux groupes d’entreprises (saines ou défaillantes).

Cette fonction de score, nommée Z-score, s'exprime par la relation :

Page 30: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le Crédit Scoring

Page 19

Z = 1.2 R1 + 1.4 R2 + 3.3 R3 + 0.6 R4 +0.9 R5

R1= Fond de net / Actif total

R2= Bénéfice non réparti / Actif total

R3= Bénéfice avants intérêts et impôts / Actif total

R4= Capitaux propres / Dettes totales

R5 = Chiffre d’affaire H.T / Actif total

Le risque encouru par la banque varie dans le sens contraire de Z, avec 3 comme valeur

critique.

Fig.8: Règles de décision pour le modèle d'Altman. [5]

Pour un score supérieur à 3, l’entreprise a peu de risque de faire défaut, entre 2,7 et 3,

l’entreprise est à risque. S’il est compris entre 1,8 et 2,7, la probabilité de faire défaut est

importante et l'entreprise est jugée à haut risque. Enfin pour un score inférieur à 1,8 la

probabilité d’un problème financier est très élevée.

2.4.2. Modèle de Conan et Holder.

Le modèle est basé sur un échantillon de 190 petites et moyennes entreprises industrielles : la

moitié étant considérées comme saines et l’autre moitié comme défaillantes. Les auteurs ont

observé 31 ratios financiers se rapportant à toutes les entreprises de l'échantillon. Ils ont

conclu que seuls 5 ratios sont les plus significatifs et ont abouti à la formalisation de la

fonction score Z définie par l'équation ci-dessous :

Z = 0.24 R1 + 0.22 R2 + 0.16 R3 – 0.87 R4 – 0.10 R5

R1 = Excédent brut d’exploitation / Total des dettes

R2 = Capitaux permanents / Actif total

Page 31: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le Crédit Scoring

Page 20

R3 = Réalisables et Disponibles / Actif total

R4 = Charges financières / Chiffre d’affaires H.T

R5 = Charges du personnel / Valeur ajoutée

Pour perfectionner la règle de décision des banquiers, les auteurs proposent une probabilité

de défaillance selon la valeur du score Z et en fonction de ce score, l’entreprise est considérée

comme saine ou défaillante.

L’entreprise, en fonction de cette loi de probabilité de défaillance et du score Z, est classée

selon son niveau de risque présumé.

Fig.9: Règle de décision pour le modèle Conan et Holder. [5]

Si le score Z > 0.10 : Très bonne situation financière ; risque de défaillance inférieur à 30%.

Si 0.04 < Z < 0.10 : Zone d’alerte ; probabilité de défaillance de 30% à 65%. Pour l’entrprise

Si -0.05 < Z < 0.04: Zone de danger ; probabilité de défaillance de 65% à 90%.

Si Z < -0.05 : Entreprise classée défaillante ; probabilité de défaillance dépassant 90%.

2.5. Avantages et limites du crédit scoring.

L'utilisation du crédit scoring au sein des banques et des établissements de crédit en tant

qu’outil d’aide à la décision offre des avantages non négligeables mais également il présente

certaines limites.

2.5.1. Les Avantages du crédit scoring.

Le scoring permet une appréciation synthétique de la situation d’une entreprise ou

d’un client, il permet également d’anticiper le risque de défaillance de l’entreprise et de

diminuer par conséquent les impayés,

Par rapport aux autres méthodes traditionnelles, les modèles de score permettent, grâce

à la rapidité de prise de décision qu’ils présentent, un traitement d’une population plus

Page 32: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 2. Le Crédit Scoring

Page 21

importante d'emprunteurs, leur usage réduit de manière significative la durée du traitement

des dossiers de crédit et procurent un gain de temps appréciable libérant l’analyste financier

à d’autres tâches.

Les outils de scoring sont peu coûteux.

2.5.2. Les limites des modèles de score.

Au-delà d’une certaine durée d’utilisation, le modèle de crédit scoring peut perdre son

pouvoir discriminant dans la mesure où le secteur pour lequel il a été construit ainsi que la

situation économique peuvent évoluer. [10]

Les modèles de score capturent mal les changements pouvant modifier l'attitude des

emprunteurs par rapport au défaut.

Ils comportent certaines erreurs de classement des individus : classer un bon client

comme mauvais ou l’inverse ; ces erreurs ont un coût pour le prêteur.

2.6. Conclusion.

Malgré les limites qu’elle présente, la méthode des scores reste l’une des méthodes les plus

utilisées pour l’appréciation du risque de crédit. C’est une méthode d’aide à la prise de

décision et l’avis du responsable est très important quant à son utilisation.

Page 33: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3.

Les Techniques

Utilisees Pour

Le Scoring

Page 34: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 22

Introduction.

Dans ce troisième chapitre on présentera les techniques les plus utilisées pour la construction

d’un modèle de scoring. Ces techniques relèvent le plus souvent du data mining :

l’apprentissage et les méthodes de classement ; et du deep learning : les réseaux de neurones

et les arbres de décision.

3.1. La régression linéaire

3.1.1. Présentation.

La régression linéaire permet de modéliser une variable endogène (réponse, à expliquer)

Y continue à partir d’une matrice de P variables explicatives ) continues.

La régression linéaire se base sur une modélisation de type linéaire et demeure la méthode de

prédiction la plus utilisée étant donné sa simplicité de mise en œuvre.

Pour garantir son utilisation optimale, cinq conditions sont à tester au préalable [20]:

l’absence de multi-colinéarité au sein des variables X,

l’indépendance des résidus (erreurs) , entre eux,

l’indépendance entre les variables et les résidus,

normalité des résidus ,

la variance des résidus est constante,

Remarque :

S’il existe des variables colinéaires (dépendantes entre elles), elles seront redondantes et

apportent la même contribution.

Pour les autres hypothèses, l’utilisation de la régression linéaire est possible, sauf que plus

nous nous éloignons des hypothèses et plus nous risquons d’obtenir des résultats peu

efficaces. [20]

3.1.2. Le Modèle :

Le modèle associé à la régression linéaire s’exprime selon la formule suivante :

L’idée est de reconstruire à partir des comme une combinaison linéaire de

ces variables explicatives.

Page 35: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 23

3.1.3. L’estimation des coefficients:

Il existe différentes méthodes d’estimations des coefficients: les moindres carrés partiels, le

maximum de vraisemblance et l’inférence bayésienne. La méthode des moindres carrés

permet de fournir des estimateurs non biaisés est la plus populaire et la plus utilisée.

L’estimation des coefficients de régression se fait alors au travers du

calcul,

Où est la matrice des variables explicatives à laquelle nous rajoutons en

première colonne le vecteur unitaire (pour pouvoir estimer le coefficient constant β0).

3.1.4. Les indicateurs de performance de la régression linéaire:

En notant :

,

L’expression de la différence entre les valeurs réelles de et les valeurs prédites par le

modèle construit via régression linéaire, les indicateurs de performance régulièrement

retrouvés dans la littérature sont donnés par les formules :

La vraisemblance,

Plus la vraisemblance est forte, meilleur est le modèle.

Le coefficient de détermination :

Avec :

Le coefficient est un indicateur de la qualité de la modélisation ; notamment

de la capacité du modèle à coller aux données réelles utilisées pour le construire. Le

modèle est d’autant meilleur que le coefficient est proche de 1. [20]

Page 36: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 24

3.2. La régression logistique.

3.2.1. Présentation:

La régression logistique permet de prédire et/ou expliquer une variable catégorielle Y à partir

d’un ensemble de descripteurs ). Il s'agit de mettre en évidence

l'existence d'une liaison fonctionnelle sous-jacente entre ces variables de la forme : Y = f (X;β)

La fonction f ( . ) est le modèle de prédiction ; β est le vecteur des paramètres de la fonction

et dont les valeurs seront estimées à partir des données disponibles. Ces données peuvent être

continues ou qualitatives.

Pour le cas particulier où la variable dépendante Y ne prend que 2 modalités, on parle de

discrimination binaire.

L’objectif est de prédire correctement les valeurs de Y, mais on peut également vouloir

quantifier la probabilité d’appartenance d'un individu à l’une des deux classes.

La force de la régression logistique réside en la forme de la fonction lien utilisée (le logit ou le

probit) qui permet une modélisation de forme sigmoïdale.

3.2.2. Le modèle.

Le modèle de régression logistique est formulé par :

Y = f(β0 + β’ X ) + ɛ

Le classifieur bayesien est celui qui, pour un individu , permet de calculer les probabilités

conditionnelles (probabilité a posteriori) : Y pour chaque modalité yk de Y .

On affecte à l'individu la modalité la plus probable yk*

yk*

= arg

P [Y ( ) = yk / X( )]

On associe donc l'individu à la classe la plus probable compte tenu de ses caractéristiques

X( ). Cette approche est optimale au sens de l'erreur théorique. [11]

Page 37: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 25

Dans le cas à deux classes, Y prend les deux valeurs notées ‘ 1 ‘ et ‘ 0 ‘, nous devons donc

comparer simplement les probabilités P (Y = 1/ X) et P (Y = 0/ X) pour déterminer la classe

de Y.

On forme le rapport :

La règle de décision devient :

Si

Pour l'estimation du rapport de probabilité

; la régression logistique introduit

l'hypothèse fondamentale suivante :

Ln

= b0 + b1 X 1 + . . . + bp Xp

Remarque.

Cette hypothèse rend opérationnelle la régression logistique dans de très nombreuses

configurations contrairement à l'Analyse Discriminante Linéaire, que l'on qualifie de méthode

paramétrique (émet l’hypothèse sur les distributions respectives des probabilités) alors que la

régression logistique est une méthode semi-paramétrique car l'hypothèse porte uniquement sur

le rapport de ces probabilités. Elle est donc moins restrictive. [11], [12]

Dans la plus part des cas, on utilise le modèle LOGIT, sa fonction de lien est :

P [Y ( ) = yk / X ( )] =

Qui, en fonction d’une valeur de seuil fixée (généralement 0.5), permet la prédiction du statut

de Y.

3.2.3. Estimation des paramètres :

L’estimation des coefficients se fait par l’algorithme de Newton-Raphson

qui est basé sur la méthode itérative du gradient.

On fixe l’itération initiale avec : et

Page 38: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 26

On pose le vecteur des dérivées partielles premières de la vraisemblance

et la matrice des dérivées partielles secondes de la vraisemblance.

Pour , solution courante à l’itération , nous avons,

L’algorithme converge afin d’obtenir notre vecteur d’estimateurs via les formules:

Avec la matrice carrée de taille p p des poids où le jeme

élément de la diagonale est:

Page 39: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 27

3.3. L’Analyse discriminante de Fisher.

3.3.1. Présentation.

L’Analyse discriminante permet de modéliser une variable qualitative à K modalités

(K ≥ 2 classes) à partir de P variables explicatives continues X= ( X 1, . . . , X

p ).

On dispose d'un échantillon (échantillon d’apprentissage) de n observations de Y et de X :

pour lequel les p variables explicatives et la variable à expliquer ont été mesurées. L’objectif

est de définir à partir de cet échantillon une règle de classification qui va permettre de prédire

la valeur de Y pour un nouvel individu sur lequel on a mesuré uniquement les p variables

explicatives. On parle de classification supervisée, chaque modalité de Y représente une

classe (ou groupe) d'individus.

3.3.2. Le Modèle.

La variable à expliquer est binaire ou à k ≥ 2 modalités ; les variables explicatives X sont

continues.

L’Analyse discriminante de Fisher permet la construction de deux formes de frontière:

linéaire ou quadratique ; qui nécessitent des hypothèses d’utilisation solides : la normalité des

données pour les deux cas plus celle d’homoscédasticité pour le cas linéaire. [21]

L’analyse discriminante de Fisher est basée sur l’étude des covariances intra et inter classes

ainsi que sur la construction d’un classifieur bayésien optimal au sens de la probabilité de

l’erreur. Cet outil est à mi-chemin entre la modélisation et la classification, il faut en général

passer par une méthode d’apprentissage pour valider la règle décisionnelle [21].

3.3.3. La fonction discriminante du classifieur bayésien:

Pour chaque classe k, k = 1, . . . , K , on note : k la matrice de variance-covariance et k le

centre de gravité du nuage d’individus associé à la classe Clk de , soit à X Y= Clk ,

d’effectif nk.

Page 40: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 28

On Suppose également que les observations de chaque classe soient générées selon une loi

normale de paramètres ( k , k ), on a :

Si en plus les matrices de variance-covariance sont identiques alors nous sommes dans le cas

d’une discrimination linéaire (hypothèse de normalité et d’homoscédasticité), dans le cas

inverse nous sommes dans le cas quadratique (hypothèse de normalité).

Dans le premier cas, où 1 = . . . =p = (la matrice de variance-covariance toutes classes

confondues), les fonctions discriminantes du classifieur bayésien deviennent:

Dans le second cas, où 1 . . . p , elles deviennent:

3.3.4. Le calcul des coefficients.

Le vecteur des coefficients associé à la règle décisionnelle se retrouve au travers de la formule

de la fonction discriminante décrite ci-dessus en fonction des deux versions,

pour la règle linéaire,

pour la règle quadratique,

Le premier terme du vecteur représentant le coefficient constant.

3.3.5. Règle décisionnelle.

Nous cherchons à savoir de quelle classe le nouvel individu i que nous voulons

classer est le plus près. Nous répondons à cette interrogation via la distance définie par la

matrice et qui correspond la règle descriptive de Mahalanobis-Fisher, de définition,

Où : dans le cas linéaire

dans le cas quadratique.

Page 41: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 29

La règle décisionnelle basée sur le théorème de Bayes nous donne [21]:

avec Pk =

Page 42: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 30

3.4. Les Réseaux de Neurones.

Les réseaux de neurones, connus sous l’appellation d’apprentissage profond (Deep Leatning)

sont des algorithmes qui permettent à partir de l'expérience de déterminer la relation entre les

caractéristiques d'un des emprunteurs et leur probabilité de défaut. Cette technique prend en

compte l’effet de non-linéarité entre la variable à expliquer et les variables explicatives. Sa

modélisation et l’interprétation de ces résultats peuvent être complexes. [22]

3.4.1. Présentation.

Un réseau de neurones est une association en un graphe plus ou moins complexe d’objets

élémentaires : les neurones formels.

Fig.10 : Exemple de perceptron multicouche (1 couche cachée, 1couche de sortie). [22]

Les réseaux de neurones se distinguent par : leur architecture (structure du graphe), leur

complexité (le nombre de neurones), le type de neurones (type de fonction d’activation) et

l’objectif visé (apprentissage, optimisation, . . .)

Le neurone formel est un modèle qui se caractérise par un état interne s S ,

Des signaux d’entrés x1, … , x

p et une fonction d’activation.

La fonction d’activation opère une combinaison des signaux d’entrée (α0 , α1, …, αp )

associés à chaque neurone et dont les valeurs sont estimées lors de la phase d’apprentissage.

Page 43: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 31

Il y a différentes fonction d’activation ; les plus utilisées sont celles adaptées aux algorithmes

d’apprentissage :

Fonction linéaire g(x) est la fonction identité

Sigmoide g(x) = 1/ (1+ ex )

ReLU g(x) = max(0, x)

3.4.2. Fonction de transfert.

Un Perceptron Multi Couche réalise la transformation des variables d’entrée : Y= f(X1, X

2,

…,Xp

; α) de la couche l ; la couche d’entrée ( l=0 ) n’est pas paramétrée ; elle ne fait que

distribuer les entrées sur la couche suivante.

Le théorème d’approximation universelle montre que cette structure élémentaire à une seule

couche cachée est suffisante pour prendre en compte les problèmes classiques de

modélisation ou apprentissage statistique. En effet, toute fonction régulière peut être

approchée uniformément avec une précision arbitraire et dans un domaine fini de l’espace de

ses variables, par un réseau de neurones comportant une couche de neurones cachés en

nombre fini possédant tous la même fonction d’activation et un neurone de sortie linéaire.[22]

En régression (Y quantitative), la dernière couche est constituée d’un seul neurone muni de la

fonction d’activation identité tandis que les autres neurones (couche cachée) sont munis de la

fonction sigmoïde.

En classification binaire, le neurone de sortie est également muni de la fonction sigmoïde.

Ainsi, en régression avec un perceptron à une couche cachée de q neurones et un neurone de

sortie, cette fonction s’écrit :

Y= f(x, α, β)= β0 + β’z

Avec zk = g( αk0 + α’k ) ; k = 1 , … , q

3.4.3. L’Apprentissage.

Disposant d’un échantillon de n d’observations (xi1 , . . . , xi

p; yi) des variables explicatives

X 1

, . . . , X p

et de la variable à prévoir Y .

En considérant le cas le plus simple de la régression avec un réseau constitué d’un neurone de

sortie linéaire et d’une couche à q neurones dont les paramètres sont optimisés par la

Page 44: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 32

méthode des moindres carrés. Ce ci peut se généraliser à toute fonction perte dérivable et

donc à la discrimination à m classes. [22]

L’apprentissage est l’estimation des paramètres : αj pour j=0,p ; k=1,q et βk pour k = 0, q par

minimisation de la fonction perte de la fonction :

Q(α, β) =

– α β

3.4.4. La Rétro-propagation de l’erreur

Différents algorithmes d’optimisation sont proposés, ils sont généralement basés sur une

évaluation du gradient par rétro-propagation. Il s’agit d’évaluer la dérivée de la fonction coût

en une observation et par rapport aux différents paramètres. Soit : z ki = g(αk0 + α’k0 xi)

et zi = {z1i , . . . , zqi }.

Les dérivées partielles de la fonction perte quadratique s’écrivent :

Les termes δi et ski sont respectivement les termes d’erreur du modèle courant à la sortie et

sur chaque neurone caché. Ces termes d’erreur vérifient les équations de rétro-propagation :

ski =

Ces les termes sont évalués en deux passes. Une passe avant, avec les valeurs courantes des

poids : l’application des différentes entrées xi au réseau permet de déterminer les valeurs

ajustées . La passe retour permet ensuite de déterminer les δi qui sont rétro-propagés

afin de calculer les ski et ainsi obtenir les évaluations des gradients.

Pour faire décroître Q on applique un algorithme itératif du gradient modifiant les poids de

chaque neurone selon :

est un taux d’apprentissage à déterminer par l’utilisateur

Page 45: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 33

3.4.5. Conclusion.

Les réseaux de neurones sont des algorithmes qui permettent à partir de l'expérience de

déterminer la relation entre les caractéristiques d'un des emprunteurs et leur probabilité de

défaut. Cette technique prend en compte l’effet de non-linéarité entre la variable à expliquer et

les variables explicatives. Sa modélisation et l’interprétation de ces résultats peuvent être

complexes. [22]

Page 46: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 34

3.5. Les arbres de décision.

Les arbres de décision sont un des outils les plus importants du Data Mining en raison de la

lisibilité de leurs résultats et de la simplicité des interprétations.

Un arbre de décision permet de discriminer une variable réponse continue, ou

qualitative avec K (K ≥ 2 classes) à partir de P variables explicatives X1,… , X

P continues

et/ou qualitatives.

Lorsque la variable Y est quantitative, on parle d’arbre de régression ; si elle est qualitative

(dans notre cas bon ou mauvais payeur), on parle d’arbre de décision ou de classification.

Un arbre de décision est un graphe orienté (sans cycle) dont les nœuds correspondent aux

variables, les arcs représentent les modalités d’une variable prédictive. Un nœud terminal est

appelé feuille et évoque une classe.

La construction de l'arbre maximal consiste à répartir les individus d'une population

(échantillon d'apprentissage) en K classes prédéfinies (le plus souvent K = 2). Cette répartition

est effectuée selon la variable explicative la plus discriminante c’est-à-dire celle qui sépare le

mieux les individus de chaque classe. La règle de division d'un nœud (segment) dépend de la

nature statistique de la variable explicative: si par exemple la variable est binaire une seule

division est possible.

Ce processus de répartition est répété localement sur chaque nœud de l’arbre jusqu’à

l’obtention de feuilles pures.

L'arbre maximal est atteint si un critère d'arrêt de division de l'arbre est satisfait ou la division

n’est plus possible (un seul individu dans chaque nœud ou tous les individus sont identiques).

Les performances de prédiction dépendent directement de la taille de l’arbre et du choix des

variables explicatives au niveau du nœud en construction. Pour optimiser les performances au

niveau de ce nœud, des critères de séparation dépendant des variables explicatives permettent

d’effectuer le choix des variables pertinentes. Parmi les critères les plus fréquemment utilisés,

on cite [13]:

L’indice de Shannon : appliqué à tout type de variables explicatives ;

L’indice de Gini : appliqué par l’algorithme CART donnant des arbres binaires et

permettant de sélectionner les variables explicatives de tout type.

Page 47: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 35

Le test du khi-2 : utilisé avec la méthode CHAID qui permet de construire des

arbres de décision non-binaires utilisant des variables prédictive de type qualitatives

ou discrètes.

Une fois l'arbre maximal obtenu, on procède à une phase d'élagage qui consiste à tester

chaque sous arbre en utilisant un échantillon test différent de l'échantillon d'apprentissage.

Cette phase permet de construire l’arbre optimal en supprimant les segments les moins

informatifs ; le sous arbre "optimal" est celui qui minimise le taux d'erreur déterminé en

utilisant l'échantillon test.

Page 48: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 36

3.6. Les Support Vector Machine (SVM).

C’est une technique de data mining ayant réalisé des performances meilleures que les

méthodes statistiques traditionnelles en matière de classification. Elle est d’utilisation récente

dans le domaine de crédit scoring. Elle peut être utilisée dans les cas de séparation linéaire ou

non linéaire entre classes.

Pour le cas de la classification linéaire, et si les observations sont linéairement séparées, la

méthode permet de séparer les individus en deux classes par une frontière linéaire. Cette

frontière est un hyperplan optimal qui garantit une grande marge de séparation entre deux

classes.

Fig11 : Exemple de deux classes linéairement séparables par SVM. [5]

On cherche l’hyperplan d'équation : X +b qui maximise la marge entre les deux

classes et où {-1, +1} est l'étiquette de la classe associée à une donnée (avec t=1, ...,

N) est le vecteur de données et est le vecteur des poids associé à X.

Il suffit de trouver solutions du problème d’optimisation convexe.

Page 49: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 37

La distance d’un point au plan est donnée par :

Maximiser la marge de séparation revient à minimiser sous contraintes :

sous ;

- 1

Où : représentant les N données d’apprentissage

et {-1, +1}

La règle de classification se fait selon le signe de + b alors :

Si + b ≥ 0 alors

Si + b 0 alors

Page 50: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 38

3.7. Comparaison des différentes techniques de scoring.

Technique de

scoring

Avantages Inconvénients Règle de classification

Analyse

discriminante

- Des prédictions explicites.

- Un résultat analytique direct.

- Des calculs très rapides.

- Ne nécessite pas un

échantillon de grande taille

- Tient compte des variables

qualitatives

- Variables explicatives

continues et sans valeurs

manquantes.

- Sensible aux individus hors

norme.

-Absence de tests statistiques

de significativités des

coefficients.

Score d’appartenance à une

classe

Régression

PLS

- Utilisable en présence de

dépendance entre les variables.

- nbre de variables peut être

supérieur au nombre d’obs.

- L'algorithme de la régression

PLS est simple et rapide sans

inversion, ni diagonalisation de

matrices.

- meilleure prédiction

- Efficace sur un grand volume

de données.

-Possibilité de présence de

valeurs manquantes

- nécessité d'adapter au cas

d'une réponse binaire -PLS-

DA ou logistique PLS;

- Calculs supplémentaires

pour obtenir des erreurs

standards sur les coefficients.

Score d’appartenance à une

classe

Régession

logistique

- Variables explicatives

discrètes, qualitatives ou

continues.

- Variables à expliquer ordinale

ou nominale.

- Pas d'hypothèses de

multinormalités, ni

d'homoscédasticités pour les

variables explicatives.

- possibilité de prise en compte

les interactions entre variables.

-Les variables explicatives

doivent être non colinéaires.

- Calcul itératif plus long

qu'une analyse discriminante

de Fisher.

- La précision est moindre que

celle de l'analyse

discriminante.

- La régression logistique ne

converge pas toujours vers une

solution optimale.

Probabilité que

l’évènement se produise

Réseaux de

neurones

- Modéliser des relations non

linéaires entre les données.

- Modéliser des problèmes de

différents types.

- Résiste aux données

défectueuses.

- Les résultats non explicites,

difficile à comprendre

- Le risque de sur-

apprentissage.

- traite un nombre faible de

variables.

- non garantie de la

convergence vers la meilleure

solution globale .

Affecter l'appartenance

des individus aux classes

définies.

Page 51: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 3 :Les Méthodes Utilisées pour Le Scoring.

Page 39

Arbres de

décision

- Résultats exprimés sous

forme de condition explicites

sur les variables d'origine.

- Les variables explicatives

peuvent ne pas suivre des lois

probabilistes particulières.

- Les arbres ne sont pas affectés

par les individus hors norme.

- Prise en ciompte les données

manquantes.

- Variables : continues,

discrètes et qualitatives.

- Utilisation simple.

- La détermination des noeuds

du niveau (n+1) dépend

fortement du noeud précédent

(n).

- L'apprentissage d'un arbre de

décision nécessite un nombre

assez grand d'individus.

- Le score d'un individu

dépend de la feuille à laquelle

le conduisent les valeurs de ses

prédicteurs.

Associer une observation

à l'attribut attaché à la

feuille à laquelle il

appartient.

Support Vector

Machine

- Capacités à modéliser les

phénomènes non linéaires.

- Précision de prédictions dans

certains cas.

- Résultats non explicites.

- Difficulté des choix des

paramètres.

- Temps de calcul longs.

- Risque de sur-apprentissage.

- Programmable sur peu de

logiciels.

Estimation d'une

frontière de classification

et l'affectation d'un

individu à une classe se

fait par rapport à sa

position à cette frontière.

Fig.12 : Récapitulatif des avantages et inconvénients des techniques de scoring. [14]

3.8. Conclusion.

Les techniques de scoring donnent le même niveau de risque pour deux individus qui

présentent les mêmes caractéristiques ; leur pondération dans la fonction de score est obtenue

à partir de l’échantillon des données archivées ; ceci exclue l’influence de tout jugement

subjectif.

C’est pourquoi le choix des variables décrivant les caractéristiques des individus est d’une

grande importance ; celles-ci doivent être les plus pertinentes et significatives possible.

Page 52: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4

Construction Du

Modèle de

Scoring

Page 53: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 40

Introduction.

Ce chapitre sera consacré à la construction d’un modèle de scoring ; l’implémentation est

réalisée en utilisant le langage Python.

4.1. Présentation du langage Python.

Python est un langage de programmation très puissant, il est idéal pour l’écriture de scripts et

le développement rapide d’applications dans des domaines très variés.

Développé à l'origine par Guido van Rossum en 1991 (Pays Bas).

Fin 2008 : sorties simultanées de Python 2.6 et de Python 3.

Il est maintenu par une communauté importante de développeurs contribuant à son évolution.

4.1.1. Principales caractéristiques du langage Python

C’est un langage Open Source ; Python est libre et gratuit même pour les usages

commerciaux. De nombreux outils standards sont disponibles.

Python est facile à apprendre et à utiliser. C’est un langage de scripts, il permet également de

créer des applications fonctionnelles rapidement et avec peu d’efforts.

C’est un langage interprété ; de nombreux interpréteurs interactifs sont disponibles.

Il est orienté objet mais la POO n’est pas obligatoire, il dispose d’outils permettant également

la programmation fonctionnelle ou impérative.

C’est un langage très ouvert, il dispose de plusieurs interfaces avec C/C++/FORTRAN.

Python possède une excellente portabilité ; il fonctionne sur tous les principaux systèmes

d’exploitation et plateformes informatiques : sur les différentes variantes d'Unix, sur

MacOS, BeOS, NeXTStep, MS-DOS et les différentes variantes de Windows.

De nombreux modules sont disponibles à partir de bibliothèques et librairies optimisées

écrites en C, C++ ou FORTRAN.

Outre les modules intégrés à la distribution standard de Python, on trouve des bibliothèques

dans tous les domaines : scientifique ; bases de données; tests fonctionnels et contrôle de

qualité ; graphisme 2D et 3D; etc…

4.1.2. Environnement de développement pour Python.

SPYDER ( Scientific PYthon Development EnviRonment) à usage scientifique de

Python, doté de fonctionnalités avancées et intègre de nombreuses

bibliothèques d'usage scientifique : Matplotlib, NumPy, SciPy et IPython. [24]

Page 54: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 41

Fig.13 : la page de l’environnement Spyder pour Python. [24]

JUPITER Notebook : L'interpréteur IPython (versions 0.12 à 3.x) offre la

fonctionnalité notebook qui permet de créer des documents interactifs composés de

code Python. [24]

Fig.14 : la page de l’environnement Jupiter pour Python. [24]

Page 55: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 42

4.1.3. Principaux modules et bibliothèques utilisés dans nos programmes.

Pandas : est une bibliothèque qui permet de manipuler facilement des données à analyser :

manipuler des tableaux de données avec des étiquettes de variables (colonnes) et

d'individus (lignes).

ces tableaux sont appelés Data Frames ; on peut facilement lire et écrire ces data

Frames à partir ou vers un fichier tabulé ou tracer des graphes grâce à matplotlib.

NumPy : Cette bibliothèque permet d’effectuer des calculs numériques avec Python. Elle

introduit une gestion facilitée des tableaux de nombres.

Matplotlib : permet de générer directement des graphiques à partir de Python dans beaucoup

de formats différents. C’est une librairie très puissante, compatible avec beaucoup de

plateformes.

Seaborn : est une bibliothèque qui vient s'ajouter à Matplotlib et lui ajoute de nouvelles

fonctionnalités pour corriger des défauts (dans les versions avant la 2.0 ) de Matplotlib et

permet de :

Générer des graphiques d'une grande qualité esthétique.

Créer facilement des analyses statistiques sophistiquées.

D’interagir avec les Data frames de Panda.

Scipy : est une bibliothèque pour les calculs techniques et scientifiques. Elle regroupe des

modules pour les tâches de science des données et d’ingénierie : l’algèbre, l’interpolation, le

FFT, ou le traitement de signaux et d’images.

Scikit-learn : Scikit-learn est très utile pour les algorithmes de classification, de régression ou

de clustering.

Cette bibliothèque de Machine Learning pour Python se révèle complémentaire pour les

autres bibliothèques telles que NumPy et SciPy.

Keras. C’est la bibliothèque de Deep Learning Python. C’est une API qui permet

d'interagir avec les algorithmes de réseaux de neurones profonds et de machine learning,

Page 56: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 43

notamment Tensorflow et Theano. Elle est conçue comme une séquence ou un graphe de

modules autonomes, complètement configurables et qui peuvent être reliés les uns aux autres

avec le minimum de restrictions possible : les couches de neurones, les fonctions de coût, les

optimiseurs, les fonctions d’activation… sont tous des modules indépendants que l’on peut

combiner pour créer de nouveaux modèles.

4.2. Construction du modèle de scoring.

La construction de notre modèle doit respecter les différentes étapes décrites au chapitre 2 :

4.2.1. Choix et description des données de l’échantillon.

En absence de la disponibilité de données réelles auprès des structures bancaires locales, nous

avons opté pour un jeu de données disponible dans la littérature [23]. Ce jeu de données est

un échantillon de 614 observations se rapportant à l’historique de paiement de crédits

bancaires de particuliers ; chaque individu (client) est décrit à l’aide de 13 caractéristiques

(variables). Ces données sont regroupées dans un fichier CSV ; le tableau ci-dessous montre

les dix premiers éléments de ce fichier.

Fig.15 : Extrait des données de l’échantillon.

Page 57: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 44

La première ligne du fichier des données indique le nom de chacune des variables :

NOM VARIABLE TYPE CODIFICATION

Loan_ID Identification Qualitative Code d’identification

Gender Genre Qualitative Male, Female

Married Marié ou non Qualitative Yes, No

Dependents Enf. à charge Qualitative 0, 1, 2, 3+

Education Formation Qualitative Graduate, Not Graduate

Self_Employed Activité Qualitative Yes, No

ApplicantIncome Revenu Continue Numérique

CoapplicantIncome Revenu Conjoint Continue Client's Husband/wife income

LoanAmount Mt. Du credit Continue Numérique

Loan_Amount_Term Echéance du prêt Continue Numérique

Credit_History Hist. Du credit Continue Numérique

Property_Area Zone d’habitation Qualitative Semi-urban, Urban, Rural

Loan_Status Statut Qualitative Yes, No

Fig.16: Liste des variables

4.2.1.1. Description quantitative des données.

L’état récapitulatif des données est obtenu par :

Page 58: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 45

Ci-dessous ; un état récapitulatif des données manquantes pour chacune des variables.

Données manquantes.

4.2.1.2. Prise en compte des dopnnées manquantes

Pour la prise en compte de ces données manquantes, on procèdera comme suit :

Suppression de la ligne si le montant du prêt est manquant.

Remplacer la donnée manquante pour :

- ‘Genre’ : par celle qui précède.

- ‘Maried’ : par No si ‘CoapplicantIncome’ et ‘ Dependents’ sont égaux à

zero ; sinon par Yes

- ‘dependents’: par 0

- ‘self_employed’: par Yes

- ‘loan_terme’ : par la valeur médiane de la variable ‘loan terms’

- ‘credit history’ : par 0

4.2.1.3. Visualisation des données.

Pour chacune des variables, on visualise à l’aide d’un graphique la répartition des données par

modalité de cette variable. Pour la variable : Loan_Status, on obtient la représentation

suivante :

Page 59: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 46

Fig.17 : Visualisation de la variable ‘Loan_status’

Les coefficients de corrélation de chacune des variables avec la variable à prédire triés par

ordre décroissant sont donnés par :

Page 60: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 47

Fig.18 : Représentation de la matrice des coefficients de corrélation.

4.2.2. Choix des variables explicatives et de la variable à expliquer.

Avant de fixer définitivement le choix de nos variables, un complément de traitement sur les

données de notre échantillon est nécessaire :

Les variables ‘ApplicantIncome’ et ‘CoapplicantIncome’ sont fusionnées en une

seule dans la colonne ‘applicantIncome’.

La variable ‘Self_Employd’ est éliminée car elle présente une corrélation très faible

soit : 0.005955

Page 61: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 48

Une normalisation des données est nécessaire pour obtenir le même ordre de grandeur

pour toutes les variables.

On rééquilibre l’échantillon pour obtenir les mêmes effectifs dans chacune des deux

modalités de la variable cible.

4.2.3. La Méthode utilisée.

Nous avons opté pour l’utilisation de deux méthodes différentes pour la construction

de notre modèle : La régression logistique et les réseaux de neurones. Notre choix est

intuitif dans la mesure où nous avons voulu présenter une méthode aboutissant à une

fonction score (la régression logistique) et une méthode de décision ou de classement

(les réseaux de neurones).

4.2.3.1. La régression logistique.

Pour notre cas, les conditions d’utilisation de la régression logistiques sont réunies,

soit une variable à expliquer binaire et des variables explicatives quelconques : des

variables continues et des variables qualitatives.

Nous devons importer le module : LogisticRegression et les modules accuracy_score,

f1_score, precision_score, recall_score et roc_auc_score qui vont permettre le calcul

des paramètres d’évaluation de la qualité du modèle

Page 62: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 49

l’apprentissage du modèle s’effectue avec les instructions :

Edition des résultats :

On procède à l’édition des paramètres qui vont nous permettre d’apprécier la qualité

du modèle et l’édition des coefficients de la fonction score.

Les coefficients des 9 variables explicatives dans la fonction score.

L’évaluation de la qualité du modèle est effectuée à l’aide de la matrice de confusion

Page 63: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 50

Et de la courbe ROC

4.2.3.2. Les Réseaux de Neurones.

Pour l’exécution du modèle des réseaux de neurones, nous devons importer les modules de

la librairie Kerasqui permet de définir le réseau de neurones

L’apprentissage est réalisé grâce aux instructions :

Page 64: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 51

Les résultats et la qualité du modèle sont obtenus par :

Page 65: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 52

L’instruction [49] nous permet de regrouper les résultats des deux méthodes pour pouvoir

porter un jugement ; on constate que les deux méthodes sont sensiblement identiques.

On constate que l’accuracy et F1 Score pour la régression logistique sont respectivement

égaux à 0.7289 et 0.80 alors que pour les réseaux de neurones sont respectivement égaux à

0.7422 et 0.8284 ; ce qui nous permettra de conclure que la méthode des réseaux de

neurones présente un léger avantage par rapport à la méthode de régression logistique.

4.2.4. Utilisation du modèle.

Les deux modèles construits ont été conservés et seront utilisés et appliqués à de nouveaux

demandeurs de crédits, on a conçu une interface pour l’introduction des caractéristiques du

demandeur et on lance l’exécution des modèle (la régression logistique et les réseaux de

neurones) en cliquant sur la touche CALCULE, la décision sera par le modèle, ensuite elle

est affichée comme indiqué par la figure 20 sous la forme : Bon Payeur ou Mauvais

Payeur.

Page 66: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Chapitre 4 : Construction Du Modèle de Scoring.

Page 53

Fig.19 : Entrée des données pour le modèle

Fig.20 : Visualisation du résultat

Page 67: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

Conclusion.

Dans un environnement qui est toujours en évolution ; les banques doivent s’adapter pour

rester compétitives. Elles doivent tout le temps accorder une grande importance à la maîtrise

du risque de non recouvrement.

D’un côté, les banques sont soumises à une règlementation stricte des instances financières et

de l’autre côté, elles agissent dans un environnement concurrentiel ; elles doivent donc tout le

temps évoluer et améliorer leurs techniques de gestion du risque de crédit pour rester

compétitives.

Des modèles automatiques de notation de plus en plus performants sont développés ; ils

permettent aux banques de donner des réponses rapides aux demandes d’octroi de crédits.

Ce mémoire présente un ensemble de méthodes de gestion du risque de crédit au sein des

établissements bancaires ; mais les banques doivent toujours rester attentives pour s’adapter

aux mutations dans le secteur et adopter de nouvelles techniques de gestion qui se

développent et qui leur permettent de rester compétitives et efficaces.

Page 68: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

BIBLIOGRAPHIE.

[1] R. Partners, Risque bancaires et contrôle interne :

https://www.abef-dz.org/abef/sites/default/files/3.pdf

[2] Wikimemoire.net/Définition-Risque-Bancaire/2011/05

[3] M.Dubernet, Gestion de crédit –Actif-Passif et Tarification de service Bancaire,

Economica 1997

[4] B. Samir et B. Moussa. Gestion du risque de crédit par la méthode du crédit scoring :Cas

de la BNA de Béjaia, 2013

[5] R. Sublet. La gestion du risque de crédit bancaire sur les portefeuilles professionnels et

particuliers, 2016

[6] A. Riad et B. Boussaad. La réglementation prudentielle et la performance du système

bancaire Algérien, 2013/2014

[7] A.M. Percie Du Sert, ‘Risque et Contrôle de Crédit’ Edition ECONOMICA 1999

[8] M. Dietch et J.Petey, ‘Mesure et Gestion du Risque de Crédit dans les Institutions

Financières’ Revue Banque 2003

[9] A. El Hamma, ‘La Gestion du Risque de Crédit par la Méthode de Scoring : Cas de la

Banque de Rabat-Kenitra’, 2008

[10] B.GHILLOT, La méthode des scores intérêt et limites. Revue banque N°468,1987

[11] Ricco Rakotomalala, Pratique de la Régression Logistique/ Régression Logistique

Binaire et Polytomique,(Version 2.0), 2009

[12] G. Celeux, J.P. Nakache, Analyse Discriminante sur Variables Qualitatives,

Polytechnica, 1994.

[13]Revue d’Economie et de Statistique Appliquée. Numéro 21 Juin 2014

[14] T. George Colince, ‘Evaluation Statistique du Risque de Crédit par la Technique du

Scoring ‘( Afriland Fist Banque), 2006/2007

[15] WWW.Africmemoire.com/Le-Risque-De-Crédit: Identification-Et-Evaluation

[16] http//groupe-sma.fr/SGM/upload/docs/application/pdf2017-07/informations relatives au

pilier – III-de –Bale3-31-12-2016

[17] https://www.Etudier.com/dissertations/la-gestion-du-risque-de -crédit

[18] https://www.recherchecliniquepariscentre.fr/wp-content/uploads/2012/12/Diagnostic-

DIU-2012_elie.pdf

Page 69: Année Universitaire : 2018/2019bib.univ-oeb.dz:8080/jspui/bitstream/123456789/8834/1/Finale.pdf · Remerciments Avant tout, je remercie Allah pour toute l’aide,, la patience et

[19] https://www.recherchecliniquepariscentre.fr/wp-content/upload/2012/12

[20] https://lemakistatheux.wordpress.com/category/outils-danalyse-supervisee/la-regression-

logistique/

[21] https://lemakistatheux.wordpress.com/category/outils-danalyse-supervisee/lanalyse-

discriminante-de-fisher/

[22]https://www.gsaf/reseau+de+neurone+et+scoring-présentation+reseau+de+neurone+et

+scoring.

[23] https://www.kaggle.com/sajidvali/loan-prediction

[24] https://enacit1.epfl.ch/introduction-python/outils-python.html