Machine intelligente d’analyse financiere

Preview:

Citation preview

MACHINE INTELLIGENTE D’ANALYSE FINANCIÈRE

Réalisé par: Sabrine MASTOURA

Encadrant ENICarthage: Mr. Walid BARHOUMIEncadrante CIMF : Mme. Wahiba BEN FREDJ

2015-2016

Projet de Fin d’ ÉtudesSoutenu le 29/06/2016

PLAN

Cadre général du projet Apprentissage automatique Compréhension du marché Compréhension des données Préparation des données Modélisation Évaluation Conclusion et perspectives

CADRE GÉNÉRAL DU PROJET

1

Fraudeur

Mesures anti-fraude

Contrôle

Etat tunisien

Recettes fiscales

CADRE GÉNÉRAL DU PROJET

2

DECISIONEL

SINDA

TGT

SADEC

RAFIC

PGT

ADEB

Apprentissage

automatique

CADRE GÉNÉRAL DU PROJET

3

« Connect »Une détection des

incohérences dans les

déclarationsfiscales

Une luttecontre

l’escroquerie à la TVA

« Redditometro »Une comparaison

sommairedes revenues

déclarés et l’estimation

des dépenses

CADRE GÉNÉRAL DU PROJET

4

CRISP-Dm 1.0: Cross-Industry Standard Process

APPRENTISSAGE AUTOMATIQUE

5

Programmationtraditionnelle

Données

Résultats

Algorithmes

Apprentissageautomatique

Résultats

Données

Algorithmes

APPRENTISSAGE AUTOMATIQUE

6

Apprentissage

automatique

Apprentissage

non supervisé Régression

Classification

Apprentissage

supervisé

Valeurdu

redressement

Détection de la fraude

APPRENTISSAGE AUTOMATIQUE

7

P(X,Y)

(X,Y)

X Y'

MinimiserY-Y'

Y

Fonction

de coût

Apprentissage

automatique

( )h X( )h X

0 1 1( ) ... n nh X x x

Pour un modèle linéaire, la fonction hypothèse est:

2( )

0 11

( )1( , ,.., ) ( ( ) )2

im

inJ y

mh x

Ces paramètres inconnues minimisent la fonction de coût: i

( ) ( ) ( )

1

1: ( )( ) i ij j j

im

répéter y xm

h x

Le choix des paramètres se fait par l’algorithme de descente de gradient:i

APPRENTISSAGE AUTOMATIQUE

8

Sélection du modèle :

Régression :

Jeu de données = base d’apprentissage (70%) + base de test (30%)

• Choisir le modèle qui minimise la fonction de coût de test

sous-apprentissage

bon modèle

sur-apprentissage

• Détecter des anomalies d’apprentissage

• Choisir les paramètres minimisant la fonction de coût d’apprentissage i

VraiPositive

(VP)

FauxNégative

(FN)Faux

Positive(FP)

VraiNégative

(VN)

Classe prédite Positive Négative

Clas

se ré

elle

Néga

tive

Po

sitiv

e

Précision=VP / (VP+FP)

Classification :

Rappel= VP/(VP+FN)

COMPRÉHENSION DU MARCHÉ

9

PétroleAvocats

Médecins

Architectes

Généraliste

Pédiatre8

Secteurs

694Activités

156Sous

secteurs

PersonnesPhysiques

PersonnesMorales

80% de la

massesalariale

COMPRÉHENSION DU MARCHÉ

10

DGI

Centre de

contrôleBureau

de contrôle Bureau

de contrôle

DGEVérificationsapprofondies

Vérificationssommaires

Redressementsapprofondis

Redressementssimples

COMPRÉHENSION DU MARCHÉ

11

COMPRÉHENSION DES DONNÉES

12

DécisionnelAnalyse des risques

decsoc

132 Mo

dectva

73,2 Mo

agrpay 547 Mo

sitfis

17 Go

cnss

506 Mo

entreprise

1 Go

resvap

186 Mo agranx

1,66 Go

actagr

338 Moagrtva

567 Mo

asinda

251 Mo

nomimp

4Ko

decird

164 Mo

decirp

163 Mo

COMPRÉHENSION DES DONNÉES

13

Contrôle des donnéesTypes des donnéesErreurs de saisieVolumes des fichiers

Sitfis 17 Go 0.61 Go

COMPRÉHENSION DES DONNÉES

14

Somme des tva chiffre d’affaire par année Somme des redressements par année

Nombre des enregistrements par année

Pairplot de l’échantillon 2011

PRÉPARATION DES DONNÉES

15

Critères dedétection

de la fraude

decsoc

decirp

Jointuregauche

CritèresPhysiqu

e+

Données Physiqu

e

Jointuregauche

Critèresmorales

+Données morales

.pkl Personnes physiques

172 005 enregistrements355 variables

.pkl Personnes morales

2 394 enregistrements358 variables

PRÉPARATION DES DONNÉES

16

Nettoyage des données :

Normalisation des données :

iixx

Écart-type

Moyenne de X

Examiner manuellement les données.

Eliminer les valeurs manquantes : • Champs équivalents

• Valeurs significatives• 0

PRÉPARATION DES DONNÉES

17

Augmentation du nombre des enregistrements

Unicité: Identifiant & Année N: Non redevable R: En règle D: En défaut

012

PRÉPARATION DES DONNÉES

18

Binarisation

MODÉLISATION

19

Régression linéaires :

0 1 1( ) ... n nh X x x

Coefficientsestimateurs

X1 ...Xn

Yi

Modèle élémentaire de la modélisation linéaire

Estimation de la relation entre Y et

La recherche d’un modèle de prévision de Y en fonction de X. 1( ,..., )nX X

MODÉLISATION

20

Régression ridge :

Eviter le sur-apprentissage.

Simplifier la fonction hypothèse.

Ajouter un terme de régularisation

( ) 2 21

1 1

1( ,..., ) ( ( ) ) ( )2

m mi i

n ji j

J h x ym

terme de régularisation

Paramètre derégularisation

MODÉLISATION

21

Réseau de neurones (NN) :

nx

11

.

.

.

.

.

.2x

1x( )h x

couche entrée couche cachée couche de sortie

nx

11

Perceptron multicouche (MLP) :En propagation

jia

( )j( 1)j

1 1

( )j ji i

j j ji i

a g z

z a

i-1

i

i+1 j-1 j

j+1 En rétro propagation( ) ( ) ( 1) ' ( )( ) .* ( )

j ji i i

j j T j j

a y

g z

ji

( )j

MODÉLISATION

22

Machine à vecteurs de support (SVM) :

Vecteurs de supportHyperplan optimal

Marge maximale

Appliquer un noyau

Recherche de la marge de séparation maximale.

augmenter la dimension de l’espace de représentation des données d’entrées.

MODÉLISATION

23

Forêts d'arbres décisionnels :

arbre 1 arbre 2 arbre n

k 1 k 2 k n

vote

k

ÉVALUATION

24

La modélisation linéaire :

« LinearRegression » «Ridge »

Objectif :

• Estimation de la valeur du redressement approfondie

• Estimation de la valeur du redressement simple

Mini Small Medium Large Xlarge[0 , 100K[ [100K ,

1M[[1M , 10M[ [10M ,

25M[[25M , Inf.[

• Découpage des contribuables selon les chiffres d’affaires

ÉVALUATION

25

Régression linéaire :

Estimation du redressement simplepour la catégorie Xlarge

Estimation du redressement approfondiepour la catégorie MEDIUM

ÉVALUATION

26

Régression ridge :

Estimation du redressement simplepour la catégorie Xlarge

Estimation du redressement approfondie

pour la catégorie Medium

ÉVALUATION

27

La modélisation non linéaire :

Objectif:

• Classifier l’intervalle de la fraude

• Variable cible = redressement simple + redressement approfondi

[0 , 1 000[ [1 000,3 500[ [3 500,10 000[

[10 000,30 000[

[30 000,60 000[

[60 000,Infinie[

• Découper les contribuables selon la catégorie

«Multi Layer Perceptron » «Support Vector Classifier » « ExtraTreeClassifier »

ÉVALUATION

28

Réseau de neurones :

Le rapport de classification

Les paramètres

ÉVALUATION

29

Réseau de neurones :

Les paramètres

Le rapport de classification

ÉVALUATION

30

Machine à vecteurs de support : Les paramètres

Le rapport de classification

ÉVALUATION

31

Machine à vecteurs de support :

Les paramètres

Le rapport de classification

ÉVALUATION

32

Forêts d'arbres décisionnels : Les paramètres

Le rapport de classification

ÉVALUATION

33

Forêts d'arbres décisionnels :

Le rapport de classification

Les paramètres

CONCLUSION ET PERSPECTIVES

34

Réseau de neurones

• 41%• 30%

Machine à vecteurs de

support

• 42%• 31%

Forêts d’arbres décisionnels

• 46%• 42%

Personnephysique Personne

morale

MERCI POUR VOTRE ATTENTION

35