View
214
Download
0
Category
Preview:
Citation preview
Avenue du Parc 95 011 Cergy-Pontoise CEDEX
17 Place des Reflets 92 097 Paris La Défense CEDEX
Stage de fin d’études d’ingénieur
Conception de la solution datamining
d’un SI bancaire Du 18/04/2011 au 17/10/2011
Présenté par : Eliane Tchiengue
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
2
Remerciements
Tout d’abord des remerciements à Jérôme CAMUS pour m’avoir acceptée dans ses
équipes, me donnant ainsi l’opportunité de faire un stage intéressant au sein d’une
entreprise de taille importante.
Des remerciements également à Sarah MARCHAND, Clara SPRIET et Habibatou
KEITA pour l’encadrement qu’elles m’ont destiné tout au long de ce stage.
Des remerciements particuliers à tous les membres des chantiers Données et
Architecture pour leur accueil chaleureux, c’était agréable de travailler auprès de
vous.
Et pour finir, un merci aux membres de l’administration de Logica qui ont aidé à ce
que ce stage se déroule dans de bonnes conditions.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
3
Sommaire
1 Contexte ............................................................................................................ 11
1.1 Logica, acteur majeur du service informatique ........................................... 11
1.1.1 Historique .............................................................................................. 13
1.1.2 Organisation .......................................................................................... 13
1.1.3 Les principaux partenaires de Logica ................................................... 14
1.2 ITS .............................................................................................................. 15
1.3 BDM – BI .................................................................................................... 16
1.4 Présentation du client et du projet .............................................................. 18
1.4.1 Présentation générale du groupe Crédit Agricole ................................. 18
1.4.2 Les caisses régionales (CRs) en France .............................................. 18
1.4.3 Le projet NICE ...................................................................................... 19
1.5 Observations personnelles ......................................................................... 22
1.6 Intégration au sein de l’entreprise .............................................................. 23
2 Le chantier Etudes&Datamining ........................................................................ 24
2.1 Le datamining ............................................................................................. 24
2.2 Objectifs ..................................................................................................... 24
2.3 Les données ............................................................................................... 24
2.4 Les besoins et exigences du Crédit Agricole .............................................. 26
2.4.1 Les besoins fonctionnels ....................................................................... 26
2.4.2 Les exigences ....................................................................................... 26
2.5 Les solutions apportées ............................................................................. 30
2.5.1 Les usages couverts par le chantier Etudes&Datamining ..................... 30
2.5.2 Les études ............................................................................................ 31
2.5.3 Le datamining ....................................................................................... 31
2.5.4 La solution technique retenue ............................................................... 32
2.6 Organisation ............................................................................................... 38
2.6.1 La méthode CAgile du Crédit Agricole .................................................. 38
2.6.2 Les thèmes des solutions apportées ..................................................... 41
2.6.3 Planning et livrables .............................................................................. 42
3 Un stage orienté conseil en système d’information ........................................... 43
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
4
3.1 Phase de spécification fonctionnelle générale – Cadrage .......................... 43
3.2 Phase de conception détaillée ................................................................... 46
3.2.1 Processus : Temps réel ........................................................................ 46
3.2.2 Cycle de vie des modèles ..................................................................... 49
3.2.3 Scénarios des uses cases .................................................................... 50
3.3 Auto-évaluation et difficultés ...................................................................... 52
3.4 Le stage dans la formation ......................................................................... 52
4 Bilan .................................................................................................................. 53
4.1 Bilan du projet ............................................................................................ 53
4.2 Bilan du travail en équipe ........................................................................... 53
4.3 Bilan personnel ........................................................................................... 53
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
5
Glossaire
Affacturage
L'affacturage (factoring en anglais) est une technique de recouvrement de créances mise en œuvre par les entreprises et consistant à sous-traiter cette gestion à un établissement de crédit spécialisé : l'affactureur ou factor (anglais).
CASA
Crédit Agricole SA est une société anonyme, propriété des Caisses régionales et des
salariés du Groupe. En 2001, CASA est introduit en Bourse mais reste détenue
majoritairement par les Caisses Régionales (44 à l'époque), comme le prévoient les
statuts mutualistes du groupe.
CRM (Customer Relationship Management ou en français GRC, gestion de la
relation client)
Ce système de gestion vise à proposer des solutions technologiques permettant de
renforcer la communication entre l'entreprise et ses clients afin d'améliorer la relation
avec la clientèle en automatisant les différentes composantes de la relation client.
CRM opérationnel
Le marketing relationnel vise à créer et animer une "relation" entre une marque et son marché cible. Le marché cible peut correspondre aussi bien à la clientèle établie qu'aux clients potentiels (prospects).
GINI (Courbe de)
L’indice de Gini est un nombre variant de 0 à 1, où 0 signifie l'égalité parfaite (il y a
autant de bons que de mauvais payeurs) et 1 signifie l'inégalité totale (une personne
est solvable, les autres ne le sont pas). Entre 0 et 1, l'inégalité est d'autant plus forte
que l'indice de Gini est élevé.
LCL
Filiale du groupe Crédit Agricole, LCL est un réseau de banque de détail à forte
implantation urbaine dans toute la France, organisé autour de 4 métiers :
La banque de proximité pour les particuliers
La banque de proximité pour les professionnels
La banque privée
La banque des entreprises
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
6
Lift (Courbe de)
Le lift est le ratio de deux pourcentages: le pourcentage des classifications positives
correctes réalisées par le modèle sur le pourcentage des classifications positives
actuelles dans les données de test.
Par exemple, si 40% des clients d’une enquête marketing ont répondu favorablement
(la classification positive) à une campagne promotionnelle dans le passé et le modèle
prévoit 75% de réponses positives correctes, le lift serait obtenu en divisant 0,75 par
0,40. Le lift résultant serait 1,875.
Le Lift est habituellement utilisé pour mesurer la performance des modèles de
réponse. Le but d’un modèle de réponse est d’identifier les segments de population
avec les concentrations les plus élevées de réponses positives à une campagne
marketing. Le lift donne la quantité de population à solliciter pour obtenir le
pourcentage le plus élevé de réponses potentielles.
Lightweight Directory Access Protocol (LDAP)
En français « protocole d’accès aux annuaires légers », c’est un protocole standard
permettant de gérer des annuaires, c'est-à-dire d'accéder à des bases d'informations
sur les utilisateurs d'un réseau par l'intermédiaire de protocoles TCP/IP.
Marketing relationel
Le marketing relationnel vise à créer et animer une "relation" entre une marque et son marché cible. Le marché cible peut correspondre aussi bien à la clientèle établie qu'aux clients potentiels (prospects).
Ordonnanceur
Dans les systèmes d'exploitation, l’ordonnanceur désigne le composant du noyau du
système d'exploitation qui choisit les processus qui vont être exécutés par les
processeurs d'un ordinateur.
PMML
Predictive Model Markup Language ou PMML est un langage de marquage basé sur XML conçu pour définir des modèles de données et visant à rendre interopérables les systèmes de datamining.
ROC
La courbe ROC est un outil d’évaluation et de comparaison des modèles datamining.
Score d’octroi
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
7
Formule mathématique permettant d’évaluer la probabilité qu’une entité (client,
compte, foyer, …) présente un risque futur de non règlement de ces créances, sur la
base des caractéristiques de cette entité. On distingue des formules effectuant une
évaluation ponctuelle de ce risque, à l’étude de l’ouverture d’une nouvelle ligne de
crédit (Scores d’octroi) et celles effectuant une évaluation répétée et dynamique de
ce risque pour un compte ouvert, généralement sur la base de son comportement
historique (Scores de comportement).
Script batch
Par abus de langage, un fichier batch est, sous le système d'exploitation Windows,
un fichier (ou script) contenant une série d'instructions DOS.
TERADATA
Teradata est un constructeur et un éditeur de solutions informatiques spécialisées en
matière d’entrepôt de données et d’applications analytiques.
UNICA
Unica est un logiciel de l’éditeur IBM conçu pour créer et suivre des campagnes de
marketing multicanaux, analyser les interactions avec les clients, modéliser les
comportements, et segmenter les offres par canal.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
8
Abréviations et sigles
NICE Nouvelle Informatique Convergente Evolutive
CR Caisse Régionale
DWH DataWareHouse
DTM DaTaMart
SBD Service Bureau Datamining
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
10
Introduction
Le monde bancaire concentre ses orientations technologiques autour de trois
objectifs : industrialiser ses activités de cœur de métier, améliorer la relation client et
renforcer la gestion du risque.
Pour réussir à fidéliser un client, il faut le positionner au cœur de l’entreprise, c’est-à-
dire mettre tous les moyens en œuvre pour le comprendre et lui donner un service
fiable. Cela suppose de modifier l’organisation de l’entreprise en fonction de cet
impératif. Le système d’information n’est pas épargné, je dirais même qu'il joue un
rôle primordial dans cette stratégie.
Fidéliser sous-entend connaître le client, c’est-à-dire se souvenir de ses précédents
contacts avec l’établissement, ses achats, ses réclamations etc. Toutes ces
informations sont stockées, quelque part dans les bases de données de l’entreprise
par les différents canaux d’où elles proviennent comme la banque en ligne, les
agences, les distributeurs automatiques etc.
Maîtriser les canaux et les données qui en proviennent afin de transformer cela en
connaissance est un atout considérable pour les banques qui n’hésitent pas à
investir de plus en plus dans leur système d’information.
En effet, cette vision unifiée du client permet de lui offrir une relation personnalisée
quelque soient les canaux.
Ce stage, situé au cœur du projet NICE Datamining du système d’information du
Crédit Agricole, a pour objectif d’apporter des solutions pour la mise en place d’un
outil d’analyse de données et de modélisation datamining qui optimise la
connaissance client.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
11
1 Contexte
1.1 Logica, acteur majeur du service informatique
Logica est la 7ème société de conseil et de services informatiques en Europe et le
4ème acteur français avec près de 9000 personnes réparties sur trois grandes
entités :
Logica IT Services – Intégration de Systèmes
Logica Business Consulting – Conseil en Management
Logica IT Training – Outsourcing
Figure 1 : Présence de Logica dans le monde
Avec près de 40 000 collaborateurs répartis dans 39 pays, Logica totalise un chiffre
d’affaire de 3,7 milliards d’euros en 2010.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
12
Figure 2 : Evolution du chiffre d’affaire de Logica depuis 2003
Logica s’appuie sur ses connaissances approfondies des secteurs, son excellence
en matière de technologies ainsi que sur son expertise en matière de delivery pour
aider ses clients à se positionner en tête de leurs marchés respectifs. Logica est coté
à la Bourse de Londres et d'Amsterdam (LSE : LOG ; Euronext : LOG).
Figure 3 : Répartition des activités de Logica par secteurs
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
13
Figure 4 : Répartition du chiffre d’affaire de Logica par secteur d’activité en France
1.1.1 Historique
Logica est née de la fusion d’entreprises européennes (Royaume-Uni, Pays-Bas,
France) qui lui donne aujourd’hui une ouverture sur le marché international.
Le 27 février 2008, le groupe LogicaCMG, qui opérait depuis le 10 janvier 2006 sous
la marque Unilog en France, annonce l’adoption d’une nouvelle marque à l’échelle
internationale.
1.1.2 Organisation
L’organisation de Logica est sous forme matricielle. Les 4 entités de Logica ont des activités
transverses sur plusieurs secteurs d’activités.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
14
Figure 5 : Organisation de Logica
1.1.3 Les principaux partenaires de Logica
Logica est partenaire de grandes entreprises nationales, européennes et internationales.
Figure 6 : Les principaux partenaires de Logica
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
15
1.2 ITS
À mon intégration chez Logica, j’ai été rattachée à l’entité ITS.
Cette division de Logica avec près de 6 200 ingénieurs et experts en France, est la
plus importante. Elle fait bénéficier les entreprises de sa capacité à faire
communiquer les technologies les plus innovantes avec les systèmes existants.
Cette division accompagne ses entreprises clientes tout au long du processus de
management du système d'information pour :
Développer les technologies
Intégrer ces technologies aux systèmes existants
Anticiper et accompagner les évolutions de plus en plus rapides de
l'environnement technologique notamment via les nombreux centres de
services.
La figure suivante présente l’organisation de la division ITS Paris en fonction des
secteurs ainsi que les effectifs de chaque pôle. Ainsi, le pôle BDM-BI (Business
Intelligence & Data Management) au sein duquel j’ai réalisé mon stage est dirigé par
Stéphane JAUBERT et compte environ 350 collaborateurs.
Figure 7 : Organisation ITS Paris – Nord
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
16
1.3 BDM – BI
Durant mon stage, j’appartenais au pôle BDM-BI : regroupement des métiers de
Business Intelligence et de Data Management.
BDM – BI est responsable des marchés IT consulting, Intégration de système et
Outsourcing.
Les collaborateurs de BDM – BI interviennent chez les clients sur différentes
technologies telles que SAP – Business Objects, IBM Cognos , Oracle, Informatica,
SAS etc.
Figure 8 : Répartition de l’expertise de BDM – BI
Le pôle compte plus de 200 ingénieurs, 15 managers et 10 seniors managers qui
pilotent l’ensemble des projets.
Figure 9 : Effectif de BDM – BI
On distingue 4 profils au sein de BDM – BI. Les collaborateurs sont regroupés dans
des entités en fonction de leur profil.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
17
IT Consulting, qui est constitué des consultants confirmés
Solution Skill, comprenant les ingénieurs débutants
Technical, qui est l’entité des architectes techniques
Delivery, regroupant les gestionnaires de projets
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
18
1.4 Présentation du client et du projet
Dans le cadre de mon stage, j’étais intégrée à une équipe projet de Logica en
prestation au Crédit Agricole.
Notre équipe travaillait pour le Crédit Agricole dans le cadre du projet NICE (Nouvelle
Informatique Convergente Evolutive).
1.4.1 Présentation générale du groupe Crédit Agricole
Avec 160 000 collaborateurs dont le tiers hors de France, le groupe Crédit Agricole
est un acteur majeur de la banque en France.
Crédit Agricole représente 54 millions de clients répartis dans 70 pays et 3,6 milliards
d’euros de résultats net en 2010
Les activités du groupe sont organisées en 4 lignes de métiers :
Organe central : il veille à la cohésion et au bon fonctionnement du réseau, et
représente le Groupe auprès des autorités bancaires.
Banque de proximité : Elle est constituée des caisses régionales, de LCL et
de la banque de détail à l’international
Métiers financiers spécialisés : Ce sont les métiers de gestion d’actifs,
assurances, banque privée, crédit à la consommation, crédit-bail,
affacturage...
Banque de financement et d’investissement : Elle propose à ses clients
une gamme complète de produits et services dans les métiers de la banque
d’investissement, des financements structurés, de la banque de marchés et du
courtage.
1.4.2 Les caisses régionales (CRs) en France
1.4.2.1 Les caisses régionales, 39 banques mutualistes
À fort ancrage régional, les 39 Caisses régionales du Crédit Agricole sont les
banques destinées aux particuliers, agriculteurs, professionnels, entreprises et
collectivités locales.
Elles proposent à ses 20 millions de clients en France des offres d’épargne,
placements et assurance-vie, crédits, moyens de paiement et assurances
dommages.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
19
1.4.2.2 Les systèmes d’information régionaux (SIR)
L’informatique des 39 caisses régionales est répartie en 5 systèmes d’information
communautaires nommés AMT, Atlantica, Comete, Exa et Synergie.
Figure 10 : Répartition actuelle des 5 SIRs du Crédit Agricole
1.4.3 Le projet NICE
1.4.3.1 Enjeux
Afin de répondre aux nouveaux enjeux métiers de la banque de détail et de
l’assurance, les 39 caisses régionales du Crédit Agricole ont décidé de lancer un
programme stratégique de refonte de leur système d’information.
L’intérêt est de fusionner les 5 systèmes informatiques régionaux (SIRs) actuels. Le
nouveau système s’appuiera sur une architecture innovante qui s’inscrira dans une
orientation multi canal et « centrée client ».
Le Crédit Agricole crée ainsi en mars 2010 deux structures - Crédit Agricole
Services, dédiée à la maîtrise d’ouvrage et Crédit Agricole Technologies, dédiée à la
maîtrise d’œuvre – pour la réalisation du projet NICE (Nouvelle Informatique
Convergente Evolutive).
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
20
L’objectif de la future architecture du système d’information urbanisé est de
contribuer à fluidifier les relations entre les clients et les conseillers, en créant une
expérience client plus simple, plus transparente et continue quels que soient les
canaux.
Les nombreux chantiers que le projet comporte mobilisent quelque 2000 personnes.
Logica travaille en étroite collaboration avec Crédit Agricole Technologies sur le
choix des solutions qui poseront les bases d’une nouvelle référence d’architecture de
fabrication et d’exécution de systèmes orientés services.
1.4.3.2 NICE – CRM
La partie CRM (Customer Relationship Management) du projet NICE est née d’une
ambition forte exprimée par les Caisses Régionales autour de la relation client.
Destinée au marketing, elle a pour mission de mettre à disposition des CRs les
données et les outils, permettant d’améliorer la connaissance client et le Datamining.
Il s’agit de l’implémentation d’un nouveau CRM couvrant les fonctionnalités d’Etudes,
de Datamining et de Gestion des Contacts multicanaux.
Ce projet s’articule autour de 3 filières principales confiées à Logica :
Métier & Change, chargée de la conception, construction de la suite logicielle
de gestion de campagnes UNICA
Données&Interfaces et Etudes&Datamining, chargée de la conception, de la
construction du datasource Unica et de la solution SAS
Architecture technique, chargée de la conception des architectures projets et
de production, des tests de continuité applicative et de performances sur
l’architecture cible retenue, de la préparation à la mise en exploitation de la
solution
À cela s’ajoute une filière Pilotage chargée du pilotage du projet NICE-CRM, de
vérifier la cohérence de la conception du socle CRM, et de la production des
tableaux de bord de pilotage.
1.4.3.3 Le chantier Données&Interfaces et Etudes&Datamining
Ce chantier poursuit deux objectifs majeurs :
La constitution du socle de données pour l’environnement UNICA et pour
l’environnement études et datamining
La définition des usages et de la solution technique datamining
En corollaire, il a pour responsabilité de définir les expressions de besoins en termes
de données à destination du projet NICE – Datawarehouse.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
21
Ci-dessous l’organigramme de la filière :
Figure 11 : Organisation de la filière Données&Interface et Etudes&Datamining
1.4.3.4 Le chantier Etudes&Datamining
Le chantier Etudes&Datamining vise à mettre en place un outil innovant pour les
études et le datamining.
Cet outil devra prendre en compte une meilleure organisation et un accès simplifié
aux données. Cela permettra aux utilisateurs de passer plus de temps sur
l’interprétation des résultats des études et modèles datamining que sur leurs
développements.
1.4.3.5 Le partenariat Logica-Soft Computing
L’application mise en œuvre au cours du chantier Datamining sera utilisée par les
dataminers des 39 CRs comme principal outil de travail. Une expertise métier
datamining était donc nécessaire pour l’élaboration d’un outil adapté aux besoins des
futurs utilisateurs.
Soft Computing est une société de conseil et de services spécialisée en gestion de la
relation client, pilotage des performances et e-business.
Afin de répondre de façon efficace aux besoins du Crédit Agricole sur le chantier
Etudes&Datamining et au vu du savoir-faire de Soft Computing, Logica a souhaité
collaborer avec Soft Computing dans le cadre d’un partenariat.
Mon stage s’est déroulé au sein de l’équipe Datamining constituée de 5 personnes :
Une responsable projet et une experte SAS de Soft Computing
Une consultante et deux stagiaires de Logica.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
22
1.5 Observations personnelles
Mon stage s’est déroulé dans un contexte avec deux aspects particuliers :
C’est un stage en société de service
Je travaillais sur un chantier appartenant à un projet de grande envergure qui
débute
Les relations qui existent entre collaborateurs en société de service n’est pas de la
même nature que celles existantes entre collaborateurs d’un client final. En effet,
comme notre équipe travaillait dans les locaux du Crédit Agricole, je n’ai pas souvent
eu de contacts avec le siège de Logica mis à part pour des démarches
administratives.
Mon stage s’est déroulé dans le cadre d’un projet de refonte de système
d’information. Dans ce contexte, les acteurs sont le client (Crédit Agricole),
l’intégrateur (Logica) et l’éditeur (SAS).
Logica entretient des échanges réguliers avec le Crédit Agricole au fur et à mesure
de l’avancement du projet. Ces échanges sont primordiaux car ils permettent d’une
part de s’assurer de l’adéquation de la solution aux besoins du Crédit Agricole, et
d’autre part ils permettent de mettre en place des plans d’action en cas de dérives.
Néanmoins, les contacts entre Logica et SAS étaient faibles au début du projet. Ce
manque de communication a généré des retards pour la mise en place de la solution.
Cela m’a fait prendre conscience de l’impact de la communication sur le planning
d’un projet d’une telle envergure.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
23
1.6 Intégration au sein de l’entreprise
À mon arrivée chez Logica, j’ai tout de suite été rattachée à l’équipe datamining dans
laquelle les relations sont conviviales et très simples. Je n’ai donc pas eu de
difficultés à m’intégrer et à me sentir à l’aise.
Peu de temps après mon arrivée, j’ai assisté à une réunion d’accueil et un petit-
déjeuner organisés au siège de Logica. Cela m’a permis de faire connaissance avec
l’entreprise, de rencontrer d’autres stagiaires de Logica et de garder contact avec
eux.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
24
2 Le chantier Etudes&Datamining
2.1 Le datamining
Le datamining est l’ensemble des algorithmes et méthodes destiné à l’exploration et
l’analyse de grandes bases de données informatiques en vue de détecter dans ces
données des règles, des associations, des tendances inconnues (non fixées a priori),
des structures particulières restituant de façon concise l’essentiel de l’information
utile pour aider à la décision.
Le datamining peut être soit descriptif soit prédictif. Les techniques descriptives (ou
exploratoires) visent à mettre en évidence des informations présentes dans la base
de données mais cachées par son volume. Les techniques prédictives quant à elles
visent à détecter des comportements futurs à partir des informations présentes.
Appliquer les techniques de datamining aux données d’une entreprise permet à cette
dernière de mieux connaître ses clients. Cette connaissance client enrichie est très
utile pour le choix de la stratégie de l’entreprise.
2.2 Objectifs
Le chantier Datamining vise à développer et optimiser le chiffre d’affaire généré par
les clients de la banque en capitalisant sur une approche marketing relationnelle
fondée sur une exploitation optimisée de la connaissance client et sur une
optimisation des ciblages marketing.
2.3 Les données
Les caisses régionales disposent d’un certain nombre de données sur lesquelles
sont basées les études et les modèles datamining à destination du marketing.
Ces données proviennent de 5 datawarehouses correspondant aux 5 systèmes
d’information régionaux actuellement en production.
Le projet NICE vise à converger vers un seul système d’information donc vers un
unique datawarehouse. Des agrégats des données du datawarehouse seront
stockés dans le datamart Marketing et le datamart Etudes. L’applicatif datamining
sera ainsi connecté à ces sources de données représentées sur la figure ci-dessous :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
25
Figure 12 : Représentation simplifiée des données accessibles pour le datamining
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
26
2.4 Les besoins et exigences du Crédit Agricole
Logica a reçu au préalable une expression de besoins du Crédit Agricole. Dans ce
document, la maîtrise d’ouvrage a exprimé les besoins et exigences du Crédit
Agricole quant aux fonctionnalités du futur outil.
Afin d’atteindre les objectifs visés par les caisses, l’outil devra permettre d’enrichir les
données comportementales clients et de mettre en place des études marketing et
statistiques élaborées.
Les caisses régionales du Crédit Agricole souhaitent donc disposer d’un outil
d’analyses statistiques destiné aussi bien aux experts du datamining qu’aux
décideurs métier. Il devra permettre de convertir les données brutes en informations
pertinentes grâce à des traitements totalement automatisés. Cette conversion passe
par la création, l’industrialisation et le pilotage des modèles statistiques et
datamining.
2.4.1 Les besoins fonctionnels
Les besoins du Crédit Agricole pour le chantier Etudes&Datamining couvrent 3
principaux axes fonctionnels :
Le Datamining (Techniques statistiques : scoring, segmentation, prévision,
modèles de durée ….) : les utilisateurs, majoritairement des statisticiens, font
des analyses complexes qui nécessitent l’accès à un environnement d’études
(données élémentaires et données agrégées).
Les études statistiques de fonds (Exemples : études réalisées en amont de la
partie CRM opérationnel, modification d’un barème crédit, score d’octroi) : les
utilisateurs ont également besoin d’accéder à un environnement d’études
Les études privatives réalisées par les caisses régionales : les utilisateurs
accèdent aux données pour effectuer du reporting ou des analyses,
éventuellement complétées par quelques données externes non disponibles
dans l’environnement d’études
En plus de couvrir ces besoins fonctionnels, l’outil devra mettre à disposition des
différents acteurs un référentiel de modèles permettant de mutualiser et de partager
les connaissances. Cependant, il doit pouvoir intégrer différents niveaux
d’organisation : national, régional et multi-régional.
2.4.2 Les exigences
Les exigences de la solution finale sont exprimées dans un cahier des charges établi
par Crédit Agricole. Ces exigences indiquent de façon précise les fonctionnalités
générales que doivent intégrer la solution de Logica.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
27
À partir de ces exigences formulées, des cas d’utilisation UML seront créés.
2.4.2.1 Construire un environnement dédié au datamining et
aux études pour chaque CR
L’objectif est de mettre à disposition de chaque CR une base spécifique, un espace
de liberté et des outils afin de développer des études et des modèles datamining en
CR. Cet environnement de données devra intégrer :
Un accès à toutes les données du datawarehouse (données élémentaires et
agrégées), du datamart études et du datamart marketing
La possibilité d’accéder à l’environnement de données échantillonné à la
demande, c’est à dire constitué d’un échantillon de tables filtrées sur une liste
de clients partenaires
Une historisation avec différentes profondeurs, granularités et fréquences de
mise à jour
Un accès à des données de sources spécifiques non partagées par les 39
CRs.
Une capacité de charger des données provenant de sources externes au
système d’information en CR
Un espace pour chaque CR destiné à effectuer des calculs spécifiques ou à
stocker des tables de travail intermédiaires
La mise en production des modèles dans l’environnement privatif de la CR.
Les résultats seront ainsi non visibles dans le système d’information
2.4.2.2 Construire un environnement pour les études et le
datamining communautaire
Le besoin d’environnement communautaire s’inscrit dans une démarche de
coopération souhaitée par les caisses régionales.
L’objectif est d’optimiser et de mutualiser les ressources afin que la connaissance
client et le datamining soient accessibles et diffusés dans l’ensemble des caisses
régionales.
L’outil devra prendre en compte une organisation au sein de laquelle chaque CR
choisira de fonctionner individuellement ou au sein d’une communauté d’intérêts
autour des études et du Datamining représentées par un Service Bureau. Au sein de
chaque communauté des coopérations peuvent également se former entre les
caisses régionales.
Les services bureau mettront à disposition des caisses régionales :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
28
Une organisation métier où sont priorisés les dossiers. Comités mettant en évidence les thématiques et outils à développer
Des études Marketing variées
Des modèles Datamining performants
Un pilotage et suivi de ces modèles
Une documentation exhaustive
Un accompagnement dans l’exploitation opérationnelle
Un SAV performant
Dans ce contexte, l’équipe communautaire est habilitée et accède aux données
des caisses régionales ayant optées pour ce Service Bureau. Ces données seront
utilisées pour créer les modèles ou études datamining pouvant servir à l’ensemble
des membres de la communauté.
La figure ci-dessous permet d’illustrer de façon simplifiée cette organisation.
Figure 13 : Organisation
L’environnement d’études communautaire couvrira le périmètre suivant :
L’ensemble des environnements d’études des CRs abonnées
Un environnement échantillonné au 1/10ème de l’ensemble des données du datawarehouse, du datamart étude et du datamart maketing
Des données provenant de sources externes au système d’information D’autre part, plusieurs autres aspects doivent être pris en compte quant à l’organisation d’un service bureau datamining (SBD) notamment la gestion de l’anonymat des données collectées auprès des CRs abonnées, l’accès à des données spécifiques non accessibles en CR et la mise en place de modèles paramétrable par les CRs.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
29
2.4.2.3 Créer des études ou des modèles datamining en CR
La plateforme technologique mise en place devra permettre de remplir toutes les
étapes de création d’études et modèles datamining notamment :
1. Les traitements et la préparation des données
2. L’échantillonnage
3. L’exploration statistique des données
4. La phase d’analyse et de modélisation
5. Le scoring
6. La validation
Aussi, devra-t-elle permettre la construction d’études en collaboratif au sein de la
caisse régionale. Une gestion des profils et habilitations pour la construction et la
mise à jour des modèles devra donc prise en compte.
La plateforme intègrera également la mise en production et la mutualisation des
modèles et études créés avec les documents associés dans un référentiel de
modèles.
2.4.2.4 Créer des études et des modèles datamining dans
l’environnement communautaire
Les modèles et études créés dans l’environnement communautaire sont destinés aux
caisses régionales. Ces modèles devront être mutualisés dans un référentiel
communautaire et les acteurs métier des caisses régionales devront être habilités et
informés de la mise à disposition des modèles.
Les modèles créés seront industrialisés sur l’ensemble de la population des CR
abonnées et les résultats seront stockés dans le SI.
2.4.2.5 Créer et gérer des profils et des habilitations
L’outil devra permettre de gérer différents profils utilisateurs avec des accès aux
données limités soit par caisse régionale, soit par métier, voir limités nominativement.
2.4.2.6 Généraliser les modèles sur l’ensemble des clients de
toutes les CRs
La plateforme permettra une industrialisation automatisée des modèles et la
génération de rapports d’exécution pour le contrôle.
Des alertes seront envoyées automatiquement au CRs concernées.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
30
2.4.2.7 Backtester, mesurer la performance et modifier si
nécessaire les modèles mis en production
Afin de garantir la fiabilité des modèles mis en production, l’outil devra permettre de
tester à une fréquence donnée, la performance et la pertinence des modèles.
2.4.2.8 Mise à disposition de calculs de scores en temps réel
Certains modèles pourront être appelés en temps réel par le CRM opérationnel ou
par les Scénarios de Vente.
Ces modèles seront exécutés en temps réels sur des clients ou prospects à partir de
données de contexte – données provenant de la banque en ligne, des distributeurs
automatiques, etc. – et provenant du datawarehouse.
Une mécanique devra donc être mise en place afin d’obtenir des temps de calculs
très courts.
2.5 Les solutions apportées
Suite à la rédaction de l’expression de besoin par Crédit Agricole, Logica a débuté la
phase de cadrage du chantier Datamining au cours de laquelle sont définis de
manière générale les usages couverts par le chantier et la solution proposée.
Le livrable est une note de cadrage qui fera office de spécification fonctionnelle
générale.
2.5.1 Les usages couverts par le chantier Etudes&Datamining
Afin d’améliorer la connaissance client, trois principaux axes d’amélioration en
termes d’usages sont visés au cours du projet notamment :
La vision client 360°, multicanal, qui vise à rassembler l’ensemble des
données dispersées dans les systèmes d’information associées à un client
afin d’avoir une vision unique.
Le cycle de vie client, qui permet de positionner le client au centre de la
relation afin de l’accompagner dans l’évolution de ses besoins et de créer de
la valeur.
L’enrichissement des données, qui vise à mettre à disposition des acteurs
métier des données suffisamment riches leur permettant de réaliser des
études larges.
On distingue trois usages distincts : les études, le datamining et le pilotage.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
31
2.5.2 Les études
Définition et enjeux
Au sein de la banque, les études marketing permettent d’expliquer des phénomènes
simples ou complexes et d’analyser le comportement des clients et de leur
environnement (relation bancaire, canaux…). Cela diffère du datamining qui permet
d’anticiper, de prédire et d’optimiser les comportements client en utilisant des
techniques statistiques de type scoring, segmentation, prévision, modèles de durée
de vie, etc.
Méthodologie de réalisation d’une étude
1. Cadrage de l’étude
Identification des besoins
Définition des concepts
2. Construction de la plateforme d’études ou base de travail
Transformation des données en indicateurs métiers pertinents
Description comportementale, attitudinale de chaque client
3. Analyse des comportements clients
Analyse des comportements clients / profiling
Construction des indicateurs, tableaux de bord, graphiques, cibles
marketing, etc.
4. Exploitation
Recommandations d’actions ou de stratégies à mettre en œuvre
Identification des cibles ou des processus à améliorer
Suivi et bilan des actions mises en œuvre
2.5.3 Le datamining
Différentes techniques datamining sont actuellement utilisées communément par les
39 caisses régionales :
Score d’appétence
Segmentation stratégique ou distributive
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
32
Scores comportementaux ou de potentiel
Scores d’attrition
Néanmoins, afin d’atteindre la vision cible, de nouvelles techniques doivent être
mises en œuvre pour le socle commun notamment :
Les segmentations comportementale et relationnelle
La durée de vie client
La valeur client
Le textmining
Le webmining
L’analyse de réseaux sociaux
Des techniques de simulation et de scoring dynamique, appliquées par Crédit
Agricole sont également à prendre en compte pour la solution.
Ces usages sont détaillés dans l’annexe (voir l’annexe « 1. Les usages du
datamining ».
2.5.4 La solution technique retenue
Afin de couvrir tous les usages du datamining, la technologie retenue sera constituée
de modules de la plateforme SAS BI 9.2 et du SGBD Teradata.
2.5.4.1 La plateforme SAS BI 9.2
Crédit Agricole a choisi la plateforme SAS BI 9.2 pour répondre aux besoins des
dataminers du Crédit Agricole.
Cette plateforme est dans un premier temps installée sur un environnement de test
appelée Dev TU Alpha (Développement Test Unitaire Version Alpha).
C’est sur cet environnement que nous effectuons tous les tests pour définir la
solution technique et les maquettes livrées à l’issue de la phase de conception
détaillée.
Les modules disponibles sont :
SAS Enterprise Miner et SAS Text Miner
SAS Customer Link Analytics
SAS Enterprise Guide
SAS Model Manager
SAS Management Console
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
33
2.5.4.1.1 Enterprise Miner et Text Miner
Enterprise miner est doté d’une interface graphique destinée à simplifier la
construction des processus datamining composés d’enchaînement d’icônes
préparamétrées. Chaque icône représente une des différentes étapes de toute
analyse datamining : préparation des données, visualisation exploratoire par des
graphiques, création de plusieurs modèles et choix du plus adapté, avec une
documentation des paramètres choisis.
Text Miner est une solution de textmining intégrée dans le module Enterprise Miner.
Text Miner permet l’extraction, l’exploration et l’analyse de données textuelles sous
différents formats : PDF, texte ASCII, HTML, feuilles de calcul, présentations, e-
mails, bases de données etc.
2.5.4.1.2 Customer Link Analytics
Ce module est la solution d’analyse de réseaux sociaux de SAS. Il permet d’identifier
des communautés sociales en fonction des interactions entre les clients, de mesurer
et de segmenter ces derniers d'après leur influence sociale, et de les cibler selon
l'évolution de leurs communautés sociales.
2.5.4.1.3 Enterprise Guide
Enterprise Guide est une interface graphique permettant de gérer le développement
et l’exécution de programmes SAS.
2.5.4.1.4 Model Manager
Model Manager est un référentiel centralisé pour la gestion des modèles analytiques.
Model Manager est destiné à répondre aux besoins fonctionnels suivants :
- La mutualisation centralisée des modèles analytiques
- L’administration sécurisée et fiable du stockage et de l’accessibilité des
modèles
- La gestion du cycle de vie des modèles
- La gestion du versionning de production
- Le contrôle de performance des modèles mis en production
2.5.4.1.5 Management Console
C’est la console d’administration de toute la plateforme SAS. Elle permet de gérer
l’ensemble des objets, serveurs et utilisateurs. Ce module est surtout utilisé pour
gérer les droits d’accès aux données et les habilitations des utilisateurs de la
plateforme SAS.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
34
2.5.4.2 Environnement d’études
Pour le thème de l’environnement d’études, le chantier Datamining apporte les
solutions techniques pour les référentiels des modèles, les espaces privatifs et de
travail.
Figure 14 : Technologies de l’environnement d’études
L’environnement d’études est l’environnement de données auquel sera connecté
l’applicatif. Il comprend :
Les espaces de travail : Chaque dataminer disposera d’un espace de travail
sur le serveur SAS dans lequel il construira ses modèles via SAS Enterprise
Miner et SAS Guide.
Les espaces privatifs : Ce sont des espaces de stockage communs pour les
dataminers appartenant à une même CR, un même SBD ou une même
coopération. Ces espaces sont des bases de données TERADATA où seront
stockées les tables créées par les dataminers. Ces tables seront accessibles
via les modules SAS Enterprise Miner et SAS Guide.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
35
Les bibliothèques : Le référentiel des modèles sera géré par le module SAS
Model Manager.
Les données élémentaires, Datamart Etudes et Datamart Marketing : Ce sont
des données élémentaires et agrégées provenant du datawarehouse. À ce
jour, le SGBD qui sera utilisé pour ces données n’a pas encore été choisi. Le
choix se fera entre DB2 et TERADATA.
2.5.4.3 Cycle de vie des modèles
La mise à disposition d’un modèle datamining passe par 2 phases : la construction
du modèle et le déploiement.
2.5.4.3.1 Construction d’un modèle ou étude
La construction des modèles se fera avec SAS Enterprise Miner et SAS Guide. À
travers ces interfaces, les dataminers auront accès aux données de l’environnement
d’études.
Figure 15 : Construction d’un modèle ou étude
2.5.4.3.2 Déploiement
La phase de déploiement consiste à intégrer les règles de scores dans le module
d’industrialisation et à les appliquer à l’ensemble des clients du périmètre d’étude.
Une fois la phase de conception du modèle terminée, le dataminer fait une demande
d’industrialisation à l’aide d’un formulaire généré par un processus stocké en
programme SAS. Le dataminer renseigne des informations indispensables à
l’industrialisation du modèle telles que : la date d’industrialisation, la périodicité de
lancement, le périmètre de déploiement etc.
Ensuite, le programme SAS du modèle est encapsulé par un script batch et exécuté
par un ordonnanceur.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
36
2.5.4.4 Pilotage des modèles
Une fois les modèles validés et déployés sur l’ensemble de la population, la phase
de surveillance débute. Dans cette phase, des indicateurs statistiques, tableaux de
bord ou graphiques sont mis en place afin de suivre la performance et la robustesse
du modèle.
À chaque mise à jour du modèle, ils seront analysés et comparés au modèle initial
pour identifier toutes dérives (structure de la population, baisse de discrimination des
variables, changement de comportement de la cible, etc.).
Dès lors qu’une dérive apparait, les impacts sont évalués et une recommandation sur
le devenir du modèle doit être faite. Plusieurs niveaux d’intervention pourront être
préconisés : une mise sous surveillance accrue, un ajustement voire une refonte
totale du modèle.
Figure 16 : Les étapes de la surveillance des scores
Lorsque qu’un modèle est créé, le dataminer concepteur du modèle met en place un
programme SAS qui permettra d’effectuer le backtesting du modèle afin d’en
surveiller la performance et la robustesse. Ce programme va générer
automatiquement des rapports de backtesting.
Voici quelques exemples de types d’analyses ou indicateurs présents dans l’étape
de backtesting de la mise sous surveillance :
Stabilité
Structure de la population (analyse des profils par variables et
modalités des variables entrant dans le modèle).
Ventilation des clients par décile.
Analyse des variables composant chaque décile.
Performance
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
37
Analyse de la variable expliquée.
Exemple de restitution :
Courbe de concentration, courbe de liftc, GINI ou AR
Figure 17 : Exemple d’analyse de la variable expliquée
Ventilation des taux de cible par décile
Figure 18 : Exemple d’analyse de la variable expliquée : Ventilation des taux de cible par décile
Ces rapports ainsi généré seront stockées dans un répertoire accessible aux acteurs
métier.
D’autre part, les utilisateurs auront la possibilité de générer des rapports de manière
ponctuelle avec le module SAS Model Manager.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
38
2.6 Organisation
Pour mener à bien le projet NICE-CRM, les équipes chantiers de Logica appliquent
une méthodologie de gestion de projet appelé CAgile inspirée des méthodes Agiles.
Par définition, une méthode Agile est une approche itérative et incrémentale, qui est
menée dans un esprit collaboratif. L’évolution des besoins du client est prise en
compte tout au long du projet.
2.6.1 La méthode CAgile du Crédit Agricole
2.6.1.1 Approche classique
Avec une méthodologie de gestion de projet traditionnelle, le produit est initialement
pensé lors d’une phase de conception. Ensuite, lors de la phase de développement,
il est mis en œuvre. Enfin, le produit est testé techniquement et fonctionnellement
lors de la phase de recette.
La phase de développement qui est parfois très longue, ne permet pas une visibilité
sur l’avancement du projet. C’est un effet tunnel qui peut être dommageable et
causer des dérives en termes de délais, budget et adéquation du produit livré avec la
conception initiale.
Figure 19 : Approche d’une méthodologie de gestion de projet traditionnelle
2.6.1.2 Approche CAGILE
La méthodologie CAGILE donne une approche itérative incrémentale de construction
d’un produit visible.
Figure 20 : Approche d’une méthodologie de gestion de projet Agile
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
39
À chaque itération, il y a une phase de conception, de développement et de tests.
Cette démarche permet de lever les risques au plus tôt dans le projet et de valider
progressivement les spécifications par des démonstrations lors de chaque itération.
2.6.1.3 Les uses cases
Les cas d’utilisation décrivent sous forme d’actions/réactions le comportement du
système du point de vue d’un utilisateur. Ils permettent de modéliser les
fonctionnalités de l’outil et les plus-values métier attendues par un acteur qui utilise
l’applicatif, au regard de l’entreprise.
Figure 21 : Use Case
Avec la méthodologie CAgile, des diagrammes de uses cases sont mis en place
durant la phase de conception afin de donner une vision globale du comportement
fonctionnel du futur outil et de l’environnement associé.
Figure 22 : Exemple de diagramme de uses cases
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
40
Un cas d’utilisation peut être abouti en passant par des chemins différents. Ces
enchaînements sont modélisés dans un scénario de uses cases.
Un scénario représente toutes les étapes des enchaînements de façon à partir du
début du use case et d’aboutir à une fin, qu’elle soit normale ou non.
Le tableau ci-dessous représente les informations contenues dans un scénario :
Contexte d’utilisation <Formulation plus longue de l’objectif, si nécessaire>
Acteur principal <Nom de rôle de l’acteur principal ou description>
Pré-condition <Condition(s) devant être réalisée(s) pour que le cas d'utilisation puisse s'exécuter>
Garanties minimales <En cas d'échec fonctionnel d'exécution du cas d'utilisation, quel est le résultat minimum atteint?>
Garanties si succès <Ce qui à changé au niveau du système si l’objectif est rempli>
Déclencheur <Ce qui démarre le cas d’utilisation ; peut être un événement temporel>
Description de l'enchainement nominal
Cas nominal Etape Action
1
<Etapes de l'enchainement nominal depuis le déclenchement jusqu’à la réalisation de l’objectif>
2
Variante(s) fonctionnelle(s) Variante(s) Action
Une variante fonctionnelle est une
ramification qui part d'une étape de
l'enchainement nominal sous une
condition (condition de
débranchement)
3a
Variante
commençant à
l'étape 3 du cas
nominal
<Condition provoquant la ramification>
1 <Etape(s) qui suit le point de débranchement>
2
Exigence(s) fonctionnelle(s)
Exigence(s) non fonctionnelle(s)
Figure 23 : Tableau du scénario d’use case
Voici la représentation graphique d’un scénario :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
41
Figure 24 : Représentation graphique du scénario d’un use case
2.6.1.3.1 Phase de cadrage et de spécifications
fonctionnelles générales
La phase de cadrage comprend une étape d’analyse des besoins et exigences
généraux de la maîtrise d’ouvrage. Il est nécessaire de s'assurer que ces besoins
correspondent à l’attente de l'ensemble des utilisateurs cibles et qu'ils prennent en
compte les évolutions probables des besoins.
Le livrable, matérialisé par une note de cadrage, donne une vision globale de la
solution aux membres de l’équipe projet. Il s’appuie sur les comptes-rendus
d’ateliers, consolide les définitions et décrit les axes structurants ainsi que le
périmètre du projet.
Aussi, la note de cadrage comprend des diagrammes de uses cases qui donnent
une réponse générale aux exigences de l’expression de besoins.
2.6.1.3.2 Phase de spécifications fonctionnelles détaillées
Au cours de cette étape, les processus métiers modélisés lors de la phase de
cadrage sont affinés. Les solutions apportées sont validées et des cas d’utilisations
sont identifiés afin de définir le comportement fonctionnel du futur outil et de
l’environnement d’études associé.
Le livrable est ainsi constitué des diagrammes et scénarios des cas d’utilisations
ainsi que de leurs descriptions détaillées.
2.6.2 Les thèmes des solutions apportées
Les solutions apportées au Crédit Agricole sont traitées par thèmes qui sont les
suivants :
Les bibliothèques
Les droits d’accès
Le cycle de vie des modèles
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
42
Le pilotage des scores
Processus, rôles et responsabilités
Environnement d’études
Reprise des modèles
Accompagnement au changement
2.6.3 Planning et livrables
Mon arrivée dans l’équipe coïncidait avec la fin de la phase cadrage. Ainsi, j’ai
commencé par lire la note de cadrage afin de comprendre les objectifs du projet, les
usages définis pour le dataming et la solution générale proposée.
Il fallait compléter la version finale de la note de cadrage avec des diagrammes de
uses cases répondant aux exigences de l’expression de besoins du Crédit Agricole. Il
m’a été confié de concevoir ces diagrammes de uses cases, ce qui m’a permis de
bien intégrer les besoins du Crédit Agricole.
le
Figure 25 : Planning simplifié du projet datamining
Lors des ateliers aller de la phase de conception détaillée la chef de projet et une
consultante présentaient au Crédit Agricole les solutions que nous proposions afin
qu’elles soient validées. Ces ateliers constituaient des échanges indispensables
entre Logica et Crédit Agricole car ils permettaient de s’assurer que notre vision cible
était la même que celle des futurs utilisateurs.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
43
3 Un stage orienté conseil en système d’information
L’équipe datamining Logica a pour mission principale d’assister le Crédit Agricole sur
l’intégration et le déploiement de la solution informatique la mieux adaptée pour le
datamining.
Au cours de ce stage, impliquée au même titre qu’une consultante, je suis intervenue
dans un premier temps sur la fin de la phase de cadrage pour l’élaboration des uses
cases. Ensuite, lors de la phase de conception détaillée, j’ai participé à la préparation
des supports des ateliers avec la mise en place de maquettes et de tests sur la
plateforme SAS. Enfin, j’ai modélisé les scénarios des différents cas d’utilisation du
futur outil qui seront intégrés dans la spécification fonctionnelle détaillée.
Dans cette partie, je vais détailler les principales tâches que j’ai accomplies au cours
du projet.
3.1 Phase de spécification fonctionnelle générale – Cadrage
Mon travail consistait à reprendre les exigences faites par le Crédit Agricole dans
l’Expression de Besoins et à modéliser les cas d’utilisation UML qui en découlent.
Ce fut un travail d’analyse et de synthèse étant donné que je débutais cette tâche
lorsque la spécification fonctionnelle détaillée était terminée.
Pour chacune des exigences, j’ai commencé par trouver et analyser les briques
fonctionnelles que cela comporte. Ensuite, en fonction des usages définis durant la
phase de cadrage, j’ai pu imaginer les interactions entre l’utilisateur et le système.
Cette démarche nécessitait également des recherches sur le fonctionnement que
pourrait avoir l’application d’un point de vue technique.
À titre d’exemple, voici comment j’ai traité l’exigence « Créer et gérer des profils et
habilitations ».
Exigence : Créer et gérer des profils et habilitation
L’accès aux données se fera par mode d’habilitation en lien avec les annuaires
LDAP (Lightweight Directory Access Protocol) du groupe Crédit Agricole.
Etant donné la confidentialité des informations manipulées, les accès aux ressources
de l’applicatif devront être sécurisés. Notamment en ce qui concerne :
Les données élémentaires et agrégées
Les bibliothèques de modèles
Les espaces privatifs
Les espaces de travail
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
44
On distingue trois niveaux de granularité en termes de droits d’accès aux données :
SBD, Coopération et CR (voir figure 13).
Afin de gérer les droits d’accès, la plateforme SAS sera connectée à des vues des
tables du DWH et des datamarts.
Pour une table donnée, on effectuera des vues par CRs, par coopération et par SBD.
Ainsi l’utilisateur aura accès aux données par des vues en fonction de son profil de
connexion :
Figure 26 : Accès aux données via la plateforme SAS
On distingue les données issues du datawarehouse et les données des espaces
privatifs.
L’utilisateur d’une CR n’accède qu’aux données de sa CR et éventuellement à celles
des CRs de sa coopération.
Le dataminer du SBD a les droits d’accès aux données de toutes les CRs de sa
communauté.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
45
Figure 27 : Accès aux données des CRs
Comme l’accès aux données se fera via la plateforme SAS, j’ai d’abord commencé
par faire des recherches sur le fonctionnement de l’applicatif en ce qui concerne la
gestion des droits et des habilitations.
En fonction des usages, j’ai donc imaginé une organisation de gestion de profils et
habilitations pour le système. J’ai modélisé cela dans un diagramme de uses cases
(voir l’annexe « 2. Spécification générale : Créer et gérer des profils et habilitations
»).
Ce diagramme donne une vision globale de l’organisation du système pour la gestion
des droits.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
46
3.2 Phase de conception détaillée
La phase de conception détaillée se déroule en trois étapes :
Les ateliers aller
La rédaction des spécifications fonctionnelles détaillées
Les ateliers retour
J’ai été présente toute la période des ateliers aller et au début de la rédaction des
spécifications fonctionnelles détaillées.
Les supports des ateliers contenaient la description des fonctionnalités de l’outil
autour du thème de l’atelier et des démonstrations de la solution technique retenue.
La préparation d’un atelier commençait par une réunion d’équipe durant laquelle on
revenait sur les principaux volets fonctionnels liés au thème de l’atelier et les points
bloquants. Cette réunion permettait de mutualiser et consolider nos idées afin de
proposer des solutions adaptées.
Ensuite, les sujets à traités étaient listés et dispatchés entre les membres de
l’équipe.
Je vais présenter ci-dessous des exemples de sujets que j’ai traités.
3.2.1 Processus : Temps réel
L’outil devra permettre le calcul de scores appelables en temps réel. Par exemple, un
client qui se connecte sur le canal de la banque en ligne et renseigne un formulaire
déclenche le calcul d’un score. Ce score est calculé en utilisant les données de
contexte que le client a communiquées et en fonction du résultat un message lui est
renvoyé.
Voici un schéma simplifié du processus d’appel d’un score en temps réel :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
47
Figure 28 : Schéma de l’appel d’un score en temps réel
Pour préparer cet atelier, voici l’exemple de deux sujets à traités qui m’ont été
confiés :
La présentation du langage PMML (Predictive Model Markup Language) et
son utilisation dans les bases de données DB2 et TERADATA pour l’exécution
de scores SAS
Le contrôle et la gestion des rejets
3.2.1.1 Sujet 1 : Présentation du langage PMML
Le PMML est un langage descriptif, basé sur du XML. Il permet d’exporter des
modèles datamining et de les exécuter sur des tables de bases de données.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
48
Figure 29 : Portage d’un modèle en PMML
Dans le cadre de l’atelier, j’ai préparé un support de présentation sur l’exécution des
modèles PMML dans une base de données. Il a fallut également que je fasse des
recherches sur les types de modélisation supportés par ce langage en fonction des
éditeurs et des versions des logiciels.
L’objectif était de s’assurer que le PMML supporte tous les modèles de scores qui
seront effectués en temps réel.
3.2.1.2 Sujet 2 : Le contrôle et la gestion des rejets
Le processus d’exécution d’un modèle en temps réel nécessite un certain nombre de
contrôles afin de vérifier la validité du flux de données et de garantir la performance
et la robustesse du système.
Le schéma ci-dessous représente le processus de contrôle et de gestion des rejets
que j’ai mis en place :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
49
Figure 30 : Processus de contrôles et de gestion des rejets
3.2.2 Cycle de vie des modèles
Pour l’atelier Cycle de Vie, j’ai préparé les sujets suivants :
Envoi automatique de mails à la mise à jour d’un modèle
Le template Cycle de Vie de Model Manager
3.2.2.1 Sujet 1 : Envoi automatique de mails à la mise à jour
d’un modèle
Un modèle est mis à jour avec une fréquence définie à sa conception. À chaque mise
à jour, un rapport de déploiement est envoyé au dataminer concepteur du modèle
afin qu’il vérifie les nouvelles notes. Ensuite, le dataminer envoie un mail aux
utilisateurs du modèle pour les tenir informés de la mise à jour.
Pour répondre à ce besoin, j’ai créé la maquette d’une application stockée SAS.
Cette application stockée est un programme qui sera exécuté par le responsable
datamining à chaque validation. Ce programme enverra un mail automatiquement à
une liste d’utilisateurs définie dans le programme.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
50
Figure 31 : Exemple d’application stockée
3.2.2.2 Sujet 2 : Le template Cycle de Vie de Model Manager
La gestion du cycle de vie des modèles se fera avec SAS Model Manager.
Dans le cadre de l’atelier, j’ai fais des tests sur Model Manager afin de vérifier si
l’outil répond bien aux besoins concernant la gestion du cycle de vie.
La création d’un cycle de vie nécessite de définir des jalons et des tâches associés à
des participants. Aussi, on peut définir des dépendances entre les tâches et
également leur associer des poids.
3.2.3 Scénarios des uses cases
Les fonctionnalités du futur outil sont modélisées sous la forme de cas d’utilisation. Il
m’a été confié de mettre en place les scénarios de ces cas d’utilisation qui seront
inclus dans le document de spécifications fonctionnelles détaillées.
Exemple du scénario d’un use case :
Contexte
d'utilisation Créer un échantillon à la demande
Acteur principal Métier
Pré-condition Avoir sélectionné les identifiants Partenaires ou Client Commercial
ainsi que leur CR sur lesquels on souhaite baser l’échantillonnage.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
51
Garanties
minimales
Chaque dataminer peut sélectionner des données de l’environnement
d’études sur un périmètre qu'il a déterminé
Garanties si succès Diminution des temps de traitements dans l’étape de préparation des
données
Déclencheur Nouveaux modèles ou études à réaliser sur un sous-ensemble de la
population globale
Description de
l'enchainement
nominal
Cas
nominal Etape Actions
1
Créer la table des Partenaires ou Client
Commercial avec leur CR selon les critères de
l'échantillonnage
2 Lancer le formulaire pour l'échantillonnage à la
demande
3
Remplir les paramètres demandés par le
formulaire (Liste des tables, leurs colonnes…) et
exécuter
Variante(s)
fonctionnelle(s) Variante(s) Etape Actions
Exigence(s)
fonctionnelle(s)
Créer des études (ex : comportementales) sur la base d'échantillons de
clients
Exigence(s) non-
fonctionnelle(s)
Figure 32 : Description textuelle des scénarios d’un use case
Figure 33 : Scénario d’un use case
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
52
3.3 Auto-évaluation et difficultés
Afin de m’assurer que j’étais sur la bonne voie dans mon travail, j’ai fait des points
réguliers avec une consultante de l’équipe.
Mon stage s’étant déroulé dans la phase de conception du projet, il fallait
régulièrement imaginer et affiner la solution. Ma principale difficulté a été d’arriver à
prendre suffisamment de recul pour arriver à proposer des solutions sur des
problématiques architecturales.
3.4 Le stage dans la formation
Pendant ce stage, il a fallu concevoir l’outil final en prenant en compte les besoins
des utilisateurs métiers qui sont des dataminers, statisticiens et chargés d’études afin
qu’il soit adapté à leur utilisation.
Ainsi, les cours de statistiques, intelligence artificielle et datamining suivis en
deuxième et troisième année m’ont été d’une grande utilité pour comprendre les
besoins fonctionnels des utilisateurs. Les cours de bases de données,
programmation SAS et UML m’étaient également utiles pour effectuer les tests sur la
plateforme SAS et pour la modélisation des uses cases.
Grâce à cette expérience, j’ai acquis des connaissances en architecture applicative
SAS et en méthodologie de gestion de projet Agile.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
53
4 Bilan
4.1 Bilan du projet
Ma mission sur le projet datamining a pris fin le 30 août 2011, lorsque les membres
de l’équipe commençaient la rédaction du document de spécifications fonctionnelles
détaillées. À ce jour, la phase de conception n’est pas encore terminée. Les
développements débuteront en octobre 2011. Il est donc difficile de faire un bilan du
projet aujourd’hui.
Suite à cette phase de conception, on prévoit une phase de développement plus
longue que prévue au démarrage du projet. En effet, des développements
supplémentaires sont à effectuer en complément de la solution technique SAS Model
Manager.
4.2 Bilan du travail en équipe
Dans ce projet, le travail en équipe tenait une place importante car il y avait
régulièrement des points bloquants à traiter. Pour ce faire, les membres de l’équipe
étaient amenés à réfléchir ensemble lors d’une réunion afin de partager les idées. Je
pense que cela a été très bénéfique pour le projet car la plupart des problèmes ont
été résolus suite à des réunions de ce type.
4.3 Bilan personnel
Ce stage m’a permis d’avoir une première expérience dans la phase de conception
d’un système d’information. J’ai pu prendre connaissance de l’impact de la
communication et du travail en équipe sur l’avancement d’un tel projet. J’ai beaucoup
appris grâce à l’expertise de mes collègues et à mes recherches personnelles.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
54
Conclusion
Le Crédit Agricole s’est engagé dans une démarche stratégique d’optimisation de
ses technologies informatique.
Par exemple pour la partie datamining, demain les utilisateurs auront à leur
disposition des données très riches sur les clients et un outil d’optimisation puissant.
Cette vision 360° des clients apportera au Crédit Agricole un avantage indéniable
face à ses concurrents sur le marché.
Ce stage a été une opportunité pour le début de ma carrière. J’ai eu la possibilité de
participer à un projet vaste et innovant en ayant à la fois une approche fonctionnelle
et technique.
Cela a suscité en moi le souhait de débuter ma carrière professionnelle sur un projet
d’intégration ou de maintenance d’un système d’information décisionnel.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
55
Annexe
1. Spécification générale : Créer et gérer des
profils et habilitations
Pour la gestion des profils et habilitations, trois termes sont à définir :
Habilitations : Les habilitations sont des permissions d’accès à des données, outils, …
Exemples :
- lecture des données de la CR Ile de France - lecture des modèles enregistrés dans la bibliothèque communautaire - écriture dans la bibliothèque générique - …
Groupes : Chaque groupe est associé à une ou plusieurs habilitations. Le but est de rassembler
des utilisateurs afin de leur attribuer des droits communs.
Exemple :
- CR Ile de France - Administrateur MOA - Dataminers - Chargé d’études - …
Utilisateurs : Ce terme regroupe toute entité devant interagir avec le système. L’utilisateur est
reconnu par un numéro unique. Un utilisateur appartient à un ou plusieurs groupes.
Exemple de combinaisons possibles :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
56
Paul Smith est un dataminer de la CR Centre France. Il peut donc accéder
seulement aux données de sa CR et dispose, de plus, des droits d’accès courants
accordés aux dataminers.
Diagramme de cas d’utilisation :
La MOA est responsable de la spécification des groupes et des habilitations. La prise
en charge technique de ces spécifications se fera par la MOE. Lorsqu’un utilisateur
fait une demande de droits d’accès, il l’adresse à son responsable hiérarchique.
Après validation, celui-ci se chargera de transmettre la demande auprès de la MOE.
Pour mener à bien ce traitement, les prochaines étapes de la spécification technique
détaillée seront de :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
57
- Recenser les différentes briques fonctionnelles sur lesquelles des droits différents doivent être associés.
- Recenser les différents métiers susceptibles d’utiliser tout ou partie des outils Ainsi, les listes des groupes et des habilitations pourront être créées.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
58
2. Les usages du datamining
Définitions et enjeux
Le datamining est l’ensemble des algorithmes et méthodes destiné à l’exploration et
l’analyse de grandes bases de données informatiques en vue de détecter dans ces
données des règles, des associations, des tendances inconnues (non fixées a priori),
des structures particulières restituant de façon concise l’essentiel de l’information
utile pour aider à la décision.
Le datamining est un processus de gestion et de valorisation de l’information au
service de l’entreprise. Il doit permettre de :
Décrire un phénomène (client,…)
Comprendre ce phénomène (relations, dépendances)
Modéliser (abstraire le phénomène dans un modèle)
Prédire (anticiper sur de nouvelles données à l’aide du modèle)
Techniques statistiques du socle commun
Score d’appétence
Le score d’appétence permet d’identifier des critères discriminants de l’appétence
d’un client. Il peut porter sur un produit, un canal, une offre...
Sa finalité étant d’augmenter le PNB de la banque, à travers une stratégie de
marketing différenciée, déclinée sur les axes :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
59
Ventes croisées et additionnelles : augmentation de la valeur client par
l’accroissement des ventes (croisées ou additionnelles)
Optimisation de la rentabilité / ROI des campagnes : augmentation des taux de
remontée des campagnes
Segmentation stratégique ou distributive
La segmentation stratégique permet de disposer d’une première approche
segmentée (regroupement de premier niveau) de la clientèle.
Par exemple, la segmentation distributive CASA est basé sur une notion de stock et
de flux.
Exemple de segmentation stratégique :
Figure 34 : Exemple de segmentation stratégique
Scores comportementaux ou de potentiel
Les scores comportementaux ou de potentiel donnent la vision du potentiel du client
en analysant son comportement bancaire sur les axes crédit, épargne et/ou banque
au quotidien… (taux d’équipement, encours,..).
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
60
L’identification du potentiel du client est au cœur de la connaissance client. Le
conseiller doit pouvoir adapter son offre et sa communication en fonction de ce
potentiel.
Scores d’attrition
Les scores d’attrition anticipent le départ d’un client vers un concurrent par l’analyse
et la détection des comportements précurseurs de la résiliation.
Les scores d’attrition interviennent, entre autres, dans les programmes de gestion de
l’attrition afin de proposer au client un discours adapté à ses attentes en termes
d’offres, de tarifs, etc.
Techniques à mettre en œuvre afin d’atteindre
la vision cible
Segmentation comportementale et relationnelle Segmentation comportementale : Elle rassemble des clients semblables en termes d’habitudes et usages dans leur comportement bancaire. L’analyse du comportement du client est déclinée, entre autre, sur les axes épargne, crédit, banque au quotidien afin de dégager des comportements homogènes. La segmentation comportementale est une brique majeure dans les plans d’actions
marketing. En effet, la segmentation identifie des groupes de clients homogènes en
termes de besoins et attentes.
Exemple de segmentation comportementale :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
61
Figure 35 : Exemple de segmentation comportementale
La segmentation comportementale permet d’avoir une communication différenciée
auprès des clients.
Dans l’exemple, ci-dessus, des plans d’actions différenciés peuvent être déployés
sur les clients selon leur groupe (à fidéliser, à redécouvrir, à conquérir, etc.).
Segmentation relationnelle :
La segmentation relationnelle permet d’identifier le rôle et les objectifs des canaux
tout au long du parcours clients.
Exemple de segmentation relationnelle :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
62
Figure 36 : Exemple de segmentation relationnelle
Dans l’exemple ci-dessus, en fonction du niveau d’attente des clients envers la
banque et du rapport de force qu’ils perçoivent, la banque sera en mesure d’adapter
son mode de relation, son niveau de communication sur les canaux.
Durée de vie client La durée de vie client est la durée moyenne de vie d’un client dans la banque. Les principaux enjeux de la durée de vie sont :
Identifier les clients « en fin de vie » afin d’anticiper leur départ en leur proposant une communication, des produits/offres adaptés, etc.
Composantes du calcul de la valeur client Pour calculer la durée de vie, on distingue généralement trois types d’analyses :
Les méthodologies non paramétriques (Kaplan-Meier)
Les méthodologies semi-paramétriques (modèle de Cox)
Les méthodologies paramétriques o Ces dernières sont des techniques récentes puisque les premiers
manuels datent du début des années 80. Valeur client La valeur client permet de mesurer la profitabilité d’un client. Le client est caractérisé par sa valeur actuelle mais aussi sa valeur future calculée en fonction de sa durée de vie et de ses revenus futurs.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
63
La valeur client est un axe structurant des programmes relationnels. En effet, le plan d’action commercial sera différencié en fonction de la valeur du client. Un client à faible valeur actuelle mais à forte valeur future sera traité différemment. Par exemple, seul les clients fragiles à forte valeur future pourront faire partie du plan de rétention. Elle participe aussi à la mise en place des systèmes de suivi et d’alertes des clients à potentiel (jeune en devenir, futur client VIP, etc.). Les objectifs poursuivis sont de deux natures :
Stratégique :
o Surveiller le business futur
o Arbitrer sur la stratégie (positionnement renforcé sur les offres à valeur)
Opérationnelle :
o Calibrer les investissements marketing (surinvestir sur les VIP,
désinvestir sur les clients à faible rentabilité)
o Actionner le bon levier (celui sur lequel le client a le plus de chance
d’augmenter sa valeur)
Textmining Le Textmining est l’ensemble des méthodes permettant d’analyser et d’organiser automatiquement un large volume de données textuelles afin de faire ressortir et de structurer le contenu et les thèmes. La démarche est la suivante :
Figure 37 : Méthodologie Textmining
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
64
Webmining
Le Webmining en terme d’usage Datamining, participe à améliorer la connaissance
client en croisant les données offlines avec les données du Web.
Par l’analyse des parcours sur le site, les comportements des internautes sont
identifiés. Des typologies peuvent ainsi être mises en place.
Par exemple, les appétences à l’utilisation de la BAM, aux produits ou aux services
peuvent être mesurées (activités des visiteurs, pages visitées, temps moyen de
recherche, les associations,…).
Les enseignements issus du Webmining pourront alimenter les plans d’action
marketing sur le Web (bannière, pop-up, relance sur un autre canal, etc.).
Aujourd’hui, l’outil de Webmining SAS n’est pas prévu. Néanmoins, un outil de
Webtracking est en cours d’achat. Cet outil permettra, par une plus grande collecte
de données du Web, une première analyse des logs avec les outils SAS EM et
Guide.
Réseaux sociaux
Définition
Les réseaux sociaux permettent de visualiser les liens entre les personnes de
manière descriptive afin de constituer des groupements d’individus, appelés
communautés.
Une communauté est constituée :
De « noeuds » ou « sommets » : des individus, des contrats, des comptes…
De « liens » qui permettent de connecter les noeuds entre eux : une
communication, un échange d’email, un virement…
Une communauté est donc un groupe de noeuds densément connectés et qui a peu
de liens avec les autres groupes.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
65
Figure 38 : Exemple de communautés
Les réseaux sociaux en quelques chiffres (Médiamétrie 2010)
La France se compose désormais de 38,3 millions d'internautes (contre 34,7 millions
en 2009 et 33,6 millions en 2008) :
Chaque jour, ce sont près de 24 millions d'individus qui s'y connectent, soit
une progression de 15,4% par rapport à 2009
Près de 10 millions de personnes sont équipées d’un smartphone.
27,7 millions de cyber acheteurs en 2010
Les évolutions technologiques et les équipements font aussi progresser les usages Internet. Parmi les usages du web, les blogs et réseaux sociaux poursuivent leur ascension :
plus des ¾ des internautes ont consulté un blog ou un site communautaire en décembre 2010, soit 11,7 millions de personnes par jour.
Sur ces mêmes sites, les internautes restent de plus en plus longtemps : en moyenne, ils y passent 5h30 par mois.
Les principales motivations pour s’inscrire sur un site communautaire sont de :
Rester en contact avec ses amis ou de reprendre contact avec d’anciens amis,
Partager ses passions,
Lire les avis des autres consommateurs avant de faire un achat,
Devenir des prescripteurs,
2/3 des internautes partagent leurs opinions sur les produits ou services qu’ils achètent, en donnant un avis sur un site marchand, un blog, un forum ou un réseau social.
Les enjeux
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
66
Le développement des réseaux sociaux et la quantité considérable d’informations
qu’ils détiennent en font une source privilégiée pour la connaissance des clients.
L’analyse des données issues des réseaux sociaux poursuit deux objectifs majeurs :
Développer le marketing viral :
o Identifier les communautés sociales en se basant sur les relations
comportementales entre les clients
o Mesurer et segmenter les clients sur leur influence social (« leaders »,
« suiveurs », « marginal »)
o Identifier les ambassadeurs vers qui on poussera les messages
o Cibler les clients en se basant sur le statut de la communauté et les
changements de comportements au sein de cette communauté (quand
un leader change, cibler ses suiveurs)
Anticiper les besoins et les attentes des clients :
o Détecter les tendances du moment, le ressenti des clients par l’analyse
des posts sur la page facebook de la banque faite par le textmining
Les limites des réseaux sociaux Du fait de la récence des réseaux sociaux et des outils d’analyse associés, nous
devons nous rapprocher de la législation en vigueur (CNIL).
Simulation
Prévision: Le Crédit Agricole met aussi en place des modèles de prévisions économiques de type : - Calculs matriciels
- Séries chronologiques (modèles ARIMA, …)
- Modélisations économétriques Ces méthodes de prévision sont utilisées entre autre pour : - anticiper des changements structurels de la population (analyse des évolutions démographique, vieillissement des populations,…).
- prévoir les ventes, PNB : si la banque accentue son recrutement sur un profil particulier de la population, ces méthodes permettent, par exemple, de prévoir le PNB.
- estimer l’affluence (guichet, centre d’appel, etc.)
- etc.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
67
Stress-testing : Le « stress-testing » vise à simuler des scénarios (perte d’emploi, changement de profession, etc.) que peut subir un client afin d'en étudier son potentiel. De manière plus générale, le stress-testing, permet à la banque d’évaluer des
paramètres (PNB, risque, etc.) en modifiant la structure de son fond de commerce.
Gestion du temps réel
Une relation client, au plus près des besoins et attentes du client, passe par une gestion en temps réel des événements déclencheurs d’un changement de situation, de profil du client. Dès lors qu’un événement client (passage à la vie active, héritage, revenu complémentaire, chômage,…) est détecté, le client doit être requalifié (mise à jour des modélisations impactées) et le moteur de préconisation d’offres doit être actualisé en fonction des nouveaux éléments (événements et requalification client). Le principal objectif d’une approche temps réel est, par conséquent, d’établir une relation client proactive et toujours adaptée à ses moments de vie. Les principaux bénéfices d’une approche en temps réel sont :
Des offres ou services toujours adaptés aux attentes du client
Une tarification au regard de la véritable valeur du client ou valeur future
Une sollicitation commerciale optimisée
Le datamining en terme d’usages (scores, segmentation,…) n’est pas impacté par les applications en temps réel. En effet, l’application ne modifie pas la modélisation. Elle va seulement mettre à jour la modélisation (note, segment,…) suite aux données recueillies. Néanmoins, des modèles pourront être mis à disposition de l’application Temps Réel. Le scoring dynamique (Temps Réel)
1. Importance d’une requalification client en Temps Réel. Les applications Temps réel proposent au bon moment : La bonne offre Hors Périmètre Datamining : Interact
Le bon canal Hors périmètre Datamining
Le bon message. Ce message pourra contenir :
▬ Une offre personnalisée Hors Périmètre Datamining ▬ Un argumentaire de vente personnalisé pour le conseiller ▬ Proposer une information « utile »
rendez-vous avec un conseiller, appeler un numéro spécialisé sur une plateforme,
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
68
aide en ligne : impôts, bourse, aides sociales, etc. envoi vers une autre page, vers un autre site partenaire.
▬ Une tarification adaptée : devis assurance, moyens de paiement, gestion de comptes : comptes services, mini relevé SMS,
services bourses en ligne, etc. Le déclenchement de la mise à jour de la modélisation pourra se faire à partir :
De la détection d’un événement client : passage à la vie active, héritage, revenu complémentaire, chômage, etc.
De la détection d’un changement de situation ou de profil client : détection de revenus additionnels
Un parcours client sur la BAM : plusieurs consultations dans un délai court de la page crédit immobilier, consommation, etc.
2. Les scores impactés suite à une requalification client en Temps Réel.
Les usages proposés, ci-dessous, sont ceux qui ne rentrent pas dans la préconisation d’offres : Tarification adaptée :
o Moyens de paiement, gestion des comptes : un tarif plus avantageux pourrait être proposé à un client qui dispose d’une note de score élevé (par exemple, un score de potentiel élevé).
o Demandes de devis d’assurance : un score de type devis permettrait de proposer le meilleur tarif au regard du profil du client.
Proposition d’un crédit (acceptation, taux ou montant) : score d’octroi. Ce score étant un score de risque, il ne sera pas traité dans notre périmètre datamining.
3. Le processus de scoring dynamique Le schéma suivant présente le processus de calcul de la note de score en temps réel :
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
69
Figure 39 : Processus de calcul de la note de score en temps réel
1. La saisie des critères
Saisie des critères sur le poste de travail ou la BAM
2. Moteur de calcul SAS et mise à jour de la modélisation (note de score,
segment, etc.)
La mise à jour d’une modélisation peut s’appuyer sur des sources différentes, c’est-
à-dire sur un contexte avec :
Soit des données uniquement externes : données issues d’un formulaire web
ou conseiller (simulation en ligne d’un prêt, d’un devis, etc.)
Soit des données en parties externes : cas du score potentiel à mettre à jour
suite à l’identification de revenu externe. Deux sources possibles :
o DWH
o Datasource
Contexte - Notre préconisation : Le contexte devra être externe avec la
possibilité d’aller chercher certains paramètres dans le Datasource. Le DWH
n’étant pas disponible 24/24H, si le calcul du score dynamique appel des données
issues du DWH, il faudra mettre à disposition un environnement décisionnel répliqué.
RAPPORT DE STAGE 3EME
ANNEE INGENIEUR TCHIENGUE ELIANE
70
3&4. La restitution et l’historisation de la modélisation (note de score ou
segment)
Au-delà de la restitution de la note (ou segment) dans l’environnement concerné
(poste de travail du conseiller, BAM), il faudra prévoir de stocker, dans une base
dédiée au temps réel, la note et son contexte (données ayant servies au calcul de
la note) pour qu’ils soient ensuite historisés afin de réaliser le backtesting des
modèles temps réel.
Recommended