PRESENTATION DE PROBAYES - … · • Gains de 10% sur les fraudes à la carte bancaire par rapport à l’outil actuel en place ... Une volonté de souveraineté et d’économie

PRESENTATION DE PROBAYES

Commençons par nous présenter

Kamel MekhnachaDirecteur Scientifique Probayes

Vincent SagePôle Data Groupe La Poste

Hugues FroehlichManager Datascience Probayes

1. Deux illustrations pour rentrer dans le vif du sujet

2. La présentation de ProbayesSon histoire

Les résultats depuis l’acquisition

Les principaux clients

Les cœurs de métiers

Les modalités de travail avec le Groupe

3. Plus d’exemples de projets menés pour comprendre les compétences et ouvrir chez vous des idées de projets

Projets « vision »

Projets « logistique et supply chain »

Projets « optimisation industrielle »

Projets « Marketing et commercial »

TransactisDétection de la Fraude

• Gains de 10% sur les fraudes à la carte bancaire par rapport à l’outil actuel en place

• Industrialisation en cours

RÉSULTATS

Transactis, filiale monétique commune de la Banque Postale et de la Société Générale, a déployé en 2014 le progiciel leader du marché français assurant sur la détection en temps réel de la fraude

Une fraude résiduelle de l’ordre de 50 M€ avec un taux moyen sur le montant des transactions de 0,07% sur :

• Le paiement de proximité

• Le Retrait

• La VAD (France, SEPA, hors SEPA)

Objectif : détecter 2 à 4 millions € de fraudes supplémentaires VAD en garantissant un taux de pertinence maitrisé avec une évaluationen moins de 50ms pour un pic de charge de 200 transactions par seconde

Durée : POC : nov 2016 ‐ fév 2017 / Indus : Juillet 17 ‐ juillet 2018

CONTEXTE

Approches / technologies utilisées

• RandomForest• Gradiant boosting• …

ILLUSTRATION

FraudIA

FraudIA

BSCCOptimisation reconnaissance automatique des adresses

• LBA : traite avec succès jusqu’à ~90% des plis vidéocodés contre ~50% pour le système actuel

• S2S : un gain de plus de 20% sur les plis dactylographiés avec un taux d’erreur inférieur à celui des vidéocodeurs

• OCR Deep learning : sur uniquement une base d’apprentissage de 2000 images, en moyenne une lecture d’un caractère en moins que l’OCR actuel mais 10% d’adresses lues sur les adresses envoyées au vidéocodage

Décision de lancer des pilotes industriels et de poursuivre les travaux de recherche

RÉSULTATS

Par de nouvelles approches, améliorer la reconnaissance automatique des adresses sur les plis PF et GF qui font l’objet d’améliorations continues depuis longtemps mais dont les résultats peuvent encore être améliorés (gains potentiels à la maille PDI de 20‐30% sur le PF)

3 approches vont être testées :

• Localisation Bloc Adresse Deep Learning (LBA) sur des images de plis GF dactylographiés et manuscrits

• Un algorithme de matching Sequence to Sequence (S2S) à partir de l’historique des traitements

• OCR Deep learning sur des images de plis PF dactylographiés

CONTEXTE


• Réseau Deep learning : approche Faster R‐CNN• Recurent Neural Network• Term frequency‐inverse document frequency (TF‐IDF)• Distance de Levenshtein

ILLUSTRATION

S2S

Présentation générale de Probayes

Créée en 2003 par essaimage INRIA/CNRS/Université avec l’objectif de faire le lien entre la recherche et les besoins industriels en machine learning, modélisation et optimisation

Une acquisition par La Poste en mai 2016 pour disposer d’un centre de compétences en IA

Des besoins opérationnels du Groupe en matière d’intelligence artificielle en forte croissance à la fois sur les activités historiques et pour le développement de nouveaux business

Une volonté de souveraineté et d’économie d’échelle sur les données, les algorithmes et certaines briques logicielles au sein du Groupe

Une acquisition accompagnée d’ambitions importantes

Une montée en compétence sur les métiers, les données et les environnements SI de La Poste

La poursuite du développement auprès de client en dehors du Groupe pour démontrer l’excellence des compétences et avoir un effet de levier avec les projets réalisés pour le Groupe

Le maintien d’activités de Recherche et Développement pour être au contact des futures évolutions en lien avec les laboratoires de recherche et des start‐up

En conséquence, une très forte croissance des effectifs attendus

Les résultats depuis l’acquisition en quelques lignes

Un total de 20 recrutements réalisés entre sept 2016 et déc 2017 soit un doublement des effectifs opérationnels à fin 2017 et 14 planifiés en 2018

Une croissance du CA pour les clients en dehors de groupe La Poste en croissance de plus de 100% entre l’acquisition et fin 2017 et une ambition de croissance de 25% en 2018

De nouveaux grands clients convaincus par les compétences de Probayes avec notamment :

‐ Valeo (sur le véhicule autonome après Toyota et Peugeot)‐ Décathlon et Leroy Merlin sur la logistique‐ Arkema, SOFRADIR, Becton Disckison et Areva‐Orano sur l’industrie

Plus d’une trentaine d’études et de projets menés pour le Groupe La Poste

‐ Pour les 5 branches et auprès de plusieurs de leurs filiales‐ Sur des études courtes (5 jours) à des projets d’industrialisation (>1 an)‐ Ayant permis de développer la connaissance de La Poste par Probayes

(métier et SI) et à développer un premier réseau‐ Simplifiée par la mise en place d’un contrat cadre entre La Poste et Probayes

Une extension des sujets de R&D à partir de 2018 pour mieux répondre aux besoins de La Poste avec notamment la réalisation d’un produit de chat bot La Poste

0

10

20

30

40

50

60

Effectif

IllustrationCréation d’un chatbot pour le Groupe La Poste

• BNUM – e-commerce (live mi-juillet) : aider les clients durant leur parcours « Mon Timbre en Ligne » de La Boutique

• LBP – VIC A2G (en cours) : offrir un service d’authentification fort pour souscrire le service Certicode Plus et se familiariser avec les nouvelles technologies SI employées pour des projets d’IA

• LBP – DRHU (en cours) : aider la filière RH à répondre aux questions liées au déploiement du référentiel prospectif de compétences (Compétences 2020) et offrir une 1ère sensibilisation à l’IA

RÉSULTATS

L’ensemble des branches du Groupe La Poste souhaite mettre en place des chatbots ou agents conversationnels afin de répondre à plusieurs objectifs : • Offrir une expérience client fluide et adaptée, via un service

accessible en 24/7 et un dialogue personnalisée• Générer des gains de productivité grâce à la prise en compte des

questions / tâches répétitives (en particulier pour les services clients ou centre de compétences collaborateurs)

• Apporter du business complémentaireObjectif du projet : • Créer les briques technologiques d’une « bot factory » pouvant

répondre aux cas d’usage tout en exploitant pleinement les conversations du Groupe

• Sensibiliser aux questions de « Make or Buy » sur des projets IA, en particulier, sur la souveraineté des données et le passage à l’échelle (maîtrise des coûts au-delà du projet, intégration dans un environnement SI Groupe)

CONTEXTE


• Chatscript• Regex• TF-IDF, embedding Fast Text

• Machine Learning (reg.log.)• Deep Learning (LSTM, CNN)

ILLUSTRATION

Grandes briques d’un chatbot

Un portefeuille client majoritairement auprès de grands comptes

Métiers de ProbayesDes compétences de Probayes centrées sur le machine learning qui recouvrent de très nombreuses spécialités

Algorithmes supervisés quand on dispose dans les données d’apprentissage de la cible à prévoir‒ Regressions linéaires et logistiques‒ Arbre de décision‒ K plus proches voisins‒ Réseaux Bayésien‒ Machines à vecteurs de support

(SVM)‒ Algorithme génétique‒ Modèle de survie‒ Algorithmes dédiés de séries

temporelles (arima, prophet, …) ‒ Réseaux de neurones et deep

learning‒ Natural Language Processing‒ …‒ Méthodes ensemblistes (bagging,

boosting, gradient boosting, stacking, classification multiclasses, Featuresampling) : Random Forests, Gradient Boosting, …

Algorithmes non supervisés quand le système doit trouver seul la similarité entre des données permettant le partionnement de données, la détection d’éléments atypiques et la réduction de dimensions‒ Algorithme des k‐moyennes (k‐

means)‒ Clustering hiérarchique‒ Clustering sur la densité‒ Réduction de dimension / analyse

par composante principale‒ Réseaux de neurones et deep

learning‒ Natural Language Processing‒ …

Algorithmes semi‐supervisés et partiellement supervisés quand pour une partie des données la cible est connue ou si la cible est « presque » connue

Apprentissage par renforcement (reinforcement learning) permettant d’optimiser une succession d’étapes en fonction des récompenses à chaque étape en maximisant la « récompense » finale données à chaque itération du système (ex : score de jeu)‒ Algorithme de Q‐learning (Deep

mind de google)‒ Algorithme Temporal Difference

Learning (TD Learning)‒ Algorithme génétique‒ …

Des projets opérationnels qui nécessiteront en fonction de l’objectif et des données disponibles de l’une ou de plusieurs de ces approches

Métiers de ProbayesDes compétences de Probayes centrées sur le machine learning qui recouvrent de très nombreuses spécialités

Les compétences centrales en machine learning sont complétée par :

Deux expertises scientifiques :‒ En recherche opérationnelle ‐ optimisation pour l’identification de solutions optimales à des problèmes combinatoires

(ordonnancement, tournées, implantation …) ou aléatoires (planification incertaine) ou concurrentiels (politique de prix)

‒ Sur l’ingénierie de chaines de capteurs pour développer des solutions intégrées de fusion de données appliquées aux capteurs : de distance (radar, sonar, lidar ), de mesures (température, vibration, débit, consommation…), de flux vidéo afin de percevoir un environnement, un état, prédire un comportement

Des compétences de conception et de développement SI : ‒ Pour développer les IHM nécessaires (visualisation des résultats, annotations, intégration de règles expertes, gestion de

seuils, …)

‒ Pour intégrer des briques d’Intelligence Artificielle dans les infrastructures SI de ses clients (base relationnelle ou bigdata)

‒ Pour réaliser des produits complets (fraude, management énergétique …)

Des compétences au service de besoins fonction de la maturité des projets

ConseilAide dans le choix des données à exploiter, des projets à mener, etc.

POCEvaluation de la pertinence d’un besoin identifié

PrototypeEvaluation de la solution envisagée au regard d’un besoin métier

IndustrialisationIntégration de la solution déterminée via un POC / prototype à l’environnement du client

MaintenanceMaintenance, pour assurer le support, le bon fonctionnement et l’évolution de la solution déployée

Projets R&DLogique exploratoire par rapport à un domaine de traitement de données déterminé

Les outils algorithmiquesProbayes utilise ces librairies algorithmiques propriétaires ainsi que les librairies open source

Les environnements de développement ProbayesProbayes utilise des notebooks interactifs pour les POC et les environnement standard Big Data pour le déploiement

La sollicitation de l’offre s’effectue de façon simple et réactive :

Contact du pôle Data : [email protected] / [email protected] / [email protected]

Réalisation d’une première réunion pour comprendre le besoin, identifier l’opportunité de s’appuyer sur Probayes et identifier les compétences spécifiques à y solliciter

Réalisation d’une seconde réunion avec Probayes pour approfondir le besoin et comprendre notamment les données disponibles

Proposition d’une démarche et en fonction de l’ampleur contractualiser simplement la prestation en s’appuyant sur le contrat cadre signé entre Probayes et Le Groupe La Poste

Modalités de travail avec le pôle data Groupe et Probayes

Illustration de projets « vision »Aide à la conduite et conduite autonome

Géoptis - Cartographie de la ville

Constructeurs et équipementiers automobileAide à la conduite et conduite autonome

• Création d’un système unique d’anticipation à partir de données capteurs

• Tests et démonstration en conditions réelles prévus en 2018

RÉSULTATS

De nombreuses missions réalisées et 4 projets en cours pour les R&D monde de constructeurs et équipementier avec des travaux sur : • La perception : Fusion de capteurs (Laser, caméra 2D/3D, …)• La détection de piétons, véhicules, cycles, ressources diverses• L’anticipation de comportements • La prévision de trajectoires• L’estimation et la prévision des risques de collision

CONTEXTE


• Convolutionnal Neural Networks (CNN)• HMM (Hidden Markov Model)• Classification par cascades adaboost+ SVM• Calculs géométriques rapides

ILLUSTRATION

Reconnaissance des classes d’objet : voiture, camion, piétons, …

GEOPTISCartographie de la ville

• Reconnaissance des classes du mobilier urbain suivantes : bâtiments, trottoirs, routes, végétation, clôtures, poteaux, feux tricolores, panneaux.

• Etude à mener pour industrialiser et intégrer cette solution au modèle économique de Géoptis

RÉSULTATS

Géoptis souhaite recenser et mesurer tous les éléments présents dans la rue pour répondre aux besoins notamment des collectivités dans la mise en place d’un plan numérique sur l’ensemble du territoire. Dans le cadre du PCRS (plan de corps de rue simplifié), Géoptisveut générer automatiquement de plans de villes annotés 2D avec le mobilier urbain.Objectif du POC : identifier et géolocaliser en 3D le mobilier urbain à partir d’une reconnaissance automatique des images (quartier résidentiel Nantes)Durée : 3 mois

CONTEXTE


• Deep learning - réseaux profonds, 26 couches et 50 couches• Données manipulées sur un quartier d’une ville :

~ 15 000 images~ 670 millions de points 3D (LiDAR avec une précision centimétrique)

ILLUSTRATION

Reconnaissance des classes de mobilier urbain suivantes : bâtiments, trottoirs, routes, végétation, clôtures, poteaux, feux tricolores, panneaux

SegmentationDeep learning

Masques de segmentationImages

GEOPTISCartographie de la ville

Illustrations de projets « logistique et supply chain »BSCC : nouveau Schéma Directeur Transport Colissimo

CMA : optimisations logistiques

BSCC : prévision des flux Colis à traiter en TG1 et TG2

BSCCOptimnet ‐ Optimisation du transport

Le Schéma Directeur traitement et transport Colis évolue afin :• De répondre à la croissance de l’activité• D’optimiser les coûts et la qualité de service• De permettre la mise sur le marché d’une offre Colissimo en J+1

sur un périmètre « national »Objectif du POC : • Modéliser le futur réseau d’acheminement et de distribution des colis• Optimiser la solution de transport associée, en recherchant les

optimums économiques (liaisons, camions…) tout en garantissant la QS

• Permettre le lancement de simulations annuelles/mensuelles pour le test de nouveaux scénarios (volumes, QS, liaisons, hypothèses économiques, …)

CONTEXTE

• Modélisation mathématique du réseau d'acheminement et de distribution des colis intégrant des liaisons directes, traitements départ TG1 plateforme – traitement arrivée TG2, TG1-Hub-TG2 avec cabotage et échange de CM

• Résolution par programmation linéaire- Solutions à 14,99% de la borne inf. en moins de 2h. pour des problèmes à

40 sites (182 528 variables, 4 661 contraintes)- Solutions à 10,79% de la borne inf. en 59h. pour des problèmes à 122

sites (1 505 833 variables, 11 123 contraintes)

RÉSULTATS ATTENDUS (EN COURS)

ILLUSTRATION

Visualisation des solutions via une interface web• Visualisation des flux entrants

et sortants pour chaque site (PFC, PPDC, …)

• Comparaison des indicateurs de différents jeux de test


• Modélisation mathématique basée sur la formulation classique d’un problème de Recherche Opérationnelle (Multi-commodity network design problem)

• Architecture C++• Résolution par Programmation Linéaire en Nombres Entiers avec CPLEX

Références CMA CGMOptimisations logistiques

Objet : optimisation des traversées transocéaniques pour minimiser la consommation en carburant en intégrant : Les contraintes sur les vitesses, les horaires de passages, les zones navigables, …

Les risques météo en fonction des prédiction

Une réactualisation de l’optimisation toutes les heures (suivi online)

Produit en exploitation

Objet : optimisation du coût de repositionnement des conteneurs vides en intégrant : Les contraintes sur les capacités de libres des navires

Les contraintes sur les stockages dans les dépôts et les terminaux

Les contraintes sur le réseau de transport maritime et terrestre

Les prédictions des volumes de conteneurs (projet historique de CMA)

Conseil sur les algorithmes à implémenter

Objet : optimisation du transport des conteneurs pleins en intégrant : Contraintes de transport sur les volumes Origine‐Destination

Contraintes de capacités des navires Contraintes sur le réseau de transport maritime (lignes CMA, Feeders)

Audit de projet

BSCCPrévision des colis à traiter en TG1 et TG2

• Réalisation d’un module de calcul de statistiques :- Nombre de colis ou volume par jour, semaine, mois- Total ou par client- TG1, TG2, Intra zone ou Extra zone

• Module de détection de PFC habituel pour les clients grands comptes- Calcul des sites où les colis de ce client flashent le plus- Comparaison avec le référentiel client

• Prévision du POC (exemple de Carvin) : 82 % du temps < 30 000 colis d’erreurs /semaine (vs. prévision « manuelle » : 40 % du temps)

• Industrialisation en cours

RÉSULTATS

La Poste met en œuvre d’importants moyens de distribution des colis (14 plateformes…) pour servir une grande diversité de clients (grands chargeurs, petits chargeurs et particuliers). Ce domaine est désormais très concurrentiel.Objectif du POC puis industrialisation (TG1 et TG2) : • Améliorer des prévisions de demandes pour pouvoir optimiser ses

opérations : réservation des camions, organisation de la sous-traitance, meilleur dialogue avec les gros chargeurs

• Mettre en place un système de prévision de flux de colis sur des plateformes de tri (IHM web permettant de consulter les données en entrées ainsi que les résultats des traitements)

CONTEXTE


• Construction d’indicateurs pertinents avec l’aide des experts métiers

• Régression linéaire multivariée

• Random Forest• Gradient boosting• Fusion de modèles

ILLUSTRATION

Module de détection pour les clients grands comptes (exemple de Carvin)

Illustration de projets « Optimisation industrielle »ACOEM : maintenance conditionnelle de machine tournante

RIO TINTO : anticiper l’apparition de « champignons sur les anodes »

AREVA – ORANO : optimiser l’exploitation d’un parc d’éolienne

OBJECTIFS Réduire les rebuts (bains d’aluminium) Réduire les arrêts process (opération amonts et avals) Anticiper au plut tôt le changement des anodes malades Minimiser l’effet contagion

DÉMARCHE Isoler le champs de données multi-sources : ERP, MES,

Historian (Osisoft PI), Supervision industrielle Produire des jeux de données (quantitatifs et qualitatifs) Mise en place des algorithmique & Machine Learning de

patterns temporels Industrialisation de la solution prédictive

RESULTATS Anticipation de l’apparition de 6 à 10 jours Réduction significative des rebuts et maitrise des phénomènes de contagion Gain estimé à 1M$ / An / Usine

Rio Tinto AlcanMaitriser le phénomène d’apparition de champignons métallurgiques sur les anodes

OBJECTIFS Fournir un système de diagnostic automatique de défauts

machines Embarquer le système dans les outils de mesure

DEMARCHE Collecter l’expertise métier Modélisation à partir des règles métier Modélisation Bayésienne Implémentation du modèle dans le système embarqué

RESULTATS 90% de détection de pannes Anticipation & gains de temps sur la maintenance Diagnostic automatique et fiable

ACOEMMaintenance conditionnelle de machines tournantes

OBJECTIFS Améliorer le pilotage des exploitants sur un parc de 20 éoliennes Caractériser les alarmes et les évènements Identifier et classifier les états transitoires

DEMARCHE Isoler le champs de données (supervision Industrielle) Produire des jeux de données (quantitatifs et qualitatifs) Mise en place des algorithmes et apprentissage non supervisé Detection de signaux faibles et des états transitoires

RESULTATS 70% des classes de pannes et des scénarios d’usage des

turbines déterminés Amélioration de l’exploitation par une meilleure compréhension

des comportements des turbines

AREVA ‐ ORANOMaitriser le comportement des turbines

Illustration de projets « Marketing et commerciale »Mediaprism – identification des déclencheurs d’achat

BSCC – identification des appels d’offre publics pertinents

• Production d’un code modulaire et parallélisé suivant des standards de développement

• Performances équivalentes aux résultats de l’équipe Mediaprism (AUC : 0,76), mais avec une approche plus générique et donc plus rapidement reproductible

• Travail en cours pour construire une offre maximisant les synergies entre Mediaprism et Probayes

RÉSULTATS

Mediaprism analyse les comportements web des clients pour comprendre les déclencheurs de l’achat afin d’optimiser les campagnes marketing. Pour gagner en efficacité opérationnelle sur la réalisation de telles études, un POC avec les données et l’accord du client BUT a été réalisé.Objectifs du POC : • Construire un modèle explicatif, permettant de trouver les

leviers d’action afin de déclencher l’acte d’achat à partir des comportements de navigation

• Construire un modèle générique, non-spécifique aux données BUT et pouvant s’adapter à une hétérogénéité et un grand volume de données

CONTEXTE


• Random Forest• XGBoost

• Régression logistique pénalisée• Tree-structured Parzen Estimator

ILLUSTRATION

Visualisation de la performance des modèles : courbe ROC

MediaprismPOC But – Déclenchement de l’achat

• Résultats de la classification binaire des offres selon leur pertinence : 13 % de précision pour 95 % de rappel sur la base d’apprentissage

• En pratique, notre modèle permet de diviser par 4 le temps d’analyse manuelle en classant les offres par ordre décroissant de pertinence

• Détection automatique des informations client (numéro SIRET notamment), ce qui permet un gain de temps supplémentaire lors de la qualification des offres

Industrialisation en cours

La BSCC recherche dans les appels d’offres de marchés publics ceux qui sont en adéquation avec leur portefeuille d’offres, afin de les qualifier, d’y répondre et d’orienter les actions des commerciaux. Un grand nombre d’avis est émis quotidiennement et il faut donc pouvoir filtrer efficacement les avis pertinents.L’outil actuel utilisé fonctionne avec une recherche par mots clés et est peu efficace, ce qui implique un important temps d’analyse manuel.Objectif du POC : Détecter et qualifier les avis de marché en utilisant des techniques d’apprentissage automatique


• Analyse de texte (Lemmatisation, TF-IDF, analyse sémantique latente)

• Réseau de neurones de type perceptron multicouche pour la classification et la quantification de la pertinence des avis

ILLUSTRATION

Diagramme du processus d’apprentissage

BSCC ‐ Direction Commerciale ‐ Marchés publicsDétection et qualification d’appels d’offres de marchés publics

RÉSULTATS

CONTEXTE

Documents

PRESENTATION DE PROBAYES - … · • Gains de 10% sur les fraudes à la carte bancaire par rapport à l’outil actuel en place ... Une volonté de souveraineté et d’économie