Upload
dangthuy
View
221
Download
1
Embed Size (px)
Citation preview
PRESENTATION DE PROBAYES
Commençons par nous présenter
Kamel MekhnachaDirecteur Scientifique Probayes
Vincent SagePôle Data Groupe La Poste
Hugues FroehlichManager Datascience Probayes
1. Deux illustrations pour rentrer dans le vif du sujet
2. La présentation de ProbayesSon histoire
Les résultats depuis l’acquisition
Les principaux clients
Les cœurs de métiers
Les modalités de travail avec le Groupe
3. Plus d’exemples de projets menés pour comprendre les compétences et ouvrir chez vous des idées de projets
Projets « vision »
Projets « logistique et supply chain »
Projets « optimisation industrielle »
Projets « Marketing et commercial »
TransactisDétection de la Fraude
• Gains de 10% sur les fraudes à la carte bancaire par rapport à l’outil actuel en place
• Industrialisation en cours
RÉSULTATS
Transactis, filiale monétique commune de la Banque Postale et de la Société Générale, a déployé en 2014 le progiciel leader du marché français assurant sur la détection en temps réel de la fraude
Une fraude résiduelle de l’ordre de 50 M€ avec un taux moyen sur le montant des transactions de 0,07% sur :
• Le paiement de proximité
• Le Retrait
• La VAD (France, SEPA, hors SEPA)
Objectif : détecter 2 à 4 millions € de fraudes supplémentaires VAD en garantissant un taux de pertinence maitrisé avec une évaluationen moins de 50ms pour un pic de charge de 200 transactions par seconde
Durée : POC : nov 2016 ‐ fév 2017 / Indus : Juillet 17 ‐ juillet 2018
CONTEXTE
Approches / technologies utilisées
• RandomForest• Gradiant boosting• …
ILLUSTRATION
FraudIA
FraudIA
BSCCOptimisation reconnaissance automatique des adresses
• LBA : traite avec succès jusqu’à ~90% des plis vidéocodés contre ~50% pour le système actuel
• S2S : un gain de plus de 20% sur les plis dactylographiés avec un taux d’erreur inférieur à celui des vidéocodeurs
• OCR Deep learning : sur uniquement une base d’apprentissage de 2000 images, en moyenne une lecture d’un caractère en moins que l’OCR actuel mais 10% d’adresses lues sur les adresses envoyées au vidéocodage
Décision de lancer des pilotes industriels et de poursuivre les travaux de recherche
RÉSULTATS
Par de nouvelles approches, améliorer la reconnaissance automatique des adresses sur les plis PF et GF qui font l’objet d’améliorations continues depuis longtemps mais dont les résultats peuvent encore être améliorés (gains potentiels à la maille PDI de 20‐30% sur le PF)
3 approches vont être testées :
• Localisation Bloc Adresse Deep Learning (LBA) sur des images de plis GF dactylographiés et manuscrits
• Un algorithme de matching Sequence to Sequence (S2S) à partir de l’historique des traitements
• OCR Deep learning sur des images de plis PF dactylographiés
CONTEXTE
Approches / technologies utilisées
• Réseau Deep learning : approche Faster R‐CNN• Recurent Neural Network• Term frequency‐inverse document frequency (TF‐IDF)• Distance de Levenshtein
ILLUSTRATION
S2S
Présentation générale de Probayes
Créée en 2003 par essaimage INRIA/CNRS/Université avec l’objectif de faire le lien entre la recherche et les besoins industriels en machine learning, modélisation et optimisation
Une acquisition par La Poste en mai 2016 pour disposer d’un centre de compétences en IA
Des besoins opérationnels du Groupe en matière d’intelligence artificielle en forte croissance à la fois sur les activités historiques et pour le développement de nouveaux business
Une volonté de souveraineté et d’économie d’échelle sur les données, les algorithmes et certaines briques logicielles au sein du Groupe
Une acquisition accompagnée d’ambitions importantes
Une montée en compétence sur les métiers, les données et les environnements SI de La Poste
La poursuite du développement auprès de client en dehors du Groupe pour démontrer l’excellence des compétences et avoir un effet de levier avec les projets réalisés pour le Groupe
Le maintien d’activités de Recherche et Développement pour être au contact des futures évolutions en lien avec les laboratoires de recherche et des start‐up
En conséquence, une très forte croissance des effectifs attendus
Les résultats depuis l’acquisition en quelques lignes
Un total de 20 recrutements réalisés entre sept 2016 et déc 2017 soit un doublement des effectifs opérationnels à fin 2017 et 14 planifiés en 2018
Une croissance du CA pour les clients en dehors de groupe La Poste en croissance de plus de 100% entre l’acquisition et fin 2017 et une ambition de croissance de 25% en 2018
De nouveaux grands clients convaincus par les compétences de Probayes avec notamment :
‐ Valeo (sur le véhicule autonome après Toyota et Peugeot)‐ Décathlon et Leroy Merlin sur la logistique‐ Arkema, SOFRADIR, Becton Disckison et Areva‐Orano sur l’industrie
Plus d’une trentaine d’études et de projets menés pour le Groupe La Poste
‐ Pour les 5 branches et auprès de plusieurs de leurs filiales‐ Sur des études courtes (5 jours) à des projets d’industrialisation (>1 an)‐ Ayant permis de développer la connaissance de La Poste par Probayes
(métier et SI) et à développer un premier réseau‐ Simplifiée par la mise en place d’un contrat cadre entre La Poste et Probayes
Une extension des sujets de R&D à partir de 2018 pour mieux répondre aux besoins de La Poste avec notamment la réalisation d’un produit de chat bot La Poste
0
10
20
30
40
50
60
Effectif
IllustrationCréation d’un chatbot pour le Groupe La Poste
• BNUM – e-commerce (live mi-juillet) : aider les clients durant leur parcours « Mon Timbre en Ligne » de La Boutique
• LBP – VIC A2G (en cours) : offrir un service d’authentification fort pour souscrire le service Certicode Plus et se familiariser avec les nouvelles technologies SI employées pour des projets d’IA
• LBP – DRHU (en cours) : aider la filière RH à répondre aux questions liées au déploiement du référentiel prospectif de compétences (Compétences 2020) et offrir une 1ère sensibilisation à l’IA
RÉSULTATS
L’ensemble des branches du Groupe La Poste souhaite mettre en place des chatbots ou agents conversationnels afin de répondre à plusieurs objectifs : • Offrir une expérience client fluide et adaptée, via un service
accessible en 24/7 et un dialogue personnalisée• Générer des gains de productivité grâce à la prise en compte des
questions / tâches répétitives (en particulier pour les services clients ou centre de compétences collaborateurs)
• Apporter du business complémentaireObjectif du projet : • Créer les briques technologiques d’une « bot factory » pouvant
répondre aux cas d’usage tout en exploitant pleinement les conversations du Groupe
• Sensibiliser aux questions de « Make or Buy » sur des projets IA, en particulier, sur la souveraineté des données et le passage à l’échelle (maîtrise des coûts au-delà du projet, intégration dans un environnement SI Groupe)
CONTEXTE
Approches / technologies utilisées
• Chatscript• Regex• TF-IDF, embedding Fast Text
• Machine Learning (reg.log.)• Deep Learning (LSTM, CNN)
ILLUSTRATION
Grandes briques d’un chatbot
Un portefeuille client majoritairement auprès de grands comptes
Métiers de ProbayesDes compétences de Probayes centrées sur le machine learning qui recouvrent de très nombreuses spécialités
Algorithmes supervisés quand on dispose dans les données d’apprentissage de la cible à prévoir‒ Regressions linéaires et logistiques‒ Arbre de décision‒ K plus proches voisins‒ Réseaux Bayésien‒ Machines à vecteurs de support
(SVM)‒ Algorithme génétique‒ Modèle de survie‒ Algorithmes dédiés de séries
temporelles (arima, prophet, …) ‒ Réseaux de neurones et deep
learning‒ Natural Language Processing‒ …‒ Méthodes ensemblistes (bagging,
boosting, gradient boosting, stacking, classification multiclasses, Featuresampling) : Random Forests, Gradient Boosting, …
Algorithmes non supervisés quand le système doit trouver seul la similarité entre des données permettant le partionnement de données, la détection d’éléments atypiques et la réduction de dimensions‒ Algorithme des k‐moyennes (k‐
means)‒ Clustering hiérarchique‒ Clustering sur la densité‒ Réduction de dimension / analyse
par composante principale‒ Réseaux de neurones et deep
learning‒ Natural Language Processing‒ …
Algorithmes semi‐supervisés et partiellement supervisés quand pour une partie des données la cible est connue ou si la cible est « presque » connue
Apprentissage par renforcement (reinforcement learning) permettant d’optimiser une succession d’étapes en fonction des récompenses à chaque étape en maximisant la « récompense » finale données à chaque itération du système (ex : score de jeu)‒ Algorithme de Q‐learning (Deep
mind de google)‒ Algorithme Temporal Difference
Learning (TD Learning)‒ Algorithme génétique‒ …
Des projets opérationnels qui nécessiteront en fonction de l’objectif et des données disponibles de l’une ou de plusieurs de ces approches
Métiers de ProbayesDes compétences de Probayes centrées sur le machine learning qui recouvrent de très nombreuses spécialités
Les compétences centrales en machine learning sont complétée par :
Deux expertises scientifiques :‒ En recherche opérationnelle ‐ optimisation pour l’identification de solutions optimales à des problèmes combinatoires
(ordonnancement, tournées, implantation …) ou aléatoires (planification incertaine) ou concurrentiels (politique de prix)
‒ Sur l’ingénierie de chaines de capteurs pour développer des solutions intégrées de fusion de données appliquées aux capteurs : de distance (radar, sonar, lidar ), de mesures (température, vibration, débit, consommation…), de flux vidéo afin de percevoir un environnement, un état, prédire un comportement
Des compétences de conception et de développement SI : ‒ Pour développer les IHM nécessaires (visualisation des résultats, annotations, intégration de règles expertes, gestion de
seuils, …)
‒ Pour intégrer des briques d’Intelligence Artificielle dans les infrastructures SI de ses clients (base relationnelle ou bigdata)
‒ Pour réaliser des produits complets (fraude, management énergétique …)
Des compétences au service de besoins fonction de la maturité des projets
ConseilAide dans le choix des données à exploiter, des projets à mener, etc.
POCEvaluation de la pertinence d’un besoin identifié
PrototypeEvaluation de la solution envisagée au regard d’un besoin métier
IndustrialisationIntégration de la solution déterminée via un POC / prototype à l’environnement du client
MaintenanceMaintenance, pour assurer le support, le bon fonctionnement et l’évolution de la solution déployée
Projets R&DLogique exploratoire par rapport à un domaine de traitement de données déterminé
Les outils algorithmiquesProbayes utilise ces librairies algorithmiques propriétaires ainsi que les librairies open source
Les environnements de développement ProbayesProbayes utilise des notebooks interactifs pour les POC et les environnement standard Big Data pour le déploiement
La sollicitation de l’offre s’effectue de façon simple et réactive :
Contact du pôle Data : [email protected] / [email protected] / [email protected]
Réalisation d’une première réunion pour comprendre le besoin, identifier l’opportunité de s’appuyer sur Probayes et identifier les compétences spécifiques à y solliciter
Réalisation d’une seconde réunion avec Probayes pour approfondir le besoin et comprendre notamment les données disponibles
Proposition d’une démarche et en fonction de l’ampleur contractualiser simplement la prestation en s’appuyant sur le contrat cadre signé entre Probayes et Le Groupe La Poste
Modalités de travail avec le pôle data Groupe et Probayes
Illustration de projets « vision »Aide à la conduite et conduite autonome
Géoptis - Cartographie de la ville
Constructeurs et équipementiers automobileAide à la conduite et conduite autonome
• Création d’un système unique d’anticipation à partir de données capteurs
• Tests et démonstration en conditions réelles prévus en 2018
RÉSULTATS
De nombreuses missions réalisées et 4 projets en cours pour les R&D monde de constructeurs et équipementier avec des travaux sur : • La perception : Fusion de capteurs (Laser, caméra 2D/3D, …)• La détection de piétons, véhicules, cycles, ressources diverses• L’anticipation de comportements • La prévision de trajectoires• L’estimation et la prévision des risques de collision
CONTEXTE
Approches / technologies utilisées
• Convolutionnal Neural Networks (CNN)• HMM (Hidden Markov Model)• Classification par cascades adaboost+ SVM• Calculs géométriques rapides
ILLUSTRATION
Reconnaissance des classes d’objet : voiture, camion, piétons, …
GEOPTISCartographie de la ville
• Reconnaissance des classes du mobilier urbain suivantes : bâtiments, trottoirs, routes, végétation, clôtures, poteaux, feux tricolores, panneaux.
• Etude à mener pour industrialiser et intégrer cette solution au modèle économique de Géoptis
RÉSULTATS
Géoptis souhaite recenser et mesurer tous les éléments présents dans la rue pour répondre aux besoins notamment des collectivités dans la mise en place d’un plan numérique sur l’ensemble du territoire. Dans le cadre du PCRS (plan de corps de rue simplifié), Géoptisveut générer automatiquement de plans de villes annotés 2D avec le mobilier urbain.Objectif du POC : identifier et géolocaliser en 3D le mobilier urbain à partir d’une reconnaissance automatique des images (quartier résidentiel Nantes)Durée : 3 mois
CONTEXTE
Approches / technologies utilisées
• Deep learning - réseaux profonds, 26 couches et 50 couches• Données manipulées sur un quartier d’une ville :
~ 15 000 images~ 670 millions de points 3D (LiDAR avec une précision centimétrique)
ILLUSTRATION
Reconnaissance des classes de mobilier urbain suivantes : bâtiments, trottoirs, routes, végétation, clôtures, poteaux, feux tricolores, panneaux
SegmentationDeep learning
Masques de segmentationImages
GEOPTISCartographie de la ville
Illustrations de projets « logistique et supply chain »BSCC : nouveau Schéma Directeur Transport Colissimo
CMA : optimisations logistiques
BSCC : prévision des flux Colis à traiter en TG1 et TG2
BSCCOptimnet ‐ Optimisation du transport
Le Schéma Directeur traitement et transport Colis évolue afin :• De répondre à la croissance de l’activité• D’optimiser les coûts et la qualité de service• De permettre la mise sur le marché d’une offre Colissimo en J+1
sur un périmètre « national »Objectif du POC : • Modéliser le futur réseau d’acheminement et de distribution des colis• Optimiser la solution de transport associée, en recherchant les
optimums économiques (liaisons, camions…) tout en garantissant la QS
• Permettre le lancement de simulations annuelles/mensuelles pour le test de nouveaux scénarios (volumes, QS, liaisons, hypothèses économiques, …)
CONTEXTE
• Modélisation mathématique du réseau d'acheminement et de distribution des colis intégrant des liaisons directes, traitements départ TG1 plateforme – traitement arrivée TG2, TG1-Hub-TG2 avec cabotage et échange de CM
• Résolution par programmation linéaire- Solutions à 14,99% de la borne inf. en moins de 2h. pour des problèmes à
40 sites (182 528 variables, 4 661 contraintes)- Solutions à 10,79% de la borne inf. en 59h. pour des problèmes à 122
sites (1 505 833 variables, 11 123 contraintes)
RÉSULTATS ATTENDUS (EN COURS)
ILLUSTRATION
Visualisation des solutions via une interface web• Visualisation des flux entrants
et sortants pour chaque site (PFC, PPDC, …)
• Comparaison des indicateurs de différents jeux de test
Approches / technologies utilisées
• Modélisation mathématique basée sur la formulation classique d’un problème de Recherche Opérationnelle (Multi-commodity network design problem)
• Architecture C++• Résolution par Programmation Linéaire en Nombres Entiers avec CPLEX
Références CMA CGMOptimisations logistiques
Objet : optimisation des traversées transocéaniques pour minimiser la consommation en carburant en intégrant : Les contraintes sur les vitesses, les horaires de passages, les zones navigables, …
Les risques météo en fonction des prédiction
Une réactualisation de l’optimisation toutes les heures (suivi online)
Produit en exploitation
Objet : optimisation du coût de repositionnement des conteneurs vides en intégrant : Les contraintes sur les capacités de libres des navires
Les contraintes sur les stockages dans les dépôts et les terminaux
Les contraintes sur le réseau de transport maritime et terrestre
Les prédictions des volumes de conteneurs (projet historique de CMA)
Conseil sur les algorithmes à implémenter
Objet : optimisation du transport des conteneurs pleins en intégrant : Contraintes de transport sur les volumes Origine‐Destination
Contraintes de capacités des navires Contraintes sur le réseau de transport maritime (lignes CMA, Feeders)
Audit de projet
BSCCPrévision des colis à traiter en TG1 et TG2
• Réalisation d’un module de calcul de statistiques :- Nombre de colis ou volume par jour, semaine, mois- Total ou par client- TG1, TG2, Intra zone ou Extra zone
• Module de détection de PFC habituel pour les clients grands comptes- Calcul des sites où les colis de ce client flashent le plus- Comparaison avec le référentiel client
• Prévision du POC (exemple de Carvin) : 82 % du temps < 30 000 colis d’erreurs /semaine (vs. prévision « manuelle » : 40 % du temps)
• Industrialisation en cours
RÉSULTATS
La Poste met en œuvre d’importants moyens de distribution des colis (14 plateformes…) pour servir une grande diversité de clients (grands chargeurs, petits chargeurs et particuliers). Ce domaine est désormais très concurrentiel.Objectif du POC puis industrialisation (TG1 et TG2) : • Améliorer des prévisions de demandes pour pouvoir optimiser ses
opérations : réservation des camions, organisation de la sous-traitance, meilleur dialogue avec les gros chargeurs
• Mettre en place un système de prévision de flux de colis sur des plateformes de tri (IHM web permettant de consulter les données en entrées ainsi que les résultats des traitements)
CONTEXTE
Approches / technologies utilisées
• Construction d’indicateurs pertinents avec l’aide des experts métiers
• Régression linéaire multivariée
• Random Forest• Gradient boosting• Fusion de modèles
ILLUSTRATION
Module de détection pour les clients grands comptes (exemple de Carvin)
Illustration de projets « Optimisation industrielle »ACOEM : maintenance conditionnelle de machine tournante
RIO TINTO : anticiper l’apparition de « champignons sur les anodes »
AREVA – ORANO : optimiser l’exploitation d’un parc d’éolienne
OBJECTIFS Réduire les rebuts (bains d’aluminium) Réduire les arrêts process (opération amonts et avals) Anticiper au plut tôt le changement des anodes malades Minimiser l’effet contagion
DÉMARCHE Isoler le champs de données multi-sources : ERP, MES,
Historian (Osisoft PI), Supervision industrielle Produire des jeux de données (quantitatifs et qualitatifs) Mise en place des algorithmique & Machine Learning de
patterns temporels Industrialisation de la solution prédictive
RESULTATS Anticipation de l’apparition de 6 à 10 jours Réduction significative des rebuts et maitrise des phénomènes de contagion Gain estimé à 1M$ / An / Usine
Rio Tinto AlcanMaitriser le phénomène d’apparition de champignons métallurgiques sur les anodes
OBJECTIFS Fournir un système de diagnostic automatique de défauts
machines Embarquer le système dans les outils de mesure
DEMARCHE Collecter l’expertise métier Modélisation à partir des règles métier Modélisation Bayésienne Implémentation du modèle dans le système embarqué
RESULTATS 90% de détection de pannes Anticipation & gains de temps sur la maintenance Diagnostic automatique et fiable
ACOEMMaintenance conditionnelle de machines tournantes
OBJECTIFS Améliorer le pilotage des exploitants sur un parc de 20 éoliennes Caractériser les alarmes et les évènements Identifier et classifier les états transitoires
DEMARCHE Isoler le champs de données (supervision Industrielle) Produire des jeux de données (quantitatifs et qualitatifs) Mise en place des algorithmes et apprentissage non supervisé Detection de signaux faibles et des états transitoires
RESULTATS 70% des classes de pannes et des scénarios d’usage des
turbines déterminés Amélioration de l’exploitation par une meilleure compréhension
des comportements des turbines
AREVA ‐ ORANOMaitriser le comportement des turbines
Illustration de projets « Marketing et commerciale »Mediaprism – identification des déclencheurs d’achat
BSCC – identification des appels d’offre publics pertinents
• Production d’un code modulaire et parallélisé suivant des standards de développement
• Performances équivalentes aux résultats de l’équipe Mediaprism (AUC : 0,76), mais avec une approche plus générique et donc plus rapidement reproductible
• Travail en cours pour construire une offre maximisant les synergies entre Mediaprism et Probayes
RÉSULTATS
Mediaprism analyse les comportements web des clients pour comprendre les déclencheurs de l’achat afin d’optimiser les campagnes marketing. Pour gagner en efficacité opérationnelle sur la réalisation de telles études, un POC avec les données et l’accord du client BUT a été réalisé.Objectifs du POC : • Construire un modèle explicatif, permettant de trouver les
leviers d’action afin de déclencher l’acte d’achat à partir des comportements de navigation
• Construire un modèle générique, non-spécifique aux données BUT et pouvant s’adapter à une hétérogénéité et un grand volume de données
CONTEXTE
Approches / technologies utilisées
• Random Forest• XGBoost
• Régression logistique pénalisée• Tree-structured Parzen Estimator
ILLUSTRATION
Visualisation de la performance des modèles : courbe ROC
MediaprismPOC But – Déclenchement de l’achat
• Résultats de la classification binaire des offres selon leur pertinence : 13 % de précision pour 95 % de rappel sur la base d’apprentissage
• En pratique, notre modèle permet de diviser par 4 le temps d’analyse manuelle en classant les offres par ordre décroissant de pertinence
• Détection automatique des informations client (numéro SIRET notamment), ce qui permet un gain de temps supplémentaire lors de la qualification des offres
Industrialisation en cours
La BSCC recherche dans les appels d’offres de marchés publics ceux qui sont en adéquation avec leur portefeuille d’offres, afin de les qualifier, d’y répondre et d’orienter les actions des commerciaux. Un grand nombre d’avis est émis quotidiennement et il faut donc pouvoir filtrer efficacement les avis pertinents.L’outil actuel utilisé fonctionne avec une recherche par mots clés et est peu efficace, ce qui implique un important temps d’analyse manuel.Objectif du POC : Détecter et qualifier les avis de marché en utilisant des techniques d’apprentissage automatique
Approches / technologies utilisées
• Analyse de texte (Lemmatisation, TF-IDF, analyse sémantique latente)
• Réseau de neurones de type perceptron multicouche pour la classification et la quantification de la pertinence des avis
ILLUSTRATION
Diagramme du processus d’apprentissage
BSCC ‐ Direction Commerciale ‐ Marchés publicsDétection et qualification d’appels d’offres de marchés publics
RÉSULTATS
CONTEXTE