32
BigData décisionnel multiéchelle David Combe

Big Data à destination du secteur commercial

Embed Size (px)

DESCRIPTION

A quelles question le BigData peut-il répondre ? Quels outils utiliser ? Comment traiter les données liées ? Quels sont les outils de machine learning qui peuvent vous être utiles ? Voici une présentation que j'ai faite dans la préparation d'un entretien d'embauche. N'ayant aucune nouvelle depuis elle a toute sa place sur Slideshare :-/

Citation preview

Page 1: Big Data à destination du secteur commercial

BigData décisionnel multiéchelle

David Combe

Page 2: Big Data à destination du secteur commercial

2

Plan

2. Scoring

4. Volume

3. Résultat

1. Objectif

5. Tâches

Page 3: Big Data à destination du secteur commercial

1. OBJECTIF

Page 4: Big Data à destination du secteur commercial

5

Pistes d’amélioration de l’efficacité• Détection de fraude

• Recommandation

• Simplification du parcours dans le site

• Bonnes pistes de diversification

• Politique d’achat

Page 5: Big Data à destination du secteur commercial

7

Données

• Visite/intérêt• Chemin de visite/Nb de visites

• Achat• Achat simultané/Nb de ventes

• Comportement• Source/Nb de clics dans une zone

• Concurrence• Proximité d’enseignes concurrentes proches du client/Prix chez la concurrence

• Fournisseurs (prix des fournisseurs)• Fournisseurs approvisionnés pour un article/Prix min d’un article chez tous les

fournisseurs

• Tendances• Dénominations vestimentaires les plus employées dans les blogs/Facteur

d’évolution des ventes depuis le mois dernier

• Communication / service après vente• Tweets ayant provoqué le plus de réactions/Nb de retours par article

Page 6: Big Data à destination du secteur commercial

8

L’analyse de données, quel intérêt ?

Visite/intérêt Achat Comportement Concurrence

Fournisseurs (prix des fournisseurs) Tendances

Achat

Que se mettre à acheter, produits subissant une hausse d'intérêt non anticipée ?

Comportement

Quel fonctionnalités sont les plus utilisées selon le type d'objet recherché ?

Quels sont les comportements qui traduisent un achat futur ?

Concurrence

Somme-nous considérés par les clients pour les produits à forte concurrence (SEO) ?

Quels sont les produits sur lesquels il sera possible d'augmenter les marges ?

Quelles fonctionnalités sont à privilégier pour les produits les plus concurrentiels ?

Fournisseurs (prix des fournisseurs)

Quel est la réaction des fournisseurs vis-à-vis de l'évolution de l'attractivité de leurs produits ?

Sera-t-il possible d'écouler le stock si on passe une plus grosse commande à prix réduit ?

Les visiteurs appréciant une marque particulière ont-ils des caractéristiques propres ?

Les concurrents bénéficient-ils de conditions plus favorables de la part des fournisseurs ?

TendancesNos clients sont-ils des hipsters ou des suiveurs/no fashion ?

Nos clients sont-ils sensibles aux tendances ?

Les hipsters ont-ils des comportements spécifiques ?

Les concurrents ont-ils mieux anticipé les tendances que nous ?

Les fournisseurs ont-ils anticipé les tendances ?

Communication / service après vente

Quels sont les produits qui provoquent le plus de requêtes SAV, commentaires, demandes de renseignement ?

Y a-t-il des produits qui buzzent mais que les gens évitent ?

Quels comportements traduisent un besoin de se renseigner ?

Génère-t-on autant de commentaires que la concurrence ?

Quels fournisseurs sont à éviter pour éviter les retours ? Sur quels produits communiquer ?

Y a-t-il des nouveaux produits qui génèrent du buzz/de l'intérêt/des pannes ?

Page 7: Big Data à destination du secteur commercial

9

Décisions

• Achats

• Stocks

• Prix

• Enchères et mots-clés publicitaires

• Communication

• Ergonomie

Page 8: Big Data à destination du secteur commercial

2. SCORING/QUANTIFICATION

Page 9: Big Data à destination du secteur commercial

11

Paradigme éprouvé

Données atomiques

Données agrégée (group by/OLAP)selon des catégories métier (ventes par région/secteur…)

Page 10: Big Data à destination du secteur commercial

12

Chaque information supplémentaire introduite est susceptible d’éclairer le décideur

• Quels sont les produits que les gens achètent le plus ? (du papier toilette)

• +temps -> Quels sont les produits que les gens achètent le plus en ce moment ? (des glaces)

• +age -> Quels sont les produits que les gens de votre âge achètent le plus ? (du coca-cola)

• +nb d’enfants -> des barres chocolatées

• recommandations plus pertinentes

• Quels sont les produits que, compte tenu de vos caractéristiques, vous êtes plus susceptible d’acheter qu’une autre personne qui aurait des caractéristiques proches MOINS une caractéristique précise.

Page 11: Big Data à destination du secteur commercial

14

Distribution réelle vs. Distribution aléatoire

• Dans les graphes

• Dans les nombres• Via la variance/l’inertie

• Comme dans d’autres domaines…• Reconnaissance de visages

Page 12: Big Data à destination du secteur commercial

15

Principe

• L’important n’est pas les chiffres mais l’inégalité entre les chiffres.• Au point que si toutes les valeurs sont égales

aucun résultat ne peut être calculé.

• Importance des proportions, pas des chiffres dans l’absolu.

• Insensible aux combinaisons linéaires• Données nomalisées

Page 13: Big Data à destination du secteur commercial

16

Un recul sur les graphes

• Méthode efficace

• La parallélisation n’est même pas considérée comme nécessaire.

http://ej.iop.org/images/1742-5468/2008/10/P10008/Full/9239901.jpg

Page 14: Big Data à destination du secteur commercial

17

Exemple

Voice on the Border: Do Cellphones Redraw the Maps?Vincent Blondel, Pierre Deville, Frédéric Morlot, Zbigniew Smoreda, Paul Van Dooren & Cezary Ziemlicki / Researchers, Catholic University of Louvain (Belgium) and Orange Labs / November 15th, 2011http://www.paristechreview.com/2011/11/15/voice-border-cellphones-redraw-maps/

Détection de communautés basée sur les communications par téléphones portables (données issues des communications inter-antennes)

Page 15: Big Data à destination du secteur commercial

18

Relations en eCommerce

• Co-achats, produits visités les uns à la suite des autres, comptes, graphe visiteur-commentaire, produits notés par une même personne, produits d’une même marque, produits partageant X mots dans leur intitulé, distance entre les points de livraison, produits d’un même fournisseur qui se sont vu être hors stock en même temps (valué par le nombre de jours), clients atteints par les opérations commerciales

• Nb d’attributs RDF partagés par les articles, distance des articles entre eux dans l’arborescence du magasin, quels sont les paires de produits co-visités le plus souvent par les personnes qui cherchent un parasol ?, quels sont les termes de recherche qui ont été le plus co-recherchés par les visiteurs

Page 16: Big Data à destination du secteur commercial

19

Niches de ROI

• Segmentation

• Automatisation

• SEO

• Accélérer la navigation

• Recommandation/sérendipité

• Eviter les ambiguïtés dans les BDD

• Eviter la fraude

• Aider à la prise de décision

Page 17: Big Data à destination du secteur commercial

20

Choix des variables

• On choisit éventuellement un sous-ensemble des données

• On choisit un ensemble de relations et d’attributs positifs par rapport au but• Par exemple, la vente d’un produit et leur co-visite par un

même utilisateur

• On choisit un ensemble de relations et d’attributs négatifs par rapport au but• Par exemple, le coût en publicité pour chaque produit et le

ratio « page de sortie » pour le produit.

• On propose un synthèse à travers laquelle les relations et les attributs ont été normalisés• intérêt de proposer des articles en prenant simultanément

plusieurs facteurs a priori indépendants et complémentaires, basés sur leur popularité et leur coût de promotion.

Page 18: Big Data à destination du secteur commercial

21

Choix des variables (suite)

• Possibilité de prendre en compte le temps en choisissant :• Positif

• Le CA par rayon du mois dernier

• Négatif• Le CA par rayon du même mois de l’année dernière

• On fait ressortir les plus fortes hausses et les plus fortes baisses, en les détectant des communautés de rayons selon ce critère.

Page 19: Big Data à destination du secteur commercial

RESTITUTION DES

RÉSULTATS/VISUALISATION

Page 20: Big Data à destination du secteur commercial

24

Visualisation

• Communautés

• Hiérarchies de communautés

• Listes

• Nuages de tags

• (dendogrammes)

• …

Page 21: Big Data à destination du secteur commercial

TRAITEMENT

Page 22: Big Data à destination du secteur commercial

27

Données

Rayon, CA en k€

Puériculture 84

Hifi 98

Maquillage 45

Sous-vêtements 41

Co-achat (rayon A, rayon B, nb de « co-achats »)

Puériculture Hifi 2

Maquillage Puériculture 45

Hifi Sous-vêtements 14

Maquillage Sous-vêtements 15

On pourra déduire de ces données quels sont les articles secondaires à promouvoir en catalogue si on veut intéresser les gens qui dépensent dans un rayon à fort CA, sans trop mettre en avant les rayons à fort CA eux-mêmes.

Page 23: Big Data à destination du secteur commercial

28

MapReduce est limité ici

• MapReduce n’est pas adapté aux opérations sur les graphes

• Le nombre d’itérations est important pour le traitement parallélisé de graphes

• La matérialisation de résultats intermédiaires à chaque itération MapReduce pénalise les performances

Page 24: Big Data à destination du secteur commercial

29

Pregel (Google) « Think like a vertex »

Page 25: Big Data à destination du secteur commercial

30

Une itération dans Pregel/Giraph

Page 26: Big Data à destination du secteur commercial

31

Processing

• BigData sur des graphes : un sujet émergeant• Des plateformes

• Apache Giraph

• GraphX pour Spark

• PostDocs, stage

• Projets préliminaires

Page 27: Big Data à destination du secteur commercial

32

Giraph

Page 28: Big Data à destination du secteur commercial

33

GraphX a pour ambition d’unifier les 2 paradigmes

Page 29: Big Data à destination du secteur commercial

EN PRATIQUE

Page 30: Big Data à destination du secteur commercial

35

Tâches• PoC

• Démonstration de pertinence

• Viabilité du passage à l’échelle

• Data processing• Infrastructure de traitement des données

• Map()

• Reduce()

• Comportement Giraph/GraphX

• …ou autre chose (temps réel…)

• Gestion de l’intelligence intermachines/intercommunautés

Page 31: Big Data à destination du secteur commercial

36

Tâches (suite)

• UX / UI design• Visualisation / Interface de commande

• Interfaçage• Interface avec des outils existants

• Pour un déploiement• Définition d’un catalogue d’attributs/liens pertinents,

politique d’interprétation des données manquantes, un mode d’interrogation (batch/interactif)

Page 32: Big Data à destination du secteur commercial

37

Conclusion

Production de communautés multi-échelles à partir de données positives et négatives, voire temporelles

Paradigme de calcul très récent (publié en 2010 par Google) et utilisé par Yahoo, Facebook, LinkedIn, Twitter

Production de communautés répondant aux critères, visant l’intéractivité et la hiérarchisation automatique des données

Repose sur un principe d’auto-organisation

Plateforme pour l’ntelligence décisionnelle, adaptable et permettant l’analyse de données sous forme de relations et d’attributs numériques