View
212
Download
0
Category
Preview:
Citation preview
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
UN CHANGEMENT DE PARADIGME DANS LA
PRÉPARATION DES DONNÉES
L’ANALYSE VISUELLE ET LE BIG DATA
Bernard Blais
Directeur Principal
Analytique Haute Performance
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Copyright © 2012, SAS Institute Inc. All rights reserved.
CONTENU L’ANALYSE VISUELLE ET LE BIG DATA
Big Data - Une nouvelle définition de Big Data qui concerne tout le monde;
Visualisation des Données - L‟utilisation de nouveaux outils de visualisation des données;
Préparation des données - La préparation des données en vue d‟une exploration visuelle, dans une approche Big Data;
Analyse En Amont - L‟utilisation de techniques d‟analyses avancées en amont, pour accélérer la préparation des données;
Démocratisation de L‟Analytique - Augmenter la maturité analytique de l‟organisation
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
BIG DATA
UNE NOUVELLE DÉFINITION DE BIG DATA QUI CONCERNE TOUT LE MONDE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
VOLUME
VARIÉTÉ
VÉLOCITÉ
AUJOURD‟HUI DEMAIN
Qu
an
tité
de
Do
nn
ée
s
BIG DATA – LE DÉFI
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Copyright © 2012, SAS Institute Inc. All rights reserved.
Copyright © 2012, SAS Institute Inc. All rights reserved.
RETOUR SUR LA NOTION DE “BIG DATA”
Copyright © 2012, SAS Institute Inc. All rights reserved.
Notre Perspective
Big Data est une notion RELATIVE …et non pas ABSOLUE!!!
Big Data
Lorsque le volume, la vitesse ou la variété des données dépassent la capacité de traitement ou de stockage d’une organisation, pour livrer à temps une information fiable et précise, afin de soutenir la prise des meilleures décisions.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
GRANDE
PRÉCISION
HAUTE
PERFORMANCE
AMPLITUDE ET
PROFONDEUR
MEILLEURE
DÉCISIONS
SAS® ANALYTIQUES HAUTE PERFORMANCE
Copyright © 2012, SAS Institute Inc. All rights reserved.
Liste de contrôle:
Analytique
pour le Big Data
Une architecture flexible qui supporte plusieurs types de données et d‟utilisation
Une utilisation en amont qui permet d‟optimiser la préparation et la pertinence des données
Une exploration et une analytique visuelle permettant d‟accélérer la compréhension et le plan d‟action
Une approche collaborative entre la technologie et les gens d‟affaires
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
L’APPROCHE SAS
ANALYTIQUE AVANCÉE ET BIG DATA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
L’ESSENCE D’UN ORDINATEUR…
Que ce soit un ordinateur personnel ou un serveur d‟entreprise,
leurs architectures respectives comportent les mêmes trois composantes
essentielles:
Disque
RAM MÉMOIRE VIVE
STOCKAGE
TRAITEMENT CPU CPU
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
TRAITEMENT DISTRIBUÉ
Métadonnées
Serveur Web
Serveur VA
Serveur SAS
Données co-localisées
SAS® LASR Analytic Server
Serveur Distribué
Hadoop SGBD Non-relationnel ERP Click Stream Fichiers PC
MÉMOIRE VIVE
STOCKAGE
TRAITEMENT
STOCKAGE
EXTERNE
Données co-localisées
SAS® LASR Analytic Server
Serveur Distribué
Données co-localisées
SAS® LASR Analytic Server
Serveur Distribué
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
TRAITEMENT DISTRIBUÉ
Hadoop SGBD Non-relationnel ERP Click Stream Fichiers PC
Métadonnées
Serveur Web
Serveur VA
Serveur SAS
Données co-localisées
SAS® LASR Analytic Server
Serveur Distribué
Données co-localisées
SAS® LASR Analytic Server
Serveur Distribué
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
L’APPROCHE SAS - RÉSUMÉ
Données en mémoire
Permet une lecture ultra-rapide
Parallélisme Extrême
Utilisation à pleine capacité de tous les cœurs des unités de traitement
Distribution des Capacités Analytiques
Exploitation de la mémoire *et* des unités de traitement distribuées
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
AUTRES AVANTAGES DE L’APPROCHE SAS
Très simple d’ajouter de la mémoire et des ressources de traitement
Limites extrêmes en matière de:
Nombre de serveurs(**) et d‟unités centrales de traitement
Mémoire vive (RAM) et tables chargées
Utilisateurs concurrentiels
Performance est indépendante du stockage des données, du système de
production ou de la source de données (base de données relationnelles, etc.)
(**) Client avec 200+ serveurs de type « blade »
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
VISUALISATION DES DONNÉES
NOUVEAUX OUTILS DE VISUALISATION POUR LE BIG DATA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
$-
$500
$1,000
$1,500
$2,000
$2,500
$3,000
$3,500
$4,000
Janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre
Domestique International
VERSUS
Janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre
Domestique $1,983 $2,343 $2,593 $2,283 $2,574 $2,838 $2,382 $2,634 $2,938 $2,739 $2,983 $3,493
International $574 $636 $673 $593 $644 $679 $593 $139 $599 $583 $602 $690
$2,557 $2,979 $3,266 $2,876 $3,218 $3,517 $2,975 $2,773 $3,537 $3,322 $3,585 $4,183
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
VISUALISATION
DES DONNÉES VISUALISER LE BIG DATA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DÉMONSTRATION
SAS® VISUAL ANALYTICS – VISUALISATION DE BIG DATA
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION DES DONNÉES
OBJECTIF: TABLE ANALYTIQUE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE UN EXEMPLE…
Les données de départ:
• Peu d‟informations contextuelles;
• Viennent probablement d‟une BDR
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE UN EXEMPLE…
Étape 1:
• Reformatter en une
table analytique
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE UN EXEMPLE…
Étape 2: Préparer les
éléments qui peuvent
être perçus
différemment par les
analystes (exemple:
dates)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE UN EXEMPLE…
Étape 2: Préparer les
éléments qui peuvent
être perçus
différemment par les
analystes (exemple:
hiérarchie de produits)
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE
ENRICHISSEMENT DES DONNÉES –
CRÉER DES OPPORTUNITÉS D’ANALYSE
Étape 3 : Ajouter des informations additionnelles
• Température locale au moment de la transaction
• Les coordonnées géographiques de chaque transaction
• Créer des sous-groupes (âge, revenu familial, ethnicité, …)
• Créer des opportunités de hiérarchies
• Exemple: pays – province – ville…
• Etc…
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE UN EXEMPLE…
La table analytique finale:
• Dé-normalisée;
• Contient le plus possible de champs descriptifs pour
chaque rangée
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE EN RÉSUMÉ…
Ce qu’on a accompli:
Qualité des Données
Pertinence des Données
Données Dé-Normalisées
Données Enrichies
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
L’ANALYSE EN AMONT
OBJECTIF: ACCÉLÉRER LA PRÉPARATION DES DONNÉES
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ANALYSE
EN AMONT
ETL CUBE BI
BI TRADITIONNEL
ANALYTIQUE HAUTE PERFORMANCE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PROFILAGE
DES DONNÉES SE FAMILIARISER AVEC LES DONNÉES
À l‟ouverture du fichier, on devrait immédiatement
avoir une idée:
• Des champs disponibles, du type (catégorie, date,
numérique, etc.);
• De la cardinalité de chaque champ.
• Dans les pages suivantes nous couvrirons des
exemples d‟exploration initiale.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PROFILAGE
DES DONNÉES TEMPS DE TRANSACTIONS
Percevoir la couverture de tout champ de date
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PROFILAGE
DES DONNÉES TEMPS DE TRANSACTIONS
Détection immédiate de toute date hors normes
Dans cet exemple,
nous avons 24
enregistrement datés
de 2012
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PROFILAGE
DES DONNÉES CONTENU DES CATÉGORIES
Survol immédiat de la distribution de toute
catégorie
En changeant simplement le visuel désiré,
on peut créer une liste des contenus
uniques…
…auquel on peut
rapidement ajouter
des mesures
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PROFILAGE
DES DONNÉES DISTRIBUTION DES DONNÉES
Toute mesure numérique peut être vue en survol
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PROFILAGE
DES DONNÉES DISTRIBUTION DES DONNÉES PAR CATÉGORIE
En utilisant la boîte à moustache, on peut voir immédiatement la
distribution de certaines données par catégorie. Cela permet d‟identifier:
Données aberrantes et hors-normes;
Moyenne, médiane, déviation standard, minimum et maximum,
Vérifier que
mon code de
groupe d‟âge
est bien
programmé
…ou la
moyenne
d‟âge de mes
employés
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
EXPLORATION
DES DONNÉES APPLYING FILTERS
By applying filters, for any
visual we can:
See an overview of the data
distribution
Focus on segments of our
data
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ENRICHISSEMENT
DES DONNÉES CRÉER DES OPPORTUNITÉS D’ANALYSE
Qualité des données:
• Retirer les données hors-normes (dates, outliers, )
• Détecter et retirer les copies/duplicata
• Température locale au moment de la transaction?
• Les coordonnées géographiques de chaque transaction?
• Créer des sous-groupes (âge, revenu familial, ethnicité, …)
• Créer des opportunités de hiérarchies:
• Année – Mois – Semaine – Jour – heure;
• Groupe de produit – sous-groupes – SKUs
• Géographie
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
PRÉPARATION
TABLE ANALYTIQUE EN RÉSUMÉ…
Ce qu’on a accompli:
Qualité des Données
Pertinence des Données
Données Dé-Normalisées
Données Enrichies
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DÉMOCRATISATION DE L’ANALYTIQUE
RENDRE ACCESSIBLE L’ANALYTIQUE AVANCÉE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ANALYTIQUE
AVANCÉE DÉMOCRATISER L’ANALYTIQUE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
DÉMONSTRATION
SAS® VISUAL ANALYTICS – ANALYTIQUE AVANCÉE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ANALYTIQUE
AVANCÉE DÉMOCRATISER L’ANALYTIQUE
Rendre disponible et accessible l‟analytique avancée
Comprendre l‟impact pour les décisions d‟affaires
Augmenter le niveau de maturité analytique de l‟organisation
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CONTENU L’ANALYSE VISUELLE ET LE BIG DATA
Big Data - Une nouvelle définition de Big Data qui concerne tout le monde;
Visualisation des Données - L‟utilisation de nouveaux outils de visualisation des données;
Préparation des données - La préparation des données en vue d‟une exploration visuelle, dans une approche Big Data;
Analyse En Amont - L‟utilisation de techniques d‟analyses avancées en amont, pour accélérer la préparation des données;
Démocratisation de L‟Analytique - Augmenter la maturité analytique de l‟organisation
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
L’APPROCHE SAS – ANALYTIQUE HAUTE PERFORMANCE
EXEMPLES CONCRETS
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
IMPLICATIONS – EXEMPLES D’AFFAIRES
1. Vente au détail – analyse du panier d‟achat
2. Gouvernemental – analyse des accidents de la route
3. Services publics – consommation d‟électricité
4. Services conseils – intelligence marketing
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
1. ANALYSE DU PANIER DE CONSOMMATION
Analyse de la fréquence d‟achat d‟un produit particulier en fonction de la présence d‟autres produits dans un même « panier »
Pour 100 catégorie de produits, une matrice de 10 000 interactions
CONTEXTE:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
1. ANALYSE DU PANIER DE CONSOMMATION
Les résultats typiques d‟une interaction de régression:
Difficile à lire, à interpréter, à comprendre
L‟analyse demeure la chasse gardée des experts/statisticiens
PROBLÉMATIQUE:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
1. ANALYSE DU PANIER DE CONSOMMATION – AVEC SAS VISUAL ANALYTICS
RÉSULTATS: Visualisation Immédiate de l‟ensemble des données, et cibler les relations les plus importantes
Les gens d‟affaires peuvent maintenant explorer et analyser les résultats
SOLUTIONS: SAS® Enterprise Miner et SAS ® Visual Analytics
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
1. ANALYSE DU PANIER DE CONSOMMATION – AVEC SAS VISUAL ANALYTICS
RÉSULTATS:
Interagir avec les résultats, afin de cibler les catégories de produits les plus
profitables
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
2. ANALYSE DES ACCIDENTS DE LA ROUTE
Source: NHTSA (USA‟s National Highway Traffic Safety Administration)
Information publique sur la sécurité routière aux États-Unis.
Les données: 700,000 entrées sur des incidents / accidents routiers:
Véhicules: marque et modèle, date de fabrication, date d‟achat, problèmes connus,
kilométrage, nombre de cylindres, etc… pour chaque véhicules
Composantes (385): coussins gonflables, siège pour enfant , système électrique,
moteur, etc
Accidents: vitesse, endroit, blessures, décès, etc
CONTEXTE:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
2. ANALYSE DES ACCIDENTS DE LA ROUTE – LES DONNÉES
Données non-structurées
Classification peu fiable
Données difficile à naviguer
Aucun „résultats‟ précis
PROBLÉMATIQUE:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
82 SECONDS
5½ HRS
2. ANALYSE DES ACCIDENTS DE LA ROUTE – FORAGE DE TEXTE
Objectif: parfaire la
catégorisation des
éléments de
chaque rapports
d‟accidents
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
2. ANALYSE DES ACCIDENTS DE LA ROUTE – VISUAL ANALYTICS
SOLUTIONS:
SAS® Text Analytics et
SAS ® Visual Analytics
RÉSULTATS:
Catégorisation améliorée de 20%
Visualisation immédiate des différents
accidents et incidents, par type de
véhicule,
condition de la route et météo, facteur
causant l‟accident, etc.
Surfacer les éléments les plus
troublants, trouver liens et dépendances
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Source: Oklahoma Gas & Electric Company (OG&E)
800 000 clients dans l‟Oklahoma et l‟ouest de l‟Arkansas. Gagnant du “service
Publique de l‟année” (2011)
3. CONSOMMATION D’ÉLECTRICITÉ
CONTEXTE:
Prévision statistiques de l‟utilisation, en vue d‟optimiser la production et la distribution
d‟électricité.
1 seule lecture par mois par client (800 000) – limite du traitement de volume des
données
PROBLÉMATIQUE:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
30,000 lectures
12 lectures
3. CONSOMMATION D’ÉLECTRICITÉ
RÉSULTATS:
En embrassant le Big Data, ils ont pu passer de 1 lecture par
mois par client, à 1 lecture aux 15 minutes (3000 / mois).
Le processus de prévision prenait 2-3 jours, maintenant se
fait en quelques heures.
L‟exactitude des prévisions a grimpé dramatiquement.
SOLUTIONS:
SAS® Analytics
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Source: SM – marketing Convergence Inc.
Production des coupons rabais et programmes de loyauté
Analyse des données de plus de 500 entreprises commerciales et magasins
> 200 millions de transactions / année
4. INTELLIGENCE MARKETING
CONTEXTE:
Volume, volume, volume trop de données à analyser entraîne un processus lourd
de sélection des données, à partir des résultats escomptés.
PROBLÉMATIQUE:
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
RÉSULTATS:
Maintenant, la préparation des données est de beaucoup simplifiée: tout
est chargé dans SAS Visual Analytics (tous les skus)
Les utilisateurs sont maintenant plus curieux, perspicace et même
audacieux dans l‟exploration des données.
(“momentum of insight seeking” - Bady Golangco, Président et CEO de SM-MCI)
SOLUTIONS:
SAS® Visual Analytics
4. INTELLIGENCE MARKETING
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
CONCLUSION L’Analytique haute performance
Ce n‟est pas juste une question de GRANDE VITESSE…;
CONFIANCE: travailler avec l‟ensemble des données, pas juste des
échantillons ou des sommaires;
EXACTITUDE: des modèles plus complexes, avec plus de variables;
EFFICACITÉ: utiliser les cerveaux analytiques à faire des analyses;
AGILITÉ: s‟adapter et réagir plus rapidement.
Recommended