Upload
soft-computing
View
860
Download
1
Embed Size (px)
Citation preview
Soft Computing – 55, quai de Grenelle – 75015 Paris – tél. +33 (0)1 73 00 55 00 – www.softcomputing.com
Hadoop
SAS®Visual Analytics
Usages cibles des utilisateurs SAS
Paris, 5/11/2013
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 2
Thème
• Le Big Data offre la capacité de traiter des volumes de données conséquents à l’aide d’architectures techniques nouvelles, comment les utilisateurs traditionnels (datamanager, datasteward, dataminers) accèderont et traiteront les données dans ces nouvelles architectures ?
• La démonstration s’appuiera sur les interfaces SAS de connexion aux données issues du Big Data pour illustrer les nouvelles pratiques des utilisateurs de SAS. Cette démonstration aura notamment pour but d’alimenter le débat autour de la mutation des pratiques des utilisateurs SAS dans ces nouveaux environnements techniques, quelles seront les nouvelles compétences à acquérir ? quelles compétences pour quels profils ?
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 3
Des systèmes d’information décisionnels en pleine mutation
Des faiblesses
•Les coûts
•Les délais
•La qualité des données
•La satisfaction utilisateur
Des nouvelles contraintes
•La volumétrie
•Le réglementaire
•La garantie du niveau de service
Des anciennes croyances
•Séparation TP et AP
•J+1
•MOLAP
•Datamart physique
Des nouveaux besoins
•L’autonomie des utilisateurs
•La mobilité
•Données exogènes et non structurées
Système décisionnel historique Système décisionnel nouvelle génération
La Business Intelligence
Agile
Le Dataviz
Les Appliances
Hadoop
Le In-memory
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 4
Big Data : Architecture applicative avec intégration Hadoop
•In-memory technology
2 axes technologiques :
•Distributed computing
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 5
3 types d’utilisateurs
Datamanager
•“Data management is the development and execution of architectures, policies, practices and procedures in order to manage the information lifecycle needs of an enterprise in an effective manner. ” Source TechTarget
Data steward
•“Data stewardship is the management and oversight of an organization's data assets to help provide business users with high-quality data that is easily accessible in a consistent manner.” Source TechTarget
Dataminer
•“Data mining is sorting through data to identify patterns and establish relationships.” Source TechTarget
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 6
Architecture fonctionnelle autour de SAS®Visual Analytics (mode Cluster Hadoop)
Sources internes
Cré
ation e
t publication d
es
rapport
s
Sources externes
Sharepoint Outlook
Add-In for Microsoft
Offide, SAS for Mobile
Requête
SAS
In-memory
Visualisation des rapports
Exploration dans les données
Datamanager
Datasteward
Business User
Exploration Administration
HDFS
SAS distribué
Exploration dans les données + Mining
Dataminer
Extraction, Chargement,
Transformation
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 7
Architecture applicative SAS®Visual Analytics
Données sources
SAS Visual Data Builder: •Facilité d’utilisation •Fonctionnalités en datamagement plus limitées
SASDIS + SASEG: •Fournit les fonctionnalités en datamanagement max •Nécessite des compétences expertes
LASR Server
SAS Visual Analytics Designer SAS Visual Analytics Explorer
Données internes Données externes
SAS Visual Analytics Viewer
!
Datamanager
Datasteward
Business User
Dataminer
SAS Visual
Analytics
Administration
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 8
Databuilder: Les problématiques liées à SAS® Visual Analytics
• Le chargement des données
– Accès aux données autorisées par l’administrateur SAS « Master »
– Accès aux données de fichiers externes
– Chargement de données « In-memory » par une requête
• La modélisation des données
– Pas de création de cubes
– Eviter le plus possible les pré-aggrégations
– Grain au détail maximum de degrés de liberté sur la navigation
– Bien appréhender la contrainte :
• Une exploration une table
• Un rapport une table
Modéliser en conséquence (jointure, concaténation de tables, …)
!
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 9
Outils SAS pour le datamager dans un contexte Big Data
• Dans SAS Data Integration Studio :
– Utilisation de transformations spécifiques aux traitements de données
sous Hadoop :
• Chargement de fichiers Hadoop
• Template de transformations en langage natif Hadoop
• Ecriture de fichiers sur la couche Hadoop
– Possibilité de charger les données sur la couche In-memory
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 10
Outils SAS pour le datamager dans un contexte Big Data
• Dans Sas Entreprise Guide ou SAS Data Integration Studio => coding SAS
– Utilisation du connecteur SAS Connect To Hadoop
• Librairies SAS connecté à une base de données HIVE (Implicit Pass-Through)
• PROC SQL connecté à une base de données HIVE (Explicit Pass-Through)
– User Defined Function (ex : les fonctions SAS_PUT, SAS_ZACORR dans Teradata)
– Nouvelle procédure <=> nouveau langage de développement SAS
• PROC DS2
– Possibilité de charger les données sur la couche In-memory
• PROC IMSTAT
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 11
Focus langage DS2 : le langage de nouvelle génération
• DS2, une alternative à l’étape DATA
• Permet d’optimiser le datamanagement en environnement high-performance avec traitements parallélisés
• Nouvelle technologie / Etape DATA
• Syntaxe familière aux utilisateurs de SAS/AF (des méthodes : init, term and run)
• Proche de l’étape DATA, en partageant les fonctionnalités les plus usitées (boucle implicite, retain, set, …)
• Evolutif en associant à l’environnement du développeur de nouveaux packages (comme la PROC FCMP)
• Exécutable aussi bien dans une session SAS Bases traditionnelle que via un connecteur « In-database » associé au module SAS®Embedded Process
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 12
« Hello World » Comparaison
En JAVA
proc ds2; data _null_; method init(); dcl varchar(16) str; str = 'Hello World!'; put str; end; enddata; run;
En DS2
En C++
Une syntaxe, proche de l’étape DATA, qui reste éloignée des langages de programmation orientés objet
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 14
Outils SAS pour le Dataminer dans un contexte Big Data
• SAS Visual Analytics Explorer
– Permet d’explorer la donnée et d’effectuer des analyses rapides :
• Corrélation
• Régressions
• Séries temporelles, …
• SAS Entreprise Miner
– Permet la création de modèles statistiques
– Utilisation des procédures statistiques bénéficiant du mode distribué :
• HPDMDB Summarize data
• HPDS2 Parallel execution of DS2:
• HPFOREST Random forest
• HPLOGISTIC Logistic regression
• HPNEURAL Neural network modeling
• HPSAMPLE Sampling and data partitioning
• …
www.softcomputing.com Reproduction interdite sans l’accord écrit de Soft Computing 07/11/2013 15
Conclusion : Quelles compétences pour quels profils ?
En environnement SAS traditionnel
En environnement distribué ou/et In-memory
Langages SAS, SAS MP/Connect SQL Pass-through
FCMP - DS2 User Define Function HIVE, PIG
Infomaps
SAS®Visual Data Builder SAS®Visual Analytics Explorer
SAS Entreprise Miner Langage SAS
SAS Entreprise Miner (transformation code EM en DS2) SAS®Visual Analytics Explorer High-performance procedure User Define Function