DATA WAREHOUSING Défis et pistes de solutions. Yazid Grim Gestionaire de produit BI (PCG Canada)...

Preview:

Citation preview

DATA WAREHOUSINGDéfis et pistes de solutions

Yazid Grim Gestionaire de produit BI (PCG Canada) Spécialiste en cycle de vie logiciel en BI Spécialiste en produits Microsoft BI 7 ans d’éxperience en BI et DW

(consultation) 10 ans d’éxperience en TI Ingéniorat en Informatique (SI) à l’INI

(2000-2005)

Agenda Mise en contexte: le monde a changé… Rappel: la mission d’un Data Warehouse Les problématiques actuelles du Data

Warehousing Des pistes de solutions Q&R

Le monde a changé…

… Et les entreprises aussi

Le monde a changé + de données

(Internet) + de clients + de compétition + de maturité + de consommation + de régulations

+ d’innovations + personne

compétentes + défis - de frontières - de droit à l’erreur - de limites…

Mission du DW Stockage de données pour du reporting Mémoire « passive » d’entreprise Source pour les analystes Outil de prédiction Nouveau modèle d’affaire (Google,

Facebook, …) …

TEM

PS

Mission du DW

Stocker des données qui seront utilisées pour de la prise de décision

Mission du DW

Stocker des données qui seront utilisées pour de la prise de décision

Données / Utilisateurs / Gestion d’entreprise

Les défis du Data Warehousing

Volumétrie des données

Volumétrie des données

"...notre PME accumule plus 50Go de données par mois dans son DW..."

"...on veut analyser l'achalandage des utilisateurs mais ça représente plus 3 millions de passages par jour"

"...notre infrastructure ne tient plus la route avec des tables de faits de 500 Millions de lignes..."

"...notre process ETL prend plus de 24h..."

Volumétrie des données Architectures matérielles ne peuvent plus supporter

les charges des DW (stockage et traitement) Architectures logicielles désuètes Les SGBD relationnels montrent leurs limites Le paradigme E-T-L ne répond plus au besoin initial Nos méthodes de modélisation n’ont pas été pensés

pour de tels volumes de données

Le BI pour les décideurs n’existe plus…

BI pour tous

BI pour tous Data-Driven businesses

Nouvelles façon de gérer les entreprises Exige que tous les employés prennent des

décisions à leur niveau Offre les outils nécessaires pour ce faire

BI pour tous Les travailleurs en entreprises sont:

Mieux formés Plus responsables Plus instruits Plus désireux d’exceller dans leur travail Plus « branchés »

BI pour tous Real-Time BI / Operational BI

Utilisé dans les grosses entreprises manufacturières et les compagnies financières.

Quand des décisions importantes doivent être prises chaque seconde par beaucoup de personnes…

Brise le modèle asynchrone des ETL classiques

TI vs. Business

TI vs Business

TI vs. Business Processus d’entreprise changent

beaucoup trop vite pour les TI Les méthodes agiles ne règlent que

partiellement le problème BI et DW sont devenus trop important

pour les laisser aller à leur rythme

Ce qui se fait actuellement pour pallier aux problèmes

Éléments de solution

L’infrastructure en tant que service

Cloud Computing

Cloud Computing Permet d’héberger des données et du

traitement dans des environnements spécialisés

Réduit le TCO en infrastructure Met à disposition une capacité de

traitements phénoménale

Plus vite, plus efficace, moins cher

Nouvelle génération de matériel

Nouvelle génération de hardware SSD Nouvelle génération d’OS Nouvelles générations de RAM Nouvelles technologies (SAN, DFS) Nouveaux processeurs

Diviser pour régner

Architectures distribuées

Architectures distribuées Permet de mettre à profit des machines

de faible puissance pour des traitements complexes sur de gros volumes de données

Mets en réseau stockage, RAM et processeur pour gérer la charge

Initiative de Google

L’alternative venue du Web

Le mouvement NoSQL

Mouvement NoSQL Nouvelle génération d’outils de stockage née avec les

grosses compagnies du Web Aux antipodes des règles de CODD Inventés pour répondre aux besoins des géants du Web

(Google, Facebook, Twitter, Ebay,…) Récemment adopté pour des besoins BI en entreprise Principe simple: stocker des fichiers avec un SGF distribué Permet de gérer des Péta Bytes (index de recherche de

Google)

Mouvement NoSQL

Pensé pour les DW

Columnar Databases

Columnar Databases

Columnar Databases Bénéfices:

Taux élevé de compression au niveau colonne (1:4)

On ne lit que ce qu’on a besoin On retrouve l’information de manière

efficace

De plus en plus matures

Outils de visualisation de données

Outils de visualisation Permettent de traiter des volumes

importants de données Plus simples d’utilisation Un marché encore jeune mais avec des

leaders émergents

Outils de visualisation de données Ex: Tableau Software

Conclusion

Questions / Contact

Mohamed.yazid.grim@gmail.com www.yazidgrim.com

Widescreen Test Pattern (16:9)

Aspect Ratio Test

(Should appear circular)

16x9

4x3

Recommended