17
FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES V1 - 10/03/15 « Dans le concret, projets de transformation vers le BigData » ABED AJRAOU

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES AJRAOU.pdf · RH MPG CRM Social Network Portail / Intranet Image, Vidéo Data Visualisation VISION CIBLE ARCHITECTURE DE LA BI . 9 ... Key–Value

  • Upload
    lexuyen

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

FINI LA RÉCRÉ

PASSONS AUX MÉGADONNÉES

V1 - 10/03/15

1

« Dans le concret, projets

de transformation vers le

BigData … »

ABED AJRAOU

CONNAISSEZ-VOUS PAGESJAUNES ?

CONNAISSEZ-VOUS PAGESJAUNES ?

LES MEGADONNEES RÉPONDENT À DE NOUVEAUX BESOINS

Big Data

Self-Service BI

BI institutionnelle

Données structurées d’entreprise

CRM SCM

Données locales

Système de fichiers textes

ERP Base de données

Données non structurées d’entreprise et externes

Image, Vidéo Gestion de contenu, Logs

Réseaux sociaux

DataWarehouse Datamart Cubes

Reporting

ETL Data Cleansing

Couche sémantique

Data Gathering

Business Discovery Data Visualisation

Approche Agile

Mining

Data Interact

Massive Processing Parallel

Flux des clics utilisateurs en

temps réel

Données GPS et spatiales

Sentiment Analysis

Social Interaction Open Data

Analyse du Web Mobile

Voix en Texte

Indexation

Texte Mining Gestion des Logs Analyse des RFID /

Capteurs

5

LA PREUVE PAR L’EXPÉRIMENTATION….

DMT

DWH

ODS

6

Données Structurées ou Semi-structurées d’entreprise

Logs fixe Base de donnée

Base de données Logs mobile

Base de données

BI Audience BI Mobile BI Commercial BI Données Quelques limitations de la

BI actuelle:

1. BI globalement en silo

=> ce qui ne constitue

pas de la vraie BI

2. Socle de données sur

Netezza avec risque de

saturation avérée

3. Aucune possibilité

d’incorporer des

données non

structurées (type blog,

réseaux sociaux …)

4. BI en mode batch

BI - ARCHITECTURE 2013 ET 2014

Parc applicatif BI en transformation

en 2014 et cible 2015 : activons le

Big Data !

7 Date • Titre de la présentation

Data Mart Fonctionnel

8

Open Data Group (Données brutes et Open Datamart)

Données Structurées ou Semi-structurées d’entreprise

Logs fixe Commerciale

Finance Logs mobile

Données non structurées

Image, Vidéo Portail / Intranet Social Network RH MPG CRM

Data Visualisation

VISION CIBLE ARCHITECTURE DE LA BI

9

RÉALISATIONS 2014 – REAL TIME BUSINESS

Real Time Business

10

RÉALISATIONS 2014/2015 - POWER

SELECTOR

Search Power Selector

11

OUR CONVICTION: OPENSOURCE WOULD SOLVE

MOST OF BI PAINS

The Enterprise Data Hub of Cloudera would be

the « Extended DataWarehouse »

The NoSql « Column Database » is the simple way to give access to the

end user and ensure good performance

The end of the Batch, and the welcome of the Streaming

and real time data

Performance ETL for the data transformation on top of

Hadoop

New Data Visualization / Data Story Telling, which is very

quick to install/deploy, and simple to use

LE PARTAGE DE CONNAISSANCES EST CLEF!

12

Le mangement de la donnée est essentiel dans toute

pratique Big Data et tout projet. Nous avons lancé dans le

cadre de l’association 3 groupes de travail:

• Big Data

• Data Science

• Data Gouvernance

D’autres ateliers suivront, des événements, de la littérature

… donc abonnez-vous et n’attendez plus!

http://www.dama-france.org/

BIENVENUE DANS LE MONDE DU

NOSQL

13

LE NOSQL, POURQUOI?

14

1970

~2009

Système transactionnel:

Écritures concurrentes,

Performance accès concurrents

Standardisation …

Systèmes de fichiers Base de données - RDBMS

Base de données - RDBMS Big Data:

Volumétrie (téra/péta octet)

Performance

Données non structurées

NOSQL – NOT ONLY SQL DIFFÉRENTS TYPES:

• BASES ORIENTÉES CLÉ / VALEUR

• BASES ORIENTÉES COLONNES

• BASES ORIENTÉES GRAPHES

• BASES ORIENTÉES DOCUMENTS

15

Data Model Performance Scalability Flexibility Complexity Functionality

Key–Value Store high high high none variable (none)

Column-Oriented

Store high high moderate low minimal

Document-

Oriented Store high

variable

(high) high low variable (low)

Graph Database variable variable high high graph theory

Relational

Database variable variable low moderate

relational

algebra

Ben Scofield a évalué les différents types de NoSQL:

NOSQL – FOCUS SUR IMPALA ET

L’ORIENTÉE COLONNE

16

RowId Matricule Nom Prénom DateEntrée Fonction Salaire

1 53427 Dupont Eric 01/01/2000 Ingénieur 30000

2 89765 Martin Jean 15/03/2007 Contrôleur 65000

3 109755 LeMaitre Gaston 13/12/2003 Architecte 45000

4 76598 Dupont Gaston 01/01/2000 Contrôleur 50000

5 9090432 Prince Charles 01/01/2010 Ingénieur 55000

Nom

Dupont 1;4

Martin 2

LeMaitre 3

Prince 5

Prenom

Eric 1

Jean 2

Gaston 3;4

Charles 5

Sur Impala, le mode Parquet enregistre cela en binaire et de façon compressée, ce

qui accélère les analyses OLAP – agrégations, filtres …

CONSEIL: COMMENT ACTIVER LES PROJETS ET

COMMENT REMÉDIER À L’IMMOBILISME?

Avec votre bâton de pèlerin:

• expliquez

• démystifiez

• donnez du sens

• fédérez!

Trouvez le sponsor dans l’entreprise, qui vous

• soutiendra

• appuiera

• mettra en lumière

Lancez-vous! Nous avons toute la maturité

technologique pour enfin réaliser tous nos

désirs en termes de data! Épanouissez-

vous!

17