15
Victor Coustenoble Technical regional manager EMEA [email protected] @vizanalytics La Matinale du Big Data et de la Data Science 2016 29/09/16 Dans la peau d'un Analyste Métier : Préparation de données Hadoop Structurées et non-Structurées pour une analyse de Churn

Préparation de Données Hadoop avec Trifacta

Embed Size (px)

Citation preview

Page 1: Préparation de Données Hadoop avec Trifacta

Victor CoustenobleTechnical regional manager [email protected]@vizanalytics

La Matinale du Big Data et de la Data Science 2016

29/09/16

Dans la peau d'un Analyste Métier : Préparation de données Hadoop Structurées et non-Structurées pour une analyse de Churn

Page 2: Préparation de Données Hadoop avec Trifacta

Qu’est-ce que le Data Wrangling?

2

100% dédié au “Data Wrangling” et à la Préparation de DonnéesAccélérer la création de valeur et l’utilisation métier du ”Big Data”Préparation de données Visuelle, Interactive et en Self-Service

Page 3: Préparation de Données Hadoop avec Trifacta

Créer une Passerelle entre les Données Brutes et l’Analyse

Discovering Structuring Cleaning Enriching Validating Publishing

ANALYSES & DECISIONNEL

Business System Data Machine Generated Data Third Party Data

IT LOB

de l’effort d’un projet orienté « données » réside dans la préparation des données*

80%

PLATEFORME DE TRAITEMENT DES DONNEES

* New York Times – August 2014 - For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights

Page 4: Préparation de Données Hadoop avec Trifacta

Allers-Retours de Demandes entre IT & Métiers

Comment je peux accéder aux données brutes?

Qu’est-ce que tu veux analyser?

Je ne peux pas te le dire tant queje n’ai pas vu les données, montres

moi les données en premier.

Je ne peux pas te donner accès aux données brutes, tu dois me dire ce

que tu veux.

LOB IT

Page 5: Préparation de Données Hadoop avec Trifacta

5

Discovering Structuring Cleaning Enriching Validating Publishing

Business System Data Machine Generated Data Third Party Data

LOB IT

Donner l’accès aux données brutes pour les analystes métiers sous le contrôle de l’IT

ANALYSES & DECISIONNEL

PLATEFORME DE TRAITEMENT DES DONNEES

Page 6: Préparation de Données Hadoop avec Trifacta

Les approches conventionnelles inhibentl’autonomie des utilisateurs

Code manuel Techniques de Workflow et Mapping (ETL)

Page 7: Préparation de Données Hadoop avec Trifacta

... et il y a aussi Excel

Page 8: Préparation de Données Hadoop avec Trifacta

Approche Trifacta : Tout est basé sur l’Expérience Utilisateur

Intéragir Prédire

Visualiser

Page 9: Préparation de Données Hadoop avec Trifacta

Analystes Métiers, Data Scientists & Responsables de la Plateforme de Données

““ANALYSTE METIER

Je veux un accès direct aux données brutes pour pouvoir voir le contenu actuel des différents jeux de données afin de définir les besoins et les spécifications de mes analyses.

““DATA SCIENTIST

Préparer les données pour de la modélisation ou des analyses prédictives est un travail pénible, manuel et non reproductible dansl’entreprise. Nous avons besoin d’un moyen plus efficace et reproductible pour préparer les données en vue d’analyses.

““Je reçois constamment des demandes des métiers pour accéder àdifférentes données. J’ai besoin d’un moyen sécurisé pour leurdonner un accès direct aux données brutes afin qu’ils puissenteux-mêmes les explorer et les manipuler.

INGENIEUR DONNEE

Page 10: Préparation de Données Hadoop avec Trifacta

Cas d’Utilisation Métiers de Trifacta

Connaissanceet Vue 360

Client

Agrégation de Données des

EssaisCliniques

Prévisions des Ventes & Stocks

Analyse et Agrégation

Risques

AnalyseMédiasSociaux

DéveloppementProduit

10

Page 11: Préparation de Données Hadoop avec Trifacta

Démonstration

Dans la peau d'un Analyste Métier :

Préparation de données Hadoop Structurées et non-Structurées pour une analyse de Churn

Page 12: Préparation de Données Hadoop avec Trifacta

Ingestion Processing Storage

ANALYSES & VISUALISATION

v

IT

LOB

DiscoveringStructuring Cleaning Enriching Validating Publishing

Analyse de Churn et Vue 360 Client

Clients

Activités

Media Sociaux

ContactStatut

VoixTexteDonnées

TweetsChat

Page 13: Préparation de Données Hadoop avec Trifacta

Trifacta v4

Etendre le “Data Wrangling” pour Tous les Utilisateurs, Toutes les Données et Tous les Clouds

RenforcerL’Experience Utilisateur

Builder GA

Pattern Profiling

Fuzzy Joining

Column Lineage

Self-Service Operationalization

Améliorer la Performance & la Montée à l’Echelle

Photon Compute Engine GA

Spark 2.0

Déploiement Cloud & Connectivité

Relational(Oracle, MySQL, Teradata)

Cloud(AWS, Microsoft Azure, Google

Cloud Platform)

API Connectivity

Page 14: Préparation de Données Hadoop avec Trifacta

14

Constat : Plus de 80% du temps est passé à consolider, nettoyer et transformer les données avant analyse.

Bénéfices de Trifacta• Accélérer l’accès aux données pour dégager plus rapidement les

opportunités métiers• Diminuer les risques métiers liés aux mauvaises données• Donner le pouvoir aux personnes avec la connaissance métier des

données “Self-Service”• Libérer l’innovation et optimiser l‘efficacité opérationnelle• Accélérer le ROI2 de projets Big Data• Réduire la pression des coûts et des recrutements (problèmes des

compétences Big Data dans l’entreprise)

Ø Plus d’Efficacité, Plus d’Innovation

Conclusion

Page 15: Préparation de Données Hadoop avec Trifacta

Questions?Télécharger Trifacta Wrangler trifacta.com/start-wrangling