Commencer avec Hadoop

Preview:

DESCRIPTION

Présentation faite à la journée Microsoft Insight, tenue à Montréal le 4 décembre 2013.

Citation preview

Hadoop en EntrepriseLes vraies opportunités aujourd’hui4 décembre, 2013

Marc-Eric LaRocque

• Associé principal chez• Consultant depuis 1997• En données et en BI depuis 1994• BI et données mais avec un focus sur

–Gestion de projet et programme–Stratégie–Agilité

• MBA, PMP, CBIP et CSM• Président du Salon BI

Hadoop = Big Data?

Hadoop: cool, mais utile?

POURQUOI PROCIMA EXPERTS?Une seule diapositive, promis

Pourquoi Procima Experts?

Partenaires technologiques

Microsoft HDInsight Server

PartenairesProcima est intégrateurde solutions Hortonworks

PartenairesProcima est intégrateurde solutions Microsoft BI

Hadoop sur Windows Azure

UN PEU DE BACKGROUNDHDInsight, Hadoop et Hortonworks Data Platform

Big Data Microsoft et Hadoop

Discover Combine Refine

Relational Non-relational Streaming

INSIGHT

DATA ENRICHMENT

DATA MANAGEMENT

Self-Service Collaboration Corporate Apps Devices

Analytical

Hadoop derrière les couvertes

Stockage distribué

Traitement distribué

“MPP” sur stéroide

Hadoop dans HDInsight

POURQUOI HADOOP EST PLUS QUE COOL, MAIS PEUT ÊTRE UTILE

C’est la question qui vaut la peine d’être répondue

Cadre d’évaluation

Batch Interactif En ligne

• Archivage de données

• Analyses Exploratoires• Analyse de Découverte

• Engins de recommandations

• Analyses de sentiments

Mais on peut faire tout ceci avec une BD?

Vrai, mais Hadoop est différent

1. Peut gérer et traiter des volumes massifs “facilement”. Sans dépenser une fortune en équipement.

2. Pas une BD*, mais un système de stockage de fichiers. Donc la structure est imposée à la lecture

* une BD peu être créée sur HDFS

Structure imposée à la lecture

• Une BD nous force à structurer pour pouvoir insérer• Structurer requiert

–De l’analyse–De l’architecture–Du design–Du développement “up-front”–Donc…de l’argent

• Structurer nous force à faire des choix de priorités• Sans avoir à structurer à l’écriture

–On peut insérer plein de choses sans investissement “up-front”–On structure au moment ou le besoin d’analyse se manifeste–Si les données sont accessibles, on est déjà bien partis

Ok, mais…

Pourquoi stocker des données si on

a pas l’intention de les analyser?

Parce que la découverte est non-prévisible

Interactif

• Analyses Exploratoires• Analyse de Découverte

Analyse et prédiction

Proposition: Hadoop comme “data lake”

• Amenez les données dans Hadoop autant que possible• Elles seront dispos au moment ou on en aura besoin pour

analyse de découverte ou autre• Nous n’auront pas investi dans l’analyse et le design au

début• Essentiellement, Hadoop comme landing-zone

Le data lake nous supporte l’archivage aussi

Batch Interactif

• Archivage de données• Analyses Exploratoires• Analyse de Découverte

SECTION DES DESSINS TECHNIQUESParce qu’il en faut, c’est tout

Le “data lake”

Insérer toutes les sourcesde données

Data Lake, Data Reservoir, Landing Zone, Catch Basin, etc.

Garde les données “en ligne” longtemps

Peut garder les formats intermédiaires aussi

Utiliser le data lake

“Cruncher” les données en-place sans les transférer ailleurs pour analyses pointues

COMMENT COMMENCEREn fait, on commence par où exactement?

Pour commencer

1. Comprendre ce qu’est Hadoop

2. Valider le business case possible

3. Valider le cadrage éventuel dans l’architecture informationnelle

4. Identifier les données et les fonction requises; valider qu’Hadoop couvre le besoin

5. Assurer que les différences de Hadoop par rapport aux technologies traditionnelles (RDBMS, appliance, etc.) sont mises en évidence par le business case choisit – pas de « trip techno »

6. Émettre un Document de Vision

Document de Vision

• Énoncés de problèmes• Fonctionnalités clés attendues• Diagramme de contexte (sources, cible, etc.)• Architecture conceptuelle pour solution éventuelle• Architecture logique pour la PdC• Cas d’utilisation de la solution

–Acteurs, profils d’utilisation–Envergure des données–Détail des sources–Traitements à appliquer à la lecture–Requêtes à supporter par la PdC

Exécution: la Preuve de concept (5 étapes)• Analyse et architecture

• Cédule• Kickoff• Revue des besoins• Analyse des données• Conception de l’application

• Installation• Configuration

• Chargements, mise en place des données• Mise en place des composantes requises

• Vérification• Déploiement• Transition (si la PdC demeure en place)

CONCLUSION

Conseils

• Informez-vous• Soyez supportés• Choisissez un business case clair, de base• Assurez-vous que les bénéfices sont des retombées

AFFAIRES• Commencez par une preuve de concept• Planifiez bien ce que vous désirez prouver• Attachez les bons intervenants• Utilisez Azure et HDInsight pour partir plus rapidement

Recommended