HDInsight : Hadoop en environnement Microsoft

  • View
    496

  • Download
    5

Embed Size (px)

DESCRIPTION

HDInsight est le portage de Apache Hadoop sur Windows Server et Windows Azure. Dans cette session, venez découvrir les différentes possibilités de Big Data, ainsi que la capacité de la machine à apprendre toute seule (machine learning). Nous montrerons des exemples liés aux réseaux sociaux.

Text of HDInsight : Hadoop en environnement Microsoft

  • 1. Donnez votre avis !Depuis votre smartphone, sur :http://notes.mstechdays.frDe nombreux lots gagner toutes les heures !!!Claviers, souris et jeux MicrosoftMerci de nous aider amliorer les TechDayshttp://notes.mstechdays.fr

2. HDInsight : Hadoop en environnementMicrosoftArchitecture / Azure / CloudYann Schwartz BenjaminGuinebertireArchitecte Conseiller technologiqueWindowsAzureShoppingAdventure MicrosoftFrancetwitter: @abolibibelot twitter: @benjguin 3. Windows Azure HDInsight et Hadoop 8 Rseaux sociaux 22 Machine learning 15 SSIS 10 Hadoop et .NET 5Plan 4. HDINSIGHT ET HADOOPChapitre 1Windows Azure 5. Windows AzureLes trois V du Big DataLe jeu de donnes ne tient pas sur une seule machineDes formats diffrentsDes options diffrentes pour linterprtation des donnesPetite fentre de dcision compare la vitesse laquelleles donnes changentUn grand nombre de donnes trs rapidement (streaming)VolumeVlocitVarit 6. Windows AzureLcosystme Hadoop 7. Windows AzureHadoop demeure et dans le cloudPlateforme Big Datadentreprise demeureDistribution basedHadoop sur WindowsServer avec MicrosoftHDInsightPlateforme Big Datalastique dans lecloudService base dHadoopsur Windows Azure avecHDInsight ServiceConnecteurs Hadoop pourSQL ServerEtendre votre entrept dedonnes dentrepriseavec du Big Data 8. Windows AzurePourquoi Hadoop + BICritreHadoop&HiveMoteursde requtageBIRcuprer et stocker toutes les donnes Oui NonSupport des requtes sur lesdonnes de dtailOui NonSupport des requtes interactives etdepuis des applicationsNon OuiSupport des outils de BI et devisualisationNon Oui 9. Windows AzureSolution Big Data de Microsoft 10. Windows AzureDcouverte de donnesDEPUISVERS 11. Windows AzureMAP / REDUCEExtrait de Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 12. RSEAUX SOCIAUXChapitre 2Windows Azure 13. DmoPrsentation rapide de twitterWindows Azure 14. Windows Azure Langage de plus haut niveau que Map/Reduce HQL trs proche de SQL sappuie sur HDFS insertion et ajout seulement, pas de mise jour insert overwrite ... select ... from ... where ... requtes HQL traduites en jobs Map/Reduce fonctions internes et externes pour extensionHIVE 15. DmoAnalyse de tweets avec HIVEWindows Azure 16. Windows Azure Langage de plus haut niveau que Map/Reduce Langage dclaratif variables reprsentent des ensembles de donnes sappuie sur HDFS insertion et ajout seulement, pas de mise jour D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ... script PIG traduit en jobs Map/Reduce fonctions internes et externes pour extensionPIG 17. DmoAnalyse de tweets avec PIGWindows Azure 18. DmoRcupration des rsultats PIG avecExternal table HIVE dans ExcelWindows Azure 19. MACHINE LEARNINGChapitre 3Windows Azure 20. Windows Azure Lalgorithme Apprend sur BEAUCOUP de donnes Dduit Applications classiques prdire recommandations des produits qui peuvent intresser unacheteur en ligne prix dimmobilier classer trouver la langue dun texte trouver le groupe dune news filtre de spamMachine Learning 21. Windows Azure Librairie dalgorithmes de machine learningpouvant tre distribus sur un cluster http://mahout.apache.org/Mahout 22. DmoMachine learning - RecommandationsWindows Azure 23. DmoMachine learning - ClassificationWindows Azure 24. Windows Azure Un problme de classification Happy sad pokerface Traitement du langage naturel Frquence des mots, des lettres Analyse grammaticale (POS) ? Le choix des features est primordialAnalyse de sentiments 25. Windows Azure Prparer des donnes Trouver des donnes dj classes Filtrer les donnes Nettoyer les donnes Dcider des features Choisir le modle Tester Recommencer3 phases 26. Windows AzureModle Bayesien 27. HADOOP ET SSISChapitre 4Windows Azure 28. Windows AzureLivre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx 29. Windows AzureLivre blanc sur SSIS et HadoopInternet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx 30. DmoSSIS + HadoopAutomatisationRcupration des donnesWindows Azure 31. HADOOP ET .NETChapitre 5Windows Azure 32. Windows Azure Microsoft Hadoop SDK Mappers et Reducers (C#, F#, Powershell) UDF Pig et Hive (Streaming) Intgration au log et compteurs dhadoop OrchestrationHadoop et .NET 33. Windows Azure Tests unitaires de Mapper / Reducer StreamUnit Frameworks plus haut niveauHadoop et .NET 34. Windows Azure Microsoft Hadoop SDK http://nuget.org/packages/Microsoft.Hadoop.MapReduce/ http://code.msdn.microsoft.com/Framework-for-Composing-af656ef7 http://andyelastacloud.azurewebsites.net/Hadoop et .NET liens utiles 35. DmoHadoop en .NETTests unitairesWindows Azure 36. CONCLUSION,QUESTIONS/RPONSESWindows Azure 37. Windows Azure HDInsight Distribution Hadoopsur Windows Server et Windows Azure Rversibilit Facilit de dploiement dun cluster Intgration avec lentreprise Complmentarit avec la plateforme SQLConclusion 38. Windows Azure http://www.hadooponazure.com Blog Big Data :http://aka.ms/bigdatafrance White paper SSIS + Hadoop:http://aka.ms/hadoop-ssis-wp Horton Works & Microsofthttp://hortonworks.com/partners/microsoft/Ressources 39. Windows Azure Windows Azure: http://windowsazure.com Ressources en franais et acclrateurWindows Azurehttp://aka.ms/cloudRessources 40. Windows AzureGagnez une tablette Windows8Souscrivez loffre dessai ou activezvotre accs Azure MSDNPrsentez-vous sur le stand Azure(zone Services & Tools)Participez au tirage au sort 18h30 le 12 ou le 13 fvrier 41. ? 42. Les trois VLe jeu de donnes ne tient pas sur une seule machineDes formats diffrentsDes options diffrentes pour linterprtation des donnesPetite fentre de dcision compare la vitesse laquelleles donnes changentUn grand nombre de donnes trs rapidement (streaming)VolumeVlocitVarit 43. Hadoop demeure et dans le cloudPlateforme Big Datadentreprise demeureDistribution basedHadoop sur WindowsServer avec MicrosoftHDInsightPlateforme Big Datalastique dans lecloudService base dHadoopsur Windows Azure avecHDInsight ServiceConnecteurs Hadoop pourSQL ServerEtendre votre entrept dedonnes dentrepriseavec du Big Data 44. Pourquoi Hadoop + BI ?CritreHadoop&HiveMoteursde requtageBIRcuprer et stocker toutes les donnes Oui NonSupport des requtes sur lesdonnes de dtailOui NonSupport des requtes interactives etdepuis des applicationsNon OuiSupport des outils de BI et devisualisationNon Oui 45. Solution Big Data de Microsoft 46. Dcouverte de donnesDEPUISVERS 47. lEcosystme Hadoop 48. MAP / REDUCEExtrait de Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 49. Livre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx 50. Livre blanc sur SSIS et HadoopInternet or LANhttp://msdn.microsoft.com/en-us/library/jj720569.aspx 51. Windows Azure Comment rcupre-t-on les donnes ? XXXRseaux sociaux 52. Windows Azure ______ 53. Windows Azure ______ 54. Dmo___Windows Azure