Donnez votre avis !Depuis votre smartphone, sur :http://notes.mstechdays.frDe nombreux lots à gagner toutes les heures !!!...
HDInsight : Hadoop en environnementMicrosoftArchitecture / Azure / CloudYann Schwartz BenjaminGuinebertièreArchitecte Cons...
Windows Azure• HDInsight et Hadoop 8’• Réseaux sociaux 22’• Machine learning 15’• SSIS 10’• Hadoop et .NET 5’Plan
HDINSIGHT ET HADOOPChapitre 1Windows Azure
Windows AzureLes trois V du Big DataLe jeu de données ne tient pas sur une seule machineDes formats différentsDes options ...
Windows AzureL’écosystème Hadoop
Windows AzureHadoop à demeure et dans le cloudPlateforme Big Datad’entreprise à demeureDistribution à based’Hadoop sur Win...
Windows AzurePourquoi Hadoop + BICritèreHadoop&HiveMoteursde requêtageBIRécupérer et stocker toutes les données Oui NonSup...
Windows AzureSolution Big Data de Microsoft
Windows AzureDécouverte de donnéesDEPUISVERS
Windows AzureMAP / REDUCEExtrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
RÉSEAUX SOCIAUXChapitre 2Windows Azure
DémoPrésentation rapide de twitterWindows Azure
Windows Azure• Langage de plus haut niveau que Map/Reduce• HQL très proche de SQL• s’appuie sur HDFS– insertion et ajout s...
DémoAnalyse de tweets avec HIVEWindows Azure
Windows Azure• Langage de plus haut niveau que Map/Reduce• Langage déclaratif– variables représentent des ensembles de don...
DémoAnalyse de tweets avec PIGWindows Azure
DémoRécupération des résultats PIG avecExternal table HIVE dans ExcelWindows Azure
MACHINE LEARNINGChapitre 3Windows Azure
Windows Azure• L’algorithme– Apprend sur BEAUCOUP de données– Déduit• Applications classiques– prédire• recommandations de...
Windows Azure• Librairie d’algorithmes de machine learningpouvant être distribués sur un cluster• http://mahout.apache.org...
DémoMachine learning - RecommandationsWindows Azure
DémoMachine learning - ClassificationWindows Azure
Windows Azure• Un problème de classification– Happy – sad – pokerface• Traitement du langage naturel– Fréquence des mots, ...
Windows Azure• Préparer des données– Trouver des données déjà classées– Filtrer les données– Nettoyer les données• Décider...
Windows AzureModèle Bayesien
HADOOP ET SSISChapitre 4Windows Azure
Windows AzureLivre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx
Windows AzureLivre blanc sur SSIS et HadoopInternet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx
DémoSSIS + HadoopAutomatisationRécupération des donnéesWindows Azure
HADOOP ET .NETChapitre 5Windows Azure
Windows Azure• Microsoft Hadoop SDK• Mappers et Reducers (C#, F#, Powershell)• UDF Pig et Hive (Streaming)• Intégration au...
Windows Azure• Tests unitaires de Mapper / Reducer– StreamUnit• Frameworks plus haut niveauHadoop et .NET
Windows Azure• Microsoft Hadoop SDK• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/• http://code.msdn.microsoft.com...
DémoHadoop en .NETTests unitairesWindows Azure
CONCLUSION,QUESTIONS/RÉPONSESWindows Azure
Windows Azure• HDInsight– Distribution Hadoopsur Windows Server et Windows Azure• Réversibilité• Facilité de déploiement d...
Windows Azure• http://www.hadooponazure.com• Blog Big Data :http://aka.ms/bigdatafrance• White paper SSIS + Hadoop:http://...
Windows Azure• Windows Azure: http://windowsazure.com• Ressources en français et accélérateurWindows Azurehttp://aka.ms/cl...
Windows AzureGagnez une tablette Windows8Souscrivez à l’offre d’essai ou activezvotre accès Azure MSDNPrésentez-vous sur l...
?
Les trois VLe jeu de données ne tient pas sur une seule machineDes formats différentsDes options différentes pour l’interp...
Hadoopà demeure et dans le cloudPlateforme Big Datad’entreprise à demeureDistribution à based’Hadoop sur WindowsServer ave...
Pourquoi Hadoop + BI ?CritèreHadoop&HiveMoteursde requêtageBIRécupérer et stocker toutes les données Oui NonSupport des re...
Solution Big Data de Microsoft
Découverte de donnéesDEPUISVERS
l’Ecosystème Hadoop
MAP / REDUCEExtrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
Livre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx
Livre blanc sur SSIS et HadoopInternet or LANhttp://msdn.microsoft.com/en-us/library/jj720569.aspx
Windows Azure• Comment récupère-t-on les données ?• XXXRéseaux sociaux
Windows Azure• ______
Windows Azure• ______
Démo___Windows Azure
Upcoming SlideShare
Loading in …5
×

HDInsight : Hadoop en environnement Microsoft

626 views

Published on

HDInsight est le portage de Apache Hadoop sur Windows Server et Windows Azure. Dans cette session, venez découvrir les différentes possibilités de Big Data, ainsi que la capacité de la machine à apprendre toute seule (machine learning). Nous montrerons des exemples liés aux réseaux sociaux.

Published in: Technology
  • Be the first to comment

HDInsight : Hadoop en environnement Microsoft

  1. 1. Donnez votre avis !Depuis votre smartphone, sur :http://notes.mstechdays.frDe nombreux lots à gagner toutes les heures !!!Claviers, souris et jeux Microsoft…Merci de nous aider à améliorer les TechDayshttp://notes.mstechdays.fr
  2. 2. HDInsight : Hadoop en environnementMicrosoftArchitecture / Azure / CloudYann Schwartz BenjaminGuinebertièreArchitecte Conseiller technologiqueWindowsAzureShoppingAdventure MicrosoftFrancetwitter: @abolibibelot twitter: @benjguin
  3. 3. Windows Azure• HDInsight et Hadoop 8’• Réseaux sociaux 22’• Machine learning 15’• SSIS 10’• Hadoop et .NET 5’Plan
  4. 4. HDINSIGHT ET HADOOPChapitre 1Windows Azure
  5. 5. Windows AzureLes trois V du Big DataLe jeu de données ne tient pas sur une seule machineDes formats différentsDes options différentes pour l’interprétation des donnéesPetite fenêtre de décision comparée à la vitesse à laquelleles données changentUn grand nombre de données très rapidement (streaming)VolumeVélocitéVariété
  6. 6. Windows AzureL’écosystème Hadoop
  7. 7. Windows AzureHadoop à demeure et dans le cloudPlateforme Big Datad’entreprise à demeureDistribution à based’Hadoop sur WindowsServer avec MicrosoftHDInsightPlateforme Big Dataélastique dans lecloudService à base d’Hadoopsur Windows Azure avecHDInsight ServiceConnecteurs Hadoop pourSQL ServerEtendre votre entrepôt dedonnées d’entrepriseavec du Big Data
  8. 8. Windows AzurePourquoi Hadoop + BICritèreHadoop&HiveMoteursde requêtageBIRécupérer et stocker toutes les données Oui NonSupport des requêtes sur lesdonnées de détailOui NonSupport des requêtes interactives etdepuis des applicationsNon OuiSupport des outils de BI et devisualisationNon Oui
  9. 9. Windows AzureSolution Big Data de Microsoft
  10. 10. Windows AzureDécouverte de donnéesDEPUISVERS
  11. 11. Windows AzureMAP / REDUCEExtrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
  12. 12. RÉSEAUX SOCIAUXChapitre 2Windows Azure
  13. 13. DémoPrésentation rapide de twitterWindows Azure
  14. 14. Windows Azure• Langage de plus haut niveau que Map/Reduce• HQL très proche de SQL• s’appuie sur HDFS– insertion et ajout seulement, pas de mise à jour– insert overwrite ... select ... from ... where ...• requêtes HQL traduites en jobs Map/Reduce• fonctions internes et externes pour extensionHIVE
  15. 15. DémoAnalyse de tweets avec HIVEWindows Azure
  16. 16. Windows Azure• Langage de plus haut niveau que Map/Reduce• Langage déclaratif– variables représentent des ensembles de données• s’appuie sur HDFS– insertion et ajout seulement, pas de mise à jour– D1 = load ...; ... D2 = foreach D1 generate ...; store D2 ...• script PIG traduit en jobs Map/Reduce• fonctions internes et externes pour extensionPIG
  17. 17. DémoAnalyse de tweets avec PIGWindows Azure
  18. 18. DémoRécupération des résultats PIG avecExternal table HIVE dans ExcelWindows Azure
  19. 19. MACHINE LEARNINGChapitre 3Windows Azure
  20. 20. Windows Azure• L’algorithme– Apprend sur BEAUCOUP de données– Déduit• Applications classiques– prédire• recommandations des produits qui peuvent intéresser unacheteur en ligne• prix d’immobilier– classer• trouver la langue d’un texte• trouver le groupe d’une « news »• filtre de spamMachine Learning
  21. 21. Windows Azure• Librairie d’algorithmes de machine learningpouvant être distribués sur un cluster• http://mahout.apache.org/Mahout
  22. 22. DémoMachine learning - RecommandationsWindows Azure
  23. 23. DémoMachine learning - ClassificationWindows Azure
  24. 24. Windows Azure• Un problème de classification– Happy – sad – pokerface• Traitement du langage naturel– Fréquence des mots, des lettres– Analyse grammaticale (POS) ?• Le choix des features est primordialAnalyse de sentiments
  25. 25. Windows Azure• Préparer des données– Trouver des données déjà classées– Filtrer les données– Nettoyer les données• Décider des features• Choisir le modèle• Tester• Recommencer…3 phases
  26. 26. Windows AzureModèle Bayesien
  27. 27. HADOOP ET SSISChapitre 4Windows Azure
  28. 28. Windows AzureLivre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx
  29. 29. Windows AzureLivre blanc sur SSIS et HadoopInternet or LAN http://msdn.microsoft.com/en-us/library/jj720569.aspx
  30. 30. DémoSSIS + HadoopAutomatisationRécupération des donnéesWindows Azure
  31. 31. HADOOP ET .NETChapitre 5Windows Azure
  32. 32. Windows Azure• Microsoft Hadoop SDK• Mappers et Reducers (C#, F#, Powershell)• UDF Pig et Hive (Streaming)• Intégration au log et compteurs d’hadoop• OrchestrationHadoop et .NET
  33. 33. Windows Azure• Tests unitaires de Mapper / Reducer– StreamUnit• Frameworks plus haut niveauHadoop et .NET
  34. 34. Windows Azure• Microsoft Hadoop SDK• http://nuget.org/packages/Microsoft.Hadoop.MapReduce/• http://code.msdn.microsoft.com/Framework-for-Composing-af656ef7• http://andyelastacloud.azurewebsites.net/Hadoop et .NET – liens utiles
  35. 35. DémoHadoop en .NETTests unitairesWindows Azure
  36. 36. CONCLUSION,QUESTIONS/RÉPONSESWindows Azure
  37. 37. Windows Azure• HDInsight– Distribution Hadoopsur Windows Server et Windows Azure• Réversibilité• Facilité de déploiement d’un cluster• Intégration avec l’entreprise• Complémentarité avec la plateforme SQLConclusion
  38. 38. Windows Azure• http://www.hadooponazure.com• Blog Big Data :http://aka.ms/bigdatafrance• White paper SSIS + Hadoop:http://aka.ms/hadoop-ssis-wp• Horton Works & Microsofthttp://hortonworks.com/partners/microsoft/Ressources
  39. 39. Windows Azure• Windows Azure: http://windowsazure.com• Ressources en français et accélérateurWindows Azurehttp://aka.ms/cloudRessources
  40. 40. Windows AzureGagnez une tablette Windows8Souscrivez à l’offre d’essai ou activezvotre accès Azure MSDNPrésentez-vous sur le stand Azure(zone Services & Tools)Participez au tirage au sortà 18h30 le 12 ou le 13 février
  41. 41. ?
  42. 42. Les trois VLe jeu de données ne tient pas sur une seule machineDes formats différentsDes options différentes pour l’interprétation des donnéesPetite fenêtre de décision comparée à la vitesse à laquelleles données changentUn grand nombre de données très rapidement (streaming)VolumeVélocitéVariété
  43. 43. Hadoopà demeure et dans le cloudPlateforme Big Datad’entreprise à demeureDistribution à based’Hadoop sur WindowsServer avec MicrosoftHDInsightPlateforme Big Dataélastique dans lecloudService à base d’Hadoopsur Windows Azure avecHDInsight ServiceConnecteurs Hadoop pourSQL ServerEtendre votre entrepôt dedonnées d’entrepriseavec du Big Data
  44. 44. Pourquoi Hadoop + BI ?CritèreHadoop&HiveMoteursde requêtageBIRécupérer et stocker toutes les données Oui NonSupport des requêtes sur lesdonnées de détailOui NonSupport des requêtes interactives etdepuis des applicationsNon OuiSupport des outils de BI et devisualisationNon Oui
  45. 45. Solution Big Data de Microsoft
  46. 46. Découverte de donnéesDEPUISVERS
  47. 47. l’Ecosystème Hadoop
  48. 48. MAP / REDUCEExtrait de « Hadoop Tutorial from Yahoo!" (Yahoo! Inc.) / CC BY 3.0 »
  49. 49. Livre blanc sur SSIS et Hadoophttp://msdn.microsoft.com/en-us/library/jj720569.aspx
  50. 50. Livre blanc sur SSIS et HadoopInternet or LANhttp://msdn.microsoft.com/en-us/library/jj720569.aspx
  51. 51. Windows Azure• Comment récupère-t-on les données ?• XXXRéseaux sociaux
  52. 52. Windows Azure• ______
  53. 53. Windows Azure• ______
  54. 54. Démo___Windows Azure

×