Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data : Manage, Refine, Analyze

958 views

Published on

Cette session permet de découvrir le paysage Big Data d'une façon pragmatique. Nous remettrons d'abord la question du BIG Data dans ses contextes business et techno. Ensuite, nous ferons un zoom sur les technologies Hadoop et leurs différentes possibilités d'implémentation.

Published in: Technology, Business
  • Be the first to comment

  • Be the first to like this

Big Data : Manage, Refine, Analyze

  1. 1. Big Data : Manage, Refine, Recycle orenault@hortonworks.com blaisev@microsoft.com
  2. 2. Souscrivez à l’offre d’essai ou activez votre accès Azure MSDN Présentez-vous sur le stand Azure (zone Services & Tools) Participez au tirage au sort à 18h30 le 12 ou le 13 février
  3. 3. Hadoop : Etude d’un cas d’utilisationIntroduction :Motivation et Hadoop en environnementScénarios Microsoft
  4. 4. Terabytes Gigabytes Megabytes Data Complexity: Variety and Velocity
  5. 5. Volume Velocity Relational Data VarietySource: IDCs 2012 Vertical IT andCommunications Survey
  6. 6. Source: IDCs 2012 Vertical IT andCommunications SurveyN=4117
  7. 7. Big Data Challenges :Source: IDCs 2012 Vertical IT andCommunications SurveyN=4117
  8. 8. Impact
  9. 9. 010101010101010101 1010101010101010 01010101010101 101010101010
  10. 10. DiscoveRefine r Combine
  11. 11. 0101010101010101011010101010101010 01010101010101 101010101010
  12. 12. OPERATIONAL DATA SERVICES SERVICES Hortonworks AMBARI FLUME PIG HIVE HBASE Data Platform (HDP) OOZIE SQOOP HCATALOG Enterprise Hadoop WEBHDFS MAP REDUCEHADOOP CORE HDFS YARN (in 2.0) The ONLY 100% open source and complete Enterprise ReadinessPLATFORM SERVICES High Availability, Disaster distribution Recovery, Snapshots, Security, etc… HORTONWORKS DATA PLATFORM (HDP) Enterprise grade, proven and tested at scale OS Cloud VM Appliance Ecosystem endorsed to ensure interoperability
  13. 13. Next-Generation Data Architecture APPLICATIONS Business Analytics Custom Applications Enterprise Applications DEV & DATA TOOLS BUILD & TEST DATA SYSTEMS OPERATIONAL TOOLS HORTONWORKS MANAGE & DATA PLATFORM MONITOR RDBMS EDW MPP TRADITIONAL REPOS DATA SOURCES Traditional Sources New Sources OLTP, POS (RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media) SYSTEMS © Hortonworks Inc. 2013
  14. 14. Business Cases Batch Interactive OnlineRefine Explore Enrich HORTONWORKS DATA PLATFORM Big Data Transactions, Interactions, Observations
  15. 15. APPLICATIONS Refine Explore Enrich Business Analytics Custom Applications Enterprise Applications Collect data and apply a known algorithm to it in trusted operational process 3DATA SYSTEMS HORTONWORKS DATA PLATFORM 2 1 Capture RDBMS EDW MPP Capture all data TRADITIONAL REPOS 2 Process Parse, cleanse, apply structure & 1 transform 3 ExchangeDATA SOURCES Push to existing data warehouse Traditional Sources New Sources (RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media) for use with existing analytic tools
  16. 16. APPLICATIONS Refine Explore Enrich Business Analytics Collect data and perform 3 iterative investigation for valueDATA SYSTEMS HORTONWORKS DATA PLATFORM 2 1 Capture RDBMS EDW MPP TRADITIONAL REPOS Capture all data 2 Process Parse, cleanse, apply structure & 1 transformDATA SOURCES 3 Exchange Traditional Sources New Sources Explore and visualize with (RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media) analytics tools supporting Hadoop
  17. 17. APPLICATIONS Refine Explore Enrich Custom Applications Enterprise Applications Collect data, analyze and present salient results for 3 online appsDATA SYSTEMS HORTONWORKS 1 Capture DATA PLATFORM 2 Capture all data RDBMS EDW MPP NOSQL TRADITIONAL REPOS 2 Process Parse, cleanse, apply structure & transform 1 3 ExchangeDATA SOURCES Incorporate data directly into Traditional Sources New Sources applications (RDBMS, OLTP, OLAP) (web logs, email, sensor data, social media)
  18. 18. Vertical Refine Explore Enrich • Dynamic Pricing • Log Analysis/Site Optimization • Brand and Sentiment Analysis Retail & Web • Session & Content Optimization • Loyalty Program Optimization • Market basket analysis • Product recommendation Telco • Customer profiling • Equipment failure prediction • Location based advertising Government • Threat Identification • Person of Interest Discovery • Cross Jurisdiction Queries • Risk Modeling & Fraud Identification • Surveillance and Fraud Detection • Real-time upsell, cross sales marketing Finance • Trade Performance Analytics • Customer Risk Analysis offers • Grid Failure Prevention Energy • Smart Grid: Production Optimization • Individual Power Grid • Smart Meters • Dynamic Delivery Manufacturing • Supply Chain Optimization • Customer Churn Analysis • Replacement parts • Clinical decision support Healthcare • Electronic Medical Records (EMPI) • Insurance Premium Determination • Clinical Trials Analysis
  19. 19. Hébergement du cluster dans AzureDÉPLOIEMENT D’UN CLUSTERHORTONWORKS
  20. 20. https://www.hadooponazure.com/http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspxhttp://gettingstarted.hadooponazure.com/http://gettingstarted.hadooponazure.com/gettingStartedHw.html
  21. 21. Découverte du service Hadoop On AzureAZURE HD INSIGHT SERVER
  22. 22. • •• •• •
  23. 23. Data locality optimizationMetadataIp.csv (583 rows) Reducer Map Task Data Node 1 Combiner- DataNode1 (1-193)- DataNode2 (194-387) MF-001 MF-002- DataNode3 (338-583) Ip.csv (1-193) (F;0, M;1 00 MF-193 Split Name Map Task Data Node 2 Combiner Node Ip.csv (194- MF-194 MF-195 (F;42, M;41 (F;142, M;441 387) MF-387 Map Task Data Node 3 Combiner MF-388 (F;100, Ip.csv (388- MF-389 M;300 583) MF-583
  24. 24. Map Combiner Reducer Skip(0) MF-001 ASV MF-002 (F;0, M;1 00 MF-193 Map CombinerASV://mycontainer/myfolder/Ip.csv Skip(194) MF-194 (F;42, MF-195 M;41 (F;142, M;441 MF-387 Map Combiner Skip(388) MF-388 (F;100, MF-389 M;300 MF-583
  25. 25. Chargement de données de ASV vers HDFS, exécution derequêtes, agrégation de résultatsAZURE HD INSIGHT SERVER
  26. 26. Registrations DB Klout.com (MySql) (Node.js) Mobile Klout API Profile DB (ObjectiveC) (Scala) Signal Data (HBase) Collectors Enhancemen Partner API (Java/Scala) t Data (Mashery) Engine Warehouse Search Index (PIG/Hive) (Hive) (Elastic Search) Streams (MongoDB) Monitoring (Nagios) Serving Stores Dashboards (Tableau) Perks Analyics Analytics (Scala) Cubes Event Tracker (SSAS) (Scala)Case Study: Data Services Firm Uses Microsoft BI and Hadoop to Boost Insight into Big Data
  27. 27. Sources de Business Acquisition, Stockage, Traitement des données Supervision données Intelligence PIG HIVE MAHOUT Pegasus Reporting CEP Map/Reduce OLAP Data Node Name Node Data Node Bulk Load Data Node System Center RDBMS Files SystemFile System Connector ASV HDFS Application Server
  28. 28. Cloud Services Virtual Machine On-premiseSources de Business Acquisition, Stockage, Traitement des données Supervision données Intelligence HDInsight Services SQL ReportingStreamInsight PIG HIVE MAHOUT Pegasus Map/Reduce SSRS Data Node Name Node Data Node Plume Data Node SSAS System Center SQL Files System Database SQOOP ASV HDFS SharePoint Microsoft Windows Azure
  29. 29. Agrégation de données issues de multiples sourcesAZURE HD INSIGHT SERVER,SQL2012, POWERPIVOT,POWERVIEW
  30. 30. • Submit changes back to Apache Foundation• ‘Just works’ on Windows Azure and Server• Integration with Visual Studio, Javascript, Excel, etc.• Performance, Scale, High Availability• Management, Ease of use• Security, Data Governance• Integration with AD and SC.• Integrate as part of our overall data platform
  31. 31. https://www.hadooponazure.com/http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspxhttp://gettingstarted.hadooponazure.com/http://gettingstarted.hadooponazure.com/gettingStartedHw.htmlhttp://weatherservice.cloudapp.nethttp://www.srh.noaa.gov/rfcshare/ffg_download/ffg_download.phphttp://social.technet.microsoft.com/wiki/contents/articles/14320.processing-noaa-flash-flood-guidance-data-in-sql-server.aspxhttp://blogs.msdn.com/b/sqlcat/archive/2013/02/01/mash-up-hive-sql-server-data-in-powerpivot-amp-power-view-hurricane-sandy-2012.aspx
  32. 32. 4 ouvrages écrits par 13 Microsofteeshttp://www.editions-eyrolles.com/livres/Windows-8-pour-les-professionnels
  33. 33. © 2012 Microsoft Microsoft Corporation. Tous droitsMicrosoft,Microsoft, et les autres les autresproduits sont des marques déposées déposées ou descommerciales de Microsoft Microsoft aux États-Unis et/ou dans dautres pays. © 2012 Corporation. Tous droits réservés. réservés. Windows Windows et noms de noms de produits sont des marques ou des marques marques commerciales de aux États-Unis et/ou dans dautres pays.Les informations contenuescontenues dans ce document sont fournies uniquement à titreElles représentent lopinion actuelle de Microsoft Microsoft Corporation sur les pointsdate dela date de cette présentation. Microsoftaux conditions fluctuantes du marché etmarché et ce ne doit Les informations dans ce document sont fournies uniquement à titre indicatif. indicatif. Elles représentent lopinion actuelle de Corporation sur les points cités à la cités à cette présentation. Microsoft sadapte sadapte aux conditions fluctuantes du ce documentpas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de toute information présentée toute information présentée aprèsMICROSOFT EXCLUT TOUTE MICROSOFT EXCLUT TOUTE GARANTIE, EXPRESSE,EN CE QUI document ne doit pas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de après la date de la présentation. la date de la présentation. GARANTIE, EXPRESSE, IMPLICITE OU STATUTAIRE, IMPLICITECONCERNE CETTE PRÉSENTATION. CONCERNE CETTE PRÉSENTATION. OU STATUTAIRE, EN CE QUI

×