Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ビッグデータエコシステムとデータサイエンスのススメ

Bigdata, Data science, Hadoop, HBase, mongoDB, Hive, Drill, Impala, R, D3, Lambda Architecture, Data Stream Management System, CEP, fluentd, logstash, flume, Norikra, Esper, Strom, Spark, ElasticSearch, Kibana

  • Login to see the comments

ビッグデータエコシステムとデータサイエンスのススメ

  1. 1. Presented by Yuki Asano on June 25, 2014
  2. 2. “I keep saying that the sexy job in the next 10 years will be statisticians. And I’m not kidding.” Chief Economist Hal Varian(Google)
  3. 3. Harvard Business Review Magazine Data Scientist: The Sexiest Job of the 21st Century   by Thomas H. Davenport and D.J. Patil.
  4. 4. SEXY で 最強
  5. 5. Data Science
  6. 6. まずはここから
  7. 7. ‣ Data Mining ‣ Analyze ‣ Optimize Data Science で、ビジネスにコミット!
  8. 8. ‣ Data Mining ‣ Analytics ‣ Marketing Data Science With Big Data
  9. 9. Big Data!! ‣ Data is King!! ‣ many OSS technologies ‣ Decision Making Support ‣ Peak of Inflated Expectation at Hype Cycle
  10. 10. State of Big Data ‣ 市場に技術者がまだまだ不足 ‣ 旧弊的な考え、文化的な問題 ‣ データ指向ソフトウェア管理の定着 の難しさ
  11. 11. DIKW Pyramid KNOWLEDGE INFORMATION DATA WISDOM 知識からある法則を見出したもの 情報が分析され体系化されたもの データが整理されたもの 個々に独立した要素
  12. 12. DIKW Pyramid KNOWLEDGE INFORMATION DATA WISDOM 知識からある法則を見出したもの 情報が分析され体系化されたもの データが整理されたもの 個々に独立した要素 Data-Driven Decision Making!!
  13. 13. Big Data?? ‣ 母集団が多く多種特性のデータに対して効 果が認められている ‣ 有用な情報を見つけ出せる技術だが、見つ からないかもしれない ‣ 何ができるか明確でない、ビジネスにコミッ トする量を計ることが難しい ‣ 社内にあるデータがビッグじゃない
  14. 14. Big Data… まずは堅実に、  できることから始める
  15. 15. Integrated Data Management
  16. 16. Objectives ‣ Real-time Activity Monitor ‣ Improve Application Quality ‣ Analytic Data Supply
  17. 17. Objectives Real-time Monitor Improve Application Analytic Data Supply ‣異常検知 ‣即時対応 ‣業務精度向上 ‣アドバンストログ ‣顧客動向統計データ ‣ステータス傾向認知 ‣ユーザーアクション傾 向認知
  18. 18. Big Data を支える技術
  19. 19. Hadoop Ecosystem Framework Data Storage Query / Data flow Realtime • MapRed v1 • YARN • Apache Spark • HDFS • HBase • Cassandra • Amazon S3 • mongoDB • Hive • Pig • Impala • Drill • Presto • Stinger • Apache Storm • Apache Spark • Esper • Norikra
  20. 20. Hadoop Ecosystem HDFS YARN HBase PigHive Monitoring / BI Tools / Data Analytics Spark Storm Map Reduce Script DataQuality
  21. 21. Objectives Hadoop
  22. 22. Hadoop is … ‣ OSS (Apache License 2.0) ‣ Map Reduce (v1/v2 on YARN) ‣ Hadoop Distributed File System (HDFS)
  23. 23. Hadoop Cluster Master Namenode Slave Slave Slave Slave JobTracker Datanode TaskTracker • Random mapping • Slave control HDFS MapReducePhysical • Storage manage • I/O stream • Task schedule manage • Task monitor • Execute task • Map and Reduce
  24. 24. Database
  25. 25. Database Analytic Big Tables (Columnar) Key-Value Document NewSQL RDBMS Non-Rel Relational Non-Rel Relational Hadoop HBase Redis mongoDB Amazon RDB MySQL DB2 HyperTable Couchbase MySQL Cluster Oracle Sybase Cassandra Lotus Notes SQL Azure PostgreSQL One size does not fit all
  26. 26. Database Analytic Big Tables (Columnar) Key-Value Document NewSQL RDBMS Non-Rel Relational Non-Rel Relational Hadoop HBase Redis mongoDB Amazon RDB MySQL DB2 HyperTable Couchbase MySQL Cluster Oracle Sybase Cassandra Lotus Notes SQL Azure PostgreSQL One size does not fit all
  27. 27. Data Stream Management System
  28. 28. DBMS vs DSMS DBMS DSMS Query Ad Hoc Query Continuous Query Target Stored Data Stream Data App • Web Application • Batch Processing • Operation & Maintenance • Anomaly Event Detection • Click Stream • Sensor Data Software ISO SQL Lucene Esper S4 PL/SQL HiveQL Storm Oracle CQL Impala Pig Spark StreamBase
  29. 29. Continuous Query Ad Hoc Query SELECT avg_age FROM user WHERE SUBDATE( NOW(), INTERVAL 5 MINUTE ) >= datetime Continuous Query SELECT avg_age FROM user:time_batch(5 mins) Stored Data Result 5min window Complex Event Processing User Stream Data Result
  30. 30. Data Collect
  31. 31. ‣ データを産む ‣ 収集する ‣ 最適化・保存する ‣ 可視化する Data Collect
  32. 32. ‣ データを産む ‣ 収集する ‣ 最適化・保存する ‣ 可視化する Data Collect 統合ログ管理にお任せ!! アプリのログ設計を強く推奨。 使えるものは何でもログに吐く!
  33. 33. fluentd ‣ 多様なデータインプット方法 ‣ 本体は設定のみ超シンプル設計 ‣ 有用なプラグイン多数 ‣ プラグイン開発可能
  34. 34. View Batch Layer Speed Layer Serving Layer Merge Collect Data ‣All raw data store ‣Pre-Compute ‣Transformed Data ‣Batch Transform ‣Ad-hoc search ‣Realtime Transform ‣Continuous Query ‣Real-time Increment Compute ‣DSMS, CEP ‣Query ‣Visualize‣Data From Apps Lambda Architecture
  35. 35. View Batch Layer Speed Layer Lambda Architecture Serving Layer Collect Data Merge
  36. 36. Architecture Client FMS fluentd WEB fluentd Other fluentd HDFS ElasticSearch mongoDB fluentd R HiveQL Kibana Nginx Norikra (Esper) Aggregate Save ViewForwardCreate
  37. 37. Demo
  38. 38. Question
  39. 39. Thank you

×