Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Hadoop/Spark セルフサービス系の事例
まとめ @ Hadoop Summit SJC 2016
Yuta Imai
Solutions Engineer, Hortonworks
©	Hortonworks	Inc.	2011	–	...
2	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
自己紹介
Ã  今井 雄太
Ã  Solutions Engineer(セールスエンジニアのようなもの)
Ã  広告配信サーバーのレ...
3	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
今⽇のテーマ:セルフサービス
4	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
テーマ:セルフサービス
Ã  Day3 Keynote
–  Cloud Storage、Hortonworks Cloud、LLA...
5	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote
6	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote: Cloud Storage as a Data Lake
Ã  S3などのクラウドストレージは耐久性や...
7	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote: LLAP for cache layer
Ã  LLAP: Live Long And Process...
8	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data ...
9	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data ...
10	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
データマート
Hour
ETL
Event
Data
Daily
Rollup
Aggregate
ETL
Data
Aggreg...
11	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari
12	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  SymantecのH...
13	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  最初は社内のOpen...
14	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  出来上がったクラスタ...
15	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
16	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  eBayのプラットフォームチームによるセフルサービス化の話。
Ã  Gov...
17	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  Virtual DataMart
–  前の2者と違い、誰かがつくったDa...
18	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  Virtual DataMartとData Quality Firewal...
19	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Cost & Resource Tracking for Hadoop and Storm
20	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Ã  ⽶ヤフーでは社内Hadoopユーザーのリソース利⽤を通貨の形で可視化している
という話...
21	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Ã  クラスタの原価(TCO)に含まれるもの
–  Cluster & Network Ha...
22	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money! – Results!
Ã  当初の想定よりもリソースを使いまくっているプロジェクトの発⾒
Ã...
23	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
まとめ
24	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
まとめ
Ã  いろんなユースケースをひとつのHadoopクラスタに載せようとすると、ユース
ケースごとに異なる下記の条件を管理する...
Upcoming SlideShare
Loading in …5
×

Hadoop/Spark セルフサービス系の事例まとめ

1,778 views

Published on

Hadoopソースコードリーディング 第21回、Hadoop Summit San Jose 2016報告会で発表した資料です。
http://www.eventbrite.com/e/hadoop-21-tickets-26913657474

Published in: Technology
  • Login to see the comments

Hadoop/Spark セルフサービス系の事例まとめ

  1. 1. Hadoop/Spark セルフサービス系の事例 まとめ @ Hadoop Summit SJC 2016 Yuta Imai Solutions Engineer, Hortonworks © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  2. 2. 2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 自己紹介 Ã  今井 雄太 Ã  Solutions Engineer(セールスエンジニアのようなもの) Ã  広告配信サーバーのレポート作成のためにMapReduce(perl + streaming!)を使ったのがHadoopとの出会い。 Ã  その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3 などのビッグデータなプロダクトを主に担当。そんなつながりで Hortonworksに⼊社してHadoopをやっています。 Ã  @imai_factory
  3. 3. 3 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 今⽇のテーマ:セルフサービス
  4. 4. 4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved テーマ:セルフサービス Ã  Day3 Keynote –  Cloud Storage、Hortonworks Cloud、LLAPの話 Ã  Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive –  Yahoo! Inc.のデータマートの話 Ã  On-Demand HDP Clusters Using Cloudbreak and Ambari –  Symantecのデータマート(など)の話 Ã  Extreme Analytics @ eBay –  eBayのデータマートの話 Ã  Show me the Money! Cost & Resource Tracking for Hadoop and Storm –  Yahoo! Inc.のHadoopプラットフォームの料⾦配賦の話
  5. 5. 5 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Day 3 Keynote
  6. 6. 6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Day 3 Keynote: Cloud Storage as a Data Lake Ã  S3などのクラウドストレージは耐久性や運⽤ の容易さ、拡張性、マルチテナンシーなどの ⾯で優れている。 Ã  コンピュートとストレージを分離し、それぞ れ別々にスケールをさせることができるよう になる。 Ã  ⼀⽅、Hadoopの特徴のひとつであるデータ ローカリティとは相反する⾯がある。 Ã  Hadoopコミュニティとして、ここにeffortを あてていく必要があるという話。
  7. 7. 7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Day 3 Keynote: LLAP for cache layer Ã  LLAP: Live Long And Process Ã  Hiveのクエリフラグメントを実⾏するための 常駐デーモン Ã  IOが専⽤スレッドに切り離されておりここに キャッシュを持っている。 Ã  キャッシュはORCに最適化されている。 Ã  ストレージから取り出したデータを 「Column x Row Group」単位でキャッシュ。 Ã  これを利⽤すればある程度、遠いストレージ によるディスアドバンテージをカバーできる。 Ã  いまのところ単純なFIFO。複数デーモン間で の協調機構などはない。 Node LLAP Process Cache Query Fragment HDFS/Cloud Storage Query Fragment
  8. 8. 8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive
  9. 9. 9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive Ã  ⽶ヤフーのHiveの⾼速化やチューニングに関しての努⼒が語られた。 Ã  しゃべっていたのはHadoopをプラットフォームとして提供するチームのひとと 思われる。 Ã  パーティションの切り⽅とかReduce side Vectorizationの話、Joinの最適化、 Sketchの利⽤、hcatalogの⾼速化の努⼒などなど・・・ Ã  その中で、ユーザーへの提供インターフェイスとして「カスタムデータマー ト」という話が語られた。 Ã  プラットフォームチームはデータと、データマートをそれぞれサービスとして 提供する。
  10. 10. 10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データマート Hour ETL Event Data Daily Rollup Aggregate ETL Data Aggregate Druid HDFS User Interface 1x 24x ?x Generalized ETL Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive Data as a Service
  11. 11. 11 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari
  12. 12. 12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  SymantecのHadoopプラットフォームチームによるHadoopセルフサービス化 の取り組みの話 Ã  SSA(Self Service Analytics)というプロジェクト名でHadoopクラスタのセル フサービス化をやっている Ã  Symantec社内にはたくさんのデータ分析チーム、もしくはデータ分析をしたい ひとたちがいる。しかしそれぞれがやりたいことは全然異なっており、特定の 共通機能でカバーするのは難しい。 Ã  それぞれの要望をすべてプラットフォームチームで個別対応するのも⾮現実的。 Ã  ということでセルフサービス化へ。
  13. 13. 13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  最初は社内のOpenStackと、AmbariのBlueprint を使って実装。 Ã  ユーザーはSSAにログインして、ほしいクラスタ の規模や機能を決めてデプロイボタンを押す。 Ã  そうするとOpenStack上にクラスタが⽴ち上がっ て、Blueprintによって、必要なコンポーネントが インストールされたHDPクラスタが構築される。 Ã  ユーザーが使いたい様々なアプリケーションを管 理するためのAmbariのカスタムサービスを利⽤ Ã  現在、CloudBreakを使ってAWS上への移植の努 ⼒中。
  14. 14. 14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  出来上がったクラスタに対してのData Feedもサービス化されている。
  15. 15. 15 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay
  16. 16. 16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  eBayのプラットフォームチームによるセフルサービス化の話。 Ã  Governed Self Service Analytics Ã  300⼈以上のデータ分析者、5000⼈以上のユーザー Customer Product Transaction Behavior Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart
  17. 17. 17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  Virtual DataMart –  前の2者と違い、誰かがつくったDataMartは他のひとも利⽤できる –  そのために・・・ Ã  Data Assert Certification –  信頼の置けるViewなのか?誰が保証しているのか?いつ作られたものなのか? Ã  Business Glossary –  Viewの作られ⽅やロジック、その他属性などについての管理されたドキュメント Ã  Well Managed –  これは使ってもOKなものなのか?データの更新頻度や品質。
  18. 18. 18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  Virtual DataMartとData Quality Firewall Customer Product Transaction Behavior Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart DataQualityFirewall 1. 欲しいデータを探す 2. なければつくる 3. Virtual DataMartをつくるために提供されているData as a Service 4. 必要な情報を登録
  19. 19. 19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Cost & Resource Tracking for Hadoop and Storm
  20. 20. 20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Ã  ⽶ヤフーでは社内Hadoopユーザーのリソース利⽤を通貨の形で可視化している という話。実際にお⾦のやり取りをしているかどうかは不明。この取組は2015 年から始まった。 Ã  Web UIでUsageが確認できるようになっている Ã  Resource Usage = amount allocated x time allocated –  One 2GB mapper running for 5 hours = 10 GB-Hour –  Five 2GB mappers running for 1 hour = 10 GB-Hour
  21. 21. 21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Ã  クラスタの原価(TCO)に含まれるもの –  Cluster & Network Hardware –  R&D HC –  Power, Space, Labor support and facility management –  Acquisition/Install –  Operations engineering –  Network bandwidth Ã  これらをコア数、RAM、ストレージ、Namespace(?)、ネットワークなどの品 ⽬に分けてユーザーの利⽤量に応じて賦課 Ã  例えばRAMなら Resource Usage = amount allocated x time allocated –  One 2GB mapper running for 5 hours = 10 GB-Hour –  Five 2GB mappers running for 1 hour = 10 GB-Hour
  22. 22. 22 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! – Results! Ã  当初の想定よりもリソースを使いまくっているプロジェクトの発⾒ Ã  実際に必要なリソースよりも⼤きく上回る量を要求するプロジェクトの発⾒ Ã  プロジェクトメンバーも気づいていなかったリソース利⽤の発⾒ Ã  ゾンビプロジェクトの発⾒ Ã  結果としてリソース利⽤を効率化するという概念がみんなの頭に叩きこまれた
  23. 23. 23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved まとめ
  24. 24. 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved まとめ Ã  いろんなユースケースをひとつのHadoopクラスタに載せようとすると、ユース ケースごとに異なる下記の条件を管理するのがとてもむずかしくなる –  アプリケーションの種類やバージョン –  負荷特性 –  必要とされるキャパシティ –  セキュリティ要件 –  その他もろもろ Ã  これらの問題を解決するためのひとつのアプローチとして以下の様なアプロー チが取られ始めている –  データとコンピュートを分離 –  データと、コンピュートのプロビジョニングをサービスとして提供 –  ユーザーはこれらをセルフサービスで利⽤する

×